논문리뷰

VLM : 논문 리뷰 : COVLM: COMPOSING VISUAL ENTITIES AND RELATIONSHIPS IN LARGE LANGUAGE MODELS VIA COMMUNICATIVE DECODING

AI바라기 2025. 1. 13. 17:50

CoVLM: Composing Visual Entities and Relationships in Large Language Models via Communicative Decoding

Purpose of the Paper

기존 vision-language foundation models (VLMs) 은 "bag-of-words" 방식과 같이, visual entities와 그들 간의 관계를 정확하게 나타내는 단어를 구성하지 못하여 compositional reasoning 능력이 부족했습니다. 이 논문은 large language model (LLM) 이 visual entities와 relationships를 텍스트로 명시적으로 구성하고, vision encoder 및 detection network와 동적으로 communication하여 vision-language communicative decoding을 달성할 수 있는 새로운 VLM, CoVLM을 제안합니다. 즉, 기존 VLMs의 한계점을 극복하고 compositional reasoning 능력을 향상시키는 데 목적이 있습니다.

Key Contributions

Novel communication tokens: LLM을 위한 새로운 communication tokens을 고안하여 visual detection system과 language system 간의 dynamic communication을 가능하게 했습니다.
Vision-language communicative decoding: LLM은 communication tokens을 통해 visual entities와 relationships를 구성하고, visual detection network는 생성된 문장에 관련된 regions-of-interests (ROIs)를 제안합니다. 이 ROIs는 LLM으로 다시 전달되어 더 나은 language generation을 가능하게 합니다. 이러한 vision-to-language 및 language-to-vision communication은 문장 전체가 생성될 때까지 반복됩니다.
Compositional reasoning 능력 향상: 제안된 프레임워크는 visual perception과 LLMs 사이의 격차를 해소하고 compositional reasoning benchmarks에서 기존 VLMs을 큰 차이로 능가합니다. (예: HICO-DET mAP에서 ~20%, Cola top-1 accuracy에서 ~14%, ARO top-1 accuracy에서 ~3% 향상)

Novelty

Detection networks와의 통합: 기존 VLMs과 달리, CoVLM은 detection networks를 LLM과 통합하여 visual entities와 relationships에 대한 compositionality를 가능하게 하고 vision module과 LLM 간의 원활한 interaction을 가능하게 합니다.
양방향 Communication: communication tokens을 사용하여 top-down language-to-vision 및 bottom-up vision-to-language communication을 반복적으로 수행하여 visual information과 language generation을 긴밀하게 연결합니다.
Step-by-step communication: LLM은 visual components 및 relationships와 step-by-step communication을 수행할 수 있는 compositional structure를 갖추고 있습니다.

Experimental Highlights

Compositional reasoning benchmarks에서 state-of-the-art 성능 달성: HICO-DET, Cola, ARO와 같은 compositional reasoning benchmarks에서 기존 VLMs을 큰 차이로 능가하는 성능을 보여주었습니다.
Referring expression comprehension 및 visual question answering과 같은 traditional vision-language tasks에서도 경쟁력 있는 성능을 달성했습니다.
Zero-shot 방식으로 모든 실험이 진행되었습니다.
두 가지 모델 CoVLM 1.4B, CoVLM 2.8B 을 학습했습니다.
Pre-training settings: 9700만 개 이상의 image-text pairs로 구성된 large-scale grounded image-text dataset을 사용했습니다.

Limitations

Object-attribute 및 spatial event compositionality를 아직 다루지 못했습니다.
Generative model 특성상, 생성된 답변이 개념적으로는 정답과 일치하지만 annotation과 정확히 일치하지 않아 평가에 영향을 줄 수 있습니다.

Future Work

Object-attribute 및 spatial event compositionality를 다룰 수 있도록 모델을 개선할 계획입니다.
더욱 다양한 vision-language tasks에 대한 성능을 평가하고 개선할 계획입니다.
Visualization of compositional reasoning results를 통해 제안된 방법의 장점을 보여줍니다.
Ablation Study를 통해 각 communication token의 효과와 bidirectional communication의 중요성을 보여줍니다.

ABSTRACT

인간의 놀라운 능력은 compositional reasoning, 즉 "유한한 수단을 무한히 사용하는 능력"에 있습니다. 그러나 현재의 large vision-language foundation models (VLMs)은 "bag-of-words" 행동과 visual entities 및 entities 간의 관계를 올바르게 나타내는 단어를 구성할 수 없는 능력으로 인해 이러한 compositional 능력이 부족합니다. 이를 위해, 우리는 text에서 visual entities와 관계를 명시적으로 구성하고 LLM이 vision encoder 및 detection network와 동적으로 통신하여 vision-language communicative decoding을 달성할 수 있도록 안내하는 CoVLM을 제안합니다. 구체적으로, 우리는 먼저 visual detection system과 language system 간의 동적 통신을 위해 LLM에 대한 새로운 communication tokens 세트를 고안합니다. communication token은 LLM에 의해 visual entity 또는 관계에 따라 생성되어, 지금까지 생성된 문장과 관련된 regions을 제안하도록 detection network에 알립니다. 제안된 regions-of-interests (ROIs)는 관련 regions에 따른 더 나은 language generation을 위해 LLM에 다시 제공됩니다. 따라서 LLM은 communication tokens을 통해 visual entities와 관계를 구성할 수 있습니다. vision-to-language 및 language-to-vision 통신은 전체 문장이 생성될 때까지 반복적으로 수행됩니다. 우리의 framework는 visual perception과 LLMs 간의 격차를 원활하게 연결하고 compositional reasoning benchmarks에서 이전 VLMs을 큰 차이로 능가합니다(예: HICO-DET mAP에서 ∼ 20%, Cola top-1 accuracy에서 ∼ 14%, ARO top-1 accuracy에서 ∼ 3%). 또한 referring expression comprehension 및 visual question answering 1과 같은 전통적인 vision-language tasks에서도 경쟁력 있는 performances를 달성합니다.

1 INTRODUCTION

인간의 놀라운 능력은 compositional reasoning에 있습니다. 이는 유한한 집합의 알려진 components로부터 무한한 수의 새로운 조합을 구성하는 능력, 즉 "유한한 수단의 무한한 사용"입니다.

Figure 1: 기존 VLMs과의 비교

이전 models은 전체 이미지를 입력으로 받아 VLMs의 compositionality를 손상시킵니다. 우리의 CoVLM은 visual entities/relationships 뒤에 communication tokens을 LLM에 삽입하여 language-to-vision 및 vision-to-language 통신을 가능하게 하고 compositionality를 크게 향상시킵니다.

Figure 1에서 묘사된 것처럼, 사람이 sulky에 앉아있는 장면을 한 번도 본 적이 없는 사람이라도, "man", "is sitting on", "sulky"와 같은 알려진 components를 결합하여 이러한 결론을 쉽게 도출할 수 있습니다. Compositionality는 언어에서 어디에서나 존재하며, 문장은 "man"과 같은 명사와 "sit"과 같은 동사로 구성됩니다. 또한 vision에서도 보편적으로 존재하여, "sit on"과 같은 관계로 구성된 사람과 sulky와 같은 visual entities를 쉽게 감지할 수 있습니다. 인지 과학자들은 문장의 의미가 발화와 인지될 수 있는 외부 상황 간의 상호 작용에 있다고 믿습니다. 즉, 명사구의 의미는 visual entity에 연결되고, 동사구의 의미는 관계적 속성에 연결됩니다. 주어, 동사구, 목적어의 의미로부터 문장은 체계적이고 compositional 방식으로 구성됩니다.

그러나 현재의 Vision-Language Models (VLMs)은 이러한 compositional 능력이 부족한 경향이 있습니다. 최근 연구에서 지적한 바와 같이, 이러한 VLMs의 compositionality 결핍은 "bag-of-words"처럼 행동한다는 가설, 즉 단어의 빈번한 동시 발생을 단순히 암기하지만 objects와 objects 간의 관계를 올바르게 나타내는 단어를 구성하지 못한다는 가설 때문일 가능성이 높습니다. 이전 연구들은 VLMs이 관계가 포함될 때 어려움을 겪는다는 것을 보여주었습니다. 우리는 또한 Figure 1에서 이 결론에 도달할 수 있습니다. 이 그림에서 models은 "a man sits on a horse"가 자주 나타나고 이미지에 man과 horse가 있다는 pre-training에서 학습된 지름길을 활용하여, 사람이 앉아있는 실제 object인 sulky를 완전히 간과합니다.

이러한 VLMs의 architectures와 그들이 어떻게 이미지를 LLMs에 주입하는지 자세히 살펴보면, 이러한 VLMs이 인간이 compositional reasoning을 수행하는 방식과 여러 측면에서 벗어난다는 것을 알 수 있습니다. 첫째, 그들은 하나의 이미지를 전체적으로 LLMs에 제공하고 전체적인 이미지 embedding을 기반으로 language 설명을 생성합니다. 이것은 전체 이미지가 visual entities와 더 중요하게는 entities 간의 관계로 구성될 수 있는 vision의 object 중심 표현과 일치하지 않습니다. 둘째, 이러한 방법은 문장 부분과 이미지의 구성 요소 간의 상호 작용을 무시합니다. LLM에 의한 새로운 단어의 generation은 특정 visual entity 또는 관계와 연결되지 않고, 이전 단어와 전체적인 이미지 features에 의존합니다. 일련의 연구들이 VLMs의 compositional 능력을 강화하기 위해 제안되었지만, 그들은 주로 추가적인 datasets을 제안하여 문제를 조사합니다. 그러나 compositionality에 대한 최근 분석에서 언급된 바와 같이, vision-language models에게 누락된 compositionality를 가르치기 위해 특화된 대규모 데이터를 수집하는 것은 비현실적입니다. 왜냐하면 visual entities와 그 관계의 각 종류와 가능한 값에 대한 특화된 텍스트-이미지 쌍을 찾는 것은 비용이 많이 들기 때문입니다. 이 논문에서 우리는 model architecture의 관점에서 이 문제의 본질에 접근하여, visual components 및 관계와 단계별 통신을 수행할 수 있는 LLM의 compositional 구조를 밝힙니다.

우리는 CoVLM을 제안합니다. CoVLM은 LLM이 텍스트 중에서 visual entities와 관계를 명시적으로 구성하도록 안내하고, detection network와 동적으로 통신하여 vision-language communicative decoding을 달성합니다. 구체적으로, 우리는 detection network와 LLM 간의 동적 상호 작용 및 통신을 위한 새로운 communication tokens 세트를 고안합니다. Communication tokens은 visual entities 또는 관계를 나타내는 language tokens 뒤에 LLM에 의해 생성됩니다. communication tokens의 생성 시, detection network는 지금까지 생성된 language sequence와 관련된 regions을 디코딩하고 여러 bounding box proposals을 제안하는 데 사용됩니다. 그런 다음 관련 regions의 features는 communication tokens에 의해 LLM에 다시 제공되며, 이를 조건으로 LLM은 후속 tokens을 디코딩합니다. 하향식 vision-to-language 및 상향식 language-to-vision communicative decoding은 모든 단어와 tokens이 생성될 때까지 반복적으로 수행됩니다. 이 패러다임은 Figure 1의 오른쪽에 표시되어 있습니다.

우리는 먼저 CoVLM을 compositional reasoning tasks에서 평가합니다. 여기에는 주어와 관계가 주어졌을 때 object entity를 예측하는 것(ARO), 유사한 entities를 가진 두 이미지 간의 관계를 설명하는 올바른 캡션을 매칭하는 것(Cola), human-object interaction detection(HICO-DET)이 포함됩니다. 우리는 baseline VLMs을 큰 차이로 능가합니다(예: HICO-DET mAP에서 ∼ 20%, Cola top-1 accuracy에서 ∼ 14%, ARO top-1 accuracy에서 ∼ 3%). 또한 referring expression comprehension 및 visual question answering과 같은 vision-language tasks에서도 경쟁력 있는 결과를 달성합니다.

기존 VLM의 문제점:

"Bag-of-words" 방식: 단어의 동시 발생 빈도만 학습하고, object와 object 간의 관계를 제대로 표현하지 못함.
전체 이미지 입력: 이미지를 전체적으로 입력받아 object-centric representation을 무시함.
문장과 이미지 간 상호작용 부족: 단어 생성이 특정 visual entity나 관계와 연결되지 않고, 이전 단어와 전체적인 이미지 features에 의존함.
Compositionality를 위한 특화된 대규모 데이터 수집의 비현실성: visual entities와 관계의 모든 종류와 값에 대한 텍스트-이미지 쌍을 찾는 것은 매우 비쌈.

CoVLM의 핵심 아이디어:

Communication Tokens: LLM과 detection network 간의 dynamic communication을 위한 새로운 토큰 세트.
Vision-Language Communicative Decoding:
- LLM이 visual entity 또는 관계를 나타내는 language tokens 뒤에 communication tokens을 생성.
- Detection network는 생성된 language sequence와 관련된 regions을 디코딩하고 bounding box proposals을 제안.
- 관련 regions의 features는 communication tokens을 통해 LLM에 다시 제공되고, LLM은 이를 기반으로 다음 tokens을 디코딩.
- Vision-to-language와 language-to-vision 통신이 반복적으로 수행됨.
Compositional Structure: LLM이 visual components 및 관계와 단계별로 통신할 수 있는 구조를 제공.

CoVLM의 장점:

Visual perception과 LLMs 간의 격차를 줄임.
Compositional reasoning 능력을 크게 향상시킴 (HICO-DET mAP ∼ 20% 향상, Cola top-1 accuracy ∼ 14% 향상, ARO top-1 accuracy ∼ 3% 향상).
Referring expression comprehension, visual question answering 등 일반적인 vision-language tasks에서도 경쟁력 있는 성능을 보임.

결론:

CoVLM은 LLM이 텍스트 내에서 visual entities와 관계를 명시적으로 구성하고, detection network와 동적으로 통신하여 vision-language communicative decoding을 달성하도록 안내함으로써, 기존 VLM의 한계를 극복하고 compositional reasoning 능력을 크게 향상시킨 새로운 VLM architecture입니다.

2 RELATED WORKS

2.1 VISION-LANGUAGE MODEL (VLM)

최근 놀라운 상식 reasoning 능력을 가진 VLMs이 급증하고 있습니다. 그 중에서, Flamingo는 visual contexts에 attend하고 visual context learning을 가능하게 하기 위해 cross-attention과 perceiver sampler를 사용합니다. BLIP2는 visual context를 기반으로 더 나은 language generation을 위해 salient visual context에 attend하는 QFormer를 사용합니다. LLaVA는 먼저 image-text alignment를 수행한 다음 instruction finetuning을 수행합니다. MiniGPT-4는 단 하나의 projection layer를 사용하여 frozen visual encoder를 LLM과 정렬합니다. mPLUG-Owl은 또한 image와 text를 정렬하기 위한 2단계 방법을 포함합니다. 최근에는 VLMs을 3D 도메인으로 확장하는 논문도 있습니다.

최근에는 visual segmentation tasks를 위해 LLMs를 활용하는 일련의 연구들이 있습니다. 구체적으로, VisionLLM은 language instructions이 주어지면 bounding boxes와 polygons에 대한 예측을 하는 LLM 기반 decoder를 사용합니다. DetGPT는 인간의 instruction을 해석하고, 상식 지식을 사용하여 visual scene에 대해 reasoning하고, 마지막으로 관심 objects를 출력할 수 있습니다. GPT4RoI는 language와 spatial information이 interleaved sequences로 포함된 사용자 instructions을 처리할 수 있습니다. LISA는 segmentation 능력을 활용하기 위해 embedding-as-mask 패러다임을 제안합니다. 그러나 이러한 VLMs의 vision-language communication은 단방향 및 일회성이며, 단지 language instructions을 사용하여 segmentations을 생성하거나 segmented regions을 LLMs에 입력합니다. KOSMOS-2는 visual entities 뒤에 location tokens을 language generation 프로세스에 주입합니다. 그러나 communication은 순전히 language system에서 segmentation을 위한 이미지로만 이루어지며, grounded visual regions은 language system에 다시 제공되지 않습니다. 더욱이, 이러한 VLMs 중 어느 것도 language inputs의 관계나 compositionality를 다루지 않습니다. 이 논문에서 우리는 각 단계에서 visual 및 language systems 간에 통신하고 visual entities 및 relations을 구성하기 위한 communication tokens 세트를 갖춘 CoVLM을 제안합니다.

우리의 vision module은 이미지를 encode하는 CLIP encoder와, language inputs와 함께 이미지를 받아 관련 regions을 생성하는 object detector로 구성됩니다. language modeling을 위해, 우리는 LLM에 communication tokens 세트를 삽입합니다. 이 토큰들은 visual entity 뒤에는 <obj> 토큰과 함께, relationship 뒤에는 <rel> 토큰과 함께 나타날 수 있습니다. 그런 다음 LLM의 마지막 hidden layer는 지금까지의 language inputs와 관련된 regions을 제안하기 위해 object detector로 전송됩니다. 이것은 하향식 language-to-vision communication이라고 합니다. 다음으로, vision-to-language communication에서 제안된 regions의 features는 추가적인 language generation을 위해 <obj> 또는 <rel> 토큰을 통해 LLM으로 다시 제공됩니다.

2.2 COMPOSITIONALITY IN VISION AND LANGUAGE

Compositionality는 인간 지능의 특징이며 vision과 language에서 필수적인 역할을 합니다. vision과 language의 compositionality를 탐구하는 이전 연구들은 visual question answering, generation, retrieval, planning 등과 같은 다양한 tasks를 다룹니다. vision-language models의 compositionality를 조사하기 위해 일련의 datasets이 제안되었습니다. 구체적으로, Attribution, Relation, and Order (ARO) benchmark는 VLMs이 다양한 유형의 relationships, attributes, order를 이해하는 능력을 체계적으로 평가하기 위한 benchmark입니다. 최근 VL-Checklist는 objects, attributes, relations을 인식하는 VLM의 능력을 평가하기 위한 framework입니다. Cola는 VLMs의 compositional 능력을 자세히 분석하고 objects와 그들의 relations을 구성하기 위한 text-to-image retrieval benchmark를 제안합니다. 이러한 benchmarks와 metrics에 대한 VLMs의 평가는 현재 VLMs이 compositionality에 어려움을 겪고 있음을 보여줍니다. 더욱이, 일련의 연구들은 VLMs이 relationships이 포함될 때 특히 어려움을 겪는다는 것을 발견했습니다. 이 논문에서 우리는 앞서 언급한 datasets과 metrics의 도움을 받아 특히 relational compositionality에 중점을 둡니다.

2.1 Vision-Language Model (VLM)

최근 VLM 동향: Flamingo, BLIP2, LLaVA, MiniGPT-4, mPLUG-Owl 등 다양한 VLM들이 등장했습니다.
VLM을 활용한 Visual Segmentation: VisionLLM, DetGPT, GPT4RoI, LISA와 같이 LLM을 visual segmentation tasks에 활용하는 연구들이 있습니다.
기존 VLM의 한계:
- 단방향, 일회성 Communication: Language instruction을 사용해 segmentation을 생성하거나, segmented regions을 LLM에 입력하는 수준에 그침.
- KOSMOS-2: Location tokens을 language generation에 주입하지만, language system에서 이미지로의 단방향 communication만 존재하고, grounded visual regions은 language system으로 feedback되지 않음.
- 관계 및 Compositionality 처리 불가: Language inputs의 관계나 compositionality를 다루지 못함.

2.2 Compositionality in Vision and Language

Compositionality의 중요성: 인간 지능의 특징이며, vision과 language에서 필수적인 역할.
관련 연구 및 Datasets: VQA, generation, retrieval, planning 등 다양한 tasks에서 compositionality를 탐구하는 연구들이 진행됨. ARO, VL-Checklist, Cola 등 compositionality 평가를 위한 datasets이 제안됨.
VLM의 Compositionality 문제: 기존 VLM은 compositionality, 특히 relationships이 포함된 경우 어려움을 겪음.

CoVLM의 차별점 (본 논문의 핵심)

Communication Tokens: Visual entities와 relations을 구성하고, visual 및 language systems 간의 단계별 communication을 위한 communication tokens 세트를 제안함.
양방향, 단계별 Communication: Language system과 vision system 간의 양방향 communication을 통해, visual regions이 language generation에 지속적으로 영향을 미침.
Relational Compositionality: Relational compositionality에 중점을 두어, 기존 VLM의 한계를 극복하고자 함.

결론:

본 논문은 기존 VLM들이 compositionality, 특히 relational compositionality를 처리하는 데 어려움을 겪고 있다는 점을 지적하고, 이를 해결하기 위해 양방향, 단계별 communication이 가능한 CoVLM을 제안합니다. CoVLM은 communication tokens을 통해 visual entities와 relations을 명시적으로 구성하고, visual 및 language systems 간의 긴밀한 상호작용을 가능하게 함으로써 기존 연구와 차별화됩니다.

3.1 VISION MODULE

우리의 vision module은 image encoder와 detection network의 두 부분으로 구성됩니다.

Image Encoder: 이 논문에서 우리는 이미지를 encoding하기 위해 CLIP ViT-L model을 사용합니다. 우리는 linear mapping layer를 사용하여 이미지 embeddings을 Pythia language embedding 공간과 동일한 embedding 공간으로 mapping합니다. 그런 다음 이미지 embeddings을 language sequence의 시작 부분에 추가합니다.

Detection Network: 우리의 detection network는 YOLOX와 유사합니다. detection network는 두 가지를 입력으로 받습니다.

전체 이미지의 이미지 embeddings (N x N x D, 여기서 N은 patch 크기이고 D는 embedding 차원입니다)
지금까지 LLM의 마지막 hidden state (1 x D).

LLM embedding은 이미지 embedding과 동일한 차원으로 확장 및 연결되어 N x N x 2D 크기의 최종 multi-modal embedding을 생성하고 detection network로 전송됩니다. detection network는 N x N x 4 bounding boxes와 N x N confidence scores를 출력합니다. non-maximum suppression 후에, 우리는 일련의 bounding boxes를 regions of interest (ROIs)로 유지합니다. 하나의 ROI의 embeddings을 추출하기 위해 ROI에 의해 포함되는 모든 patches의 features를 추출하고, average pooling하여 크기 D의 box embedding을 생성합니다. 우리는 상위 scores를 가진 m개의 cropped image features를 선택합니다.

3.2 LANGUAGE MODELS

우리는 pre-trained Pythia model을 우리 LLM의 backbone으로 활용합니다. language tokens 외에도, Figure 2에서 볼 수 있듯이 compositional vision-language modeling 및 communication을 용이하게 하기 위해 특별한 communication tokens 세트를 고안합니다. 아래에 tokens 세트를 나열합니다.

<obj>, </obj>: 이 두 tokens은 visual entity를 나타내는 language tokens 세트를 둘러쌉니다.
<|obj|>: 이 토큰은 visual entity token v1이 LLM에 의해 포착된 후 vision module로 전환하기 위한 것으로, vision module이 visual entity에 attend할 수 있도록 합니다.
<obj>: 이 토큰은 vision module로부터 feedback을 수신하여, 감지된 v1의 이미지 features를 다시 LLM에 연결합니다.
<|rel|>: 이 토큰은 이전 visual entity v1에 대한 관계 r이 감지된 후(그리고 v1에 대한 관계 r에 있는 visual entity v2가 생성되기 전) vision module로 전환하기 위한 것입니다.
<rel>: 이 토큰은 v2의 잠재적 regions이 감지된 후 vision module에서 다시 전환하고, v2의 language 설명을 더 잘 생성하기 위해 features를 연결합니다.

visual entities 및 relations에 대한 communication tokens의 generation을 통해 language sequences를 더 작은 components로 분해할 수 있으며, 여기서 각 component는 vision module에 연결되어 compositionality를 향상시킵니다.

3.3 VISION-LANGUAGE COMMUNICATION

vision module과 language model 간의 동적 상호 작용 및 communication은 위에서 소개된 특별한 communication tokens을 통해 반복적으로 수행될 수 있습니다.

Top-Down Language-to-Vision Communication: Top-down communication은 먼저 <|obj|> 토큰 또는 <|rel|> 토큰을 생성하여 달성됩니다. 토큰이 생성된 후, 우리는 LLM의 마지막 hidden state를 취함으로써 지금까지 생성된 language 정보를 요약합니다. 이 정보는 인간의 visual system과 마찬가지로 vision module에 attend해야 할 목표 또는 task를 제공합니다. 지금까지의 정보에 따라, vision module은 detection network를 사용하여 여러 ROIs를 제안하고 이러한 ROIs의 features를 추출합니다.

Bottom-Up Vision-to-Language Communication: Bottom-up communication은 <obj> 토큰 또는 <rel> 토큰을 생성하여 달성됩니다. 그런 다음 vision module에서 생성된 ROIs는 추가적인 language generation을 돕기 위해 LLM에 다시 제공됩니다. 예를 들어, <|rel|>에 "a bread is on the left of"와 관련된 regions이 포함된 경우, LLM은 이 정보를 흡수하고 "salad"를 생성할 수 있습니다.

3.4 MODEL PRE-TRAINING

Pre-training data: 우리는 BLIP-2의 pre-training data에서 97M 이상의 image-text 쌍으로 구성된 대규모 grounded image-text dataset을 생성합니다. 이미지는 COCO, CC3M, CC12M, Visual Genome, SBU 및 LAION400M의 하위 집합을 포함한 다양한 datasets에서 가져옵니다. KOSMOS-2와 유사하게, 우리는 image-text 쌍에 grounding pipeline을 적용하여 캡션의 text spans을 이미지의 해당 visual entities에 연결합니다. pipeline은 세 단계로 구성됩니다.

먼저, GroundingDINO를 사용하여 objects와 해당 textual description을 감지합니다.
KOSMOS-2에서 영감을 받아, spaCy를 적용하여 grounded words를 grounded expressions로 확장하여 언어적 의미를 풍부하게 합니다.
마지막으로, communication tokens을 textual description 주위에 삽입하여 grounded data를 완성합니다.

pre-training dataset을 생성하는 방법에 대한 자세한 내용은 Appendix에서 찾을 수 있습니다.

Pre-training settings: 우리는 두 가지 models을 trained 했습니다. CoVLM 1.4B와 2.8B는 각각 Pythia-1.4B와 Pythia-2.8B를 LLM으로 사용합니다. 둘 다 image encoder로 CLIP ViT-L/14를 사용합니다. 우리는 이러한 models에 대한 huggingface checkpoint를 로드하고 pre-training 중에 전체 model을 완전히 fine-tune합니다. 자세한 내용은 Appendix에서 찾을 수 있습니다.

CoVLM의 작동 방식을 다시 한번 간략하게 정리하면 다음과 같습니다.

프롬프트 입력: 특수 토큰이 없는 일반적인 텍스트로 시작 (예: "A")
<obj> 토큰 생성: LLM이 다음에 visual entity가 올 것이라고 판단하면 <obj> 생성
Visual Entity 생성: <obj> 다음에 visual entity (예: "man") 생성 후, </obj> 생성
<visual> 토큰 생성: </obj> 다음에 <visual> 생성 (Vision Module 호출)
<box> 토큰 생성: <box> 생성 후, Vision Module에서 찾은 ROIs features를 concatenate (LLM에 visual 정보 입력)
<previsual> 토큰 생성: LLM이 다음에 관계(relation)가 시작될 것이라고 판단하면 <previsual> 생성
관계(Relation) 생성: <previsual> 다음에 관계를 나타내는 단어들 (예: "is sitting on") 생성
<prebox> 토큰 생성: <prebox> 생성 후, Vision Module에서 예측한 ROIs features를 concatenate (LLM에 visual 정보 입력)
반복: LLM은 EOS 토큰을 생성할 때까지 2-8단계를 반복