AI바라기의 인공지능
VLM : 논문 리뷰 : Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models 본문
VLM : 논문 리뷰 : Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models
AI바라기 2025. 2. 25. 16:14Overall Summary
This paper introduces a new framework (PromViL) which is a novel framework integrating multi-granular language-vision training with progressive reasoning, allowing models to ground and reason in scenarios with intricate textual information and multiple visual relations.
- Also Introduces a dataset construction pipeline to create a new dataset of nested compositional V-L pairs curated from Visual Genome, enabling training on multiple complexity levels.
- PromViL demonstrates superior performance in grounded compositional visual reasoning, advancing the state-of-the-art.
쉬운 설명
이 논문은 복잡한 이미지와 문장을 주고받을 때, 마치 사람이 단계를 밟아가며 추론하는 것처럼, 컴퓨터도 점진적으로 더 복잡한 내용을 이해할 수 있도록 하는 새로운 방법(PromViL)을 제안합니다. 예를 들어, "재킷을 입은 남자 옆에 있는 사람 뒤에 있는 차"라는 문장을 이해하기 위해, 먼저 "재킷", "재킷을 입은 남자", "재킷을 입은 남자 옆에 있는 사람"과 같이 간단한 것부터 시작해서 점차적으로 더 복잡한 관계를 파악하는 방식입니다. 마치 레고 블록을 쌓듯이, 작은 조각(simple concepts)들을 조합하여 큰 그림(complex expressions)을 완성하는 것과 유사합니다. 이를 위해, Visual Genome이라는 기존 데이터를 활용하여 새로운 학습 데이터(CompoVL)도 만들었습니다.
Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models
Purpose of the Paper
- 기존 Large Vision-Language Models (LVLMs)는 multi-modal input 간의 concept matching은 뛰어나지만, compositional concepts와 entities 간의 high-level relationships 이해에는 어려움을 겪음.
- 본 논문은 grounded compositional visual reasoning 능력을 향상시키기 위해, progressive multi-granular Vision-Language alignments (PromViL) 라는 새로운 framework를 제안.
- 기존 연구들이 holistic image embeddings와 textual embeddings 간의 associations에 의존하거나, single granularity levels에만 집중하는 것과 달리, PromViL은 simple concepts부터 complex concepts까지 hierarchical structure of multi-modal alignments를 구축.
Key Contributions
- Progressive multi-granular Vision-Language alignments (PromViL) framework 제안:
- Hierarchical multi-granular associations를 활용하여, simpler concepts를 cue로 사용하여 progressively complex concepts를 이해.
- Multi-step grounding과 reasoning을 simple task에서 complex task로 가능하게 함.
- 어떠한 grounded LVLM에도 적용 가능한 'agentic flow' 스타일.
- Nested compositional V-L pairs dataset (CompoVL) 구축:
- Visual Genome dataset (Krishna et al. 2017)을 활용하여, multiple complexity levels에서 training 가능.
- Visual relations of unbounded complexity 학습 가능.
- Data generation process that creates a novel dataset, providing a wide range of nested compositional vision-language pairs.
- 성능 향상 입증:
- Various visual grounding 및 compositional question answering tasks에서 baselines을 significantly outperform.
- Only 4.9% tunable parameters와 60K fine-tuning data samples로, 더 큰 models (CoVLM (2.4B), Pink (7B))보다 grounding tasks에서 우수한 성능.
Novelty
- PromViL employs hierarchical multi-granular associations, progressively utilizing simpler concepts as cues to understand more complex ones.
- Data generation process that creates a novel dataset, providing a wide range of nested compositional vision-language pairs.
Experimental Highlights
- CompoVL-hard benchmark에서 성능 향상:
- 기존 모델 대비 약 9.0 point 증가.
- Zero-shot grounding tasks에서 최대 5.5 point 증가.
- Zero-shot compositional reasoning task에서 accuracy 및 validity 각각 약 5 point, 10 point 증가.
- PromViL, with only 4.9% tunable parameters and 60K fine-tuning data samples, shows significant improvements.
- Zero-shot grounding 및 compositional VQA tasks에서 우수한 성능:
- RefCOCOg, RefCOCO/RefCOCO+에서 state-of-the-art LVLMs 능가.
- GQA, GQA-OOD, Visual7W에서 fine-tuned versions of Kosmos-2보다 우수한 성능.
- Ablation studies를 통한 구성 요소 중요성 입증:
- All levels included, Intermediate levels removed, Only highest level included, Only simplest level included 실험을 통해, chain of reasoning의 중요성 확인.
Limitations and Future Work
- Limitations:
- Constituency parser (Kitaev, Cao, and Klein 2019)와 dependency parser (Nivre 2008)를 사용하여 nested subsequences를 추출하는 과정에서 error propagation 발생 가능성.
- CompoVL dataset이 Visual Genome (Krishna et al. 2017) annotations에 의존적이므로, annotation quality에 따라 성능 영향.
- Future Work:
- Error propagation을 줄이기 위한 more robust parsing techniques 연구.
- Dataset diversity를 높이기 위해, 다양한 sources로부터 data augmentation.
- PromViL framework를 다른 vision-language tasks (e.g., visual reasoning, image captioning)로 확장.
Abstract
기존의 Large Vision-Language Models (LVLMs)는 multimodal inputs에서 concepts를 매칭하는 데는 뛰어나지만, compositional concepts와 entities 간의 high-level 관계에서는 어려움을 겪습니다. 이 논문에서는 grounded compositional visual reasoning tasks를 수행하는 LVLMs의 능력을 향상시키기 위한 새로운 framework인 Progressive multi-granular Vision-Language alignments (PromViL)를 소개합니다. 우리의 접근 방식은 simple concepts에서 complex concepts에 이르기까지 multimodal alignments의 hierarchical structure를 구성합니다. textual descriptions를 corresponding visual regions와 점진적으로 align함으로써, 우리 model은 lower levels의 contextual information을 활용하여 high-level reasoning을 수행하는 방법을 학습합니다. 이러한 학습 과정을 용이하게 하기 위해, 우리는 Visual Genome에서 파생된 새로운 dataset을 생성하는 data generation process를 도입하여 광범위한 nested compositional vision-language 쌍을 제공합니다. 실험 결과는 우리의 PromViL framework가 다양한 visual grounding 및 compositional question answering tasks에서 baselines를 significantly outperforms 함을 보여줍니다.

Figure 1: Comparison with Existing LVLMs
(a) Coarse-grained: Whole image/region with full text, object details 부족.
(b) Fine-grained: Simple phrases and bounding boxes, relational context 부족.
(c) PromViL은 hierarchical multi-granular associations를 사용하여, simpler concepts를 progressively 활용하여 more complex ones를 이해합니다.
Introduction
Vast amounts of image-text data에 pre-trained 된 Large Vision-Language Models (LVLMs)는 complex vision-language (V-L) tasks를 해결하는 데 큰 가능성을 가지고 있습니다. 그러나 현재 LVLMs는 여전히 compositional reasoning, 즉 smaller elements로 구성된 complex queries에 응답하는 능력에서 부족합니다. Compositionality는 syntax trees를 가진 language, scenes and objects를 가진 vision, 그리고 "전체의 의미가 부분의 의미의 함수"인 모든 곳에서 볼 수 있는 pervasive phenomenon입니다.
Complex visual query에 직면했을 때, 인간은 recursively하게 이를 smaller components로 decompose하는 동시에 corresponding visual elements에 grounding 할 수 있습니다. Current LVLMs는 아직 그러한 능력을 갖추고 있지 않습니다.
대부분의 existing models는 whole textual prompts와 entire images를 처리하며, holistic image embeddings와 textual embeddings 간의 associations에 의존합니다. 이러한 methods는 sentence parts와 image components 간의 interactions를 무시하여, 좋지 않은 textual information grounding으로 이어지고, 결과적으로 reasoning tasks에서 suboptimal performance를 초래합니다.
Kosmos-2, Pink, CoVLM과 같은 다른 모델들은 visual entities에 해당하는 location information을 language generation process에 주입하여 grounding ability를 향상시킴으로써 이러한 단점을 해결합니다. 결과적으로, 그들은 individual objects를 포함하는 simple concepts를 ground 할 수 있지만, 여전히 multiple objects와 complex relationships를 포함하는 scenarios에서는 어려움을 겪습니다. 이러한 limitation은 그들의 underlying grounding processes에서 비롯될 수 있습니다. Coarse-grained processes (Fig. 1.a)는 complex expressions (예: "the car behind the person next to the man with a jacket")를 a region에 align하지만, object-level alignments를 무시하며, 이는 visual reasoning 및 image captioning과 같은 tasks에 crucial합니다. 반면에, fine-grained processes (Fig. 1.b)는 concepts를 single objects에 align하지만, multiple objects 간의 relations를 이해하는 데 어려움을 겪습니다. 특히 ambiguous scenarios (예: 여러 명의 남자가 있을 때 "man with a jacket" 식별)에서 더욱 그렇습니다. 두 approaches 모두 textual descriptions와 visual elements 간의 nuanced relationships를 제대로 capture하지 못하여, sophisticated compositional reasoning을 필요로 하는 tasks에서의 effectiveness를 제한합니다.
이러한 limitations를 해결하기 위해, 우리는 off-the-shelf LVLMs를 'agentic flow' style로 활용하는 novel compositional reasoning framework를 제안합니다. 우리의 approach는 grounded LVLM에 적용 가능하며, multi-granular language-vision training과 progressive reasoning을 통합합니다.
- 우리는 Visual Genome dataset을 활용하여 nested compositional V-L pairs를 curate하는 dataset construction pipeline을 통해 model의 grounding ability를 강화합니다. 이를 통해 multiple complexity levels에서의 training이 가능하며, models는 unbounded complexity의 visual relations를 학습할 수 있습니다. Previous methods와 달리, textual information의 concepts 수에 의해 제한되지 않거나 specific levels의 visual information에 국한되지 않습니다.
- 전체 question과 image를 한 번에 input하는 대신, 우리는 text를 object-centric components로 decompose하여 gradually increasing complexity를 갖도록 합니다. 그런 다음 model에게 step-by-step reasoning을 수행하도록 prompt하여, simple에서 complex로 진행합니다. 각 step의 visual information은 subsequent steps에서 model에 feed back되어, 점진적으로 grounding 및 reasoning processes를 안내합니다. 우리는 이 method를 PromViL (Progressive multi-granular Vision-Language alignments)이라고 부르며, Fig. 1에서 그 behaviors를 보여줍니다.
우리는 extensive experiments를 수행하여 our framework의 effectiveness를 입증합니다.
- 동일한 size의 other models와 비교했을 때, PromViL은 tunable parameters가 4.9%에 불과하고 fine-tuning data samples가 60K임에도 불구하고 significant improvements를 보여줍니다. 우리 benchmark에서 약 9.0 point 증가, zero-shot grounding tasks에서 최대 5.5, zero-shot compositional reasoning task에서 accuracy 및 validity가 각각 거의 5 point와 10 point 증가했습니다.
- Importantly, PromViL은 grounding tasks에서 CoVLM (2.4B) 및 Pink (7B)와 같은 larger models를 능가하고, compositional reasoning tasks에서 두 배의 VQA data로 fine-tuned 된 baselines를 초과합니다.
우리의 main contributions는 세 가지입니다:
(1) 우리는 multi-granular language-vision training과 progressive reasoning을 통합하는 novel framework인 PromViL을 제안하여, models가 intricate textual information과 multiple visual relations가 있는 scenarios에서 ground하고 reason할 수 있도록 합니다.
(2) 우리는 Visual Genome에서 nested compositional V-L pairs의 new dataset을 create하는 dataset construction pipeline을 도입하여 multiple complexity levels에서의 training을 가능하게 합니다.
(3) 우리는 extensive experiments를 수행하여 complex visual scenes 및 linguistic descriptions를 처리하는 PromViL의 effectiveness를 입증하고, various benchmarks에서 existing approaches를 outperform합니다. 우리의 experiments는 public data와 models만을 사용하여 학계에서 재현 가능합니다. Model은 32GB memory의 consumer GPUs에서 trained 될 수 있습니다. 우리는 이 분야의 추가 연구를 support하기 위해 our code와 datasets를 release할 것입니다.
Introduction 섹션 정리 노트 (AI 연구자 대상)
핵심: 기존 Large Vision-Language Models (LVLMs)는 복잡한 구성적 추론(compositional reasoning)에 약점을 보임.
문제점:
- Coarse-grained grounding: 전체 이미지와 텍스트를 뭉뚱그려 연결하여, object-level의 detail한 정보를 놓침. (Fig. 1.a)
- Fine-grained grounding: 개별 object에만 집중하여, object 간의 관계 및 문맥 파악에 어려움. (Fig. 1.b)
- 결과적으로, 복잡한 visual scene과 linguistic descriptions를 제대로 이해하고 reasoning 하는 데 한계.
제안 (PromViL):
- Multi-granular language-vision training: Visual Genome 기반의 새로운 nested compositional V-L pairs dataset 구축. 다양한 complexity levels에서 training 가능.
- Object-centric components로 텍스트를 분해, complexity를 점진적으로 증가.
- Step-by-step reasoning: simple -> complex. 이전 단계의 visual information을 feedback.
- Progressive reasoning: 'Agentic flow' 스타일로 off-the-shelf LVLMs 활용.
결과:
- Tunable parameters 4.9%, 60K fine-tuning data만으로도 significant improvements.
- Grounding tasks에서 larger models (CoVLM, Pink) 능가.
- Compositional reasoning tasks에서 더 많은 VQA data로 fine-tuned 된 baselines 능가.
Contribution:
- Multi-granular training + progressive reasoning 결합한 novel framework (PromViL).
- Nested compositional V-L pairs dataset 구축 pipeline.
- Complex visual/linguistic scenarios에서 PromViL의 effectiveness 입증. (Reproducible in academia).
쉬운 설명 :
Introduction 섹션에서는 기존의 똑똑한 AI 모델들(LVLMs)도 그림이랑 글을 같이 줬을 때, 조금만 복잡해지면 이해를 잘 못한다는 문제점을 지적하고 있어요.
예를 들어, "사람 옆에 있는 차 뒤에 있는 강아지" 같은 문장이랑 그림을 주면, AI는 "사람", "차", "강아지" 각각은 잘 찾는데, 걔네들 사이의 관계("옆", "뒤")를 파악하는 걸 어려워한다는 거죠.
그래서 이 논문에서는 PromViL이라는 새로운 방법을 제시해요. 핵심은 그림이랑 글을 한 번에 다 이해하려고 하지 않고, "사람", "차", "강아지"처럼 작은 조각들부터 먼저 이해하고, 점점 더 복잡한 관계를 이해하도록 가르치는 거예요. 마치 레고 블록 쌓듯이요!
이렇게 하면 AI가 훨씬 더 복잡한 그림이랑 글도 잘 이해하고, 질문에도 똑똑하게 대답할 수 있게 된다는 게 이 논문의 주장입니다. 그리고 실제로 실험해보니 다른 AI들보다 훨씬 더 잘하더라는 결과를 보여주고 있어요.
Related Works
Large Vision-Language Models (LVLMs)는 image captioning 및 visual question answering과 같은 tasks에서 impressive capabilities를 보여주었습니다. Recent methods는 phrase-region alignments를 enable하여, models가 image regions를 perceive하고 text를 visual entities에 ground 할 수 있게 합니다. 그러나 이러한 approaches는 종종 multiple objects 및 relations에 의해 attended 되는 varying complexity의 concepts를 포함하는 compositional tasks에서 어려움을 겪습니다. 우리의 method는 hierarchical multi-granular V-L alignments와 progressive reasoning을 도입하여 이러한 limitation을 address하며, simple에서 complex tasks까지 multi-step grounding 및 reasoning을 enable합니다.
Previous studies는 textual and visual alignments를 improving하는 데 LVLMs training에서 multi-granularity information을 활용하는 것의 benefits를 보여주었습니다. 그러나 existing approaches는 종종 single granularity levels를 사용하거나 embedding space에서 information을 obtain하여 text 및 images의 varying structure와 모순됩니다. 우리의 method는 language structure에 based하여 granularity levels를 derive하여 각 input에 대해 suitable tailored hierarchical representation을 create합니다. 이를 통해 model은 granularities에 걸쳐 multimodal alignments를 학습하여 textual and visual inputs에 걸쳐 effectively하게 reason하는 능력을 향상시킬 수 있습니다.
LVLMs에서 사용되는 Grounding datasets는 크게 두 groups로 categorize할 수 있습니다.
- The coarse-grained group (RefCOCO/+, RefCOCOg, GRIT)은 phrases와 corresponding image bounding boxes의 pairs를 provide합니다. 그러나 multiple objects를 포함하는 phrases의 경우, individual elements에 대한 bounding boxes가 lack합니다. 결과적으로 이러한 datasets에서 trained 된 models는 vision과 language 간의 fine-grained alignments (예: object level)를 학습하는 데 어려움을 겪습니다.
- The fine-grained group (Flickr30K, Objects365)은 corresponding bounding boxes와 함께 single objects를 describing하는 simple phrases (예: "the person", "the jacket")를 provide합니다. 이러한 datasets는 object-centric feature learning을 enable하지만, multiple objects 간의 relationships를 effectively하게 represent하지 못하는 경우가 많습니다 (예: "the person with jacket"). 이는 relational context가 correct entities를 locate하는 데 필요한 ambiguous images (예: multiple "persons", Fig. 1에서 illustrated 됨)를 dealing할 때 particularly problematic해집니다.
Several LVLMs는 두 groups의 datasets를 모두 활용했지만, 여전히 각 sample이 single granularity level을 maintain하고 fine-grained 및 coarse-grained data가 samples 내에서 서로 unrelated하게 remain하기 때문에 부족합니다. 우리의 data generation approach는 이러한 limitation을 address하여 Visual Genome dataset을 based로 한 CompoVL이라는 new dataset을 result합니다. CompoVL은 각 data instance에 대해 multi-grained data를 provide하여 training을 위한 richer information을 offering하고 our method의 objectives와 잘 align됩니다.
Related Works 섹션 정리 노트 (AI 연구자 대상)
배경: 기존 LVLMs는 phrase-region alignment를 통해 visual grounding 능력이 향상되었지만, 여전히 다양한 복잡도를 가진 여러 객체와 관계가 얽혀있는 compositional tasks에는 취약.
기존 연구의 한계:
- Multi-granularity 활용의 문제:
- 대부분 single granularity level만 사용.
- Embedding space에서 정보를 얻어, text/image의 varying structure와 모순.
- Grounding datasets의 문제:
- Coarse-grained datasets: Multiple objects 포함 시 individual elements에 대한 정보 부족 (object-level alignment 어려움).
- Fine-grained datasets: Single object에만 초점, multiple objects 간의 relationship 표현 부족 (특히 ambiguous images에서 문제).
- 두 types의 datasets를 모두 활용해도, 각 sample이 single granularity level만 유지하고, 서로 unrelated.
본 논문의 차별점:
- Hierarchical multi-granular V-L alignments: Language structure 기반 granularity levels -> 각 input에 tailored 된 hierarchical representation.
- 새로운 dataset (CompoVL): Visual Genome 기반, 각 data instance마다 multi-grained data 제공.
핵심: 기존 연구의 한계를 극복하기 위해, hierarchical representation과 multi-grained dataset을 활용하여 compositional reasoning 능력을 향상시키는 데 초점.
쉬운 설명 :
Related Works 섹션에서는 이 논문이 나오기 전에 있었던 다른 연구들(LVLMs)에 대해 이야기하고 있어요. 그 연구들도 그림이랑 글을 연결하는 AI를 만들려고 노력했지만, 몇 가지 문제점이 있었다는 거죠.
문제점 1: 융통성 부족
- 기존 AI들은 그림이랑 글을 너무 단순하게 보거나(coarse-grained), 너무 자세하게 봐서(fine-grained) 문제였어요.
- Coarse-grained: 그림 전체랑 긴 문장을 한 덩어리로 묶어서 보니까, "사람 옆에 있는 차"에서 "사람"이랑 "차" 각각이 어디 있는지는 잘 몰라요.
- Fine-grained: "사람", "차" 각각은 잘 찾는데, 걔네들 사이의 관계("옆")는 잘 몰라요.
문제점 2: 데이터 부족
- AI를 가르치려면 데이터(그림+글)가 필요한데, 기존 데이터들은 위에서 말한 문제점들을 해결하기에 충분하지 않았어요.
그래서 이 논문에서는:
- 융통성 있는 AI: 그림이랑 글을 여러 단계(multi-granular)로 나눠서, 간단한 것부터 복잡한 것까지 차근차근 이해하도록 가르치는 방법을 제시했어요.
- 새로운 데이터: 기존 데이터의 문제점을 해결한 새로운 데이터(CompoVL)를 만들었어요.
결론적으로, 이 논문은 기존 연구들의 문제점을 해결해서 더 똑똑한 AI를 만들었다는 이야기입니다!

Figure 2: Overview of our PromViL framework
(a) Training: multi-level visual entities-textual expression associations를 학습합니다.
(b) Inference: simple에서 complex로 progressively prompt하며, prior responses를 clues로 사용합니다.
(c) Decomposition: (i) constituency parsing (illustration을 위해 simplified 됨) 및 (ii) dependency parsing에 based하여 nested subsequences를 extract합니다.
Preliminaries
LlaVa, Flamingo, BLIP-2와 같은 most state-of-the-art LVLMs는 input images와 text prompts에 대한 text responses를 generate하도록 designed 된 language-based LLMs의 extensions입니다. 다양한 vision-to-language tasks를 handling 할 수 있지만, 이러한 models는 holistic visual scene understanding의 표면만 긁을 뿐이며 specific visual regions of interest의 fine-grained comprehension에는 미치지 못합니다.
Bounding boxes 또는 segmentation masks와 같은 visual answers를 producing하여 이러한 drawbacks를 address하기 위해 새로운 family의 LVLMs가 등장했습니다. Examples로는 Kosmos-2, Pink, MiniGPT-v2가 있습니다. Specific image regions를 locating함으로써 이러한 models는 text-only descriptions의 ambiguities를 alleviate하고 LVLMs의 decision-making processes에 대한 insights를 offer합니다.
이를 achieve하기 위해 이러한 models는 text spans와 their corresponding spatial locations (예: bounding box coordinates)를 combining하는 multimodal token sequences를 process하며, 이들은 서로 next to each other에 placed됩니다. Next-token prediction을 사용하여 vast grounded image-text datasets에서 trained 된 이들은 region of interest의 text descriptions와 image 내 object location을 indicating하는 spatial tokens를 모두 generate 할 수 있습니다. For instance, "The woman with a blue hat" query와 its bounding boxes correspondence에 대해 Kosmos-2는 markdown-like input format을 사용합니다:
"Image Embedding <box>The woman</box> <box>with a blue hat</box> <box>y1</box> <box>x1</box> <box>y2</box> <box>x2</box>".
여기서, <box> 와 </box>는 text sequence의 start 및 end tokens이고, Image Embedding은 image embedding을 refer하며, <box>y1</box>, <box>x1</box>, <box>y2</box>, <box>x2</box>는 input text sequence 내 non-relational concepts의 boundaries를 indicate하고, <box>y1</box> <box>x1</box> <box>y2</box> <box>x2</box>는 their corresponding bounding box locations를 refer합니다. 이러한 models의 output은 region of interest의 visual content를 describing하는 text tokens와 visual scene 내 object의 position을 locating하는 spatial location tokens를 모두 include합니다.
Compositional visual reasoning은 sentence parts와 corresponding image regions 간의 two-way interactions를 understanding해야 합니다. 그러나 current LVLMs는 overly fine-grained 또는 coarse-grained concepts와 image regions의 alignments에 focus합니다. Fine-grained concepts는 "a woman" 또는 "a blue hat"과 같은 non-relational individual concepts를 include하는 반면, high-order relational concepts는 "the shirt of the woman with a blue hat"일 수 있습니다. 이러한 limitation은 부분적으로 existing datasets의 intermediate connections 부족에서 비롯됩니다. 우리는 이러한 connections를 obtain하는 novel mechanism을 propose하여 fine-grained concepts에서 coarse-grained concepts로의 generalization gap을 bridge합니다.
Preliminaries 섹션 정리 노트 (AI 연구자 대상)
배경:
- State-of-the-art LVLMs (LlaVa, Flamingo, BLIP-2 등): Text responses 생성에 특화, holistic visual scene understanding은 부족, fine-grained comprehension 미흡.
- Visual answers (bounding boxes, segmentation masks)를 생성하는 새로운 LVLMs 등장 (Kosmos-2, Pink, MiniGPT-v2 등): Text-only descriptions의 ambiguity 해소, decision-making process에 대한 insight 제공.
New LVLMs 작동 방식:
- Multimodal token sequences 처리: Text spans + spatial locations (bounding box coordinates).
- Grounded image-text datasets에서 next-token prediction으로 training.
- Text descriptions of region of interest + spatial location tokens 생성.
- Example (Kosmos-2): "Image Embedding <box>The woman</box> <box>with a blue hat</box> <box>y1</box> <box>x1</box> <box>y2</box> <box>x2</box>"
Current LVLMs의 한계:
- Compositional visual reasoning 어려움: Sentence parts와 corresponding image regions 간의 two-way interactions 이해 부족.
- Overly fine-grained or coarse-grained concepts에만 집중.
- Fine-grained: "a woman", "a blue hat" (non-relational).
- High-order relational concepts 이해 부족: "the shirt of the woman with a blue hat".
- Existing datasets에 intermediate connections 부족.
본 논문의 핵심 아이디어: Fine-grained concepts -> coarse-grained concepts로의 generalization gap을 bridge하는 novel mechanism 제안. (Intermediate connections 확보)
쉬운 설명 :
Preliminaries 섹션에서는 이 논문에서 다루는 AI 모델들의 종류와 특징, 그리고 기존 모델들의 문제점에 대해 설명하고 있어요.
1. 기존 AI 모델 (LVLMs):
- 첫 번째 그룹 (LlaVa, Flamingo, BLIP-2 등): 그림이랑 질문 주면 글로 대답하는 AI. 근데 그림 전체를 대충 이해하고, 자세한 부분은 잘 몰라요.
- 두 번째 그룹 (Kosmos-2, Pink, MiniGPT-v2 등): 그림에서 특정 영역을 찾아서 네모 박스(bounding box)로 표시해주는 AI. 좀 더 똑똑해졌지만, 여전히 한계가 있어요.
2. 두 번째 그룹 AI 작동 방식:
- 그림이랑 글을 같이 처리하는데, 글에서 특정 단어("The woman") 옆에 그 단어가 그림에서 어디에 있는지 위치 정보(<box>y1</box> <box>x1</box> <box>y2</box> <box>x2</box>)를 붙여서 학습해요.
- 그래서 질문("The woman with a blue hat")을 주면, 그림에서 그 부분을 찾아서 네모 박스로 표시해주고, 글로 설명도 해줘요.
3. 기존 AI 모델들의 문제점:
- "파란 모자를 쓴 여자"처럼 간단한 건 잘 찾는데, "파란 모자를 쓴 여자의 셔츠"처럼 복잡한 건 잘 못 찾아요.
- 그림이랑 글 사이의 관계를 제대로 이해하지 못하고, 너무 단순하거나 너무 복잡하게만 생각해요.
- AI를 가르치는 데이터(그림+글)에도 이런 문제점을 해결할 수 있는 정보가 부족해요.
4. 그래서 이 논문에서는:
- "a woman", "a blue hat"처럼 간단한 것부터 "the shirt of the woman with a blue hat"처럼 복잡한 것까지 차근차근 이해할 수 있도록 AI를 가르치는 새로운 방법을 제시하려고 해요!
Methods
Progressive multi-granular V-L Alignments
Compositional input sentence가 주어지면, 우리는 이를 a series of nested subsequences로 decompose합니다. 이 input sentence와 nested subsequences의 elements는 이 논문의 나머지 부분에서 "expressions"로 referred 됩니다. 이러한 expressions는 individual concepts (예: "a woman", "a blue hat")에서 high-order relational concepts (예: "the woman with a blue hat", "the shirt of the woman with a blue hat")에 이르기까지 varying complexity의 concepts를 cover합니다.
Progressive multi-granular Vision-Language alignments (PromViL)라고 하는 우리의 approach는 increasing levels of complexity의 vision-language pairs 간의 alignments를 leverage하여 complex compositional expressions를 understanding하기 위한 a progressive chain of reasoning steps를 create합니다. Nested vision-language (V-L) pairs에 대한 access가 있다고 assuming하면, 우리의 task는 LVLMs가 lower levels의 feedback을 iteratively leverage하여 more complex expressions를 their corresponding visual regions에 properly align하도록 direct하는 것입니다 (Fig. 2 참조).
다음 section에서는 existing data에서 nested V-L pairs를 generating하는 our method에 대해 details합니다.
Multi-granular Compositional V-L Dataset
Nested Vision-Language Pairs Generation:
Nested V-L pairs를 generate하기 위해, 우리는 Visual Genome (VG) annotations와 an open-source LLM (우리 implementation에서는 Mixtral8x7B)을 text generation을 위해 utilize합니다. 우리의 data generation pipeline (Fig. 3 참조)은 input expressions의 complexity level을 assigning하는 것으로 begin하며, 이는 main entity of interest에 arrive하는 데 필요한 relational steps의 depth를 based로 합니다. Level-one expressions는 "the woman" 또는 "a horse"와 같은 non-relational concepts를 include하는 반면, level-two expressions는 이를 relationship과 combine합니다(예: "the woman riding a horse"). 우리의 level-one 및 level-two pairs는 direct VG annotations를 사용합니다. Higher levels의 경우, 우리는 LLM에게 VG predicates에서 text descriptions를 generate하도록 instruct하며, 이는 common으로 entities를 share합니다. For example, Fig. 3에서 "the man is behind the woman riding a horse"라는 expression을 generate하기 위해 먼저 predicates P1과 P2를 retrieve합니다. 그런 다음, LLM에게 이 두 input predicates의 information을 combining하고 extending하여 more complex textual descriptions를 produce하도록 instruct합니다. LLMs에 의한 hallucinations의 effects를 reduce하기 위해, 우리는 그들에게 provided input predicates의 genuine objects and relationships를 strictly adhere하고 new objects and relationships를 invent하지 않도록 direct합니다 (사용된 prompts는 Appendix 참조). 이러한 generated descriptions에 corresponding visual bounding boxes를 assign하기 위해, 우리는 dependency parser를 employ하여 주어진 expression 내에서 main object of interest를 identify합니다. 그런 다음 visual bounding boxes는 VG에서 identified main entities의 bounding boxes로 chosen됩니다. For instance, "the man"에 corresponding하는 bounding box는 "the man is behind the woman riding a horse"라는 phrase의 bounding box로 chosen됩니다.
이러한 generated descriptions와 VG annotations로부터, 우리는 simple에서 complex로 progressing하는 a hierarchical series of nested compositional V-L pairs를 construct합니다. Lower-level expressions는 higher-level ones를 referential components로 extending함으로써 building blocks를 form합니다. 이는 "a horse" (level-one), "the woman riding a horse" (level-two), "the man is behind the woman riding a horse" (level-three)와 같은 nested expressions의 list를 result합니다 (Fig. 3). Multiple expressions는 각 level에 exist할 수 있습니다. Total, 우리는 29K such lists of nested expressions를 generate하며, 이는 최대 115K individual V-L pairs를 comprising합니다. 우리는 compositional V-L pair와 its associated nested subsequences의 각 list를 our dataset의 one data instance로 refer합니다.
Our dataset의 spatial relationships를 VG beyond로 diversify하기 위해, 우리는 VSR의 annotations를 incorporate합니다. <subject, predicate, object> predicates 형식의 VSR의 annotations가 주어지면, 우리는 GroundingDINO를 사용하여 involved visual entities에 대한 bounding boxes를 obtain하고, our dataset에 1.2K data instances를 adding합니다. LVLMs는 종종 various tasks를 perform하도록 trained 되므로, 우리는 또한 VG-VQA 및 LLaVA-Instruct150K에서 randomly sampled 된 8K 및 22K data instances를 respectively include합니다. 우리의 combined dataset, multi-granular Compositional Vision-Language (CompoVL)은 total 60.3K instances를 contains합니다.
Compositional visual grounding에 대한 state-of-the-art LVLMs의 limitations를 assess하기 위해, 우리는 또한 level-two 이상의 V-L pairs만 containing하는 CompoVL-hard라는 CompoVL subset을 provide합니다. 이는 total 6K image-expression pairs를 comprises합니다. 이러한 pairs가 주어지면, LVLMs는 given expressions에 corresponding하는 visual regions의 location을 indicating하는 bounding boxes를 output해야 합니다. RefCOCOg와 compared하여, our dataset은 linguistic expression당 average object count가 더 높고 (2.70 vs. 2.29) expression당 average complexity level이 더 높아 (2.56 vs. 2.26), more challenging compositional scenarios를 offering합니다. 우리는 나중에 empirically하게 current models의 limitations on this subset을 demonstrate할 것입니다 (Sec. 참조).
Annotation’s reliability:
Data quality를 ensure하기 위해, 우리는 three independent human evaluations를 위해 CompoVL-hard의 2%를 randomly sampled 했습니다. Evaluators는 generated text descriptions에 대해 naturalness, visual answers의 ambiguity 및 bounding box accuracy 측면에서 questions에 answer하도록 asked 됩니다. Asked 된 questions는 다음과 같습니다: "Does the generated image caption sound natural?", "Does the caption refer to a unique object in the image?", "Is the bounding box correct for the caption?". Assessments에 따르면, generated text descriptions의 92.5%가 natural sound가 나는 반면, 87.61%가 unique visual objects를 refer하고, 92.48%가 correct bounding boxes를 가지고 있습니다. 우리는 또한 Kappa scores를 사용하여 inter-annotator agreement를 measured했으며, question 1에 대해 average score 0.68, question 2에 대해 0.81, question 3에 대해 0.76을 found했습니다. 이러한 scores는 annotators 간의 substantial 또는 almost perfect agreement를 indicate합니다. Evaluation interface에 대한 Details는 Appendix에 있습니다.
Training and Inference
Training
Our PromViL framework는 visual embeddings V로 represented 된 an image I와 a series of nested subsequence expressions E = {E1, ..., Ec-1, Ec}를 input으로 takes하며, Ec는 level-c complexity (c > 1)의 a complex compositional expression입니다. Multiple expressions는 each level of complexity에 exist할 수 있습니다. 우리는 preceding context를 based로 next word token을 predicting하는 standard language modeling objective를 maintain합니다. 그러나 우리는 explicitly하게 PromViL을 visually ground하도록 train하며, particularly하게 CompoVL dataset의 nested subsequences를 utilizing합니다.
Model은 lower levels of complexity에서 received 된 consideration feedback에서 level-i complexity의 text expression Ei에 의해 referred 된 spatial tokens yi를 generate하도록 trained 됩니다. < Ei-1, yi-1 >을 previous level of complexity의 responses로 Indicating하면, our PromViL framework는 all levels of complexity의 expressions에 걸쳐 averaged autoregressive next token prediction loss를 optimizing하여 trained 됩니다:
L = (1 / | E |) * Σ (i=1 to c) logP(yi | V, Ei, < Ei-1, yi-1 >)
Nested subsequences가 없는 data (예: VQA, instruct-follow)의 경우, 우리는 LlaVa 및 Kosmos-1과 같은 other LVLMs에서 employed 되는 common practices를 follow하며, 여기서 yi는 a generic prompt에 대한 language-based responses입니다.
In practice, our PromViL은 level-i complexity의 language expression Ei에 대한 input representations를 사용하여 CompoVL dataset에서 existing LVLMs를 fine-tunes합니다:
"V We can see in the image:{Ei-1} {yi-1}. Based on that, we can locate:{Ei} {yi}".
Inference
During inference, 우리는 level-c complexity의 given input expression Ec의 nested subsequences에 대한 access가 없습니다. Therefore, 우리는 constituency parser를 사용하여 leaves에서 root를 향해 noun phrase constituents를 selecting하여 Ec에서 nested subsequences를 extract합니다 (Fig. 2에 showed 됨). 그런 다음 dependency parser를 사용하여 subsequences 내 entities 간의 semantic dependancies를 identify하고, ultimately하게 referential entities를 satisfy하지 않는 level-one expressions를 remove합니다. 이는 our decomposed nested subsequences가 CompoVL의 our data generation process와 same structure를 갖도록 ensure하기 위한 것입니다. 이러한 nested subsequences E = {Ec, Ec-1, ..., E1}이 available해지면, 우리는 progressively하게 model을 prompt하며, 여기서 a prior level에 대한 generated response는 next level에 대한 clue를 provide합니다. Algorithm 1은 inference 동안 PromViL의 decoding process를 describes합니다.
Methods 섹션 정리 노트 (AI 연구자 대상)
핵심 아이디어: Progressive multi-granular V-L Alignments (PromViL)
- Compositional input sentence를 nested subsequences로 분해 (expressions).
- Varying complexity의 concepts를 다룸: Individual -> high-order relational.
- Increasing complexity levels의 V-L pairs 간 alignments 활용, progressive reasoning chain 생성.
- LVLMs가 lower-level feedback을 iteratively 활용하여 complex expressions를 corresponding visual regions에 align.
1. Multi-granular Compositional V-L Dataset (CompoVL) 구축
- Nested V-L Pairs Generation:
- Visual Genome (VG) annotations + Open-source LLM (Mixtral8x7B) for text generation.
- Input expression의 complexity level (relational steps의 depth) 기반.
- Level-1: Non-relational concepts ("a woman", "a horse").
- Level-2: Level-1 + relationship ("the woman riding a horse").
- Higher levels: LLM 활용, VG predicates에서 shared entities를 묶어 text descriptions 생성.
- Hallucination 방지: Input predicates의 objects/relationships strictly adhere.
- Dependency parser: Generated descriptions에서 main object of interest 식별 -> corresponding visual bounding boxes 할당 (VG 활용).
- Nested compositional V-L pairs의 hierarchical series 구축: Simple -> complex.
- Lower-level expressions: Higher-level expressions의 building blocks (referential components).
- VSR annotations 통합: Spatial relationships 다양화 (GroundingDINO 활용).
- VG-VQA, LLaVA-Instruct150K data instances 추가.
- CompoVL-hard: Level-2 이상 V-L pairs만 포함하는 subset (challenging compositional scenarios 평가).
- Annotation's reliability: Human evaluations (naturalness, ambiguity, bounding box accuracy), inter-annotator agreement (Kappa scores).
2. Training & Inference
- Training:
- Input: Image (visual embeddings V), nested subsequence expressions E.
- Standard language modeling objective (next word token prediction).
- Explicit visual grounding training: CompoVL dataset의 nested subsequences 활용.
- Lower-level feedback 고려, spatial tokens yi 생성.
- Averaged autoregressive next token prediction loss across all complexity levels.
- Loss = (1 / | E |) * Σ (i=1 to c) logP(yi | V, Ei, < Ei-1, yi-1 >)
- Input representation (fine-tuning): "V We can see in the image:{Ei-1} {yi-1}. Based on that, we can locate:{Ei} {yi}".
- Inference:
- Constituency parser: Input expression에서 nested subsequences 추출.
- Dependency parser: Entities 간 semantic dependencies 식별, level-one expressions (non-referential) 제거.
- Progressive prompting: Prior level response -> next level clue.
Contribution (요약):
- Nested subsequences를 활용한 progressive reasoning framework (PromViL).
- Multi-granular compositional V-L dataset (CompoVL) 구축.
- Training & inference strategies for compositional visual reasoning.
쉬운 설명 :
Methods 섹션에서는 이 논문의 핵심 기술인 PromViL이 어떻게 작동하는지 자세하게 설명하고 있어요.
1. PromViL의 핵심 아이디어:
- 복잡한 문장("the man is behind the woman riding a horse")을 여러 개의 간단한 문장들("a horse", "the woman riding a horse", "the man")로 쪼개요.
- AI에게 그림이랑 간단한 문장부터 보여주고, 점점 더 복잡한 문장을 이해하도록 가르쳐요. 마치 레고 블록 쌓듯이요!
- 예: "말" -> "말을 타고 있는 여자" -> "말을 타고 있는 여자 뒤에 있는 남자"
2. CompoVL 데이터셋 만들기:
- 기존의 그림 데이터(Visual Genome)랑 똑똑한 AI 모델(Mixtral8x7B)을 이용해서 새로운 데이터(CompoVL)를 만들었어요.
- 데이터는 (그림, 문장) 쌍으로 되어 있는데, 문장이 위에서 설명한 것처럼 여러 단계(level)로 구성되어 있어요.
- 사람들이 직접 데이터를 검사해서, 문장이 자연스럽고, 그림이랑 잘 맞는지 확인했어요.
3. PromViL 학습 (Training):
- AI 모델에게 그림이랑 여러 단계의 문장들을 보여주고, 각 문장에 해당하는 그림 영역을 찾도록 학습시켜요.
- 이때, 이전 단계에서 찾은 영역 정보를 활용해서 다음 단계의 영역을 더 잘 찾도록 가르쳐요.
4. PromViL 추론 (Inference):
- 새로운 그림이랑 복잡한 문장이 주어지면,
- 먼저 문장을 여러 개의 간단한 문장들로 쪼개요.
- 가장 간단한 문장부터 AI에게 보여주고, 그림에서 해당하는 영역을 찾게 해요.
- 찾은 영역 정보를 활용해서, 점점 더 복잡한 문장에 해당하는 영역을 찾도록 해요.
결론적으로, PromViL은 복잡한 문장과 그림을 단계별로 이해하고 추론하는 AI 모델이라고 할 수 있습니다!
