논문리뷰

VLM : 논문리뷰 : Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning

AI바라기 2025. 2. 20. 20:24

Overall Summary

이 논문은 MLLMs의 interpretability와 complex visual inputs 처리 능력을 향상시키기 위해 visual CoT reasoning을 도입하고, 이를 위한 comprehensive dataset과 benchmark를 제안함. VisCoT framework는 dynamic focused visual inputs를 처리하고 interpretable reasoning stages를 제공하며, extensive experiments를 통해 기존 MLLMs보다 significantly improved performance를 달성함. 이 연구는 visual CoT reasoning 분야의 further exploration을 위한 promising starting point를 제공하며, MLLMs 연구 분야에 중요한 기여를 함.

쉬운 설명

이 논문은 마치 사람이 복잡한 그림을 볼 때, 중요한 부분에 먼저 집중하고, 단계별로 추론하여 답을 찾는 것처럼, AI 모델 (MLLM)도 그림의 핵심 영역을 스스로 찾고 (bounding box), 이를 바탕으로 추론하여 질문에 답할 수 있도록 하는 새로운 방법 (Visual CoT)을 제시합니다. 이를 위해, 그림과 질문-답변, 그리고 핵심 영역을 표시한 데이터셋 (Visual CoT dataset)과 모델의 성능을 평가하는 기준 (Visual CoT benchmark)도 함께 제공합니다. 마치 사람이 추론 과정을 설명하듯, AI 모델도 어떤 부분을 보고 어떻게 생각해서 답을 냈는지 보여주기 때문에, 모델의 판단 과정을 더 잘 이해할 수 있습니다.

 

 

 

Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning 학습 노트

Purpose of the Paper

  • 기존 Multi-Modal Large Language Models (MLLMs)는 complex visual inputs, 특히 high-resolution 이미지나 관심 영역이 작은 경우, interpretability가 부족하고 어려움을 겪음.
  • 이러한 문제를 해결하기 위해, visual chain-of-thought (CoT) reasoning을 MLLMs에 도입하고, 이를 위한 comprehensive dataset과 benchmark를 제안함.
  • 기존 연구들이 text-level CoT reasoning에 집중한 반면, 이 연구는 visual understanding process에서의 CoT reasoning의 가능성과 interpretability 향상에 초점을 맞춤.

Key Contributions

  • Visual CoT Dataset: 438k question-answer pairs로 구성된 large-scale dataset. 각 pair는 intermediate bounding boxes (key regions)와 함께 annotation 되어 있으며, 98k pairs는 detailed reasoning steps를 포함.
    • Novelty: Visual question-answering (VQA) datasets에서 intermediate visual chain-of-thought supervision을 제공하는 최초의 dataset.
  • Multi-turn Processing Pipeline: dynamically focuses on visual inputs and provides interpretable thoughts.
    • Novelty: Static image context inputs에 의존하는 기존 MLLM pipelines과 달리, dynamic focused visual inputs를 처리하고, interpretable reasoning stages를 제공.
  • Visual CoT Benchmark: MLLMs가 specific local regions를 식별해야 하는 scenarios에서 MLLMs를 evaluate하기 위한 benchmark.
    • Novelty: Visual chain-of-thought capabilities를 평가하는 새로운 benchmark를 제공.

Experimental Highlights

  • Visual CoT Benchmark 성능: 제안된 VisCoT framework가 LLaVA-1.5 (7B and 13B)와 SPHINX-13B를 포함한 기존 MLLMs보다 significantly improved performance를 보임 (Table 3).
    • 특히, doc/text-related tasks와 high-resolution image processing에서 큰 성능 향상을 보임.
    • Zero-shot visual CoT capabilities에서도 SROIE, DUDE, and Visual7W datasets에서 우수한 성능을 보임.
  • Ablation Study:
    • Visual CoT bbox selection strategies에서 ground truth bounding boxes를 사용했을 때 가장 높은 성능을 보임 (Table 4).
    • Visual sampler design에서 expanded cropping과 centered cropping이 모두 성능 향상에 기여함 (Table 5).
  • Model Training: VisCoT baseline is trained in two stages. In the first stage, consistent with LLaVA-1.5, vision encoder와 LLM의 weights를 고정하고 image-text caption data를 사용하여 훈련함, In the second stage, 모든 가중치는 훈련 가능.

Limitations and Future Work

  • Limitations:
    • Input image가 extensive information을 포함하거나 question이 particularly complex한 경우, VisCoT가 most relevant region을 식별하는 데 어려움을 겪을 수 있음 (Fig. 7).
    • Data pipeline이 GPT-4 API를 사용하므로, GPT-4 API의 limitations (accuracy, misinformation, bias)를 상속받음.
  • Future Work:
    • 논문에 명시적으로 언급된 future work는 없지만, visual CoT reasoning의 further exploration을 위한 promising starting point를 제공한다고 언급함.
    • Visual CoT dataset과 benchmark를 확장하고, 더 복잡한 visual reasoning tasks를 다룰 수 있도록 VisCoT framework를 개선할 수 있음.

 

 

 

 

 

Abstract

Multi-Modal Large Language Models (MLLMs)는 다양한 VQA tasks에서 인상적인 성능을 보여주었습니다. 그러나 MLLMs는 종종 해석 가능성이 부족하고 복잡한 visual inputs, 특히 입력 이미지의 해상도가 높거나 질문에 대한 답변에 핵심 정보를 제공할 수 있는 관심 영역이 작은 경우 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 질문에 답하는 데 필수적인 주요 영역을 강조하는 중간 bounding boxes로 annotation된 438k 개의 질문-답변 쌍으로 구성된 대규모 Visual CoT dataset을 수집하고 소개합니다. 또한, 약 98k 쌍은 자세한 reasoning steps로 annotation 되어있습니다. 중요하게도, 우리는 visual inputs에 동적으로 초점을 맞추고 해석 가능한 생각을 제공하는 multi-turn processing pipeline을 제안합니다. 우리는 또한 특정 local region 식별이 필요한 시나리오에서 MLLMs를 평가하기 위한 관련 benchmark를 소개합니다. 광범위한 실험을 통해 우리 framework의 효과를 입증하고 더 나은 추론 전략을 제시합니다. Visual CoT dataset, benchmark, 그리고 pre-trained models는 이 분야의 추가 연구를 지원하기 위해 이 웹페이지에서 사용할 수 있습니다.

 
 

 

 

1 Introduction

더보기

GPT-4, Gemini와 같은 large language models (LLMs)의 성공으로, 연구자들은 visual understanding capabilities를 통합하여 이러한 models을 향상시키고 있습니다. 이러한 열정은 LLaVA, SPHINX, Qwen-VL과 같은 multi-modal large language models (MLLM)의 출현으로 이어졌습니다. 입력 이미지에서 visual tokens를 추출하는 것을 포함하는 이러한 MLLMs는 대부분 2단계 스케줄을 따릅니다. 먼저 이러한 tokens를 linguistic modalities에 alignment한 다음 LLMs에서 공동 처리를 합니다. MLLMs는 image captioning, visual question answering, optical character recognition과 같은 다양한 시나리오에서 그럴듯한 outputs를 생성하고 LLMs의 광범위한 지식을 활용하는 능력 덕분에 실현 가능성을 입증했습니다.

그러나 많은 인기 있는 MLLMs 및 관련 benchmarks는 주로 visual inputs를 기반으로 instructions에 응답하도록 trained되며, 단일 black box로 decoder-only autoregressive design을 사용합니다. 이러한 models은 인상적인 generation 능력을 보여주지만, 부정확한 정보, 심지어 hallucinations으로 어려움을 겪습니다. 더욱이, black-box design은 vision-language models의 해석 가능성을 방해합니다. 또한, multi-turn in-context capability의 잠재력과 LLMs에 대한 chain-of-thought의 이점은 MLLMs에서 광범위하게 탐구되지 않았습니다. multimodal-CoT 및 과 같은 일부 최신 연구에서는 text-level chain-of-thought reasoning 또는 in-context learning을 통합하여 개선된 사항을 보여주었습니다. 그러나 기존 MLLMs가 visual understanding process에서 chain-of-thought reasoning을 통해 이점을 얻을 수 있는지 여부는 미개척 상태이며, 그 해석 가능성은 거의 탐구되지 않은 채로 남아 있습니다.

게다가, 인간은 복잡한 visual information을 다르게 이해하며, 종종 주어진 샘플 내의 특정 이미지 영역이나 세부 사항에 초점을 맞춥니다. 예를 들어, 자세한 지역 설명을 요청받으면 인간은 먼저 전체 이미지를 스캔하고 참조를 찾은 다음 대상에 초점을 맞추는 경향이 있습니다. 대조적으로, 대부분의 MLLMs는 많은 양의 계산(예: CLIP, EVA2-CLIP, InternVL)을 사용하여 고정된 방식으로 정렬된 이미지 컨텍스트를 처리합니다. 인간과 같은 효율적인 reasoning behaviors를 모방하려면, models는 필수적인 visual details을 포함하는 이미지 영역을 식별하고 조정된 컨텍스트를 캡처하기 위해 동적으로 확대해야 합니다. 현재 MLLMs는 이것에 어려움을 겪고 있으며, 주로 텍스트 도메인에서 정보를 찾도록 합니다.

따라서 multi-turn, dynamic focused visual inputs를 처리할 수 있는 방법을 개발하는 것이 시급하며, MLLMs의 효능과 적용 가능성을 향상시키기 위해 더 해석 가능한 reasoning 단계를 제공해야 합니다. 그러나 두 가지 중요한 과제가 이러한 파이프라인 설계를 방해합니다. 기존 visual question-answering (VQA) datasets에서 중간 visual chain-of-thought supervision이 부족하고, 인기 있는 MLLM pipelines이 정적 이미지 컨텍스트 입력에 의존한다는 것입니다.

이러한 문제를 해결하기 위해, 우리는 각 visual question-answer 쌍에 bounding box를 annotation하여 438k visual chain-of-thought dataset을 개발하고 릴리스합니다. bounding box는 질문에 답하는 데 필수적인 핵심 이미지 영역을 강조합니다. 우리는 이 핵심 영역을 정확하게 찾고 이해하면 MLLM의 응답 정확도와 관련성이 크게 향상될 것이라고 가정합니다. 특히, 약 98k 개의 질문-답변 쌍에는 추가적인 자세한 reasoning steps가 포함되어 있습니다. 이러한 annotations는 MLLM에게 논리적이고 단계별 프로세스로 final bbox를 식별하고 답변을 generate하도록 지시하기 위해 설계되었습니다. dataset을 기반으로, 우리는 MLLMs의 visual CoT reasoning 능력을 발휘하는 새로운 pipeline을 제안합니다. 이 pipeline은 주어진 질문과 관련된 자세한 정보를 제공하는 이미지의 핵심 영역을 식별하고 출력하도록 설계되었습니다. original image와 자세한 local image에 대한 이해를 통합하여 final answer를 generate합니다. 또한, 재현성을 위해 해당 visual CoT benchmark 및 pre-trained models를 제공하여 MLLMs에 대한 visual chain-of-thought의 추가 연구를 촉진하는 것을 목표로 합니다.

요약하면, 이 논문은 다음과 같은 기여를 합니다.

  • 우리는 438k 데이터 항목으로 구성된 visual chain-of-thought dataset을 제시하며, 각 항목은 질문, 답변, 그리고 CoT contexts로써의 중간 bounding box로 구성됩니다. 일부 항목에는 자세한 reasoning steps도 포함되어 있습니다. dataset은 5개의 서로 다른 도메인에 걸쳐 있습니다.
  • 우리는 visual inputs에 동적으로 초점을 맞추고 중간 해석 가능한 생각을 제공할 수 있는 MLLMs를 위한 새로운 multi-turn processing pipeline을 제안합니다.
  • 우리는 MLLMs가 특정 local regions에 초점을 맞추거나 객체를 식별하기 위해 reasons을 필요로 하는 시나리오에서 MLLMs를 평가하기 위한 visual chain-of-thought benchmark를 도입합니다.

 

1 Introduction 정리 노트 (AI 연구자 대상)

핵심 문제 제기:

  • 기존 MLLMs는 black-box 모델 구조로 인해 해석 가능성(Interpretability)이 부족하고, 복잡한 visual input (고해상도 이미지, 작은 관심 영역) 처리에 어려움을 겪음.
  • MLLMs는 visual understanding 과정에서 chain-of-thought (CoT) reasoning 활용이 미흡하며, multi-turn in-context capability의 잠재력을 충분히 활용하지 못함.
  • 인간의 시각 정보 처리 방식 (관심 영역에 집중, 단계적 추론)을 모방하는 MLLMs 개발 필요성 증대.
  • 기존 VQA 데이터셋에는 intermediate visual CoT supervision이 부족함. MLLM pipeline은 정적 이미지에 의존함.

본 논문의 제안:

  1. Visual CoT Dataset 구축:
    • 438k 규모의 visual CoT dataset (질문, 답변, intermediate bounding box, (일부에) detailed reasoning steps 포함).
    • 5개 도메인에 걸쳐 구성, MLLM의 CoT reasoning 학습 지원.
  2. Multi-turn Processing Pipeline 제안:
    • 동적으로 visual inputs에 focus, interpretable thoughts 제공.
    • Original image와 local image 이해를 통합하여 final answer 도출.
  3. Visual CoT Benchmark 제시:
    • Local region focus, object identification을 위한 reasoning 평가.

기존 연구와의 차별성:

  • Visual understanding process에서 CoT reasoning을 명시적으로 활용.
  • Intermediate visual supervision (bounding box)을 통해 MLLM의 학습 및 추론 과정을 개선.
  • Multi-turn, dynamic visual input 처리를 위한 새로운 pipeline 제시.

기대 효과:

  • MLLM의 해석 가능성 향상.
  • 복잡한 visual question answering task 성능 개선.
  • Visual CoT reasoning 분야 연구 활성화.

쉬운 설명 :

기존의 똑똑한 AI 모델들(MLLMs)도 사진 속에서 아주 작은 부분을 찾아야 하거나, 사진이 너무 복잡하면 질문에 답을 잘 못했습니다. 마치 사람이 어려운 문제를 풀 때, 한 번에 답을 찾기보다 여러 단계를 거쳐 생각하는 것처럼, AI도 사진을 보면서 "이 부분을 먼저 보고, 그 다음 저 부분을 봐야겠다"라고 생각하면서 답을 찾도록 훈련하는 방법이 필요했습니다.

이 논문에서는 AI가 사진을 보면서 단계별로 생각(chain-of-thought)할 수 있도록, 새로운 데이터셋(Visual CoT dataset)과 방법을 제안합니다. 이 데이터셋에는 질문과 답 외에도, AI가 "주목해야 할 사진 속 중요한 부분"을 표시(bounding box)해 놨습니다. 그리고 AI가 사진의 전체적인 내용과 중요한 부분을 번갈아 보면서 답을 찾도록 하는 새로운 방식(multi-turn processing pipeline)도 만들었습니다.

이렇게 하면 AI가 사진을 더 잘 이해하고, 사람이 생각하는 것처럼 추론하여 더 정확하게 답을 찾을 수 있게 됩니다. 또한, AI가 어떤 부분을 보고 어떻게 답을 찾았는지 알 수 있어서, AI의 판단 과정을 더 쉽게 이해할 수 있습니다 (해석 가능성 향상).

 

2 Related Works

더보기

Multi-modal LLMs.

large language models (LLMs)의 출현 이후, 다양한 language applications에서의 성공은 vision과 language modalities를 통합하는 multi-modal large language models (MLLMs) 개발의 길을 열었습니다. 초기에는 MLLMs가 VisualChatGPT, HuggingGPT, MM-REACT와 같은 vision expert models를 연결하는 dispatch 스케줄러로 취급되어 language models를 다른 tasks와 modalities로 확장했습니다. 더 최근에는 MLLMs가 image-caption pairs 또는 image-question conversations에 대한 광범위한 training을 통해 이러한 modalities를 aligning하는 데 중점을 두었습니다. LLaVA와 같은 주목할 만한 방법들은 image tokens를 pre-trained LLMs의 aligned representations에 매핑하는 projector를 train합니다. BLIP-2와 같은 다른 접근 방식은 image features를 얻은 후 learnable queries를 사용하여 image embeddings를 학습하기 위해 query transformer (Q-Former)를 채택합니다. MoVA는 task-specific vision experts를 coarse-to-fine 메커니즘과 융합하기 위해 adaptive router를 설계합니다. training strategy 측면에서 최근 연구들은 일반적으로 2단계 framework를 사용합니다. 첫 번째 단계는 image-caption pairs에 대한 pre-training을 포함하고, 두 번째 단계는 question-answering triplets를 사용하여 alignment에 중점을 둡니다. MLLMs는 또한 object detection과 같은 fine-grained localization, video understanding, image generation을 포함한 다양한 applications로 확장되었습니다.

Reasoning Capability of LLMs and MLLMs.

LLMs는 prompted samples와 context를 제공할 수 있는 in-context learning (ICL)을 통해 인상적인 reasoning capabilities를 보여주었습니다. 이 capability는 chain-of-thought (CoT) prompting을 통해 더욱 향상되어 LLMs가 final answer를 향한 일관된 중간 reasoning steps를 generate할 수 있게 합니다. 이전 연구에서는 LLMs가 수동으로 작성된 demonstrations 뿐만 아니라 zero-shot prompting outputs에서도 이점을 얻는다는 것을 보여주었습니다. Trar는 attention map을 기반으로 informative regions를 동적으로 선택하는 routing module을 제안합니다. 그러나 vision과 text 데이터 간의 domain gap으로 인해 MLLMs는 이러한 reasoning capability를 자연스럽게 상속하지 못합니다. 이러한 한계를 해결하기 위해 연구자들은 training 및 prompting paradigms 모두에서 MLLMs의 reasoning capability를 향상시키는 데 집중했습니다. 예를 들어, Flamingo는 interleaved visual 및 textual data에 대한 pre-training을 통해 이 두 modalities 간의 격차를 해소합니다. 마찬가지로 다른 연구에서는 Shikra 및 KOSMOS-2와 같이 training에서 visual grounded-reasoning data를 활용합니다. 더 최근에는 V*와 CogCoM이 MLLMs의 일반적인 메커니즘을 수정하고 일련의 visual reasoning steps를 training data로 수집합니다. 한편, 연구에서는 MLLMs의 prompting techniques의 세부 사항에 초점을 맞춰 복잡한 visual scenes와 tasks를 이해하기 위해 prompting models를 탐구했습니다.

 

 

Figure 1: visual CoT dataset에 포함된 5가지 도메인의 예시와 해당 질문-답변 annotations 및 visual CoT bboxes: 차트, 텍스트/문서, 일반 VQA, 미세 조정 이해(fine-grained understanding) 및 관계 추론(relation reasoning). 이미지의 빨간색 bounding boxes는 질문에 답하는 데 필요하고 관련된 정보를 제공하는 중요한 이미지 영역을 강조합니다.

 

 

 

2. Related Works 정리 노트 (AI 연구자 대상)

핵심 동향:

  • MLLMs 발전:
    • 초기: Vision expert models를 연결하는 dispatcher 역할 (VisualChatGPT, HuggingGPT).
    • 최근: Image-caption pairs/conversations 학습을 통한 modality alignment에 집중 (LLaVA, BLIP-2, MoVA).
    • Training strategy: 2단계 framework (pre-training on image-caption, alignment with Q&A)가 일반적.
    • 다양한 applications (object detection, video understanding, image generation)으로 확장.
  • LLMs/MLLMs의 Reasoning 능력:
    • LLMs: In-context learning (ICL) 및 Chain-of-Thought (CoT) prompting으로 추론 능력 입증.
    • MLLMs: Vision-text domain gap으로 인해 LLMs의 추론 능력 상속에 어려움.

기존 연구의 한계 및 본 논문과의 차별점:

*   대부분의 기존 MLLM 연구는 텍스트 레벨에서의 CoT reasoning 또는 in-context learning 개선에 집중.
*   Visual understanding 과정에서의 CoT reasoning 활용은 미흡.
*   본 논문: Visual CoT dataset 및 multi-turn pipeline을 통해 MLLMs의 visual reasoning capability 향상에 초점을 맞춤. Intermediate visual supervision (bounding box) 제공.

참고 연구:

  • Modality Alignment: LLaVA, BLIP-2, MoVA, Flamingo, Shikra, KOSMOS-2
  • Reasoning Enhancement: Multimodal-CoT, V*, CogCoM

쉬운 설명:

최근 AI 연구는 텍스트뿐만 아니라 이미지도 이해할 수 있는 똑똑한 모델(MLLMs)을 만드는 데 집중하고 있습니다. 초기에는 이미지 처리 전문가 AI와 텍스트 처리 전문가 AI를 연결하는 방식이었지만, 요즘은 이미지와 텍스트를 함께 학습시켜서 둘 사이의 관계를 더 잘 이해하도록 만들고 있습니다(LLaVA, BLIP-2 등).

한편, AI가 사람처럼 추론하는 능력(예: 문제 해결을 위해 단계별로 생각하기)도 중요한 연구 주제입니다. 기존에는 주로 텍스트를 기반으로 추론 능력을 향상시키는 연구가 많았지만, 이미지를 보면서 추론하는 능력은 아직 부족했습니다.

이 논문은 AI가 이미지를 보면서도 단계별로 생각(visual chain-of-thought)할 수 있도록 돕는 새로운 방법(데이터셋, 모델 구조)을 제안합니다. 이전 연구들이 텍스트에만 집중했던 것과는 달리, 이미지 속 중요한 부분을 찾고, 그 부분을 바탕으로 추론하는 과정을 AI에게 가르치는 것이 이 논문의 핵심입니다.

 

3 Visual CoT Dataset

더보기

Multi-modal large language models (MLLMs) 학습을 위한 multimodal datasets이 부족합니다. 이러한 MLLMs는 응답 성능을 향상시키기 위해 추가적인 attention을 위해 이미지의 특정 영역을 식별해야 합니다. Grounding bbox annotations이 있는 이러한 유형의 dataset은 MLLM이 중간 해석 가능한 attention 영역을 출력하고 성능을 향상시키는 데 도움이 될 수 있습니다. 이러한 격차를 해소하기 위해 그림 1과 표 1에 설명된 대로 visual CoT dataset을 curate합니다. 이 dataset은 특히 이미지 내의 중요한 영역을 식별하는 데 중점을 둡니다. 이는 models이 관련 visual elements에 집중하여 응답 정확도를 향상시키는 데 필수적인 기능입니다. 각 데이터 샘플은 표 2와 같이 5개 도메인에 걸쳐 질문, 답변 및 해당 visual bounding box로 구성됩니다. 일부 데이터 샘플에는 추가적인 자세한 reasoning steps도 포함됩니다.

자세한 visual 및 textual 분석을 위한 강력한 기반을 보장하기 위해, 우리 dataset은 text/doc, fine-grained understanding, charts, general VQA, 그리고 relation reasoning을 포함한 다양한 데이터 선택을 의도적으로 통합합니다. 이러한 데이터 도메인은 다양한 분석 작업에서 포괄적인 기술 세트를 육성하기 위해 신중하게 선택되었습니다.

  1. Text/doc: MLLM의 OCR 및 contextual understanding 능력을 향상시켜 복잡한 환경에서 텍스트 해석이 필요한 applications에 중요합니다.
  2. Fine-grained understanding: visual appearance와 patterns의 미묘한 차이를 식별하고 구별하는 데 도움이 됩니다.
  3. Charts: 그래픽 데이터 해석 능력을 길러 비즈니스 및 과학 applications에 필수적입니다.
  4. General VQA: models을 광범위한 visual queries에 노출시켜 일반적인 유용성을 향상시킵니다.
  5. Relation reasoning: MLLMs의 공간 및 contextual awareness를 개발하여 대화형 및 탐색 작업에 필수적입니다.

이러한 modalities는 함께 dataset이 기존의 격차를 메울 뿐만 아니라 다양한 시나리오에서 MLLMs의 다양성과 contextual awareness를 향상시키도록 보장합니다.

3.1 Data Generation

다양하고 포괄적인 Visual CoT dataset을 수집하고 구축하기 위해, 우리는 주로 Visual Question Answering (VQA) 및 Image Captioning datasets로 구성된 5개의 distinct domains에 걸쳐 12개의 source datasets를 선택합니다. 우리는 그들의 이미지와 질문-답변 쌍, image captions, object relations과 같은 유용한 annotations를 재사용하여 dataset 구축을 돕습니다. 데이터 구성 프로세스에는 linguistic 및 visual annotators가 모두 참여하여 질문-답변 쌍을 만들고, 질문에 답하기 위한 중요한 이미지 영역을 나타내는 중간 chain-of-thought bounding boxes를 제공합니다. linguistic annotations를 위해, 우리는 강력한 language understanding 및 generation capabilities로 알려진 GPT-4를 사용합니다. visual annotations를 위해, 우리는 optical character recognition을 위한 효율적이고 정확한 도구인 PaddleOCR을 선택합니다. 다음 섹션에서는 각 도메인별 dataset에 사용된 generation methods에 대해 자세히 설명합니다.

Text/Doc.

이 도메인의 데이터를 만들기 위해 5개의 텍스트 관련 datasets를 선택합니다: TextVQA, DocVQA, DUDE, TextCaps, SROIE. 5개의 datasets는 다양한 이미지와 문서에서 텍스트 인식 및 이해에 중점을 둡니다. TextVQA, DocVQA, DUDE 및 SROIE는 이미 질문-답변 쌍을 제공했으므로 직접 채택합니다. TextCaps는 captions와 OCR tokens만 제공하므로, linguistic annotator를 사용하여 해당 질문과 답변을 생성해야 했습니다 (자세한 내용은 부록 E.1 참조). visual CoT bboxes의 경우, PaddleOCR을 적용하여 이미지에서 OCR-identified regions를 감지하고, 답변과 일치하는 단어와 문장으로 구성된 영역을 CoT bounding boxes로 지정합니다. 또한 콘텐츠 품질을 개선하기 위해 filtering pipeline을 설계합니다. 이 프로세스는 bounding boxes로 강조 표시된 영역이 질문과 직접적인 관련이 있는지 확인합니다.

Fine-Grained Understanding.

이 도메인을 위해, 우리는 fine-grained visual categorization에 널리 사용되는 Birds-200-2011을 사용합니다. 이 dataset은 visual data가 풍부할 뿐만 아니라 다양한 새 부품 및 해당 속성에 대한 자세한 annotations와 각 사진의 새 bounding boxes를 포함합니다. 이 dataset을 MLLM에 활용하기 위해, 우리는 모델이 새에 있는 특정 특성이나 features를 식별하도록 도전하는 질문을 공식화했습니다. 이러한 질문은 MLLM이 이미지에서 미세한 세부 사항을 식별하고 인식하는 능력을 테스트하도록 설계되었습니다.

General VQA.

우리는 general VQA tasks를 위한 dataset으로 Flickr30k와 Visual7W를 사용합니다. Flickr30k에서 각 이미지에는 5개의 captions와 captions에 언급된 대부분의 객체의 bounding boxes가 포함되어 있습니다. TextCaps와 유사한 접근 방식을 사용하여 GPT-4를 사용하여 이미지의 작은 객체에 초점을 맞춰야 하는 질문을 생성합니다. 우리가 제안하는 dataset의 visual CoT bounding boxes는 공식 dataset에서 식별되고 annotation된 객체의 bboxes에 해당합니다. Visual7W는 이미 object-level grounding annotations와 함께 질문-답변 쌍을 제공했습니다.

Charts.

우리는 MLLMs가 답변 위치를 정확히 찾아내도록 training하는 데 유리한 고해상도 infographics를 위해 InfographicsVQA dataset을 선택합니다. Text/Doc 데이터에서와 같이 OCR techniques를 적용하여 답변이 포함된 영역을 식별하고, 식별된 영역을 보다 정확한 모델 training을 위한 CoT bounding boxes로 사용합니다.

Relation Reasoning.

우리는 relation-reasoning에 중점을 둔 데이터를 구성하기 위해 Visual Spatial Reasoning (VSR), GQA, Open Images datasets를 선택합니다. 이러한 datasets는 이미지 내 객체 간의 공간 관계 정보가 풍부합니다. chain-of-thought (CoT) bounding boxes의 경우, 질문과 관련된 객체를 둘러싼 bounding boxes를 사용합니다. 예를 들어, 질문이 "여자의 왼쪽에 있는 책상의 재질은 무엇입니까?"인 경우, 여자의 왼쪽에 있는 책상의 bounding box가 visual CoT bounding box로 지정되어 MLLM의 reasoning process에 더 많은 visual context를 제공합니다. GQA에서 각 이미지는 객체 및 관계의 scene graph와 연결됩니다. 각 질문에는 의미론에 대한 구조화된 representation이 함께 제공됩니다. 이러한 annotations를 사용하여 GPT-4를 활용하여 표 1에 설명된 대로 자세한 reasoning steps를 생성합니다. 관련 prompt는 부록 E.3에서 확인할 수 있습니다.

3.2 Dataset Analysis

그림 2에 데이터 통계의 시각화를 제공합니다. 각 dataset의 bboxes를 CoT bbox 크기와 전체 이미지 크기의 비율인 상대적 bounding box 크기 R을 기준으로 세 그룹(large, medium, small)으로 나눕니다. 시각화 결과, 특히 텍스트 지향 dataset에서 annotation된 주요 영역의 대부분이 전체 이미지의 작은 부분만 차지하여 성능 향상을 위해 이러한 중요한 영역을 식별하는 것이 중요하다는 것을 알 수 있습니다. 구체적으로, 평균 bounding box 크기는 247.82 픽셀이며, 이는 vision encoder의 일반적인 입력 해상도 범위인 224~336 픽셀과 잘 일치하는 반면, 원래 이미지 크기는 일반적으로 너무 커서 정보를 잃는 down-sampling이 필요합니다. 이러한 영역은 이미지 영역의 약 13.2%만 차지합니다. 이는 MLLMs가 처리 효율성과 효과를 높이기 위해 이러한 중요한 영역을 정확하게 찾아내는 것이 필수적임을 강조합니다. 모델이 이러한 핵심 영역을 올바르게 식별하고 집중하지 못하면 처리된 이미지의 대부분이 관련이 없어 비효율적인 계산, hallucination 및 성능 저하로 이어질 수 있습니다.

 

 

 

 

Figure 2: 제안된 visual CoT dataset의 통계. 각 source dataset에 대한 CoT bbox 분포, 평균 bbox 크기 및 bbox 영역의 평균 상대적 크기 R을 시각화합니다.

 

 

 

3. Visual CoT Dataset 정리 노트 (AI 연구자 대상)

핵심 내용:

  • 문제점: MLLMs 학습에 필요한, "답변에 필수적인 이미지 영역" (intermediate attention area)을 명시한 데이터셋 부족.
  • 해결책: Visual CoT Dataset 구축.
    • 구성: 질문, 답변, visual bounding box (CoT context), (+ detailed reasoning steps, 일부 데이터).
    • 5개 도메인: Text/Doc, Fine-Grained Understanding, Charts, General VQA, Relation Reasoning.
    • 다양성 확보: 12개 source datasets (TextVQA, DocVQA, Birds-200-2011, Flickr30k, Visual7W, InfographicsVQA, VSR, GQA, Open Images 등) 활용.
  • 데이터 생성:
    • Linguistic annotation: GPT-4 활용 (질문-답변 생성).
    • Visual annotation: PaddleOCR 활용 (OCR-identified regions, object bounding boxes).
  • 데이터셋 분석:
    • 대부분의 CoT bounding box는 이미지의 작은 부분(평균 13.2%) 차지.
    • MLLMs가 핵심 영역을 정확히 포착하는 것이 중요함을 시사.
  • 기존 데이터셋과의 차별점: 정답에 이르는 과정에 필요한 시각적 정보(bbox)를 annotation으로 제공.

핵심 기여:

  • MLLMs의 visual reasoning 학습 및 평가를 위한 새로운 데이터셋 제시.
  • MLLMs의 해석 가능성(interpretability) 향상 가능성 제시.

쉬운 설명:

이 논문에서는 AI 모델이 이미지 기반 질문에 더 잘 답하도록 돕기 위해 새로운 데이터셋(Visual CoT dataset)을 만들었습니다. 이 데이터셋의 특별한 점은, 질문과 정답뿐만 아니라, 정답을 찾는 데 반드시 봐야 할 이미지 영역을 네모 박스(bounding box)로 표시해 둔 것입니다.

예를 들어, "사진 속 고양이는 무슨 색깔인가요?"라는 질문이 있다면, 정답("갈색")과 함께, 이미지 속에서 "갈색 고양이"가 있는 부분을 네모 박스로 표시해 주는 식입니다.

이렇게 하면 AI 모델은 단순히 정답만 외우는 것이 아니라, 어떤 부분을 보고 정답을 유추해야 하는지 배울 수 있습니다. 마치 사람이 문제를 풀 때, 문제의 핵심 부분을 파악하고, 그 부분을 집중적으로 보면서 답을 찾는 것과 비슷합니다.

이 데이터셋은 다양한 종류의 이미지와 질문(텍스트, 도표, 미세한 특징 구별, 일반적인 질문, 관계 추론 등)을 포함하고 있어서, AI 모델이 여러 상황에 더 잘 대처할 수 있도록 훈련하는 데 도움이 됩니다.

 

 

 

 

Figure 3: VisCoT는 먼저 이미지에서 visual tokens를 추출하고 질문과 관련된 핵심 영역을 정확히 찾아냅니다. 그런 다음, localized visual information을 처리합니다. 마지막으로, MLLM은 overall and localized images의 정보를 통합하여 포괄적이고 정확한 답변을 구성합니다.

 

 

 

Table 3: Visual CoT benchmark에서의 성능. 회색으로 강조 표시된 Datasets는 training splits가 우리 모델의 training phase에 사용되지 않았음을 나타냅니다. Res는 input image resolution을 나타냅니다.

 

 

 

4 Enhancing MLLMs with Chain-of-Thought Capabilities

더보기

visual CoT dataset과 함께, 우리는 visual CoT capabilities를 갖춘 MLLMs를 향상시키기 위한 baseline 역할을 하는, 특수화된 수정 없이 표준 models를 사용하는 visual CoT MLLM framework인 VisCoT를 제안합니다. 이 섹션에서는 framework를 간략하게 소개하고 그림 3에 pipeline을 설명합니다. 자세한 내용은 부록 B를 참조하십시오.

VisCoT Pipeline. visual CoT data로 MLLM baseline을 train하기 위해, 우리는 질문에 CoT prompt ("Please provide the bounding box coordinate of the region that can help you answer the question better.")를 추가하여 모델이 이미지의 가장 informative region을 식별하도록 요청합니다. 그런 다음 VisCoT는 이 영역을 결정하고 bounding box를 generate합니다. training phase 동안, 우리는 다음 단계에서 예측된 bounding box 대신 ground truth bounding box를 활용하여 visual information을 추출합니다. original image X0와 bbox를 사용하여 visual sampler는 자세한 정보가 포함된 localized image X1을 추출합니다. 그런 다음 동일한 vision encoder와 projector를 사용하여 visual tokens H1을 추출합니다. 그런 다음 MLLM은 original and localized images {H0, H1} 모두에서 visual tokens를 통합하여 보다 정확하고 포괄적인 답변을 제공합니다. visual CoT annotations가 없는 데이터의 경우, 그림 3의 점선 상자로 표시된 것처럼 이 절차는 생략됩니다. 여기서 MLLM은 input image만을 기반으로 직접 답변합니다. 따라서 우리의 VisCoT baseline은 annotated 및 non-annotated formats의 데이터에 동시에 적용할 수 있습니다.

Visual Sampler. original image와 predicted bbox가 주어지면, visual sampler의 역할은 vision encoder requirement와 bbox corner cases를 고려하여 관련 영역을 정확하게 선택하는 것입니다. 먼저 VisCoT에서 예측한 bounding box의 중심점 [x0, y0], 절반 너비 whalf, 절반 높이 hhalf를 계산합니다. 더 많은 context를 capture하고 CLIP model의 square receptive field requirement를 충족하기 위해 max{max{whalf, hhalf}, reshalf}를 샘플 크기 s로 선택합니다. reshalf는 vision encoder의 절반 입력 크기입니다. 결과적으로 visual sampler는 추가 처리를 위해 영역 [x0 - s, y0 - s, x0 + s, y0 + s]를 자릅니다. inference 중에 계산된 cropped box가 이미지 경계를 벗어나면, box가 이미지 프레임 내에 유지되도록 중심점이 이미지 중심으로 조정됩니다. 이 조정은 detection inaccuracies의 영향을 완화할 수 있으므로 전반적인 성능을 향상시키는 데 중요합니다.

Inference. VisCoT는 visual CoT process를 사용하거나 사용하지 않고 답변을 generate하는 두 가지 옵션을 제공합니다. CoT feature가 필요하지 않은 경우, 사용자는 MLLM에 이미지와 질문만 제공하면 됩니다. CoT feature를 사용하려면, 사용자는 질문 뒤에 추가 visual CoT prompt를 추가할 수 있습니다.

Model Training VisCoT baseline은 두 단계로 trained됩니다. 첫 번째 단계에서는 LLaVA1.5와 일관되게 vision encoder와 LLM의 weights를 freeze하고 image-text caption data를 training에 활용합니다. 두 번째 단계에서는 모든 weights가 trainable합니다. 자세한 내용은 부록 B를 참조하십시오.

 

 

4. Enhancing MLLMs with Chain-of-Thought Capabilities 정리 노트 (AI 연구자 대상)

핵심: Visual CoT 능력을 향상시키는 MLLM 프레임워크인 "VisCoT" 제안.

VisCoT Pipeline:

  1. CoT Prompting: 질문과 함께 CoT prompt ("...bounding box coordinate...")를 추가하여, 모델이 informative region을 식별하도록 유도.
  2. Bounding Box Generation: VisCoT가 해당 영역을 찾고 bounding box 생성. (Training 시에는 ground truth bounding box 사용).
  3. Visual Sampling:
    • Original image (X0)와 bbox로부터 localized image (X1) 추출.
    • Visual sampler가 CLIP 모델의 receptive field requirement와 bbox corner case를 고려하여 relevant region 선택 (cropping).
  4. Feature Extraction: 동일한 vision encoder, projector를 사용하여 X0, X1에서 visual tokens (H0, H1) 추출.
  5. Answer Generation: MLLM이 H0, H1을 통합하여 답변 생성.
    • CoT annotation이 없는 데이터는 X0만 사용.

Visual Sampler:

  • Bbox의 center point, half-width, half-height, vision encoder의 half input size (reshalf)를 고려.
  • Sample size: s = max(max(whalf, hhalf), reshalf)
  • Cropping region: [x0 - s, y0 - s, x0 + s, y0 + s]
  • Inference 시, cropped box가 image boundary를 벗어나면 center point 조정.

Inference:

  • CoT feature 사용/미사용 선택 가능.

Model Training:

  • 2단계 training (LLaVA1.5와 유사).
    1. Vision encoder, LLM freeze, image-text caption data로 training.
    2. All weights trainable.

핵심 차별점: Standard models (specialized modification 없음)을 사용, visual CoT data를 활용하여 MLLM의 reasoning 능력을 향상시키는 baseline framework를 제공.


쉬운 설명:

이 논문에서는 AI 모델(MLLM)이 이미지 관련 질문에 답할 때, "생각하는 과정"(chain-of-thought)을 추가하여 더 똑똑하게 만드는 방법(VisCoT)을 소개합니다.

VisCoT는 다음과 같이 작동합니다:

  1. "생각 유도": 질문과 함께 "정답을 찾는 데 도움이 될 이미지 영역의 좌표를 알려줘"라는 추가 질문(prompt)을 던집니다.
  2. "중요 영역 찾기": AI 모델은 이 추가 질문을 보고, 이미지에서 가장 중요한 부분(bounding box)을 찾습니다.
  3. "자세히 보기": 찾은 영역(bounding box)을 중심으로 이미지를 확대(cropping)합니다. (Visual Sampler가 이 역할 수행).
  4. "정보 합치기": 원래 이미지와 확대된 이미지에서 각각 정보를 추출하고, 이 두 정보를 합쳐서 최종 답변을 만듭니다.

이렇게 하면 AI 모델은 단순히 이미지 전체를 훑어보는 것이 아니라, 사람처럼 문제 해결에 필요한 부분을 집중적으로 보고, 더 정확하고 자세한 답변을 할 수 있게 됩니다. 훈련 과정도 두 단계로 나누어 효율성을 높였습니다.