AI바라기의 인공지능

VLM : 논문리뷰 : Compositional Chain-of-Thought Prompting for Large Multimodal Models 본문

논문리뷰

VLM : 논문리뷰 : Compositional Chain-of-Thought Prompting for Large Multimodal Models

AI바라기 2024. 12. 18. 15:54

Abstract

 

강력한 visual backbone과 Large Language Model (LLM) reasoning의 결합은 Large Multimodal Models (LMMs)가 광범위한 vision 및 language (VL) tasks의 현재 표준이 되도록 이끌었습니다. 그러나 최근 연구에 따르면 가장 진보된 LMM조차도 객체 간의 속성 및 관계와 같은 compositional visual reasoning의 측면을 포착하는 데 여전히 어려움을 겪고 있습니다. 한 가지 해결책은 visual 및 textual 영역 간의 다리 역할을 해 온 객체와 그들의 관계 및 속성을 형식화한 scene graphs (SGs)를 활용하는 것입니다. 그러나 scene graph 데이터는 scene graph annotations를 필요로 하는데, 이는 수집하는 데 비용이 많이 들고 따라서 쉽게 확장할 수 없습니다. 게다가 SG 데이터를 기반으로 LMM을 finetuning 하면 pretraining 목표에 대한 치명적인 망각으로 이어질 수 있습니다. 이를 극복하기 위해 chain-of-thought 방법에 영감을 받아 Compositional Chain-of-Thought (CCoT)를 제안합니다. 이는 LMM에서 compositional knowledge를 추출하기 위해 SG representations를 활용하는 새로운 zero-shot Chain-of-Thought prompting 방법입니다. 구체적으로, 먼저 LMM을 사용하여 SG를 생성한 다음 해당 SG를 prompt에서 사용하여 응답을 생성합니다. 광범위한 실험을 통해 제안된 CCoT 접근 방식이 여러 vision 및 language (VL) compositional benchmark에서 LMM 성능을 향상시킬 뿐만 아니라 finetuning이나 annotated ground-truth SGs 없이도 일반적인 multimodal benchmark에서 여러 인기 있는 LMM의 성능을 향상시킨다는 것을 발견했습니다.

 

 

핵심 배경

  • 강력한 visual backbone + Large Language Model (LLM) reasoning = Large Multimodal Models (LMMs)
  • LMM은 다양한 vision 및 language (VL) 작업에서 현재 표준으로 자리 잡음.
  • 문제점: 최신 LMM도 객체의 속성, 관계와 같은 compositional visual reasoning 에는 취약함.

해결 방안: Scene Graphs (SGs)

  • Scene Graphs (SGs): 객체, 관계, 속성을 구조화한 데이터
  • visual, textual 영역을 연결하는 다리 역할
  • SGs의 문제점:
    • annotations 수집에 비용이 많이 듦 (확장성 부족)
    • SG 데이터로 LMM을 finetuning 하면 catastrophic forgetting 발생 가능 (pretraining 목표 손실)

제안: Compositional Chain-of-Thought (CCoT)

  • Chain-of-Thought 에서 영감을 받은 zero-shot prompting 기법
  • SG representations 을 활용하여 LMM에서 compositional knowledge 추출
  • CCoT 프로세스:
    1. LMM을 사용하여 SG 생성
    2. 생성된 SG를 prompt에 사용하여 응답 생성

실험 결과 및 결론

  • CCoT는 여러 vision 및 language (VL) compositional benchmark 에서 LMM 성능 향상
  • finetuning이나 annotated ground-truth SGs 없이도 일반적인 multimodal benchmark 에서 여러 인기 LMM 성능 향상

요약

CCoT는 LMM의 compositional reasoning 능력을 향상시키는 효과적인 zero-shot prompting 기법으로, scene graph를 활용하지만 annotation 비용이나 catastrophic forgetting 문제를 해결한 혁신적인 접근 방식임.

 

 

 

 

 

 

1. Introduction

최근 몇 년 동안 LLaVA, GPT-4V 및 InstructBLIP과 같은 Large Multimodal Models (LMMs)은 vision 및 language (VL) 분야, 특히 multimodal reasoning 및 visual question-answering (VQA)에서 인상적인 결과를 보여주었습니다. 그러나 최근 실증 연구에 따르면 최고 성능의 VL models은 이미지를 "bag of objects"로 보는 경향이 있습니다.

 

 

그림 1. 우리 Compositional Chain-of-Thought (CCoT) 접근 방식의 high-level 개요. 우리 CCoT 방법은 두 단계의 prompting 프로세스로 구성됩니다. (1) 먼저, LMM은 이미지 및 task prompt와 관련된 scene graph를 생성하도록 prompt 됩니다. 예를 들어, 그림의 "이미지를 설명하세요"와 같은 task 입니다. (2) 이어서, LMM은 생성된 scene graph, 이미지 및 task prompt를 컨텍스트로 사용하여 scene graph의 compositional 정보를 통합하여 복잡한 장면에 대한 올바른 설명을 제공하는 방식으로 응답하도록 prompt 됩니다.

 

 

 

 

그림 1의 다음 예를 살펴보겠습니다. VL model이 제공된 이미지를 설명하라는 요청을 받았다고 가정해 보겠습니다. 제공된 이미지에는 노트북, 마우스, 책 몇 권, 테이블 등 많은 객체가 포함되어 있습니다. 이러한 객체가 서로 어떻게 위치하는지, 그리고 그들의 주목할 만한 특성을 정확하게 설명하는 것은 어려운 문제입니다. 따라서 우리는 객체의 중요한 관계와 속성을 포착하는 SG를 활용하도록 동기를 부여받았습니다. 예를 들어, LMM은 생성된 SG를 사용하여 "테이블 위에 노트북 위에 책 더미가 있습니다."라는 설명을 생성합니다.

 

visual scenes의 구조를 이해하는 것은 machine perception의 핵심 문제입니다. visual scenes는 객체뿐만 아니라 scenes의 compositionality를 더 잘 이해하는 데 중요한 관련 특성과 관계로 구성됩니다. 이 논문에서 우리는 LMM의 compositionality를 개선하는 최선의 방법에 대해 고려합니다. 최근 visual scenes의 구조화된 graph representations인 scene graph (SG) annotations가 강력한 VL representations로 도입되었으며 이전의 많은 연구에서 광범위하게 탐구되었습니다. 그러나 SG 데이터는 SGs를 얻는 것이 비용이 많이 들고 따라서 확장할 수 없기 때문에 텍스트 설명보다 쉽게 구할 수 없습니다. 게다가 SG 데이터에 대해 training을 하면 에서와 같이 pretrained objectives에 대한 망각으로 이어질 수 있습니다. 따라서 이 논문에서는 annotated scene graph 데이터 없이 그리고 finetuning 없이 LMM에 scene graph representations를 활용하는 것을 제안합니다.

 

최근 Large Language Models (LLMs)는 Chain-of-Thought (CoT) prompting 방법을 통합하여 유망한 결과를 보여주었습니다. CoT 방법은 LLM을 사용하여 명시적인 예가 없는 zero-shot 또는 명시적인 예가 있는 few-shot으로 중간 reasoning 단계를 통해 task를 수행합니다. 이에 영감을 받아 multimodal 및 compositional visual reasoning tasks를 위해 scene graph representations를 활용하는 zero-shot CoT 방법을 설계합니다. 우리의 접근 방식을 사용하면 prompting을 사용하지 않은 경우에 비해 LMM에서 더 많은 compositional knowledge를 추출할 수 있습니다. 다음으로, 우리는 ground truth SG annotations 또는 model finetuning에 의존하지 않고 scene graphs를 활용하는 CoT prompt 방법을 어떻게 설계해야 하는지 자문합니다.

우리가 제안한 설계 접근 방식인 Compositional Chain-of-Thought (CCoT)는 두 단계로 나눌 수 있습니다. 첫 번째 단계는 입력 이미지와 task prompt (예 : visual question)를 사용하여 ground truth SG 데이터의 필요성을 피하기 위해 scene graph를 생성하는 것입니다. 두 번째 단계는 이미지, task prompt 및 생성된 scene graph로 LMM을 prompt하여 응답을 생성하는 것입니다. prompt에 scene graph를 통합하면 finetuning의 필요성이 없어지고 망각을 방지합니다. 우리 방법의 또 다른 이점은 생성된 SGs가 모든 visual scene을 설명할 수 있으므로 CCoT를 광범위한 VL tasks에 일반적으로 적용할 수 있다는 것입니다. 마지막으로, 생성된 scene graphs는 이미지의 간결한 언어적 representations이라는 사실은 CCoT를 토큰 효율적인 prompting 방법으로 만듭니다. 이는 이미지와 텍스트 입력을 모두 처리하기 때문에 LMM이 종종 직면하는 제한된 텍스트 컨텍스트 길이를 감안할 때 중요합니다.

요약하면, 우리의 주요 기여는 다음과 같습니다. (i) 우리는 LMM에서 compositional knowledge를 추출하기 위해 scene graph representations를 활용하는 zero-shot Chain-of-Thought 접근 방식인 CCoT를 소개합니다. (ii) 우리가 제안한 CCoT 방법은 task별 finetuning이나 annotated SG 데이터 없이도 설계되었으며 다양한 LMM architectures에 적용 가능하고 사용하기 쉽습니다. (iii) 우리의 방법은 Winoground 및 WHOOPS!와 같은 VL compositional benchmark뿐만 아니라 SEEDBench, MMBench 및 LLaVA-Bench-in-the-Wild와 같은 일반적인 multimodal benchmark에서도 LLaVA-1.5, Instruct-BLIP, SPHINX 및 GPT-4V에 대해 향상된 성능을 보여주며 우리 접근 방식의 효과를 강조합니다.

 

2. Related Work

Large Multimodal Models (LMMs). LMM의 개발은 주로 LLM의 강력한 reasoning 능력과 기존 VL models을 결합한 결과입니다. 이러한 models의 좋은 예는 contrastive vision 및 language models로, vision 및 language representations를 연결하는 데 있어 중요한 진전이었습니다. 그러나 이러한 방법은 생성 요소 또는 두 양식에 대한 보다 명시적인 reasoning이 필요한 다운스트림 작업(예: visual question-answering)에 직접 적용하는 데 제한적입니다. 해결책은 LLM의 reasoning 및 생성 능력을 텍스트 및 visual 정보 모두에 적용하는 형태로 이루어졌으며, 그 결과 LMM이 개발되었습니다.

LMM은 임베드된 visual features에 대해 직접 추론합니다. 특히 이러한 방법의 성공에 중요한 것은 model의 visual instruction finetuning입니다. 텍스트 전용 instruction tuning of LLMs에서 영감을 받은 visual instruction tuning은 상세한 텍스트 설명과 객체 위치 정보를 최상위 LLM(예: GPT-4)에 전달함으로써 복잡한 visual tasks에 효과적인 것으로 나타났습니다. 그러나 이 접근 방식은 고품질 training data가 필요하지만 항상 사용 가능하거나 확장 가능한 것은 아닙니다. 이 논문에서 우리는 training data의 필요성을 없애는 접근 방식을 제시합니다.

LMM과 유사하게, multimodal methods의 또 다른 부류는 visual reasoning을 위한 프록시로 코드 생성을 사용합니다(예: ViperGPT, VisProg, CodeVQA). 이 논문에서는 이를 Visual Programmatic Models (VPMs)라고 합니다. visual reasoning의 구성적 특성을 활용하고 확장하는 Neural Modular Network architectures에서 영감을 받은 VPM은 추가 프로그래밍 없이도 매우 유능한 out-of-the-box LLM의 최근 출현을 기반으로 합니다. 특히 이러한 방법은 visual 정보를 직접적으로 추론하지 않으며 제한된 컨텍스트를 통해 제공되는 정확한 API 또는 models에 의해 제한됩니다. 이러한 방법과 달리, 여기서는 visual 및 language 영역 간의 다리 역할을 하는 scene graphs를 활용하여 compositional visual reasoning을 위한 LMM의 잠재력을 탐구했습니다.

 

Multimodal Prompting Methods. LLM 및 LMM의 인기가 높아짐에 따라, prompting methods는 모델 출력을 정밀하게 제어하고 모델을 사용할 수 있는 컨텍스트를 제공할 수 있기 때문에 그 힘을 활용하는 데 중요해졌습니다. 더 중요한 것은 prompting methods가 inference time에 발생한다는 것입니다. 여기에는 zero-shot methods, few-shot methods, expert prompting, Chain-of-Thought (CoT)와 더 복잡한 구조를 위한 self-consistency, Tree-of-Thought (ToT), Graph-of-Thought (GoT)와 같은 확장 기능이 포함됩니다.

우리가 아는 한, 세 가지 방법(VidIL, DDCoT, Multimodal-CoT approaches)이 multimodal prompting의 현재 state-of-the-art를 대표합니다. video를 위해 특별히 설계된 architecture인 VidIL은 video frames의 캡션에 대해 추론하는 language model을 가지고 있습니다. 유사하게, DDCoT는 명시적인 visual features가 아닌 이미지 캡션에 대한 자체 CoT prompting 방법을 설계합니다. 마지막으로, Multimodal-CoT는 visual 및 텍스트 입력 features에 대해 직접 추론하는 LMM을 활용하지만, Chain-of-Thought prompting 방법은 ground truth natural language reasoning에 대한 finetuning이 필요하며, 이는 annotation 및 계산 비용이 많이 듭니다.

CCoT와 이러한 방법의 주요 차이점은 CoT 설계에서 (생성되거나 수집된 ground-truth) 캡션 대신 생성된 SG를 reasoning 단계로 활용한다는 것입니다. 이는 visual features에 대해서도 명시적으로 추론하는 LMM의 compositionality를 향상시킵니다. 또한, 우리는 우리의 방법이 multimodal reasoning을 더 광범위하게 향상시킨다는 것을 보여줍니다. 마지막으로, CCoT는 inference time에 사용되는 zero-shot 방법이므로 광범위한 LMM 기반 architecture에 광범위하게 적용할 수 있습니다.

 

Compositionality. Compositionality, 즉 개념을 각 하위 부분과 관계로 구성된 것으로 이해하는 것은 이미지의 객체, 관계, 속성에 대한 reasoning을 통해 visual concepts에 대한 가치 있는 패러다임입니다. Compositionality는 vision 및 language, visual question answering, video understanding, relational reasoning, scene graphs를 포함한 다양한 영역에 적용되었습니다. 최근의 실증 연구에 따르면 가장 강력한 LMM조차도 객체 속성 및 객체 간 관계 식별을 포함한 compositional visual understanding을 수행하는 데 어려움을 겪는 것으로 나타났습니다. 특히, VL models은 "bag of objects" representations를 학습하는 경향이 있어 compositionality가 떨어지는 것으로 나타났습니다. 이 연구에서 우리는 보다 구조화된 CoT 접근 방식이 LMM에서 개선된 compositional reasoning으로 이어진다는 것을 보여줍니다. 이는 compositional benchmarks에서 향상된 성능으로 입증됩니다.

 

 

1. Introduction & 2. Related Work 정리

1. Introduction: LMM의 한계와 CCoT 제안

현황:

  • Large Multimodal Models (LMMs): LLaVA, GPT-4V, InstructBLIP 등 LMM은 visual question-answering (VQA)와 같은 vision 및 language (VL) task에서 뛰어난 성과를 보이고 있음.
  • LMM의 문제점:
    • 이미지를 "bag of objects"로 인식하는 경향: 객체 간의 관계, 속성 등 compositional visual reasoning 에 취약함.
    • 예시: 그림 속 "노트북 위에 책 더미"를 제대로 파악하지 못할 수 있음.

해결책:

  • Scene Graphs (SGs): 객체, 관계, 속성을 구조화하여 visual scene을 표현하는 그래프. visual, textual 영역을 연결하는 역할.
  • SGs의 문제점:
    • annotations 수집에 비용이 많이 들고, 확장성이 떨어짐.
    • SGs 데이터로 LMM을 finetuning 하면 catastrophic forgetting 발생 가능.

제안: Compositional Chain-of-Thought (CCoT)

  • Chain-of-Thought 에서 영감을 받은 zero-shot prompting 기법.
  • finetuning 없이, LMM을 사용해 SG를 생성하고, 이를 prompt에 활용하여 compositional knowledge 를 추출하고 답변에 활용.
  • CCoT 프로세스:
    1. LMM으로 입력 이미지와 task prompt(질문)를 기반으로 SG 생성.
    2. 생성된 SG, 이미지, 질문을 LMM에 prompt로 제공하여 답변 생성.

CCoT의 장점:

  • annotation 비용, catastrophic forgetting 문제 해결.
  • 다양한 VL tasks에 적용 가능.
  • 간결한 scene graph 표현으로 토큰 효율적.

주요 기여:

  • LMM의 compositional knowledge를 추출하는 zero-shot CoT 방식인 CCoT 제안.
  • task별 finetuning이나 annotated SG 데이터 없이 다양한 LMM에 적용 가능.
  • 여러 benchmark에서 LLaVA-1.5, Instruct-BLIP, SPHINX, GPT-4V의 성능 향상 확인.

2. Related Work: LMM, Prompting, Compositionality

Large Multimodal Models (LMMs):

  • LLM의 reasoning 능력과 VL models (contrastive vision and language models 등)의 결합으로 탄생.
  • Visual instruction finetuning이 LMM 성공에 중요.
    • 문제점: 고품질 training data가 항상 가용한 것은 아님.
  • Visual Programmatic Models (VPMs): ViperGPT, VisProg, CodeVQA 등. 코드 생성을 visual reasoning의 대리 수단으로 사용.
    • 한계: visual 정보를 직접 추론하지 않고, 제공된 API나 models에 의존적.

Multimodal Prompting Methods:

  • LMM의 능력을 활용하기 위해 중요.
  • Zero-shot, few-shot, expert prompting, Chain-of-Thought (CoT), Tree-of-Thought (ToT), Graph-of-Thought (GoT) 등.
  • Multimodal prompting state-of-the-art: VidIL, DDCoT, Multimodal-CoT.
    • VidIL: video 특화 architecture.
    • DDCoT: 이미지 캡션에 CoT 적용.
    • Multimodal-CoT: visual, text features에 대해 추론하지만, finetuning 필요.
  • CCoT와의 차별점:
    • 캡션 대신 생성된 SG를 reasoning 단계로 활용.
    • visual features에 대한 명시적 추론으로 compositionality 향상.
    • zero-shot 방식으로 다양한 LMM에 적용 가능.

Compositionality:

  • 객체, 관계, 속성에 대한 reasoning을 통해 visual concepts를 이해하는 패러다임.
  • VL, VQA, video understanding, relational reasoning, scene graphs 등 다양한 영역에 적용.
  • LMM의 문제점: "bag of objects" representations를 학습하여 compositionality가 떨어짐.
  • CCoT의 기여: 구조화된 CoT 접근 방식으로 LMM의 compositional reasoning 능력 향상.

결론

CCoT는 LMM의 compositional reasoning 능력을 향상시키는 혁신적인 zero-shot prompting 기법으로, scene graph를 생성하고 활용하지만 annotation 비용이나 catastrophic forgetting 문제를 해결하여 실용성을 높인 방법론입니다.

 

 

 

 

 

3. Compositional Chain-of-Thought

이전 연구에서 나타난 것처럼, LMM이 이미지를 "bag of objects"로 보는 문제를 해결하기 위해, 우리의 방법은 compositional visual understanding을 향상시키는 새로운 접근 방식을 도입합니다. 먼저 표준 LMM architecture (섹션 3.1)를 설명합니다. 그런 다음, 두 단계 chain-of-thought 접근 방식을 소개합니다. 첫 번째는 scene graph 생성 (섹션 3.2)이고, 두 번째는 응답 생성 (섹션 3.3)입니다. 우리의 방법은 그림 2에 나와 있습니다.

3.1. Preliminaries

LMM은 vision 및 language modalities 모두에 대해 직접 추론하는 multimodal models입니다. 이들은 일반적으로 하나의 이미지 I와 텍스트 형식의 관련 task prompt Pin (예: 질문, 캡션 생성 등)의 입력을 받습니다. 그런 다음 각 modality는 language model fθ(·) (θ로 매개변수화됨)가 추론할 수 있는 공유 임베딩 공간으로 인코딩됩니다. 보다 구체적으로, 이미지는 훈련 가능한 vision encoder vϕ(·) (ϕ로 매개변수화됨)를 사용하여 인코딩되는 반면, task prompt는 토큰화된 다음 고정된 language embedding l을 사용하여 인코딩됩니다. 입력 이미지 I와 입력 task prompt Pin이 주어지면, language model (일반적으로 LLM)은 텍스트 응답 R을 출력합니다.

(1) R = fθ(vϕ(I), l(Pin))

LLM, vision encoding architecture, θ, ϕ에 대한 pretraining 방법의 정확한 LMM 하위 모듈은 모델마다 다르지만 위에서 설명한 포괄적인 방법은 동일하게 유지됩니다.

우리는 LMM의 compositional visual understanding과 multimodal reasoning을 개선하기 위해 scene graph 생성을 활용하는 zero-shot chain-of-thought prompting 방법인 CCoT를 제안합니다. 특히, 이 방법은 순전히 prompting 기반이므로 finetuning이 필요하지 않습니다. 또한, 이 방법은 zero-shot이므로 annotated SGs가 필요하지 않습니다. 궁극적으로, 우리 방법은 scene-graph 생성 prompt Sin을 중심으로 하며, 이는 Pin에 통합되어 LMM이 scene graph Sg를 중간 multimodal reasoning 단계로 출력하여 질문, 분류 또는 캡션 생성과 같은 task prompts에 대한 더 나은 응답을 출력할 수 있도록 합니다.

3.2. Step 1: Scene Graph Generation

우리의 첫 번째 단계는 scene graph Sg를 생성하여 ground truth annotated SG 데이터의 필요성을 없애는 것입니다. scene graph 생성 prompt Sin은 LMM에게 세 가지 주요 속성, 즉 객체, 그 속성 및 그들 간의 관계를 사용하여 scene graph를 체계적으로 구성하도록 지시합니다. "bag-of-objects" 문제를 해결하기 위해, 우리는 visual reasoning의 주요 단위인 객체뿐만 아니라 그 속성과 서로 어떻게 상호 작용하는지에 대한 전체적인 관점을 갖고자 합니다.

scene graph 생성 prompt Sin에서, 우리는 추가로 JSON 형식이 되도록 조정합니다. JSON 형식의 이러한 표준화는 LMM이 더 쉽게 해석할 수 있도록 하기 위한 것입니다. scene graphs에 객체, 관계 및 속성을 포함하여 visual 정보를 체계적으로 구성함으로써, 우리는 보다 구조화되고 포괄적인 reasoning을 가능하게 합니다. 이 구조화된 접근 방식을 보여주는 전체 prompt는 그림 2에 나와 있습니다. scene graph 생성 방법은 우리 연구의 핵심적인 새로운 기여를 나타내며, 기존 multimodal reasoning models의 한계를 극복하고 LMM의 compositional understanding을 향상시키는 것을 목표로 합니다.

우리는 생성된 scene graph가 주어진 task prompt와 관련되도록 하기 위해 Sin과 함께 이미지 I와 task prompt Pin을 모두 포함합니다. 이는 SGs가 본질적으로 매우 long-tailed이기 때문입니다. 이미지에만 조건부로 생성된 scene graph는 주어진 task prompt와 관련이 없는 정보를 포함할 수 있습니다.

우리가 P(1)in으로 표시하는 LMM에 대한 전체 첫 번째 prompt는 입력 이미지 I, task prompt Pin, 그리고 가장 주목할 만한 scene-graph 생성 prompt Sin (그림 2의 Scene-Graph Generation 아래에 빨간색으로 표시됨)을 결합하여 구성됩니다. 전체 prompt는 다음과 같습니다:

(2) P(1)in = [Sin; Pin; I]

여기서 [·]는 prompt의 개별 요소를 삽입하기 위한 슬롯을 나타냅니다. 따라서 LMM은 다음과 같이 SG를 생성합니다:

(3) Sg = fθ(vϕ(I), l(P(1)in))

3.3. Step 2: Response Generation

finetuning의 필요성을 우회하고 망각을 제거하기 위해, 우리는 생성된 scene graph Sg를 중간 chain-of-thought reasoning 단계로 활용합니다. 따라서 LMM은 원래 task prompt, 이미지 및 해당 생성된 scene graph로 prompt 되므로 세 가지 모두가 이 새로운 task prompt에 응답하기 위한 컨텍스트로 공동으로 사용될 수 있습니다.

따라서 응답 생성을 위한 전체 입력 prompt는 다음과 같습니다:

(4) P(2)in = [C; Sg; Pin; I; E]

입력 이미지 I, 원래 task prompt Pin, 생성된 scene graph Sg 외에도 컨텍스트 문장 C와 답변 추출 문장 E를 삽입합니다. C는 LMM에게 제공된 컨텍스트를 사용하도록 간략하게 지시합니다. 구체적으로, 이것은 "Use the image and scene graph as context and answer the following question:"으로 주어집니다. 마지막으로, LLM 텍스트 생성의 유연성은 high-level multimodal reasoning을 위한 훌륭한 모델링 선택이지만, 이 유연성은 또한 특정 형식의 응답 생성을 사소하지 않게 만듭니다. 예를 들어, 많은 multimodal benchmark는 객관식 형식입니다. 우리는 이러한 유형의 benchmark에서 우리 방법을 평가하기 때문에, 답변을 문자로 반환하려면 짧은 추가 하위 prompt E (일반적으로 조건문)가 필요합니다. 예를 들어, 우리의 답변 추출 하위 prompt "Answer with the option’s letter from the given choices directly"는 대규모 객관식 benchmark에서 신뢰할 수 있는 것으로 나타났기 때문에 LLaVA-1.5에서 가져왔습니다. 그러나 이 방법은 E를 수정하거나 완전히 제거하여 짧은 답변이나 자세한 설명과 같은 다른 답변 형식으로 쉽게 일반화할 수 있습니다. 따라서 LMM은 원래 이미지, task prompt 쌍 (I, Pin)에 대한 최종 응답 R을 다음과 같이 생성합니다:

(5) R = fθ(vϕ(I), l(P(2)in))

 

 

 

 

 

3. Compositional Chain-of-Thought (CCoT) 정리 노트

목표

  • LMM이 이미지를 "bag of objects"로 인식하는 문제 해결
  • Compositional visual understanding 향상

방법: 2단계 Chain-of-Thought

  1. Scene Graph 생성 (3.2절)
  2. 응답 생성 (3.3절)

3.1. Preliminaries: LMM 기본 구조

  • LMM: vision, language modalities에 대해 직접 추론하는 multimodal models.
  • 입력: 이미지(I), task prompt(P<sub>in</sub>) (질문, 캡션 생성 등).
  • 처리 과정:
    • 이미지 인코딩: vision encoder (v<sub>ϕ</sub>(·)) 사용.
    • task prompt 인코딩: language embedding (l) 사용.
    • language model (f<sub>θ</sub>(·)) (일반적으로 LLM)이 임베딩된 정보를 바탕으로 추론하여 텍스트 응답(R) 생성.
    (1) R = f<sub>θ</sub>(v<sub>ϕ</sub>(I), l(P<sub>in</sub>))
  • 모델별 차이점: LLM, vision encoding architecture, pretraining 방법 (θ, ϕ)은 모델마다 다를 수 있음.
  • CCoT의 핵심:
    • Zero-shot prompting 기법 (finetuning 불필요).
    • Scene graph 생성을 활용하여 LMM의 compositional visual understanding과 multimodal reasoning 향상.
    • Scene-graph 생성 prompt (S<sub>in</sub>) 를 P<sub>in</sub>에 통합하여 scene graph (S<sub>g</sub>)를 중간 단계로 생성.

3.2. Step 1: Scene Graph Generation

  • 목표: ground truth annotated SG 데이터 없이 scene graph (S<sub>g</sub>) 생성.
  • Scene graph 생성 prompt (S<sub>in</sub>): LMM에게 객체, 속성, 관계를 포함한 scene graph를 체계적으로 구성하도록 지시.
    • "bag-of-objects" 문제 해결을 위해 객체, 속성, 상호 작용에 대한 전체적인 관점 제공.
    • JSON 형식으로 구조화하여 LMM의 해석 용이성 향상.
  • Task prompt (P<sub>in</sub>)와 이미지 (I)를 함께 제공하여 생성된 scene graph가 task와 관련성을 갖도록 유도 (scene graph는 long-tailed 특성).
  • 첫 번째 prompt (P<sup>(1)</sup><sub>in</sub>) 구성:
  • (2) P<sup>(1)</sup><sub>in</sub> = [S<sub>in</sub>; P<sub>in</sub>; I]
  • Scene graph 생성:
  • (3) S<sub>g</sub> = f<sub>θ</sub>(v<sub>ϕ</sub>(I), l(P<sup>(1)</sup><sub>in</sub>))

3.3. Step 2: Response Generation

  • 목표: finetuning 없이 생성된 scene graph (S<sub>g</sub>)를 chain-of-thought reasoning 단계로 활용하여 응답 생성.
  • 두 번째 prompt (P<sup>(2)</sup><sub>in</sub>) 구성:
    • C (Context): LMM에게 제공된 컨텍스트(이미지, scene graph)를 사용하도록 지시 ("Use the image and scene graph as context and answer the following question:").
    • S<sub>g</sub>: 생성된 scene graph.
    • P<sub>in</sub>: 원래 task prompt.
    • I: 이미지.
    • E (Answer Extraction): 특정 형식(예: 객관식 답변)으로 응답하도록 지시 ("Answer with the option’s letter from the given choices directly" - LLaVA-1.5에서 사용). E를 수정하거나 제거하여 다양한 답변 형식(짧은 답변, 자세한 설명 등) 지원 가능.
  • (4) P<sup>(2)</sup><sub>in</sub> = [C; S<sub>g</sub>; P<sub>in</sub>; I; E]
  • 응답 생성:
  • (5) R = f<sub>θ</sub>(v<sub>ϕ</sub>(I), l(P<sup>(2)</sup><sub>in</sub>))

요약

CCoT는 LMM의 compositional reasoning 능력을 향상시키는 2단계 zero-shot prompting 기법입니다. (1) LMM을 사용하여 scene graph를 생성하고, (2) 생성된 scene graph를 prompt에 포함하여 LMM이 이미지와 질문에 대한 더 정확한 답변을 생성하도록 유도합니다. finetuning이 필요 없고, annotated scene graph 데이터도 필요 없다는 장점이 있습니다.