AI바라기의 인공지능
VLM : 논문리뷰 : DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models 본문
VLM : 논문리뷰 : DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models
AI바라기 2024. 12. 18. 11:47Abstract
AI 시스템의 오랜 목표는 인간과 같은 복잡한 multimodal 추론을 수행하는 것입니다. 최근, large language models (LLMs)는 인간의 사고를 모방하기 위해 chain of thought (CoT)를 활용하여 언어 modality에 대한 이러한 다단계 추론에서 놀라운 발전을 이루었습니다. 그러나 이러한 발전들을 multimodal 맥락으로 이전하는 것은 노동 집약적인 annotation의 비현실적인 필요성과 유연성, 일반화 가능성 및 설명성 측면의 제한을 포함하되 이에 국한되지 않는 고조된 과제를 야기합니다. multimodality에서 CoT 추론을 유도하기 위해, 본 연구는 먼저 multimodality가 제기하는 이러한 과제에 대한 심층 분석을 수행하고 multimodal CoT 추론에서 "critical thinking 유지" 및 "모든 사람이 자신의 역할을 수행하도록 하기"라는 두 가지 핵심 통찰력을 제시합니다. 또한, 본 연구는 negative-space prompting을 통해 비판적인 태도를 유지하고 LLM의 추론 책임을 추론과 인식으로 먼저 분할한 다음 visual models의 시각적 인식 능력을 공동 추론 과정에 통합함으로써 multimodality를 추론에 통합하는 새로운 DDCoT prompting을 제안합니다. DDCoT에 의해 생성된 논리는 zero-shot prompting 및 fine-tuning 학습에서 크고 작은 language models 모두의 추론 능력을 향상시켜 state-of-the-art 방법들을 크게 능가할 뿐만 아니라 인상적인 일반화 가능성과 설명성을 나타냅니다.
주제: Multimodal 추론에서의 Chain of Thought (CoT) 활용의 어려움 극복 및 새로운 프롬프팅 방식 제시
배경:
- AI 시스템의 오랜 목표는 인간처럼 복잡한 Multimodal 추론을 수행하는 것.
- Large Language Models (LLMs)는 언어 영역에서 CoT를 활용하여 다단계 추론에서 큰 발전.
- 하지만 이러한 발전을 Multimodal 맥락으로 확장하는 데에는 여러 어려움 존재.
Multimodal CoT의 어려움:
- 노동 집약적인 Annotation의 비현실적인 필요성: 이미지, 비디오 등에 대한 단계별 설명(annotation) 작업에 많은 시간과 노력이 필요.
- 유연성, 일반화 가능성, 설명성의 한계: 다양한 Multimodal 데이터에 유연하게 대응하기 어렵고, 새로운 상황에 대한 일반화 능력이 부족하며, 추론 과정을 명확하게 설명하기 어려움.
연구의 핵심 아이디어:
- Multimodal CoT 추론의 두 가지 핵심 통찰력 제시: "Critical thinking 유지" 및 "모든 사람이 자신의 역할 수행".
- 새로운 DDCoT (이름은 뒤에 나올 것으로 예상) 프롬프팅 방식 제안.
DDCoT 프롬프팅의 특징:
- Negative-space prompting을 통해 비판적인 태도 유지: "이것이 아니다"라는 정보를 제공하여 LLM이 주어진 정보에만 의존하지 않고 비판적으로 사고하도록 유도.
- LLM의 추론 책임을 추론과 인식으로 분할: LLM은 추론에 집중하고, 시각 정보 인식은 Visual models에게 맡김.
- Visual models의 시각적 인식 능력을 공동 추론 과정에 통합: Visual models이 추출한 시각 정보를 LLM이 활용하여 추론 수행.
기대 효과:
- Zero-shot prompting 및 Fine-tuning 학습에서 LLM의 추론 능력 향상.
- State-of-the-art 방법들을 능가하는 성능.
- 뛰어난 일반화 가능성 및 설명성.
요약:
본 연구는 Multimodal 추론에서 CoT를 효과적으로 활용하기 위한 방법으로 DDCoT 프롬프팅을 제안합니다. DDCoT는 negative-space prompting을 통해 LLM의 비판적 사고를 유도하고, LLM과 Visual models의 역할을 분담하여 각 모델의 강점을 극대화합니다. 이를 통해 Multimodal 추론의 성능, 일반화 가능성, 설명성을 향상시키는 것을 목표로 합니다.
1 Introduction
AI 시스템의 근본적인 목표 중 하나는 인간의 능력과 일치하는 신뢰성과 효율성을 가지고 복잡한 과제를 해결하는 것입니다. 이러한 복잡한 과제를 해결할 때, 인간은 다양한 modality의 정보를 통합하는 다단계 추론에 의존합니다. 최근, language models (LMs)는 인간의 추론 과정을 모방하는 chain of thought (CoT)를 사용하여 prompting 또는 fine-tuning을 통해 광범위한 다단계 추론 과제에서 놀라운 발전을 보여주었습니다.
그러나 CoT 추론에 대한 대부분의 연구는 multimodal 맥락에는 거의 주의를 기울이지 않고 언어 modality에만 초점을 맞추었습니다. UnifiedQA와 MM-CoT는 vision-and-language multimodality에서 CoT 추론을 이끌어내는 선구적인 연구입니다.
그림 1: 기존의 multimodal CoT 방법과 우리의 DDCoT 비교. (a), (c), (d) 및 (e)는 일반화 가능성을 설명하기 위한 분포 외(out-of-distribution) 예시이며, (b)는 zero-shot 및 fine-tuning 학습의 성능을 나타내며, 우리가 최초로 일반적인 multimodal 논리적 근거를 생성함을 보여줍니다.
그림 1(a)에서 설명된 것처럼, 이들은 multimodal 입력을 사용하며, 정답과 함께 제공되는 설명 또는 정답을 추론하기 전의 추론으로서 중간 추론 단계(즉, 논리적 근거)의 생성을 위한 학습을 필요로 합니다. 이러한 multimodal CoT 추론 방법들이 LM의 multimodal 과학 질문에 답하는 능력을 향상시키는 데 도움이 되지만, 몇 가지 중요한 과제가 이러한 방법의 배치를 방해했습니다. (1) 노동 집약적인 annotation: 논리적 근거에 대한 수동 annotation은 시간이 많이 걸리고 비용이 많이 들며, 다단계 CoT 추론에서 일관성과 완전성을 보장하기 어렵기 때문에 이러한 접근 방식의 활용을 제한합니다. (2) 유연성: 기존 방법들에 의해 생성된 multimodal 논리적 근거의 효과는 그림 1(b)에서 입증된 것처럼 LM을 사용한 zero-shot prompting 또는 fine-tuning 학습 중 하나로 제한됩니다. 우리의 관찰에 따르면 MM-CoT에 의해 생성된 논리적 근거는 zero-shot prompting에 어떠한 이점도 제공하지 못하는 반면, GPT-3에 의해서만 생성된 논리적 근거는 fine-tuning 모델의 추론 능력을 향상시키지 못합니다. (3) 일반화 가능성: 현재의 multimodal CoT 추론 접근 방식은 새롭고 보지 못한 추론 경로를 필요로 하는 문제에 대해 제한된 일반화 가능성을 나타냅니다. 그림 1(d)와 (e)에서 볼 수 있듯이, 분포를 벗어난 기초 과학 질문은 이러한 모델에게 과제를 제기합니다. 또한, 자연 과학, 사회 과학, 언어 과학의 임의의 두 가지 주제의 질문을 포함하는 특정 하위 집합에서 학습된 모델은 다른 주제의 질문에 적용될 때 성능이 저하됩니다 (4.1절 참조). (4) 설명성: multimodal CoT의 목표는 정답을 추론하는 것을 넘어 설명을 제공하는 것을 포함하지만, 현재 생성된 논리적 근거의 해석 가능성은 여전히 추가적인 개선이 필요합니다.
본 연구는 앞서 언급한 과제를 극복하고 zero-shot 및 fine-tuning 학습 모두에서 LM의 추론 능력을 향상시키기 위한 논리적 근거 생성을 위한 zero-shot, 일반화 가능하고 설명 가능한 접근 방식을 개발하는 것을 목표로 합니다. 이를 달성하기 위해, 우리는 먼저 multimodal 추론에 논리적 근거를 통합하는 것을 조사하고 2단계 논리적 근거 생성 및 활용 과정을 결정합니다. 그런 다음 (1) 논리적 근거가 진정한 지식 제공자 역할을 하는 활용 단계에서의 역할과 (2) 논리적 근거 생성 단계에서 심화된 hallucination의 과제를 탐구합니다. 이러한 요인들을 바탕으로 다음과 같은 접근 방식을 공식화합니다.
일반적인 multimodal 논리적 근거를 생성하기 위해, 위에서 탐구한 요인들을 고려하여 language-only LLM을 사용하여 multimodal 논리적 근거를 생성하는 Duty-Distinct Chain-of-Thought Prompting (DDCoT)라는 새로운 multimodal CoT prompting 접근 방식을 제안합니다. 첫 번째 요인에 대해, 우리의 핵심 통찰력은 "critical thinking – 적정 수준의 회의론 유지"입니다. 즉, 논리적 근거 생성 과정에서 불확실성을 명시적으로 나타내는 것이 중요한데, 이는 특히 zero-shot 설정에서 정답을 추론하는 사고 과정에서 LM을 안내하는 핵심 입력 역할을 하는 생성된 논리적 근거의 정확성을 향상시키는 데 도움이 되기 때문입니다. 두 번째 요인에 대해, 우리의 핵심 통찰력은 "모든 사람이 자신의 역할을 수행하도록 하기 – 분업 및 협력"입니다. 즉, interleaved multimodal 입력에서 직접 논리적 근거를 생성할 때 발생하는 language hallucination 문제를 극복하기 위해 LLM의 추론 및 인식 책임과 기성 visual models의 책임을 명시적으로 식별하도록 LLM에 prompting하는 것이 필요합니다. 이를 바탕으로 interleaved 추론 및 인식을 수행하기 위한 negative-space prompting, 시각적 인식 및 공동 추론의 순차적 과정을 제안합니다. 관찰된 요인에 대한 더 자세한 분석과 두 가지 통찰력의 동기는 3.1절과 3.2절에서 자세히 설명합니다.
생성된 논리적 근거를 활용하여 LM의 multimodal 질의 응답을 용이하게 하기 위해, zero-shot prompting 및 fine-tuning 학습 모두에서 LM의 chain of thought 및 multimodal 입력에 대한 주의를 명시적으로 안내하는 입력으로 활용합니다. zero-shot 학습을 위해 생성된 논리적 근거를 문제 설명과 함께 LM의 입력으로 결합합니다. fine-tuning 학습을 위해, interleaved multimodal 입력에 대해 더 나은 필터링, 인코딩 및 공동 추론을 위해 논리적 근거를 활용하기 위해 deep-layer prompting (DLP) 및 rational-compressed visual embedding (RCVE)를 제안합니다.
요약하자면, 우리의 기여는 세 가지입니다.
(1) 본 연구는 zero-shot multimodal 논리적 근거 생성을 처음으로 연구합니다. 우리는 논리적 근거 생성에 대한 multimodal CoT의 과제와 통찰력, 즉 zero-shot prompting에서 민감한 논리적 근거, 치명적인 망각으로 인한 fine-tuning에 필요한 지식, interleaved multimodal 입력으로 인해 심화된 hallucination을 심층적으로 분석합니다. 우리는 이러한 통찰력이 향후 연구에 도움이 되기를 바랍니다.
(2) negative-space 설계와 해체의 결합된 효과를 통해 비판적인 태도를 유지하고 추론 및 인식 책임을 식별하는 새로운 DDCoT prompting을 제안합니다. 결과적으로 생성된 논리적 근거는 zero-shot prompting 및 fine-tuning 학습 모두에서 LM의 추론 능력을 향상시키기 위한 multimodal 입력의 일부가 될 수 있습니다.
(3) 논리적 근거를 통해, 우리의 방법은 이미지 맥락이 있는 질문에서 GPT-3와 UnifiedQA를 각각 +2.53% 및 +8.23% 향상시키면서 state-of-the-art LM을 일관되게 능가하는 동시에 인상적인 일반화 가능성과 설명성을 나타냅니다.
정리 노트: 1 서론 (Introduction)
주제: 인간 수준의 복잡한 과제 해결을 위한 AI 시스템의 발전과 multimodal CoT의 과제
배경:
- AI 시스템의 궁극적인 목표 중 하나는 인간처럼 신뢰성 있고 효율적으로 복잡한 과제를 해결하는 것.
- 인간은 다양한 modality의 정보를 통합하는 다단계 추론에 의존.
- 최근, language models (LMs)는 chain of thought (CoT) prompting 또는 fine-tuning을 통해 다단계 추론 과제에서 상당한 발전.
CoT 연구의 한계:
- 대부분의 CoT 연구는 언어 modality에만 집중, multimodal 맥락에 대한 연구는 미미함.
Multimodal CoT 연구의 선구자 및 과제:
- UnifiedQA와 MM-CoT는 vision-and-language multimodality에서 CoT 추론을 시도한 선구적인 연구.
- 이들은 multimodal 입력을 사용하며, 중간 추론 단계(rationales) 생성을 위한 학습 필요.
- Multimodal CoT가 LM의 multimodal 과학 질문 답변 능력을 향상시키는 데 기여하지만, 다음과 같은 중요한 과제 존재:
- 노동 집약적인 annotation: rationales에 대한 수동 annotation은 시간, 비용 소모가 크고, 다단계 CoT 추론에서 일관성과 완전성을 보장하기 어려움. 이는 접근 방식의 활용을 제한.
- 유연성: 기존 방법의 multimodal rationales 효과는 zero-shot prompting 또는 fine-tuning 학습으로 제한됨. MM-CoT의 rationales는 zero-shot prompting에 이점을 제공하지 못하며, GPT-3만으로 생성된 rationales는 fine-tuning 모델의 추론 능력을 향상시키지 못함.
- 일반화 가능성: 현재의 multimodal CoT 추론 접근 방식은 새롭고 보지 못한 추론 경로를 필요로 하는 문제에 제한적인 일반화 가능성을 보임. out-of-distribution 기초 과학 질문은 이러한 모델에 어려움을 제기. 특정 하위 집합에서 학습된 모델은 다른 주제의 질문에 적용 시 성능 저하.
- 설명성: multimodal CoT의 목표는 정답 추론뿐 아니라 설명 제공을 포함하지만, 현재 생성된 rationales의 해석 가능성은 추가적인 개선 필요.
본 연구의 목표:
- 위의 과제들을 극복하고 zero-shot, 일반화 가능하며 설명 가능한 rationales 생성 접근 방식 개발.
- zero-shot 및 fine-tuning 학습 모두에서 LM의 추론 능력 향상.
연구의 접근 방식:
- multimodal 추론에 rationales의 통합을 조사하고 2단계 rationale 생성 및 활용 과정 결정.
- (1) rationales가 지식 제공자 역할을 하는 활용 단계의 역할과 (2) rationale 생성 단계에서 심화된 hallucination의 과제를 탐구.
핵심 아이디어 및 제안:
- 일반적인 multimodal rationales 생성을 위해 Duty-Distinct Chain-of-Thought Prompting (DDCoT)라는 새로운 multimodal CoT prompting 접근 방식 제안.
- DDCoT의 두 가지 핵심 통찰력:
- "critical thinking – 적정 수준의 회의론 유지": rationale 생성 과정의 불확실성을 명시적으로 나타내는 것이 중요. 특히 zero-shot 설정에서 정답 추론 과정에서 LM을 안내하는 입력인 생성된 rationales의 정확성 향상에 도움.
- "let everyone do their jobs – 분업 및 협력": interleaved multimodal 입력에서 직접 rationales를 생성할 때 발생하는 language hallucination 문제를 극복하기 위해 LLM에게 LLM과 visual models의 추론 및 인식 책임을 명시적으로 식별하도록 prompting하는 것이 필요.
- 이를 바탕으로 negative-space prompting, 시각적 인식 및 공동 추론의 순차적 과정 제안.
요약:
서론에서는 AI의 목표, 인간의 추론 방식, LLM의 발전, multimodal CoT의 필요성 및 기존 연구의 한계점을 지적하고, 본 연구의 목표와 핵심 아이디어를 간략하게 제시합니다. 특히, annotation의 어려움, 유연성, 일반화 가능성, 설명성의 한계를 강조하며, 이를 극복하기 위한 새로운 접근 방식인 DDCoT를 소개합니다.
정리 노트: 2 관련 연구 (Related Work)
주제: 본 연구와 관련된 기존 연구들을 살펴보고 차이점 및 본 연구의 차별성을 명확히 함.
세부 주제별 정리:
- LLM의 CoT 추론 (CoT Reasoning of LLMs):
- LLM은 자연어 처리에서 성공적인 모습을 보여왔음.
- 최근, zero-shot 및 few-shot 다단계 사고 prompting이 LLM의 추론 능력을 크게 향상시키는 것으로 밝혀짐. 이에 따라 chain-of-thought (CoT) 방법이 주목받고 있음.
- 기존 연구들은 예제 선택 (유사성, 다양성, 복잡성 기반) 및 추론 파이프라인 최적화 (프로그래밍, 문제 분해, 보정 조정 등)에 초점을 맞춤.
- 본 연구는 이러한 연구들을 바탕으로 CoT 추론을 multimodality로 확장하는 데 초점을 맞추면서, multimodal에서 발생하는 고유한 복잡성을 해결하는 데 집중.
- 특화된 추론 기술을 작은 모델로 이전 (Transferring Specialized Reasoning Skills to Small Models):
- LLM의 CoT 추론 연구 외에도, 더 적은 매개변수를 가진 모델에서 CoT를 수행하는 연구도 존재.
- 일부 연구는 LLM의 CoT 능력을 더 작은 모델로 증류시켜 특정 작업에서 작은 모델의 성능을 향상시키는 데 초점을 맞춤.
- 기존 연구들과 달리, 본 연구는 LLM의 CoT 추론을 통해 생성된 rationales를 활용하여 multimodal 추론을 위한 이미지 이해를 명시적으로 안내하는 데 사용. 즉, 추론 시점에 rationale을 생성하는 것이 아니라, 사전 생성된 rationale을 활용하는 방식.
- Cross-modal CoT 추론 (Cross-modal CoT Reasoning):
- multimodal CoT의 선구적인 연구는 annotation된 rationales가 포함된 multimodal 과학 질문 데이터 세트인 ScienceQA를 제안.
- 해당 연구에서는 GPT-3에서 zero-shot prompting을 수행하고 UnifiedQA에서 fine-tuning 학습을 수행하여 rationales와 정답을 동시에 생성.
- MM-CoT는 모델이 먼저 ground-truth annotation을 기반으로 rationales를 생성하도록 학습한 후, 모든 정보를 활용하여 최종 정답을 생성하는 2단계 프레임워크를 제시.
- 하지만, 이러한 기존 연구들의 문제점은 생성된 rationales가 zero-shot 또는 fine-tuning 학습 중 하나에만 독점적으로 도움이 될 수 있다는 점. 즉, 두 가지 학습 방식 모두에 효과적인 rationale 생성이 어려움.
- Visual Modality를 Language Models에 통합 (Integrate Visual Modality to Language Models):
- LLM의 open-world commonsense 지식 통합 능력이 입증됨에 따라, 복잡한 시각 및 multimodal 문제를 해결하기 위해 기존 LLM에서 visual modality를 사용할 수 있도록 하는 연구가 증가.
- 일부 연구는 이미지 feature를 언어 공간에 맞추기 위해 추가 학습 데이터를 통합.
- 다른 연구는 LLM의 scheduling 기능을 활용하여 기성 vision models을 동적으로 통합하고 이미지 정보를 텍스트 형태로 명시적으로 추출.
- 기존 연구들과 달리, 본 연구는 multimodal 입력을 한 번에 직접 통합하는 것이 아니라, rationale 생성의 불확실성을 명시적으로 식별하고 시각 정보를 단계별로 보완하는 방식을 취함. 즉, 시각 정보를 점진적으로 통합하여 hallucination 문제를 완화하고자 함.
요약:
관련 연구 부분에서는 CoT 추론, 작은 모델로의 지식 이전, cross-modal CoT 추론, visual modality의 LM 통합 등 다양한 기존 연구들을 살펴보고, 각 연구의 특징과 한계점을 지적합니다. 특히, 본 연구는 기존 연구들과 달리 multimodal 상황에서 zero-shot 및 fine-tuning 모두에 효과적인 rationale 생성 및 활용 방법을 제안하고, 시각 정보를 점진적으로 통합하여 hallucination 문제를 완화하는 데 초점을 맞추고 있음을 강조합니다.
3 Method
우리의 연구는 일반화 가능하고 설명 가능한 논리적 근거를 생성하기 위해 텍스트에 시각 정보를 가장 잘 넣는 방법에 초점을 맞춥니다. 이 섹션에서는 먼저 탐색의 개념과 동기를 소개하고 (3.1절), 이어서 논리적 근거 생성 (3.2절) 및 활용 (3.3절)에 대한 구체적인 방법 설계를 제시합니다.
3.1 동기: Multimodal 추론을 위한 논리적 근거 활용
unimodal 추론에서 논리적 근거의 성공은 multimodal 추론에서 추론 능력과 해석 가능성을 모두 향상시키기 위해 논리적 근거를 활용하도록 동기를 부여합니다. 이 섹션에서는 먼저 3.1.1절에서 multimodal 추론에 논리적 근거를 통합하는 것을 조사하고, 3.1.2절에서는 multimodal 추론 향상에서 논리적 근거의 역할을 검토하는 동시에 3.1.3절에서 LLM으로 일반적인 논리적 근거를 생성하는 과제를 조명합니다.
3.1.1 2단계 추론 과정: Multimodal 논리적 근거 생성 및 활용
[31, 71, 69]를 따라, 우리는 먼저 LLM에 논리적 근거와 함께 정답을 생성하도록 prompting하고 multimodal 추론 능력을 향상시킬 수 없음을 관찰합니다. 즉, 정답만 생성하는 경우의 74.04% 정확도와 논리적 근거와 정답을 모두 생성하는 경우의 75.17% 정확도입니다.
그림 2: multimodal 추론에서 입력 논리적 근거의 중요성과 zero-shot 및 fine-tuning 시나리오에서 논리적 근거의 상이한 역할을 보여주는 예시.
또한, 그림 2(a)에서 설명된 것처럼, 이미지 캡션 형태로 충분한 이미지 정보가 제공되었음에도 불구하고, 이 경우의 LLM인 GPT-3는 질문과 캡션을 공동으로 추론하여 정답을 도출하지 못합니다. 가능한 이유는 LLM이 밀집된 이미지 정보를 이해하는 데 어려움을 겪기 때문입니다.
사람들이 모든 밀집된 정보에 무차별적으로 초점을 맞추기보다는 질문의 맥락에서 이미지에서 핵심 정보를 추출하는 것에 동기를 부여받아, 우리는 이미지 이해를 명시적으로 안내하기 위한 구조화된 논리적 사슬로 논리적 근거를 제공하는 것을 탐구합니다. 그림 2(a)와 (d)에서 볼 수 있듯이, 논리적 근거를 입력으로 통합하면 모델의 multimodal 추론 능력이 향상됩니다. 따라서 우리는 multimodal 논리적 근거 생성과 후속 활용이라는 2단계 추론 과정을 사용합니다.
3.1.2 Zero-shot 및 Fine-tuning 학습에서 논리적 근거의 역할 차이
추가 탐색에서, 우리는 논리적 근거의 효과가 zero-shot 및 fine-tuning 모델에서 다름을 발견합니다.
그림 3: 그림 1에 제시된 질문과 함께 zero-shot 및 fine-tuning 시나리오에서 논리적 근거의 상이한 역할에 대한 예시.
Zero-shot prompting을 위한 논리적 근거 민감 추론. ChatGPT와 같은 LLM에서 zero-shot prompting을 수행하면, 모델이 입력된 논리적 근거에 따라 추론하는 경향이 있음을 발견합니다. 예를 들어, 추가 논리적 근거를 참조하지 않고도 ChatGPT에 인코딩된 상식 지식을 통해 그림 3(c)에서 볼 수 있듯이 "어떤 영양소가 이미지의 음식에서 주로 제공되는가"라는 기본적인 생물학 질문에 답할 수 있습니다. 그러나 오해의 소지가 있는 논리적 근거의 "오렌지는 지방의 좋은 공급원으로 알려져 있다"라는 주장은 ChatGPT가 같은 질문에 답하지 못하게 합니다 (그림 3(a) 참조). 언어 모델이 주로 입력 논리적 근거를 기반으로 추론하는 경향을 고려할 때, 논리적 근거의 정확성은 LLM의 zero-shot prompting에 매우 중요합니다.
Fine-tuning을 위한 지식 필요 추론. zero-shot prompting 학습과는 대조적으로, fine-tuning 모델은 논리적 근거의 정확성뿐만 아니라 논리적 근거에 내재된 포괄적인 사전 지식에 대한 강한 의존성을 나타냅니다. 그림 3(d)와 2(b)에서 볼 수 있듯이, 오렌지에서 주로 제공되는 영양소 및 자기력에 영향을 미치는 요인과 같은 상식 지식이 부족하면 fine-tuning 모델은 이러한 두 가지 질문에 답하지 못합니다. zero-shot prompting에 비해, fine-tuning 모델은 향상된 오류 내성을 보여주는 동시에 (그림 2(c) 참조) 지식 부족에 대한 더 높은 취약성을 보여줍니다. 이는 LM의 fine-tuning 중 발생하는 catastrophic forgetting에서 비롯됩니다.
3.1.3 Multimodality를 가진 LLM의 과제: Hallucination 심화
multimodal 정보를 이해하는 데 언어 모델을 지원하기 위해 위의 두 가지 역할을 동시에 충족하는 일반적인 논리적 근거를 생성하기 위해, 우리는 먼저 수동 annotation에 의존하여 논리적 근거를 생성하도록 학습된 state-of-the-art 방법을 분석합니다. 그러나, 이는 정확성을 고려하지 않고 논리적 근거를 생성하여 언어 모델을 오도할 위험을 초래합니다.
또한, 수동으로 annotation된 논리적 근거를 사용한 학습을 기반으로, out-of-distribution 질문에 대한 충분한 관련 지식을 포함하는 논리적 근거를 생성하는 능력이 부족하여 상당한 성능 저하를 초래합니다 (그림 3(b) 및 표 2의 왼쪽 표 참조). MM-CoT와 달리, 우리는 일반화에 대한 내재적 능력을 활용하여 zero-shot prompting으로 LLM에 의존하여 논리적 근거를 생성합니다. 우리는 또한 논리적 근거를 생성하기 위한 전략을 탐구합니다.
그림 4: LLM으로 논리적 근거를 생성할 때 interleaved multimodal 정보를 한 번에 제공함으로써 악화되는 hallucination 문제의 예시.
Uni-modal 논리적 근거는 제한적인 효과를 가집니다. 우리는 이미지 정보 없이 "단계별로 생각해 봅시다"라고 직접 prompting하는 것으로 시작하여 시각적으로 관련 없는 논리적 근거 (그림 4(a) 참조)와 낮은 성능 (표 2의 오른쪽 표에서 "w/ naive R" 행 참조)을 초래합니다.
Interleaved 정보는 hallucination을 악화시킵니다. 이미지 정보를 포함하는 multimodal 논리적 근거를 생성하기 위한 과제는 한 번에 interleaved multimodal 정보를 제공함으로써 악화되는 language hallucination을 완화하는 데 있습니다. 순진한 시도는 이미지 캡션을 추출하여 질문과 결합하여 공동 prompt로 사용하는 것입니다. 이미지 정보의 통합에도 불구하고, 생성된 논리적 근거는 초기 기대와 일치하지 않는 이미지 관련 질문에 대해 차선책으로 남아 있습니다. 다양한 사례를 분석한 결과, interleaved 정보는 LLM을 hallucination으로 유도하여 조작된 시각 정보를 생성하는 경향이 있음을 관찰합니다. 그림 4에서 설명된 것처럼, 우리는 필요한 정보가 부족한 이미지에서 "먹이 그물"이라는 캡션을 추출했습니다. 결과적으로, 언어 모델은 "1차 소비자는 동물성 플랑크톤과 다시마이다"와 같은 이미지 관련 정보를 상상하게 되어 (그림 4(b) 참조) 신뢰할 수 있는 지식과 language hallucination을 구별하는 데 어려움을 겪습니다.
정리 노트: 3.1 동기: Multimodal 추론을 위한 논리적 근거 활용
주제: unimodal 추론에서의 논리적 근거의 성공을 바탕으로 multimodal 추론에서 논리적 근거를 활용하는 동기 및 필요성을 설명하고, 그 과정에서 발생하는 과제를 제시.
세부 주제별 정리:
- 3.1.1 2단계 추론 과정: Multimodal 논리적 근거 생성 및 활용 (Two-step Reasoning Process: Multimodal Rationales Generation and Utilization):
- unimodal 추론에서 논리적 근거가 성공적인 결과를 보여주었기 때문에, multimodal 추론에서도 논리적 근거를 활용하여 추론 능력과 해석 가능성을 향상시키고자 함.
- 기존 연구들을 참고하여, LLM에게 논리적 근거와 함께 정답을 생성하도록 시도했지만, multimodal 추론 능력 향상에 큰 효과가 없었음 (정답만 생성 시 74.04% 정확도, 논리적 근거와 정답 모두 생성 시 75.17% 정확도).
- 이미지 캡션이 제공되었음에도 LLM이 질문과 캡션을 함께 추론하여 정답을 도출하지 못하는 경우가 발생. 이는 LLM이 밀집된 이미지 정보를 이해하는 데 어려움을 겪기 때문으로 분석.
- 사람들이 모든 이미지 정보를 무차별적으로 보는 것이 아니라, 질문의 맥락에서 핵심 정보를 추출하는 것에 착안하여, 논리적 근거를 구조화된 논리적 사슬로 제공하여 이미지 이해를 명시적으로 안내하는 방식을 탐구.
- 그 결과, 논리적 근거를 입력으로 통합하는 것이 모델의 multimodal 추론 능력 향상에 도움이 됨을 확인.
- 이에 따라, multimodal 논리적 근거 생성과 후속 활용이라는 2단계 추론 과정을 채택.
- 3.1.2 Zero-shot 및 Fine-tuning 학습에서 논리적 근거의 역할 차이 (Roles of Rationales Differ in Zero-shot and Fine-tuning Learning):
- 논리적 근거의 효과는 zero-shot 모델과 fine-tuning 모델에서 다르게 나타남.
- Zero-shot prompting: LLM은 입력된 논리적 근거에 따라 추론하는 경향이 있음. 따라서, zero-shot prompting에서는 논리적 근거의 정확성이 매우 중요. 잘못된 논리적 근거는 모델의 추론을 잘못된 방향으로 이끌 수 있음.
- Fine-tuning: fine-tuning 모델은 논리적 근거의 정확성뿐만 아니라, 논리적 근거에 포함된 포괄적인 사전 지식에 크게 의존. 상식 지식이 부족할 경우, fine-tuning 모델은 질문에 제대로 답하지 못함. zero-shot prompting에 비해 오류 내성은 향상되었지만, 지식 부족에는 더 취약한 모습을 보임. 이는 fine-tuning 과정에서 발생하는 catastrophic forgetting 때문으로 분석.
- 3.1.3 Multimodality를 가진 LLM의 과제: Hallucination 심화 (Challenge Lies in LLMs with Multimodality: Hallucinations Intensified):
- multimodal 정보를 이해하는 데 LLM을 효과적으로 지원하는 일반적인 논리적 근거를 생성하기 위해, 기존의 state-of-the-art 방법 (수동 annotation 기반)을 분석.
- 기존 방법은 논리적 근거의 정확성을 고려하지 않고 생성하기 때문에, LLM을 오도할 위험이 있음. 또한, 수동 annotation 기반 학습으로 인해 out-of-distribution 질문에 대한 충분한 지식을 포함하는 논리적 근거를 생성하는 능력이 부족하여 성능 저하를 초래.
- 기존 방법과 달리, 본 연구에서는 LLM의 일반화 능력을 활용하여 zero-shot prompting으로 논리적 근거를 생성하는 방식을 채택하고, 논리적 근거 생성 전략을 추가적으로 탐구.
- 이미지 정보 없이 "단계별로 생각해 봅시다"라고 prompting하는 경우, 시각적으로 관련 없는 논리적 근거가 생성되어 성능이 저하됨.
- 이미지 정보를 포함하는 multimodal 논리적 근거를 생성하는 과정에서, interleaved multimodal 정보를 한 번에 제공하는 경우 language hallucination 문제가 심화됨. 이미지 캡션과 질문을 함께 prompt로 제공하는 시도를 했지만, 기대와 달리 생성된 논리적 근거는 여전히 이미지 관련 질문에 적합하지 않았음. 분석 결과, interleaved 정보가 LLM을 hallucination으로 유도하여 조작된 시각 정보를 생성하는 경향이 있음을 확인.
요약:
3.1에서는 multimodal 추론에서 논리적 근거의 활용 동기를 설명하고, 2단계 추론 과정 (논리적 근거 생성 및 활용)을 제시합니다. 또한, zero-shot과 fine-tuning 학습에서 논리적 근거의 역할이 다름을 분석하고, multimodal 상황에서 LLM이 겪는 hallucination 문제를 지적합니다. 이러한 분석을 통해, 본 연구에서 제시할 방법론의 필요성을 강조합니다.
3.2 Multimodal 논리적 근거 생성을 위한 Zero-shot DDCoT Prompting
우리는 3.1절에서 도출된 다음 핵심 통찰력을 기반으로 일반적인 multimodal 논리적 근거를 생성합니다.
(1) LLM이 multimodal 정보를 직접 공동으로 추론하는 데 어려움이 있다는 점을 고려하여 2단계 추론 과정을 활용합니다 (3.1.1절). (2) 지식으로 채워져 있고 충실도를 요구하는 zero-shot 및 fine-tuning 학습의 요구 사항을 모두 충족하는 논리적 근거를 생성합니다 (3.1.2절). (3) interleaved 정보로 인한 심화된 hallucination을 완화합니다 (3.1.3절).
따라서, 우리는 세 단계를 포함하는 Duty-Distinct Chain-of-Thought Prompting (DDCoT)를 제안합니다. (1) 우리는 LLM의 내재적 지식을 활용하여 multimodal 논리적 근거를 생성합니다. (2) 우리는 LLM에게 추론과 인식 단계의 책임을 단계별로 구별하도록 명시적으로 지시합니다. (3) 우리는 불확실한 부분에 대한 negative space를 명시적으로 표시하여 논리적 근거 생성에서 critical thinking을 강조합니다. 우리의 DDCoT는 일반적인 multimodal 논리적 근거 생성을 위해 LLM의 추론 능력과 visual question-answering 모델의 이미지 이해 능력을 공동으로 활용합니다.
Negative-Space Prompting을 통한 인식 단계로의 추론 분해.
먼저, 주어진 질문, 맥락 및 선택지를 사용하여 LLM에 입력 질문을 일련의 기본 하위 질문으로 분해하도록 prompting하여 복잡한 추론 사슬을 간단한 단계로 나눕니다 (그림 5 참조). NLP 커뮤니티의 이전 연구와 달리, 우리는 다음 prompting 설계를 도입합니다. (1) 문제 해결 과정을 단순화하기 위해 단일 단계 분해를 활용합니다. 특히, 우리는 "단계별로 생각하고 질문을 필요한 하위 질문으로 분해하십시오"라는 지시를 사용하여 하위 질문 시퀀스를 한 번에 얻습니다. (2) 그런 다음 각 하위 질문에 시각 정보 없이 답할 수 있는지 여부를 LLM에 명시적으로 결정하도록 prompting합니다. 시각적 인식이 포함된 하위 질문에 답할 수 없는 경우, LLM은 negative space로서 "불확실"이라고 답하도록 지시받습니다. 우리는 모델에 다음 prompt를 제공합니다. "그림에 대한 정보가 없다고 가정하고 하위 질문에 답하고 하위 질문을 결정할 수 없는 경우 해당 하위 답변을 '불확실'로 구성하십시오." 하위 질문에 대한 비판적 태도를 취하고 명시적인 불가시성 가정을 도입함으로써, 우리는 이미지가 포함된 하위 질문을 처리할 때 LLM의 hallucination을 성공적으로 완화하여 사실 오류를 줄입니다.
시각적 보완을 얻기 위한 시각적 인식. 그러나 negative space로 인한 방해는 LLM이 chain-of-thought 추론을 직접 활성화하는 것을 막습니다. negative space를 채우기 위해, 우리는 기성 모델의 이미지 이해 능력을 활용하여 시각 정보를 시각적 보완으로 획득합니다. 특히, 우리는 visual question answering (VQA) 모델을 사용하여 간단한 시각적 인식 문제에 해당하는 negative space가 있는 하위 질문에 개별적으로 답합니다. 우리의 접근 방식은 후속 공동 추론 통합 덕분에 VQA 모델의 기본 시각적 인식 능력만을 활용할 수 있으며 가능한 추론 오류에 강합니다.
공동 추론으로 통합. 시각적 인식 결과를 포함하는 일련의 완전한 하위 답변을 사용하여, 우리는 정보를 통합하고 추론 과정에 참여하기 위해 다시 LLM에 의존합니다. 얻은 하위 질문과 해당 하위 답변을 추가 정보로 통합하여, 우리는 LLM에 "단계별로 생각하십시오"라고 prompting하여 언어 및 시각 정보와 함께 공동 추론을 수행하고 multimodal 논리적 근거를 생성합니다. 또한, 추가 정보에 대한 비판적 태도와 신중한 분석을 장려하기 위해 "제공된 추가 정보가 항상 유효하지는 않을 수 있습니다" 및 "유효한 정보를 선택하여 논리적 근거를 구성하십시오"라고 명시적으로 prompting합니다. 불확실성을 명시적으로 강조함으로써, LLM은 원래 질문 정보와 내재적 지식에 주의를 기울여 추가 지식을 효과적으로 필터링하고 심지어 수정하여 그림 5에서와 같이 더 합리적인 답변을 도출할 수 있습니다.
3.3 일반적인 시나리오에서의 Multimodal 논리적 근거 활용
이 섹션에서는 zero-shot 및 fine-tuning 학습 모두에서 multimodal 추론을 달성하기 위해 논리적 근거의 활용을 소개합니다. zero-shot 학습의 경우, 확립된 지식과 추론 chain of thought를 포함하는 논리적 근거로 모델을 prompting하는 것을 고려합니다. 또한, fine-tuning의 경우, 제안된 deep-layer prompting 및 rationale-compressed visual embedding과 결합된 제안된 논리적 근거는 심층적인 multimodal 이해 및 추론을 향상시킵니다.
Figure 5: An overview of our DDCoT and its utilization to improve the multimodal reasoning of LMs. Note that although errors encounter in the second sub-problem during visual recognition, the language model rectifies this error in the joint reasoning step with critical thought.
Zero-shot Prompting을 위한 활용. 그림 5에서와 같이, ChatGPT와 같은 LLM의 경우, 3.2절에서 생성된 논리적 근거와 문제 설명을 결합한 zero-shot prompt를 모델의 입력으로 활용합니다. 신뢰성을 향상시켜 불확실성을 명시적으로 질문하여 생성된 논리적 근거는 LLM이 더 정확한 평가를 내리고 더 적은 hallucination을 나타내도록 촉진할 수 있습니다.
Fine-tuning 학습을 위한 활용. fine-tuning 과정의 프레임워크는 그림 5에 나와 있습니다. fine-tuning 중에, 우리는 cross-modal 정보를 정렬하고 multimodal 추론을 용이하게 하기 위해 얕은 레이어와 깊은 레이어 모두에서 학습 가능한 prompt를 도입합니다. 또한, 전체 이미지를 LM에 직접 입력하는 대신, multimodal 논리적 근거를 사용하여 LM의 시각 입력 embedding으로 핵심 이미지 feature의 필터링을 안내합니다.
- **Deep-Layer Prompting (DLP)**는 여러 수준에서 multimodal 입력의 정렬 및 공동 추론을 지원하도록 설계되었습니다. 얕은 수준에서 시각 및 언어 의미의 정렬을 용이하게 하기 위해 학습 가능한 prompt를 사용할 뿐만 아니라, 각 인코더 레이어에 대해 다른 prompt를 학습하여 명시적 논리적 근거를 활용하여 multimodality를 공동으로 인코딩합니다. 특히, 우리는 L 인코더 레이어에 대해 무작위로 초기화된 학습 가능한 prompt P ∈ R^(L×Np×C)를 사용합니다. l번째 레이어의 경우, 우리는 시각 입력 embedding의 시작과 끝에 prompt Pl ∈ R^(Np×C)를 로드합니다.
- Rational-Compressed Visual Embedding (RCVE). 시각 feature를 LM에 직접 입력하는 대신, multimodal 논리적 근거에 따라 시각 입력 embedding을 압축합니다. 특히, 텍스트 및 시각 맥락을 공동으로 이해하기 위해 논리적 근거를 활용하여 시각 feature를 필터링하기 위한 사전 지식으로 사용합니다. 맥락과 논리적 근거를 포함하는 텍스트 embedding T ∈ R^(Nt×C), 전역 시각 입력 Vg ∈ R^C 및 로컬 시각 입력 Vg ∈ R^(Nv×C)가 주어지면, 먼저 텍스트 embedding과의 유사성을 기반으로 전역 시각 feature를 다음과 같이 업데이트합니다.여기서 Vt ∈ R^C는 업데이트된 시각 feature이고 Attention(·, ·)은 표준 multi-head cross-attention 모듈입니다. 다음으로, 업데이트된 시각 feature Vt를 직접 사용하여 관련 로컬 시각 입력 Vl을 캡처하는 대신, 다음과 같이 로컬 입력을 필터링하기 위한 중요한 매개체로서 low-rank 중간 벡터를 도입합니다.여기서 MLP(·)는 활성화 함수가 있는 3 레이어 선형 레이어를 나타내고, Vr ∈ R^(Nr×Cr)은 Nr개의 low-rank 벡터를 나타내고, V는 LM의 인코더에 입력할 최종 시각 embedding입니다.
- Vr = reshape(MLP(Vt)), V = Attention(Vr, Vl) (2)
- Vt = Attention(Vg, T) (1)
정리 노트: 3.2 Multimodal 논리적 근거 생성을 위한 Zero-shot DDCoT Prompting
주제: Multimodal 논리적 근거 생성을 위한 Duty-Distinct Chain-of-Thought Prompting (DDCoT) 방법론 제안.
핵심 동기 (3.1절에서 도출):
- LLM은 multimodal 정보를 직접 공동 추론하는 데 어려움이 있음 (2단계 추론 필요).
- Zero-shot 및 fine-tuning 학습 모두에 적합한 (지식 풍부하고 충실도 높은) 논리적 근거 생성 필요.
- Interleaved 정보로 인한 hallucination 완화 필요.
제안 방법: Duty-Distinct Chain-of-Thought Prompting (DDCoT)
DDCoT는 다음 세 단계로 구성됩니다.
- LLM의 내재적 지식을 활용한 multimodal 논리적 근거 생성: LLM의 언어적 지식을 활용하여 초기 논리적 흐름을 구성합니다.
- 추론과 인식 단계의 책임 분리: LLM에게 각 단계의 역할을 명확히 구분하도록 지시합니다. 즉, 어떤 부분은 언어적 추론으로 해결하고, 어떤 부분은 시각적 인식이 필요한지 명시적으로 구분하도록 합니다.
- 불확실한 부분에 대한 Negative Space 표시: 시각 정보 없이는 답할 수 없는 부분 (불확실한 부분)을 "불확실"이라는 negative space로 명시적으로 표시하여, 비판적인 사고를 유도하고 hallucination을 방지합니다.
DDCoT의 구체적인 과정:
- Negative-Space Prompting을 통한 인식 단계로의 추론 분해:
- 주어진 질문, 맥락, 선택지를 사용하여 LLM에게 질문을 여러 개의 하위 질문으로 분해하도록 prompting합니다.
- 각 하위 질문에 대해 시각 정보 없이 답할 수 있는지 판단하도록 LLM에 지시합니다. 시각 정보가 필요한 경우 "불확실"이라고 답하도록 합니다. 이를 통해 이미지 관련 하위 질문에서 LLM의 hallucination을 완화하고 사실 오류를 줄입니다.
- 시각적 보완을 얻기 위한 시각적 인식:
- "불확실"로 표시된 하위 질문에 대해, 기성 VQA 모델을 사용하여 시각 정보를 획득합니다. 즉, VQA 모델이 시각적 인식을 통해 "불확실" 부분을 채웁니다.
- 공동 추론으로 통합:
- 시각 인식 결과를 포함한 모든 하위 답변들을 다시 LLM에 제공하여, 언어 정보와 시각 정보를 함께 활용한 공동 추론을 수행하도록 합니다.
- LLM에게 "제공된 추가 정보가 항상 유효하지는 않을 수 있습니다" 및 "유효한 정보를 선택하여 논리적 근거를 구성하십시오"라고 명시적으로 prompting하여 추가 정보에 대한 비판적인 태도를 유도하고, 보다 합리적인 답변을 도출하도록 합니다.
정리 노트: 3.3 일반적인 시나리오에서의 Multimodal 논리적 근거 활용
주제: 3.2절에서 생성된 multimodal 논리적 근거를 zero-shot 및 fine-tuning 학습에 활용하는 방법 제시.
활용 방법:
- Zero-shot Prompting:
- 3.2절에서 생성된 논리적 근거와 문제 설명을 결합하여 LLM에 입력으로 제공합니다. 신뢰성이 향상된 논리적 근거를 통해 LLM은 더 정확한 평가를 내리고 hallucination을 줄일 수 있습니다.
- Fine-tuning 학습:
- Deep-Layer Prompting (DLP): 얕은 레이어와 깊은 레이어 모두에서 학습 가능한 prompt를 사용하여 cross-modal 정보를 정렬하고 multimodal 추론을 용이하게 합니다. 각 인코더 레이어마다 다른 prompt를 학습하여 multimodality를 공동으로 인코딩합니다.
- Rational-Compressed Visual Embedding (RCVE): 전체 이미지를 직접 입력하는 대신, multimodal 논리적 근거를 사용하여 핵심 이미지 feature를 필터링하고, 이를 시각 입력 embedding으로 사용합니다. 구체적으로, 텍스트 embedding과 시각 입력의 유사성을 계산하여 시각 feature를 업데이트하고, low-rank 중간 벡터를 도입하여 로컬 입력을 필터링합니다. 수식으로 표현하면 다음과 같습니다.Vr = reshape(MLP(Vt)), V = Attention(Vr, Vl) (2)
- Vt: 업데이트된 시각 feature
- Vg: 전역 시각 입력
- T: 텍스트 embedding (맥락 및 논리적 근거 포함)
- Vr: low-rank 중간 벡터
- V: 최종 시각 embedding
- Attention(·, ·): multi-head cross-attention 모듈
- MLP(·): 활성화 함수가 있는 3 레이어 선형 레이어
- 여기서,
- Vt = Attention(Vg, T) (1)
요약:
3.2절에서는 multimodal 논리적 근거 생성을 위한 DDCoT 방법을 제안하고, 3.3절에서는 생성된 논리적 근거를 zero-shot 및 fine-tuning 학습에 효과적으로 활용하는 방법을 제시합니다. 특히, fine-tuning에서는 DLP와 RCVE라는 두 가지 기법을 통해 multimodal 정보의 효율적인 활용을 도모합니다.
방법론 핵심
- 질문 분해: LLM을 사용하여 원래 질문을 여러 개의 더 작고 간단한 하위 질문으로 분해합니다. 이렇게 함으로써 복잡한 추론 과정을 단순화합니다.
- 시각 정보 필요성 판단: 각 하위 질문에 대해 시각 정보가 필요한지 여부를 LLM이 판단하도록 합니다. 시각 정보가 필요한 경우, 즉 시각적 인식이 필요한 경우 해당 하위 질문을 "불확실" 또는 negative space로 표시합니다.
- 외부 VQA 모델 활용: "불확실"로 표시된 하위 질문, 즉 시각 정보가 필요한 부분에 대해서는 외부의 VQA (Visual Question Answering) 모델을 사용하여 답변을 얻습니다. 이 단계에서 VQA 모델은 이미지에 대한 시각적 분석을 수행하고 해당 하위 질문에 대한 답을 제공합니다.
- LLM에 통합 및 최종 답변 생성: VQA 모델로부터 얻은 시각 정보를 포함하여 모든 하위 질문에 대한 답변들을 다시 원래의 LLM에 제공합니다. LLM은 이제 모든 정보를 종합하여 최종 답변을 생성합니다. 이 과정에서 LLM은 단순히 제공된 정보를 나열하는 것이 아니라, 비판적으로 분석하고 추론하여 최종적인 논리적 근거 (Rationale)와 답변을 생성합니다.