AI바라기의 인공지능
dataset : 논문 리뷰 : Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering 본문
dataset : 논문 리뷰 : Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering
AI바라기 2025. 1. 5. 16:30Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering 정리 노트
Purpose of the Paper
기존 과학 Question answering datasets은 정답에 대한 설명이 부족하거나, 텍스트로만 제공되거나, 규모가 작거나, 다루는 주제가 제한적이었다. 이 논문은 이러한 한계를 극복하고, AI 시스템의 multimodal 추론 능력과 설명 생성 능력을 향상시키기 위한 목적으로 대규모 multimodal 과학 Question answering dataset인 SCIENCEQA 를 제시한다. 특히, SCIENCEQA 는 21k 개의 multimodal 객관식 문제와 함께 정답에 대한 lecture와 explanation 을 제공하여 모델이 사람처럼 "chain-of-thought" (CoT) 추론 과정을 모방하도록 유도한다.
Key Contributions
- 대규모 multimodal 과학 Question answering dataset SCIENCEQA 구축: 21,208개의 multimodal 객관식 문제로 구성되며, 자연 과학, 사회 과학, 언어 과학 등 다양한 주제를 다루고 있으며 대부분의 문제에 lecture와 explanation 이 포함되어 있다.
- Chain-of-thought (CoT) 추론을 통한 reasoning 능력 향상: Large language models (LLMs)이 lecture와 explanation 을 CoT 로 생성하도록 학습시켜 Question answering 성능을 향상시켰다. Fine-tuned UnifiedQA 에서 3.99%, few-shot GPT-3 에서 1.20% 의 성능 향상을 보였다.
- Explanation 의 활용을 통한 학습 효율성 증대: Explanation 을 input 에 포함시키면 few-shot GPT-3 의 성능이 18.96% 향상됨을 보였고, CoT 를 활용한 UnifiedQA 는 40% 의 데이터만으로도 CoT 를 사용하지 않은 UnifiedQA 와 동일한 성능을 달성하여 explanation 이 데이터 효율성을 높임을 보였다.
Novelty
- Multimodal 형식의 lecture와 explanation 제공: 기존 dataset 들과는 달리, multimodal 형식의 lecture와 explanation 을 제공하여 모델이 다양한 형태의 정보를 활용하여 추론할 수 있도록 하였다.
- Chain-of-thought (CoT) 생성을 통한 설명 가능성 확보: 모델이 정답을 예측하는 과정에서 lecture와 explanation 을 CoT 로 생성하도록 하여 모델의 reasoning 과정을 사람이 이해할 수 있도록 하였다.
- 과학 Question answering 에 특화된 대규모 dataset: 과학 분야에 초점을 맞춘 대규모 dataset 을 제공함으로써 AI 시스템의 과학적 reasoning 능력 향상에 기여한다.
Experimental Highlights
- 다양한 VQA models 및 LLMs 실험: VisualBERT, UnifiedQA, GPT-3 등 다양한 모델을 활용하여 SCIENCEQA dataset 에 대한 성능을 평가하였다.
- CoT 생성이 Question answering 성능에 미치는 영향 분석: Fine-tuned UnifiedQA 와 few-shot GPT-3 모두에서 CoT 생성이 성능 향상에 기여함을 확인하였다.
- Explanation 활용에 따른 성능 변화 분석: Explanation 을 input 에 포함시키면 GPT-3 의 few-shot 성능이 크게 향상됨을 확인하였다.
- CoT 를 통한 학습 효율성 검증: CoT 를 활용한 UnifiedQA 는 적은 데이터로도 높은 성능을 달성하여 CoT 가 데이터 효율성을 높임을 보였다.
- Human evaluation: 생성된 explanation 에 대한 사람의 평가를 통해 GPT-3 (CoT) 모델이 생성한 explanation 이 65.2% 로 사람의 판단 기준과 잘 맞는다는 것을 보여주었다.
Limitations
- Explanation 생성의 어려움: 모델이 생성한 explanation 이 항상 정확하거나 완전하지는 않다.
- Multimodal 정보 활용의 한계: 모델이 multimodal 정보를 완벽하게 이해하고 활용하는 데 여전히 어려움을 겪는다.
- Dataset 편향 가능성: Dataset 구축 과정에서 특정 유형의 문제나 주제에 대한 편향이 발생했을 가능성이 있다.
- GPT-3 (CoT)의 한계: 여전히 틀린 답을 내놓거나, irrelevant, incorrect, or incomplete 한 답변을 내놓는 경우가 있다.
Future Work
- Explanation 생성 능력 향상: 모델이 더 정확하고 완전한 explanation 을 생성하도록 개선해야 한다.
- Multimodal 정보 활용 강화: 모델이 multimodal 정보를 더 잘 이해하고 활용할 수 있도록 하는 연구가 필요하다.
- Dataset 확장 및 개선: 더 다양한 주제와 유형의 문제를 포함하도록 dataset 을 확장하고, dataset 편향을 줄이기 위한 노력이 필요하다.
- 다양한 domain으로의 확장: 본 연구에서 제시한 CoT 기반 reasoning 방법론을 다른 domain 에도 적용하여 효과를 검증할 필요가 있다.
Abstract
사람이 질문에 답할 때, 일관되고 완전한 사고의 흐름(CoT)을 종합하기 위해 다양한 modality에 걸쳐 이용 가능한 정보를 활용합니다. 이 과정은 일반적으로 large-scale language models과 같은 deep learning models의 경우 블랙박스입니다. 최근에, science question benchmarks는 AI system의 multi-hop reasoning 능력과 해석 가능성을 진단하는 데 사용되었습니다. 그러나 기존 datasets는 답변에 대한 주석을 제공하지 못하거나, textual-only modality, 작은 규모 및 제한된 domain 다양성에 국한됩니다. 이를 위해, 우리는 약 21,000개의 다양한 과학 주제와 그에 상응하는 강의 및 설명과 함께 답변의 주석을 가진 multimodal multiple choice questions로 구성된 새로운 benchmark인 Science Question Answering(SCIENCEQA)를 제시합니다. 우리는 더 나아가 SCIENCEQA 질문에 답할 때 multi-hop reasoning 과정을 모방하기 위해, CoT로서 강의와 설명을 생성하도록 language models를 설계합니다. SCIENCEQA는 language models에서 CoT의 유용성을 보여줍니다. CoT는 few-shot GPT-3에서 1.20%, fine-tuned UnifiedQA에서 3.99%까지 question answering 성능을 향상시킵니다. 우리는 또한 입력에 설명을 제공하여 models가 설명을 활용할 수 있는 상한을 탐구합니다. 우리는 그것이 GPT-3의 few-shot 성능을 18.96% 향상시키는 것을 관찰했습니다. 우리의 분석은 더 나아가 language models가 인간과 유사하게 설명으로부터 이익을 얻어 더 적은 데이터에서 학습하고, 단지 40%의 데이터로 동일한 성능을 달성한다는 것을 보여줍니다.
핵심: 이 논문은 SCIENCEQA라는 새로운 multimodal science question answering benchmark를 제시하고, Chain-of-Thought (CoT) 를 활용하여 language models의 reasoning 능력을 향상시키는 방법을 탐구합니다.
기존 연구의 한계:
- 기존 science question answering datasets는 답변에 대한 주석(설명, 강의 등)이 부족하거나, 텍스트로만 구성되어 있거나, 규모가 작거나, 다루는 과학 분야가 한정적입니다.
- Large Language Models (LLMs)의 reasoning 과정은 "블랙박스"와 같아서 그 과정을 이해하기 어렵습니다.
이 논문에서 제시하는 새로운 점:
- SCIENCEQA benchmark: 21,000개의 multimodal (text, image) multiple choice questions으로 구성된 대규모 데이터셋으로 다양한 과학 분야를 다루고, 각 질문에 대한 정답뿐 아니라, 정답에 이르는 과정을 설명하는 강의(lecture)와 해설(explanation)을 annotation으로 포함합니다.
- Chain-of-Thought (CoT)를 활용한 language model 학습: SCIENCEQA 데이터셋을 활용하여 language models가 질문에 답할 때, 사람처럼 CoT를 생성하도록 학습시킵니다. 즉, 정답을 바로 제시하는 것이 아니라, 정답에 이르는 논리적인 단계를 강의와 해설 형태로 생성하도록 유도합니다.
- CoT의 효과 검증:
- Few-shot GPT-3와 fine-tuned UnifiedQA에서 CoT를 생성하도록 학습시킨 결과, question answering 성능이 각각 1.20%, 3.99% 향상되었습니다.
- 정답에 대한 해설을 입력으로 함께 제공했을 때, few-shot GPT-3의 성능이 18.96%까지 크게 향상됨을 확인했습니다. 이는 models가 해설 정보를 효과적으로 활용할 수 있음을 보여줍니다.
- 데이터 효율성 향상: CoT를 활용하면, language models가 마치 사람처럼 해설을 통해 학습 효율을 높일 수 있습니다. 단 40%의 데이터만으로도 CoT를 활용하지 않았을 때와 동일한 성능을 달성했습니다.
결론 및 시사점:
- SCIENCEQA는 language models의 multi-modal reasoning 능력을 평가하고 향상시키는 데 유용한 benchmark입니다.
- CoT를 활용하면 language models의 reasoning 능력을 향상시키고, 학습 효율을 높일 수 있습니다.
- 이 연구는 LLMs의 "블랙박스" 문제를 해결하고, 더 투명하고 해석 가능한 AI를 개발하는 데 기여할 것입니다.
1. Introduction
AI system의 오랜 목표는 인간처럼 안정적으로 행동하고 복잡한 tasks를 효율적으로 배우는 것입니다. 안정적인 의사 결정 과정에서, 인간은 일반적으로 설명으로 표현되는 명시적인 chain-of-thought (CoT) reasoning 과정을 따릅니다. 그러나, machine learning models은 대부분 특정 task를 수행하기 위해 대량의 input-output 예시를 사용하여 trained 됩니다. 이러한 black-box models은 기본적인 reasoning 과정을 안정적으로 드러내지 않고 오직 최종 결정만을 생성합니다. 당연하게도, 그들이 벤치마크에서 잘 수행되더라도, 그들이 task를 이해하고 일반화할 수 있는지는 불분명합니다. 반면에, 인간은 과거 경험으로부터의 지침이나 설명으로부터 학습하고, 그것들을 새롭고 보지 못한 문제에 일반화할 수 있습니다. 이것은 그들이 더 적은 데이터로 더 빨리 학습하도록 돕습니다. 이 작업에서, 우리는 science-based question answering의 맥락에서 기계가 그러한 reasoning 능력을 부여받을 수 있는지 탐구합니다.
최근에, science problem solving benchmarks는 AI system의 multi-hop reasoning 능력과 해석 가능성을 진단하는 데 사용되었습니다. 과학 질문에 답하기 위해, model은 multimodal contents를 이해할 뿐만 아니라 정확한 답에 도달하기 위해 외부 지식을 추출해야 합니다. 이러한 tasks는 domain에 특화된 지식과 명시적인 multi-hop reasoning을 필요로 하기 때문에, model이 reasoning 과정을 드러내기 위한 설명을 제공하지 못한다면 해석 가능하지 않을 것입니다. 그러나, 현재의 science question datasets는 대부분 답변에 대한 주석이 달린 설명이 부족합니다. 이 문제를 해결하기 위해, 다른 과학 datasets는 설명을 주석으로 달지만, 그것들은 textual only modality에 국한되고, 작은 데이터 규모 또는 적은 수의 주제로 제한됩니다. 그러므로, 우리는 설명과 풍부한 domain 다양성을 특징으로 하는 multimodal science questions을 포함하는 large-scale multi-choice dataset인 Science Question Answering (SCIENCEQA)를 수집합니다. SCIENCEQA는 초등학교 및 고등학교 과학 커리큘럼에서 수집되었으며, 강의와 설명과 함께 21,208개의 예시를 포함합니다. 기존 datasets와 달리, SCIENCEQA는 자연 과학, 사회 과학, 언어 과학의 세 가지 다른 과목으로부터 더 풍부한 domain 다양성을 가집니다. 전형적인 예시는 질문, multiple choices, multimodal contexts, 정답, 그리고 강의와 설명으로 구성됩니다. 강의와 설명은 각각 정답에 도달하기 위한 일반적인 외부 지식과 구체적인 이유를 제공합니다.

Figure 1: 우리는 데이터 예시가 multimodal question answering 정보와 근거가 있는(grounded) 강의 및 설명으로 구성된 SCIENCEQA 데이터셋을 구축합니다. 우리는 QA models이 chain-of-thought reasoning을 드러내는 합리적인 설명을 생성할 수 있는지 연구합니다.
그림 1의 질문에 답할 때 한 사람이 가질 수 있는 생각을 고려해 보십시오. 한 사람은 먼저 교과서에서 배운 힘의 정의에 관한 지식을 떠올립니다: "힘은 밀거나 당기는 것이다... 미는 것의 방향은... 당기는 것의 방향은..." 그리고 나서 일련의 추론을 형성합니다: "아기의 손이 장롱 문에 힘을 가한다. → 이 힘은 문을 열리게 한다. → 이 힘의 방향은 아기의 손 쪽이다." 그리고 마침내 정답에 도달합니다: "이 힘은 당기는 힘이다." 이 논문에서는, SCIENCEQA 질문에 답하기 위한 multi-hop reasoning 과정을 모방하기 위해 CoT로서 강의와 설명을 생성하도록 language models를 train 합니다.
우리의 실험은 현재의 multimodal methods가 SCIENCEQA에서 만족스러운 성능을 달성하지 못하고 정확한 설명을 생성하지 못한다는 것을 보여줍니다. 대신에, 우리는 CoT가 large language models를 few-shot learning 설정뿐만 아니라 fine-tuning 설정에서도 도울 수 있다는 것을 발견했습니다. 강의와 설명을 생성하기 위해 CoT와 결합될 때, fine-tuned UnifiedQA는 fine-tuning 단계에서 CoT를 사용하지 않는 것에 비해 3.99%의 개선을 달성합니다. chain-of-thought prompting을 통한 few-shot GPT-3 model은 CoT가 없는 few-shot GPT-3에 비해 1.20%의 개선으로 SCIENCEQA에서 75.17%를 얻을 수 있습니다. CoT로 prompted된 GPT-3는 자동화된 지표로 평가된 합리적인 설명을 생성할 수 있으며, 유망하게도, 설명의 65.2%가 인간 평가의 gold standard를 충족합니다. 우리는 또한 입력에 설명을 포함시켜 models가 설명을 활용하는 상한을 조사합니다. 그렇게 하는 것이 GPT-3의 few-shot 성능을 18.96% 향상시키는 것을 발견했으며, 이는 설명이 models를 돕고 현재 CoT framework에서 충분히 활용되지 않고 있음을 시사합니다. 추가 분석은, 인간처럼, language models가 더 적은 데이터로 학습하기 위해 설명으로부터 이익을 얻는다는 것을 보여줍니다: CoT를 사용한 UnifiedQA는 훈련 데이터의 40%만으로 CoT를 사용하지 않은 UnifiedQA와 동일한 결과를 얻습니다.
요약하면, 우리의 기여는 세 가지입니다: (a) 과학 domain에서 기존 datasets의 격차를 메우기 위해, 우리는 풍부한 domain 다양성을 가진 21,208개의 multimodal science questions을 포함하는 새로운 dataset인 Science Question Answering (SCIENCEQA)를 구축합니다. 우리가 아는 한, SCIENCEQA는 답변에 대한 강의와 설명을 주석으로 다는 최초의 large-scale multimodal dataset입니다. (b) 우리는 CoT가 설명을 생성하여 model 성능과 신뢰성을 향상시킴으로써 few-shot 및 fine-tuning 학습 모두에서 large language models에 도움이 된다는 것을 보여줍니다. (c) 우리는 더 나아가 GPT-3의 상한을 탐구하고 CoT가 language models가 더 적은 데이터로부터 학습하도록 돕는다는 것을 보여줍니다.
핵심: 이 논문은 설명(explanation)이 포함된 대규모 multimodal science question answering dataset인 SCIENCEQA를 구축하고, Chain-of-Thought (CoT) 를 통해 large language models (LLMs)의 reasoning 능력 향상 및 설명 생성 능력을 검증합니다.
기존 연구의 한계 및 문제 제기:
- Black-box 모델의 한계: 기존 machine learning models은 대량의 데이터로 학습하지만, 그 의사결정 과정은 black-box와 같아, task 이해 여부 및 일반화 가능성을 파악하기 어렵습니다.
- 기존 science QA datasets의 한계: 기존 science question answering datasets는 답변에 대한 설명(annotation)이 부족하거나, 텍스트로만 구성, 작은 규모, 제한적인 과학 분야 등의 한계를 지닙니다.
- 설명의 부재: 기존 datasets는 multi-hop reasoning을 요구하는 과학 문제임에도 불구하고, 정답 도출 과정을 보여주는 설명이 없어 model의 해석 가능성을 저해합니다.
본 논문의 차별점 및 핵심 기여:
- SCIENCEQA dataset 구축:
- 대규모, multimodal, 풍부한 과학 도메인: 21,208개의 multimodal (text, image) science questions으로 구성되며, 자연과학, 사회과학, 언어과학 등 다양한 분야를 다룹니다.
- 강의(lecture)와 해설(explanation) annotation 포함: 각 질문에 대한 정답과 더불어, 정답 도출 과정을 설명하는 강의와 해설을 annotation으로 제공합니다. 이는 기존 datasets와의 가장 큰 차별점입니다.
- Chain-of-Thought (CoT)를 통한 reasoning 능력 향상:
- CoT 생성 유도: SCIENCEQA를 통해 LLMs가 질문에 답할 때, 사람처럼 CoT, 즉 정답에 이르는 논리적 단계를 강의와 해설 형태로 생성하도록 학습시킵니다.
- 성능 향상: CoT 생성을 통해 few-shot GPT-3와 fine-tuned UnifiedQA의 question answering 성능이 향상됨을 확인했습니다. (각각 1.20%, 3.99%)
- 설명을 활용한 학습 효율 극대화:
- 입력으로 해설 제공: 해설을 입력으로 함께 제공했을 때, GPT-3의 few-shot 성능이 18.96% 향상됨을 통해, models가 해설 정보를 효과적으로 활용할 수 있음을 입증했습니다.
- 데이터 효율성 향상: CoT를 활용하면, 단 40%의 데이터만으로도 CoT를 활용하지 않았을 때와 동일한 성능을 달성하여 학습 효율을 높일 수 있음을 보였습니다.
- 설명 생성 능력 검증:
- CoT를 통해 생성된 설명 평가: CoT prompting을 통해 GPT-3가 생성한 설명 중 65.2%가 인간 평가 기준을 만족하여, LLMs의 설명 생성 가능성을 확인했습니다.
결론 및 시사점:
- SCIENCEQA는 LLMs의 multi-modal reasoning 및 설명 생성 능력을 평가하고 향상시키는 데 유용한 benchmark를 제공합니다.
- CoT는 LLMs의 reasoning 능력 향상, 학습 효율 증대, 그리고 설명 생성 능력 함양에 효과적입니다.
- 본 연구는 LLMs의 black-box 문제를 완화하고, 해석 가능하고 신뢰할 수 있는 AI 개발에 기여합니다.
2. Related Work
Visual question answering. Visual question answering (VQA) task가 처음 제안된 이후로, 연구를 촉진하기 위해 수많은 VQA datasets이 구축되었습니다. 우리의 SCIENCEQA dataset은 VQA와 몇 가지 특징을 공유하지만, 그들 사이에는 몇 가지 주요 차이점이 있습니다. 첫째, SCIENCEQA는 multimodal contexts와 과학 분야의 다양한 주제를 포함하기 때문에 기존 VQA datasets보다 더 어렵습니다. 게다가, 대부분의 답변은 강의와 설명으로 주석이 달려 있어, SCIENCEQA를 AI system을 위한 multi-modal question answering 및 multi-hop reasoning에 적합한 dataset으로 만듭니다. 본 논문에서는 VQA에서 최근에 달성한 주목할 만한 성능에서 영감을 받아, 광범위한 attention-based 및 Transformer-based methods를 사용하여 SCIENCEQA를 추가적으로 광범위하게 benchmark 합니다.
Datasets for science problems. 과학 문제 해결은 AI system이 과학 커리큘럼의 multimodal 정보를 이해할 뿐만 아니라 domain에 특화된 질문에 답하는 방법에 대해 추론해야 하는 도전적인 task입니다. AI2D, DVQA, VLQA, FOODWEDS와 같은 현재 과학 문제 datasets는 과학 분야의 multimodal reasoning에 기여했습니다. 예를 들어, VLQA의 일부는 과학 과목에 대한 multimodal questions를 포함합니다. 그러나 이러한 datasets는 reasoning 단계를 밝히기 위한 답변에 대한 주석이 달린 설명이 부족합니다. 몇몇 다른 datasets는 supporting facts, entailment trees, explanation graphs, reasoning chains의 형태로 답변에 주석을 답니다. 그러나 이러한 datasets는 작은 데이터 규모와 제한된 주제를 가진 단일 텍스트 modality로 제한됩니다. 대신, 우리의 SCIENCEQA는 답변에 근거가 있는(grounded) 강의와 설명을 주석으로 답니다. 게다가, SCIENCEQA는 3개의 과목, 26개의 주제, 127개의 범주, 379개의 기술에 걸쳐 더 풍부한 domain 다양성을 특징으로 합니다.
Learning from explanations and few-shot learning. 설명은 인간이 task를 더 잘 이해하도록 돕고, models에서도 동일하게 적용됨을 보여주려는 여러 시도가 있었습니다. 예를 들어, task 수준 설명이 지침의 형태로 제공되는 instruction paradigm은 model 성능을 크게 향상시킵니다. 과학 분야에서 설명으로부터의 학습의 한 예시는 기하 문제를 해결하기 위해 demonstrative solutions를 해석하는 model에서 제안되었습니다. 최근에, language models가 몇 가지 예시로부터 특정 task를 학습하는 few-shot learning에 대한 관심이 급증했습니다. 예를 들어, chain of thought 형식의 설명이 few-shot learning에서 language models의 reasoning 능력을 향상시킬 수 있음을 발견했습니다. 본 논문에서, 우리는 chain of thought가 fine-tuning 방식으로 답변과 함께 설명을 생성하는 경우, UnifiedQA와 같은 large language models의 성능을 향상시킨다는 것을 보여줍니다. 게다가, chain-of-thought prompting을 통한 few-shot GPT-3 model은 SCIENCEQA에 대한 reasoning 성능을 개선하고 합리적인 설명을 생성할 수 있습니다.
3 Dataset
우리는 21,208개의 예시를 포함하는 multimodal multiple-choice science question dataset인 SCIENCEQA를 수집합니다. SCIENCEQA의 예시는 그림 1에 나와 있습니다. 과학 질문과 multimodal contexts가 주어지면, task는 여러 선택지 중에서 정답을 고르는 것입니다. 기존 datasets와 달리, SCIENCEQA는 자연 과학, 사회 과학, 언어 과학의 세 가지 과목에 걸쳐 다양한 주제를 다룹니다. 게다가, 대부분의 질문은 근거가 있는(grounded) 강의와 상세한 설명으로 주석이 달려 있습니다. 강의는 비슷한 유형의 문제를 해결하기 위한 배경 정보를 소개하는 일반적인 지식을 제공합니다. 설명은 답변에 대한 구체적인 이유를 드러냅니다. 질문에 효과적으로 답하기 위해, model은 종종 입력의 multimodal content를 이해하고 인간이 하는 것처럼 외부 지식을 추출할 수 있어야 합니다. 더 중요한 것은, SCIENCEQA의 목표는 multi-step reasoning 과정을 드러내기 위해 정답에 도달할 때 일관된 chain of thought를 생성할 수 있는 신뢰할 수 있는 model의 개발을 돕는 것입니다. 데이터 수집에 대한 자세한 내용은 부록 A.1을 참조하십시오.
3.1 Data Analysis
주요 통계. 우리는 dataset을 60:20:20의 비율로 training, validation, test splits로 무작위로 분할합니다. 각 split은 각각 12,726개, 4,241개, 4,241개의 예시를 가집니다. 표 1은 SCIENCEQA의 주요 통계를 보여줍니다. SCIENCEQA는 총 9,122개의 크고 다양한 질문 집합을 가집니다. SCIENCEQA의 21,208개의 질문 중 10,332개(48.7%)는 image context를 가지고, 10,220개(48.2%)는 text context를 가지며, 6,532개(30.8%)는 둘 다 가집니다. 질문의 83.9%는 강의로 주석이 달려 있고, 질문의 91.3%는 설명을 특징으로 합니다. 이러한 정보 소스의 교차 결합은 문제 시나리오를 다양화합니다: 때때로 model은 여러 소스로부터 많은 정보가 주어지는 반면, 다른 때에는 정보의 유일한 출처는 질문 자체입니다. 이 정도 수준의 복잡성은 학년 수준의 과학 시험에서 매우 흔합니다.
질문 분석. SCIENCEQA는 다양한 과학 질문 집합을 가집니다. 그림 2는 질문 텍스트의 처음 네 단어의 분포를 보여줍니다. 많은 수의 질문 길이와 형식이 SCIENCEQA의 다양성을 강조합니다. 질문 길이는 3단어에서 141단어까지이며, SCIENCEQA의 질문은 평균 12.11단어의 길이를 가집니다. 질문 길이 분포는 그림 3 (a)에서 다른 VQA datasets와 비교하여 시각화됩니다. 그림에서 볼 수 있듯이, SCIENCEQA의 분포는 다른 datasets보다 평평하여, 다른 질문 길이에 걸쳐 더 고르게 퍼져 있습니다.
Context 분석. 그림 3 (b)는 image context, text context 또는 둘 다를 가진 질문의 수와 비율을 보여줍니다. 총 7,803개의 고유한 image contexts와 4,651개의 고유한 text contexts가 있습니다. 질문의 66.11%는 적어도 한 가지 유형의 context 정보를 가집니다. image context는 question answering에 필요한 중요한 시나리오를 시각화하거나 더 나은 이해를 위해 질문을 단순히 설명하는 다이어그램 또는 자연 이미지의 형식입니다. 마찬가지로, textual context는 의미적으로 풍부한 정보 또는 질문에 대한 간단한 힌트를 제공할 수 있습니다. 그러므로, models는 이러한 다양한 유형의 contexts를 이해하기 위해 유연하고 일반적이어야 합니다.
Domain 다양성. 각 SCIENCEQA 질문은 자연 과학, 언어 과학, 사회 과학의 세 가지 과목 중 하나에 속합니다. 각 과목에서, 질문은 먼저 주제(생물, 물리, 화학 등)별로, 그 다음 범주(식물, 세포, 동물 등)별로, 그리고 마지막으로 특정 기술(과일과 채소를 식물 부분으로 분류하기, 아프리카 국가 식별하기 등)별로 분류됩니다. SCIENCEQA는 총 26개의 주제, 127개의 범주, 379개의 기술을 가집니다. 그림 4의 트리맵은 다양한 과목, 주제, 범주를 시각화하고 SCIENCEQA 질문이 매우 다양하며 광범위한 domain에 걸쳐 있음을 보여줍니다.
3.2 Comparisons with Existing Datasets
표 2는 SCIENCEQA와 다른 과학 문제 datasets의 비교를 보여줍니다. 표에서 볼 수 있듯이, SCIENCEQA는 대부분의 다른 datasets보다 훨씬 큽니다. SCIENCEQA는 또한 가장 큰 이미지 집합을 가지고 있고, 12학년 전체에 걸쳐 있으며, 가장 긴 질문을 포함하고, 가장 다양한 입력 소스를 가집니다. 과목을 자연 과학에만 제한하는 것과 달리, SCIENCEQA는 또한 사회 과학과 언어 과학을 포함하여, dataset의 domain 다양성을 크게 추가합니다. 게다가, SCIENCEQA의 대부분의 질문은 정답에 이르는 reasoning 경로를 드러내는 텍스트 강의(83.9%)와 설명(90.5%)으로 주석이 달려 있습니다. 우리가 아는 한, SCIENCEQA는 답변에 상세한 강의와 설명을 주석으로 다는 최초의 large-scale multimodal science question dataset입니다.
Dataset 정리 노트
핵심: 이 논문은 21,208개의 multimodal science question으로 구성된 SCIENCEQA dataset을 구축했으며, 이는 풍부한 domain 다양성, multimodal contexts, 강의(lecture)와 해설(explanation) annotation을 특징으로 합니다.
SCIENCEQA Dataset 특징:
- 대규모, Multimodal:
- 21,208개의 multiple-choice questions으로 구성된 대규모 dataset입니다.
- Text와 image를 모두 포함하는 multimodal dataset입니다. (48.7%는 image context, 48.2%는 text context, 30.8%는 둘 다 포함)
- 풍부한 Domain 다양성:
- 자연과학, 사회과학, 언어과학의 3개 과목을 다룹니다.
- 26개 topics, 127개 categories, 379개 skills를 포함하여, 매우 넓은 범위의 과학 지식을 다룹니다.
- 초등학교부터 고등학교까지 12개 학년에 걸친 문제들을 포함합니다.
- 강의(Lecture)와 해설(Explanation) Annotation:
- 대부분의 질문(83.9%)에 정답에 이르는 과정을 설명하는 강의가 annotation으로 제공됩니다.
- 대부분의 질문(91.3%)에 정답에 대한 구체적인 이유를 설명하는 해설이 annotation으로 제공됩니다.
- 이는 기존 science question answering datasets와의 가장 큰 차별점입니다.
- 현실적인 과학 시험 반영:
- 다양한 길이(3~141 단어)와 형식을 가진 질문들로 구성되어, 실제 과학 시험과 유사한 복잡성을 가집니다. (평균 12.11 단어)
- Image context와 text context는 문제 해결에 중요한 정보를 제공하거나, 이해를 돕는 역할을 합니다.
기존 Datasets와의 비교:
- 규모: 대부분의 기존 datasets보다 훨씬 큽니다.
- Multimodal: 가장 큰 이미지 집합을 포함합니다.
- 학년 범위: 12개 학년 전체를 다루는 유일한 dataset입니다.
- 질문 길이: 가장 긴 질문들을 포함합니다.
- 입력 소스 다양성: 가장 다양한 입력 소스를 가집니다.
- 주제: 자연과학뿐 아니라 사회과학, 언어과학까지 포함하여, domain 다양성이 가장 풍부합니다.
- Annotation: 유일하게 대부분의 질문에 강의와 해설 annotation을 제공합니다.
결론 및 시사점:
- SCIENCEQA는 multimodal reasoning, 특히 과학 분야에 대한 이해와 추론 능력을 평가하는 데 유용한 benchmark를 제공합니다.
- 강의와 해설 annotation은 model이 정답에 이르는 과정을 학습하고, 설명 생성 능력을 향상시키는 데 도움을 줄 수 있습니다.
- SCIENCEQA는 해석 가능하고 신뢰할 수 있는 AI를 개발하는 데 중요한 역할을 할 것입니다.
4 Baselines and Chain-of-Thought Models
이 섹션에서는 SCIENCEQA에 대한 baselines을 설정하고 두 가지 chain-of-thought models를 개발합니다.
4.1 Baselines
Heuristic baselines. 첫 번째 heuristic baseline은 무작위 선택입니다: 우리는 여러 옵션 중에서 무작위로 하나를 선택합니다. 각 시도는 전체 테스트 세트에서 완료되며, 평균 결과를 위해 세 가지 다른 시도를 합니다. 두 번째 heuristic baseline은 인간의 성능입니다. 우리는 Amazon Mechanical Turk에 task를 게시하고 작업자들에게 SCIENCEQA 질문에 답하도록 요청합니다. 고등학교 졸업 이상의 학력을 취득하고 자격 예시를 통과한 작업자만 이 연구에 참여할 자격이 있습니다. 각 작업자는 10개의 테스트 질문 세트에 답해야 하며, 각 질문은 세 명의 다른 작업자가 답합니다. 인간 성능 연구에 대한 자세한 내용은 부록 B.2를 참조하십시오.
Zero-shot and few-shot baselines. 우리는 UnifiedQA와 GPT-3를 기반으로 zero-shot baselines을 설정합니다. zero-shot 설정은 QCM→A 형식을 따르며, 여기서 입력은 질문 텍스트(Q), context 텍스트(C), 그리고 여러 옵션(M)의 토큰을 연결한 것이고, 출력은 옵션 세트에서 정답(A)을 예측하는 것입니다. 우리는 image context를 위해 ViT와 GPT-2를 기반으로 하는 captioning model로부터 caption을 추출합니다. few-shot 설정에서, 우리는 테스트 인스턴스 전에 training set의 in-context 예시들이 연결되는 표준 prompting을 따릅니다. 이러한 in-context 예시들은 language model이 SCIENCEQA의 특정 task에 적응하도록 하는 지침 역할을 합니다.
Fine-tuning baselines. 우리는 먼저 최근 몇 년 동안 제안된 VQA models의 fine-tuning baselines을 고려합니다. 이러한 VQA baselines는 질문, context, 선택지를 텍스트 입력으로 사용하고, 이미지를 시각적 입력으로 사용하여, 선형 분류기를 통해 선택지 후보에 대한 점수 분포를 예측합니다. 또한, 우리는 large language model인 UnifiedQA를 기반으로 fine-tuning baseline을 구축합니다. UnifiedQA는 텍스트 정보를 입력으로 받아 정답 옵션을 출력합니다. 마찬가지로, 이미지는 language model에 시각적 의미를 제공하는 caption으로 변환됩니다.
4.2 Language Models with the Chain of Thought
Chain of thought는 추론 문제의 전제와 결론을 드러내는 일련의 문장들의 일관된 흐름을 나타냅니다. Chain of thought는 multi-hop reasoning task를 black-box 방식으로 해결하는 대신 명확하게 중간 단계로 분해합니다. Chain of thought는 최종 정답에 도달하기 전의 단계별 사고 과정일 수도 있고, 정답 뒤에 오는 설명일 수도 있습니다. SCIENCEQA의 주석이 달린 강의와 설명은 인간의 multi-step reasoning 단계를 모방하는 chain of thought의 demonstration 역할을 합니다. 이 논문에서, 우리는 large language models가 SCIENCEQA 질문에 답할 때 사고 과정을 드러내기 위해 chain of thought로서 합리적인 설명을 생성할 수 있는지 연구합니다. 더 나아가, 우리는 few-shot 및 fine-tuning 학습 모두에서 chain of thought가 SCIENCEQA에 대한 language models의 reasoning 능력을 어떻게 향상시킬 수 있는지 탐구합니다.
UnifiedQA with the chain of thought. UnifiedQA는 multi-option question answering을 위한 state-of-the-art model입니다. UnifiedQA의 원래 architecture는 질문과 옵션을 입력으로 받아 최종 정답으로 짧은 구문을 출력합니다. 우리는 chain of thought (CoT)를 사용하여 UnifiedQA를 개발하기 위해 형식 수정을 합니다. 즉, UnifiedQA는 정답 뒤에 강의와 설명이 이어지는 긴 텍스트 sequence를 생성하도록 fine-tuned 됩니다.
GPT-3 via chain-of-thought prompting. 최근 연구는 GPT-3가 표준 prompt에서 in-context 예시가 제공될 때 다양한 tasks를 수행할 수 있음을 보여주었습니다. multi-option question answering을 예로 들면, 표준 prompt는 질문 텍스트, 옵션, 정답 텍스트의 구성 요소로 in-context 예시를 사용하여 지침을 구축합니다. 이러한 스타일의 few-shot learning은 GPT-3 model이 파라미터 업데이트 없이 특정 질문에 답할 수 있도록 합니다. 표준 prompting과 달리, 우리는 그림 5와 같이 chain-of-thought (CoT) prompting을 통해 GPT-3를 구축합니다.

Figure 5: GPT-3 (CoT)에서 테스트 예시 t에 대한 prompt instruction 인코딩. 위의 prompt는 1-shot training 예시에 대한 instruction {Ii}1과 테스트 예시에 대한 It로 구성됩니다.
구체적으로, 각 테스트 문제 t에 대해, 우리는 prompt instruction I : {Ii}n, It를 텍스트 형식으로 매핑합니다. 여기서 {Ii}n은 training set에서 n-shot in-context 예시의 instruction set을 나타내고, It는 테스트 instruction을 나타냅니다. 설명이 정답보다 먼저 오는 방식 대신, 우리는 instruction I를 encoder-decoder model GPT-3에 입력하여 정답 a, 강의 lect, 설명 exp를 생성합니다:
M : {Ii}n, It → a, lect, exp.
4. Baselines and Chain-of-Thought Models 정리 노트
핵심: 이 섹션에서는 SCIENCEQA dataset에 대한 baseline 성능을 측정하고, Chain-of-Thought (CoT)를 활용한 language models (UnifiedQA, GPT-3)의 성능 및 CoT 생성 능력을 검증합니다.
Baselines 설정:
- Heuristic Baselines:
- Random Chance: 무작위 선택 (평균 성능 측정)
- Human Performance: Amazon Mechanical Turk을 이용한 human performance 측정 (자세한 내용은 부록 B.2 참조)
- Zero-shot and Few-shot Baselines:
- UnifiedQA & GPT-3: QCM→A 형식 (Question, Context, Multiple choices → Answer)
- Image Context: ViT + GPT-2 기반 captioning model을 사용하여 이미지에 대한 캡션 추출 후, 이를 context로 활용
- Few-shot: training set의 in-context examples를 prompt에 추가하여, model이 SCIENCEQA task에 적응하도록 유도
- Fine-tuning Baselines:
- VQA Models: 최신 VQA models (e.g., MCAN, LXMERT) 활용
- UnifiedQA: text 정보를 입력으로, 정답 옵션을 출력하도록 fine-tuning. 이미지 context는 caption으로 변환하여 활용
Chain-of-Thought (CoT)를 활용한 Language Models:
- CoT 정의: multi-hop reasoning task를 중간 단계들로 분해하여 보여주는 일련의 문장들의 흐름 (단계별 사고 과정 또는 정답 뒤에 오는 설명)
- SCIENCEQA의 CoT 활용: SCIENCEQA의 강의(lecture)와 해설(explanation)을 CoT의 예시로 활용하여, language models가 multi-step reasoning을 모방하도록 학습
- 실험 목표:
- LLMs (Large Language Models)가 SCIENCEQA 질문에 답할 때, 사고 과정을 드러내는 합리적인 CoT (강의 및 해설)를 생성할 수 있는지 검증
- Few-shot 및 fine-tuning 환경에서 CoT가 LLMs의 reasoning 능력을 향상시키는지 확인
실험 Models:
- UnifiedQA with CoT:
- 기존 UnifiedQA는 정답만 생성하지만, 여기서는 정답 + 강의 + 해설을 포함한 긴 텍스트 sequence를 생성하도록 fine-tuning
- GPT-3 via CoT Prompting:
- 기존 Standard Prompting: 질문, 선택지, 정답으로 구성된 in-context examples를 prompt로 사용
- CoT Prompting (그림 5): 1-shot training example (질문, 선택지, context, 정답, 강의, 해설) + test example (질문, 선택지, context, 정답(생성 유도)) 형식
- M : {Ii}n, It → a, lect, exp: GPT-3가 정답(a), 강의(lect), 해설(exp)을 생성하도록 유도
핵심 차별점 및 의의:
- CoT 생성을 통한 LLMs의 reasoning 능력 검증: 단순히 정답을 맞히는 것을 넘어, CoT 생성을 통해 LLMs가 실제로 추론 과정을 수행하는지, 그리고 그 과정을 얼마나 잘 설명할 수 있는지 검증합니다.
- SCIENCEQA의 CoT 활용: 기존 연구들이 인위적으로 CoT를 생성하거나, CoT 생성을 위한 별도의 dataset을 사용한 것과 달리, SCIENCEQA dataset에 이미 포함된 강의와 해설을 CoT로 직접 활용하여 실험을 진행합니다.
- Few-shot & Fine-tuning 환경 모두에서 CoT의 효과 검증: CoT가 LLMs의 성능 향상에 얼마나 기여하는지, 다양한 학습 환경에서 확인합니다.
결론:
이 섹션에서는 SCIENCEQA dataset을 사용하여 다양한 baseline models의 성능을 측정하고, CoT를 활용한 language models (UnifiedQA, GPT-3)의 성능 및 CoT 생성 능력을 검증하기 위한 실험 설계를 제시합니다. 이를 통해, LLMs의 reasoning 능력 향상 및 해석 가능성(interpretability) 개선에 대한 CoT의 역할을 규명하고자 합니다.
