AI바라기의 인공지능

VLM : 논문리뷰 : MATHVERSE: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? 본문

논문리뷰

VLM : 논문리뷰 : MATHVERSE: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?

AI바라기 2024. 7. 2. 17:16

Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?

 

Abstract

멀티모달 대규모 언어 모델(MLLM)은 시각적 맥락에서 뛰어난 성능을 보이며 주목받고 있지만, 시각적 수학 문제 해결 능력에 대한 평가와 이해는 부족한 상황입니다.

 

본 연구에서는 기존 벤치마크들이 텍스트 질문에 과도한 시각 정보를 포함하여 MLLM이 다이어그램을 제대로 해석하지 않고도 답을 추론할 수 있도록 돕는 문제를 지적합니다.

 

이를 해결하기 위해 MATHVERSE라는 새로운 시각적 수학 벤치마크를 제안합니다.

 

공개된 자료에서 엄선한 2,612개의 고품질 수학 문제와 다이어그램을 활용하여, 각 문제를 6가지 버전으로 변형하여 총 15,000개의 테스트 샘플을 생성했습니다.

 

이를 통해 MLLM이 시각적 다이어그램을 얼마나 이해하고 수학적 추론에 활용하는지 종합적으로 평가할 수 있습니다.

 

또한, 단순히 정답 여부만 판단하는 대신, GPT-4(V)를 이용하여 추론 과정을 단계별로 분석하고 각 단계의 오류를 상세히 분석하는 CoT(Chain-of-Thought) 평가 전략을 제안합니다.

 

 

MATHVERSE를 통해 기존 MLLM들이 수학 다이어그램 이해에 어려움을 겪고 텍스트 질문에 의존하는 경향이 있음을 확인했습니다.

놀랍게도, Qwen-VL-Max와 InternLM-XComposer2는 시각 정보 없이 더 높은 정확도를 달성하기도 했습니다.

 

 

반면, GPT-4V와 ShareGPT4V는 시각 정보를 수학적 추론에 더 잘 활용하는 모습을 보였습니다.

MATHVERSE가 MLLM의 발전 방향을 제시하는 데 도움이 되기를 기대합니다.

 

 

 

Introduction

다이어그램이 포함된 수학 문제를 해결하는 능력은 MLLM의 멀티모달 논리적 사고 능력을 파악하는 중요한 척도입니다.

이 작업은 MLLM이 입력 다이어그램(문자 및 그림) 내의 시각적 요소를 정확하게 해독하고, 이를 텍스트 질문에서 제시된 조건과 연관시켜 수학적 추론을 수행해야 합니다.

 

 

이전 연구 GeoQA , UniGeo 등은 복잡한 기하학 문제에 집중했지만,

최근 MathVista  및 MMMU 는 함수, 차트, 과학 문제 등 더 넓은 분야로 범위를 확장했습니다.

그러나 우리의 포괄적인 관찰 및 분석을 통해 현재 MLLM 평가를 위한 수학 벤치마크에서 세 가지 주요 문제를 발견했습니다.

 

 

 

 

i. MLLM은 평가에서 수학 다이어그램을 실제로 이해하는가?

이는 시각적 수학 문제 해결 능력을 정확하게 평가하는 데 있어 가장 중요한 질문입니다.

 

그림 1(a)는 현재 벤치마크의 세 가지 예시를 보여줍니다.

텍스트에 다이어그램에도 묘사된 중복 정보(빨간색 강조)가 너무 많다는 것을 알 수 있습니다.

이러한 중복은 MLLM이 다이어그램을 해석하기보다는 주로 텍스트를 읽음으로써 문제를 해결하는 지름길을 제공할 수 있습니다.

 

그림 1(b)의 실험은 이 가설을 뒷받침합니다.

각 벤치마크에서 40개의 문제를 무작위로 샘플링하여 질문에서 중복 텍스트를 제거함으로써 MLLM이 시각적 입력만으로 해당 정보를 파악하도록 했습니다.

 

결과적으로 대부분의 MLLM(파란색 열)에서 정확도가 크게 떨어졌으며, 심지어 다이어그램을 입력하지 않았을 때보다 더 낮은 점수를 기록했습니다.

 

이는 MLLM이 평가에서 시각적 다이어그램 자체보다는 텍스트 단서에 의존하여 문제를 해결한다는 것을 시사합니다.

 

따라서 현재의 시각적 수학 벤치마크는 MLLM의 진정한 멀티모달 수학적 추론 능력을 평가하기에 충분하지 않을 수 있음을 보여줍니다.

 

 

 

 

 

ii. 최종 답변만으로 평가하는 것이 공정한가?

기존 멀티모달 벤치마크 대부분은 모델 출력을 정답과 직접 비교하여 이진 평가 결과를 도출합니다.

 

이러한 접근 방식은 일반적인 시각적 맥락에서는 충분할 수 있지만, 복잡한 단계별 추론이 필요한 수학 문제에는 적합하지 않습니다.

 

그림 2에서는 세 가지 모델 출력을 검토했습니다.

최종적으로 모두 오답을 도출했지만, 중간 추론 과정에서 정확도는 각기 다릅니다.

 

이러한 출력을 단순히 '틀렸다'라고 분류하는 것은 MLLM 추론 품질의 미묘한 차이를 포착하지 못합니다.

 

 

 

iii. 수학적 추론 평가에 특화되어 있는가?

GeoQA, UniGeo 및 기타 이전 연구는 평면 기하학의 특정 측면만을 좁게 다룹니다.

따라서 함수 및 입체 기하학과 같은 더 넓은 범위의 수학적 능력 평가가 제한됩니다.

 

MathVista는 자연 이미지, 통계 그림, 차트 등 전문적인 수학 능력을 직접적으로 평가하지 않는 광범위한 주변 작업(28개 중 19개)을 포함하여 범위를 확장했습니다.

또한 MMMU의 수학 문제는 방대한 분야별 지식을 요구하는 대학 수준의 복잡성을 가지고 있어 MLLM이 추론 능력을 충분히 발휘하지 못하게 할 수 있습니다.

 

 

 

따라서 앞서 논의된 문제점들을 고려하여, MLLM의 멀티모달 수학적 추론 능력을 평가하기 위해 MATHVERSE라는 전체적이고 전문화된 시각적 수학 벤치마크를 제시합니다.

 

수학적 추론에 특화하기 위해 MATHVERSE는 평면 기하학, 입체 기하학, 함수라는 세 가지 주요 영역을 포괄합니다.

 

각 문제는 전문 평가자의 엄격한 검토를 거쳐 12개의 상세 범주로 분류되어 다양한 세분화된 문제 해결 능력을 강조합니다. 특히, MATHVERSE는 MLLM 평가를 위한 두 가지 새로운 전략을 도입하여 차별화됩니다.

 

 

 

 

첫째, 텍스트 중복의 영향을 조사하고 MLLM이 수학적 추론을 위해 다이어그램을 해석할 수 있는지 확인합니다.

그림 3 (왼쪽)과 같이 질문 내 텍스트 콘텐츠를 설명 정보, 암시적 속성, 필수 조건 세 가지 유형으로 분류합니다.

 

문제 해결에 대한 중요도가 오름차순으로 배열된 이 범주는 각각 다이어그램에서 직접 관찰할 수 있는 정보, 고급 시각적 인식이 필요한 암시적 공간 속성, 해결을 위해 중요한 특정 측정값에 해당합니다.

 

이 문제 공식을 기반으로 전문 평가자는 MATHVERSE의 질문에서 텍스트 정보를 점진적으로 제거하면서 문제가 적절하게 정의되도록 시각적 다이어그램에 요소를 점진적으로 통합합니다.

 

그림 3 (오른쪽)에서 볼 수 있듯이 이 과정을 통해 텍스트 콘텐츠 감소 및 시각적 요소 향상을 특징으로 하는 6가지 고유한 문제 버전이 생성되어 총 15,000개의 테스트 샘플이 생성됩니다.

 

이렇게 엄선된 문제는 기하학적 요소 이해, 함수 곡선 인식, 수치 값 인식과 같은 MLLM의 다양한 멀티모달 기능을 나타낼 수 있으며, MLLM이 시각적 다이어그램을 얼마나 이해하고 수학적 추론에 활용하는지 철저하게 밝혀줍니다.

 

 

 

둘째, 시각적 사고 연쇄(CoT) 기능을 엄격하게 평가하기 위해 MLLM의 단계별 추론 평가를 위한 CoT 평가 전략을 제안합니다.

 

각 모델의 출력에 대해 GPT-4를 활용하여 질문과 답변 입력을 의도적으로 생략하고 해결 과정에서만 몇 가지 중요한 단계를 추출합니다.

 

이러한 접근 방식은 GPT-4의 고유한 질문-답변 성향에 대한 편향을 완화하는 것을 목표로 합니다.

그런 다음 해당 질문, 다이어그램 및 정답을 GPT-4에 입력하여 식별된 각 중요 단계를 평가하고 자세한 오류 분석을 제공합니다.

 

마지막으로 추론 내 모든 단계를 고려하여 종합 점수를 얻습니다.

 

각 수학 문제는 다양한 해결 경로를 포함할 수 있으며, 서로 다른 MLLM은 다양한 추론 길이를 나타내는 경향이 있으므로 정답 핵심 단계 템플릿을 미리 정의하지 않습니다.

 

CoT 점수를 통해 MATHVERSE는 MLLM의 중간 논리적 추론에 대한 세분화된 평가를 보여주고 시각적 수학적 CoT 능력을 보여줍니다.

 

 

 

인기 있는 비공개 및 공개 MLLM을 사용하여 MATHVERSE에 대한 광범위한 실험을 수행합니다. 다양한 문제 버전을 비교하여 대부분의 기존 MLLM이 수학 다이어그램을 이해하는 데 어려움을 겪고 텍스트 질문에 크게 의존한다는 사실을 밝혀냈습니다.

 

그중 GPT-4V는 다양한 문제 버전 및 주제에서 최고의 전반적인 성능을 달성합니다. 놀랍게도 일부 MLLM은 다이어그램 입력 없이 훨씬 더 높은 결과를 얻습니다.

 

예를 들어 Qwen-VL-Max [3]는 +5.1%, InternLM-XComposer2 [16]는 +5.6% 더 높은 결과를 얻습니다.

 

CoT 평가 전략을 통해 생성된 세분화된 오류 분석을 통해 이러한 결과는 수학 다이어그램에 대한 시각적 인코딩 능력 부족으로 인해 발생하며, 이는 오히려 문제 해결에 방해가 된다는 것을 보여줍니다.

 

반면, GPT-4V 및 ShareGPT4V [12]는 수학적 추론을 위한 시각적 콘텐츠에 대한 비교적 더 나은 이해를 보여줍니다.

실험 결과는 부적절한 수학적 시각적 해석 능력이 MLLM이 멀티모달 수학 문제를 해결하는 데 가장 큰 걸림돌이며, 발전 가능성이 상당함을 시사합니다.

 

 

 

본 논문의 기여도는 다음과 같이 요약할 수 있습니다.

 

  저희는 기존 벤치마크의 주요 문제점을 조사하고, MLLM의 시각적 수학적 추론 능력을 평가하는 종합적인 멀티모달 벤치마크인 MATHVERSE를 소개합니다. 엄선된 데이터 세트는 포괄적인 평가를 위해 다이어그램이 포함된 20K개의 테스트 문제를 포함합니다.

 

• 멀티모달에서 다양한 정보 내용을 가진 문제를 수정하여, MLLM이 질문 텍스트에 의존하지 않고 시각적 다이어그램을 얼마나 이해하고 수학적 추론에 활용할 수 있는지 탐구합니다.

 

• GPT-4를 사용하여 MLLM 추론 과정의 각 핵심 단계를 추출하고 평가하는 CoT 평가 전략을 제안하여, 자세한 오류 분석과 멀티모달 수학적 CoT 능력에 대한 세분화된 평가를 제공합니다.

 

 

 

MATHVERSE

2.1절에서는 먼저 MATHVERSE에서 선별된 시각적 수학 데이터 세트에 대한 개요를 제시합니다.

2.2절에서는 MLLM의 시각적 수학 이해도를 조사하기 위한 데이터 공식화 접근 방식을 소개합니다.

2.3절에서는 제안된 Chain-of-Thought(CoT) 평가 전략의 방법론을 자세히 설명합니다.

 

 

2.1 Visual Math Dataset

시각적 수학 능력을 철저히 평가하기 위해 다양한 수학 주제, 다이어그램 패턴 및 전문 지식 영역을 포괄하는 포괄적인 문제 세트를 컴파일했습니다.

MATHVERSE의 이 광범위한 컬렉션은 MLLM에 다양한 문제를 제기하여 시각적 맥락에서 MLLM의 기능을 강력하게 평가하는 것을 목표로 합니다.

 

 

데이터 구성 및 분류. MATHVERSE는 총 2,612개의 시각적 수학 문제로 구성되어 있으며, 최종적으로 생성된 15K개의 테스트 샘플에 기여합니다.

이 세심하게 수집된 데이터 세트는 평면 기하학(1,746), 입체 기하학(332) 및 함수(534)라는 세 가지 기본 수학 과목을 다루며, 후자 두 가지는 모두 새로 수집된 문제로 구성됩니다.

이 세 가지 주제를 선택한 것은 멀티모달 추론에 대한 엄격한 요구 때문일 뿐만 아니라 다른 두 가지 고려 사항 때문입니다.

 

우선, MATHVERSE를 수학 문제 해결에 특화하기 때문에 MathVista의 다른 주변 작업(예: 통계적 추론, 표 질문 답변 및 퍼즐 테스트)은 포함되지 않습니다.

또 다른 이유는 평가를 통해 적절한 수준의 수학 지식을 갖춘 MLLM의 추론 능력을 완전히 보여줄 수 있기를 기대하기 때문입니다.

 

 

이렇게 하면 지나치게 복잡한 도메인별 정리 또는 사전 상식 지식으로 인해 성능이 제한되는 것을 방지할 수 있습니다. 따라서 MMMU에 나오는 미적분학 및 그래프 이론과 같은 고급 대학 수준의 학문을 제외하고 수집된 문제를 의도적으로 고등학교 수준에 집중했습니다.

또한 전문 주석 작성자는 문제를 그림 4와 같이 12개의 세분화된 범주로 세분화하여 시각적 수학 기술의 다양한 차원을 보여줍니다.

 

 

 

데이터 수집 및 검토 프로세스. 고품질 시각적 수학 문제에 대한 수집 절차에는 기존 데이터 세트와 공개 질문 저장소 모두에서 엄격한 선택이 포함됩니다.

 

평면 기하학 분야에서 우리는 원래 데이터 품질과 분포에 따라 GeoQA에서 750개 문제, GEOS에서 119개 문제, Geometry3K에서 507개 문제를 선택했습니다.

 

극히 단순하거나 지나치게 복잡한 질문, 모호하거나 필요한 조건이 없는 질문은 제외했습니다.

 

질문 유형과 다이어그램 스타일의 다양성을 높이기 위해 다른 출처 1,2,3에서 수동으로 수집한 370개의 평면 기하학 문제를 데이터 세트에 추가했습니다.

 

기존 벤치마크에는 입체 기하학 및 함수 관련 문제가 부족하기 때문에 이러한 격차를 해결하기 위해 새로운 출처에서 이 두 가지 유형의 문제(각각 332개 및 534개)를 의도적으로 수집했습니다.

 

여러 다이어그램을 포함하거나 솔루션 내에서 시각적 설명이 필요한 문제는 현재 MLLM이 이러한 정보를 해결하는 데 한계가 있음을 고려하여 제외됩니다.

 

새로 수집된 모든 문제(1,236개)에는 자세한 설명이 함께 제공됩니다.

 

예비 수집 후 답변의 정확성을 확인하고 질문과 다이어그램 간의 일관성을 보장하며 각 문제와 정의된 12개 범주 간의 관련성을 확인하기 위해 포괄적인 검토를 수행합니다.

 

이러한 세심한 검토를 통해 데이터 세트의 품질과 정확성을 보장합니다.

 

 

 

 

2.2 Whether MLLMs Truly See the Diagrams?

본 섹션에서는 MATHVERSE의 각 문제를 멀티모달 정보 내용이 다양한 6가지 버전으로 변환하는 데이터 공식화 접근 방식에 대해 자세히 설명합니다.

이러한 방식으로 수학적 추론을 위한 MLLM의 시각적 다이어그램 이해 능력을 탐구합니다.

 

 

세 가지 유형의 텍스트 정보. 원본 수학 문제의 텍스트 중복을 고려하여 그림 3과 다음에 설명된 대로 질문 내 텍스트 정보에 대해 세 가지 뚜렷한 범주를 정의합니다.

 

 

설명 정보(DI): 다이어그램에서 직접 관찰 가능하고 명확하게 묘사된 내용을 말합니다.

기하학적 모양의 존재 또는 함수의 교차점과 같은 기본 도형 구성, 공간 배열 및 주석이 달린 엔티티를 묘사합니다.

 

이러한 문장은 일반적으로 맥락을 설정하고 문제 해결자를 안내하기 위해 문제를 구성하는 데 도움이 됩니다. 

그럼에도 불구하고 이러한 정보는 다이어그램에 있는 시각적 구성 요소와 중복되므로 문제 해결을 위한 중복 정보로 간주됩니다. 

더 중요한 것은 그림 1에서 볼 수 있듯이 MLLM이 다이어그램 해석 과정을 우회하여 시각적 수학적 추론에 대한 평가를 저해할 수 있다는 것입니다.

 

 

암시적 속성(IP): 더 높은 수준의 시각적 인식이 필요하지만 다이어그램에서 식별하는 데 수학적 지식은 덜 필요한 정보를 포함합니다. 

 

선 사이의 평행 및 수직, 삼각형 사이의 유사성 및 합동, 함수의 범주 및 주기성과 같은 문제 해결을 위한 강력한 시각적 조건을 의미합니다. 이론적으로는 다이어그램만으로도 완전히 추출할 수 있으며, MLLM의 시각적 인식 및 이해 능력을 충분히 제공합니다.

 

 

필수 조건(EC): 솔루션을 도출하는 데 필수적인 조건이며 시각적 다이어그램에서 파생될 수 없는 특정 숫자 또는 대수 측정값을 나타냅니다. 

 

이 범주에는 각도의 정확한 값, 길이 및 함수 표현식(예: 각도가 45도, BC의 길이가 6단위, 함수 방정식 f(x) = x^2 + 3)이 포함됩니다. 텍스트 정보에 이러한 세부 정보가 없으면 시각적 수학 문제를 해결할 수 없습니다.

 

 

각 문제의 6가지 버전 생성. 

 

세 가지 범주를 기반으로 전문 평가자는 질문 내에서 다른 텍스트 정보를 체계적으로 제거하고 중요한 요소를 다이어그램에 점진적으로 통합합니다. 

 

이 접근 방식은 텍스트 중복 및 정보 내용을 점진적으로 줄임으로써 MLLM이 시각적 입력에서 수학적 조건을 캡처하도록 점점 더 강요할 수 있습니다. 

 

 

 

 

그림 5에서 비교한 것처럼 MATHVERSE에서 각 문제의 6가지 버전을 생성하여 15,672개의 테스트 인스턴스를 얻습니다. 

 

이렇게 선별된 문제 세트를 통해 MLLM의 진정한 시각적 이해도와 멀티모달 수학적 추론을 촉진할 수 있는지 여부에 대한 전체적인 평가를 제공할 수 있습니다. 

 

각 문제 버전의 세부 정보는 다음과 같습니다.

 

 

 

텍스트 위주 버전(Text-dominant Version): 설명 정보, 암시적 속성, 필수 조건 및 질문 문장을 포함한 전체 텍스트 콘텐츠를 유지합니다. 원래 문제에 설명 정보가 제한되어 있으면 텍스트 콘텐츠에 수동으로 추가합니다. 이 버전은 MLLM이 텍스트를 주요 정보 소스로 간주하고 다이어그램을 보조 시각 자료로 취급하도록 유도할 수 있습니다. 이는 평가의 기준점 역할을 합니다.

텍스트: DI + IP + EC + 질문

시각: 다이어그램 (1)

 

텍스트 축소 버전(Text-lite Version): 텍스트 위주 버전에서 설명 정보를 제거하여 이 정보를 다이어그램에서 관찰할 수 있다고 가정합니다. 이렇게 하면 중복되지 않고 간결한 질문이 생성되어 MLLM이 기본 정보를 위해 다이어그램을 해석해야 합니다.

텍스트: IP + EC + 질문

시각: 다이어그램 (2)

 

텍스트 전용 버전(Text-only Version): 텍스트 위주 버전에서 다이어그램 입력을 직접 삭제합니다. 이를 텍스트 축소 버전과 비교하면 MLLM이 문제 해결을 위한 맥락적 시각 정보를 주로 설명 정보 또는 다이어그램에서 얻는 위치를 식별하는 데 도움이 됩니다.

텍스트: DI + IP + EC + 질문

시각: 없음 (3)

 

시각 집중 버전(Vision-intensive Version): 텍스트 축소 버전에서 암시적 속성을 추가로 제거합니다. 텍스트에 강력한 시각적 조건이 없으면 MLLM은 시각적 해석 기술을 집중적으로 활용하여 수학적 추론을 위한 충분한 단서를 수집해야 합니다. 그 결과 시각적으로 수학적 관계를 이해하는 능력이 입증됩니다.

텍스트: EC + 질문

시각: 다이어그램 (4)

 

시각 위주 버전(Vision-dominant Version): 텍스트 축소 버전을 기반으로 하여 텍스트에서 필수 조건을 제외하고 대신 이러한 측정값을 다이어그램에 시각적으로 주석을 답니다. 텍스트 내용은 암시적 속성 및 질문 문장으로 좁혀집니다. MLLM은 다이어그램에서만 필수 조건을 인식하고 문제 해결을 위해 해당 조건을 해당 시각적 요소와 정확하게 연관시켜야 합니다.

텍스트: IP + 질문

시각: 다이어그램 + EC (5)

 

시각 전용 버전(Vision-only Version): 전체 텍스트 입력을 제거하고 다이어그램을 통해서만 문제를 전달합니다. 시각 위주 버전의 나머지 텍스트 내용을 다이어그램에 렌더링하고 텍스트를 거의 무시할 수 있는 프롬프트로 최소화합니다. 이는 MLLM이 시각적 정보에서 모두 그림을 추출하고 질문을 인식하도록 하여 수학의 시각적 추론 능력에 대한 궁극적인 테스트 역할을 합니다.

텍스트: 없음

시각: 다이어그램 + EC + IP + 질문 (6)

 

 

2.3 CoT Evaluation Strategy

일반적인 시각적 질문 답변과 비교할 때, 수학 문제에 대한 MLLM의 해결 과정에는 뉘앙스가 있고 단계별 CoT 추론이 필요합니다.

 

 

 

그림 6의 두 가지 경우를 고려하면 하나는 잘못된 중간 단계를 거치지만 정답에 도달하고 다른 하나는 반대 현상을 보여줍니다. 따라서 기존 벤치마크의 이진 '맞음' 또는 '틀림' 평가 방식은 다단계 추론 과정의 깊이와 정밀도를 검증하기에는 부적절합니다.

 

이를 위해 GPT-4(V)를 사용하는 두 가지 프롬프트 단계를 포함하여 시각적 맥락에서 수학적 CoT 기술을 철저히 평가하는 CoT 평가 전략을 제안합니다.

 

핵심 단계 추출. MLLM의 출력이 주어지면 먼저 언어 전용 버전인 GPT-4를 사용하여 추론 시퀀스 내에서 N개의 중요 단계(최종 답변 sA 포함)를 추출합니다. 이러한 핵심 단계에는 중요한 계산 결과, 시각적 구성 요소 식별 및 중요한 즉각적인 추론이 포함됩니다. 원래 질문, 다이어그램 및 정답은 생략하고 MLLM의 출력만 GPT-4에 프롬프트합니다.

 

이 접근 방식은 GPT-4 자체의 문제 해결 및 시각적 다이어그램 해석에 대한 내재된 편향을 완화하여 모델 출력의 논리적 일관성에만 집중하는 것을 목표로 합니다.

 

또한 각 문제에 대한 Ground-Truth 핵심 단계 템플릿을 미리 정의하지 않고 모든 MLLM의 고유한 출력에 대해 적응적으로 추출을 수행합니다. 문제에는 다양한 가능한 해결 경로가 포함될 수 있으며 서로 다른 MLLM이 다양한 추론 길이와 스타일을 나타내므로 엄격한 템플릿은 CoT 평가 정확도를 해칠 수 있습니다.

 

다단계 채점. 추출 단계 후 멀티모달 버전인 GPT-4V를 활용하여 각 중요 단계를 평가하고 종합 점수를 도출합니다. 추출된 핵심 단계, 원래 질문, 다이어그램 및 정답을 모두 GPT-4V에 입력하여 숫자 계산, 논리적 추론 및 시각적 해석과 같은 전체적인 평가에 기여합니다.

 

여기에서 GPT-4V가 함수 다이어그램 내의 요소를 정확하게 인식하는 데 어려움을 겪는 경우가 있어 관련 문제에 대한 평가가 불안정해지는 경우가 있습니다.  따라서 함수 문제에 대한 추가 정보를 주석으로 달고 GPT-4V에 함께 입력하여 시각적 평가의 품질을 보장합니다.

 

구체적으로, GPT-4V는 N개의 중간 단계 각각을 '1'(정답) 또는 '0'(오답)의 이진 점수로 평가하고 최종 답변의 정확성을 집계하여 전체 점수를 도출합니다. 채점 프로세스는 다음과 같습니다.

Scorefinal = α * (1/N * Σ_{i=1}^N Score(si)) + (1 - α) * Score(sA)

 

여기서 α는 중간 단계와 최종 답변 sA 사이의 균형 계수를 나타냅니다.
CoT 추론의 중요성을 강조하기 위해 α를 기본적으로 0.7로 설정합니다.
그림 6에서 예시한 것처럼 CoT 평가는 세분화된 점수 외에도 각 단계에 대한 자세한 오류 분석을 제공할 수 있으며, 이는 해당 분야에서 MLLM 개발에 귀중하고 유익합니다.
 
 
 
 
실험 등은 생략