AI바라기의 인공지능
VLM : 논문리뷰 : URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics 본문
VLM : 논문리뷰 : URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics
AI바라기 2025. 2. 10. 18:13URSA: Understanding and Verifying Chain-of-Thought Reasoning in Multimodal Mathematics 학습 노트
Purpose of the Paper
- 기존 Multimodal Mathematical Reasoning 연구의 한계 극복: 기존 multimodal math Large Language Models (MLLMs)는 high-quality Chain-of-Thought (CoT) training data 부족으로 deliberate reasoning과 fine-grained verification을 모두 달성하는 데 어려움을 겪음.
- System 2-Style Thinking 도입: Multimodal mathematical reasoning에 System 2-style thinking을 도입하여, 모델이 보다 신중하고 단계적인 추론을 수행하고, 추론 과정의 정확성을 검증할 수 있도록 함.
- Dual-view Trajectory Labeling: 단순한 logical correctness를 넘어, visual grounding fidelity와 deductive chain validity를 모두 고려하는 새로운 supervision approach 제시.
Key Contributions
- Three-Module CoT Data Synthesis:
- CoT distillation, trajectory-format rewriting, format unification을 통합.
- Open-source data의 다양한 유형에 맞춰 CoT data를 생성.
- 고품질 CoT reasoning instruction fine-tuning dataset인 MMathCoT-1M 구축.
- Dual-view Trajectory Labeling Automation:
- Visual grounding fidelity와 deductive chain validity를 모두 목표로 하는 dual-view trajectory labeling 구현.
- MCTS-based error localization과 step-level targeted hallucination injection을 결합.
- Multimodal mathematical reasoning 최초의 process-supervised dataset인 DualMath-1.1M 구축.
- URSA-8B & URSA-RM-8B Models:
- MMathCoT-1M으로 학습한 URSA-8B는, 비슷한 크기의 multimodal LLMs 중에서 6개의 popular reasoning benchmarks에서 state-of-the-art (SOTA) performance 달성.
- DualMath-1.1M으로 학습한 URSA-RM-8B verifier는 URSA-8B의 test-time performance를 향상시키고, GPT-4o와 같은 strong closed-source multimodal MLLMs를 능가.
Novelty
- Multimodal 환경에서 System 2-style thinking 도입: Multimodal math reasoning에서 deliberate reasoning과 verification을 위한 체계적인 framework 제시.
- Dual-view Supervision: Visual grounding과 logical correctness를 모두 고려하는 process supervision approach 제시.
- Hallucination Injection: Verification을 위한 training data diversity 확보를 위해 의도적인 hallucination injection 기법 사용.
Experimental Highlights
- Datasets: MathVista, MathVerse, WE-MATH, DYNAMATH, GeoQA, Math-Vision 등 6개의 multimodal mathematical reasoning benchmarks 사용.
- Metrics: 각 dataset에 맞는 accuracy metrics 사용 (e.g., average accuracy, strict accuracy).
- Baselines: Closed-source MLLMs (GPT-4o, GPT-4V, Gemini-1.5-Flash-002), open-source general MLLMs (Qwen2-VL, InternVL2-8B), open-source math MLLMs (Math-LLaVA, Math-PUMA, Multimath).
- URSA-8B SOTA Performance:
- MathVista, MathVerse, DYNAMATH에서 비슷한 크기의 open-source MLLMs 중 SOTA 달성.
- WE-MATH에서 GPT-4V를 능가하고, Gemini-1.5-Pro에 근접한 성능.
- URSA-RM-8B Verification Enhancement:
- URSA-8B의 test-time performance를 향상시켜 MathVista에서 GPT-4o를 능가.
- Out-of-distribution (OOD) generalization capabilities 입증.
Limitations and Future Work
- Limitations:
- URSA-8B는 FQA와 VQA task에서 open-source models 보다 부족한 성능.
- URSA-8B는 Lower-level questions에서 visual recognition and calculation과 같은 hard skill의 에러에 취약.
- Future Work:
- Critic 또는 reinforcement learning techniques을 기반으로 한 추가적인 applications 탐색.
- Multimodal reasoning에서 process supervision의 추가적인 발전.
- Hard skill 향상을 위한 연구.
Overall Summary
이 논문은 multimodal mathematical reasoning에서 System 2-style thinking을 도입하고, visual grounding과 logical correctness를 모두 고려하는 dual-view process supervision approach를 제시한다. 이를 통해, high-quality CoT fine-tuning과 multimodal math test-time scaling을 위한 training streamline을 제안한다. URSA-8B 모델은 여러 benchmarks에서 SOTA 성능을 달성하고, URSA-RM-8B verifier는 test-time performance를 더욱 향상시킨다. 이 연구는 multimodal mathematical reasoning 분야의 발전에 중요한 기여를 하며, 향후 연구를 위한 강력한 기반을 제공한다.
쉬운 설명:
이 논문은 마치 사람이 수학 문제를 풀 때처럼, 그림(visual)과 글(text)을 모두 활용하여 단계별로 추론(Chain-of-Thought)하고, 그 과정이 맞는지 검증(verification)하는 인공지능 모델(URSA)을 만드는 방법을 제시합니다. 특히, 그림을 제대로 이해했는지(visual grounding fidelity), 그리고 추론 과정이 논리적으로 맞는지(deductive chain validity)를 모두 확인하는 "똑똑한 채점 방식"을 도입하여, 기존 모델보다 더 정확하게 수학 문제를 풀 수 있도록 했습니다. 마치 숙련된 수학 선생님처럼, 정답 뿐 아니라 풀이과정 까지 확인하는 시스템입니다.
Abstract
Chain-of-Thought (CoT) reasoning은 large language models (LLMs)의 수학적 추론 능력을 향상시키기 위해 널리 사용됩니다. CoT trajectory에 대한 process supervision의 도입은 test-time scaling을 개선하여 이러한 models의 System 2 스타일 사고 능력을 여는 것에 대한 논의를 촉발했습니다. 그러나 multimodal 수학적 추론에서 고품질 CoT training data의 부족은 기존 models이 신중한 추론과 세분화된 verification을 모두 달성하는 것을 방해했습니다.
본 연구에서는 multimodal 수학적 추론에 System 2 스타일 사고를 도입하는 새로운 framework를 제안합니다. CoT distillation, trajectory-format rewriting, and format unification을 통합하는 3-module CoT data synthesis process를 도입합니다. 이 process는 고품질 CoT reasoning instruction fine-tuning dataset인 MMathCoT-1M을 생성합니다.
또한, visual grounding fidelity와 deductive chain validity를 모두 목표로 하는 dual-view trajectory labeling automation을 구현하여 DualMath-1.1M dataset을 생성합니다. MMathCoT-1M으로 trained된 URSA-8B model은 6개의 널리 사용되는 reasoning benchmarks에서 유사한 크기의 multimodal LLMs 중에서 새로운 state-of-the-art (SOTA) performance를 달성합니다. URSA-8B를 DualMath-1.1M dataset으로 추가 training하면 URSA-RM-8B라는 verifier가 생성되며, 이는 URSA-8B의 test-time performance를 향상시키고 GPT-4o와 같은 강력한 closed-source multimodal MLLMs를 능가합니다. Model weights, training data, and code는 open-source로 공개되었습니다: https://github.com/URSAMATH/URSA-MATH.
1. Introduction
Chain-of-thought (CoT) reasoning은 Large Language Models (LLMs)를 사용한 수학적 추론에서 매우 효과적이라고 입증되었습니다. 최근, 수많은 연구들이 system 2 스타일의 신중한 추론을 탐구하기 위해 inference 동안 CoT trajectory의 quality를 supervising하는 데 초점을 맞추고 있습니다. 그러나 Multimodal Large Language Models (MLLMs)에서 이 접근 방식을 수학적 추론에 적용하는 것은 아직 충분히 연구되지 않았습니다.
우리는 기존 연구에서 두 가지 주요 한계점을 확인했습니다.
i) 현재 multimodal math MLLMs는 일반적인 MLLMs에 비해 reasoning performance에서 뚜렷한 이점을 보여주지 못했습니다. 이는 CoT-format과 정답을 바로 제공하는 방식을 혼합한 training styles로 이어지는 고품질 CoT data의 부족 때문일 수 있습니다.
ii) multimodal context에서 logical correctness를 보장하는 것 외에 supervision이 필요한 새로운 정보가 있는지 여부는 여전히 불분명합니다.
첫 번째 문제를 해결하기 위해, 우리는 다양한 유형의 open-source data에 맞춘 3-module CoT data synthesis approach를 제안하며, 이는 MMathCoT-1M dataset에 기여합니다. 이 approach는 CoT distillation, trajectory rewriting, and format unification을 포함하며, math MLLMs의 초기 capabilities를 향상시키고 system 2 스타일의 느린 사고를 도입하기 전에 달성 가능한 잠재적 상한선을 암묵적으로 높이는 것을 목표로 합니다.
두 번째 문제를 위해, 우리는 visual grounding fidelity와 deductive chain validity의 supervision을 통합합니다. 우리는 Monte Carlo Tree Search (MCTS) 기반 error localization과 step-level targeted hallucination injection을 결합하여 이를 달성합니다. 이를 통해 verifier는 reasoning processes에서 perceptual inconsistencies와 logical inconsistencies를 모두 감지할 수 있습니다. 비유적으로 말하면, Process Reward Model (PRM)을 구축할 때, 우리는 "일을 올바르게 하는 것"뿐만 아니라 "사물을 정확하게 보는 것"에도 보상하는 것을 목표로 합니다. 그 결과, 우리는 DualMath-1.1M dataset을 구축합니다.
우리는 vision-language alignment, math-domain supervised fine-tuning, and PRM training을 포함하는 3단계 training process를 제안합니다. 두 번째와 세 번째 단계는 각각 URSA-8B and URSA-RM-8B models를 생성합니다.
Figure 1에서 볼 수 있듯이, 우리는 MathVista, MathVerse, WE-MATH, DYNAMATH, GeoQA, and Math-Vision을 포함한 6개의 널리 사용되는 datasets에서 URSA-8B를 평가합니다. URSA-8B는 비슷한 크기의 models 중에서 state-of-the-art (SOTA) performance를 달성합니다. 또한, URSA-RM-8B는 URSA-8B가 만족스러운 system 2 스타일 사고를 수행하도록 지원하여 GPT-4o의 performance를 능가하는 결과를 낳습니다.
본 논문의 주요 contributions는 다음과 같이 요약됩니다.
- 고품질 multimodal mathematical CoT data의 부족을 해결하는 synthesized multimodal instruction-tuning dataset인 MMathCoT-1M을 제안합니다.
- visual grounding fidelity와 logical validity를 결합한 새로운 process-supervised data synthesis method를 도입하여 multimodal mathematical reasoning에서 최초의 process-supervised dataset인 DualMath-1.1M을 생성합니다.
- Trained된 URSA-8B는 6개의 multimodal mathematics benchmarks에서 비슷한 크기의 MLLMs 중 SOTA results를 달성하여 더 강력한 baseline을 확립합니다. 또한, URSA-RM-8B는 multimodal system 2 스타일 reasoning을 효과적으로 guide하여 URSA-8B가 GPT-4o를 능가하고 out-of-distribution (OOD) generalization capabilities를 보여줍니다.
1. Introduction 정리 노트 (AI 연구자 대상)
🎯 목표: Multimodal Mathematical Reasoning에서 System 2 사고 능력을 갖춘 MLLM 개발
🔥 문제점:
- CoT 데이터 부족: 기존 Multimodal Math MLLMs는 고품질 CoT 데이터 부족으로 인해 일반 MLLMs 대비 뚜렷한 추론 성능 향상을 보이지 못함. CoT와 정답 직답(direct answer-giving) 혼합 훈련 방식 문제.
- Multimodal Supervision 불확실성: Multimodal 환경에서 논리적 정확성 외 추가적인 supervision이 필요한 정보가 있는지 불분명.
✨ 해결책:
- MMathCoT-1M Dataset 구축:
- 3-Module CoT Data Synthesis (CoT Distillation, Trajectory Rewriting, Format Unification)
- 다양한 Open-Source Data 활용, Math MLLMs의 초기 능력 및 잠재적 상한선 향상
- DualMath-1.1M Dataset 구축:
- Visual Grounding Fidelity + Deductive Chain Validity Supervision 통합
- MCTS 기반 Error Localization + Step-Level Targeted Hallucination Injection
- Perceptual & Logical Inconsistencies 탐지 Verifier
- "Doing things right" + "Seeing things precisely" 보상하는 PRM 구축
- 3단계 Training Process:
- Vision-Language Alignment
- Math-Domain Supervised Fine-tuning (URSA-8B)
- PRM Training (URSA-RM-8B)
🏆 결과:
- URSA-8B: 6개 Multimodal Math Benchmarks에서 동급 MLLMs 대비 SOTA 달성.
- URSA-RM-8B: URSA-8B의 System 2 사고 지원, GPT-4o 성능 능가, OOD 일반화 능력 입증.
핵심: 최초의 Multimodal Math Reasoning용 Process-Supervised Dataset(DualMath-1.1M) 구축 및 이를 활용한 System 2 Reasoning MLLM(URSA) 개발.
쉬운 설명:
기존의 Multimodal 수학 문제 풀이 AI 모델들은 추론 과정(Chain-of-Thought, CoT)을 보여주는 고품질 데이터가 부족해서, 일반적인 AI 모델보다 성능이 크게 좋지 않았습니다. 또한, 그림과 텍스트가 섞인 문제에서 AI가 단순히 정답만 맞추는 것이 아니라, "제대로 보고, 제대로 추론하는지"를 확인하는 방법도 명확하지 않았습니다.
이 논문에서는 이러한 문제를 해결하기 위해,
- 새로운 데이터셋 2개(MMathCoT-1M, DualMath-1.1M)를 만들었습니다.
- MMathCoT-1M: 기존에 공개된 다양한 데이터를 활용, 추론 과정을 잘 보여주는 데이터
- DualMath-1.1M: AI가 그림을 제대로 이해했는지(visual grounding), 추론 과정이 논리적으로 맞는지(deductive chain)를 모두 확인하는 데이터
- AI 모델(URSA)을 3단계에 걸쳐 학습시켰습니다.
- 1단계: 그림과 텍스트를 연결
- 2단계: 수학 문제 풀이 능력 향상(URSA-8B)
- 3단계: 추론 과정을 검증하는 능력 향상(URSA-RM-8B)
그 결과, URSA 모델은 기존 AI 모델들보다 수학 문제 풀이 성능이 훨씬 좋아졌고, 특히 URSA-RM-8B는 URSA-8B가 더 깊이 생각(System 2)하여 문제를 풀도록 도와, 심지어 GPT-4o보다 좋은 성능을 보였습니다. 또한, 학습 데이터에 없는 유형의 문제도 잘 푸는 능력(OOD)도 보여주었습니다.
간단히 말해, 이 논문은 AI가 수학 문제를 풀 때, "눈"과 "뇌"를 모두 잘 활용하도록 훈련시키는 새로운 방법을 제시한 것입니다.
2. Related Work
Multimodal Math Reasoning
MLLMs의 mathematical reasoning 능력이 최근 널리 주목받고 있습니다. LLMs에서의 mathematical reasoning tasks에 비해, multimodal mathematical reasoning은 MLLMs가 visual domain의 조건을 포착하고 images와 text 사이의 cross-modal reasoning을 수행해야 합니다. Geometric problems 및 chart reasoning과 같은 tasks는 더 어려운 문제에 속합니다.
일부 연구에서는 특정 시나리오에서 visual encoders를 통해 visual mathematical signals의 입력을 강화했습니다. 더 많은 노력은 문제의 다양성과 복잡성을 강조하면서 mathematical reasoning data의 합성에 초점을 맞추고 있습니다. MathLLaVA는 complexity를 기반으로 images를 분류하고 그에 따라 questions를 개선하여 MathV360K dataset을 제안합니다. GeoGPT4V는 alignment detection을 위해 GPT-4V를 사용하여 question-answer pairs를 단순화하고 확장합니다. Multimath는 K-12 교과서에서 고품질 mathematical reasoning data를 수집하고 CoT data generation 및 validation을 위해 GPT-4o를 사용합니다. R-CoT는 2단계 reverse question-answer generation process를 통해 문제 다양성을 향상시킵니다. Data synthesis 기반 methods는 입증된 효율성으로 인해 학계와 산업계에서 선호됩니다.
Inference-time scaling in mathematical reasoning
최근 LLMs reasoning에서 test-time scaling laws를 탐구하는 연구가 주목받고 있습니다. 이러한 strategies는 LLMs의 다양한 outputs에서 올바른 reasoning trajectories를 식별하려고 시도합니다. 그러나 이러한 strategies는 multimodal mathematical reasoning에서는 아직 충분히 연구되지 않았습니다.
Self-consistency에서 시작하여 test time에서의 scaling 개념이 구체화되기 시작했습니다. OpenAI는 test-time inference 동안 reasoning paths를 supervise하고 선택하는 verifier의 개념을 도입했습니다. Math-shepherd는 정답으로 이어질 가능성에 따라 intermediate steps를 평가합니다. OmegaPRM은 PRM training data를 구성하고 MCTS로 training합니다. 그러나 multimodal mathematical reasoning의 context에서 강력한 CoT reasoning capabilities를 가진 models의 부족은 이러한 시나리오를 위한 reward model training data 구성의 다양성에 대한 제한적인 탐구와 함께 중요한 병목 현상이 되었습니다.
2. Related Work 정리 노트 (AI 연구자 대상)
A. Multimodal Math Reasoning
- Trend: MLLMs의 수학적 추론 능력 연구 활발.
- Challenge: Visual Domain 조건 파악 및 Image-Text 간 Cross-Modal Reasoning 필요 (Geometric, Chart Reasoning 등).
- Existing Approaches:
- Visual Encoder 활용: Input Visual Signal 강화.
- Data Synthesis: 문제 다양성/복잡성 증대 (MathV360K, GeoGPT4V, Multimath, R-CoT 등).
- MathV360K: 이미지 복잡도 기반 분류, Questions 강화
- GeoGPT4V: GPT-4V 활용, Question-Answer 쌍 단순화/확장
- Multimath: K-12 교과서 데이터, GPT-4o로 CoT 생성/검증
- R-CoT: 2단계 Reverse Question-Answer 생성
B. Inference-time Scaling in Mathematical Reasoning
- Trend: LLMs Reasoning에서 Test-Time Scaling 연구 주목.
- Goal: LLMs의 다양한 출력 중 올바른 Reasoning Trajectory 찾기.
- Existing Approaches:
- Self-Consistency: Test-Time Scaling 개념 시작점.
- Verifier (OpenAI): Test-Time Inference 중 Reasoning Path 감독/선택.
- Math-shepherd: 정답 가능성 기반 Intermediate Step 평가.
- OmegaPRM: PRM Training Data 구성, MCTS로 Training.
- Limitation (in Multimodal Context):
- 강력한 CoT Reasoning 능력을 갖춘 Model 부족.
- Reward Model Training Data 다양성 부족.
이 논문과의 차별점:
- 기존 연구들은 대부분 Data Synthesis를 통한 성능 향상 또는 Inference-Time Scaling을 위한 방법론에 초점.
- 본 연구는:
- Multimodal 환경에 특화된 Process-Supervised Data Synthesis (Visual Grounding + Logical Validity)
- Inference-Time Scaling을 위한 Verifier (Perceptual + Logical Inconsistency 감지)
- 위 두 가지를 통합하여 System 2 Reasoning MLLM 개발
쉬운 설명:
A. Multimodal Math Reasoning (그림 + 텍스트 수학 문제 풀이)
- 현재 연구 상황:
- AI에게 그림과 텍스트가 섞인 수학 문제를 풀게 하는 연구가 많이 되고 있음.
- 그림 속 정보 파악, 그림-텍스트 정보 연결해서 추론하는 게 중요하고 어려움.
- 기존 연구들은 주로:
- AI가 그림을 더 잘 보게 만들기 (Visual Encoder)
- 다양하고 어려운 문제들을 많이 만들어서 학습시키기 (Data Synthesis)
- 예시:
- MathV360K: 그림 복잡도에 따라 문제 난이도 조절
- GeoGPT4V: GPT-4V로 문제-정답 쌍 생성
- Multimath: 교과서에서 문제 뽑아 GPT-4o로 추론 과정 생성
- R-CoT : 문제와 정답을 바꾼 형태의 생성 (다양성 증대)
B. Inference-time Scaling (추론 시간 성능 향상)
- 현재 연구 상황:
- AI가 문제를 풀 때, 여러 답안 중 가장 좋은 답을 고르는 방법 연구 중.
- Self-Consistency: 여러 답안 중 가장 많이 나온 답을 선택 (기본적인 방법).
- Verifier: AI가 추론하는 과정을 감시하고, 가장 좋은 경로 선택 (OpenAI).
- Math-shepherd: 중간 단계 평가해서 정답 가능성 높은 경로 선택.
- OmegaPRM: 보상 모델(Reward Model) 학습 데이터 만들고, 강화 학습(MCTS)으로 훈련.
- 문제점:
- Multimodal(그림+텍스트) 환경에서는 이 방법들이 잘 안 먹힘.
- 추론 잘하는 AI 모델 자체가 부족.
- 보상 모델 학습 데이터가 다양하지 않음.
이 논문이 특별한 이유:
- 단순히 데이터 많이 만들거나, 추론 방법 개선하는 것을 넘어,
- Multimodal 환경에서 AI가 "제대로 보고, 제대로 추론하는지" 확인하는 데이터(DualMath-1.1M)를 만들고,
- 이를 바탕으로 추론 과정을 검증하는 AI(Verifier)를 학습시켜서,
- 더 깊이 생각(System 2)하는 AI 모델(URSA)을 개발함.
3. Model Training Process
이 섹션에서는 Figure 5에 나와 있듯이 URSA-8B의 training process를 소개합니다. 섹션 3.1에서는 model architecture와 vision-language alignment data의 구성을 소개합니다. 섹션 3.2에서는 MMathCoT-1M이라고 명명된 math SFT를 위한 data synthesis strategy를 설명합니다. 섹션 3.3에서는 DualMath-1.1M을 사용한 PRM training을 위한 data synthesis process를 설명합니다.
3.1. Vision-Language Alignment
일반적인 목적으로 OCR 및 document understanding과 같은 tasks에 대해 주로 trained된 기존 MLLMs는 mathematical training에 직접 transfer하기에 적합하지 않습니다. 반면, mathematics-specific LLMs는 이미 mathematical CoT reasoning에서 상당한 mathematical knowledge와 foundational capabilities를 보유하고 있습니다. 따라서 우리는 composite architecture를 선택합니다. 구체적으로, Deepseek-VL과 동일한 hybrid vision encoder를 사용하며, 이는 SAM-B와 SigLIP-L encoders를 결합합니다. Language model 측면에서는 advanced Qwen2.5-Math-7B-Instruct를 활용합니다. 이전 연구에 따라, vision encoder와 LLM 사이의 aligner로 MLP projector를 사용합니다.
우리는 open-source datasets를 결합하고 filtering하여 training을 위한 860K vision-language alignment open-source data를 수집하고, 이를 URSA-alignment-860K라고 명명합니다. 자세한 내용은 Figure 2에 나열되어 있습니다.
3.2. CoT Augmentation in Multimodal Mathematics
MLLMs의 multimodal mathematical CoT reasoning capabilities를 향상시키기 위해, 기존 open-source multimodal mathematical training data를 수집하고 분류합니다. 그런 다음, Figure 3에 설명된 대로 CoT data synthesis strategy를 실행하기 위해 G로 표시된 generator, Gemini-1.5-Flash-002를 사용합니다. Gemini-1.5-Flash-002는 GPT-4o와 비슷하면서도 비용 효율적인 multimodal mathematical reasoning performance를 보여줍니다.
- Answer-only: Answer-only data D1 = {(xi, yi)} (i=1 to N1)은 MathV360k를 포함하며, 각 data는 question xi와 ground-truth answer yi를 포함합니다. 그러나 answer-only training은 model이 problem-solving process를 완전히 파악하는 것을 제한합니다. 이 approach는 model이 memory-based reasoning에 의존하게 하여 fast thinking을 통해 더 복잡한 geometric reasoning problems에 대한 direct answers를 제공하는 것을 방해할 수 있습니다.
- SAo = G(PC; {xi, yi} (i=1 to N1)) (1)
- 이러한 유형의 data의 경우, CoT path distillation을 위해 G를 사용합니다. 구체적으로, CoT distillation prompt PC가 주어지면, problem과 해당 standard answer를 제공한 다음, model이 answer로 이어지는 reasoning trajectory를 output하도록 prompt합니다. 답변을 거부하거나 더 많은 조건이 필요하다고 나타내는 응답은 filtering합니다.
- Analysis-formatted: 이 category의 data D2 = {(xi, yi, ai)} (i=1 to N2)는 MAVIS-Geo, MAVIS-MetaGen, VarsityTutors, and Geo170k-QA를 포함하며, 각 sample은 question xi, answer yi, and textual analysis ai를 포함합니다. Rewriting prompt PR이 주어지면, G를 활용하여 solutions를 transcribe하고, step-by-step reasoning trajectories와 linguistic diversity를 향상시켜 CoT reasoning 관련 analytical skills 개발을 극대화합니다.
- SAn = G(PR; {xi, yi, ai} (i=1 to N2)) (2)
- CoT-formatted: 이 data의 부분 D3 = {(xi, yi, ci)} (i=1 to N3)는 Multimath300k-en에서 가져온 것이며, 각 data는 question xi, answer yi, and CoT solution ci로 구성됩니다. 우리는 prompt PF와 G를 사용하여 reasoning steps 전에 사용된 knowledge points를 지정하는 원래 design을 제거하기 위해 templates를 간단히 수정하여 CoT output의 consistency를 유지합니다.
- SC = G(PF; {xi, yi, ci} (i=1 to N3)) (3)
- MMathCoT-1M: 우리는 data quality validation을 위해 계속 G를 사용하여 standard answer에 대한 의심을 보이거나 solution에서 inconsistent results를 제공하는 examples를 filtering합니다. 마지막으로, Equation 4와 같이 고품질 multimodal mathematical CoT reasoning dataset인 MMathCoT-1M을 synthesize합니다.
- DSF T = {(xi, yi) ~ SAo ∪ SAn ∪ SC} (i=1 to |SAo ∪ SAn ∪ SC|) (4)
섹션 3.1에서 제안된 aligned model을 기반으로 URSA-8B를 training하기 위해 instruction fine-tuning을 사용합니다. Training loss는 Equation 5에 표시됩니다.
- LSF T = -E(x,y)~DSF T Σ(t=1 to T) logM(yt|x, y:t) (5)
세 가지 유형의 data processing을 위한 prompts는 Appendix C.1에 제공합니다.
3.3. Dual-view Process Supervised Data Synthesis
그러나 URSA-8B가 강력한 CoT reasoning capabilities를 보유하고 있음에도 불구하고 여전히 incorrect reasoning trajectories를 생성할 가능성이 높습니다. LLM reasoning에서 test-time scaling을 위한 process supervision 사용에서 영감을 받아, 우리는 high-quality CoT trajectories를 추출하기 위해 multimodal process supervision model을 training하는 것을 고려합니다. Multimodal scenarios에서, 우리는 "logically correct"와 "visually accurate" 측면 모두에 초점을 맞춘 dual-view process reward data approach를 제안합니다. 전자는 URSA-8B의 incorrect reasoning trajectories에서 error localization에서 파생되는 반면, 후자는 manually inserted image misinterpretations에서 비롯됩니다.
- Error Step Locating Engine: (Lightman et al., 2023; Luo et al., 2024a)에서 영감을 받은 Monte Carlo Tree Search (MCTS) approach는 problem-solving trajectory에서 erroneous steps를 식별하는 데 도움이 될 수 있습니다. 우리는 erroneous steps를 표시하기 위해 binary labeling approach를 사용하여 process reward signals의 automated generation을 가능하게 합니다.
- SBEL = BinaryErrorLocating(Yn, Nmid) (6)
- Positive and negative solution pairs {y(p,i), y(n,i)} (i=1 to N)가 주어지면, positive example set Yp = {y(p,i) | i = 1, 2, ..., N}과 negative example set Yn = {y(n,i) | i = 1, 2, ..., N}을 얻습니다. Positive example set Yp의 경우, 모든 samples의 각 step에 대해 directly forward labeling을 수행합니다. Negative example set Yn의 경우, BinaryErrorLocating operation을 실행합니다.
- Misinterpretation Insertion Engine: MCTS에 의해 생성된 reward signals는 text modality의 logical correctness에서 비롯되며, image and text fusion의 uniqueness에 특별한 주의를 기울이지 않습니다. 이전의 일부 연구에서도 MLLMs가 reasoning 중에 visual signals에 대해 상당한 정도의 misunderstanding을 나타낸다고 제안했습니다. 따라서 우리는 visual information attention을 위한 training data를 구성하기 위해 misinterpreting insertion technique을 고려합니다.
- Figure 4와 같이 misinterpretation insertion engine은 세 단계를 포함합니다. 첫 번째 단계에서 model은 image에서 mathematical paradigm information을 extracts합니다. 두 번째 단계에서 model은 correct solution 내에서 potential misinterpretations를 식별하도록 prompted됩니다. 세 번째 단계에서 model은 misinterpret할 information을 selects하고, injects하고, reasoning process를 계속하여 incorrect trajectory에 도달합니다. 마지막으로, 우리는 SM IE를 얻습니다.
두 engines를 사용하여 1.1M process-supervised training data인 DualMath-1.1M을 얻습니다. Equation 8에 표시된 binary classification loss를 사용하여 URSA-8B에서 계속 training하여 URSA-RM-8B를 얻습니다. Mp는 trained된 URSA-RM-8B입니다.
- DP RM = {(ei, yei) ~ SBEL ∪ SM IE} (7)
- LP RM = -E(e,y)~DP RM Σ(j=1 to |e|) [ yj logMp(ej) + (1 - yj) log(1 - Mp(ej)) ] (8)
3. Model Training Process 정리 노트 (AI 연구자 대상)
핵심: 3단계 Training Process를 통해 URSA-8B (수학 문제 풀이) & URSA-RM-8B (Verifier, 추론 과정 검증) 모델 구축
1. Vision-Language Alignment (3.1)
- 목표: Image와 Text 간 Alignment
- Architecture:
- Vision Encoder: Deepseek-VL과 동일한 Hybrid 방식 (SAM-B + SigLIP-L)
- Language Model: Qwen2.5-Math-7B-Instruct (수학 특화)
- Aligner: MLP Projector
- Dataset: URSA-alignment-860K (Open-Source Dataset 조합/필터링)
- 기존 MLLMs는 일반 목적 (OCR, Document Understanding)에 맞춰져 있어, 수학 문제 풀이에 바로 적용하기 어려움.
- 수학 특화 LLM을 기반으로, Vision-Language Alignment 수행.
2. CoT Augmentation in Multimodal Mathematics (3.2, MMathCoT-1M)
- 목표: Multimodal Math CoT Reasoning 능력 강화
- Generator: Gemini-1.5-Flash-002 (성능: GPT-4o급, 효율성 ↑)
- Data Synthesis Strategy (3 Modules):
- Answer-only Data (Distillation):
- Data: MathV360K (Question + Answer)
- Process: Prompt(PC) + (Question, Answer) → Reasoning Trajectory 생성 (by G)
- Filtering: 답변 거부, 추가 조건 요구 응답 제외
- Analysis-formatted Data (Rewriting):
- Data: MAVIS-Geo, MAVIS-MetaGen, VarsityTutors, Geo170k-QA (Question + Answer + Textual Analysis)
- Process: Prompt(PR) + (Question, Answer, Analysis) → Step-by-Step Reasoning Trajectory, Linguistic Diversity 강화 (by G)
- CoT-formatted Data (Format Unification):
- Data: Multimath300k-en (Question + Answer + CoT Solution)
- Process: Prompt(PF) + (Question, Answer, CoT) → CoT Output Consistency 유지 (by G, Template 수정)
- Answer-only Data (Distillation):
- MMathCoT-1M Dataset: 위 3가지 Process 거쳐 생성, Data Quality Validation (by G)
- Training (URSA-8B): Instruction Fine-tuning (Loss: Equation 5)
3. Dual-view Process Supervised Data Synthesis (3.3, DualMath-1.1M)
- 목표: Process Supervision Model Training (Verifier, URSA-RM-8B)
- High-Quality CoT Trajectory 추출
- "Logically Correct" + "Visually Accurate"
- Dual-View Approach:
- Error Step Locating Engine:
- MCTS 기반
- Incorrect Reasoning Trajectory에서 Erroneous Step 식별 (Binary Labeling)
- 수식 (6)에서 Nmid = 16
- Misinterpretation Insertion Engine:
- Visual Signal Misunderstanding 고려 (MLLMs의 약점)
- 3 Stages (Figure 4):
- Image에서 Mathematical Paradigm Information 추출
- Correct Solution에서 Potential Misinterpretations 식별
- Misinterpretation 선택/주입, Incorrect Trajectory 생성
- Error Step Locating Engine:
- DualMath-1.1M Dataset: 위 2가지 Engine으로 생성 (1.1M)
- Training (URSA-RM-8B): URSA-8B 기반, Binary Classification Loss (Equation 8)
이 논문만의 핵심:
- 단순 CoT Data Augmentation이 아닌, Dual-View Process Supervision (Logical + Visual)
- MCTS 기반 Error Localization + Misinterpretation Insertion (Visual Weakness 고려)
- Verifier (URSA-RM-8B) Training을 통해, Inference-Time Scaling (System 2) 구현
쉬운 설명:
URSA 모델 학습 과정 (3단계)
- Vision-Language Alignment (그림-텍스트 연결):
- 기존 AI 모델들은 그림과 텍스트를 따로 학습해서, 수학 문제 풀이에 바로 쓰기 어려움.
- 수학 문제를 잘 푸는 AI 모델(Qwen2.5-Math-7B-Instruct)에 그림을 이해하는 능력(Deepseek-VL)을 붙여줌.
- 86만 개의 그림-텍스트 짝 데이터(URSA-alignment-860K)로 학습.
- CoT Augmentation (추론 과정 데이터 생성, MMathCoT-1M):
- AI가 수학 문제를 풀 때, 생각하는 과정을 보여주는 데이터(CoT)가 필요.
- 기존에 공개된 데이터들을 모아서, Gemini-1.5-Flash-002 (GPT-4o급 성능)를 이용해 3가지 방식으로 데이터를 만듦.
- 정답만 있는 데이터: 문제와 정답을 주고, 추론 과정을 생성.
- 풀이 설명이 있는 데이터: 풀이 설명을 더 자세하고 다양하게 만듦.
- 이미 추론 과정이 있는 데이터: 형식을 통일.
- 이렇게 만든 데이터(MMathCoT-1M)로 URSA-8B 모델(수학 문제 풀이 AI)을 학습시킴.
- Dual-view Process Supervised Data Synthesis (추론 과정 검증 데이터 생성, DualMath-1.1M):
- AI가 추론을 "제대로" 하는지 검증하는 AI(Verifier, URSA-RM-8B)도 필요.
- "논리적으로 맞는지" + "그림을 제대로 봤는지" 두 가지를 모두 확인.
- Error Step Locating Engine:
- MCTS라는 알고리즘으로, 틀린 추론 과정에서 어느 부분이 틀렸는지 찾음.
- Misinterpretation Insertion Engine:
- AI가 그림을 잘못 이해하는 경우가 많으므로, 일부러 그림을 잘못 해석하게 만들어서 학습.
- Error Step Locating Engine:
- 이렇게 만든 데이터(DualMath-1.1M)로 URSA-RM-8B 모델(검증 AI)을 학습시킴.
핵심: AI가 수학 문제를 풀 때, "눈"과 "뇌"를 모두 잘 쓰도록, 추론 과정뿐만 아니라 그림 이해도까지 검증하는 데이터를 만들고, 이를 통해 검증 AI까지 학습시켜서 더 똑똑한 AI를 만들었다!
전체 과정 (수정 및 보완):
- 1차 학습 (Vision-Language Alignment):
- 목표: Math LLM (Qwen2.5-Math-7B-Instruct)에 Vision Encoder (Deepseek-VL 방식)를 붙여, 이미지와 텍스트를 함께 이해하는 MLLM을 만듭니다.
- 데이터: URSA-alignment-860K
- 결과: Vision-Language Aligned MLLM
- 2차 학습 (CoT Augmentation & Supervised Fine-tuning):
- 목표: 1차 학습된 MLLM에게 Multimodal 수학 문제 풀이 능력 (CoT Reasoning)을 학습시킵니다.
- 데이터: MMathCoT-1M (Gemini-1.5-Flash 활용)
- 결과: Multimodal Math Reasoning MLLM (URSA-8B)
- 3차 학습 (Dual-view Process Supervised Data Synthesis & PRM Training):
- MCTS는 여기서 학습용 데이터를 만드는데 사용됩니다. URSA-8B자체를 학습하는 것이 아닙니다.
- 목표: URSA-8B의 추론 과정을 평가하는 Verifier (PRM, URSA-RM-8B)를 학습시키기 위한 데이터(DualMath-1.1M)를 생성합니다.
- 데이터 생성:
- Error Step Locating Engine (with MCTS):
- URSA-8B가 생성한 틀린 추론 과정에서 오류 단계(step)를 찾습니다.
- MCTS를 사용하여 각 단계의 "가치"를 평가하고, "가치"가 낮은 단계를 오류 단계로 চিহ্নিত, labeling 합니다.
- Misinterpretation Insertion Engine:
- 의도적으로 이미지 정보를 잘못 해석하게 하여, URSA-8B가 틀린 추론 과정을 생성하도록 유도합니다.
- "시각적 오류"를 label합니다.
- Error Step Locating Engine (with MCTS):
- PRM (URSA-RM-8B) 학습:
- DualMath-1.1M 데이터를 사용하여 URSA-RM-8B를 학습시킵니다.
- URSA-RM-8B는 추론 과정의 각 단계가 "논리적으로 올바른지", "시각적으로 올바른지"를 평가하는 방법을 배웁니다.
- 3번 과정의 결과
- 학습 데이터 : DualMath-1.1M
- PRM 모델 : URSA-RM-8B
- Test (Inference-Time Scaling):
- 목표: 주어진 문제에 대해 가장 정확한 추론 경로를 찾고, 정답을 제시합니다.
- MCTS with PRM:
- URSA-8B는 MCTS를 사용하여 추론 경로를 탐색 합니다.
- Selection: UCB 값을 기준으로 다음 단계를 선택합니다.
- Expansion: 선택된 노드에서 가능한 다음 단계들을 추가합니다. (URSA-8B 사용)
- Simulation (Rollout):
- Leaf Node에 도달하면, URSA-8B를 사용하여 추론 과정을 끝까지 진행합니다.
- PRM (URSA-RM-8B) 사용: 각 단계의 "가치"를 평가합니다. ("논리적 정확성" + "시각적 정확성")
- Backpropagation: Simulation 결과 (정답/오답)와 PRM의 평가 점수를 바탕으로, 탐색 경로에 있는 모든 노드의 "가치"를 업데이트합니다.
- 최적 경로 선택: MCTS를 충분히 반복한 후, 가장 높은 "가치"를 갖는 경로를 선택하고, 그 경로의 최종 답변을 제출합니다.
핵심 수정 내용:
- 3차 학습: MCTS를 사용하여 URSA-8B 자체를 학습시키는 것이 아니라, URSA-RM-8B (Verifier, PRM)를 학습시키기 위한 데이터(DualMath-1.1M)를 생성 하는 데 사용됩니다.
- 4. Test(Inference) 과정에서 PRM은 Tree의 Node를 확장하고, Simulation과정에서 Node의 가치를 평가하는데 사용됩니다.
이제 전체적인 흐름과 각 단계의 역할, 그리고 MCTS와 PRM의 관계가 더 명확하게 이해되셨기를 바랍니다.