VLM : 논문 리뷰 : MMC: Iterative Refinement of VLM Reasoning via MCTS-based Multimodal Critique

논문리뷰

VLM : 논문 리뷰 : MMC: Iterative Refinement of VLM Reasoning via MCTS-based Multimodal Critique

AI바라기 2025. 4. 23. 18:34

MMC: Iterative Refinement of VLM Reasoning via MCTS-based Multimodal Critique - 학습 노트

용어 설명 (Terminology)

VLM (Visual Language Model): 이미지와 텍스트를 함께 이해하고 처리하는 AI 모델.
Reasoning Path: VLM이 문제 해결을 위해 생성하는 단계별 추론 과정.
Hallucination: VLM이 실제 이미지나 텍스트 내용과 관계없이 내부 지식에 기반하여 잘못된 정보를 생성하는 현상.
Actor-Critic Framework: Actor 모델은 행동(reasoning path 생성)을 수행하고, Critic 모델은 그 행동을 평가하고 피드백을 제공하는 구조.
MCTS (Monte Carlo Tree Search): 가능한 경우의 수를 트리 형태로 탐색하며 최적의 경로를 찾는 알고리즘. 여기서는 다양한 reasoning path를 탐색하는 데 사용됨.
Critique: Critic 모델이 Actor 모델의 reasoning path를 평가하고 제공하는 교정적 피드백.
MMC (MCTS-based Multimodal Critique) Dataset: 이 논문에서 MCTS와 self-annotation을 통해 자동으로 구축한 multimodal critique 데이터셋.
Self-Annotation: 외부의 강력한 모델(e.g., GPT-4) 대신, Actor 모델 자체를 사용하여 critique 데이터를 생성하는 방식. 비용 절감 효과.
Score Head: Critic 모델의 일부로, Actor 응답의 정답 여부(correctness)를 예측하는 추가적인 모듈 (MLP 기반).
Iterative Refinement: Actor가 Critic의 피드백을 받아 자신의 reasoning path를 반복적으로 개선하는 과정.
Local Comparison / Diverging Branches: MCTS 트리 상에서 정답 경로와 오답 경로가 갈라지는(diverge) 지점의 차이점만을 비교하여 critique를 생성하는 방식. Full-path comparison 대비 효율적.

Purpose of the Paper

Problem Addressed: 기존 VLM은 복잡한 multimodal reasoning task에서 hallucination이나 잘못된 추론 단계를 포함하는 등 오류를 발생시키는 경향이 있음. Chain-of-Thought (CoT)는 도움이 되지만 여전히 오류가 발생함.
Existing Limitations: 외부 피드백(Actor-Critic) 방식은 효과적이지만, 고품질 critique 데이터 확보에 많은 비용(수동 annotation)이 듦. 기존 자동화 방법들은 인위적인 오류를 주입하거나(artificially inserted errors), 전체 reasoning path를 비교해야 해서 강력한 외부 annotator 모델(e.g., GPT-4)에 의존하며, 특정 단계의 미세한 오류 포착이 어려움.
Proposed Approach: 본 논문은 MCTS를 활용하여 VLM의 다양한 reasoning path를 체계적으로 탐색하고, 정답 경로와 오답 경로가 분기되는 지점(local differences)만을 비교하여 critique를 생성하는 자동화된 방식을 제안함. 특히, **Actor 모델 자체를 annotator로 활용(self-annotation)**하여 비용 효율성을 높이고 외부 모델 의존도를 낮춤. 이를 통해 구축된 MMC 데이터셋으로 Critic 모델을 학습시키고, Actor-Critic framework 내에서 iterative refinement를 수행하여 VLM의 reasoning 성능을 향상시키는 것을 목표로 함.

Key Contributions & Novelty

Contribution 1: MCTS 기반의 자동화된 multimodal critique 생성 파이프라인 및 이를 통해 구축된 MMC (MCTS-based Multimodal Critique) dataset.
- Novelty: MCTS를 reasoning path 탐색 및 critique 생성을 위한 데이터 수집 메커니즘으로 활용.
Contribution 2: Reasoning path 간 Local Comparison 전략.
- Novelty: 전체 경로 비교가 아닌, MCTS 트리 상에서 정답/오답 경로가 갈라지는 부분만 비교하여 critique를 생성. 이는 오류 지점 포착을 용이하게 하고 annotator 모델의 부담을 줄여줌.
Contribution 3: Self-Annotation 접근법.
- Novelty: Critique 생성을 위해 값비싼 외부 모델(e.g., GPT-4) 대신 Actor 모델 자체를 annotator로 사용. 이는 데이터 구축 비용을 크게 절감하고 확장성을 높임.
Contribution 4: Iterative Actor-Critic Framework for Multimodal Reasoning.
- Novelty: MMC 데이터로 학습된 Critic의 피드백을 통해 Actor가 점진적으로 reasoning을 개선하는 특화된 multimodal 추론 프레임워크.
Contribution 5: Critic 모델 내 Score Head 도입.
- Novelty: 응답의 정답 여부를 명시적으로 예측하는 score head를 추가하여 critique 생성과 응답 평가 능력을 동시에 향상시킴 (ORM 디자인 차용).

Experimental Highlights

Datasets & Metrics: MathVista, ScienceQA, ChartQA, M³CoT 등 다양한 multimodal reasoning benchmark 사용. 정확도는 GPT-4o를 이용해 평가.
Models: Actor 모델로 Qwen2-VL-7B, Qwen2.5-VL-7B, InternVL2-8B 사용. Critic 모델은 Qwen2-VL-7B 기반으로 fine-tuning.
Significant Performance Improvement: 제안된 Critic framework를 적용했을 때, 모든 테스트된 VLM과 benchmark에서 일관되고 상당한 성능 향상을 보임 (e.g., Qwen2-VL-7B + Critic: MathVista +9.9%, M³CoT +15.9% / InternVL2-8B + Critic: MathVista +9.0%, M³CoT +13.0%).
Generalization: Critic 모델(Qwen2-VL-7B 기반 학습)이 다른 Actor 모델(InternVL2-8B)과 결합되었을 때도 성능 향상을 보여 일반화 능력을 입증함.
Comparison with SOTA: 유사 규모의 open-source 모델 및 최근 연구(Critic-V) 대비 여러 benchmark에서 우수한 성능을 달성. 특히, Critic-V와 달리 정답을 직접 노출하지 않고 reasoning 과정 자체에 초점을 맞춘 critique의 효과를 보여줌 (Figure 4).
Ablation Study Results: MMC dataset 학습, critique data filtering, score head 도입 등 각 구성 요소가 최종 성능 향상에 긍정적인 기여를 함을 확인함 (Table 3).
Iterative Refinement Effect: Actor-Critic 상호작용 횟수(iteration)가 증가함에 따라 정확도가 점진적으로 향상되고, 수정이 필요한 응답(N_refine)의 수가 감소하는 것을 보여줌 (Table 4). 이는 제안된 프레임워크가 효과적으로 작동하며 수렴함을 시사.

Limitations and Future Work

Limitation 1: Actor 모델의 Instruction Following 능력 한계. Critic이 정확한 피드백을 제공하더라도, Actor 모델이 이를 제대로 이해하고 따라 수정하지 못하면 개선 효과가 제한됨 (Figure 7 left, Table 5).
- Importance: 상대적으로 능력이 낮은 Actor 모델의 성능 향상 폭을 제한할 수 있음.
- Future Work: Actor 모델의 instruction following 능력을 향상시키거나, Actor 능력에 맞춰 critique를 조절하는 방안 연구.
Limitation 2: Critic 모델이 미묘한 논리적 오류(subtle logical flaws)나 복잡한 분석적 추론 오류를 탐지하는 데 어려움을 겪음 (Figure 7 right).
- Importance: 매우 정교하거나 복잡한 reasoning 오류를 교정하는 데 한계가 있음.
- Future Work: Critic 모델 자체의 추론 능력을 강화하거나, 더 복잡한 오류를 포함하는 학습 데이터를 개발.
Dataset Release: MMC 데이터셋을 향후 공개할 계획임.

Overall Summary

이 논문은 VLM의 복잡한 multimodal reasoning 능력을 향상시키기 위한 MMC라는 Actor-Critic framework를 제안한다. 핵심은 MCTS를 활용한 자동화된 critique 생성 방식으로, 비용이 많이 드는 외부 annotator 대신 **Actor 모델 자체를 사용(self-annotation)**하고 정답/오답 경로의 **지역적 차이(local comparison)**만을 비교하여 효율적이고 확장 가능한 MMC 데이터셋을 구축했다. 실험 결과, 제안된 방식은 다양한 VLM과 benchmark에서 일관되고 큰 폭의 성능 향상을 보였으며, 이는 반복적인 피드백을 통한 VLM reasoning 개선의 효과와 가능성을 입증한다.

쉬운 설명 (Analogy)

이 논문의 핵심 아이디어는 다음과 같이 비유할 수 있습니다: VLM(학생)이 복잡한 그림/글 문제를 풀 때 실수를 합니다. 이 실수를 바로잡기 위해 '선생님(Critic)' 모델을 둡니다. 그런데 비싼 과외 선생님(GPT-4)을 부르는 대신, 학생이 스스로 여러 풀이 방법(MCTS 탐색)을 시도해 보게 합니다. 그리고 정답 풀이와 오답 풀이가 **결정적으로 달라지기 시작한 '그 부분'**만 찾아서, 학생 스스로 '아, 여기서 이렇게 생각해서 틀렸구나!' 하고 깨닫도록(Self-Annotation) 도와주는 쪽지(Critique)를 만들게 합니다. 학생은 이 쪽지를 보고 자신의 풀이(Reasoning)를 반복해서 고쳐나가면서 결국 더 문제를 잘 풀게 됩니다.

ABSTRACT

Visual language models (VLMs)는 다양한 multimodal reasoning 작업에서 강력한 성능을 보여주었지만, 여전히 hallucinations와 같은 문제에 직면하여 잘못된 reasoning 결과를 초래합니다.

large language models (LLMs)의 외부 feedback 메커니즘에 대한 최근 연구에서 영감을 받아, VLM reasoning 능력을 향상시키기 위한 multimodal actor-critic framework를 제안합니다. 구체적으로, actor model은 image 및 text inputs를 기반으로 단계별 reasoning paths를 생성하는 반면, critic model은 이러한 reasoning paths를 평가하고 수정 feedback을 제공합니다. actor model은 critic model이 reasoning 결과가 만족스럽다고 판단할 때까지 feedback을 기반으로 반복적으로 reasoning을 개선합니다.

비용이 많이 드는 수동 annotations에 대한 의존도를 줄이기 위해, multimodal critique datasets 구축을 위한 자동화된 방법을 도입합니다. Monte Carlo Tree Search (MCTS)를 활용하여, actor model이 다양한 reasoning paths를 탐색하도록 체계적으로 안내합니다. 잘못된 reasoning 단계를 수정하기 위한 critique 데이터를 얻기 위해, 공유된 조상 노드에서 분기되는 reasoning paths 쌍(하나는 올바른 결론으로 이어지고 다른 하나는 잘못된 결론으로 이어짐)을 비교하도록 annotator model에 지시합니다.

이 접근 방식을 통해 MMC (MCTS-based Multimodal Critique) dataset을 구축할 수 있으며, 이를 기반으로 포괄적인 training 및 inference pipeline을 추가로 개발합니다. 여러 공개 benchmark datasets와 주류 VLMs에서 수행된 광범위한 실험은 우리의 접근 방식이 복잡한 multimodal reasoning 작업에서 VLM의 성능을 크게 향상시켜 그 효과와 넓은 적용 가능성을 강조한다는 것을 보여줍니다.

1 INTRODUCTION

Visual Language Models (VLMs)는 unimodal 방법의 한계를 극복하여 세상에 대한 더 포괄적이고 맥락적인 이해를 가능하게 했습니다. 이들은 multimodal 대화 및 visual question answering과 같은 다양한 분야에서 뛰어난 성능을 보여주었습니다. 그러나 VLMs는 unimodal models와 다른 독특한 문제에 직면하기도 합니다. 두드러진 문제 중 하나는 visual hallucination으로, model이 실제 visual 콘텐츠에 기반하기보다는 내장된 Large Language Model (LLM) 구성 요소의 parametric knowledge에 주로 의존하여 응답을 생성하는 현상입니다. 또한, hallucinations는 LLM 모듈 자체 내에서도 발생할 수 있으며, model이 순전히 text information만 처리할 때조차 오류로 이어질 수 있습니다. 초기 방법들은 주로 "direct prediction" 전략에 의존했는데, 이는 간단하지만 논리적 reasoning이 필요한 작업에는 비효율적인 것으로 입증되었습니다. Chain-of-Thought (CoT) 방법은 model이 중간 reasoning steps를 명시적으로 생성하도록 유도하여 이러한 한계를 완화합니다. 그러나 VLMs는 여전히 reasoning 중에 오류와 hallucinations가 발생하기 쉬우며, 이는 잘못된 결론으로 이어집니다. 따라서 VLMs의 reasoning capabilities를 향상시키는 것은 여전히 중요한 연구 방향입니다.

이러한 문제를 해결하기 위해 OpenAI o1은 inference-time computation을 늘려 reasoning 집약적인 benchmarks에서 model 성능을 개선하는 작업을 수행했으며, 이를 통해 models이 인간 전문가의 성능과 동등하거나 능가할 수 있게 했습니다. DeepSeek-R1은 reinforcement learning (RL)을 성공적으로 활용하여 LLMs에서 고급 cognitive reasoning abilities의 자가 발현을 촉진합니다. 동시에 많은 연구에서는 self-reflection, self-correction, self-critique와 같은 메커니즘을 사용하여 더 길고 정교한 reasoning chains를 생성합니다. 이러한 발전에 기반하여, multimodal 영역의 최근 노력들은 유사한 방향을 탐색해왔으며, 여기에는 adaptive prompting을 통한 reasoning trajectories의 동적 개선, reasoning annotations의 단계적 개선, 그리고 self-correction 학습을 위해 잘못된 경로와 올바른 경로를 연결하는 Monte Carlo Tree Search (MCTS) 사용 등이 포함됩니다.

이러한 내부 reasoning 전략에 대한 노력 외에도, 최근 연구는 critique generation을 reasoning process로부터 분리하는 외부 feedback 메커니즘을 도입하여 또 다른 패러다임을 탐색했습니다. 이 framework에서 actor model은 명확하고 구조화된 reasoning steps를 생성하고, 독립적인 critic model은 반복적인 상호작용을 통해 feedback을 제공하고 오류를 식별하며 수정을 안내합니다. critic model의 효과는 고품질 critique datasets의 가용성에 달려 있습니다. 그러나 세분화된 수동 annotation은 비용이 많이 들고 시간이 오래 걸립니다. 이 문제를 해결하기 위해 기존 연구에서는 critique datasets를 구축하기 위한 자동화된 방법을 제안했으며, 이는 크게 두 가지 범주로 분류될 수 있습니다.

첫 번째 유형의 방법은 대규모 LLMs(예: GPT-4o)를 사용하여 올바른 reasoning paths를 의도적으로 잘못된 경로로 수정하는 것을 포함합니다. 오류 위치와 유형을 명시적으로 annotating함으로써, annotator model은 이러한 알려진 오류를 직접 대상으로 하는 critiques를 생성할 수 있습니다. 그러나 생성된 오류 경로는 기본 actor model 자체에서 비롯된 것이 아니라 인위적으로 삽입된 것이므로, critic model이 실제 reasoning errors에 적응하는 능력을 제한할 수 있습니다. 두 번째 유형의 방법은 actor model에 의한 반복 sampling과 같은 기술을 통해 올바른 reasoning paths와 잘못된 reasoning paths를 모두 생성한 다음, 포괄적인 evaluation을 위해 전체 reasoning paths를 annotator model에 전달하는 것을 포함합니다. annotator model은 두 개의 전체 reasoning paths를 비교하고 체계적으로 오류를 식별하며 그들 사이의 차이점을 기반으로 critiques를 생성합니다. 그러나 이 접근 방식은 완전한 올바른 reasoning paths와 잘못된 reasoning paths를 비교해야 할 필요성에서 비롯되는 두 가지 주요 문제에 직면합니다. 첫째, 정확한 error detection 및 critique generation을 보장하기 위해 annotator model이 강력한 reasoning 및 evaluation 능력을 가져야 하며, 종종 GPT-4o와 같은 대규모 LLMs에 의존해야 합니다. 둘째, 전체 경로 비교에 초점을 맞춤으로써 이 방법은 특정 단계에서 발생하는 fine-grained reasoning errors를 포착하는 데 어려움을 겪습니다.

이러한 우려를 해결하기 위해, 우리는 수동 annotations 없이 multimodal critique dataset을 구축하기 위한 자동화된 프로세스를 제안합니다. 우리는 MathV360k, ChartQA, M3CoT를 포함한 여러 visual question answering (VQA) datasets를 통합하고, Monte Carlo Tree Search (MCTS)를 통해 actor model을 안내하여 step-by-step reasoning paths를 체계적으로 탐색합니다. 전체 경로 비교에 의존하는 이전 방법들과 달리, 우리의 방법은 MCTS에 의해 생성된 tree structure를 활용합니다. annotator는 분기되는 branches 간의 국소적 차이만 비교하면 되므로 오류를 정확히 찾아내고 step-level corrective feedback을 제공하기가 더 쉽습니다. 이는 기본 actor model보다 더 강력한 외부 models에 대한 의존성을 제거하여 annotation costs를 상당히 줄입니다. 더욱이, 트리 기반 구성은 각 단계에서 reasoning errors와 해당 correction strategies를 포괄적으로 다룰 수 있게 합니다. 이를 바탕으로 우리는 MMC (MCTS-based Multimodal Critique) dataset을 구축합니다. MMC에서 trained된 critic model은 reasoning errors를 효과적으로 식별하고 목표화된 corrective feedbacks를 생성할 수 있습니다.

더 나아가, 우리는 VLMs의 reasoning을 향상시키기 위해 multimodal actor-critic framework를 구축합니다. 이 framework는 함께 작동하는 actor model과 critic model로 구성됩니다: image 및 text inputs를 기반으로 actor model은 step-by-step reasoning paths를 생성하고, critic model은 이를 평가하고 목표화된 feedback을 제공합니다. actor model은 critic model이 만족스러운 feedback을 제공할 때까지 feedback을 기반으로 reasoning paths를 반복적으로 개선합니다. 우리는 여러 공개 benchmark datasets와 주류 VLMs에서 이 framework를 광범위하게 평가합니다. 실험 결과는 이 방법이 복잡한 reasoning 작업에서 VLM 성능을 크게 향상시키고 우수한 generalization ability와 효과를 보여준다는 것을 나타냅니다.

요약하면, 우리의 주요 기여는 다음과 같습니다:

우리는 MCTS 기반의 자동화된 critique generation 방법을 제안하여 MMC dataset을 만들었으며, 이는 수동 annotations 없이 step-level reasoning errors에 대한 fine-grained supervision을 가능하게 합니다.
우리는 multimodal actor–critic framework를 도입했으며, 여기서 actor는 critic model로부터의 corrective feedback을 기반으로 reasoning path를 반복적으로 개선하여 VLM reasoning 성능을 향상시킵니다.
우리는 다양한 주류 VLMs에 걸쳐 여러 공개 multimodal benchmarks에서 광범위한 실험을 수행하여 상당한 성능 향상과 강력한 generalization ability를 입증했습니다.

1 INTRODUCTION 섹션 정리 노트 (AI 연구자 대상)

핵심 문제:

Visual Language Models (VLMs)는 multimodal reasoning 작업에서 hallucinations 및 논리적 오류에 취약하며, 특히 복잡한 reasoning이 필요한 경우 성능 한계를 보임.
기존 reasoning 향상 방법들(CoT, self-reflection/correction/critique)은 여전히 오류 발생 가능성이 있음.
외부 feedback을 활용하는 actor-critic 접근법은 고품질 critique dataset이 필요하나, 수동 annotation은 비용이 높고 기존 자동 생성 방식들은 한계가 있음:
- 인위적인 오류 경로 생성: 실제 actor model의 오류 경향을 반영하지 못할 수 있음.
- 전체 경로 비교 기반 critique: 강력한 외부 annotator model(예: GPT-4o) 의존성이 높고, fine-grained, step-level 오류 포착에 어려움.

이 논문의 제안 및 핵심 기여:

MCTS 기반 자동 Multimodal Critique 데이터셋 (MMC dataset) 구축 방법:
- 핵심 아이디어: Monte Carlo Tree Search (MCTS)를 사용하여 actor model의 step-by-step reasoning paths를 탐색하고 트리 구조를 활용함.
- 차별점: 전체 경로 비교 대신, 공유된 조상 노드에서 분기되는 (diverging) branches 간의 국소적 차이(local differences)만 비교하여 critique 생성.
- 장점:
  - Fine-grained, step-level 오류 식별 및 corrective feedback 생성 용이.
  - 기본 actor model보다 강력한 외부 annotator model에 대한 의존성 제거 → Annotation 비용 절감.
  - 수동 annotation 없이 자동화된 구축 가능.
  - Reasoning errors 및 해당 correction strategies의 포괄적 커버리지 가능.
Multimodal Actor-Critic Framework:
- Actor model은 image/text inputs 기반 reasoning paths 생성.
- Critic model (MMC dataset으로 학습됨)은 생성된 경로를 평가하고 corrective feedback 제공.
- Actor model은 feedback을 바탕으로 reasoning paths를 반복적으로 개선 (iteratively refine).
결과: 제안된 framework가 여러 multimodal benchmark datasets 및 주류 VLMs에서 complex reasoning 성능을 크게 향상시키고 우수한 generalization ability를 보임을 실험적으로 입증.

핵심 요약: 이 연구는 MCTS 트리의 국소적 분기 비교를 통해 fine-grained critique 데이터를 자동 생성하는 새로운 방법을 제안하고, 이를 활용한 actor-critic framework로 VLM의 reasoning 오류를 효과적으로 개선함. 이는 기존 자동 critique 생성 방식의 한계(고비용, fine-grained 오류 포착 어려움)를 극복하는 데 중점을 둠.

쉬운 설명:

Visual Language Models (VLMs)는 이미지와 텍스트를 함께 이해하는 AI인데, 때로는 사실과 다른 내용을 말하거나(hallucination), 복잡한 질문에 답할 때 논리적으로 틀리는 경우가 있습니다. 이런 문제를 해결하기 위해 AI 스스로 생각하는 과정(reasoning steps)을 만들게 하는 방법(Chain-of-Thought 등)도 있지만, 여전히 완벽하지는 않습니다.

최근에는 AI를 두 역할로 나누는 방법이 연구되고 있습니다:

Actor (행동자): 실제로 질문에 답하기 위한 생각의 단계를 만들어내는 AI.
Critic (비평가): Actor가 만든 생각 단계를 보고 잘했는지, 어디가 틀렸는지 평가하고 피드백을 주는 AI.

이 Critic이 똑똑해지려면 좋은 평가 데이터(critique dataset)가 많이 필요합니다. 하지만 사람이 일일이 "이 생각은 여기서 틀렸어"라고 알려주는 건 너무 힘들고 비쌉니다. 그래서 자동으로 평가 데이터를 만들려는 시도들이 있었는데, 기존 방식들은 문제가 좀 있었습니다. 예를 들어, 일부러 틀린 과정을 만들어서 가르치거나, 아니면 정답 과정과 오답 과정을 통째로 비교해야 해서 매우 강력한 AI(GPT-4o 같은)가 필요하고, 아주 세밀한 단계별 실수는 잘 못 잡아냈습니다.

이 논문은 이 평가 데이터를 더 싸고 효과적으로 자동 생성하는 새로운 아이디어를 제안합니다. 바로 Monte Carlo Tree Search (MCTS)라는 방법을 쓰는 건데요, Actor가 생각할 수 있는 여러 경로를 마치 나뭇가지처럼 탐색하게 합니다. 그러다 보면 같은 지점에서 시작했지만 서로 다른 다음 단계를 선택해서 정답과 오답으로 갈라지는 지점이 생깁니다. 이 논문의 핵심은, 이때 전체 경로를 다 비교하는 대신, 딱 그 갈라지는 지점에서의 작은 차이만 비교해서 "여기서 이렇게 생각했어야 해" 또는 "이 부분이 잘못됐어" 라는 평가(critique)를 만들어내는 것입니다.

이렇게 하면 아주 세밀한 단계별 실수를 잡아내기 쉽고, 평가를 위해 엄청 비싼 외부 AI에 의존할 필요도 없어집니다. 이렇게 만든 평가 데이터(MMC dataset)로 Critic을 학습시키고, 이 Critic의 피드백을 받아 Actor가 점점 더 똑똑하게 reasoning 하도록 만드는 전체 시스템(multimodal actor-critic framework)을 구축했습니다. 그 결과, 복잡한 질문에 대한 VLM의 답변 능력이 크게 향상되었다는 것을 보여줍니다.

2 RELATED WORK

2.1 Self-Improving Multi-Step Reasoning

inference 과정에서 추가적인 computational resources를 할당하는 것이 LLMs의 성능을 크게 향상시키는 것으로 나타났습니다. reasoning optimization을 위한 효과적인 접근 방식으로서, CoT 방법은 models이 단계별로 reasoning하도록 안내하며, 복잡한 문제를 구조화된 intermediate steps로 분해하여 인간과 유사한 problem-solving을 모방합니다. 이러한 decomposition은 reasoning process의 coherence와 accuracy를 모두 향상시킵니다. 그러나 multi-step reasoning에서는 intermediate steps에서의 작은 오류라도 전파되어 final answer에서 큰 편차를 초래할 수 있습니다. 전통적인 접근 방식은 주로 전문가가 annotated한 reasoning datasets에 의존하여 models이 step-by-step reasoning patterns를 학습하도록 합니다. 이러한 annotations는 비용이 많이 들고 확장하기 어렵습니다.

이러한 문제를 해결하기 위해, 최근 연구에서는 LLMs를 사용하여 고품질 reasoning data를 자동으로 생성하고 multi-step reasoning capabilities를 향상시키는 방법을 점점 더 많이 탐색하고 있습니다. Atom-Think는 GPT-4를 활용하여 reasoning datasets를 구축하는데, 짧은 thought-chain amplification은 간략한 intermediate steps를 확장하여 더 완전한 reasoning processes를 만들고, dynamic prompting은 final answers만 포함하는 datasets를 상세한 step-by-step reasoning 형식을 갖도록 변환합니다. LLaVA-CoT는 VQA task의 각 단계에서 annotations를 개선하기 위해 GPT-4를 사용하는 4단계 reasoning framework를 도입합니다. inference 중에는 단계별 beam search가 각 reasoning step에서 최적의 candidate path를 선택하여 reasoning process의 stability와 reliability를 향상시킵니다. Agent-R은 Monte Carlo Tree Search (MCTS)를 활용하여 올바른 reasoning trajectories와 잘못된 reasoning trajectories를 모두 생성하고, model이 자신의 reasoning에서 첫 번째 잘못된 단계 (erroneous step)를 식별하여 올바른 경로에 논리적으로 연결 (logically splicing)함으로써 수정하도록 유도합니다. 이 접근 방식은 self-reflection 기능이 있는 긴 사슬의 multi-step reasoning data를 구축하여, supervised fine-tuning을 통해 models이 오류로부터 복구하고 올바른 reasoning paths로 전환하는 방법을 학습할 수 있도록 합니다. 결과적으로 이 방법은 multi-step reasoning models의 robustness와 self-correction abilities를 향상시킵니다.

2.2 External Feedback for Error Correction

내부 reasoning strategies에 대한 노력 외에도, 최근 연구는 외부 feedback 메커니즘을 도입하여 또 다른 패러다임을 탐색했습니다. RL4F는 reasoning LLM의 parameters를 수정하지 않고 RL을 사용하여 critic model을 학습시키는 새로운 framework를 도입합니다. critic model은 natural language feedback을 생성하며, 이는 LLM이 자신의 output을 수정하는 데 사용됩니다. AutoMathCritique는 reasoning 모듈과 criticism 모듈을 분리하여 유사한 접근 방식을 따릅니다. 이는 k-sample sampling, temperature coefficients 증가, error insertion과 같은 방법을 통해 다양한 step-level error paths를 구성합니다. 이러한 error paths는 GPT-4가 해당 step-level critiques를 생성하도록 유도하는 데 사용되며, 이후 대규모 critique dataset을 자동으로 구축하는 데 활용됩니다. 이렇게 trained된 critic model은 수학적 reasoning tasks에 대해 natural language feedback을 제공할 수 있으며, 이를 통해 actor model의 optimization을 supervising합니다. reasoning iterations가 증가함에 따라 actor model의 reasoning은 지속적으로 개선되어 복잡한 reasoning tasks에서의 성능이 향상됩니다.

multimodel 분야에서 Critic-V는 GPT-4를 활용하여 수집된 VQA data에 인위적으로 오류를 삽입하고, 여러 VLMs가 이러한 오류에 대한 critical comments를 생성하도록 합니다. 생성된 critiques의 품질을 평가하기 위해, Rule-based Reward (RBR)는 Jaccard index와 GPT score를 결합하여 critiques의 순위를 매기고 점수를 매깁니다. 이러한 선호도 순위 데이터(preference-ranked data)를 기반으로 Direct Preference Optimization (DPO)을 사용하여 Critic-V를 train하며, 이를 통해 VQA tasks에 대해 더 효과적인 reasoning guidance를 제공하는 고품질 natural language feedback을 생성할 수 있게 됩니다.

2 RELATED WORK 섹션 정리 노트 (AI 연구자 대상)

이 섹션은 본 논문의 접근 방식과 관련된 두 가지 주요 연구 흐름을 요약합니다: Self-Improving Multi-Step Reasoning과 External Feedback for Error Correction.

2.1 Self-Improving Multi-Step Reasoning:

배경: CoT는 LLMs의 multi-step reasoning을 향상시켰지만, 중간 단계 오류 전파 및 고비용 annotation 문제가 있음.
자동 데이터 생성/개선: LLMs(주로 GPT-4)를 활용하여 reasoning data를 자동 생성하거나 개선하려는 연구들이 등장함.
- Atom-Think: 짧은 thought-chain amplification 및 dynamic prompting으로 step-by-step reasoning data 생성.
- LLaVA-CoT: GPT-4를 이용한 단계별 annotation 개선 및 staged beam search 활용 (VQA).
오류 수정 학습: Model이 스스로 오류를 감지하고 수정하도록 학습시키는 방향.
- Agent-R: MCTS를 사용하여 정/오답 reasoning trajectories 생성. Model이 첫 번째 erroneous step을 식별하고 올바른 경로로 logically splicing 하도록 유도하여 self-reflection 데이터를 구축하고 supervised fine-tuning 수행.

2.2 External Feedback for Error Correction:

패러다임: Reasoning 과정과 critique generation을 분리하는 외부 feedback 메커니즘 활용 (actor-critic 구조).
Critic Model 학습 및 활용:
- RL4F: Reasoning LLM 수정 없이 RL로 critic model 학습, natural language feedback 생성하여 LLM의 output 수정 유도.
- AutoMathCritique: k-sample sampling, error insertion 등으로 step-level error paths 생성 → GPT-4로 step-level critiques 생성 → 대규모 critique dataset 구축 → Trained critic이 natural language feedback 제공하여 actor model optimization 지도 (수학 reasoning).
- Critic-V: GPT-4로 VQA data에 인위적 오류 삽입 → 여러 VLMs가 critical comments 생성 → RBR(Jaccard index + GPT score)로 critique 품질 평가 및 랭킹 → Preference-ranked data 기반 DPO로 Critic-V 학습 (multimodal).

본 논문과의 연관성:

위 연구들은 reasoning 향상을 위해 자동 데이터 생성, MCTS, 외부 feedback 등을 활용함.
그러나 여전히 강력한 외부 LLM(GPT-4)에 대한 의존성, 인위적 오류 생성 방식, 전체 경로 비교의 한계(fine-grained 오류 포착 어려움) 등의 이슈가 존재함.
본 논문은 이러한 배경 하에, MCTS를 활용하되 국소적 분기점 비교를 통해 외부 model 의존성을 줄이고 fine-grained critique를 효율적으로 자동 생성하는 방법 (MMC dataset) 및 이를 활용한 multimodal actor-critic framework를 제안함으로써 기존 연구들의 한계를 해결하고자 함.

쉬운 설명:

AI가 사람처럼 단계별로 생각(reasoning)하며 복잡한 문제를 풀게 하려는 연구들이 많습니다. 이 섹션에서는 관련 연구들을 두 가지 방향으로 나누어 설명합니다.

1. AI 스스로 생각하는 능력을 키우는 연구:

처음에는 AI에게 생각하는 과정을 단계별로 보여주는 방법(CoT)을 썼지만, 중간에 한 번 실수하면 결과가 완전히 틀어지거나, 좋은 예시를 많이 만들어주기 어려운 문제가 있었습니다.
그래서 요즘에는 더 똑똑한 AI(LLM인 GPT-4 같은)를 이용해서 자동으로 생각하는 과정 예시를 만들거나 다듬는 연구를 합니다. 예를 들어, AI가 짧게 생각한 것을 더 자세하게 풀어주거나, 답만 있는 데이터에 생각 과정을 만들어 넣는 식입니다.
또 다른 방법은 AI가 스스로 실수한 부분을 찾아서 고치도록 가르치는 것입니다. 예를 들어, AI가 여러 가지 생각 경로(MCTS 사용)를 탐색하게 한 뒤, 잘못된 길로 들어선 첫 번째 지점을 찾아내서 올바른 길로 다시 이어붙이는 연습을 시키는 방식입니다.

2. 외부 선생님(AI)이 피드백을 주는 연구:

문제를 푸는 학생 AI(actor)와, 그 과정을 지켜보며 피드백을 주는 선생님 AI(critic)를 따로 두는 방법입니다.
선생님 AI는 학생 AI가 쓴 답안을 보고 "이 부분은 이렇게 고쳐야 해" 와 같이 자연스러운 말로 피드백을 줍니다.
이 선생님 AI를 똑똑하게 만들기 위해, 강화학습(RL)을 사용하거나, 많은 좋은 생각 과정과 나쁜 생각 과정을 비교 분석하도록 학습시킵니다. 이때 좋은/나쁜 생각 과정 예시를 만들거나 평가하기 위해 GPT-4 같은 강력한 AI를 활용하기도 합니다. 이런 방식은 수학 문제 풀이나 이미지 관련 질문 답변(VQA) 등 다양한 분야에 적용되고 있습니다.

이 논문은 이런 기존 연구들을 바탕으로, 특히 외부 선생님 AI가 피드백을 주기 위해 필요한 평가 데이터를 만드는 더 효율적이고 저렴한 방법을 제안합니다.

3 METHOD

Figure 1에 제시된 바와 같이, 우리는 두 가지 핵심 구성 요소로 이루어진 multimodal actor-critic framework를 구축합니다: image-question inputs에 기반하여 step-by-step reasoning paths를 생성하는 actor model과, 각 reasoning steps를 평가하고 corrective feedback을 제공하는 critic model입니다. actor model은 critic model이 reasoning outcome이 만족스럽다고 판단할 때까지 feedback을 기반으로 반복적으로 reasoning을 개선합니다. critic model을 training하는 데 있어 핵심적인 어려움은 비용이 많이 드는 수동 annotations에 의존하지 않고 critique quality에 대한 fine-grained supervision을 확보하는 데 있습니다. 이를 위해 Figure 2에 설명된 대로 MMC dataset을 구축하기 위한 자동화된 접근 방식을 도입합니다. 자세한 내용은 다음 섹션에서 상세히 설명합니다.

3.1 Reasoning Path Collection with MCTS

VLM이 각 단계에서 마주칠 수 있는 다양한 유형의 reasoning errors를 포착하기 위해, 우리는 MCTS를 사용하여 step-wise reasoning paths를 수집합니다. 이 접근 방식은 가능한 reasoning paths의 체계적인 탐색을 가능하게 하여 다양성 (exploration)과 품질 (exploitation) 사이의 균형을 맞춥니다. 우리는 actor model을 로 표기하며, 이는 pretrained VLM에서 초기화됩니다. multimodal question input 가 주어졌을 때 — 여기서 는 텍스트 구성 요소(단계별 reasoning을 장려하기 위해 특별히 설계된 prompt 포함)를 나타내고 는 visual input을 나타냅니다 — actor model은 final answer를 향해 intermediate reasoning steps의 sequence를 autoregressively하게 생성합니다: 여기서 각 intermediate step 는 최대 30개의 tokens로 제한되며 MCTS 기반 iterative exploration의 기본 단위 역할을 합니다. MCTS에 의해 구축된 tree structure에서, -번째 레벨의 node는 로 표현되며, 여기서 는 root에서 node 까지의 partial reasoning path를 나타내고, 는 visit count이며, 는 해당 node의 estimated value입니다. 이 structure는 search process 전반에 걸쳐 step-wise reasoning variations의 fine-grained tracking을 용이하게 합니다. response quality를 유지하면서 diversity를 증진하기 위해 고정된 temperature를 적용합니다. MCTS의 각 iteration은 네 가지 핵심 단계로 구성됩니다: selection, expansion, simulation, backpropagation.

Selection. selection 단계는 root node (초기 상태 로 표기)에서 시작하여, 현재 node 의 children 중에서 가장 높은 estimated value를 기반으로 다음 node 를 재귀적으로 선택합니다: 여기서 는 의 개 candidate child nodes 집합을 나타내고, 는 node 와 관련된 value estimate를 나타냅니다.

Expansion. selection 단계에서 leaf node 가 선택되면, expansion 단계는 actor model 로부터 개의 candidate next steps를 생성합니다. 각 candidate step은 현재 partial reasoning path 로부터 sampled되고, 최대 개의 tokens 길이로 잘립니다. 이는 다음과 같은 child nodes 집합을 생성합니다: 여기서 각 는 step-level continuation을 나타냅니다. sampled된 continuations는 이후 의 새로운 child nodes로서 search tree에 추가됩니다.

Simulation. simulation 단계에서는 새로 expanded된 각 child node 를 평가하여 해당 estimated value 를 얻습니다. 구체적으로, partial reasoning path 에서 시작하여, end-of-sequence token에 도달하거나 미리 정의된 최대 token 길이를 초과할 때까지 나머지 단계들을 autoregressively하게 생성합니다. 이 rollout process는 고정된 sampling settings 하에서 번 반복되며, 결과적으로 으로 표기되는 complete reasoning paths 집합을 얻습니다. 생성된 각 reasoning path에 대해, predicted answer를 ground-truth answer와 비교하여 일치하면 1, 그렇지 않으면 0의 binary score를 할당합니다. node 의 estimated value는 번의 rollouts에 대한 평균 점수로 정의됩니다: 여기서 는 indicator function, 는 reasoning path로부터 예측된 answer를 나타내며, 는 ground-truth answer입니다.

Backpropagation. expanded nodes를 평가한 후, 이들의 estimated values는 traversal path를 따라 backpropagated되어 조상 nodes ()의 visit counts와 value scores를 업데이트합니다. 업데이트는 다음 방정식을 사용하여 수행됩니다: 여기서 와 는 backpropagation 이전의 node 의 이전 visit count와 value score를 나타내고, 는 simulation 단계에서 얻은 value입니다.

iteration은 선택된 node가 end-of-sequence token을 포함하거나 최대 token 길이를 초과할 때 종료됩니다.

3.2 Critique Generation via Comparison

step-level critiques를 생성하기 위해, Figure 2의 Stage 2에 설명된 대로 MCTS에 의해 구축된 reasoning tree의 structural information을 활용합니다.

각 tree에 대해, 먼저 고품질 reference reasoning path—구체적으로, MCTS policy 하에서 최종적으로 선택되고 올바른 final answer로 이어지는 complete path—를 선택합니다. 그런 다음, 잘못된 final answer를 초래하는 각 reasoning path에 대해, reference path와의 last common ancestor node를 식별합니다. 이 node는 두 paths가 여전히 일치하는 가장 최근의 reasoning state에 해당합니다. 그 지점부터 잘못된 경로는 올바른 경로에서 벗어납니다; 우리는 올바른 분기를 path A로, 잘못된 분기를 path B로 표기합니다.

MCTS를 통해 구축된 step-wise reasoning paths 덕분에, 우리의 framework는 annotator model이 path A와 path B만 비교하여 natural language critique를 생성하도록 요구합니다. 이 localized comparison은 critique generation의 어려움을 상당히 낮추어, 상대적으로 약한 models조차 의미 있는 feedback을 생성할 수 있게 합니다. critique data가 GPT-4o와 같은 더 강력한 models의 reasoning outcomes를 증류(distilling)하는 것을 방지하기 위해, 우리는 actor model 자체가 annotator 역할을 하는 self-annotation setup을 채택합니다. annotator는 원래 질문에 직접 답하는 대신, 특정 reasoning mistake를 식별하고 설명하는 데만 집중하도록 지시받습니다. 목표는 actor model이 올바른 경로를 향해 reasoning path를 반복적으로 개선 (iteratively refine)하도록 안내하는 목표화된 corrective feedback을 생성하는 것입니다.

이 프로세스를 기반으로, 우리는 MMC dataset을 구축하며, 각 sample은 multimodal question input, reasoning path, binary correctness score, 그리고 critique text로 구성되고, 로 표기됩니다. 올바른 final answer로 이어지는 reasoning paths에 대해서는 critique text를 "No corrections needed."로 표준화하여 positive examples로 사용합니다. 자세한 내용은 Appendix에서 확인할 수 있습니다.

3.3 Critique Data Filtering

생성된 critiques의 품질과 유용성을 보장하기 위해, 우리는 actor model이 자신의 reasoning을 수정하는 데 도움이 되는 능력에 기반한 자동 filtering strategy를 채택합니다.

Figure 2의 Stage 3에 표시된 대로, 각 negative sample에 대해, 해당 critique text를 사용하여 원래의 잘못된 reasoning path를 개선하도록 actor model에 prompt합니다. 구체적으로, actor model은 triplet 를 input으로 받아 고정된 sampling settings 하에서 10개의 refined answers를 생성합니다. 각 refined answer는 ground-truth answer와 비교하여 prediction이 올바른지 여부를 결정합니다. 올바른 개선 (correct refinements)의 수가 미리 정의된 threshold 보다 크거나 같으면, 해당 critique sample은 효과적인 것으로 간주되어 dataset에 유지됩니다; 그렇지 않으면 폐기됩니다.

3.4 Training the Critic Model

우리는 MMC dataset을 사용하여 critic model 를 fine-tune합니다.

Language Modeling Loss. critique generation을 supervise하기 위해, 표준 cross-entropy loss로 학습된 language modeling head를 사용합니다: 여기서 는 target critique 의 -번째 token이고, 는 critic model의 parameters를 나타냅니다.

Score Prediction Loss. 우리의 critic model이 actor model에 의해 생성된 responses의 quality를 더 잘 평가할 수 있도록, Outcome Reward Model (ORM)에서 영감을 받은 설계를 통합합니다. 구체적으로, critic model에 score head를 추가하며, 이는 각 token에 대해 스칼라(scalar)를 출력하는 multi-layer perceptron (MLP)으로 구현됩니다. 마지막 token에서의 scalar prediction은 주어진 response의 estimated correctness로 사용됩니다. 우리는 binary cross-entropy loss를 사용하여 score prediction을 supervise합니다: 여기서 는 예측된 scalar score를 나타내고 는 ground-truth label입니다.

Overall Objective. 전체 training objective는 language modeling loss와 score prediction loss의 가중 합(weighted sum)입니다: 여기서 는 두 loss terms의 균형을 맞추는 hyperparameter입니다.

3.5 Iterative Inference with the Actor–Critic Framework

inference time에는 iterative actor–critic framework를 채택하며, 여기서 actor model은 critic으로부터의 feedback을 기반으로 점진적으로 자신의 output을 refines합니다. 프로세스는 actor가 step-by-step reasoning을 생성하는 것으로 시작합니다. 각 iteration에서, critic은 scalar score 를 할당하고 natural language critique 를 생성하여 reasoning을 evaluates합니다. 그러면 actor는 그에 따라 자신의 reasoning을 updates합니다. actor와 critic에 사용되는 prompt templates는 Figure 3에 설명되어 있습니다.

이 iterative process는 critic model에 의해 answer가 만족스럽다고 간주될 때까지, 즉 scalar score 가 미리 정의된 threshold 를 초과할 때까지 계속됩니다. 우리는 이 iterative procedure를 Algorithm 1에서 공식화합니다.

3 METHOD 섹션 정리 노트 (AI 연구자 대상)

이 섹션에서는 제안하는 multimodal actor-critic framework와 핵심 구성 요소인 MMC dataset 생성 및 활용 방법을 상세히 기술합니다.

핵심 Framework:

구조: Multimodal actor-critic framework (Figure 1).
- Actor Model (, pretrained VLM 기반): Image-question inputs ()을 받아 step-by-step reasoning paths () 생성.
- Critic Model (): Reasoning steps 평가 및 corrective feedback () / 점수 () 제공.
동작: Actor가 reasoning 생성 → Critic이 평가/피드백 제공 → Actor가 피드백 기반으로 reasoning 개선 → Critic이 만족할 때까지 반복.
주요 과제: Fine-grained critique 생성을 위한 supervision 확보 (수동 annotation 회피).

3.1 MCTS를 이용한 Reasoning Path 수집:

목적: VLM의 다양한 step-wise reasoning errors 포착 및 체계적 경로 탐색 (exploration/exploitation 균형).
과정: 표준 MCTS (Selection, Expansion, Simulation, Backpropagation) 적용.
- Node: .
- Simulation: 번의 rollouts () 실행 후 ground-truth()와 비교하여 node value 추정 (Equation 4).
- Backpropagation: 및 업데이트 (Equations 5, 6).
결과: Reasoning 과정을 나타내는 트리 구조 생성.

3.2 비교를 통한 Critique 생성 (핵심 기여):

아이디어: MCTS 트리 구조 활용 (Figure 2, Stage 2).
프로세스:
1. 정답으로 이어진 고품질 reference reasoning path 선정.
2. 오답 경로에 대해, reference path와의 last common ancestor node 식별.
3. 해당 노드 이후 분기된 올바른 branch (path A)와 잘못된 branch (path B) 국소적 비교 (Localized comparison).
4. Self-annotation setup: Actor model 자체가 annotator 역할 수행. path A와 path B를 비교하여 reasoning mistake를 설명하는 natural language critique () 생성. (→ GPT-4o 등 외부 강력한 모델 의존성 제거, 비용 절감).
데이터셋 구축: MMC dataset 샘플 생성. 정답 경로는 critique="No corrections needed."로 처리 (positive examples).

3.3 Critique 데이터 필터링:

목적: 생성된 critiques의 품질 및 유용성 보장 (Figure 2, Stage 3).
방법:
1. Negative sample ()에 대해, actor model이 critique()를 참고하여 10개의 refined answers 생성.
2. Refined answers를 와 비교.
3. 정답 개선 횟수가 임계값 () 이상인 경우 해당 critique sample 유지, 아니면 폐기.

3.4 Critic Model 학습:

목표: MMC dataset으로 critic model () fine-tune.
Loss 함수:
- Language Modeling Loss (): Critique text () 생성을 위한 표준 cross-entropy loss (Equation 7).
- Score Prediction Loss (): Response의 정답 여부 예측 (ORM 영감). MLP score head가 예측한 스칼라 값()에 대한 binary cross-entropy loss (Equation 8).
- Overall Objective: (Equation 9).

3.5 Actor–Critic Framework를 이용한 반복적 Inference:

프로세스: (Figure 3, Algorithm 1 참조)
1. Actor가 step-by-step reasoning 생성.
2. Critic이 reasoning 평가 → 점수 및 critique 생성.
3. Actor가 를 참조하여 reasoning 업데이트.
4. Critic의 점수 가 임계값 를 넘을 때까지 반복.

핵심 요약: 이 방법론은 MCTS를 활용해 reasoning 경로를 탐색하고, 특히 국소적 경로 비교와 self-annotation을 통해 외부 모델 의존 없이 fine-grained critique 데이터를 효율적으로 생성(MMC dataset)하는 데 중점을 둡니다. 생성된 데이터는 유효성 필터링을 거쳐 critic model 학습에 사용되며, 학습된 critic은 inference 시 actor와의 반복적 상호작용을 통해 reasoning 성능을 개선합니다.

쉬운 설명:

여기서는 AI가 이미지와 질문을 보고 단계별로 생각해서 답을 찾는 과정을 어떻게 개선하는지 설명합니다. 마치 학생(actor)과 선생님(critic) AI가 함께 문제를 푸는 것과 같습니다.

1. 다양한 생각 경로 찾아보기 (MCTS 사용):

먼저, 학생 AI가 문제를 풀 때 어떤 식으로 생각할 수 있는지, 그리고 어떤 실수들을 할 수 있는지 알아보기 위해 여러 가지 가능한 생각의 길(경로)을 탐색합니다. 마치 미로 찾기처럼 다양한 길을 시도해보는 MCTS라는 방법을 사용합니다. 이렇게 하면 학생 AI가 흔히 저지르는 실수 패턴을 파악할 수 있습니다.

2. 실수 피드백 만들기 (가장 중요한 부분):

이제 선생님 AI가 학생 AI에게 줄 피드백(어디가 틀렸는지 알려주는 설명, critique)을 만들어야 합니다. 기존에는 사람이 직접 만들거나 아주 똑똑한 외부 AI(GPT-4o 같은)의 도움을 받아야 해서 비쌌습니다.
이 논문의 핵심 아이디어는 다음과 같습니다:
- 미로(생각 경로)에서 정답 길과 오답 길을 찾습니다.
- 두 길이 갈라지는 지점(마지막으로 생각이 같았던 지점)을 찾습니다.
- 전체 길을 비교하는 대신, 딱 그 갈라진 지점 이후의 짧은 부분만 비교해서 어디서부터 생각이 잘못됐는지 찾아냅니다.
- 더욱 독특한 점은, 이 비교와 실수 설명을 외부 AI가 아닌, 학생 AI 스스로에게 시킨다는 것입니다 (self-annotation). 학생 AI가 자신의 잘못된 생각과 올바른 생각을 비교하며 "아, 여기서 이렇게 생각했어야 했구나!" 하고 스스로 깨닫고 설명하게 만드는 방식입니다. 이렇게 하면 비싼 외부 AI 없이도 저렴하게 피드백 데이터를 만들 수 있습니다.
이렇게 만든 피드백 데이터를 MMC dataset이라고 부릅니다.

3. 쓸모있는 피드백만 골라내기:

AI가 스스로 만든 피드백이 항상 유용하지는 않을 수 있습니다. 그래서 만든 피드백이 실제로 학생 AI의 실수를 고치는 데 도움이 되는지 확인합니다.
학생 AI에게 "이 피드백을 보고 다시 풀어봐"라고 시킵니다. 몇 번 시도해서 피드백 덕분에 정답을 맞히는 횟수가 일정 기준(예: 10번 중 3번 이상)을 넘으면 그 피드백은 "쓸모있다"고 판단하고 남겨둡니다. 그렇지 않으면 버립니다.

4. 선생님 AI 훈련시키기:

이렇게 골라낸 좋은 피드백 데이터(MMC dataset)를 사용해서 선생님 AI(critic)를 훈련시킵니다.
선생님 AI는 두 가지를 배웁니다:
- 학생 AI의 생각 과정이 맞는지 틀린지 점수 매기는 법.
- 틀렸을 경우, 어떤 부분이 어떻게 틀렸는지 설명해주는 피드백(critique)을 생성하는 법.

5. 함께 문제 풀기 (실제 사용):

실제 문제를 풀 때는 학생 AI와 훈련된 선생님 AI가 협력합니다.
1. 학생 AI가 생각 과정을 단계별로 보여줍니다.
2. 선생님 AI가 보고 점수를 매기고, 틀린 부분이 있으면 피드백을 줍니다.
3. 학생 AI는 피드백을 보고 생각 과정을 수정합니다.
4. 선생님 AI가 "이제 만족스럽다"고 높은 점수를 줄 때까지 이 과정을 반복합니다.

이렇게 해서 AI가 더 정확하고 논리적으로 생각하는 능력을 키우는 것이 이 방법론의 목표입니다.

정답과 오답이 달라지는 부분을 기점으로 Critic을 학습. 어떤 차이가 있는지.

그걸 데이터 셋으로 활용해서 오답 -> Critic으로 활용 그리고 점수도 함께 활용

암튼 그걸로 학습을 해서

인퍼런스때는 step 마다 Critic 모델을 사용해서 점수를 측정하고 기준미달 점수에 대해서는 Critic을 생성해서 올바른 답변 유도