VLM : 논문 리뷰 : MUTUAL REASONING MAKES SMALLER LLMS STRONGER PROBLEM-SOLVERS

논문리뷰

VLM : 논문 리뷰 : MUTUAL REASONING MAKES SMALLER LLMS STRONGER PROBLEM-SOLVERS

AI바라기 2025. 4. 23. 21:47

rStar 논문 학습 노트

용어 설명

SLM (Small Language Model): GPT-4 같은 거대 언어 모델(LLM)보다 파라미터 수가 적은 언어 모델. (e.g., LLaMA2-7B, Mistral-7B)
rStar (Self-play muTuAl Reasoning): 본 논문에서 제안하는, fine-tuning이나 우수한 teacher model 없이 SLM의 추론 능력을 향상시키는 self-play 기반 상호 추론 프레임워크.
Self-play: 게임 AI 등에서 주로 사용되는 방식으로, 모델이 스스로와 상호작용하며 학습하거나 성능을 개선하는 방법. 여기서는 generation과 discrimination 단계로 구현됨.
Mutual Reasoning / Mutual Consistency: 두 개의 유사한 능력을 가진 SLM이 서로의 추론 결과를 검증하고, 일치하는 경우 더 신뢰하는 메커니즘. Supervision 없이 peer verification을 통해 정답 가능성을 높임.
Generation-Discrimination Process: rStar의 핵심 구조. 한 SLM(generator)이 MCTS를 이용해 추론 경로 후보들을 생성하고, 다른 SLM(discriminator)이 Mutual Consistency를 통해 이 경로들을 검증하는 과정.
MCTS (Monte Carlo Tree Search): 탐색 공간에서 최적의 결정을 내리기 위해 사용하는 tree search 알고리즘. 여기서는 추론 경로 (reasoning trajectory)를 생성하는 데 사용됨.
Rich set of reasoning actions (A1-A5): MCTS 탐색 시 SLM이 취할 수 있는 다양한 행동 정의. (A1: 한 단계 생각 제안, A2: 남은 생각 완성, A3: 하위 질문과 답변 제안, A4: 하위 질문 재답변, A5: 질문 재구성) 기존 방식들보다 풍부한 탐색을 가능하게 함.
Rollout: MCTS에서 tree를 확장하고 시뮬레이션하는 과정. 여러 rollout을 통해 다양한 추론 경로를 탐색.
Self-Consistency (SC): 동일한 질문에 대해 여러 번 답변을 생성하고, 가장 많이 나온 답변을 최종 답변으로 선택하는 기법. (Baseline으로 사용됨)
RAP (Reasoning As Planning): World model과 planning 개념을 사용하여 LLM의 추론을 개선하려는 기존 연구. MCTS를 사용하지만 주로 하위 질문 생성(A3와 유사)에 초점을 맞춤. (Baseline으로 사용됨)
ToT (Tree of Thoughts): LLM이 문제 해결을 위해 다양한 생각 경로를 탐색하고 평가하는 트리 구조의 추론 방식. (Baseline으로 사용됨)
Trajectory: 문제 해결을 위한 일련의 추론 단계 (생각의 흐름).

Purpose of the Paper

기존 연구 한계 극복:
- SLM은 복잡한 reasoning 문제 해결 능력이 부족하며, 기존 self-improvement 방법들은 SLM에 효과적이지 않음 (특히 탐색 공간 비효율성, 좋은 추론 단계 식별의 어려움).
- 대부분의 성능 향상 기법은 fine-tuning이나 GPT-4 같은 우수한 teacher model의 supervision(distilled data)에 의존함.
새로운 접근 방식 제시: Fine-tuning이나 외부 teacher model 없이, SLM 자체 능력만을 활용하여 inference 단계에서 reasoning 성능을 극대화하는 Self-play mutual reasoning (generation-discrimination) 프레임워크 제안.

Key Contributions & Novelty

rStar 프레임워크 제안:
- Contribution: SLM 추론을 self-play 기반의 generation과 discrimination 단계로 분리.
- Novelty: Supervision 없이 두 개의 SLM이 상호작용하며 추론 능력을 향상시키는 새로운 inference-time 접근법.
Rich Action Space 기반 MCTS Generator:
- Contribution: MCTS 탐색 시, 인간의 다양한 문제 해결 방식(단계별 사고, 질문 분해, 재구성 등)을 모방한 5가지 reasoning action (A1-A5) 도입.
- Novelty: 기존 MCTS 기반 추론 방식(e.g., RAP)의 단일 action 한계를 넘어, 더 넓고 효과적인 탐색 공간 제공.
SLM-tailored Reward Function:
- Contribution: 중간 단계에 대한 self-reward를 배제하고, 최종 정답 도출에 대한 기여도 (self-consistency 기반 likelihood)만을 back-propagate하여 reward 계산.
- Novelty: SLM의 불안정한 자체 평가(self-evaluation) 능력에 의존하지 않고, 외부 supervision이나 별도의 reward model 없이 효과적인 reward 신호 제공.
Mutual Consistency 기반 Discriminator:
- Contribution: 별도의 유사 SLM을 discriminator로 사용하여, generator가 생성한 reasoning trajectory의 일부를 hint로 제공하고 나머지를 완성하게 하여 결과 일치 여부 검증.
- Novelty: Supervision 없이 peer verification 개념을 도입하여 생성된 trajectory의 신뢰도를 평가하고, 효과적으로 정답 trajectory 선별.

Experimental Highlights

Datasets & Models: GSM8K, GSM-Hard, MATH, SVAMP, StrategyQA 등 5개 reasoning benchmark / LLaMA2-7B, Mistral-7B, LLaMA3-8B 등 5개 SLM 대상 평가.
Significant Performance Gains:
- 모든 SLM과 task에서 기존 baseline(Few-shot CoT, SC, ToT, RAP) 대비 state-of-the-art 수준의 비약적인 성능 향상 달성.
  - 예: LLaMA2-7B GSM8K Acc. 12.51% → 63.91%
  - 예: Mistral-7B GSM8K Acc. 36.46% → 81.88%
  - 예: LLaMA3-8B-Instruct GSM8K Acc. 74.53% → 91.13%
- Domain-specialized fine-tuning (SFT) 모델과 필적하거나 능가하는 성능 시현 (Figure 1).
Ablation Study Insights:
- Rich action set (A1-A5)과 Mutual Consistency 메커니즘 각각의 효과 및 중요성 입증 (Table 1, Table 5).
- SLM의 self-evaluation은 reward 신호로 부적합하며, 오히려 성능 저하 유발 가능성 확인 (Table 4, Appendix A.1).
- 적은 MCTS rollout (e.g., 2회)만으로도 상당한 성능 향상 가능 (Figure 5).
- 강력한 discriminator 모델(e.g., GPT-4) 사용 시 약간의 성능 향상만 있어, Mutual Consistency 메커니즘 자체가 효과적임을 시사 (Table 5 Right).

Limitations and Future Work

Inference Cost:
- Limitation: MCTS 기반으로 다수의 rollout (e.g., 32회)이 필요하여 inference 시간 및 계산 비용이 증가함 (Table 7).
- Future Work: Rollout 수 최적화, batching 및 병렬 처리 기법 적용, discriminator 효율화 등을 통해 비용 절감 방안 모색.
Discriminator Strategy:
- Limitation: 현재는 비교적 간단한 Phi3-Mini를 discriminator로 사용하며, masking 기반의 consistency check만 수행.
- Future Work: 더 정교한 discriminator 모델 또는 verification 전략 탐색, generator와 discriminator 간의 최적 조합 및 상호작용 방식 연구.
Task Generalization:
- Limitation: 주로 수학 및 상식 추론 benchmark에서 검증됨.
- Future Work: 더 광범위한 reasoning task (e.g., 창의적 글쓰기, 코드 생성) 및 domain으로 확장하여 rStar의 일반화 성능 검증.

Overall Summary

rStar는 fine-tuning이나 외부 teacher model 없이 SLM의 내재된 추론 능력을 inference 시점에 극대화하는 혁신적인 self-play mutual reasoning 프레임워크이다. 풍부한 action set을 가진 MCTS generator와 mutual consistency 기반의 discriminator를 통해, 여러 SLM과 reasoning benchmark에서 state-of-the-art 성능을 달성했다. 이는 SLM이 적절한 guidance만 있다면 복잡한 문제 해결 능력을 발휘할 수 있음을 보여주며, SLM 활용 가능성을 넓혔다는 점에서 중요한 의미를 가진다. 다만, MCTS 기반으로 인한 inference 비용 증가는 향후 개선 과제이다.

쉬운 설명

rStar는 똑똑한 학생 두 명(SLM 두 개)이 어려운 수학 문제를 푸는 방식과 비슷합니다. 한 학생(generator)이 여러 가지 방법으로 문제를 풀어보면서 중간 과정을 계속 생각합니다 (단순 계산뿐 아니라, 문제를 쪼개보거나 질문을 바꿔 생각해보는 등 다양한 action 시도). 그리고 다른 학생(discriminator)에게 "내가 여기까지 이렇게 풀었는데, 계속 이렇게 풀어도 괜찮을까?"라고 물어봅니다. 다른 학생이 자기가 생각한 방향과 일치한다고 확인해주면 (mutual consistency), 그 풀이 방법이 맞을 확률이 높다고 보고 계속 진행하거나 최종 답으로 선택하는 방식입니다. 선생님(teacher model이나 fine-tuning 데이터) 없이 학생들끼리 서로 도와가며 문제를 더 잘 풀게 되는 원리입니다.

ABSTRACT

이 논문은 fine-tuning이나 superior models 없이 small language models (SLMs)의 reasoning 능력을 크게 향상시키는 self-play mutual reasoning 접근법인 rStar를 소개합니다.

rStar는 reasoning을 self-play mutual generation-discrimination process로 분리합니다. 첫째, target SLM은 Monte Carlo Tree Search (MCTS)를 풍부한 인간과 유사한 reasoning actions 세트로 강화하여 더 높은 품질의 reasoning trajectories를 구성합니다. 다음으로, target SLM과 유사한 능력을 가진 다른 SLM이 discriminator 역할을 하여 target SLM에 의해 생성된 각 trajectory를 verify합니다.

mutually agreed된 reasoning trajectories는 mutual consistent하다고 간주되므로, 더 정확할 가능성이 높습니다. 다섯 개의 SLMs에 걸친 광범위한 실험은 rStar가 GSM8K, GSM-Hard, MATH, SVAMP, StrategyQA를 포함한 다양한 reasoning problems를 효과적으로 해결할 수 있음을 보여줍니다.

특히, rStar는 LLaMA2-7B의 GSM8K accuracy를 12.51%에서 63.91%로, Mistral-7B의 경우 36.46%에서 81.88%로, LLaMA3-8B-Instruct의 경우 74.53%에서 91.13%로 향상시킵니다. Code는 이곳에서 제공될 예정입니다.

1 INTRODUCTION

성공에도 불구하고, large language models (LLMs)는 복잡한 reasoning에서 상당한 도전에 직면합니다. 예를 들어, Mistral-7B와 같은 state of the art models는 Chain-of-Throught (CoT)와 같은 기술을 사용하더라도 GSM8K dataset에서 36.5%의 accuracy만 달성할 수 있습니다. 비록 fine-tuning이 reasoning 능력을 향상시키는 효과적인 방법으로 나타났지만, 대부분의 LLMs는 GPT-4와 같은 superior models에 의해 증류되거나 합성된 fine-tuning data에 의존합니다. 한편, 커뮤니티는 보완적이면서도 더 도전적인 접근 방식, 즉 superior teacher LLM 없이 reasoning을 개선하는 방법에 대해 활발히 연구해 왔습니다. superior models 없이 reasoning을 개선하기 위한 유망한 패러다임은 LLMs 자체 내의 지식을 활용하는 것입니다. 예를 들어, RAP는 self-rewarded feedback을 통해 LLM의 reasoning performance를 반복적으로 개선하기 위해 self-exploration 솔루션을 채택합니다. 불행히도, 연구에 따르면 이 패러다임은 종종 두 가지 근본적인 문제로 어려움을 겪습니다.

첫째, LLMs는 종종 reasoning 중에 solution space를 효과적으로 explore하는 데 어려움을 겪습니다. self-exploration은 많은 시도 후에도 낮은 품질의 reasoning steps가 있는 solution space에 갇히는 경우가 많습니다. 예를 들어, 우리의 실험에 따르면 RAP를 사용한 32 라운드의 self-exploration 후에도 LLaMA2-7B가 GSM8K에서 생성한 trajectories 중 단 24%만이 정확했습니다. 둘째, self-exploration이 고품질 reasoning steps를 찾을 수 있더라도, SLMs가 어떤 reasoning steps이 더 높은 품질인지 구별하거나 어떤 final answers가 정확한지 판단하기 어려워 self-exploration을 효과적으로 안내하기 어렵습니다. 우리의 연구는 순진한 reward-based self-exploration 안내가 무작위 추측보다 나을 것이 없는 결과를 초래할 수 있음을 보여줍니다 (Appendix A.1 참조).

더 골치 아픈 사실은 위의 두 문제가 LLMs의 더 작은 버전, 즉 SLMs에서 그들의 약한 능력 때문에 더 두드러진다는 것입니다. 예를 들어, GPT-4는 self-refining its output을 통해 개선될 수 있지만, 이러한 접근 방식은 SLMs에서는 덜 효과적이며 심지어 더 나쁜 performance로 이어질 수도 있습니다. 이는 neural language models의 채택을 상당히 저해합니다.

이 논문은 fine-tuning이나 superior models 없이 inference 중에 SLMs의 reasoning capability를 향상시키는 새로운 접근 방식인 Self-play muTuAl Reasoning (rStar)를 소개합니다. 앞서 언급한 문제를 해결하기 위해 rStar는 Fig. 2에 설명된 대로 reasoning을 self-play mutual generation-discrimination process로 분리합니다. 구체적으로, rStar는 다음과 같은 접근 방식에서 독특합니다. 첫째, SLMs가 reasoning steps를 self-generate하기 위해 전통적인 Monte Carlo Tree Search (MCTS)에 의존하지만, rStar는 self-exploration에서 더 풍부한 reasoning actions 세트를 옹호합니다. 새롭게 제안된 actions는 현재 reasoning state가 주어졌을 때 인간의 reasoning 행동을 시뮬레이션합니다. 예를 들어, 특정 reasoning step을 decomposing하고 searching하거나, 새로운 sub-question을 제안하거나, 주어진 질문을 rephrasing하는 것과 같습니다. 이를 통해 SLMs는 self-exploration 중에 high-quality candidate reasoning trajectories를 생성할 수 있습니다. 둘째, 생성된 reasoning trajectories 사이에서 exploration을 효과적으로 안내하기 위해, rStar는 MCTS process를 mutual consistency라는 새로운 discrimination process로 강화합니다. 특히, rStar는 비슷한 능력을 가진 두 번째 SLM을 discriminator로 사용하여 MCTS에 의해 생성된 각 candidate reasoning trajectory에 대한 unsupervised feedback을 제공합니다. feedback의 accuracy를 향상시키기 위해 rStar는 두 번째 SLM에게 sampled partial reasoning trajectories로 힌트를 주고 나머지 reasoning steps를 완료하도록 요청합니다. 그리고 rStar는 mutually agreed reasoning trajectories를 더 높은 품질로 간주합니다. Mutual consistency는 감독이 없는 상황에서 흔한 인간의 관행을 반영하며, 동료들(즉, 두 SLMs) 간의 파생된 답변에 대한 합의는 정확할 가능성이 더 높다는 것을 시사합니다. 결과적으로, mutual consistency는 self-consistency와 같은 다른 접근 방식보다 다양한 tasks에 걸쳐 더 효과적인 reasoning을 제공하며, reward model을 training할 때 overfitting의 위험을 피합니다.

다섯 개의 SLMs와 다섯 개의 다양한 reasoning tasks에 걸친 광범위한 실험은 rStar의 효과를 보여줍니다. 단 32 라운드의 MCTS inference만으로, rStar는 SLMs의 reasoning capabilities를 크게 향상시켜 fine-tuning 후 달성된 accuracy와 동등하거나 심지어 능가합니다. 예를 들어, rStar는 LLaMA2-7B의 GSM8K accuracy를 12.51%에서 63.91%로, Mistral의 경우 36.46%에서 81.88%로, LLaMA3-8B의 경우 47.23%에서 85.52%로 향상시킵니다.

또한, 우리는 few-shot CoT와 같은 single-round inference techniques, self-consistency와 같은 multi-round prompting approaches, 그리고 RAP, ToT, self-evaluation, self-verification과 같은 self-improvement techniques를 포함한 state-of-the-art baselines에 대한 rStar의 우수성을 검증하기 위해 포괄적인 실험을 수행합니다.

AI 연구자를 위한 Introduction 정리 노트

Problem:
- LLMs, 특히 SLMs은 복잡한 reasoning 과제(예: GSM8K)에서 성능 한계를 보이며, CoT 등 기법으로도 부족함.
- 기존 reasoning 능력 향상은 superior models (e.g., GPT-4)로부터 distilled/synthesized data를 이용한 fine-tuning에 의존하는 경향.
- Superior models 없이 LLM 자체 능력만으로 reasoning을 개선하려는 시도(e.g., RAP)가 있으나, 근본적 한계 존재:
  1. 비효율적 self-exploration: SLMs이 저품질 reasoning steps에 갇혀 solution space 탐색에 실패함 (e.g., LLaMA2-7B on GSM8K using RAP, 32 라운드 후 정확한 trajectories 24%).
  2. 어려운 quality assessment: SLMs 스스로 생성한 reasoning steps나 final answers의 품질/정확성을 판단하기 어려워 self-exploration 가이드가 비효율적임 (reward-based 방식이 무작위 추측 수준).
- 이 문제점들은 SLMs에서 더욱 심화됨 (self-refining 등 기법 효과 저하).
Proposed Solution: rStar (Self-play muTuAl Reasoning)
- Fine-tuning이나 superior models 없이 inference 단계에서 SLMs의 reasoning 능력을 향상시키는 새로운 접근법.
- 핵심 아이디어: reasoning 과정을 self-play mutual generation-discrimination process로 분리.
rStar의 주요 메커니즘:
1. Enhanced Generation (MCTS + Richer Reasoning Actions):
  - SLM이 reasoning steps를 self-generate하기 위해 MCTS 사용.
  - 기존 MCTS를 확장하여, 인간의 reasoning 행동(현재 reasoning state 기반 decomposing, searching, sub-question 제안, rephrasing 등)을 모방하는 풍부한 reasoning actions 세트를 도입 -> 고품질 candidate reasoning trajectories 생성 유도.
2. Mutual Discrimination (Mutual Consistency):
  - 생성된 reasoning trajectories 중 효과적인 탐색 가이드를 위해 mutual consistency라는 새로운 discrimination process 도입.
  - 원본 SLM과 유사한 능력을 가진 두 번째 SLM을 discriminator로 사용.
  - Discriminator SLM은 MCTS가 생성한 각 candidate reasoning trajectory에 대해 unsupervised feedback 제공 (이때 sampled partial reasoning trajectories를 힌트로 받아 나머지 reasoning steps를 완성하도록 요청).
  - 두 SLM이 **상호 합의(mutually agreed)**한 reasoning trajectories를 고품질로 간주 -> 이것이 mutual consistency.
  - Mutual consistency는 감독(정답) 없이 동료 간 합의를 통해 정답 가능성을 높이는 인간의 방식을 모방.
Claimed Advantages & Results:
- Mutual consistency는 self-consistency보다 효과적이며, reward model training 시 overfitting 위험 회피.
- 5개 SLMs 및 5개 reasoning datasets(GSM8K, GSM-Hard, MATH, SVAMP, StrategyQA)에서 효과 입증.
- MCTS inference 32 라운드만으로 SLMs reasoning 능력 크게 향상 (e.g., GSM8K accuracy: LLaMA2-7B 12.51%→63.91%, Mistral-7B 36.46%→81.88%, LLaMA3-8B 47.23%→85.52%).
- Few-shot CoT, self-consistency, RAP, ToT, self-evaluation, self-verification 등 state-of-the-art baselines 대비 우수성 주장.

쉬운 설명:

AI 모델, 특히 비교적 작은 모델(SLMs)은 복잡한 문제 풀이(reasoning)를 어려워합니다. 지금까지는 이런 모델들을 똑똑하게 만들려면 더 큰 최첨단 모델(superior models)의 도움을 받거나 특별 훈련(fine-tuning)을 시켜야 했습니다. 하지만 이 논문 연구진은 외부 도움 없이 SLMs 스스로 reasoning 능력을 키울 방법을 고민했습니다.

기존에 SLMs 스스로 학습(self-exploration)하게 하는 방법들은 문제가 있었습니다. 모델이 엉뚱한 생각에 빠져 헤어나오지 못하거나, 자기가 생각한 풀이 과정이 좋은지 나쁜지 스스로 판단하기 어려워했죠.

그래서 rStar라는 새로운 방법을 제안합니다. rStar의 핵심 아이디어는 **"두 명의 학생(SLMs)이 서로 도우며 함께 문제를 풀게 하자"**는 것입니다. (self-play mutual reasoning)

rStar는 이렇게 작동합니다:

문제 풀이 시도 (Generation): 첫 번째 SLM이 문제를 풀려고 시도합니다. 이때 그냥 막 푸는 게 아니라, 문제를 잘게 쪼개거나(decomposing), 필요한 정보를 찾아보거나(searching), 질문을 바꿔 생각해보는(rephrasing) 등 좀 더 똑똑한 방법(reasoning actions)들을 사용해서 여러 가지 풀이 과정(reasoning trajectories)을 만듭니다 (MCTS 활용).
서로 검토하기 (Discrimination & Mutual Consistency): 두 번째 SLM이 첫 번째 SLM이 만든 풀이 과정을 검토합니다. 이때 두 번째 SLM에게 첫 번째 SLM 풀이의 일부를 힌트로 주고 나머지를 풀어보게 합니다. 만약 두 SLM이 같은 방식이나 답에 도달하면 (mutually agreed), "아, 이 풀이가 맞는 것 같다!"라고 판단하는 거죠. 이걸 mutual consistency라고 부릅니다. 마치 정답을 모를 때 두 친구가 서로 답을 맞춰보고 같으면 맞을 확률이 높다고 생각하는 것과 비슷합니다.

결과적으로 rStar 방식을 사용하면, 특별한 훈련이나 더 큰 모델의 도움 없이도 SLMs이 추론 문제를 훨씬 더 잘 풀게 됩니다. 예를 들어, LLaMA2-7B라는 모델은 원래 12.5% 정도 맞추던 GSM8K 문제를 rStar 적용 후 63.9%나 맞추게 되었습니다.

2 RELATED WORK

Prompting Language Models to Reason. Prompting-based methods, 예를 들어 Chain-of-Thought (CoT)와 같은 방식들은, inference 중에 LLMs’ reasoning performance를 향상시키기 위해 지침과 파이프라인을 설계하는 데 중점을 둡니다. 최근의 발전에는 planning, problem decomposition, abstraction, programming 등이 포함됩니다. 이러한 방법들은 single-round inference performance를 개선하는 것을 목표로 하며 우리의 연구와는 직교적(orthogonal)입니다.

LLM Self-improvement. 최근 LLMs의 self-improvement에 대한 연구가 급증했습니다. Fine-tuning based methods는 잘 pre-trained된 LLM의 능력을 활용하여 data를 synthesize하고 점진적으로 performance를 향상시킵니다. self-verification 및 RAP와 같은 Advanced prompting techniques는 inference time에 self-diagnosed feedback을 기반으로 한 iterative self-exploring을 통해 performance를 개선합니다. 그러나 이전 섹션에서 설명했듯이, 달성된 performance는 종종 LLM’s inherent capabilities에 의존하며, SLMs의 경우, 그들의 약한 instruction-following ability와 신뢰할 수 없는 self-rewarding은 self-improvement를 잘못된 방향으로 이끌 수 있습니다.

Sampling Reasoning Paths. mathematical reasoning에 대한 최근 연구들은 diverse reasoning paths를 sampling하는 것이 greedy one-time decoding에 비해 performance를 크게 향상시킬 수 있음을 보여주었습니다. Self-Consistency는 매번 완전한 CoT path를 sample합니다. MCTS와 같은 Tree-search approaches는 tasks를 분해하고 더 간단한 개별 intermediate reasoning steps를 sampling함으로써 performance를 더욱 향상시킵니다. 그러나 대부분의 접근 방식은 제한된 action spaces를 가집니다. 예를 들어, RAP는 오직 subproblems만 decomposes하는 반면, AlphaMath는 오직 하나의 CoT step만 searches하므로, 더 나은 trajectories를 생성하는 데 효과가 제한적입니다.

Answer Verification. 정확한 reasoning trajectories를 선택하기 위해 majority voting은 널리 사용되는 접근 방식입니다. accuracy를 향상시키기 위해 일부 연구는 verification을 위한 value 또는 rewards model을 train하지만, 이는 추가적인 annotations를 필요로 하고 특정 tasks에 overfitting될 위험이 있습니다. Self-verification은 backward self-verification을 위해 LLM capabilities를 활용합니다. 그럼에도 불구하고, 그 효과는 효과적으로 reason하는 내재적 능력에 달려 있습니다. 최근 연구들은 LLM이 어떠한 external feedbacks 없이 스스로 evaluate하고 initial responses를 rectify하는 데 어려움을 겪는다는 것을 보여주었습니다.

AI 연구자를 위한 Related Work 정리 노트

Prompting Language Models to Reason:
- 기존 연구 (CoT, planning, decomposition 등)는 inference 시 single-round 성능 향상을 위한 prompting 기법 및 파이프라인 설계에 집중.
- rStar의 접근 방식(iterative self-improvement 및 verification)과는 직교적(orthogonal) 관계. rStar는 단일 inference 호출 최적화보다는 다회성 상호작용을 통한 개선에 초점.
LLM Self-improvement:
- Fine-tuning 기반: well-pretrained LLM의 자체 데이터 생성(synthesize data) 능력에 의존하여 점진적 성능 향상. → rStar는 fine-tuning 없이 inference 단계 개선 목표.
- Advanced prompting 기반 (self-verification, RAP): Inference 시 iterative self-exploring 및 self-diagnosed feedback 활용.
  - 한계: 성능이 LLM 고유 능력(inherent capabilities)에 크게 의존. 특히 SLMs는 약한 instruction-following 능력과 신뢰도 낮은 self-rewarding 메커니즘으로 인해 self-improvement가 잘못 유도될 수 있음. → rStar는 mutual consistency로 이 신뢰성 문제 해결 시도.
Sampling Reasoning Paths:
- 다양한 reasoning paths sampling (Self-Consistency, Tree-search/MCTS)이 greedy decoding 대비 성능 향상에 효과적임을 보임.
- 한계: 기존 Tree-search 접근 방식들 (RAP, AlphaMath)은 action spaces가 제한적 (e.g., subproblem decomposition, 단일 CoT step search). 이로 인해 고품질 trajectories 생성에 한계. → rStar는 더 풍부한 reasoning actions 도입으로 이 문제 해결 시도.
Answer Verification:
- 정확한 reasoning trajectories 선택 방법들: majority voting, 학습된 value/rewards model, self-verification.
- 한계:
  - Majority voting: 간단하지만 정확도 보장 안됨.
  - Value/rewards model: 추가 annotations 필요, 특정 tasks에 overfitting 위험.
  - Self-verification: LLM 자체의 reasoning 능력과 자기 평가 능력에 의존. 연구에 따르면 LLM은 external feedbacks 없이 스스로 오류를 평가하고 수정하는 데 어려움. → rStar는 annotation 없이 두 SLM 간의 mutual consistency를 verification 메커니즘으로 사용.

쉬운 설명:

AI 모델, 특히 작은 모델(SLMs)이 복잡한 문제(reasoning)를 더 잘 풀게 하려고 여러 연구가 있었습니다. 이 섹션에서는 관련 연구들을 소개하고, rStar가 어떤 점을 개선하려 하는지 알려줍니다.

AI에게 더 좋은 설명서 주기 (Prompting):
- AI(LLM)에게 문제를 풀 때 참고할 상세한 지침(prompt)이나 생각의 흐름(Chain-of-Thought, CoT)을 주는 방법입니다. 한 번 문제를 풀 때 더 잘 풀도록 도와주는 방식이죠.
- (rStar와는 약간 다릅니다. rStar는 한 번에 끝내는 것보다 여러 번 시도하며 스스로 나아지는 데 관심이 있습니다.)
AI가 스스로 배우게 하기 (Self-improvement):
- AI가 스스로 데이터를 만들어서 학습(fine-tuning)하게 하거나, 문제를 여러 번 풀어보면서(iterative self-exploring) 스스로 피드백(self-diagnosed feedback, self-verification)을 통해 배우는 방법입니다.
- 문제점: 특히 작은 AI(SLMs)는 자기가 뭘 잘하고 뭘 못하는지 스스로 판단하는 능력이 부족해서(unreliable self-rewarding), 혼자서는 잘 배우기 어려울 수 있습니다. (rStar는 AI 혼자 판단하는 대신, 두 AI가 서로 확인해주는 방식을 씁니다.)
여러 가지 방법 시도해보기 (Sampling Reasoning Paths):
- 문제를 풀 때 한 가지 방법만 고집하는 대신(greedy decoding), 여러 가지 가능한 풀이 과정(reasoning paths)을 탐색해보는 방법입니다 (Self-Consistency, Tree-search, MCTS).
- 문제점: 기존 방법들은 탐색하는 방식이 좀 단순해서(limited action spaces), 아주 새롭거나 효과적인 풀이법을 찾아내기 어려울 수 있습니다. (rStar는 더 다양하고 창의적인 방법으로 풀이를 탐색하도록 돕습니다.)
정답 고르기 (Answer Verification):
- AI가 여러 풀이 과정을 만들었을 때, 그중에서 진짜 정답을 고르는 방법입니다. 여러 답 중 가장 많이 나온 답을 고르거나(majority voting), 정답 채점용 AI(rewards model)를 따로 만들거나, AI 스스로 자기 답을 검토(self-verification)하게 합니다.
- 문제점: 투표는 틀릴 수 있고, 채점용 AI는 만들기가 번거롭고 특정 문제에만 잘 작동할 수 있으며(overfitting), AI 스스로 검토하는 것은 믿을 만하지 않을 수 있습니다. (rStar는 두 AI가 서로 답을 맞춰봐서 동의하는지 확인하는 mutual consistency 방식을 사용해 이 문제를 해결하려 합니다.)

3 METHODOLOGY

3.1 OVERVIEW

Problem Formulation. SLMs로 reasoning problem을 해결하기 위해, 우리는 문제를 더 간단한 sub-tasks로 나누는 multi-step reasoning generation task로 문제를 공식화합니다. 이는 SLMs가 단일 inference에서 완전한 reasoning steps를 생성하는 것보다 한 단계를 정확하게 generate하는 것이 훨씬 쉽기 때문에 전통적인 CoT-based reasoning보다 더 효과적입니다. 우리는 target SLM을 강화하여 multi-step reasoning solutions를 self-generating하기 위해 Monte-Carlo Tree Search (MCTS) 알고리즘을 활용합니다.

공식적으로, 주어진 problem 와 target SLM 에 대해, MCTS는 을 강화하여 점진적으로 search tree 를 구축합니다. Fig. 3에 설명된 바와 같이, root node는 question 를 나타내고, edge는 action 를 나타내며, 각 child node는 해당 action 하에서 에 의해 생성된 intermediate step 입니다. root node에서 leaf node(로 표시되며, terminal node라고도 함)까지의 path는 candidate solution trajectory 를 구성합니다. search tree 에서 우리는 solution trajectories 집합 ()을 extract할 수 있습니다. 우리의 목표는 주어진 question에 대한 정확한 answer를 달성할 수 있는 trajectories를 찾는 것입니다.

Challenges in SLM Self-Improvement. MCTS는 SLM이 여러 potential solutions를 explore하고 evaluate할 수 있게 합니다. 이상적으로는, 새로운 가능성을 exploration하는 것과 high-reward actions를 exploitation하는 것 사이의 균형을 통해 SLM은 점진적으로 reasoning steps를 refine하여 final correct reasoning trajectory를 generate할 수 있습니다. 그러나 SLMs의 limited capabilities 때문에 전통적인 MCTS는 최소한의 개선만을 가져옵니다. 첫째, 방대한 solution space는 SLMs가 effective solutions를 generate하는 것을 어렵게 만듭니다. single actions를 사용하는 기존 MCTS-based methods는 diversity를 제한하고 tasks 전반에 걸쳐 generalize하는 데 어려움을 겪습니다. self-consistency와 같은 접근 방식은 random sampling을 사용하여 diversity를 보장하지만, SLMs는 종종 poor-quality solutions를 생성하여 정확한 solution을 찾기 위해 많은 시도가 필요하며, 이는 inference costs를 증가시킵니다.

둘째, 각 action에 대해 정확하게 reward를 부여하는 것이 어렵습니다. ground truth labels 없이는 각 intermediate step 와 의 final answer에 대한 correctness를 verify하기 어렵습니다. self-consistency에서의 Majority voting은 대부분의 traces가 정확해야 하지만, SLMs의 경우에는 그렇지 않은 경우가 많습니다. RAP와 같은 방법은 self-rewarding을 사용하지만, 우리의 연구는 SLMs가 거의 무작위적인 self-rewarding을 수행함을 보여줍니다. 에서처럼 reward model을 training하는 것은 이 문제를 해결할 수 있지만, training data 수집 및 다양한 tasks에 대한 generalize의 어려움에 직면합니다.

Overview. 이러한 문제를 해결하기 위해, 이 섹션에서는 Fig. 2에서 reasoning을 solution generation과 mutual verification으로 decomposes하는 우리의 methodology인 rStar를 소개합니다. 첫 번째 문제를 해결하기 위해, 우리는 다양한 reasoning tasks에 걸쳐 철저한 space exploration을 가능하게 하는 더 풍부한 human-like reasoning actions 세트를 도입합니다. 두 번째 문제를 해결하기 위해, 우리는 intermediate steps를 evaluate하기 위한 SLM-tailored reward function을 설계하여, 종종 신뢰할 수 없는 그들의 self-evaluations에 대한 의존을 피합니다. 더욱이, 우리는 MCTS process를 강화하기 위해 다른 SLM을 discriminator로 사용하여, generator SLM과 함께 각 trajectory의 correctness를 mutually verifying합니다.

3.2 SELF-GENERATING REASONING TRAJECTORY WITH MCTS ROLLOUT

A Rich Set of Human-like Reasoning Actions. MCTS generation의 핵심에는 tree exploration의 범위를 정의하는 action space가 있습니다. 대부분의 MCTS-based methods는 트리를 구축하기 위해 single action type을 사용합니다. 예를 들어, RAP에서 action은 다음 sub-question을 제안하는 것이고, AlphaMath와 MindStar에서는 action이 다음 reasoning step을 generate하는 것입니다. 그러나 single action type에 의존하는 것은 쉽게 비효율적인 space exploration으로 이어질 수 있습니다.

이를 해결하기 위해, 우리는 인간이 reasoning에 접근하는 방식을 다시 살펴봅니다. 사람마다 다양한 actions를 사용하여 문제를 해결합니다: 어떤 사람은 sub-questions로 나누고, 다른 사람은 직접 해결하며, 어떤 사람은 문제의 key conditions에 집중하기 위해 문제를 rephrase할 수도 있습니다. 더욱이, 사람들은 현재 states에 따라 접근 방식을 조정하며, 필요에 따라 다른 actions를 선택합니다. 이러한 human reasoning process에서 영감을 받아, 우리는 복잡한 reasoning problems를 정확하게 해결할 SLM’s potential을 극대화하기 위해 더 풍부한 5가지 actions 세트를 도입합니다.

: Propose an one-step thought. 이 action은 주어진 question에 대해 기존 reasoning steps를 고려하여 LLM이 다음 one-step thought를 generate하도록 prompt합니다. complete thoughts를 generates하는 CoT와 달리, 이 접근 방식은 reasoning process를 단순화하고 LLM이 더 나은 decision making을 수행하도록 합니다.
: Propose the remaining thought steps. 각 state마다 오직 one step thought만 generating하는 대신, 이 action은 표준 CoT와 일치하여 간단한 question을 더 적은 steps로 해결하는 "fast thinking"을 가능하게 합니다. 이미 생성된 reasoning steps가 주어지면, LLM에게 final answer에 도달할 때까지 나머지 steps를 직접 produce하도록 prompt합니다.
: Propose next sub-question along with its answer. 이 action은 복잡한 problem을 일련의 더 간단한 sub-questions로 나누고 순차적으로 해결하는 least-to-most prompting에서 영감을 받았습니다. RAP’s implementation을 따라, 우리는 LLM에게 다음 sub-question을 묻고 답하도록 prompt합니다.
: Answer the sub-question again. 에 의해 sub-question이 정확하게 답변되지 않을 수 있음을 고려하여, 이를 다시 답변하기 위한 이 action을 제안합니다. accuracy를 향상시키기 위해, 이 action은 LLM에게 few-shot CoT를 사용하도록 prompts합니다. 에 의해 생성된 원래 answer는 CoT-like prompt를 사용하지 않고 대신 least-to-most problem decomposition prompt를 따랐다는 점에 유의하십시오.
: Rephrase the question/sub-question. incorrect cases를 분석할 때, 우리는 많은 경우가 LLM이 question을 misunderstanding하기 때문이라는 것을 발견했습니다. 예를 들어, question에 제공된 특정 condition을 놓칠 수 있습니다. 따라서, 우리는 question을 더 간단하게 rephrase하는 새로운 action을 제안합니다. 구체적으로, 우리는 LLM에게 problem statement에 주어진 모든 conditions를 명확하게 list하도록 prompt합니다.

위의 5가지 actions는 매우 다양한 action space 를 정의합니다. 각 step 에서 MCTS는 이 space에서 action 를 selects합니다. 그런 다음 이 action 를 사용하여 현재 state, 즉 이전에 생성된 trajectory 를 기반으로 LLM에게 다음 reasoning step 를 generate하도록 prompt합니다. 특정 actions는 순서가 필요하다는 점에 유의하십시오. 예를 들어, 는 이후에만 발생할 수 있고, 는 root question 이후에만 발생할 수 있습니다. Table 1에 표시된 바와 같이, 각 action은 final reasoning accuracy를 향상시키는 데 중요한 역할을 합니다.

Reward Function. MCTS의 또 다른 중요한 구성 요소는 각 action의 value를 evaluates하고 tree expansion을 directs하는 reward function입니다. 우리는 SLMs를 위한 간단하면서도 효과적인 reward function을 설계합니다. 첫째, SLMs의 limited capabilities로 인해 intermediate nodes에 대한 self-rewarding techniques를 제외합니다. 둘째, 다른 reasoning tasks에 대한 generalization을 보장하기 위해 external supervision(e.g., tools 또는 trained value models) 도입을 피합니다. 우리의 approach는 AlphaGo에서 영감을 얻었으며, 각 intermediate node를 final correct answer에 대한 기여도를 기반으로 score합니다. 결과적으로, 정확한 answers로 자주 이어지는 actions는 더 높은 rewards를 받아 향후 MCTS tree expansions에서 선택될 가능성이 높아집니다.

우리는 action 하에 생성된 node 에 대한 reward value를 로 정의합니다. 초기에 모든 unexplored nodes는 으로 할당되어 random tree expansions로 이어집니다. 첫 번째 terminal node 에 도달하면, 그것이 correct answer에 도달했는지 여부에 따라 reward score 를 compute합니다. 이 score는 trajectory 를 따라 각 intermediate node로 back-propagated됩니다. 구체적으로, 각 ()에 대해, 그 value는 다음과 같이 업데이트됩니다: . terminal node에 대한 를 compute하기 위해, 우리는 self-consistency majority voting의 likelihood (confidence)를 reward value로 사용합니다.

Solution Generation with MCTS Rollout. 이제 우리의 MCTS가 candidate reasoning trajectories를 generates하는 방법을 설명합니다. 초기 root node 에서 시작하여 selection, expansion, simulations 및 back-propagation으로 구성된 여러 searches를 수행합니다. 구체적으로, simulation은 default rollout policy를 사용하여 수행되며, 더 정확한 reward estimation을 달성하기 위해 multiple rollouts를 수행합니다. exploration과 exploitation의 균형을 맞추기 위해, 우리는 각 node를 select하기 위해 잘 알려진 Upper Confidence Bounds applied to Trees (UCT)를 사용합니다. 이 selection process는 수학적으로 다음과 같이 표현됩니다:

여기서 는 이전 iterations에서 node 가 방문된 횟수이고, 는 의 parent node의 방문 횟수를 나타냅니다. 는 estimated reward value이며 back-propagation을 통해 업데이트됩니다. 는 exploitation과 exploration의 균형을 맞추는 constant입니다.

search가 terminal node(terminal state 또는 미리 정해진 maximum tree depth )에 도달하면, root에서 terminal node까지의 trajectory를 얻습니다. 우리는 rollout iterations에서 모든 trajectories를 candidate solutions로 collect합니다. 다음 섹션에서는 우리가 각각을 어떻게 verify하는지 설명합니다.

3.3 REASONING TRAJECTORY SELECTION WITH MUTUAL CONSISTENCY

전통적인 MCTS에서는 일반적으로 rollout iterations에서 가장 높은 reward를 가진 path를 선택하는 것과 같은 특정 metric에 기반하여 오직 하나의 trajectory만이 final solution으로 selected됩니다. 불행히도, 다양한 기존 방법들을 시도해 본 결과, correct answer를 포함하는 trajectory를 안정적으로 selects하는 단일 metric을 정의하기 어렵다는 것을 발견했습니다. 따라서, 우리는 모든 trajectories를 collect하고 answer selection을 위해 mutual reasoning consistency를 제안합니다.

Mutual Reasoning Consistency by Discriminator SLM2. Fig. 2에 표시된 바와 같이, target SLM 외에도, 우리는 각 candidate trajectory에 대한 external unsupervised feedback을 제공하는 discriminator 역할을 할 또 다른 SLM 을 도입합니다. 구체적으로, 에 대해, 무작위로 sampled된 step ()부터 시작하는 reasoning steps를 mask합니다. 그런 다음 이전 reasoning trajectory 를 에게 prompt로 제공하여 question에 대한 나머지 steps를 complete하도록 합니다. 이전 reasoning steps를 hint로 제공함으로써, 우리는 difficulty를 줄여 SLM 이 correct answer를 제공할 likelihood를 높입니다. Fig. 4에 표시된 바와 같이, 우리는 에 의해 completed된 answer가 원래 trajectory 와 matches하는지 compare합니다. 만약 consistent하다면, 를 final selection을 위한 validate trajectory로 간주합니다.

우리는 우리의 approach 이면의 rational을 설명하기 위해 직관적인 설명을 제공합니다. 선생님의 feedback 없이 문제를 푸는 학생들을 생각해 보십시오. 자신의 solution에 확신이 없는 학생(SLM1)은 동료(SLM2)에게 자신의 reasoning을 검토해 달라고 요청할 수 있습니다. 만약 동료가 동일한 initial steps를 가지고 동일한 answer에 도달하면, 학생은 자신의 solution에 대한 confidence를 얻습니다. 이 peer verification process는 우리가 달성하고자 하는 mutual reasoning consistency를 반영합니다.

Final Trajectory Selection by SLM1. 모든 candidate trajectories에 mutual reasoning consistency를 적용한 후, 우리는 validated된 것들 중에서 final trajectory를 select하기 위해 target SLM 으로 돌아갑니다. 우리는 각 trajectory의 reward에 rollouts에서 얻은 terminal node’s confidence score를 곱하여 각 trajectory’s final score를 compute합니다. highest final score를 가진 trajectory가 solution으로 chosen됩니다.

AI 연구자를 위한 METHODOLOGY (rStar) 정리 노트

Overall Framework: rStar는 SLM의 reasoning 능력 향상을 위해 MCTS 기반 solution generation과 mutual verification을 결합 (Fig. 2 참조). SLM의 약점 (비효율적 탐색, 부정확한 자기 평가) 해결에 초점.
Problem Formulation (Sec 3.1):
- Reasoning 문제를 multi-step reasoning generation task로 정의. 복잡한 문제를 간단한 sub-tasks로 분해하여 SLM이 단계적으로 reasoning steps를 생성. (CoT 일괄 생성보다 SLM에 적합).
- MCTS를 활용하여 target SLM (M)이 search tree (T)를 구축하고 candidate solution trajectories (t) 생성.
Challenge & Solution 1: Generation (Sec 3.2):
- Challenge: SLMs는 limited capabilities로 인해 traditional MCTS (single action)로는 방대한 solution space를 효과적으로 탐색하기 어려움. Self-consistency 방식은 SLM에서 저품질 trajectories 생성 및 높은 inference costs 야기.
- rStar Solution: Richer Human-like Action Space 도입.
  - 5가지 reasoning actions 제공:
    - A1: one-step thought 생성 (단계적 사고)
    - A2: 남은 thought steps 일괄 생성 (빠른 CoT-like 사고)
    - A3: 다음 sub-question 제안 및 답변 (least-to-most prompting 방식)
    - A4: sub-question 재답변 (few-shot CoT 활용, A3 보완)
    - A5: question/sub-question rephrasing (문제 이해도 증진)
  - 이 다양한 action space ()는 MCTS 내에서 UCT 알고리즘으로 select되어 더 효과적인 space exploration 유도.
Challenge & Solution 2: Evaluation & Selection (Sec 3.2 & 3.3):
- Challenge: SLMs는 intermediate steps에 대한 self-rewarding이 부정확. Majority voting은 SLM에서 잘 동작 안 함. Reward model training은 데이터 및 generalization 문제 발생.
- rStar Solution: SLM-Tailored Reward Function & Mutual Consistency
  - Reward Function (Sec 3.2):
    - Intermediate node에 대한 self-rewarding 배제.
    - External supervision (e.g., tools, value models) 회피하여 generalization 확보.
    - AlphaGo 방식 차용: Terminal node ()에서 최종 답변의 정답 여부 기반 reward score () 계산 (이때 self-consistency majority voting의 likelihood 활용).
    - 이 score를 trajectory 상의 intermediate node들로 back-propagate하여, 최종 정답에 기여한 actions의 값을 높임.
  - Mutual Consistency Verification (Sec 3.3):
    - 제2의 SLM (, discriminator)을 도입하여 external unsupervised feedback 제공.
    - Generator SLM ()이 생성한 candidate trajectory 에 대해, 중간 단계 이후를 mask하고 에게 를 prompt로 주어 나머지 steps 완성 요청.
    - 이 완성한 결과와 의 원래 결과가 consistent하면 해당 trajectory 를 'validate'된 것으로 간주 (Peer verification).
  - Final Trajectory Selection (Sec 3.3):
    - Mutual consistency로 'validate'된 trajectories 중에서, target SLM 이 최종 solution 선택.
    - 선택 기준: Trajectory의 누적 reward (backpropagated )와 terminal node의 confidence score (rollout 기반)를 곱한 값이 가장 높은 trajectory.

쉬운 설명:

이 논문에서 제안하는 rStar라는 방법이 어떻게 작은 AI 모델(SLM)이 어려운 생각(reasoning)을 더 잘하게 만드는지 설명하는 부분입니다.

기본 아이디어: 작은 AI(SLM)는 한 번에 긴 생각을 잘 못하고, 자기가 잘하고 있는지 스스로 판단하기도 어려워합니다. rStar는 이런 약점을 보완하기 위해 (1) 똑똑한 방법으로 여러 아이디어를 내고 (Generation), (2) 친구 AI와 서로 검토해서 (Verification) 가장 좋은 답을 찾는 방법입니다.

1단계: 다양한 생각 길 만들기 (똑똑한 브레인스토밍)

AI가 문제를 풀 때, 한 가지 방법만 쓰는 게 아니라 사람처럼 여러 가지 방식으로 생각하도록 5가지 도구(actions)를 줍니다.
- 한 걸음씩 생각하기 (A1): 아주 작은 단계로 나눠서 생각합니다.
- 단번에 끝내보기 (A2): 중간부터는 빠르게 정답까지 쭉 생각합니다.
- 질문 나누고 답하기 (A3): 큰 문제를 작은 질문으로 쪼개서 하나씩 답합니다.
- 다시 답해보기 (A4): 작은 질문에 답한 게 좀 이상하면, 다른 방식으로 다시 답해봅니다.
- 문제 다시 읽기 (A5): 문제가 헷갈리면, 조건을 명확히 정리하며 문제를 다시 이해합니다.
AI는 이 5가지 도구를 MCTS라는 탐색 방법 안에서 골라 쓰면서, 여러 가능한 풀이 과정(reasoning trajectories)을 만들어냅니다.

2단계: 어떤 길이 좋아 보이나? (중간 점검과 최종 평가)

AI가 풀이 과정을 만드는 중간중간에는 스스로 잘하고 있는지 평가하기 어렵습니다.
그래서 rStar는 일단 풀이 과정 끝까지 가보고, 그 최종 답이 맞았는지를 중요하게 봅니다.
정답으로 이어진 풀이 과정(경로)들은 "좋은 길"(reward)이었다고 점수를 높여주고, 이 점수를 경로 중간 단계들에도 알려줍니다 (back-propagation). 그러면 다음번 탐색 때 AI는 이 좋은 길과 비슷한 방향으로 더 가보려고 하겠죠 (MCTS의 학습 효과).

3단계: 친구와 답 맞춰보기 (서로 확인하기)

혼자서는 답을 확신하기 어려우니, rStar는 **두 번째 AI 모델 (discriminator, )**을 '스터디 친구'처럼 활용합니다.
첫 번째 AI가 만든 풀이 과정(trajectory)을 두 번째 AI에게 중간부터 보여주고 "여기서부터 너라면 어떻게 풀래?"라고 물어봅니다.
만약 두 AI가 같은 최종 답에 도달하면, "오, 이 풀이 방법이 맞는 것 같아!"라고 서로 확신(mutual consistency)을 얻습니다. 이렇게 확인된 풀이 과정만 '검증된 후보'로 남깁니다.

4단계: 최종 정답 고르기

'검증된 후보' 풀이 과정들 중에서, 최종 점수(2단계의 '좋은 길' 점수와 마지막 단계의 확신 점수를 곱한 값)가 가장 높은 것을 최종 정답으로 선택합니다.

이렇게 rStar는 SLM이 더 똑똑하게 탐색하고, 서로 검증하는 과정을 통해 복잡한 문제도 더 잘 풀 수 있도 록 돕습니다.