LLM : rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

논문리뷰

LLM : rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

AI바라기 2025. 1. 16. 15:47

Purpose of the Paper

기존의 large language models (LLMs)은 mathematical problem을 풀 때, single inference로 완전한 solutions을 생성하는 "System 1" 방식의 접근을 취해왔습니다. 이 방식은 빠르지만 오류가 발생하기 쉽습니다. 본 논문은 이러한 한계를 극복하기 위해, small language models (SLMs)이 "deep thinking"을 통해 OpenAI 01과 동등하거나 심지어 능가하는 math reasoning 능력을 갖출 수 있음을 입증하는 것을 목적으로 합니다. 이를 위해, "System 2" 스타일의 추론 방식, 즉 Monte Carlo Tree Search (MCTS)를 활용하여 느리고 깊이 있는 사고 과정을 모방합니다. 특히, superior models로부터의 distillation 없이, SLM 기반의 policy model과 process reward model (PRM)을 훈련하고, 이들을 MCTS framework에 통합하여 test-time search를 수행합니다. 더 나아가, 코드 보강 Chain-of-Thought (CoT) data synthesis, process preference model (PPM) training, self-evolution recipe라는 세 가지 새로운 방법을 도입하여 policy SLM과 PPM을 훈련하는 데 필요한 high-quality training data를 생성하고, 이를 통해 SLM의 math reasoning 능력을 향상시키는 것이 본 논문의 주된 목적입니다.

Key Contributions

Code-augmented CoT Data Synthesis Method: MCTS rollouts를 통해 step-by-step verified reasoning trajectories를 생성하고, 각 step에 self-annotated MCTS Q-values를 할당합니다. 특히, one-step CoT와 Python code를 함께 생성하고, Python code execution을 통해 intermediate steps의 오류를 완화합니다.
Novel Process Reward Model Training Method (PPM): Naïve step-level score annotation을 피하고, Q-value 기반의 preference pairs를 구성하여 pairwise ranking loss로 PPM을 훈련합니다. 이를 통해 더 효과적인 process preference model (PPM)을 얻습니다.
Self-evolution Recipe: Policy SLM과 PPM을 처음부터 구축하고, 4 rounds의 iterative evolution을 통해 reasoning 능력을 향상시킵니다. 각 round에서 더 강력한 policy SLM, 더 신뢰할 수 있는 PPM, PPM-augmented MCTS를 통한 더 나은 reasoning trajectories, 향상된 training data coverage를 달성합니다.

Novelty

Distillation 없이 SLM만으로 OpenAI 01에 필적하는 math reasoning 능력을 달성: 기존 연구들이 GPT-4와 같은 superior models로부터 knowledge를 distilling하는 데 중점을 둔 반면, rStar-Math는 SLM 자체의 능력을 향상시키는 데 초점을 맞춥니다.
Code execution을 CoT data synthesis에 통합: Python code execution을 통해 intermediate steps의 정확도를 검증하고, high-quality training data를 생성합니다.
Q-value 기반 preference pairs를 활용한 PPM training: Step-level reward score annotation의 어려움을 극복하고, 더 정확하고 효율적인 reward model을 훈련합니다.
Self-evolutionary process를 통한 점진적 성능 향상: Policy model과 PPM을 반복적으로 개선하고, 더 어렵고 복잡한 math problems를 해결할 수 있도록 training data를 확장합니다.

Experimental Highlights

다양한 SLMs (1.5B-7B)과 7개의 math reasoning tasks에 대한 광범위한 실험: rStar-Math의 효과와 일반성을 입증합니다.
MATH benchmark에서 Qwen2.5-Math-7B의 성능을 58.8%에서 90.0%로 향상: OpenAI 01-preview를 능가하고 01-mini와 동등한 수준을 달성했습니다.
Olympiad-level AIME 2024에서 53.3% (8/15)의 문제 해결: 01-preview를 8.7% 능가하고, 다른 open-source LLMs를 크게 앞섰습니다.
Step-by-step verified reasoning trajectories의 우수성 입증: State-of-the-art data synthesis baselines (GPT-distillation, random sampling, rejection sampling)과 비교하여 더 나은 성능을 보였습니다.
PPM의 효과 검증: Outcome reward models 및 Q-value-based PRMs와 비교하여 더 나은 성능을 보였습니다.
Intrinsic self-reflection capability와 PPM의 theorem-application steps 선호 현상 발견: rStar-Math의 deep thinking 과정에 대한 추가적인 통찰력을 제공합니다.

Limitations

Geometry-based problems 해결 능력 부족: Visual understanding capability가 부족하여 geometry-based problems를 해결하는 데 어려움이 있습니다.
Training dataset이 주로 public datasets에 의존: Specific optimizations for certain benchmarks (e.g., Olympiad Bench, College Math, Gaokao)가 부족합니다.
여전히 unsolved problems 존재: Synthetic questions 중 일부는 잘못된 label을 가지고 있어, self-evolution process를 방해합니다.

Future Work

Visual understanding capability를 통합: Geometry-based problems를 해결하기 위해 model architecture를 개선할 수 있습니다.
더 어렵고 복잡한 math problems를 수집: Theorem proving과 같은 challenging tasks로 rStar-Math를 확장할 수 있습니다.
Unsolved problems의 labeling quality를 개선: More accurate training data를 확보하기 위해 labeling process를 개선할 수 있습니다.
Code reasoning, commonsense reasoning 등 다른 domains으로 rStar-Math를 일반화: Step-by-step verified training trajectories를 생성하기 위한 mechanism을 개발하고, 다양한 domains에 적용할 수 있습니다.

이 정리 노트가 논문의 이해에 도움이 되었기를 바랍니다.

Abstract

우리는 small language models (SLMs)이 OpenAI o1의 수학 reasoning 능력을 능가하거나 심지어 더 뛰어날 수 있음을 증명하기 위해 rStar-Math를 제시합니다. 이는 우수한 models로부터의 distillation 없이도 가능합니다. rStar-Math는 Monte Carlo Tree Search (MCTS)를 통해 "deep thinking"을 실행함으로써 이를 달성합니다. 여기서 수학 policy SLM은 SLM-기반 process reward model에 의해 안내되는 test-time search를 수행합니다. rStar-Math는 두 SLMs의 training에서 발생하는 과제를 해결하기 위해 세 가지 혁신을 도입합니다.

(1) 새로운 code-augmented CoT data synthesis 방법은 광범위한 MCTS rollouts를 수행하여 policy SLM을 train하는 데 사용되는 단계별로 verification된 reasoning trajectories를 생성합니다. (2) 새로운 process reward model training 방법은 순진한 단계별 점수 주석을 피하여 더 효과적인 process preference model (PPM)을 생성합니다. (3) self-evolution recipe는 policy SLM과 PPM이 처음부터 구축되고 반복적으로 발전하여 reasoning 능력을 향상시킵니다.

747k개의 수학 문제에 대한 수백만 개의 합성된 솔루션을 사용한 4 라운드의 self-evolution을 통해, rStar-Math는 SLMs의 수학 reasoning을 state-of-the-art 수준으로 끌어올립니다. MATH benchmark에서, Qwen2.5-Math-7B는 58.8%에서 90.0%로, Phi3-mini-3.8B는 41.4%에서 86.4%로 향상시켜, o1-preview를 각각 +4.5%와 +0.9% 능가합니다. USA Math Olympiad (AIME)에서, rStar-Math는 평균 53.3% (8/15)의 문제를 해결하여, 가장 뛰어난 고등학생 수학 영재들 중 상위 20%에 랭크됩니다.

1 Introduction

최근 연구들은 large language models (LLMs)이 수학 문제를 해결하는 데 능숙하다는 것을 보여주었습니다. 그러나, LLMs가 단일 inference에서 완전한 솔루션을 생성하도록 하는 전통적인 접근 방식은 System 1 사고와 유사하며, 종종 빠르지만 오류가 발생하기 쉬운 결과를 낳습니다. 이에 대응하여, test-time compute scaling은 System 2 스타일의 사고방식으로의 패러다임 전환을 제안합니다. 이는 더 느리고 깊은 사고 과정을 통해 인간의 reasoning을 모방합니다. 이 패러다임에서, LLM은 여러 수학 reasoning 단계를 생성하는 policy model 역할을 하며, 그 후 다른 LLM이 reward model 역할을 하여 평가합니다. 더 정확할 가능성이 높은 단계와 솔루션이 선택됩니다. 이 과정은 반복적으로 수행되어 최종 답을 도출합니다.

test-time compute 패러다임에서, 핵심은 유망한 솔루션 단계를 생성하는 강력한 policy model과 이를 정확하게 평가하는 신뢰할 수 있는 reward model을 training하는 것입니다. 이 두 가지 모두 고품질 training data에 의존합니다. 불행히도, 즉시 사용 가능한 고품질 수학 reasoning data는 부족하며, 고품질 수학 data를 합성하는 것은 근본적인 과제에 직면합니다. policy model의 경우, 오류가 있는 reasoning 단계를 올바른 단계와 구별하기 어렵기 때문에 저품질 data를 제거하는 것이 복잡합니다. 수학 reasoning에서 정답이 전체 reasoning trace의 정확성을 보장하지 않는다는 점은 주목할 가치가 있습니다. 부정확한 중간 단계는 data 품질을 크게 저하시킵니다.

reward model의 경우, process reward modeling (PRM)은 중간 단계에 대한 세분화된 feedback을 제공함으로써 큰 잠재력을 보여줍니다. 그러나 이와 관련하여 training data는 더욱 부족합니다. 정확한 단계별 feedback은 강도 높은 인간의 labeling 노력을 필요로 하며 확장이 비현실적인 반면, 자동 주석 시도는 noisy reward scores로 인해 제한적인 이득을 보입니다.

위의 과제들로 인해, policy models를 training하기 위한 기존의 distill-based data synthesis 접근 방식(예: GPT4-distilled CoT data를 확장하는 것)은 수익 감소를 보였고 teacher model의 능력을 초과할 수 없습니다. 한편, 현재까지 수학 reasoning을 위한 신뢰할 수 있는 PRMs를 training하는 것은 여전히 열린 질문으로 남아 있습니다.

본 연구에서는, 70억 정도의 작은 model 크기로도 도전적인 수학 경시대회 benchmarks에서 OpenAI o1과 경쟁하거나 심지어 능가하는 state-of-the-art 수학 reasoning을 달성하는, self-evolvable System 2 스타일의 reasoning 접근 방식인 rStar-Math를 소개합니다. data synthesis를 위해 우수한 LLMs에 의존하는 솔루션과 달리, rStar-Math는 Monte Carlo Tree Search (MCTS)를 사용하는 smaller language models (SLMs)를 활용하여 self-evolutionary 프로세스를 구축하고, 반복적으로 더 높은 품질의 training data를 생성합니다.

self-evolution을 달성하기 위해, rStar-Math는 세 가지 핵심 혁신을 도입합니다.

첫째, 새로운 code-augmented CoT data synthesis 방법은 광범위한 MCTS rollouts를 수행하여 self-annotated MCTS Q-values를 사용하여 단계별로 verification된 reasoning trajectories를 생성합니다. 구체적으로, 수학 문제 해결은 MCTS 내에서 다단계 generation으로 분해됩니다. 각 단계에서, policy model 역할을 하는 SLM은 후보 노드를 샘플링하며, 각 노드는 한 단계의 CoT와 해당 Python 코드를 생성합니다. generation 품질을 verification하기 위해, 성공적인 Python 코드 실행이 있는 노드만 유지되므로 중간 단계의 오류가 완화됩니다. 또한, 광범위한 MCTS rollouts는 각 중간 단계에 기여도에 따라 자동으로 Q-value를 할당합니다. 정답으로 이어지는 더 많은 trajectories에 기여하는 단계는 더 높은 Q-values를 부여받고 더 높은 품질로 간주됩니다. 이를 통해 SLMs에 의해 생성된 reasoning trajectories가 정확하고 고품질의 중간 단계로 구성되도록 보장합니다.

둘째, 원하는 PRM을 구현하기 위해 process preference model, 즉 PPM 역할을 하는 SLM을 training하는 새로운 방법은 각 수학 reasoning 단계에 대한 reward label을 신뢰할 수 있게 예측합니다. PPM은 광범위한 MCTS rollouts를 사용하더라도 Q-values가 각 reasoning 단계를 채점할 만큼 충분히 정확하지 않지만, Q-values가 긍정적인(정확한) 단계와 부정적인(관련 없거나 부정확한) 단계를 신뢰할 수 있게 구별할 수 있다는 사실을 활용합니다. 따라서 training 방법은 Q-values를 기반으로 각 단계에 대한 preference pairs를 구성하고 pairwise ranking loss를 사용하여 각 reasoning 단계에 대한 PPM의 점수 예측을 최적화하여 신뢰할 수 있는 labeling을 달성합니다. 이 접근 방식은 본질적으로 noisy하고 단계별 reward 할당에서 부정확한 Q-values를 reward labels로 직접 사용하는 기존 방법을 피합니다.

마지막으로, 처음부터 frontier policy model과 PPM을 점진적으로 구축하는 4 라운드의 self-evolution recipe입니다. 우리는 공개적으로 사용 가능한 소스에서 747k개의 수학 문제로 구성된 dataset을 선별하는 것으로 시작합니다. 각 라운드에서, 우리는 최신 policy model과 PPM을 사용하여 MCTS를 수행하고, 위의 두 가지 방법을 사용하여 점점 더 높은 품질의 training data를 생성하여 다음 라운드를 위한 더 강력한 policy model과 PPM을 training합니다. 각 라운드는 점진적인 개선을 달성합니다. (1) 더 강력한 policy SLM, (2) 더 신뢰할 수 있는 PPM, (3) PPM-augmented MCTS를 통한 더 나은 reasoning trajectories 생성, (4) 더 어렵고 심지어 경시대회 수준의 수학 문제를 해결하기 위한 training data 범위 개선.

4개의 SLMs (1.5B-7B)와 7개의 수학 reasoning tasks에 걸친 광범위한 실험은 rStar-Math의 효과를 보여줍니다. 놀랍게도, rStar-Math는 4개의 SLMs 모두를 개선하여 도전적인 수학 benchmarks에서 OpenAI o1과 일치하거나 심지어 능가합니다. MATH benchmark에서, 8개의 search trajectories를 사용하여 rStar-Math는 Qwen2.5-Math-7B를 58.8%에서 89.4%로, Qwen2.5-Math-1.5B를 51.2%에서 87.8%로 향상시킵니다. 64개의 trajectories를 사용하면 점수가 90%와 88.4%로 상승하여 o1-preview를 각각 4.5%와 2.6% 능가하고 o1-mini의 90%와 일치합니다. Olympiad 수준의 AIME 2024에서, rStar-Math는 평균 53.3% (8/15)의 문제를 해결하여 o1-preview를 8.7% 능가하고 다른 모든 open-sourced LLMs를 능가합니다. 우리는 단계별로 verification된 reasoning trajectories가 state-of-the-art data synthesis baselines에 비해 우월하다는 것과 outcome reward models 및 Q value-based PRMs와 비교하여 PPM의 효과를 verification하기 위해 추가로 포괄적인 실험을 수행합니다. 마지막으로, 우리는 내재적인 self-reflection 능력과 정리가 적용된 중간 단계에 대한 PPM의 선호도를 포함하여 rStar-Math deep thinking의 주요 결과를 제시합니다.

핵심: rStar-Math, 작지만 강력한 SLM으로 수학 reasoning의 한계를 돌파하다!

기존 LLM의 문제점:

System 1 사고 방식: LLMs가 단일 inference로 수학 문제의 답을 바로 내는 방식은 빠르지만 오류가 잦음 (특히 복잡한 문제에서).
Test-time compute scaling: System 2 사고 방식을 도입했지만, 여전히 고품질의 policy model과 reward model을 training하는 데 어려움이 있음.
데이터 부족: 수학 reasoning을 위한 고품질의, 특히 단계별 feedback이 포함된 data는 매우 희소함.
기존 data synthesis의 한계: distillation 기반 접근 방식은 teacher model의 성능을 넘어서기 어려우며, 수학 reasoning을 위한 PRM training은 여전히 미해결 과제로 남아있음.

rStar-Math의 핵심 아이디어 및 차별점:

작지만 강력한 SLM 활용: OpenAI o1과 같은 거대 모델에 의존하지 않고, **작은 SLM(7B 규모)**을 활용하여 비용 효율적으로 수학 reasoning 능력을 극대화함.
System 2 + MCTS: System 2 사고 방식에 Monte Carlo Tree Search (MCTS) 를 결합하여 "deep thinking"을 구현. SLM이 policy model과 reward model 역할을 모두 수행하여 test-time search를 진행.
Self-Evolution: 반복적인 self-evolution 과정을 통해 policy model과 reward model (PPM)을 점진적으로 개선하고, 이를 통해 고품질 training data를 자체 생성.

rStar-Math의 3가지 핵심 혁신:

Code-augmented CoT data synthesis:
- MCTS rollouts를 통해 단계별로 verification된 reasoning trajectories를 생성.
- Python 코드 실행을 통해 각 단계의 정확성을 검증하고, 오류를 줄임.
- 자동 Q-value 할당: 각 단계의 기여도에 따라 Q-value를 할당하여, 정답으로 이어지는 경로에 있는 단계를 더 높은 품질로 간주.
Process Preference Model (PPM):
- Preference pairs 기반 학습: Q-value를 직접 reward label로 사용하는 대신, Q-value 기반 preference pairs를 구성하여 pairwise ranking loss로 PPM을 학습.
- 정확한 reward 예측: 단계별 reward label을 더 정확하게 예측하여, noisy한 Q-value의 한계를 극복.
4단계 Self-Evolution Recipe:
- 점진적 개선: 각 라운드마다 (1) 더 강력한 policy SLM, (2) 더 신뢰할 수 있는 PPM, (3) PPM-augmented MCTS를 통한 더 나은 reasoning trajectories, (4) 더 어려운 문제를 위한 data coverage 향상을 달성.

주요 성과:

MATH benchmark: Qwen2.5-Math-7B를 58.8%에서 90.0%로, Phi3-mini-3.8B를 41.4%에서 86.4%로 향상시켜, o1-preview를 능가.
AIME 2024: 평균 53.3% (8/15)의 문제 해결, o1-preview 및 다른 open-source LLMs를 능가.
Self-reflection 능력: rStar-Math는 내재적인 self-reflection 능력을 보임.
PPM의 선호도: PPM은 정리가 적용된 중간 단계를 선호하는 경향을 보임.

결론: rStar-Math는 SLM과 MCTS, self-evolution을 결합하여 수학 reasoning 분야에서 새로운 가능성을 제시합니다. 특히, code-augmented CoT data synthesis와 PPM은 고품질 data 생성 및 정확한 reward 예측에 핵심적인 역할을 합니다. 이를 통해, 작은 모델로도 거대 모델에 필적하거나 능가하는 성능을 달성할 수 있음을 보여줍니다.

2 Related Works

Math Data Synthesis: LLM 수학 reasoning의 발전은 주로 고품질 CoT data를 선별하는 데 의존해 왔으며, 대부분의 주요 접근 방식은 GPT-4와 같은 frontier models를 사용한 GPT-distilled 방식입니다. 주목할 만한 연구로는 NuminaMath와 MetaMath가 있습니다. 효과적이긴 하지만, 이는 reasoning을 teacher LLM의 능력으로 제한합니다. teacher LLM이 해결할 수 없는 어려운 문제는 training set에서 제외됩니다. 해결 가능한 문제조차도 오류가 발생하기 쉬운 중간 단계를 포함할 수 있으며, 이는 탐지하기 어렵습니다. rejection sampling 방법이 data 품질을 향상시킬 수 있지만, 정확한 중간 단계를 보장하지는 않습니다. 결과적으로, CoT data를 확장하는 것은 수익이 감소하며, 이득이 거의 포화 상태에 이릅니다. 예를 들어, OpenMathInstruct-2는 dataset 크기가 8배 증가했음에도 불구하고 MATH에서 3.9%의 향상만 보였습니다.

Scaling Test-time Compute: 새로운 scaling 법칙을 도입하여 LLMs가 여러 샘플을 생성하고 reward models를 사용하여 최상의 솔루션을 선택함으로써 성능을 향상시킬 수 있도록 했습니다. 무작위 샘플링 및 MCTS와 같은 tree-search 방법을 포함한 다양한 test-time search 방법이 제안되었습니다. 그러나 test-time computation을 확장하기 위한 open-source 방법은 종종 policy LLM 또는 reward model의 한계로 인해 수학 reasoning에서 제한적인 이득을 보였습니다. rStar-Math는 policy LLM과 reward model을 반복적으로 발전시켜 OpenAI o1에 필적하는 System 2 수학 reasoning 성능을 달성함으로써 이를 해결합니다.

Reward Models: 효과적인 System 2 reasoning에 중요하지만 획득하기 어렵습니다. 최근 연구에는 verification을 위한 LLM-as-a-Judge와 Outcome Reward Model 및 Process Reward Model (PRM)과 같은 특수 reward models가 포함됩니다. PRMs는 복잡한 reasoning을 위한 유망한 dense, step-level reward signals를 제공하지만, step-level annotations를 수집하는 것은 여전히 장애물입니다. Kang et al.과 Wang et al.은 PRM800k와 같은 비용이 많이 드는 인간 주석 datasets에 의존하는 반면, 최근 접근 방식은 Monte Carlo Sampling 또는 MCTS를 통한 자동 주석을 탐구합니다. 그러나 정확한 reward scores를 생성하는 데 어려움을 겪어 성능 향상이 제한됩니다. rStar-Math는 정확한 step-level reward score 주석의 필요성을 없애는 새로운 process preference reward (PPM)을 도입합니다.

핵심: 기존 연구의 한계를 극복하고, rStar-Math가 어떻게 차별화되는가?

1. Math Data Synthesis:

주류는 GPT-distilled: 대부분의 선행 연구들은 고품질 CoT data를 얻기 위해 GPT-4와 같은 대형 모델에 의존 (e.g., NuminaMath, MetaMath).
Teacher Model의 한계: teacher 모델의 능력에 갇혀, 어려운 문제는 학습에서 제외되고, 쉬운 문제도 오류가 있는 중간 단계를 포함할 가능성이 높음.
Rejection sampling의 불완전함: 데이터 품질을 개선하지만, 중간 단계의 정확성을 보장하지 못함.
CoT data 확장의 한계: 데이터를 늘려도 성능 향상이 미미 (e.g., OpenMathInstruct-2는 데이터셋 8배 증가에도 MATH 성능 3.9% 향상에 그침).
rStar-Math의 차별점:
- Distillation에 의존하지 않고, SLM 자체의 능력으로 고품질 데이터를 생성.
- Code-augmented CoT와 MCTS를 통해 단계별로 검증된 정확한 reasoning trajectories를 확보.

2. Scaling Test-time Compute:

새로운 scaling 법칙: 다양한 샘플 생성 및 reward model을 활용한 최적 솔루션 선택으로 성능 향상 가능.
다양한 test-time search 방법 등장: 무작위 샘플링, MCTS 등의 tree-search 방법론이 제안됨.
Open-source 방법의 한계: 수학 reasoning 분야에서 뚜렷한 성능 향상을 보이지 못함 (policy LLM 또는 reward model의 한계).
rStar-Math의 차별점:
- Policy LLM과 reward model을 반복적으로 개선하여, 실질적인 System 2 수학 reasoning 성능 향상을 달성.
- OpenAI o1 수준의 성능을 보여줌.

3. Reward Models:

System 2 reasoning의 핵심 요소: 정교한 reward model은 필수적.
LLM-as-a-Judge, ORM, PRM 등의 연구가 진행 중.
PRM의 잠재력과 한계: 단계별 reward signals를 제공하지만, step-level annotations 수집이 어려움.
기존 PRM 연구의 한계:
- PRM800k와 같은 인간 주석 데이터셋에 의존하거나 (비용 문제).
- MCTS 등을 통한 자동 주석은 정확한 reward score를 생성하지 못함.
rStar-Math의 차별점:
- Process Preference Model (PPM): 정확한 step-level reward score 주석 없이도, preference pairs를 학습하여 효과적인 reward signals를 제공.
- PPM을 통해 정확한 reward 예측 및 더 나은 reasoning trajectories 생성이 가능.

결론: rStar-Math는 기존 연구들의 한계를 극복하고, 특히 data synthesis, test-time compute scaling, reward model 측면에서 혁신을 이루었습니다. 이를 통해, SLM만으로도 대형 모델에 필적하는 수학 reasoning 능력을 달성할 수 있음을 보여줍니다. 특히, code-augmented CoT data synthesis와 PPM은 rStar-Math의 핵심 차별점이라고 할 수 있습니다.

3 Methodology

3.1 Design Choices

효과적인 System 2 Reasoning을 위한 MCTS: 우리는 수학 policy SLM과 process reward model (PRM)을 training하고, System 2 deep thinking을 위해 이 둘을 Monte Carlo Tree Search (MCTS) 내에 통합하는 것을 목표로 합니다. MCTS가 선택된 이유는 두 가지 주요 이유 때문입니다. 첫째, 복잡한 수학 문제를 더 간단한 단일 단계 generation 작업으로 분해하여, 한 번의 inference로 전체 솔루션을 생성해야 하는 Best-of-N 또는 self-consistency와 같은 다른 System 2 방법에 비해 policy SLM에 대한 난이도를 줄입니다. 둘째, MCTS의 단계별 generation은 자연스럽게 두 models에 대한 단계별 training data를 생성합니다. 표준 MCTS rollout은 최종 정답에 대한 기여도를 기반으로 각 단계에 자동으로 Q-value를 할당하여 process reward model training을 위한 인간 생성 단계별 주석의 필요성을 없애줍니다.

이상적으로는 GPT-4와 같은 고급 LLMs가 MCTS 내에 통합되어 training data를 생성할 수 있습니다. 그러나 이 접근 방식은 두 가지 주요 과제에 직면합니다. 첫째, 이러한 강력한 models조차도 Olympiad 수준의 수학과 같은 어려운 문제를 일관되게 해결하는 데 어려움을 겪습니다. 결과적으로, 생성된 training data는 주로 더 간단하고 해결 가능한 문제로 구성되어 다양성과 품질이 제한됩니다. 둘째, 단계별 Q-values 주석은 광범위한 MCTS rollouts를 요구합니다. 불충분한 트리 탐색은 차선의 단계를 과대 평가하는 것과 같은 잘못된 Q-value 할당으로 이어질 수 있습니다. 각 rollout이 여러 번의 단일 단계 generation을 포함하고 이러한 models가 계산적으로 비싸다는 점을 감안할 때, rollouts를 늘리면 inference 비용이 크게 증가합니다.

개요: 이를 위해, 우리는 더 높은 품질의 training data를 생성하기 위해 두 개의 7B SLMs (policy SLM과 PRM)를 사용하는 것을 탐구합니다. 이들의 작은 크기는 접근 가능한 하드웨어(예: 4x40GB A100 GPUs)에서 광범위한 MCTS rollouts를 허용합니다. 그러나 자체 생성 data는 약한 능력으로 인해 SLMs에 더 큰 과제를 제시합니다. SLMs는 정답을 생성하는 데 자주 실패하고, 정답이 맞더라도 중간 단계가 종종 결함이 있거나 품질이 좋지 않습니다. 또한, SLMs는 GPT-4와 같은 고급 models에 비해 더 적은 수의 어려운 문제를 해결합니다.

이 섹션에서는 그림 1에 설명된 우리의 방법론을 소개합니다. 오류와 저품질 중간 단계를 완화하기 위해, 우리는 code-augmented CoT 합성 방법을 도입합니다. 이 방법은 광범위한 MCTS rollouts를 수행하여 Q-values로 주석이 달린 단계별로 verification된 reasoning trajectories를 생성합니다. 어려운 문제에 대한 SLM 성능을 더욱 향상시키기 위해, 우리는 4 라운드의 self-evolution recipe를 도입합니다. 각 라운드에서 policy SLM과 reward model은 모두 더 강력한 버전으로 업데이트되어 점진적으로 더 어려운 문제를 해결하고 더 높은 품질의 training data를 생성합니다. 마지막으로, 우리는 단계별 정확한 reward 주석의 필요성을 없애는 새로운 process reward model training 접근 방식을 제시하여 더 효과적인 process preference model (PPM)을 생성합니다.

3.2 Step-by-Step Verified Reasoning Trajectory

단계별 Q-value 주석이 있는 단계별로 verification된 reasoning trajectories를 생성하는 방법에 대해 소개합니다. 문제 x와 policy model M이 주어지면, 우리는 단계별 솔루션 탐색을 위한 search tree를 점진적으로 구성하기 위해 표준 MCTS를 실행합니다. 그림 1(a)와 같이, 루트 노드는 질문 x를 나타내고, 자식 노드는 M에 의해 생성된 중간 단계 s에 해당합니다. 최종 노드 sd에서 끝나는 루트-리프 경로는 trajectory t = x ⊕ s1 ⊕ s2 ⊕ ... ⊕ sd를 형성하고, 각 단계 si는 Q-value Q(si)가 할당됩니다. search tree T에서, 우리는 솔루션 trajectories T = {t1, t2, ..., tn} (n ≥ 1)을 추출합니다. 우리의 목표는 training set를 구성하기 위해 T에서 고품질 trajectories를 선택하는 것입니다. 이를 위해, 우리는 저품질 generation을 걸러내고 Q-value 정확도의 신뢰성을 향상시키기 위해 광범위한 rollouts를 수행하는 code-augmented CoT 합성 방법을 도입합니다.

Code-augmented CoT Generation: 이전 MCTS 접근 방식은 주로 자연어 (NL) CoTs를 생성했습니다. 그러나 LLMs는 종종 hallucination으로 인해 부정확하거나 관련 없는 단계를 생성하지만 우연히 정답에 도달하는 경우가 많습니다. 이러한 결함이 있는 단계는 탐지하고 제거하기 어렵습니다. 이를 해결하기 위해, 우리는 새로운 code execution augmented CoT를 제안합니다. 그림 2와 같이, policy model은 한 단계 NL CoT와 해당 Python 코드를 생성하며, 여기서 NL CoT는 Python 주석으로 임베드됩니다. Python 코드가 성공적으로 실행된 generation만 유효한 후보로 유지됩니다.

구체적으로, 초기 루트 노드 x에서 시작하여, 우리는 selection, expansion, rollout 및 back-propagation을 통해 여러 번의 MCTS 반복을 수행합니다. 단계 i에서, 우리는 최신 reasoning trajectory x ⊕ s1 ⊕ s2 ⊕ ... ⊕ si-1을 현재 상태로 수집합니다. 이 상태를 기반으로, 우리는 policy model에 n개의 후보 si,0, ..., si,n-1을 생성하도록 프롬프트합니다(부록 A.3 참조). 그런 다음 Python 코드 실행을 사용하여 유효한 노드를 필터링합니다. 그림 2와 같이, 각 generation si,j는 이전 단계의 모든 코드와 연결되어 s1 ⊕ s2 ⊕ ... ⊕ si-1 ⊕ si,j를 형성합니다. 성공적으로 실행되는 후보는 유효한 노드로 유지되고 PPM에 의해 점수가 매겨져 Q-value q(si)가 할당됩니다. 그런 다음, 우리는 잘 알려진 Upper Confidence bounds for Trees (UCT)를 사용하여 n개의 후보 중에서 가장 좋은 노드를 선택합니다. 이 선택 과정은 수학적으로 다음과 같이 표현됩니다.

UCT(s) = Q(s) + c * sqrt(ln(Nparent(s)) / N(s)); 여기서 Q(s) = q(s) / N(s) (식 1)

여기서 N(s)는 노드 s의 방문 횟수를 나타내고, Nparent(s)는 s의 부모 노드의 방문 횟수입니다. 예측된 reward q(s)는 PPM에 의해 제공되며 back-propagation을 통해 업데이트됩니다. c는 exploitation과 exploration의 균형을 맞추는 상수입니다.

Q-value 주석을 위한 광범위한 Rollouts: 식 1의 정확한 Q-value Q(s) 주석은 MCTS 노드 선택을 올바른 문제 해결 경로로 안내하고 trajectories 내에서 고품질 단계를 식별하는 데 중요합니다. Q-value 신뢰성을 향상시키기 위해, 우리는 Go 플레이어로부터 영감을 얻습니다. 그들은 게임 결과에 따라 각 수의 reward를 소급적으로 평가합니다. 초기 추정치는 부정확할 수 있지만, 반복된 게임 플레이는 시간이 지남에 따라 이러한 평가를 개선합니다. 마찬가지로, 각 rollout에서 우리는 정답 달성에 대한 기여도를 기반으로 각 단계의 Q-value를 업데이트합니다. 광범위한 MCTS rollouts 후, 정답으로 일관되게 이어지는 단계는 더 높은 Q-values를 달성하고, 가끔 성공하는 단계는 중간 Q-values를 생성하며, 일관되게 부정확한 단계는 낮은 Q-values를 받습니다.

구체적으로, 우리는 이러한 단계별 Q-values를 얻기 위해 두 가지 self-annotation 방법을 도입합니다. 그림 1(c)는 4 라운드의 self-evolution에서 자세한 설정을 보여줍니다.

Terminal-guided annotation: 첫 두 라운드 동안, PPM을 사용할 수 없거나 충분히 정확하지 않을 때, 우리는 terminal-guided annotation을 사용합니다. 공식적으로, k번째 rollout에서 back-propagation 후 단계 si에 대한 q value를 q(si)k로 나타냅니다. AlphaGo와 rStar를 따라, 우리는 최종 정답에 대한 기여도를 기반으로 각 중간 노드에 점수를 매깁니다.

q(si)k = q(si)k-1 + q(sd)k (식 2)

여기서 첫 번째 rollout에서 초기 q value q(si)0 = 0입니다. 이 단계가 정답으로 자주 이어지면 q value가 증가하고, 그렇지 않으면 감소합니다. 최종 노드는 그림 1과 같이 정답의 경우 q(sd) = 1, 그렇지 않으면 q(sd) = -1로 점수가 매겨집니다.

PRM-augmented annotation: 세 번째 라운드부터, 우리는 더 효과적인 generation을 위해 각 단계에 점수를 매기는 데 PPM을 사용합니다. 의미 있는 q value를 위해 여러 번의 rollouts가 필요한 terminal-guided annotation과 비교할 때, PPM은 0이 아닌 초기 q value를 직접 예측합니다. PPM-augmented MCTS는 또한 policy model이 더 높은 품질의 단계를 생성하도록 도와 정답 경로로 솔루션을 안내합니다. 공식적으로, 단계 si에 대해, PPM은 부분 trajectory를 기반으로 초기 q(si)0 값을 예측합니다.

q(si)0 = PPM(x ⊕ s1 ⊕ s2 ⊕ ... ⊕ si-1 ⊕ si) (식 3)

이 q value는 MCTS back-propagation에서 식 2를 통해 최종 노드의 q(sd) 값을 기반으로 업데이트됩니다. 최종 노드 sd의 경우, training data 생성 중에 PRM을 사용하여 점수를 매기지 않습니다. 대신, terminal-guided rewarding과 같이 ground truth labels를 기반으로 더 정확한 점수를 할당합니다.

3.3 Process Preference Model

단계별 세분화된 reward signals를 제공하는 process reward models는 어려운 수학 문제를 해결하는 데 매우 바람직합니다. 그러나 고품질 단계별 training data를 얻는 것은 여전히 미해결 과제로 남아 있습니다. 기존 방법은 각 단계에 점수를 할당하기 위해 인간 주석 또는 MCTS 생성 점수에 의존합니다. 그런 다음 이러한 점수는 training 목표로 사용되며, MSE 손실 또는 pointwise 손실과 같은 방법이 예측 점수와 레이블이 지정된 점수 간의 차이를 최소화하는 데 사용됩니다. 결과적으로, 이러한 주석이 달린 단계별 reward scores의 정밀도가 결과 process reward model의 효과를 직접 결정합니다.

불행히도, 정확한 단계별 점수 매기기는 여전히 미해결 과제입니다. 우리의 광범위한 MCTS rollouts가 Q-values의 신뢰성을 향상시키지만, 세분화된 단계 품질을 정확하게 평가하는 것은 큰 장애물입니다. 예를 들어, 일련의 정확한 단계 중에서 가장 좋은 단계, 두 번째로 좋은 단계, 평균 단계를 순위를 매긴 다음 정확한 점수를 할당하는 것은 어렵습니다. 마찬가지로, 부정확한 단계 중에서 최악의 단계와 중간 정도로 나쁜 단계를 구별하는 것도 유사한 과제를 제기합니다. 전문가의 인간 주석조차도 특히 대규모로 일관성을 유지하기 어려워 training labels에 고유한 노이즈가 발생합니다.

우리는 단계별 positive-negative preference pairs를 구성하여 process preference model (PPM)을 training하는 새로운 training 방법을 도입합니다. 그림 1(b)와 같이, Q-values를 직접 reward labels로 사용하는 대신, preference pair 구성을 위해 MCTS 트리에서 단계를 선택하는 데 사용합니다. 각 단계에 대해, 우리는 Q-values가 가장 높은 두 개의 후보를 긍정적인 단계로 선택하고 가장 낮은 두 개의 후보를 부정적인 단계로 선택합니다. 결정적으로, 선택된 긍정적인 단계는 정답으로 이어져야 하는 반면, 부정적인 단계는 오답으로 이어져야 합니다. 중간 단계(정답 단계를 제외하고)의 경우, 긍정 및 부정 쌍은 동일한 선행 단계를 공유합니다. 동일한 reasoning trajectories가 거의 다른 정답을 생성하지 않는 정답 단계의 경우, 이 제한을 완화합니다. 우리는 평균 Q-values가 가장 높은 두 개의 정답 trajectories를 긍정적인 예로 선택하고 평균 Q-values가 가장 낮은 두 개의 오답 trajectories를 부정적인 예로 선택합니다. Ouyang et al. (2022)에 따라, 우리는 pairwise ranking loss와 함께 표준 Bradley-Terry 모델을 사용하여 손실 함수를 정의합니다.

Lppm(θ) = - 1 / (2 * 2) * E(x, y_pos_i, y_neg_i ∈ D) [log(σ(rθ(x, y_pos_i) - rθ(x, y_neg_i))))] (식 4)

i가 정답 단계가 아닐 때, y_pos_i = s1 ⊕ ... ⊕ si-1 ⊕ s_pos_i; y_neg_i = s1 ⊕ ... ⊕ si-1 ⊕ s_neg_i (식 5)

여기서, rθ(x, yi)는 PPM의 출력을 나타내며, x는 문제이고 y는 첫 번째 단계에서 i번째 단계까지의 trajectory입니다.

3.4 Self-Evolved Deep Thinking

3.4.1 Training with Step-by-Step Verified Reasoning Trajectory

수학 문제 수집: 우리는 주로 NuminaMath와 MetaMath에서 정답 ground-truth labels가 있는 747k개의 수학 문제로 구성된 대규모 dataset을 수집합니다. 특히, NuminaMath의 경시대회 수준 문제(예: Olympiads 및 AIME/AMC)만 포함됩니다. 이는 초등학교 수준의 문제가 LLM의 복잡한 수학 reasoning을 크게 향상시키지 않기 때문입니다. 제한된 경시대회 수준 문제를 보강하기 위해, 우리는 Li et al. (2024)을 따라 GPT-4를 사용하여 7.5k MATH train set과 3.6k AMC-AIME training split의 시드 문제를 기반으로 새로운 문제를 합성합니다. 그러나 GPT-4는 종종 해결할 수 없는 문제나 어려운 시드 문제에 대한 잘못된 솔루션을 생성했습니다. 이를 필터링하기 위해, 우리는 문제당 10개의 솔루션을 생성하도록 GPT-4에 프롬프트하고 최소 3개의 일관된 솔루션이 있는 솔루션만 유지합니다.

Reasoning Trajectories 수집: 747k 수학 dataset의 원래 솔루션을 사용하는 대신, 우리는 더 높은 품질의 단계별로 verification된 reasoning trajectories를 생성하기 위해 광범위한 MCTS rollouts(섹션 3.2)를 수행합니다. 각 self-evolution 라운드에서, 우리는 수학 문제당 16개의 rollouts를 수행하여 16개의 reasoning trajectories를 생성합니다. 그런 다음 문제는 생성된 trajectories의 정답 비율에 따라 난이도별로 분류됩니다. 쉬움(모든 솔루션이 정답), 중간(정답과 오답이 섞여 있음), 어려움(모든 솔루션이 오답). 정답 trajectories가 없는 어려운 문제의 경우, 16개의 rollouts로 추가 MCTS가 수행됩니다. 그 후, 모든 단계별 trajectories와 주석이 달린 Q-values가 수집되고 필터링되어 policy SLM과 process preference model을 training합니다.

Policy SLM의 Supervised Fine-tuning: 광범위한 실험을 통해, 우리는 고품질 reasoning trajectories를 선택하는 것이 frontier 수학 LLM을 미세 조정하는 데 핵심이라는 것을 발견했습니다. GPT-distillation 및 Best-of-N과 같은 방법은 저품질 또는 오류가 있는 중간 단계를 포함할 수 있지만, 더 효과적인 접근 방식은 trajectory의 모든 단계가 고품질임을 보장합니다. 이를 달성하기 위해, 우리는 단계별 Q-values를 사용하여 MCTS rollouts에서 최적의 trajectories를 선택합니다. 구체적으로, 각 수학 문제에 대해, 정답으로 이어지는 trajectories 중에서 평균 Q-values가 가장 높은 상위 2개의 trajectories를 SFT training data로 선택합니다.

PPM Training: PPM은 미세 조정된 policy model에서 초기화되며, 다음 토큰 예측 헤드는 출력을 [-1, 1] 범위로 제한하기 위해 선형 레이어와 tanh 함수로 구성된 스칼라 값 헤드로 대체됩니다. 우리는 모든 솔루션 trajectories가 완전히 정답 또는 오답인 수학 문제를 필터링합니다. 결과가 혼합된 문제의 경우, Q-values를 기반으로 각 단계에 대해 두 개의 긍정적인 예와 두 개의 부정적인 예를 선택하며, 이는 training data에 대한 preference pairs로 사용됩니다.

3.4.2 Recipe for Self-Evolution

SLMs의 약한 능력으로 인해, 우리는 더 높은 품질의 data를 점진적으로 생성하고 더 어려운 수학 문제로 training set를 확장하기 위해 4 라운드의 MCTS deep thinking을 수행합니다. 각 라운드는 MCTS를 사용하여 단계별로 verification된 reasoning trajectories를 생성하며, 이는 새로운 policy SLM과 PPM을 training하는 데 사용됩니다. 그런 다음 새 models는 다음 라운드에서 더 높은 품질의 training data를 생성하는 데 적용됩니다. 그림 1(c)와 표 2는 각 라운드에서 data 생성에 사용된 models와 훈련된 policy model 및 PPM의 식별자를 자세히 설명합니다. 다음으로, 각 라운드에서 목표로 하는 세부 사항과 구체적인 개선 사항을 간략하게 설명합니다.

1 라운드: 초기 강력한 policy SLM-r1 부트스트래핑. SLMs가 합리적으로 좋은 training data를 자체 생성할 수 있도록, 우리는 초기 강력한 policy model인 SLM-r1을 미세 조정하기 위해 부트스트랩 라운드를 수행합니다. 표 2와 같이, 우리는 SFT data를 수집하기 위해 DeepSeek-Coder-V2-Instruct (236B)로 MCTS를 실행합니다. 이 라운드에서는 사용 가능한 reward model이 없으므로 Q-values에 terminal-guided annotation을 사용하고 효율성을 위해 MCTS를 8개의 rollouts로 제한합니다. 정답 솔루션의 경우, 평균 Q-values가 가장 높은 상위 2개의 trajectories가 SFT data로 선택됩니다. 우리는 또한 PPM-r1을 training하지만, 제한된 rollouts는 신뢰할 수 없는 Q-values를 생성하여 PPM-r1의 효과에 영향을 미

핵심: rStar-Math는 어떻게 SLM으로 고품질 수학 reasoning data를 생성하고, 이를 통해 강력한 수학 reasoning 능력을 달성하는가?

3.1 Design Choices:

MCTS for System 2 Reasoning:
- 장점: 복잡한 문제를 단계별로 분해하여 SLM의 부담을 줄이고, 자연스럽게 단계별 training data를 얻을 수 있음.
- 기존 LLM (e.g., GPT-4) + MCTS의 한계: 어려운 문제 해결에 여전히 어려움을 겪고, 데이터 품질과 다양성이 제한됨. 또한, 정확한 Q-value 주석을 위한 광범위한 MCTS rollouts는 계산 비용이 매우 큼.
7B SLMs + MCTS + Self-Evolution:
- 접근 가능한 하드웨어에서 광범위한 MCTS rollouts를 가능하게 함.
- Self-evolution을 통해 SLM의 약한 능력을 극복하고, data 품질과 다양성을 개선.

3.2 Step-by-Step Verified Reasoning Trajectory:

Code-augmented CoT Generation:
- 문제점: 기존의 NL CoT는 hallucination으로 인해 오류가 있는 단계를 포함할 가능성이 높음.
- 해결책: 각 단계마다 NL CoT와 Python 코드를 함께 생성하고, 코드 실행을 통해 단계의 정확성을 검증.
- 장점: 오류를 줄이고, 더 신뢰할 수 있는 reasoning trajectories를 생성.
Extensive Rollouts for Q-value Annotation:
- 정확한 Q-value의 중요성: MCTS 노드 선택과 고품질 단계 식별에 핵심.
- 아이디어: Go 플레이어처럼, 각 단계의 기여도를 기반으로 Q-value를 반복적으로 업데이트.
- 구체적인 방법:
  - Terminal-guided annotation (초기 단계): 최종 결과 (정답/오답) 에 따라 Q-value를 업데이트 (AlphaGo 방식).
  - PRM-augmented annotation (후기 단계): 학습된 PPM을 사용하여 초기 Q-value를 예측하고, 이를 terminal 결과와 결합하여 업데이트.

3.3 Process Preference Model (PPM):

기존 PRM의 문제점: 정확한 단계별 reward score 주석이 필요하지만, 이는 매우 어렵고 noisy함.
PPM의 핵심 아이디어: 정확한 score 대신, 단계별 preference pairs를 학습.
Preference Pair 생성:
- MCTS 트리에서 Q-value를 기반으로 각 단계마다 두 개의 positive steps (높은 Q-value, 정답으로 이어짐) 와 두 개의 negative steps (낮은 Q-value, 오답으로 이어짐) 를 선택.
- Pairwise ranking loss를 사용하여 PPM을 학습.
장점: 정확한 reward score 주석 없이도, 효과적인 reward signals를 제공.

3.4 Self-Evolved Deep Thinking:

4단계 Self-Evolution Recipe:
1. Bootstrapping (DeepSeek-Coder-V2-Instruct (236B) 활용): 초기 policy SLM (SLM-r1) 훈련을 위한 데이터 생성. Terminal-guided annotation 사용 (제한된 rollout).
2. Reliable PPM (PPM-r2) 훈련: SLM-r1을 사용하여 광범위한 MCTS rollouts를 수행하고, 이를 통해 더 정확한 Q-value와 PPM-r2를 훈련.
3. PPM-augmented MCTS: PPM-r2를 사용하여 MCTS를 개선하고, 더 높은 품질의 데이터와 더 어려운 문제 (Olympiad 수준 포함) 를 생성. 이를 통해 SLM-r3와 PPM-r3를 훈련.
4. Challenging Math Problems 해결: 여전히 해결되지 않은 문제들에 대해 추가적인 MCTS rollouts (64, 128 등) 를 수행하고, 다양한 random seeds로 MCTS 트리 확장을 시도하여 Olympiad 문제 해결률을 높임.
핵심: 각 라운드마다 더 강력한 policy SLM과 PPM을 훈련하고, 이를 통해 생성된 더 나은 데이터로 다음 라운드를 진행하는 반복적인 개선 과정.
747k 수학 문제 중 90.25%를 training set에 포함: 남은 문제들은 대부분 synthetic 문제이며, 그 중 상당수는 부정확한 정답 레이블을 가지고 있는 것으로 확인됨.

결론: rStar-Math는 code-augmented CoT, PPM, self-evolution이라는 세 가지 핵심 요소를 통해 SLM으로 고품질 수학 reasoning data를 생성하고, 이를 통해 강력한 수학 reasoning 능력을 달성합니다. 특히, 단계별 검증, preference 기반 reward 학습, 반복적인 개선 전략은 rStar-Math의 핵심 차별점이라고 할 수 있습니다.

조금 더 자세히 단계별로 설명드리겠습니다.

PPM-augmented MCTS 수행:
- 이전 라운드에서 학습된 SLM과 PPM을 사용하여 MCTS를 수행합니다.
- PPM은 Rollout 단계에서 사용되어, 더 유망한 Trajectories를 선택하도록 돕습니다.
새로운 데이터셋 생성:
- MCTS를 통해 새로운 Trajectories와 각 노드에 대한 Q-value를 생성합니다.
- 이 데이터는 이전 라운드의 데이터보다 더 높은 품질을 갖게 됩니다. (PPM의 도움으로 더 좋은 경로를 탐색했기 때문)
데이터 필터링 및 선별:
- Code-augmented CoT를 통해 각 단계(자식 노드)의 유효성을 검증합니다.
- Q-value를 기반으로 좋은 Trajectories를 선별합니다.
PPM과 SLM 재학습:
- 새롭게 생성된 데이터셋을 사용하여 PPM과 SLM을 다시 학습합니다.
- PPM은 새롭게 생성된 Trajectories 간의 Preference Pairs를 통해 더 정교하게 학습됩니다.
- SLM은 새롭게 생성된, 더 높은 품질의 Trajectories를 통해 더 정확하게 수학 문제를 해결하도록 학습됩니다.
반복 (Self-Evolution):
- 더 정교하게 학습된 PPM과 SLM을 사용하여 다음 라운드의 MCTS를 수행합니다.
- 이 과정을 총 4 라운드에 걸쳐 반복합니다.

결과적으로, 이 반복적인 과정을 통해 PPM과 SLM은 점점 더 발전하게 되고, 더 높은 품질의 데이터를 생성하고, 더 정확하게 수학 문제를 해결할 수 있게 됩니다.

즉, "MCTS -> 데이터 생성 -> PPM/SLM 학습 -> 더 나은 MCTS -> 더 나은 데이터 생성 -> 더 나은 PPM/SLM 학습 ..." 의 선순환 구조를 통해 Self-Evolution이 이루어지는 것입니다.