논문리뷰

LLM : 논문리뷰 : BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

AI바라기 2025. 2. 7. 10:51

Overall Summary:

BoostStep 은 LLM 기반 수학 문제 해결 능력 향상을 위해 step-grained ICL 과 novel 'first-try' strategy 를 결합한 새로운 방법론을 제시한다. 기존 problem-level ICL 의 granularity mismatch 문제를 해결하고, 각 reasoning step 에 highly related ICL examples 를 제공함으로써 모델의 reasoning quality 를 획기적으로 향상시킨다. 다양한 실험을 통해 standalone reasoning 및 tree search 기반 방법론 모두에서 성능 향상을 입증했으며, 특히 문제 유사성이 낮은 경우에도 robust 한 성능을 보여준다. BoostStep 은 향후 LLM 의 수학적 reasoning capability 발전 및 다양한 응용 분야 확장에 기여할 것으로 기대된다.

쉬운 설명:

수학 문제를 풀 때, 어려운 문제 하나를 통째로 보고 끙끙대는 대신, 문제를 작은 단계로 쪼개서 각 단계마다 필요한 힌트를 딱 맞춰서 주는 똑똑한 과외 선생님 같은 방법이에요. 예를 들어, "이차방정식 근의 공식을 써야 할 것 같은데..." 라고 혼잣말하면, 선생님이 "그래! 근의 공식 쓰는 비슷한 문제 예시를 보여줄게!" 하면서 딱 맞는 예시를 보여주는 거죠. BoostStep 은 마치 이런 과외 선생님처럼, LLM 이 수학 문제를 풀 때 각 단계마다 필요한 힌트를 'first-try' 라는 똑똑한 방법으로 찾아서 제공해 줌으로써, 문제 해결 능력을 크게 높여주는 기술입니다.

BoostStep 논문 학습 노트

Purpose of the Paper:

기존 LLM 기반 수학 문제 해결 연구는 divide-and-conquer 파이프라인과 in-context learning (ICL) 예시 활용에 집중했으나, ICL 예시의 granularity mismatch 와 그로 인한 negative-effect noise 문제로 인해 성능 향상에 제한적이었다.
특히, LLM은 문제 분할 (divide) 능력은 뛰어나지만, 분할된 각 단계 내에서의 reasoning (conquer) 정확도가 떨어지는 문제점을 지적.
기존 question-grained ICL 방식은 특정 reasoning step 에 필요한 관련 예시를 제공하지 못하고, 오히려 irrelevant step 으로 인해 reasoning 방해 가능성을 제기.
본 논문은 step-grained ICL 을 통해 각 단계별 reasoning quality 향상에 초점을 맞추고, BoostStep 방법론을 제시하여 이러한 문제점을 해결하고자 함.

Key Contributions:

Novel 'first-try' strategy 기반 Step-grained ICL:
- 기존 problem-level ICL 의 granularity mismatch 문제 해결을 위해 step-level granularity 로 ICL 접근 방식 변경.
- 각 reasoning step 진행 중 'first-try' 를 통해 모델이 현재 필요한 reasoning 파악 후, step-level example problem bank 에서 highly related ICL examples 검색 및 제공.
- 이를 통해 irrelevant step 으로 인한 distraction 을 방지하고, guidance 효과를 향상시킴.
- Novelty: reasoning 과정 중 실시간으로 필요한 step-level 예시를 제공하는 'first-try' strategy 도입 및 step-grained ICL 적용.
Step-level Example Problem Bank 구축:
- 기존 grammatical separation 방식 대신 reasoning content 기반 step segmentation 을 통해 example problem bank 구축.
- question bank 내 step 들이 실제 reasoning step 과 일관성을 유지하도록 하여 guidance 효과를 높임.
- Novelty: reasoning content 기반 step segmentation 을 통해 더욱 효과적인 step-level ICL 을 위한 데이터 구축 방식 제시.
Tree Search 방법론과의 Seamless Integration:
- BoostStep 은 standalone reasoning 성능 향상뿐만 아니라, step-level tree search 방법론과 plug-and-play 방식으로 통합 가능함을 제시.
- candidate generation 및 decision-making 과정 모두에서 BoostStep 활용 가능성을 실험적으로 증명.
- Novelty: BoostStep 을 tree search 방법론에 통합하여 reasoning 과 evaluation 모두에서 성능 향상을 이끌어내는 general and robust reasoning-enhancing method 임을 입증.

Experimental Highlights:

State-of-the-art 성능:
- GPT-4o 및 Qwen2.5-Math-72B 모델에 BoostStep 적용 시, 다양한 mathematical benchmarks 에서 각각 3.6% 및 2.0% 성능 향상.
- Tree search 와 결합 시 7.5% 추가 성능 향상.
- Figure 1: 다양한 mathematical benchmark (in-domain, out-domain, cross-modality) 에서 BoostStep 이 기존 few-shot COT 대비 우수한 성능을 입증. 특히, 문제 유사성이 낮은 benchmark (OlympiadBench, MathVision) 에서 problem-level few-shot learning 의 negative impact 를 극복하고 valuable guidance 제공.
Datasets: MATH500, AQuA, OlympiadBench-TO, MATH-Bench, AMC-10/12, MathVision, MathVerse
Metrics: Accuracy
Baselines: 0-shot COT, few-shot COT (problem-level)

Limitations and Future Work:

논문에서 명시적인 한계점을 강조하지는 않았으나, 다음과 같은 부분을 Future Work 로 추론 가능:
- Example retrieval strategy 개선: TF-IDF 기반 retriever 외에 더욱 sophisticated retrieval mechanism (e.g., semantic similarity 기반) 연구 필요.
- 'first-try' 전략 고도화: 현재 'first-try' 는 모델의 initial attempt 에 의존하므로, first-try 결과의 quality 향상 및 오류 보정 메커니즘 연구 필요.
- 더욱 다양한 tree search 방법론과의 결합: ToT, Monte Carlo Tree Search 외 다른 tree search 알고리즘 및 PRM 변형 모델과의 통합 연구를 통해 BoostStep 의 general applicability 확장 필요.
- 더욱 복잡한 수학 문제 및 reasoning task 에 대한 확장: Olympiad-level 문제 외에 실제 응용 분야의 복잡한 수학 문제 및 scientific discovery, theorem proving 등 다양한 reasoning task 에 대한 BoostStep 효과 검증 및 확장 연구 필요.

Abstract

최첨단 large language models (LLMs)는 divide-and-conquer 파이프라인과 in-context learning (ICL) 예제의 도움으로 복잡한 수학 문제를 해결하는 데 있어 훌륭한 성능을 보여줍니다. 그러나 ICL 예제 내의 두 가지 중요한 문제, 즉 granularity-mismatch와 그에 따른 negative-effect noise 문제로 인해 개선 가능성이 제한됩니다. 구체적으로, LLMs는 dividing 프로세스는 가능하지만 몇몇 conquer 단계 내에서 부정확한 reasoning으로 인해 실패하는 경우가 많습니다. 반면 question-grained에서 검색된 ICL 예제는 때때로 특정한 어려운 reasoning 단계에 대한 관련 단계가 부족합니다. 또한, 이러한 단절은 관련성 부족으로 인해 올바른 reasoning을 방해할 수 있습니다.

이를 위해, 우리는 각 단계 내에서 reasoning 품질을 개선하는 데 초점을 맞추고 BoostStep을 제시합니다. BoostStep은 step-grained에서 retrieving과 reasoning 간의 granularity를 정렬하고 새로운 'first-try' 전략을 통해 각 reasoning 단계에 대해 매우 관련된 ICL 예제를 제공합니다. BoostStep은 coarse question-grained 전략보다 더 관련성 높은 예제를 제공하여 각 단계 내에서 model reasoning 품질을 꾸준히 향상시킵니다. BoostStep은 standalone reasoning 성능을 향상시킬 뿐만 아니라 Step-level tree search 방법과 원활하게 통합되어 candidate generation과 decision-making을 모두 개선하는 일반적이고 강력한 reasoning-enhancing 방법입니다. 정량적으로, BoostStep은 다양한 수학 벤치마크에서 GPT-4o 및 Qwen2.5-Math-72B를 각각 3.6% 및 2.0% 향상시키고, tree search와 결합 시 7.5%의 성능 향상을 보입니다.

2 Related Works

Mathematical Reasoning: Mathematical reasoning은 오랫동안 artificial intelligence 분야에서 매우 어려운 과제였습니다. artificial intelligence 초기에는 일반적인 능력 부족으로 인해 초기 방법들은 주로 rule-based 방법을 통해 간단한 mathematical reasoning을 수행하려고 시도했습니다. 향상된 reasoning 능력을 갖춘 large language models의 출현으로, 현대적인 접근 방식은 일반적으로 training 및 inference 단계 모두에서 성능을 향상시키는 데 중점을 둡니다. 첫 번째 범주는 더 많은 high-quality 수학 데이터로 fine-tuning하여 mathematical 능력을 향상시킵니다. 이 전략은 기본 model의 mathematical 능력을 근본적으로 향상시킬 수 있습니다. 그러나 상당한 양의 high-quality 수학 데이터와 계산 리소스가 필요합니다. 따라서 inference 중에 다양한 기술을 탐색하여 mathematical reasoning 성능을 향상시키는 데 더 많은 노력이 투입되었습니다. 일부 작업은 models이 포괄적인 chain-of-thought를 생성할 수 있도록 prompt engineering을 포함합니다. 다른 연구들은 self-refinement 기술을 사용하여 초기 reasoning 출력을 수정합니다.

Stepwise Mathematical Reasoning: 최근 mathematical reasoning 능력을 더욱 향상시키기 위해 많은 연구에서 mathematical reasoning의 granularity를 문제 수준에서 단계 수준으로 전환했습니다. 이 접근 방식은 각 다음 단계를 개별적으로 처리하고 전체 작업 내에서 작은 reasoning 세그먼트를 완료하는 것을 포함합니다. 이러한 작업은 종종 Tree of Thoughts (ToT) 또는 Monte Carlo Tree Search와 같은 tree searching 전략을 사용하여 여러 단계를 확장하여 단계별 답을 최적화하고 궁극적으로 최적의 솔루션을 얻습니다. 또한 Process Supervision Models (PRMs)는 새로운 candidate 노드의 정확성을 실시간으로 확인하고 reasoning 경로를 가지치기(prune)하여 최종 답의 정확도를 향상시키는 데 자주 사용됩니다. 이 더 자세한 보조 전략은 더 큰 잠재력을 보여줍니다.

In-context Learning in Mathematical Reasoning: In-context learning은 유사한 예제를 통해 models에 저렴한 비용의 지침을 제공하여 model 출력의 품질과 prompt를 따르는 능력을 향상시킬 수 있습니다. 결과적으로 널리 채택되었습니다. 그러나 mathematical reasoning 작업 내에서 in-context learning에 대한 연구는 여전히 불충분합니다. 일반적으로 이 접근 방식은 새로운 문제 해결을 위한 일반적인 전략을 제공하기 위해 model에 유사한 문제와 그 ground truth 솔루션을 제공하는 것을 포함합니다. 더 나은 검색 메커니즘을 설계하고 적절한 참조 거부 기술을 통합하여 검색된 예제의 관련성을 개선하기 위한 몇 가지 노력이 있었습니다. 다른 사람들은 일반화 가능성을 개선하기 위해 high-level context를 제공하려고 시도합니다. 그러나 이러한 모든 방법에는 step-level에서 세분화된 실시간 지침이 부족하다는 공통적인 제한 사항이 있습니다.

2. Related Works 정리 노트 (AI 연구자 대상)

핵심: 기존 연구들은 대부분 problem-level 에서의 접근이었다면, 이 논문은 step-level granularity에 집중한다!

Mathematical Reasoning의 진화:
- 초기: Rule-based 방법 (한계 명확)
- 현재: Large language models (LLMs) 시대!
  - Training 단계 개선: High-quality 수학 데이터로 fine-tuning (근본적 개선, but 자원 많이 필요)
  - Inference 단계 개선 (이 논문의 주 관심사):
    - Prompt engineering (chain-of-thought 유도)
    - Self-refinement (결과 다듬기)
Stepwise Mathematical Reasoning의 부상:
- Problem-level → Step-level (더 잘게 쪼개서 접근!)
- Tree searching (ToT, MCTS 등): 여러 step 확장, 최적해 도출
- Process Supervision Models (PRMs): 실시간 검증, 가지치기 (최종 정확도 UP) -> 이 논문에서 Step-level 에서의 reasoning 방법론을 제시하고, Tree search 와 결합하여 성능을 올리는 방식을 제시한다.
In-context Learning (ICL)의 한계점 지적 (핵심):
- ICL: 유사 예제로 guidance 제공 (저비용, 효과적) → 널리 쓰임
- 문제점: 기존 ICL은 problem-level. 즉, reasoning 시작 전에 예제 제시 → 실시간, 세분화된 guidance 부족. 이 논문에서는 in-context learning을 step-level로 가져와서 실시간으로 더 관련성 높은 예제를 제공해서 성능을 올린다.

쉬운 설명:

이 섹션에서는 AI가 수학 문제를 푸는 방법에 대한 기존 연구들을 훑어보고 있어요. 옛날에는 규칙에만 의존해서 간단한 문제만 풀 수 있었지만, 요즘은 똑똑한 AI (large language models) 덕분에 훨씬 복잡한 문제도 풀 수 있게 되었죠.

이 논문은 특히 AI가 문제를 푸는 "과정"에 주목해요. 문제를 한 번에 풀려고 하기보다는, 여러 단계로 쪼개서 한 단계씩 해결하는 방식(step-level)이 더 효과적이라는 거죠.

여기서 "in-context learning"이라는 기술이 등장하는데, AI에게 비슷한 예제를 보여주면서 "이렇게 풀어봐~" 하고 힌트를 주는 방식이에요. 그런데 기존의 in-context learning은 문제를 풀기 전에 예제를 보여줘서, 실제로 문제를 푸는 중간중간에는 도움을 주지 못한다는 단점이 있었어요.

그래서 이 논문에서는 이 in-context learning을 한 단계 더 발전시켜서, 문제를 푸는 매 순간마다 적절한 예제를 보여주는 새로운 방법을 제시하려고 하는 거랍니다!

3 Step-Level In-Context Learning

3.1 Revisiting In-Context Learning from Conditional Probability

현재 models은 종종 training 및 inference를 위해 next-token prediction을 사용하며, 여기서 conditional probability는 model의 다음 token 생성에 중심적인 역할을 합니다. 문제 q가 주어지면, model의 reasoning 프로세스는 다음과 같이 표현될 수 있습니다.

r_predict = arg max_r P_model(r | q)

여기서 우리는 더 나은 conditional probability P_model을 얻기 위해 model을 train하여 r_predict가 ground truth answer에 더 가까워지도록 합니다.

r_gt = arg max_r P_gt(r | q)

In-context learning은 probability model P_model을 변경하지 않고 모방을 위해 ground truth answer와 유사한 conditional probability를 model에 제공합니다. 구체적으로, 예제 문제 q'와 해당 정답 r'가 제공되며, conditional probability P(r' | q')가 대상 문제의 ground truth answer의 확률 P(r_gt | q)와 유사하다고 가정할 수 있습니다. 결과적으로 model은 이 유사한 예제를 모방하고 r'_predict = arg max_r P_model(r | q, q', r')는 r_predict에 비해 r_gt에 더 가까워집니다.

그러나 실제 reasoning 프로세스 r이 매우 복잡할 수 있다는 점을 감안할 때, 전체 reasoning 프로세스는 종종 여러 단계 s1, s2, ...로 나뉩니다. Step-level reasoning은 반복적으로 model이 다음 단계 s^0-shot_(i+1) = arg max_s P_model(s | q, s1, s2, ..., si)를 생성하도록 안내합니다.

단계 granularity에서 문제 q를 기반으로 검색된 예제는 적절한 지침을 제공하기에 분명히 불충분합니다. 유사한 문제 q'가 반드시 새로운 문제 q에 대한 reasoning을 안내하는 해당 단계를 포함하지 않을 수 있습니다. 또한 관련 없는 단계는 유사하지 않은 conditional probability를 제공하여 model의 reasoning 프로세스를 방해할 수 있습니다.

이를 위해 우리는 step-level reasoning에서 자세하고 관련성 있는 예제 단계를 제공하기 위해 step-level in-context learning과 first-try 전략을 제안합니다. 구체적으로, 이전 reasoning 단계 si, si-1, ..., s1 및 질문 q를 기반으로 새로운 단계 si+1을 생성할 때, 먼저 first-try 전략을 사용하여 s^first_(i+1)의 대략적인 추정치를 얻습니다. 그런 다음 이 s^first_(i+1)을 사용하여 유사한 단계 s'_(n+1)과 해당 q', s'_1, s'_2, ..., s'n을 검색합니다. 이 두 단계가 유사하기 때문에 P(s'(n+1) | q', s'1, ..., s'n)가 P(s_gt(i+1) | q, s1, ..., si)에 근접한다는 매우 합리적인 가정을 할 수 있습니다. 따라서 생성된 단계 si+1 = arg max_s P_model(s | q, s1, ..., si, q', s'1, ..., s'n, s'(n+1))는 s^0-shot(i+1)에 비해 s_gt(i+1)에 더 가깝습니다. step-level in-context learning 및 first-try 전략에 대한 자세한 내용은 Sec. 3.3에서 설명합니다.

3.2 Step-Level Example Problem Bank

수학적 능력의 추가 개선 필요성으로 인해 현재 open-source 수학 데이터는 더 이상 최종 답의 정답 여부를 판별하기 위한 문제와 최종 답으로만 구성되지 않습니다. 대신, 더 세분화된 측정을 제공하기 위해 자세한 해결 프로세스도 제공합니다. 그러나 현재 대부분의 open-source 수학 데이터는 여전히 해결 프로세스를 단계 수준으로 세분화하지 않습니다.

일부 접근 방식은 PRM training을 위한 단계 분할을 위해 마침표 '.'를 명확한 의미 구분 기호로 사용할 것을 제안했습니다. 이 전략을 사용하면 추가 지원 없이 전체 프로세스에서 각 단계를 빠르게 분해할 수 있습니다. 그러나 이 간단한 분해 모드는 분명히 신뢰할 수 없습니다. 본질적으로 단일 reasoning 단계는 일관된 목표를 가져야 하며 완전한 사고 프로세스를 포함해야 하므로 reasoning의 원자적 granularity가 됩니다. 마침표 '.'를 구분 기호로 사용하면 이러한 원자성이 깨질 수 있습니다. 예를 들어, 동일한 목표에 대한 완전한 열거를 여러 단계로 분할할 수 있습니다.

따라서 우리는 단계 분할을 위한 가장 적절한 방법은 reasoning model 자체가 프로세스를 자율적으로 분해하도록 하는 것이라고 제안합니다. 이 접근 방식은 예제 문제 은행에서 분해된 단계의 granularity가 실시간 reasoning 단계의 granularity와 일치하도록 보장합니다. 구체적으로, 우리는 완전하고 간단한 추론을 캡슐화하는 prompt를 통해 단계의 개념을 정의합니다. 이는 GPT-4o가 step-level에서 답변을 분해하도록 안내합니다.

문제 예제 은행을 개별 단계로 분해하는 주요 이점은 step-level 검색 및 안내를 용이하게 한다는 것입니다. 이는 매우 중요합니다. 그림 3에서 볼 수 있듯이, 완전히 다른 두 문제가 유사한 핵심 단계를 포함할 수 있습니다. 전통적인 problem-level in-context learning은 종종 이러한 예제를 간과하는 반면, step-level in-context learning은 이러한 단계를 효과적으로 상기시켜 진행 중인 reasoning 프로세스에 세분화된 지침을 제공할 수 있습니다.

3.3 Step-Level ICL with First-try Strategy

In-context learning의 핵심 과제는 효과적인 지침을 위해 관련 문제 또는 단계를 효과적으로 검색하는 방법에 있습니다. 이는 문제 database와 대상 문제 간의 유사성 및 사용된 특정 검색 전략에 따라 달라집니다. 전통적인 problem-level in-context learning은 문제 설명을 기반으로 유사한 문제를 검색하는 것을 포함합니다. 이 접근 방식은 비교적 간단하지만 효과적입니다. 유사한 문제는 일반적으로 유사한 reasoning 프로세스를 포함하기 때문입니다.

그러나 더 세분화된 단계 수준에서는 상황이 훨씬 더 복잡해집니다. 간단한 전략은 주어진 문제와 모든 선행 reasoning 단계 si-1, si-2, ..., s1, q를 사용하여 검색을 수행하는 것입니다. 이 방법의 명백한 단점은 검색 내용의 길이가 너무 길어 현재 단계의 고유성에 대한 강조가 줄어든다는 것입니다. 또 다른 전략은 이전 단계 si-1을 사용하여 step-level database에서 s'(j-1)을 검색하여 s'(j)의 올바른 해결을 통해 si의 reasoning을 안내하는 것입니다. 그러나 이 접근 방식은 stepwise reasoning을 Markov process로 모델링하기 때문에 다소 조잡하며 이는 분명히 불합리합니다. 유사한 단계는 다른 reasoning 작업에 적용될 수 있으므로 이전 단계의 유사성이 반드시 검색된 후속 단계가 현재 단계의 reasoning에 대한 귀중한 지침을 제공한다는 것을 나타내지는 않습니다.

이를 위해 우리는 검색 단계의 유사성을 향상시키기 위해 간단하고 효과적인 "first-try" 전략을 제안합니다. 우리의 전제는 다음 단계를 추정하는 가장 정확한 방법은 실제로 model이 다음 단계에 대한 reasoning을 시도하도록 허용하는 것입니다. 구체적으로, 문제 q와 모든 선행 reasoning 단계 si-1, si-2, ..., s1이 주어지면 먼저 model에게 예제의 도움 없이 reasoning 프로세스를 계속하여 잠정적인 단계 s^try_i에 도달하도록 지시합니다. 그 후, s^try_i를 사용하여 step-level database에서 유사한 단계 s'_j와 해당 문제 q' 및 선행 단계 s'1, ..., s'(j-1)을 검색합니다. 마지막으로 검색된 유사한 단계를 model에 다시 제공하여 최종 단계 si를 추론할 수 있도록 합니다. 게다가, 우리는 널리 받아들여지는 전략인 reference rejection을 추가합니다. 구체적으로, 검색된 가장 유사한 예제의 유사성이 특정 임계값 미만으로 유지되면 참조할 수 있을 만큼 충분히 유사한 예제가 없는 것으로 간주합니다. 결과적으로 우리는 일관성 없는 in-context learning과 관련된 부정적인 영향을 피하기 위해 어떤 예제도 제공하지 않습니다. 이 "try-retrieve-reason" 전략은 검색 관련성을 크게 향상시켜 reasoning 효과를 향상시킵니다. Sec. 4.4의 실험에서는 우리 방법을 다른 여러 검색 전략과 비교하여 우리 접근 방식의 우수성을 입증합니다.

3.4 Step-Level Guidance in Tree Search

우리의 step-level in-context learning은 model의 single-step reasoning 능력을 크게 향상시킬 수 있으므로 일반적인 step-level tree-search 전략에 쉽게 통합될 수 있습니다.

일반적으로 tree search 방법에는 두 가지 주요 구성 요소가 필요합니다. step-level reasoning을 생성하는 reasoning model과 현재 reasoning 단계를 실시간으로 지속적으로 평가하는 Process-Supervision Reward Model (PRM)입니다. 우리 방법은 이 두 가지 구성 요소 모두에 유익합니다. reasoning model이 수행하는 step-level reasoning을 향상시키고 현재 reasoning 단계를 평가하는 PRM의 효과를 개선합니다.

reasoning model의 경우 tree search 방법은 본질적으로 단계별 reasoning 확장이 필요합니다. 노드 si에서 확장할 때 앞서 언급한 전략을 간단히 적용합니다. model은 n개의 first try를 수행하여 n개의 예제 단계를 얻습니다. 각 예제에 대해 model은 이러한 예제의 도움으로 reasoning을 완료하여 n개의 자식 노드 s^1_(i+1), s^2_(i+1), ..., s^n_(i+1)을 생성합니다. 우리 전략은 개별 자식 노드 s^j_(i+1)의 정확도를 향상시켜 전반적인 reasoning 품질을 향상시킵니다.

분명히 판단 능력은 reasoning 능력과 밀접한 관련이 있습니다. 따라서 우리 전략이 single-step reasoning의 정확도를 향상시킬 수 있으므로 적절한 예제 단계를 도입하면 PRM이 현재 reasoning 프로세스의 정확성을 평가하는 능력도 유사하게 향상될 수 있다는 합리적인 가정을 할 수 있습니다. 특히, 추론 단계 후보 s^j_i의 정확성을 평가할 때 우리는 유사한 단계 s'k와 해당 선행 단계 s'(k-1), ..., s'_1 및 질문 q'를 step-level 예제 은행에서 검색합니다. 유사하게, 확률 분포 P(s'k | s'(k-1), ..., s'_1, q') 및 P(s_gt_i | si-1, ..., s1, q)는 유사성을 나타냅니다. 이러한 유사성은 s^j_i와 s_gt_i 간의 불일치를 평가하는 데 도움이 되므로 critic model 평가의 정확도가 향상됩니다.

Sec. 4.5의 자세한 ablation 실험은 두 전략 모두 step-level tree search 방법의 전반적인 reasoning 품질에 긍정적으로 기여함을 보여줍니다.

3. Step-Level In-Context Learning 정리 노트 (AI 연구자 대상)

핵심: 이 논문의 핵심 아이디어인 "Step-Level In-Context Learning"을 본격적으로 설명하는 섹션! 기존 In-Context Learning (ICL)의 문제점을 지적하고, 이를 어떻게 step-level로 끌어내려 혁신하는지 보여준다.

ICL, Conditional Probability 관점에서 다시 보기 (3.1):
- ICL의 작동 원리: 유사한 예제 (q', r')를 제공 → 모델이 P(r' | q')를 모방 → P(r_gt | q)에 가까운 답을 내도록 유도.
- 기존 ICL의 한계: Problem-level 예제는 step-level reasoning에 부적합. (유사해 보이는 문제도 실제 필요한 step이 없을 수 있음, irrelevant steps는 오히려 방해)
Step-Level Example Problem Bank 구축 (3.2):
- 기존 데이터셋의 문제점: 대부분 problem-answer 쌍으로만 구성, step-level 분해 X.
- 해결책: Reasoning model (GPT-4o) 스스로 step 분해! (일관성, 원자성 확보)
- 장점: Step-level retrieval & guidance 가능! (완전히 다른 문제라도 유사 step 공유 가능성 포착)
First-try Strategy를 활용한 Step-Level ICL (3.3):
- 핵심 아이디어: Model에게 먼저 "한번 풀어보게" 함 (first-try) → 그 결과를 바탕으로 가장 유사한 step 검색!
- 기존 retrieval 방식의 문제점:
  - Problem + 이전 steps 전부 사용: 너무 길어서 현재 step에 대한 집중도 ↓
  - 이전 step만 사용: Markov process 가정 (비현실적)
- First-try의 장점:
  - 검색 정확도 ↑ (현재 필요한 step과 진짜 유사한 예제 찾음)
  - "Try-retrieve-reason" 사이클: 관련성 극대화
- Reference rejection: 유사도 낮으면 예제 제공 X (negative effect 방지)
Tree Search와의 융합 (3.4)
Step-level ICL은 single-step reasoning 능력 향상 -> Tree Search 와 쉽게 결합 가능.
Reasoning Model: First-Try 활용, 더 정확한 candidate 생성.
Process-Supervision Reward Model (PRM): 유사 Step 을 제공함으로써, candidate step 평가 능력 향상.

쉬운 설명:

이 섹션은 이 논문의 핵심인 "Step-Level In-Context Learning"이 뭔지 자세히 설명하는 부분이에요.

쉽게 말해서, AI에게 수학 문제 푸는 법을 가르칠 때, 그냥 비슷한 문제랑 정답을 통째로 보여주는 게 아니라, 문제를 푸는 각 단계마다 딱 맞는 힌트(예제)를 주는 방식이에요.

예를 들어, 곱셈 문제를 풀 때, "23 x 45 = ?" 라는 문제를 통째로 보여주는 대신,

"먼저 일의 자리 곱셈을 해볼까? 3 x 5는 뭐지?" (힌트: 15)
"그다음 십의 자리 곱셈을 해볼까? 2 x 5는 뭐지?" (힌트: 10)
"이제 40을 23에 곱해볼까?" (힌트:...)

이런 식으로 각 단계에 맞는 힌트를 주는 거죠.

그런데 이 힌트를 어떻게 찾느냐? 이게 중요하겠죠? 이 논문에서는 "first-try"라는 기발한 방법을 사용해요. AI에게 일단 힌트 없이 한번 풀어보라고 시키고, AI가 푼 내용을 바탕으로 가장 비슷한 힌트를 찾아주는 거죠.

이렇게 하면 AI가 문제를 푸는 매 순간마다 가장 적절한 도움을 받을 수 있어서, 훨씬 더 정확하게 문제를 풀 수 있게 된다는 게 이 논문의 핵심 주장입니다!

1. Action Definition (6가지 행동 정의)

2. 500개의 data 문제에 대해 각각 mcts적용

3. 가장 점수 높은 path들을 하나만 골라서 500개의 데이터를 모음.

4. Question-path Repository 구축: 500개 각 문제와, 해당 문제에서 가장 점수 높았던 path를 짝지어 저장.

5. Problem Complexity (PCC) 계산: Repository에 있는 500개 문제 각각의 난이도(PCC) 계산.

6. Thought Card 생성: 비슷한 PCC를 가진 문제들을 그룹화, 각 그룹 내 path들의 공통 패턴(action sequence) 추출 → Thought Cards 생성.

7. Adaptive Reasoning: 새 문제의 PCC 계산, 가장 가까운 k개 Thought Cards 선택, 해당 카드들의 action sequence 따라 추론.

8. Verification: 여러 solution candidates 중 self-consistency check 등으로 최종 solution 결정.