LLM : 논문리뷰 : Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

Notice

Recent Posts

Recent Comments

Link

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

AI바라기의 인공지능

LLM : 논문리뷰 : Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models 본문

논문리뷰

LLM : 논문리뷰 : Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

AI바라기 2025. 1. 17. 16:22

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

Purpose of the Paper

이 논문의 핵심 목적은 단순히 pre-trained LLM을 autoregressive token generation을 넘어서, 복잡한 추론 과제를 해결하는 데 활용하는 것입니다. 이를 위해 "thought"라는 개념을 도입하여 LLM이 인간처럼 tree search, reflective thinking과 같은 복잡한 추론 과정을 모방하도록 합니다. 특히, 기존 연구들이 human annotation에 의존하여 reasoning training data를 구축했던 것과 달리, 이 논문은 LLM-driven search algorithms을 활용하여 자동으로 high-quality reasoning trajectory를 생성하는 방법을 중점적으로 다룹니다. 또한, train-time과 test-time scaling을 결합하여 Large Reasoning Model로 나아가는 새로운 연구 방향을 제시하는 데 그 목적이 있습니다.

Key Contributions

"thought" 개념 도입: LLM의 reasoning 과정을 인간과 유사하게 만들기 위해 "thought"라는, intermediate reasoning steps을 나타내는 token sequence 개념을 도입했습니다.
Reinforcement learning (RL) for reasoning: LLM의 reasoning process 학습에 RL을 적용하여, trial-and-error search를 통해 high-quality reasoning trajectory를 자동으로 생성하고 LLM의 reasoning 능력을 향상시키는 방법을 제안했습니다.
Process Reward Models (PRMs): reasoning trajectory에 dense, step-wise rewards를 제공하는 PRM을 학습시켜 LLM reasoning을 위한 RL을 가능하게 했습니다.
Train-time & test-time scaling: train-time compute 증가를 통한 LLM reasoning 능력 scaling과 함께, test-time에 PRM을 활용하여 intermediate "thoughts"를 평가하고 검색함으로써 reasoning accuracy를 높이는 test-time scaling 방법을 제시했습니다.
Automated data construction: human annotation에 의존하지 않고 LLM-driven automated search를 통해 reasoning data를 구축하는 방법을 제안하여, data construction의 효율성과 확장성을 높였습니다.
Large Reasoning Model: train-time과 test-time scaling을 결합하여 LLM의 reasoning 능력을 극대화하는 Large Reasoning Model이라는 새로운 연구 방향을 제시했습니다.
Open-source projects 분석: Large Reasoning Model 구축을 위한 주요 open-source projects (OpenR, LLaMA-Berry 등)를 분석하고, Large Reasoning Model 개발을 위한 시사점을 제공했습니다.

Novelty

Human annotation에서 LLM-driven automated search로의 전환: 기존 연구들이 human annotation에 의존하여 reasoning data를 구축했던 것과 달리, 이 논문은 LLM을 활용한 automated search를 통해 reasoning data를 구축하는 새로운 패러다임을 제시했습니다.
Process-level supervision을 위한 PRM의 활용: outcome-based reward 대신, reasoning process의 각 step에 대한 detailed feedback을 제공하는 PRM을 활용하여 LLM의 reasoning 능력 학습을 가속화했습니다.
Test-time scaling을 통한 reasoning 능력 향상: train-time뿐만 아니라 test-time에도 PRM-guided search를 통해 LLM의 reasoning accuracy를 향상시키는 새로운 방법을 제안했습니다.
Large Reasoning Model이라는 새로운 연구 방향 제시: train-time과 test-time scaling을 결합하여 LLM의 reasoning 능력을 극대화하는 Large Reasoning Model이라는 새로운 연구 frontier를 제시했습니다.

Experimental Highlights

OpenAI's ol series: 이 논문에서 제시한 Large Reasoning Model의 개념을 실증적으로 보여주는 OpenAI's ol series의 개발 과정을 분석했습니다.
Open-source Large Reasoning Model: OpenR, Rest-MCTS*, Journey Learning, LLaMA-Berry와 같은 open-source Large Reasoning Model projects의 data construction, pre-training, post-training, test-time improvement 방법을 비교 분석했습니다.
다양한 reasoning benchmarks: Math Word Problems, Logical Problems, Commonsense Problems, Coding Problems, Agent Problems 등 다양한 reasoning benchmarks를 소개하고, Large Reasoning Model의 성능 평가를 위한 framework를 제시했습니다.

Limitations

여전히 초기 단계: Large Reasoning Model은 여전히 초기 연구 단계이며, real-world applications에 적용하기 위해서는 추가적인 연구가 필요합니다.
Test-time compute: test-time scaling은 test-time compute 증가를 요구하기 때문에, real-time inference가 중요한 applications에는 적용하기 어려울 수 있습니다.
Slow-thinking: slow-thinking을 모방하는 것은 LLM의 inference speed를 저하시킬 수 있습니다.
Evaluation: Large Reasoning Model의 reasoning 능력을 정확하게 평가하기 위한 challenging benchmarks 개발이 필요합니다.

Future Work

Efficient Large Reasoning Model: test-time compute를 줄이면서도 reasoning accuracy를 유지하거나 향상시키는 efficient Large Reasoning Model 개발이 필요합니다.
Hybrid models: PRM-guided search와 verbal reinforcement search, memory-based reinforcement, agentic system search와 같은 other test-time enhancing techniques를 결합한 hybrid models 연구가 유망합니다.
Real-world applications: Large Reasoning Model을 real-world applications (e.g., scientific discovery, robotic control, autonomous agents)에 적용하고 그 효과를 검증하는 연구가 필요합니다.
Theoretical analysis: slow-thinking of LLMs에 대한 theoretical analysis를 통해 LLM의 reasoning mechanism을 이해하고, Large Reasoning Model의 성능을 더욱 향상시키는 연구가 필요합니다.
Downstream applications: FunSearch와 같이 verification은 쉽지만 solution을 생성하기 어려운 tasks에 Large Reasoning Model을 적용하여 새로운 solutions을 발견하는 연구가 필요합니다.
Domain-specific Large Reasoning Model: 특정 domain (e.g., medical, legal, financial)에 특화된 Large Reasoning Model 개발이 필요합니다.

Abstract

언어는 오랫동안 인간의 추론에 필수적인 도구로 여겨져 왔습니다. Large Language Models (LLMs)의 획기적인 발전은 이러한 모델을 활용하여 복잡한 추론 작업을 해결하려는 연구 관심을 불러일으켰습니다. 연구자들은 추론 과정의 중간 단계를 나타내는 토큰 시퀀스인 "thought"라는 개념을 도입하여 단순한 autoregressive 토큰 생성을 넘어섰습니다. 이 혁신적인 패러다임은 LLMs가 트리 검색 및 성찰적 사고와 같은 복잡한 인간 추론 과정을 모방할 수 있게 합니다. 최근에는 추론 학습의 새로운 트렌드로 reinforcement learning (RL)을 적용하여 LLMs가 추론 과정을 마스터하도록 훈련하고 있습니다. 이 접근 방식은 시행착오 검색 알고리즘을 통해 고품질 추론 궤적을 자동으로 생성하여 실질적으로 더 많은 훈련 데이터를 제공함으로써 LLMs의 추론 능력을 크게 확장합니다. 또한, 최근 연구에 따르면 테스트 타임 추론 중에 LLMs가 더 많은 토큰으로 "생각"하도록 장려하면 추론 정확도가 크게 향상될 수 있습니다. 따라서 훈련 타임과 테스트 타임 스케일링이 결합되어 새로운 연구 프론티어인 Large Reasoning Model을 향한 길을 보여줍니다. OpenAI의 o1 시리즈의 출시는 이 연구 방향에서 중요한 이정표를 나타냅니다. 본 설문 조사에서는 LLM 추론의 최근 진전에 대한 포괄적인 검토를 제시합니다. 먼저 LLMs의 기초적인 배경을 소개한 다음, 자동화된 데이터 구성, learning-to-reason 기술 및 테스트 타임 스케일링에 중점을 두고 Large Reasoning Model 개발을 주도하는 핵심 기술 요소를 살펴봅니다. 또한 Large Reasoning Model 구축에 대한 인기 있는 open-source 프로젝트를 분석하고, 미해결 과제와 향후 연구 방향으로 결론을 맺습니다.

1 Introduction

"If there is a severe deficit of language, there will be severe deficit of thought" - Noam Chomsky

deep learning의 발전과 웹 스케일 datasets의 가용성에 힘입어, Large Language Models (LLMs)는 Artificial General Intelligence (AGI)를 향한 길에서 변혁적인 패러다임으로 부상했습니다. 이러한 거대 AI models은 일반적으로 Transformer architecture를 채택하고 next-token prediction task를 사용하여 대규모 텍스트 코퍼스에서 pre-trained 됩니다. 뉴럴 스케일링 법칙은 모델 크기와 훈련 데이터가 증가함에 따라 성능이 크게 향상됨을 보여줍니다. 더 중요한 것은, LLMs는 또한 in-context learning, role playing, analogical reasoning과 같이 소규모 models에서는 존재하지 않는 놀라운 새로운 능력을 발휘한다는 것입니다. 이러한 능력은 LLMs가 자연어 처리 문제를 넘어 code generation, robotic control, autonomous agents와 같은 광범위한 작업을 용이하게 합니다.

이러한 능력 중에서도 인간과 유사한 추론은 학계와 산업계 모두로부터 큰 관심을 받고 있습니다. 이는 LLMs가 추상적이고 논리적인 추론을 통해 복잡한 실제 문제로 일반화할 수 있는 큰 잠재력을 보여주기 때문입니다. 이 분야의 주목할 만한 획기적인 발전은 "chain-of-thought" prompting 기술로, 추가 훈련 없이 테스트 타임에 단계별로 인간과 유사한 추론 프로세스를 유도할 수 있습니다. 이러한 직관적인 prompting 기술은 pre-trained LLMs의 추론 정확도를 크게 향상시키는 데 효과적인 것으로 입증되었으며, 이는 "tree-of-thought"와 같은 보다 진보된 prompting 기술의 개발로 이어집니다.

이러한 접근 방식은 인간과 유사한 추론 과정의 중간 단계를 나타내는 토큰 시퀀스로서 "thought"의 개념을 도입합니다. 이러한 중간 단계를 통합함으로써 LLM 추론은 단순한 autoregressive 토큰 생성을 넘어 tree search 및 reflective reasoning과 같은 보다 정교한 인지 architectures를 가능하게 합니다.

최근에는 인간과 유사한 추론 과정을 마스터하도록 LLMs를 훈련시키는 것을 추구하는 learning to reason에 대한 연구 경향이 두드러지고 있습니다. 이 연구 방향의 주요 과제는 훈련 데이터의 부족입니다. 인간 주석은 종종 엄청나게 비쌉니다. 특히 LLM 추론을 감독하는 데 효과적인 것으로 입증된 단계별 추론 궤적의 경우 더욱 그렇습니다. 이 문제를 해결하기 위해 최근 연구는 인간 주석에서 LLM 기반 검색 알고리즘으로 전환했습니다.

이러한 접근 방식은 추론 문제에 대한 외부 verification을 활용하여 시행착오 검색을 통해 정확한 추론 궤적을 자동으로 생성합니다. 더 중요한 것은 연구자들이 이러한 추론 궤적에 대해 Process Reward Models (PRMs)을 훈련할 것을 제안했다는 것입니다. PRMs는 LLM 추론을 위한 reinforcement learning을 촉진하는 밀도가 높고 단계적인 보상을 제공할 수 있습니다. 이러한 방법들은 결합되어 인간 주석 데이터에 대한 의존도를 줄이고, Richard Sutton이 예측한 대로 끝없이 확장될 수 있는 두 가지 방법인 "검색"과 "학습"을 효과적으로 통합하는 LLM 추론을 강화하기 위한 "강화된 순환"을 생성합니다. 따라서 이 새로운 패러다임은 훈련 타임 계산이 증가함에 따라 LLM 추론 능력을 확장할 수 있게 하여 보다 진보된 추론 모델을 위한 길을 열어줍니다.

또한, 최근 연구에 따르면 테스트 타임 계산을 확장하면 LLM 추론 정확도도 향상될 수 있습니다. 구체적으로, PRMs는 LLMs가 중간 "thoughts"를 평가하고 검색하도록 안내하는 데 사용될 수 있으며, 이는 LLMs가 테스트 타임 계산 중에 신중한 추론 단계를 생성하도록 장려하고 추론 정확도를 향상시킵니다. 이 접근 방식은 테스트 타임에 신중한 추론을 위해 더 많은 토큰을 사용하는 것이 정확도를 향상시킬 수 있다고 예측하는 테스트 타임 스케일링 법칙을 발생시킵니다. 따라서 RL 기반 훈련 타임 스케일링과 검색 기반 테스트 타임 스케일링이 결합되어 LLMs의 추론 능력을 완전히 발휘할 수 있는 유망한 연구 방향, 즉 Large Reasoning Models을 향한 길을 보여줍니다. 이 연구 방향의 주요 이정표는 OpenAI의 o1 시리즈로, 이 접근 방식의 효과를 입증하고 AGI를 향한 5단계 로드맵에서 LLMs를 대화형 AI(레벨 1)에서 보다 강력한 추론 AI(레벨 2)로 전환하려는 OpenAI의 비전을 반영합니다. OpenR, LLaMA-Berry, Journey Learning과 같은 여러 open-source 프로젝트는 OpenAI o1의 강력한 추론 능력을 재현하는 데 전념하여 Large Reasoning Models 개발에 대한 귀중한 통찰력을 제공합니다.

본 설문 조사에서는 Large Reasoning Models로의 발전을 위한 최근 연구 노력을 포괄적으로 검토합니다. 섹션 2에서는 LLM 추론의 배경에 대한 간략한 소개를 제공합니다. 이어지는 세 섹션에서는 Large Reasoning Models 개발을 주도하는 핵심 기술 구성 요소를 자세히 살펴봅니다. 특히 섹션 3에서는 훈련 데이터 구성에 중점을 두고 인간 주석에서 LLM 기반 자동 검색으로의 전환을 강조합니다. 섹션 4에서는 훈련 타임 계산 증가에 따른 LLM 추론 능력 확장에 중추적인 역할을 하는 reinforcement learning 방법을 검토하고, 섹션 5에서는 PRM 기반 검색에 특히 중점을 두고 테스트 타임 스케일링에 대해 논의합니다. 섹션 6에서는 OpenAI의 o1 시리즈 및 기타 open-source 프로젝트의 개발을 분석하여 Large Reasoning Models로의 경로를 탐구합니다. 섹션 7에서는 추가적인 테스트 타임 개선 기술을 요약하고, 섹션 8에서는 추론 벤치마크를 검토합니다. 마지막으로 미해결 문제와 향후 연구 방향에 대한 논의로 설문 조사를 마무리합니다.

핵심 키워드: Large Reasoning Models, LLMs, Reasoning, Chain-of-Thought, Tree-of-Thought, Learning to Reason, Reinforcement Learning (RL), Process Reward Models (PRMs), Test-Time Scaling, Train-Time Scaling, OpenAI o1

주요 내용 요약:

LLMs의 추론 능력 향상에 대한 집중 조명: 본 논문은 단순한 언어 모델을 넘어, "추론" 능력에 초점을 맞추어 LLMs의 발전을 다룹니다. 특히, Large Reasoning Models 구축을 위한 최신 연구 동향을 종합적으로 분석합니다.
"Thought" 개념의 중요성: Chain-of-Thought, Tree-of-Thought와 같이, 추론 과정을 중간 단계의 토큰 시퀀스("Thought")로 표현하는 방법론들이 LLMs의 추론 능력을 비약적으로 향상시켰음을 강조합니다.
Learning to Reason & RL의 부상: "추론" 자체를 학습하는 (Learning to Reason) 패러다임이 새롭게 부상하고 있으며, 특히 Reinforcement Learning (RL) 이 핵심적인 역할을 하고 있습니다.
PRMs를 통한 자동화된 훈련 데이터 생성: 단계별 추론 궤적 데이터(demonstration) 수집의 어려움을 Process Reward Models (PRMs) 를 활용하여 극복하고, RL 기반 학습을 용이하게 하는 자동화된 훈련 데이터 생성 방법론을 제시합니다.
Train-Time & Test-Time Scaling의 결합: 훈련 시점(Train-Time) 뿐만 아니라 추론 시점(Test-Time)에서의 계산량 증가를 통한 성능 향상, 즉 Test-Time Scaling 이 LLMs의 추론 능력을 극대화하는 핵심 전략으로 부상하고 있습니다. PRMs는 Test-time scaling 에도 중요하게 사용됨을 시사합니다.
OpenAI o1 시리즈의 중요성: 본 논문에서 제시하는 Large Reasoning Models 개발 방향의 실질적인 이정표로서 OpenAI o1 시리즈를 언급하며, 이 모델이 추론 중심 AI로의 전환을 보여주는 사례임을 강조합니다.
Open-Source 프로젝트: OpenR, LLaMA-Berry, Journey Learning과 같은 Open-Source 프로젝트들을 언급하며, 이 프로젝트들이 Large Reasoning Models을 재현하고 개발하는데 중요한 통찰력을 제공할 것이라고 시사합니다.

이 논문이 주목받는 이유 (기존 연구와의 차별성):

단순히 LLMs의 일반적인 능력이 아닌, "추론" 능력에 특화된 심층 분석을 제공합니다.
"Thought" 개념을 중심으로 LLMs의 추론 메커니즘을 새롭게 해석하고, 이를 향상시키는 최신 방법론들을 체계적으로 정리합니다.
Reinforcement Learning (RL)과 Process Reward Models (PRMs) 을 활용한 자동화된 훈련 데이터 생성 및 추론 능력 강화라는 혁신적인 접근 방식을 제시합니다.
Train-Time Scaling과 Test-Time Scaling의 결합이라는 새로운 관점을 제시하여, LLMs의 잠재력을 극대화하는 전략을 탐구합니다.
OpenAI o1 시리즈와 같은 최신 연구 사례를 분석하여, Large Reasoning Models 개발의 현주소와 미래 방향성을 제시합니다.

결론:

본 논문은 LLMs의 "추론" 능력을 극대화하는 Large Reasoning Models 구축을 위한 핵심 기술과 최신 연구 동향을 종합적으로 분석하고, 향후 연구 방향을 제시하는 중요한 자료입니다. 특히, RL, PRMs, Test-Time Scaling 등의 개념에 주목하여 LLMs 연구의 새로운 패러다임을 제시하고 있다는 점에서 AI 연구자들에게 큰 가치를 제공할 것입니다.

2 Background

2.1 Pre-training

LLMs 훈련의 기초 단계로서, 효과적인 pre-training은 추론 능력 개발에 중요합니다. LLMs의 추론을 위한 pre-training을 논의하기 전에, 먼저 일반적인 LLM pre-training의 기본 프로세스를 간략하게 설명합니다. pre-training을 통해 LLMs는 핵심 언어 지식을 습득할 뿐만 아니라 다양한 세계 지식을 얻어, 고급 능력의 출현과 효과적인 가치 정렬을 위한 강력한 토대를 구축합니다. 일반적으로 LLM pre-training은 웹 콘텐츠, 책, 코드 및 기타 유형의 데이터에 대한 광범위한 컬렉션을 포함하는 고품질 텍스트 코퍼스에 의존합니다. 이러한 풍부한 텍스트 코퍼스를 활용하여 LLMs는 next-token prediction task로 훈련된 transformer architecture를 기반으로 구축됩니다. pre-training 후, LLMs는 일반적으로 뛰어난 in-context learning 능력을 보여 주어, 광범위한 지식 기반을 활용하여 일관된 텍스트를 생성하고 다양한 질문에 대한 정확한 답변을 제공할 수 있습니다. 특히, pre-training 단계는 LLMs의 추론 능력을 배양하는 데 중추적인 역할을 합니다. 예를 들어, 연구에 따르면 코드와 수학적 내용이 풍부한 datasets가 강력한 추론 기술을 개발하기 위한 핵심 기반 역할을 하는 것으로 나타났습니다. 이러한 관찰에 따라, 새롭게 개발된 LLMs는 LLMs의 추론 능력을 향상시키기 위해 신중하게 설계된 합성 데이터를 도입하기 시작했습니다. pre-training 동안 중요한 과제는 강력한 일반 언어 능력을 유지하면서 LLMs의 추론 잠재력을 발휘하기 위해 코드 및 수학 데이터와 일반 텍스트 코퍼스의 비율을 균형 있게 조정하는 것입니다.

2.2 Fine-tuning

pre-training이 LLMs가 in-context learning을 통해 추론 능력을 나타낼 수 있게 하는 반면, fine-tuning 기술은 LLMs에 대한 zero-shot 및 개선된 추론 능력을 달성하기 위해 널리 사용됩니다. 여기서는 먼저 기본 fine-tuning 프로세스를 간략하게 설명한 다음 추론 능력을 향상시킬 수 있는 잠재력을 탐구합니다. 설명된 바와 같이, pre-training 단계 후, LLMs는 instruction tuning 단계라고도 하는 supervised fine-tuning (SFT) 단계에 들어갑니다. 이 단계의 주요 목표는 모델의 output 스타일을 개선하여 응답이 인간의 요구와 실제 응용 프로그램에 부합하도록 보장하는 것입니다. 이는 일반적으로 광범위하고 신중하게 선별된 수동 주석 및 개선을 통해 생성된, 광범위한 일상적인 인간 상호 작용을 반영하는 다양한 instruction datasets를 통해 훈련함으로써 달성됩니다. ChatGPT의 출현으로 다양한 instruction datasets를 생성하기 위한 새로운 방법이 등장했습니다. 여기에는 강력한 LLMs에서 직접 데이터를 추출하는 기술과 기존 코퍼스에서 대규모 dataset 구성을 위한 자동화된 접근 방식이 포함됩니다. 이러한 잘 만들어진 instruction-tuning datasets를 사용하여, fine-tuning 프로세스는 pre-training과 유사하게 next-token prediction 목적을 지속적으로 사용합니다. 그러나 pre-training과 달리, fine-tuning은 일반적으로 질문에 대한 손실은 무시하면서 답변에 대한 손실을 구체적으로 계산합니다. 또한, chain-of-thought (CoT) 추론 및 수학적 문제 해결 예제를 포함하는 datasets를 통합하면 LLMs의 추론 능력이 크게 향상되는 것으로 나타났으며, 이는 활발한 연구 분야입니다. 일반적인 측면의 관행에 따라, 현재 대부분의 접근 방식은 고급 Large Reasoning Models에서 데이터 증류를 활용하고, 이어서 fine-tuning을 통해 LLMs의 추론 능력을 향상시켜 최종 Large Reasoning Models를 얻습니다.

2.3 Alignment

고급 Large Reasoning Models에서 직접 데이터를 증류하는 것에만 의존하는 것은 새로운 LLMs의 잠재력을 제한합니다. 더 유망한 접근 방식은 데이터 구성 및 모델 훈련에 reinforcement learning을 사용하는 것이며, 이는 일반적인 LLM 훈련의 최종 alignment 단계에 정확히 해당합니다. LLM의 일반적인 훈련에서, alignment 단계는 일반적으로 Reinforcement Learning from Human Feedback (RLHF)와 같은 방법을 포함하여 모델이 유용하고, 무해하며, 정직한 기준을 충족하는 콘텐츠를 생성하도록 유도합니다. 이 단계의 목표는 현실에서 LLMs의 안전성과 제어 가능성을 향상시키는 것입니다. 이전 SFT 단계와 비교할 때, 이 단계는 일반적으로 인간의 선호도를 정확하게 반영하기 위해 신중하게 선별되고 수동으로 레이블이 지정된 많은 양의 랭킹 데이터를 통합합니다. 이 데이터에는 올바른 데모뿐만 아니라 피해야 할 바람직하지 않은 사례도 포함됩니다. 표준 RLHF는 일반적으로 SFT model, reward model, aligned model을 포함하며, 이들은 PPO와 같은 방법을 사용하여 반복적으로 최적화됩니다. 표준 RLHF의 높은 데이터 요구 사항 및 훈련 비용으로 인해, 명시적 reward models에 대한 의존도를 줄이기 위해 Direct Preference Optimization (DPO)과 같은 방법이 제안되었습니다. DPO에서는 preference loss가 정책의 함수로 정의되어 모델 최적화를 직접 안내합니다. 추론 문제의 다단계 특성과 복잡성을 고려할 때, alignment 기반 사후 훈련은 LLMs의 추론 능력을 자극하는 최종적이고 가장 중요한 단계가 되었습니다. 추론 프로세스를 신중하게 분해하고 점진적으로 신호를 모델에 피드백함으로써, reinforcement learning 및 preference learning을 기반으로 한 다양한 self-training 방법이 주목할 만한 성공을 거두었습니다.

2.4 Prompting LLMs for Advanced Reasoning

인간과 유사한 추론은 충분히 큰 모델 파라미터를 가진 LLMs에서 나타나는 가장 중요한 능력 중 하나입니다. zero-shot 추론은 일부 작업에서 신뢰할 수 없을 수 있지만, 연구자들은 이러한 능력을 향상시키기 위한 다양한 prompting 기술을 발견했습니다. 이러한 기술은 크게 단계별 추론, 다중 경로 탐색, 분해 기반 방법의 세 가지 주요 접근 방식으로 분류할 수 있습니다.

Chain-of-Thought prompting으로 예시되는 단계별 추론 접근 방식은 중간 추론 단계를 명시적으로 보여주는 것이 문제 해결 능력을 크게 향상시킨다는 것을 보여줍니다. "Let’s think step by step"과 같은 간단한 프롬프트조차도 추론 프로세스를 효과적으로 안내할 수 있습니다. 이 접근 방식은 Self-Consistency를 통해 더욱 정교해졌으며, 이는 보다 신뢰할 수 있는 결론에 도달하기 위해 여러 추론 경로를 생성하고, Auto-CoT는 효과적인 추론 체인의 생성을 자동화합니다.

다중 경로 탐색 접근 방식은 여러 잠재적 해결 경로를 동시에 고려하여 선형 추론을 넘어 확장됩니다. Tree of Thoughts는 대체 추론 경로를 트리 구조로 구성하여 다양한 해결 전략을 체계적으로 탐색할 수 있습니다. Graph-of-Thoughts는 이를 그래프 구조로 더욱 일반화하여 보다 유연한 추론 패턴과 역추적 기능을 허용합니다. ReAct는 추론과 행동 단계를 인터리빙하여 이 패러다임을 풍부하게 하여 외부 환경과의 보다 동적인 상호 작용을 가능하게 합니다.

복잡한 문제의 경우 분해 기반 방법이 특히 효과적인 것으로 입증되었습니다. Least-to-Most Prompting 및 Algorithm of Thoughts는 복잡한 문제를 관리 가능한 구성 요소로 체계적으로 분해하는 반면, Plan-and-Solve는 이러한 하위 문제를 해결하기 위한 전략적 지침을 제공합니다. 이러한 방법은 여러 단계 또는 다양한 수준의 분석이 필요한 작업을 처리할 때 특히 유용합니다.

구조화된 prompting 전략을 통해 향상된 이러한 광범위한 추론 능력은 신중한 분석과 체계적인 사고가 필요한 작업에 특히 효과적인 것으로 입증되어 LLMs가 광범위하고 복잡한 사회 과학적으로 관련된 작업을 수행할 수 있도록 합니다. 이러한 방법의 성공은 LLMs가 고유한 추론 능력을 보유하고 있지만, prompting 프로세스에서 신중한 안내와 구조를 통해 잠재력을 최대한 발휘할 수 있음을 보여줍니다.

2.5 Agentic Workflow

LLMs의 instruction following 및 in-context learning 기능 외에도, 연구자들은 LLMs의 "사고 패턴"을 프로그래밍하는 agentic workflows를 설계하기 시작했습니다. 이러한 agentic workflows를 통해 연구자들은 추가 훈련 없이도 LLM의 추론 능력을 향상시킬 수 있지만, 종종 더 많은 테스트 타임 계산이 필요합니다. in-context learning은 몇 가지 in-context 데모를 제공하는 것만으로도 LLM의 작업 특정 성능을 향상시키는 능력으로, LLMs가 계산적으로 비싼 훈련 없이도 보이지 않는 문제로 효율적으로 일반화할 수 있도록 합니다. 이러한 기능의 기원은 여전히 논쟁의 여지가 있지만, 최근 연구에 따르면 in-context learning은 LLMs가 label space, 입력 텍스트의 분포 및 원하는 답변 형식을 캡처할 수 있도록 하여 성능을 향상시킵니다. 이러한 바람직한 기능을 통해 연구자들은 범용 LLMs를 in-context 역할극을 통해 특정 인구 통계 그룹의 관점을 시뮬레이션하는 것과 같은 다양한 작업 시나리오에 적용할 수 있었습니다. 최근 연구에 따르면 효과적인 agentic workflow는 인간 행동 시뮬레이션, 인간-LLM 상호 작용, 협업 작업 해결을 위한 LLMs 능력을 크게 향상시킬 수 있습니다. agentic workflow로 LLMs를 프로그래밍하는 능력은 복잡한 인지 architecture로 LLM의 추론 능력을 향상시키는 토대를 마련합니다.

핵심 키워드: Pre-training, Fine-tuning, Alignment, RLHF, DPO, Prompting, Chain-of-Thought (CoT), Tree-of-Thoughts, Agentic Workflow, Test-Time Compute

주요 내용 요약 (Large Reasoning Models 관점):

2.1 Pre-training:
- 추론 능력 배양을 위한 Pre-training의 중요성: 단순한 언어 능력 습득을 넘어, 추론 능력의 기반을 다지는 단계로서 pre-training의 역할을 강조합니다.
- 코드/수학 데이터의 중요성: 코드와 수학 관련 데이터가 풍부한 corpus가 추론 능력 발달에 핵심적인 역할을 한다는 점을 명시합니다. (e.g., [160] 연구 인용)
- 합성 데이터 (Synthetic Data) 활용: 추론 능력 강화를 위해 신중하게 설계된 합성 데이터를 pre-training에 활용하는 최신 LLMs의 동향을 소개합니다.
- 데이터 비율 균형의 중요성: 코드/수학 데이터와 일반 텍스트 데이터 간의 비율을 적절히 조절하여, 일반적인 언어 능력과 추론 능력 간의 균형을 유지해야 함을 지적합니다.
2.2 Fine-tuning:
- 추론 능력 향상을 위한 Fine-tuning: Pre-trained LLMs의 추론 능력을 zero-shot 및 few-shot 상황에서 더욱 향상시키기 위한 fine-tuning의 역할을 설명합니다.
- Instruction Tuning: SFT (Supervised Fine-Tuning) 또는 instruction tuning 단계를 통해 모델의 output이 인간의 요구에 부합하도록 개선합니다.
- Chain-of-Thought (CoT) 데이터 활용: CoT 추론 및 수학 문제 해결 예제를 포함한 datasets를 fine-tuning에 활용하여 추론 능력을 향상시키는 전략을 강조합니다.
- 데이터 증류 (Data Distillation): 최신 연구 동향으로써, 고급 Large Reasoning Models로부터의 데이터 증류를 통해 fine-tuning용 데이터를 확보하고, 이를 통해 최종 Large Reasoning Models를 구축하는 방식을 설명합니다.
2.3 Alignment:
- 추론 능력 극대화를 위한 Alignment: 단순한 fine-tuning을 넘어, Alignment 단계가 추론 능력을 극대화하는 데 핵심적인 역할을 한다고 주장합니다.
- Reinforcement Learning (RL)의 활용: 특히, Reinforcement Learning from Human Feedback (RLHF) 와 같은 RL 기법을 사용하여, 추론 과정에 대한 정교한 제어 및 최적화를 가능하게 합니다.
- Direct Preference Optimization (DPO): 표준 RLHF의 높은 데이터 요구량 및 훈련 비용 문제를 완화하기 위해 제안된 DPO를 소개하며, preference loss를 직접 최적화하는 방식의 장점을 설명합니다.
- Self-Training: 추론 과정을 분해하고, 단계별 피드백을 제공하는 self-training 방법론 (e.g., [45, 64, 183])이 RL 및 preference learning과 결합되어 큰 성과를 거두고 있음을 강조합니다.
2.4 Prompting LLMs for Advanced Reasoning:
- Prompting을 통한 추론 능력 향상: 다양한 prompting 기술을 통해 LLMs의 추론 능력을 크게 향상시킬 수 있음을 보여줍니다.
- Step-by-Step Reasoning: Chain-of-Thought (CoT) 와 같이 단계별 추론을 유도하는 prompting 기법의 효과를 강조합니다.
- Multi-Path Exploration: Tree-of-Thoughts, Graph-of-Thoughts, ReAct 등, 다중 경로 탐색을 통해 복잡한 문제 해결 능력을 향상시키는 방법론들을 소개합니다.
- Decomposition-Based Methods: Least-to-Most Prompting, Algorithm of Thoughts, Plan-and-Solve 등, 복잡한 문제를 작은 단위로 분해하여 해결하는 전략의 유용성을 설명합니다.
2.5 Agentic Workflow:
- Agentic Workflow를 통한 추론 능력 강화: In-context learning 과 instruction following 능력을 활용한 Agentic Workflow 설계를 통해, LLMs의 "사고 패턴"을 프로그래밍하고 추론 능력을 강화할 수 있음을 제시합니다.
- Test-Time Compute 증가: Agentic workflow는 추가적인 훈련 없이 추론 능력을 향상시키지만, 더 많은 test-time compute를 필요로 합니다.
- 복잡한 인지 아키텍처 구축의 토대: Agentic workflow를 통해 LLMs를 프로그래밍하는 능력은 추론 능력 향상을 위한 복잡한 인지 아키텍처를 구축하는 기반을 제공합니다.

결론:

본 논문은 Large Reasoning Models 구축을 위한 핵심 배경 지식으로, 단순히 LLMs의 일반적인 훈련 과정을 나열하는 것이 아니라, 추론 능력 향상에 초점을 맞춘 차별화된 관점을 제시합니다. 특히, 코드/수학 데이터 및 합성 데이터를 활용한 pre-training, CoT 데이터를 활용한 fine-tuning, RL 및 DPO를 통한 alignment, 다양한 prompting 기법, 그리고 agentic workflow 등의 중요성을 강조하며, 이러한 요소들이 어떻게 Large Reasoning Models 개발에 기여하는지 심층적으로 분석합니다.

'논문리뷰' 카테고리의 다른 글

LLM : 논문리뷰 : STaR: Bootstrapping Reasoning With Reasoning (1)	2025.01.18
LLM : 논문리뷰 : OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking (1)	2025.01.18
robotics : 논문리뷰 : FAST: Efficient Action Tokenization for Vision-Language-Action Models (1)	2025.01.17
LLM : rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking (0)	2025.01.16
architecture : 논문리뷰 : Titans: Learning to Memorize at Test Time (0)	2025.01.15

'논문리뷰' Related Articles

AI바라기의 인공지능

LLM : 논문리뷰 : Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models 본문

LLM : 논문리뷰 : Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

Purpose of the Paper

Key Contributions

Novelty

Experimental Highlights

Limitations

Future Work

'논문리뷰' 카테고리의 다른 글

티스토리툴바