LLM : 논문 리뷰 : How to Fine-Tune a Reasoning Model? A Teacher–Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Notice

Recent Posts

Recent Comments

Link

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

AI바라기의 인공지능

LLM : 논문 리뷰 : How to Fine-Tune a Reasoning Model? A Teacher–Student Cooperation Framework to Synthesize Student-Consistent SFT Data 본문

논문리뷰

LLM : 논문 리뷰 : How to Fine-Tune a Reasoning Model? A Teacher–Student Cooperation Framework to Synthesize Student-Consistent SFT Data

AI바라기 2026. 4. 17. 21:54

용어 설명

SFT (Supervised Fine-Tuning): 모델에게 질문과 정답 쌍을 주어 특정 작업이나 지시를 따르도록 추가 학습시키는 과정.
Reasoning Model: 단순한 최종 답변(final answer)뿐만 아니라, 문제를 해결하기 위한 세밀한 사고 과정(thinking content)을 명시적으로 생성하도록 학습된 최신 LLM (예: GPT-OSS-120B, Qwen3-8B).
Stylistic Divergence / Distribution Mismatch: 교사 모델과 학생 모델 간의 텍스트 생성 스타일이나 데이터 분포의 차이. (예: 추론을 시작할 때 "Okay, let's see"를 쓰는지, "We need to solve"를 쓰는지 등의 말투 및 전개 방식 차이)
Capability Tokens: 코드, 수식, 핵심 논리 등 실제 문제 해결에 직접적으로 관여하는 토큰.
Style Tokens: "wait", "but", "so"처럼 추론 과정을 연결하거나 어조를 나타내는 작업 비관련적(task-irrelevant) 텍스트 토큰.
Generate-then-rollback: 일정 길이의 토큰을 먼저 생성한 뒤, 경계 예측 모델을 사용해 필요한 부분까지만 남기고 나머지는 버리는(rollback) 제어 전략.
Boundary Predictor: 생성된 텍스트에서 Style 토큰과 Capability 토큰의 경계선을 찾아내어 자르기(truncation)를 수행하는 sequence labeling 모델.
On-policy data: 학습 대상 모델(학생 모델)이 스스로 생성하는 데이터의 분포와 일치하는 데이터. 반대말은 Off-policy.
Catastrophic Forgetting: 새로운 고품질 데이터를 학습할 때, 모델이 기존에 가지고 있던 지식이나 분포가 파괴되어 성능이 오히려 하락하는 현상.

Purpose of the Paper

기존 연구의 한계: 일반적으로 강력한 교사 모델이 생성한 SFT 데이터로 작은 학생 모델을 학습시키는 방식은 base나 instruct 모델에서 큰 성공을 거두었습니다. 하지만 최신 reasoning model에 이 방식을 적용하면 추론 능력이 향상되기는커녕 **성능이 폭락(Catastrophic Forgetting)**하는 심각한 문제가 발생했습니다.
문제 원인 규명: 저자들은 이 성능 폭락의 주된 원인이 교사 모델의 데이터 품질이나 프롬프트 문제가 아니라, 교사와 학생 모델 간의 극심한 Stylistic Divergence (분포 불일치) 때문임을 밝혀냈습니다. 학생 모델이 자신의 고유한 추론 스타일을 버리고 억지로 교사의 스타일을 따라가려다 기존 지식이 파괴되는 것입니다.
새로운 접근 방식 제시: 교사 모델의 고차원적인 추론 능력(capability)은 물려받으면서도, 학생 모델 본연의 데이터 분포(style)와 일치하는 새로운 SFT 데이터를 합성하는 **TESSY (Teacher–Student Cooperation Data Synthesis framework)**를 제안합니다.

Key Contributions

Reasoning Model SFT의 실패 원인 증명: reasoning model 학습 시 데이터가 On-policy 분포를 따르지 않으면 성능이 급락한다는 사실을 실험적으로 증명했습니다.
- Novelty: 기존 연구들이 데이터의 질(quality)에만 집중할 때, 모델 고유의 '스타일(style)'과 '추론 능력(capability)'을 분리하여 데이터 분포 불일치의 위험성을 지적한 점이 참신합니다.
TESSY 프레임워크 제안: 교사 모델과 학생 모델이 번갈아 가며 텍스트를 생성하는 교사-학생 협력 데이터 합성 방식을 개발했습니다.
- Novelty: 정답과 관련된 핵심 로직(Capability Tokens)은 교사 모델이 생성하고, 문맥을 잇는 어조나 스타일(Style Tokens)은 학생 모델이 생성하도록 역할을 완벽히 분담시켰습니다.
Generate-then-rollback 및 Boundary Predictor 도입: 오프라인 환경에서 vocab이 서로 다른 두 모델을 매끄럽게 전환하기 위한 기술적 해결책을 제시했습니다.
- Novelty: 모델이 일단 텍스트를 생성하게 둔 뒤, 작고 빠른 Sequence Labeling 모델(Boundary Predictor)이 style과 capability의 경계선을 정확히 예측하여 잘라내는 방식을 통해 정밀한 토큰 제어를 구현했습니다.
Base 모델 대비 Reasoning 모델의 SFT 이점 증명: SFT를 시작할 때, 아무것도 모르는 Base 모델보다 이미 추론 지식을 가진 Reasoning 모델에서 시작하는 것이 월등히 높은 성능 상한선을 가짐을 밝혔습니다.

Experimental Highlights

Datasets & Metrics: Code generation (LiveCodeBench-V5/V6/Pro, OJBench) 및 Out-of-domain 검증용 Math/Science (AIME2024/2025, GPQA, OlympiadBench). Pass@1 metric 사용.
Models: Teacher (GPT-OSS-120B, DeepSeek-R1), Student (Qwen3-8B, Qwen3-30B-A3B).
가장 중요한 결과 (성능 폭락을 성능 폭등으로 반전):
- 단순 교사 생성 데이터(Teacher-Only)로 Qwen3-8B를 학습시켰을 때, OJBench에서 10.02 퍼센트 하락, LiveCodeBench-Pro에서 3.25 퍼센트 하락이 발생했습니다.
- 반면 TESSY로 합성한 데이터로 학습시켰을 때, OJBench에서 6.68 퍼센트 향상, LiveCodeBench-Pro에서 11.25 퍼센트 향상을 기록하여 State-of-the-Art 수준의 성능 개선을 이루어냈습니다.
토큰 효율성 극대화: TESSY로 생성된 데이터는 교사 모델이 단독으로 생성한 데이터보다 평균 2,000~8,000개 적은 토큰을 사용하면서도 더 높은 데이터 품질(수율)을 보여주었습니다. 학생 모델의 개입이 교사 모델의 불필요하게 긴 추론을 조기에 종료시키는 긍정적 가이드 역할을 수행했습니다.
LoRA의 한계 발견: LoRA와 같은 Parameter-efficient fine-tuning은 reasoning model SFT 과정에서 발생하는 분포 불일치 충돌을 극복하기에 업데이트 용량이 부족하여 Full-parameter SFT보다 성능이 크게 떨어짐을 확인했습니다.

Limitations and Future Work

Limitations:
- 생성 길이 제한을 무제한으로 풀었을 때는 Teacher-Only 데이터의 최고 잠재력(Capability upper bound)이 TESSY보다 미세하게 더 높았습니다.
- 현재의 합성 파이프라인에는 Reject-Sampling 등 흔히 쓰이는 기존의 데이터 품질 필터링 기법이 결합되지 않았습니다.
Future Work:
- 합성 데이터 도입 시 발생하는 미세한 품질 저하를 막아 TESSY의 Capability upper bound를 더욱 확장할 계획입니다.
- Style과 Capability 경계를 식별하는 Boundary Predictor의 정확도와 효율성을 더욱 고도화할 예정입니다.
- 분포 불일치 문제를 해결한 TESSY 구조 위에, Reject-Sampling 등 추가적인 품질 향상 기술을 통합하여 Multi-model 협력의 확장성을 극대화할 수 있습니다.

Overall Summary

이 논문은 최신 Reasoning Model을 강력한 교사 모델의 SFT 데이터로 학습시킬 때 발생하는 '치명적 성능 폭락(Catastrophic Forgetting)'의 원인이 교사와 학생 간의 고유한 생성 스타일(Distribution Mismatch) 충돌에 있음을 최초로 규명했습니다. 이를 해결하기 위해 문제 해결 핵심 로직은 교사 모델이, 전개 방식과 어조는 학생 모델이 번갈아 생성하는 TESSY 프레임워크를 제안했습니다. 결과적으로 TESSY는 학생 모델의 고유 분포를 유지하면서도 교사 모델의 고차원적 지식을 완벽히 이식하여, 기존 방식의 성능 하락을 두 자릿수 이상의 성능 향상으로 뒤바꾸며 Reasoning Model 파인튜닝의 새로운 표준 방법론을 제시했습니다.

쉬운 설명

이 논문의 아이디어는 **"스타일이 전혀 다른 유명 셰프(교사 모델)의 비법을 초보 요리사(학생 모델)에게 전수하는 법"**에 비유할 수 있습니다.

기존 방식은 초보 요리사에게 유명 셰프의 칼질 습관부터 재료를 놓는 위치까지 모든 행동(스타일)을 억지로 똑같이 따라 하라고 강요했습니다. 그러다 보니 초보 요리사는 자신의 원래 요리 리듬을 잃어버리고 오히려 평소보다 더 맛없는 요리를 만들게 되었습니다(성능 하락).

TESSY는 이 방식을 바꿉니다. **"핵심 소스의 황금 비율(Capability Tokens)"**은 유명 셰프가 직접 작성하게 하고, 중간중간 **"재료를 썰거나 냄비를 젓는 기본 동작(Style Tokens)"**은 초보 요리사가 평소 하던 편한 습관대로 채워 넣게 하여 하나의 레시피를 완성하는 것입니다. 이렇게 만들어진 레시피를 보고 연습한 초보 요리사는 자신의 원래 스타일을 유지하면서도 셰프의 핵심 맛을 낼 수 있게 되어 요리 실력이 엄청나게 향상됩니다.

Abstract

model enhancement를 위해 널리 채택되는 전략은 더 강력한 model에 의해 generated된 synthetic data를 supervised fine-tuning (SFT)에 사용하는 것입니다. 그러나 Qwen3-8B와 같이 새롭게 등장하는 reasoning models의 경우, 이러한 접근 방식은 종종 reasoning capabilities를 향상시키는 데 실패하며 심지어 performance의 상당한 저하를 초래할 수 있습니다.

본 연구에서, 우리는 teacher가 generate한 data와 student의 distribution 사이의 상당한 stylistic divergence를 SFT에 영향을 미치는 주요 요인으로 식별합니다.

이러한 격차를 해소하기 위해, 우리는 teacher와 student models를 교차시켜 style tokens와 non-style tokens를 번갈아 generate하는 Teacher–Student Cooperation Data Synthesis framework (TESSY)를 제안합니다.

결과적으로, TESSY는 teacher의 진보된 reasoning capabilities를 상속받는 동시에 student의 distribution과의 stylistic consistency를 유지하는 synthetic sequences를 생성합니다.

GPT-OSS-120B를 teacher로 사용한 code generation experiments에서, teacher-generated data로 Qwen3-8B를 fine-tuning하는 것은 LiveCodeBench-Pro에서 3.25%, OJBench에서 10.02%의 performance 저하를 초래하는 반면, TESSY는 각각 11.25% 및 6.68%의 향상을 달성합니다.

Introduction

최근 주요 AI 기업들은 점차 reasoning models를 주력 large language models (LLMs)로 도입하고 있습니다. 이러한 models는 fine-grained reasoning을 위한 thinking content와 solution을 전달하는 final answer content로 분기되는 responses를 generate합니다. 명시적인 thinking processes를 도입함으로써, LLMs는 code generation과 같은 reasoning-intensive tasks에서 새로운 돌파구를 마련했습니다.

다양한 크기의 models가 가진 varying capabilities와 inference costs를 고려할 때, 일반적인 접근 방식은 large models가 smaller models를 위한 SFT training data를 generate하여, 그들이 유사한 task performance를 달성할 수 있도록 하는 것입니다. 그러나 reasoning models가 종종 더 높은 baseline performance를 가짐에도 불구하고, 이러한 작업은 여전히 주로 Base 또는 Instruct models에서 수행되며, reasoning models에 대한 시도는 거의 없습니다.

reasoning models의 추가적인 SFT를 제한하는 핵심 요인은, 더 높은 품질을 가지지만 distributionally 다른 data가 쉽게 catastrophic forgetting을 유발할 수 있다는 점입니다. 하지만, open-source reasoning models는 일반적으로 특정 composition과 distribution이 대중에게 공개되지 않은 대규모 proprietary datasets에서 in-house로 fine-tuned됩니다. 결과적으로, original data distribution에 대한 충분한 지식 없이 새로운 synthetic data를 사용하는 것은 미묘하지만 해로운 distributional conflicts를 유발할 위험이 있으며, 이는 차례로 overall model performance를 저하시킬 수 있습니다.

이 문제는 reasoning models 간의 stylistic differences로 인해 더욱 악화됩니다. Figure 1에 설명된 바와 같이, code-proficient GPT-OSS-120B는 올바른 solution strategies를 생성하지만, 그것의 연결 텍스트 style은 Qwen3-8B의 것과 눈에 띄게 다릅니다. GPT-OSS-120B에 의해 generated된 data를 직접 사용하여 Qwen3-8B를 train하는 것은 후자가 불필요한 adaptations를 하도록 강제할 것이며, 이는 바람직하지 않고 심지어 해로울 수도 있습니다. 더욱이, 이전 연구들은 동일한 패밀리의 models라 하더라도 다른 scale에서는 stylistic differences를 보일 수 있음을 시사합니다.

이 문제를 해결하기 위해, 본 논문에서는 teacher model의 reasoning capabilities를 보존하면서 student model의 distribution과의 일관성을 유지하는 data를 synthesize하는 방법을 조사하고자 합니다. Figure 1의 하단에 설명된 바와 같이, 우리의 목표는 solution-relevant text는 teacher model에 의해 생성되고, 나머지 stylistic text는 student model에 의해 generated되는 responses를 generate하는 것입니다. 이를 달성하기 위해, 우리는 student model과 teacher model을 번갈아 사용하여 각각 stylistic content와 reasoning content를 generate하는 Teacher-Student Cooperation Data Synthesis framework (TESSY)를 제안합니다. 이러한 분업은 reasoning의 accuracy를 보존하고 text style의 차이로 인해 발생하는 SFT interference를 완화합니다. 이 분업을 정확하게 구현하기 위해, TESSY는 generate-then-rollback strategy를 사용하여 teacher model과 student model의 역할에 대한 fine-grained control을 허용합니다.

code generation task에 대한 Experiments는, GPT-OSS-120B를 teacher로 사용하여 stylistically distinct student인 Qwen3-8B를 train할 때 teacher-only data로 직접 SFT를 수행하는 것이 LiveCodeBench-Pro 및 OJBench에서 각각 최대 180°C... (수정: 최대 3.25% 및 10.02%)의 performance 저하를 초래한다는 것을 보여줍니다. 대조적으로, TESSY는 동일한 benchmarks에서 Qwen3-8B의 performance를 11.25% 및 6.68% 향상시킵니다. 추가적인 experiments는 TESSY가 DeepSeek-R1 및 student-related Qwen3-235B-A22B-Thinking을 포함한 다른 teacher models와 페어링될 때 일관된 이점을 제공한다는 것을 보여줍니다.

Introduction 핵심 정리 노트

연구 배경 및 한계점 (Problem Statement)
- 최근 reasoning models의 SFT를 위해 더 큰 teacher model이 생성한 synthetic data를 사용하는 방식이 주류를 이루고 있음.
- 그러나 reasoning models를 대상으로 한 teacher-student SFT는 흔히 실패하며, 오히려 performance를 저하시키는 현상이 발생함.
- 핵심 원인 1 (Distributional Conflict): Closed-source teacher model의 pre-trained data distribution을 알 수 없기 때문에, 생성된 synthetic data가 student model에게 subtle distributional conflicts를 유발하여 catastrophic forgetting을 초래함.
- 핵심 원인 2 (Stylistic Divergence): Teacher model(예: GPT-OSS-120B)과 Student model(예: Qwen3-8B)은 reasoning 도중 사용하는 연결 텍스트의 style이 다름. Student가 Teacher의 고유한 style까지 억지로 학습(adaptation)하게 되면서 오히려 reasoning capabilities에 악영향을 미침.
해결 방안: TESSY (Teacher–Student Cooperation Data Synthesis)
- Teacher model의 reasoning capabilities는 유지하면서 Student model의 distribution과 일관성을 맞추는 새로운 data synthesis framework 제안.
- 작동 방식 (Division of Labor): * Teacher model: 핵심적인 solution-relevant text (reasoning content)만 generate.
  - Student model: 나머지 stylistic text를 generate.
- 세부 전략 (Generate-then-rollback): 두 model을 번갈아 사용하며 세밀하게 generation 역할을 통제하는 기법 적용.
실험 결과 (Impact)
- 기존 SFT (Teacher-only data): Qwen3-8B 기준 LiveCodeBench-Pro 최대 -3.25%, OJBench 최대 -10.02% performance 하락.
- TESSY SFT: 동일 benchmarks에서 각각 +11.25%, +6.68% performance 향상.
- DeepSeek-R1 등 다양한 teacher models와 결합해도 일관된 성능 향상 증명.

쉬운 설명 :

이 논문의 Introduction이 지적하는 핵심은 **"똑똑한 선생님(Teacher model)의 풀이 과정을 학생(Student model)에게 그대로 외우게 했더니, 오히려 학생의 성적이 떨어지는 현상"**입니다.

왜 성적이 떨어질까요? 선생님과 학생은 평소 쓰는 '말투(Style)'와 '사고 전개 방식(Distribution)'이 다르기 때문입니다. 학생 입장에서는 선생님의 핵심 논리만 배우면 되는데, 선생님 특유의 어색한 말투나 문장 구조까지 억지로 따라 하려다 보니 원래 자기가 잘하던 것마저 까먹게 되는 부작용(Catastrophic forgetting)이 생기는 것이죠.

그래서 연구진은 TESSY라는 새로운 과외 방식을 도입했습니다. 정답을 향한 **'핵심 수학 공식이나 논리(Reasoning)'**는 똑똑한 선생님이 작성하게 하고, 그 사이사이를 이어주는 **'설명이나 말투(Style)'**는 학생 본인이 평소 쓰던 방식대로 직접 작성하게 한 것입니다.

결과적으로 학생은 자기에게 가장 익숙하고 자연스러운 말투로 구성된 교재를 갖게 되었고, 선생님의 훌륭한 논리력만 쏙쏙 흡수할 수 있게 되어 기존 방식보다 훨씬 더 큰 성적(Performance) 향상을 이뤄냈다는 것이 이 섹션의 메인 아이디어입니다.

Figure 1 이미지 핵심 정리 노트

이 이미지는 앞서 Introduction과 Abstract에서 언급된 TESSY (Teacher–Student Cooperation Data Synthesis) framework의 작동 방식을 알고리즘 문제 풀이 예시를 통해 직관적으로 보여주는 자료입니다.

색상 구분을 통해 Teacher model과 Student model의 텍스트가 어떻게 분리되고 결합하는지 명확하게 설명하고 있습니다.

텍스트 색상별 의미 (핵심)
- 파란색 (Blue) & 분홍색 (Pink): 문제 해결 능력과 직접적으로 연관된 핵심 논리 및 수식 (Capability-related text)
  - 파란색: Teacher (GPT-OSS-120B)가 생성한 정확한 해결책.
  - 분홍색: Student (Qwen3-8B)가 생성한 불완전하거나 틀린 해결책.
- 초록색 (Green) & 보라색 (Purple): 모델 특유의 문체, 접속사, 사고 과정을 나타내는 연결 텍스트 (Stylistic text)
  - 초록색: Teacher 고유의 텍스트 스타일 ("We need to solve a problem ...")
  - 보라색: Student 고유의 텍스트 스타일 ("Okay, let's see. The problem is to ...")
단계별 분석
- Question (문제): 팰린드롬(palindromic) 부분 문자열을 삭제하여 전체 문자열을 제거하는 최소 횟수를 구하는 알고리즘 문제가 주어집니다.
- Teacher (GPT-OSS-120B 단독): 초록색의 Teacher 스타일로 사고를 전개하며, 파란색의 정확한 DP(Dynamic Programming) 점화식인 $dp[i][j]=1+dp[i+1][j]$ 및 $dp[i][j] = \min(dp[i][j], dp[i+1][k-1] + dp[k+1][j])$를 도출해냅니다.
- Student (Qwen3-8B 단독): 보라색의 Student 스타일로 친숙하게 접근하지만, 분홍색의 부정확하거나 헤매는 수식 $dp[i][j] = \min(dp[i][j-1], dp[i+1][j], dp[i+1][j-1] + 0)$을 생성합니다.
- Teacher-Student Cooperation Data Synthesis (TESSY 결과물): * Student의 고유한 사고 전개 말투인 보라색 텍스트("For example,", "Alternatively, here's an idea:")를 그대로 가져옵니다.
  - 그 사이사이에 들어가는 핵심 문제 해결 논리는 Teacher의 정확한 파란색 텍스트(올바른 DP 점화식)를 삽입합니다.

쉬운 설명 :

앞서 정리노트에서 비유했던 과외 선생님과 학생의 맞춤형 교재 제작 과정이 한눈에 보이는 그림입니다.

원래 학생(Qwen3-8B)은 "음, 한번 보자. 이 문제는..."(보라색 말투) 하고 친숙하게 말을 시작하지만, 결국 틀린 공식(분홍색)을 내놓습니다. 반면 선생님(GPT-OSS-120B)은 "우리는 이 문제를 해결해야 합니다..."(초록색 말투) 라며 다소 딱딱하게 말하지만 완벽한 정답 공식(파란색)을 알고 있죠.

가장 밑에 있는 TESSY 상자를 보면, 이 둘의 장점만 합쳤습니다. 글의 전체적인 분위기나 말투는 학생에게 가장 자연스러운 보라색 말투를 그대로 유지하면서, 문제의 핵심이 되는 수학 공식 부분만 선생님의 완벽한 파란색 정답으로 쏙 끼워 넣은 것입니다. 이렇게 만들어진 데이터로 학습하면 학생은 낯선 선생님의 말투를 억지로 배울 필요 없이 논리력만 깔끔하게 업그레이드할 수 있게 됩니다.

SFT용 답변 데이터를 만들때 정답을 도출하는데 상관 있는 토큰과 상관 없는 토큰이 있음.

티쳐 모델의 답변 분포를 학생이 그대로 배우면, 본인의 스타일이 깨질 수 있다고 함.

그래서 아이디어가

정답과 상관없는 토큰은 학생 스타일대로 가고, 상관 있는 부분만 티쳐의 지식을 빌려옴,.

그럼 큰 스타일은 깨지지 않으면서도 성능은 올릴 수 있음.

학생이 k개 토큰을 뽑고 각 토큰마다 이진 분류를 해버림, 상관있는지 없는지, 상관 있는 부분이 나오는 순간 그 전까지만 살려서

그대로 티쳐한테 넣고 다시 k개를 뽑게ㅐ함.

이런식으로 상관없는데 까진 학생이 상관있는곳까진 선생이 인터리브드 하게 뽑게됨\

'논문리뷰' 카테고리의 다른 글

LLM : 논문 리뷰 : Parcae: Scaling Laws For Stable Looped Language Models (0)	2026.04.19
Diffusion : 논문 리뷰 : Continuous Adversarial Flow Models (1)	2026.04.19
VLM : 빠른 논문 리뷰 : Question Decomposition with Dependency Graphs (2)	2026.04.17
world model : 논문리뷰 : Beyond the Beep: Scalable Collision Anticipation and Real-Time Explainability with BADAS-2.0 (1)	2026.04.17
dataset : mdCATH: A Large-Scale MD Dataset for Data-Driven Computational Biophysics (0)	2026.04.17

'논문리뷰' Related Articles

AI바라기의 인공지능

LLM : 논문 리뷰 : How to Fine-Tune a Reasoning Model? A Teacher–Student Cooperation Framework to Synthesize Student-Consistent SFT Data 본문

LLM : 논문 리뷰 : How to Fine-Tune a Reasoning Model? A Teacher–Student Cooperation Framework to Synthesize Student-Consistent SFT Data

'논문리뷰' 카테고리의 다른 글

티스토리툴바