AI바라기의 인공지능
LLM : 빠른 논문 리뷰 : Reasoning Steps as Curriculum: Using Depth of Thought as a Difficulty Signal for Tuning LLMs 본문
LLM : 빠른 논문 리뷰 : Reasoning Steps as Curriculum: Using Depth of Thought as a Difficulty Signal for Tuning LLMs
AI바라기 2026. 4. 15. 12:25
용어 설명
- Depth of Thought (DoT): 이 논문이 제안하는 핵심 개념. 모델의 reasoning trace(예: CoT) 내에 존재하는 불연속적인 '추론 단계(discrete steps)의 수'를 세어 문제의 난이도를 수치화한 지표.
- Reasoning trace / Chain-of-Thought (CoT): 모델이 최종 답을 도출하기 위해 거치는 중간 사고 및 추론 과정.
- Curriculum learning: 모델 학습 시 쉬운 예제부터 점진적으로 어려운 예제로(shallow -> deep) 순서를 배치하여 학습 효율을 높이는 기법.
- Structure-aware: 단순한 텍스트 길이나 표면적 형태가 아닌, 추론의 내부 구조와 논리적 의존성을 인지하는 성질.
- LLM-as-a-judge: 강력한 외부 LLM을 판별자로 사용하여 데이터의 난이도나 응답 품질을 평가하고 점수를 매기는 방식.
- Verbosity: 불필요하게 말이 많거나 장황한 상태. 논문에서는 단순히 텍스트 길이가 길다고 해서 추론 난이도가 높은 것이 아님을 지적할 때 사용됨.
Purpose of the Paper
- 기존 한계 극복: 기존 LLM curriculum learning에서 쓰이는 난이도 측정 방식들은 명확한 한계를 가짐.
- Syntax-based: 단순 토큰/문장 길이 기반은 장황함(verbosity)에 속기 쉽고 실제 추론 구조를 반영하지 못함.
- Model-based: Loss나 Gradient 기반은 특정 모델이나 학습 단계에 종속적이며 연산 비용이 큼.
- Agent-based (LLM-as-a-judge): 프롬프트에 민감하고 판별 모델의 편향이 개입되며, 데이터 큐레이션을 위한 해석 가능성이 떨어짐.
- 새로운 접근 방식 제시: "중간 사고 단계가 많이 필요한 문제일수록 본질적으로 더 어렵다"는 인간의 인지적 직관을 바탕으로, reasoning trace의 단계 수를 직접 세는 **Depth of Thought (DoT)**를 새롭고 직관적인 난이도 측정 기준으로 제안함. 이를 통해 대규모 스케일에서도 연산이 가볍고, 인간이 해석 가능하며, 모델 독립적인(model-robust) 학습 스케줄링을 구현하고자 함.
Key Contributions
- DoT 기반 난이도 지표 설계 및 정규화 방식 제안
- 추론 단계 수(k)를 통해 난이도를 정의하는 DoT(x) = k 공식을 도입.
- Novelty: 단순 텍스트 길이에 의한 왜곡을 막기 위해 토큰 수로 페널티를 주는 DoT_norm(x) = k / log(1 + tok(c)) 공식을 제안하여, 표면적 길이(length)가 아닌 실제 '추론의 구조적 깊이'를 분리해냄.
- 해석 가능하고 통제 가능한 Curriculum Framework 구축
- Teacher model 선택 -> 명시적 번호 매기기 템플릿을 통한 CoT 수집 -> DoT 기준 난이도 버킷화(예: 1
3단계, 46단계, 7단계 이상) -> shallow에서 deep으로 이어지는 스케줄링 파이프라인 제안. - Novelty: Black-box 최적화나 불투명한 LLM 판별자에 의존하지 않고, 데이터 큐레이터가 명확한 임계값을 조정하고 학습 단계를 감사(audit)할 수 있는 투명성을 확보함.
- Teacher model 선택 -> 명시적 번호 매기기 템플릿을 통한 CoT 수집 -> DoT 기준 난이도 버킷화(예: 1
- 평가를 위한 3가지 핵심 가설(Hypotheses) 정립
- H1: DoT가 기존 추론 벤치마크의 난이도와 상관관계를 가짐.
- H2: 제한된 예산 내에서 DoT 기반 curriculum이 길이 기반이나 judge 기반 curriculum을 능가함.
- H3: 명시적 분리자(separators) 사용 시, DoT 신호가 여러 teacher model 간에도 강건하게 유지됨.
Experimental Highlights
(참고: 이 문서는 방법론과 프레임워크를 제안하는 Position Paper 성격을 띠며, 구체적인 실험 결과 차트보다는 검증을 위한 핵심 실험 설계도를 강조하고 있습니다.)
- Universal Evaluation 셋업: 다양한 구조의 소형 LLM(student models)에 DoT 기반 curriculum learning을 적용하도록 설계.
- 핵심 Baselines 매칭: 단순히 무작위 학습과 비교하는 것을 넘어, 동일한 학습 예산(matched budgets) 환경에서 token-length 기반 모델 및 judge-scored 기반 모델과 직접적인 성능 비교를 수행하는 평가 프레임워크 구축.
- Curriculum Mixing 전략 제안: 난이도를 완전히 끊어서 학습하는 hard staging과 완전히 섞는 uniform mixing 사이를 유연하게 조절할 수 있는 가중치 기반 샘플링 기법을 제안하여 최적의 학습 전환점 탐색 지원.
Limitations and Future Work
- Teacher-style bias 및 단계 분할 노이즈 (Limitation): Teacher model이 필요 이상으로 장황한 추론을 생성하거나 분할 기준이 모호해질 경우, DoT 측정값의 신뢰성이 떨어질 수 있음.
- Future Work: 추론 벤치마크를 통한 엄격한 사전 평가로 우수한 Teacher model을 선별하고, stochastic self-consistency 및 prompt ensembling을 도입하여 생성된 step의 안정성과 신뢰도를 높임.
- 모든 난이도 요소의 반영 불가 (Limitation): DoT는 사전 도메인 지식(domain knowledge)이나 언어적 복잡성 등 다른 난이도 요소는 배제하고 오직 '연산적/추론적 깊이'만 측정함.
- Future Work: DoT를 primary curriculum driver(주요 학습 기준)로 사용하되, 다른 난이도 요소를 보조 지표(secondary metrics)로 결합하여 보다 정교한 복합 난이도 커리큘럼을 구축하는 방향 제안.
Overall Summary
이 논문은 LLM의 복잡한 reasoning 능력을 향상시키기 위한 학습 과정에서, 기존의 불투명하고 연산량이 많은 난이도 지표들을 대체할 Depth of Thought (DoT) 라는 직관적인 지표를 제안합니다. 모델의 풀이 과정(CoT) 내에 존재하는 논리적 단계(step)의 수를 세는 방식을 통해, 데이터셋 규모에 구애받지 않고 가벼우면서도 인간이 완벽하게 해석하고 통제할 수 있는 curriculum learning 프레임워크를 구축했습니다. 이는 AI의 학습 과정을 인간의 인지적 학습 원리(쉬운 기초 개념부터 다단계 논리 추론으로의 발전)와 일치시킴으로써, 향후 추론 중심의 LLM 훈련에 있어 효율성과 투명성을 크게 높일 수 있는 중요한 방법론적 토대를 제공합니다.
쉬운 설명
이 논문은 AI에게 수학이나 과학 문제를 가르칠 때, "단순히 글자 수가 많은 문제"나 "다른 똑똑한 AI가 어렵다고 평가한 문제"를 무작정 어려운 문제로 취급하는 방식을 비판합니다. 대신 **"풀이 과정(step)이 몇 줄이나 필요한가?"**를 기준으로 난이도를 나누는 아주 직관적인 방식을 제안합니다.
예를 들어, "2+3=5"처럼 1줄 만에 풀리는 문제는 '쉬운 문제(shallow)'로, 방정식을 여러 번 풀고 치환해야 하는 7줄짜리 문제는 '어려운 문제(deep)'로 분류합니다. 이렇게 풀이 단계의 수(Depth of Thought)를 세어 난이도를 분류한 뒤, 쉬운 문제부터 차근차근 가르치는 교육 과정(Curriculum)을 AI에게 적용하면 훨씬 효율적이고 똑똑하게 추론 능력을 기를 수 있다는 아이디어입니다.
이 논문이 하려는 걸 강현 님 스타일로 딱 세 문장으로 요약해 보겠습니다.
- "그동안 데이터 난이도 매긴다고 멀티 GPU 굴려가며 무겁게 Loss나 Gradient 계산하거나, 아니면 대충 글자 수 길면 어려운 문제인 줄 알았다."
- "근데 그딴 비싼 짓 하지 말고, 그냥 똑똑한 티처 모델한테 Chain-of-Thought로 문제 풀게 한 다음 그 풀이 과정의 스텝(Step) 수만 세서 그걸 난이도(Depth of Thought)로 치자."
- "그래서 그 스텝 수가 적은 것(쉬운 것)부터 많은 것(어려운 것) 순서대로 학생 모델을 학습시키면, 연산도 싸게 먹히고 사람 추론 과정이랑 비슷해서 훨씬 효율적이다."
