논문리뷰

VLM : 논문 리뷰 : TTRL: Test-Time Reinforcement Learning

AI바라기 2025. 4. 24. 13:12

TTRL: Test-Time Reinforcement Learning 학습 노트

용어 설명 (Terminology)

TTRL (Test-Time Reinforcement Learning): 이 논문에서 제안하는 핵심 방법론. Ground-truth label 없이 test data만을 사용하여 test-time에 Reinforcement Learning(RL)으로 Large Language Model(LLM)을 training하는 프레임워크.
TTS (Test-Time Scaling): Inference 시 계산 resource를 늘려 LLM 성능을 향상시키는 기법들의 총칭. 예: Self-consistency, Best-of-N.
TTT (Test-Time Training): Inference 시 들어오는 test data를 이용해 모델 파라미터를 업데이트하는 기법. TTRL은 TTT의 한 형태로 볼 수 있음 (RL을 사용).
Majority Voting: 여러 개의 candidate output 중 가장 빈번하게 등장하는 output을 선택하는 방식. TTRL에서는 이를 pseudo-label로 사용하여 reward를 계산.
Maj@N: N개의 candidate output을 생성하여 Majority Voting으로 예측한 결과의 정확도. TTRL의 학습 성능을 가늠하는 직관적인 upper bound로 간주되지만, TTRL은 이를 넘어설 수 있음을 보임.
Self-evolution: 외부의 supervision 없이 모델 스스로 생성한 데이터와 reward를 통해 성능을 개선해 나가는 과정. TTRL의 핵심 작동 원리.
Unlabeled Data: Ground-truth 정답이 없는 데이터. TTRL은 이러한 데이터 환경에서 작동.
Ground-truth Labels: 실제 정답 레이블. TTRL은 학습 과정에서 이를 사용하지 않음.
Prior Knowledge: Pre-trained 모델이 이미 가지고 있는 지식. TTRL의 성공 여부에 중요한 역할을 함.
Pass@1: Greedy decoding으로 생성된 첫 번째 답변이 정답일 확률. 주로 code generation이나 math reasoning task에서 사용되는 metric.
Avg@N: N개의 샘플을 생성하여 얻은 결과들의 평균 성능 (논문에서는 Avg@64 사용).
GRPO (Group Relative Policy Optimization): RL 알고리즘의 한 종류. 논문에서 TTRL 구현에 사용.
PPO (Proximal Policy Optimization): RL 알고리즘의 한 종류. TTRL과의 호환성 확인에 사용.
Entropy: 모델 출력의 불확실성/다양성을 측정하는 지표. TTRL 학습 중 변화를 모니터링.
AIME, AMC, MATH-500: 수학 reasoning 능력을 평가하는 benchmark datasets.

Purpose of the Paper

기존 한계 극복: 기존 RL 방식은 일반적으로 ground-truth reward나 human feedback이 필요하며, test-time에 새로 들어오는 unlabeled data에 적용하기 어려움. 특히 reasoning task에서 reward estimation이 난제.
새로운 문제 정의: "Test-time에 ground-truth label 없이 오직 unlabeled test data만을 사용하여 RL로 LLM을 어떻게 학습시킬 수 있는가?" 라는 새로운 문제(Test-Time Reinforcement Learning)를 정의하고 해결책 제시.
차별점:
- 기존 TTS는 주로 inference 시 computational resource를 늘리는 데 초점. TTRL은 test-time에 실제 모델 training을 수행.
- 기존 TTT는 주로 self-supervised loss를 사용. TTRL은 모델 스스로 생성한 consensus(majority voting) 기반의 reward를 통해 RL을 수행.
- Annotation 비용 없이 LLM이 스스로 새로운 데이터에 적응하고 성능을 개선(self-evolution)하는 방향 제시.

Key Contributions & Novelty

Key Contributions:
- TTRL 프레임워크 제안: Test-time에 unlabeled data로 RL training을 수행하는 novel method 제안.
- Majority Voting Reward: 다수결 투표(Majority Voting)를 이용한 간단하면서도 효과적인 reward function 설계 및 적용.
- Self-Evolution 입증: 모델이 자신의 초기 예측(Majority Voting 결과)보다 더 뛰어난 성능을 달성하며 스스로 발전(surpassing Maj@N)할 수 있음을 실험적으로 증명.
- 성능 향상 검증: AIME 2024, AMC, MATH-500 등 다양한 reasoning benchmark에서 기존 모델 대비 큰 폭의 성능 향상 달성 (e.g., Qwen-7B on AIME 2024: +159.3% pass@1).
- Upper Bound 근접: TTRL 성능이 test data의 ground-truth label을 사용하여 학습한 이상적인 경우(RL leakage)에 근접함을 보임.
Novelty:
- Reward 생성 방식: TTS 기법인 Majority Voting을 단순 inference 전략이 아닌, test-time RL training을 위한 reward signal 생성 메커니즘으로 활용한 점.
- Bootstrapping Performance: 외부 정보 없이 모델 내부의 consensus만을 이용하여 학습함에도 불구하고, 초기 consensus 수준을 뛰어넘는 성능 향상을 이끌어낸 점 (Lifts itself up by its own bootstraps).
- Unsupervised RL Adaptation: 복잡한 reasoning task에 대해 별도의 레이블링 없이 test-time adaptation을 RL을 통해 효과적으로 수행할 수 있음을 보여준 점.

Experimental Highlights

Datasets & Models: AIME 2024, AMC, MATH-500 / Qwen2.5-Math-7B, Qwen2.5-Math-1.5B, LLaMA-3.1-8B-Instruct.
Metrics: pass@1, Avg@64, Maj@N.
Key Results:
- Significant Improvement: Qwen-7B 모델, AIME 2024 benchmark에서 TTRL 적용 후 pass@1 성능 16.7% → 43.3% (+159.3%) 달성 (오직 unlabeled test data 사용). 3개 benchmark 평균 84.1% 성능 향상.
- Surpassing Training Signal: 학습된 TTRL 모델의 최종 성능(Avg@64)이 학습 신호로 사용된 초기 모델의 Majority Voting 성능(Maj@64)을 상회 (Figure 6).
- Approaching Oracle Performance: TTRL의 성능 향상 곡선이 test data 정답을 이용해 학습시킨 경우(RL leakage)의 성능 곡선과 매우 유사하게 나타남 (Figure 7).
- Generalization: 특정 benchmark (e.g., AIME)에서 TTRL 학습 시, 다른 benchmark (e.g., AMC, MATH-500)에서도 성능이 향상되는 out-of-distribution 일반화 능력 확인 (Figure 3).
- Algorithm Compatibility: GRPO 외에 PPO와 같은 다른 RL 알고리즘과도 안정적으로 호환되며 유사한 성능 달성 가능 (Figure 4).

Limitations and Future Work

Limitations:
- Dependency on Prior Knowledge: TTRL 성능은 pre-trained 모델의 초기 능력(prior knowledge)에 크게 좌우됨. 모델이 특정 task를 해결하기에 너무 약하면 TTRL 적용 효과 미미하거나 실패 (e.g., Qwen-1.5B on AIME 2024).
- Hyperparameter Sensitivity: RL 학습 고유의 특성으로 인해 learning rate, temperature, episodes 등 hyperparameters 설정에 민감하며, 잘못된 설정 시 학습 불안정 또는 실패 가능성 존재 (Figure 10).
- Need for Deeper Analysis: 본 연구는 초기 탐색 단계로, prior knowledge와 hyperparameter 설정이 TTRL 성능에 미치는 영향에 대한 심층 분석 필요.
Future Work:
- Theoretical Analysis: TTRL의 수렴성 및 성능 상한(upper bounds)에 대한 이론적 분석 수행.
- Online Learning & Streaming Data: 실시간으로 데이터가 들어오는 환경(streaming data)에서 TTRL을 적용하여 지속적으로 모델을 적응시키는 Test-Time Adaptation 연구.
- Large-Scale Self-Supervised RL Training: 대규모 unlabeled dataset에 TTRL을 적용하여 self-supervised 방식으로 LLM을 확장 학습시키는 연구.
- Agentic Tasks & Scientific Discovery: 단순 QA를 넘어, 복잡한 agentic task나 multi-step scientific reasoning 등 보다 어려운 domain으로 TTRL 적용 확대.

Overall Summary

TTRL은 ground-truth label 없이 test-time에 unlabeled data만을 사용하여 RL로 LLM을 학습시키는 혁신적인 프레임워크이다. 이 방법은 모델이 생성한 여러 답변들 간의 다수결 투표(majority voting)를 통해 얻은 consensus를 reward signal로 활용하여, 모델이 스스로 성능을 개선(self-evolution)하도록 유도한다. 실험 결과 TTRL은 수학 reasoning 등 어려운 task에서 레이블 없이도 LLM의 성능을 크게 향상시켰으며, 심지어 학습의 기준이 된 다수결 투표의 정확도(Maj@N)를 넘어서는 성능을 달성하고 supervised 학습의 성능 상한선에 근접함을 보였다. 이는 LLM이 지속적으로 새로운 데이터에 적응하고 발전할 수 있는 가능성을 열어주는 중요한 연구로, 향후 대규모 unsupervised RL 학습 및 agentic task 적용 등 잠재력이 크다.

쉬운 설명 (Easy Explanation)

TTRL은 LLM이 어려운 문제를 풀 때, 정답을 알려주지 않고 스스로 배우게 하는 방법입니다. 마치 학생에게 같은 문제를 여러 번 풀게 한 뒤, 가장 자주 내놓는 답이 '아마 맞을 것'이라고 생각하고 그 방향으로 더 학습하게 하는 것과 비슷합니다. LLM은 여러 답변을 생성하고, 그 중 가장 많이 나온 답변(다수결)을 '임시 정답' 삼아, 그 '임시 정답'과 비슷하게 답변하도록 스스로(RL) 학습합니다. 놀랍게도 이 과정을 통해 LLM은 처음 다수결로 정했던 '임시 정답' 수준보다 더 똑똑해질 수 있습니다. 즉, 외부 도움 없이 스스로 다수결을 통해 배우고 발전하는 방법입니다.

Abstract

이 논문은 Large Language Models (LLMs)에서의 reasoning 작업을 위해 명시적인 레이블이 없는 데이터에 대한 Reinforcement Learning (RL)을 조사합니다.

이 문제의 핵심 과제는 ground-truth 정보에 접근할 수 없는 상태에서 inference 중 reward estimation을 수행하는 것입니다.

이러한 설정이 어려워 보이지만, 우리는 majority voting과 같은 Test-Time Scaling (TTS)의 일반적인 관행이 RL training을 추진하는 데 적합한 놀랍도록 효과적인 rewards를 산출한다는 것을 발견했습니다.

본 연구에서는 unlabeled data에서 RL을 사용하여 LLMs를 training하는 새로운 방법인 Test-Time Reinforcement Learning (TTRL)을 소개합니다. TTRL은 pre-trained models에 있는 사전 정보를 활용하여 LLMs의 self-evolution을 가능하게 합니다.

우리의 실험은 TTRL이 다양한 작업과 models에서 일관되게 성능을 향상시킨다는 것을 보여줍니다. 특히, TTRL은 레이블 없는 테스트 데이터만으로 AIME 2024에서 Qwen-2.5-Math-7B의 pass@1 성능을 약 159% 향상시킵니다.

더욱이, TTRL은 Maj@N metric에 의해서만 지도되지만, 초기 model의 upper limit를 지속적으로 능가하고 ground-truth labels을 사용하여 테스트 데이터에서 직접 training된 models의 성능에 근접하는 성능을 보여주었습니다.

우리의 실험 결과는 다양한 작업 전반에 걸쳐 TTRL의 일반적인 효과를 검증하고, 더 넓은 작업과 영역에 대한 TTRL의 잠재력을 강조합니다.

1 Introduction

Test-Time Scaling (TTS)은 Large Language Models (LLMs)의 reasoning 능력을 향상시키기 위한 새로운 트렌드를 나타냅니다. 최근 연구들은 TTS가 pre-training 중 scaling보다 계산적으로 더 효율적이어서 동등한 computational investment로 우수한 performance를 가능하게 한다고 제안합니다. 수많은 연구들이 reward models을 통해 TTS를 향상시키는 방법을 탐구해 왔으며, majority voting 및 decoding 단계 중 Monte Carlo tree search와 같은 전략을 사용했습니다. DeepSeek-R1 및 OpenAI의 o1과 같은 최근 선도적인 Large Reasoning Models (LRMs)은 Reinforcement Learning (RL)이 긴 chain-of-thought 사고를 향상시키는 데 중요한 역할을 한다는 점을 강조합니다. 그러나 LRMs는 여전히 unlabeled이고 새로 들어오는 데이터 스트림을 해결하는 데 어려움을 겪습니다. 예를 들어, OpenAI o3는 ARC-AGI-1에서 75.7%의 success rate를 달성하지만, ARC-AGI-2 (2025)에서는 문제의 4%만 해결합니다.

TTS에 대한 이러한 연구들은 train-time과 test-time 행동 간의 불일치를 명확하게 보여주었으며, 특히 train-time에 초점을 맞춘 RL-based approaches에서 두드러집니다. 그러나 large-scale training data에만 RL을 적용하는 것은 새롭게 등장하고 매우 complex한 입력의 novel features나 distributional changes를 처리하기에 심각하게 불충분합니다. 최근에는 incoming test data를 사용하여 test-time에 model parameters를 업데이트할 수 있는 Test-Time Training (TTT) 방법들이 점점 더 많은 주목을 받고 있습니다. 이러한 방법들은 RL을 사용하여 test-time에 model을 fine-tuning함으로써 TTS를 완전히 발전시키고, 이를 통해 unseen data에 대한 generalization을 개선하는 자연스럽고 유망한 방향을 제공합니다. 그러나 이는 또 다른 중요한 과제를 제기합니다: test-time에 RL을 위한 rewards나 verifier를 어떻게 얻을 수 있을까요? 실제 세계의 작업들이 복잡성과 양에서 증가함에 따라, RL을 위해 대규모로 이러한 데이터를 annotating하는 것은 점점 더 비현실적이 됩니다. 이는 선도적인 models의 continual learning에 상당한 장애물을 제시합니다.

이러한 문제들을 해결하기 위해, 우리는 RL을 통해 test-time training을 수행하는 Test-Time Reinforcement Learning (TTRL)을 소개합니다. TTRL은 rollout 단계에서 반복적인 sampling strategies를 사용하여 label을 정확하게 추정하고 rule-based rewards를 계산함으로써 unlabeled data에 대한 RL을 가능하게 합니다. 효과적인 majority voting rewards를 통합함으로써, TTRL은 ground truth labels이 없는 상황에서 효율적이고 안정적인 RL을 촉진합니다. 이전에 강조했듯이, 더 도전적인 작업의 등장은 필연적으로 더 많은 비율의 unlabeled data로 이어질 것입니다. TTRL은 명시적인 supervision 없이 models을 training하는 문제를 직접 다루며, 이 도전적이면서도 중요한 환경 하에서 model의 탐색 및 학습 능력을 조사합니다. 본질적으로, TTRL은 model이 스스로 experiences를 생성하고, rewards를 estimate하며, 시간이 지남에 따라 performance를 향상시킬 수 있도록 합니다.

실험에서 Qwen2.5-Math-7B에 TTRL을 적용한 결과, AIME 2024에서 159% (13.3에서 43.3으로)의 performance 향상을 보였으며, AMC, AIME, MATH-500 전반에 걸쳐 평균 84%의 이득을 얻었습니다. 이러한 개선은 어떠한 labeled training data 없이 self-evolution을 통해 달성되었으며, 다른 작업으로도 더욱 generalize됩니다. TTRL은 pass@1에서의 performance를 향상시킬 뿐만 아니라 majority voting을 통해 TTS도 개선합니다. 더욱이, 우리의 예비 실험은 TTRL이 다양한 scales과 types의 models에 걸쳐 효과적이며, 기존 RL algorithms과 통합될 수 있음을 시사합니다. 우리는 또한 TTRL이 높은 performance ceiling과 같은 유리한 특성을 나타낸다는 것을 발견했습니다. 이러한 관찰들은 human annotations에 대한 의존도를 실질적으로 줄이고, continual learning과 large-scale unsupervised training으로 RL을 scaling할 수 있는 잠재력을 강조합니다. 아래는 몇 가지 주요 요점입니다:

Takeaways

Majority voting은 TTRL을 위한 효과적인 reward estimation을 제공합니다 (§ 3).
TTRL은 자체 training signal과 upper limit Maj@N을 초과할 수 있으며, ground-truth를 사용하여 테스트 데이터에서 direct training한 performance와 거의 유사합니다 (§ 4.1).
Unsupervised 방식으로 효율적이고 안정적인 RL을 달성하는 것이 가능합니다 (§ 4.2).

TTRL 논문 Introduction 정리노트 (AI 연구자용)

배경:

Large Language Models (LLMs)의 reasoning 능력 향상을 위해 Test-Time Scaling (TTS)이 주목받고 있음. TTS는 pre-training scaling보다 계산 효율적일 수 있음.
기존 TTS 향상 연구: reward models, majority voting, Monte Carlo tree search 등을 활용.
최신 Large Reasoning Models (LRMs) (예: DeepSeek-R1, o1)에서도 Reinforcement Learning (RL)이 long chain-of-thought 향상에 중요함을 시사.

문제 제기:

Unlabeled 신규 데이터 처리의 어려움: 현존 LRM 및 TTS 방법은 새롭게 등장하는 unlabeled 데이터 스트림 처리에 어려움을 겪음 (예: OpenAI o3의 ARC-AGI-1 대비 ARC-AGI-2 성능 저하).
Train-time vs. Test-time 불일치: 특히 RL 기반 접근법은 train-time에 초점을 맞춰, test-time에서 마주치는 novel features나 distributional changes에 대응하기 어려움.
Test-Time RL의 핵심 난제: Test-Time Training (TTT)을 RL과 결합하여 test-time fine-tuning 및 generalization을 개선하는 것은 유망하나, test-time에 ground-truth labels 없이 RL을 위한 rewards 또는 verifier 확보가 매우 어려움 (대규모 annotation의 비현실성). 이는 선도 models의 continual learning을 저해함.

제안 방법: Test-Time Reinforcement Learning (TTRL)

정의: RL을 통해 test-time training을 수행하여 unlabeled 데이터에서 LLM을 학습시키는 새로운 방법론.
핵심 메커니즘:
- Rollout 단계에서 반복적인 sampling strategies 사용.
- Majority voting을 활용하여 label을 추정하고 rule-based rewards를 계산.
- 이를 통해 명시적인 supervision (ground-truth labels) 없이 RL training 가능.
- Model의 pre-trained priors를 활용한 self-evolution 촉진.

주요 결과 및 기여:

성능 향상: Qwen2.5-Math-7B 모델에 TTRL 적용 시, AIME 2024 pass@1 성능 159% 향상 (13.3 → 43.3). AMC, AIME, MATH-500 등 다양한 벤치마크에서 평균 84% 성능 개선. (주목: 이 모든 것이 labeled training data 없이 self-evolution으로 달성됨)
부가 효과: Pass@1 성능 향상 외에도 majority voting을 통한 TTS 자체를 개선.
일반화 및 확장성: 다른 task로 generalize 가능. 다양한 scales 및 types의 models에 효과적이며 기존 RL algorithms과 통합 가능성 시사. 높은 performance ceiling 특성.
기대 효과: Human annotation 의존도 감소, continual learning 가능성 제시, large-scale unsupervised training으로 RL 확장 가능성.

핵심 Takeaways:

Majority voting이 TTRL을 위한 효과적인 reward estimation 제공 (§ 3).
TTRL은 자체 training signal (Maj@N)의 상한을 넘어설 수 있으며, ground-truth로 직접 training한 모델 성능에 근접 가능 (§ 4.1).
Unsupervised 방식으로 효율적이고 안정적인 RL 달성 가능 (§ 4.2).

쉬운 설명 :

이 논문의 Introduction 부분은 **LLM(똑똑한 언어 모델)이 새로운 문제를 만났을 때 스스로 더 똑똑해지게 만드는 새로운 방법(TTRL)**에 대해 이야기하고 있습니다.

보통 LLM을 더 똑똑하게 만드는 방법 중 하나로 **Test-Time Scaling (TTS)**라는 것이 있는데, 이건 LLM이 실제로 문제를 풀 때(test-time) 성능을 끌어올리는 기술입니다. 미리 엄청나게 학습시키는 것(pre-training)보다 효율적일 수 있죠.

하지만 문제가 있습니다. 기존의 방법들, 특히 Reinforcement Learning (RL), 즉 '강화학습'을 쓰는 방법들은 미리 학습(train-time)시키는 데 초점을 맞추다 보니, 막상 실제 사용 중에 새롭고 정답(label)이 없는 문제들을 만나면 잘 대처하기 어렵습니다. 그렇다고 새로운 문제마다 사람이 정답을 알려주면서 계속 학습시키기는 너무 힘들죠.

그래서 이 논문은 **Test-Time Reinforcement Learning (TTRL)**이라는 새로운 아이디어를 제안합니다. 이건 LLM이 실제 문제를 푸는 도중에(test-time) 스스로 RL 학습을 계속하게 만드는 방법입니다. 정답(ground-truth labels)이 없는 문제를 가지고도 학습할 수 있다는 게 핵심입니다!

어떻게 하냐면요? LLM이 한 문제에 대해 여러 번 답을 생성하게 한 다음, 가장 많이 나온 답(majority voting)이 정답일 가능성이 높다고 '추측'합니다. 그리고 이 추측을 바탕으로 스스로에게 '보상(reward)'을 주면서 점점 더 잘하도록 학습하는 거죠. 마치 정답 없이도 스스로 어림짐작하며 배우는 것과 비슷합니다.

결과적으로, 이 TTRL 방법을 썼더니, 어떤 수학 문제 푸는 LLM이 어려운 시험(AIME 2024)에서 정답 없는 문제들만 가지고 스스로 학습해서 성능이 159%나 향상되었습니다. 즉, 사람이 일일이 정답을 알려주지 않아도 LLM이 스스로 계속 똑똑해질 수 있다는 가능성을 보여준 것입니다. 앞으로 LLM이 스스로 계속 학습하고 발전하는 데 큰 도움이 될 수 있는 기술입니다.

2 Test-Time Reinforcement Learning (TTRL)

알려진 reward signals로부터 agent가 학습하는 전통적인 RL과 달리, TTRL은 unlabeled test data에서 작동합니다. 즉, model은 explicit supervision 없이 학습하고 adapt해야 합니다. 우리의 task는 다음과 같이 정의됩니다:

우리는 ground-truth labels 없이 RL을 사용하여 test time 동안 pre-trained model을 training하는 문제를 연구합니다. 우리는 이 설정을 Test-Time Reinforcement Learning이라고 부릅니다.

2.1 Methodology

그림 2는 우리의 접근 방식인 TTRL이 이 과제를 어떻게 해결하는지 보여줍니다. prompt x로 표현되는 state가 주어지면, model은 로 parameterized된 policy 로부터 sampled된 output y를 생성함으로써 행동합니다. Ground-truth labels 없이 reward signal을 구축하기 위해, 우리는 repeated sampling을 통해 model로부터 여러 candidate outputs 을 generate합니다. 예를 들어 majority voting 또는 다른 aggregation method를 통해 consensus output 가 도출되며, 이는 optimal action의 proxy 역할을 합니다. 그러면 environment는 sampled action y와 consensus action 간의 alignment에 기반하여 reward 를 제공합니다. 따라서 RL objective는 expected reward를 최대화하는 것입니다: 그리고 parameters 는 gradient ascent를 통해 업데이트됩니다: 여기서 는 learning rate를 나타냅니다. 이 접근 방식은 model이 inference 중에 adapt할 수 있게 하여, labeled data 없이 distribution-shifted inputs에 대한 performance를 효과적으로 향상시킵니다.

2.2 Majority Voting Reward Function

Majority voting reward는 먼저 majority voting을 통해 label을 estimating함으로써 결정됩니다. 이 estimated label은 그 다음 rule-based rewards를 계산하는 데 사용되며, 이는 final rewards 역할을 합니다. Question x가 주어지면, 우리는 먼저 x를 LLM에 입력하여 set of outputs를 generate합니다. 그 다음 answer extractor가 이 outputs를 처리하여 해당하는 predicted answers를 얻으며, 이는 로 표기됩니다. 우리는 먼저 P에 대해 Equation 4를 따라 label을 estimate하고, majority voting을 scoring function 로 사용하여 P에서 가장 빈번하게 발생하는 prediction인 를 얻습니다. 그 다음 majority-voted prediction 가 estimated label로 사용되어 rule-based rewards를 계산합니다. Reward function은 다음과 같습니다:

리스팅 1: Majority voting reward function의 pseudo-code.

(이미지 내용 기반 Pseudo-code 번역)

Function MajorityVoteReward(outputs P = {y_hat_1, ..., y_hat_N}):
  counts = {} Initialize  # 빈도수 계산을 위한 딕셔너리 초기화
  
  # 각 prediction의 빈도수 계산
  for each prediction y_hat_i in P:
    if y_hat_i not in counts:
      counts[y_hat_i] = 0
    counts[y_hat_i] += 1
  
  # 가장 많이 나온 prediction 찾기 (Majority voting)
  majority_prediction y = prediction with max count in counts 
                          (e.g., y = max(counts, key=counts.get)) # counts.get을 key로 사용하여 최대값 찾기

  rewards = [] # reward 리스트 초기화
  # 각 prediction에 대한 reward 계산
  for each prediction y_hat_i in P:
    if y_hat_i == y: # majority prediction과 일치하면
      reward = 1
    else: # 일치하지 않으면
      reward = 0
    append reward to rewards # 계산된 reward를 리스트에 추가
  
  # 계산된 rewards 리스트와 majority prediction 반환
  return rewards, majority_prediction y

TTRL 논문 Section 2 정리노트 (AI 연구자용)

TTRL 정의:

기존 RL과 달리, TTRL은 unlabeled test data 상에서 작동. 즉, explicit supervision(ground-truth labels) 없이 model이 test time에 RL을 통해 학습하고 adapt하는 설정.

Methodology (Sec 2.1):

구성 요소:
- State: Prompt
- Action: Model output (policy 로부터 sampling)
- Policy Parameters:
핵심 아이디어: Unsupervised Reward Signal 생성
1. Repeated Sampling: 현재 policy 를 사용하여 동일 prompt 에 대해 개의 candidate outputs 생성.
2. Consensus Derivation: 생성된 outputs로부터 consensus output 도출 (예: majority voting). 는 optimal action의 proxy 역할.
3. Reward Calculation: Sampled action 와 consensus action 간의 alignment에 기반한 reward 계산.
RL Objective & Update:
- Objective: Maximize expected reward .
- Update: Policy gradient ascent .
목표: Labeled data 없이 inference 중 model adaptation을 가능하게 하여 distribution-shifted inputs에 대한 performance 향상.

Majority Voting Reward Function (Sec 2.2):

TTRL Reward 구체화: 를 majority voting 기반으로 구현.
절차:
1. Question 에 대해 LLM이 개의 outputs 생성.
2. Answer extractor를 통해 predicted answers 추출.
3. 내에서 majority voting을 scoring function으로 사용하여 가장 빈번한 prediction (consensus 역할)를 estimated label로 결정.
4. 각 에 대해 rule-based reward 계산: (if ), (otherwise). 이 이 RL 학습에 사용되는 최종 reward 가 됨.
Pseudo-code (Listing 1): 위 과정을 코드로 상세화. 다수결 투표로 를 정하고, 각 가 와 일치하는지에 따라 0 또는 1의 reward를 할당.

쉬운 설명 :

이 섹션은 TTRL(Test-Time Reinforcement Learning) 이라는 새로운 학습 방법이 어떻게 작동하는지 설명합니다. 핵심은 정답(label) 없이도 LLM 모델이 시험(test)을 치르면서 스스로 배우는 것입니다.

작동 원리 (Methodology):

여러 번 답해보기: 모델에게 어떤 질문()을 주고, 모델 스스로 여러 개의 답()을 생성하게 합니다. (마치 한 문제에 대해 여러 번 고민해서 다른 답들을 내보는 것과 같습니다.)
'정답 같은 답' 찾기: 모델이 내놓은 여러 답들 중에서 가장 많이 나온 답(majority voting)을 찾습니다. 이걸 '정답에 가장 가까운 답'()이라고 임시로 정합니다. (정답을 모르니, 가장 의견이 모인 쪽을 우선 믿어보는 거죠.)
스스로 점수 매기기: 모델이 생성했던 각각의 답()과 방금 찾은 '정답 같은 답'()을 비교합니다.
- 만약 답이 '정답 같은 답'과 일치하면, 모델은 스스로에게 '잘했다!'는 신호(reward = 1)를 줍니다.
- 일치하지 않으면, '음...' 하는 신호(reward = 0)를 줍니다.
더 잘하게 조정하기: 모델은 이 '잘했다/음...' 신호(reward)를 바탕으로, 다음번에는 '정답 같은 답'에 더 가까운 답을 더 잘 생성하도록 스스로의 작동 방식(policy )을 조금씩 수정(학습)합니다.

Majority Voting Reward Function:

이 부분은 위 2, 3번 과정을 좀 더 구체적으로 설명합니다.

정확히 어떻게 '정답 같은 답'()을 찾는지 (가장 많이 나온 답을 고른다 - majority voting).
정확히 어떻게 '점수(reward)'를 매기는지 (일치하면 1점, 아니면 0점).
이 과정을 간단한 코드(pseudo-code)로 보여줍니다.

결론적으로, TTRL은 모델이 정답 없는 데이터를 만나도, 스스로 답을 여러 개 내보고 그중 가장 그럴듯한 답을 기준으로 삼아 스스로 배우고 발전해나가는 똑똑한 학습 방법입니다.

3 Experiments

3.1 Experimental Setup

Models TTRL의 generality를 다른 backbone models에 걸쳐 평가하기 위해, 우리는 base models과 instruct models 모두를 사용하여 experiments를 수행합니다. 우리는 TTRL이 효과적으로 scales하는지 평가하기 위해 base models Qwen2.5-Math-1.5B와 Qwen2.5-Math-7B에 대해 실험합니다. Instruct models의 경우, LLaMA-3.1-8B-Instruct를 사용하여 다른 model families에 걸쳐 TTRL의 효과를 검증합니다.

Benchmarks 우리는 3개의 mathematical reasoning benchmarks에서 TTRL을 평가합니다: AIME 2024, AMC, 그리고 MATH-500. 각 benchmark에 개별적으로 TTRL을 적용한 후, 이전 연구들과의 공정한 comparison을 보장하기 위해 greedy decoding을 사용하여 pass@1을 report합니다. 우리는 또한 DeepSeek-R1의 decoding parameters를 사용하고 더 신뢰할 수 있는 evaluation을 제공하기 위해 Avg@64 score를 report합니다.

Baselines 향상된 reasoning을 위한 TTT의 사용이 이전에 탐구되지 않았기 때문에, 우리는 주로 backbone model과 비교하여 TTRL이 self-evolution을 통해 효과적인 개선을 달성할 수 있는지 검증합니다. 두 Base models에 대해서는, large-scale post-training을 거친 Instruct versions과의 comparisons도 포함합니다. 또한, 참조용으로 RL을 사용하여 광범위하게 trained된 유사한 backbones를 가진 현재 선도적인 “R1-Zero-Like” models을 포함합니다: DeepSeek-R1-Distill-1.5B&7B, SimpleRL-Zero-7B, PRIME-Zero-7B, OpenReasoner-Zero-7B, Oat-Zero-1.5B&7B, 그리고 LIMR. TTRL은 이전 models과 다른 setup을 가지고 있어 comparison이 불공평해 보일 수 있다는 점에 유의하십시오.

Implementation Details 우리는 TTRL을 implement하기 위해 각 benchmark에 독립적으로 GRPO를 적용합니다. Hyperparameters의 경우, 의 constant learning rate를 사용하고 policy model에 AdamW optimizer를 채택합니다. Rollout을 위해, voting-based label estimation에 temperature 1.0을 사용하여 64개의 responses (MATH-500의 경우 32개)를 sample하고, training을 위해 prompt 당 16개의 responses를 down-sample합니다. 증거에 따르면 우리의 vote-then-sample strategy는 여전히 강력한 performance를 달성하면서 computational costs를 효과적으로 줄입니다. Generation을 위한 maximum number of tokens는 3072로 설정됩니다. KL coefficient는 모든 experiments에서 0으로 설정됩니다. Dataset size와 task complexity에 따라 MATH, AMC, AIME에 대해 각각 40, 50, 60으로 number of episodes를 설정합니다.

3.2 Main Results

TTRL은 대부분의 tasks와 models에서 좋은 performance를 보입니다. Unlabeled test data를 사용한 self-evolution에만 의존함에도 불구하고, TTRL은 large-scale labeled datasets에서 trained된 기존 RL-based models과 비교할 만한 performance를 달성합니다. 매우 도전적인 mathematical reasoning benchmark인 AIME 2024에서, TTRL은 159.3%의 상당한 improvement를 달성하여 large-scale datasets에서 trained된 모든 models을 능가합니다. 더욱이, Qwen2.5-Math-7B에 적용했을 때, TTRL은 세 benchmarks에 걸쳐 평균 84.1%의 improvement를 산출합니다.

TTRL은 자연스럽게 scales합니다. 또 다른 주목할 만한 관찰은 model size가 증가함에 따라 (1.5B에서 7B로), AIME 2024와 AMC 모두에서 performance gains가 증가하여 TTRL의 자연스러운 scaling behavior를 강조한다는 것입니다: 더 큰 models은 self-improvement 동안 더 정확한 majority voting rewards를 생성할 수 있으며, 이는 new data에 대한 더 효과적인 learning으로 이어집니다. 그러나 LLaMA-3.1-8B-Instruct와 Qwen2.5-Math-1.5B는 제한된 capacity 때문에 TTRL을 통해 AIME 2024에서 의미 있는 gains를 달성하지 못합니다. 대조적으로, Qwen2.5-Math-7B의 더 큰 model capacity와 더 충분한 knowledge는 self-improvement로부터 이익을 얻게 하여 명확한 performance gains를 가져옵니다. 우리는 이에 대해 더 자세히 논의합니다.

TTRL은 target task를 넘어 잘 generalize합니다. 우리는 각 benchmark에서 TTRL을 수행하고 Qwen2.5-Math-7B를 backbone으로 사용하여 다른 benchmark에서 추가로 evaluate합니다. 이 setting의 out-of-distribution 특성에도 불구하고, TTRL은 모든 benchmarks에서 상당한 improvements를 달성합니다. 이는 TTRL이 다른 tasks에서의 trade-offs로 이어질 수 있는 overfitting에 의존하는 것이 아니라, self-improvement 동안 generalizable gains를 획득함을 시사합니다.

TTRL은 다른 RL algorithms과 compatible합니다. 우리는 다른 reinforcement learning algorithms와의 compatibility를 평가하기 위해 MATH-500에서 PPO를 사용하여 TTRL을 적용합니다. PPO와 GRPO의 performance trajectories는 매우 유사합니다. GRPO와 비교할 때, PPO는 유사한 overall performance를 달성하면서 더 stable한 outcomes를 산출합니다.

3.3 Training Dynamics

Test data에 ground-truth labels이 없다는 점을 고려할 때, training process 전반에 걸쳐 TTRL의 performance를 evaluating하는 것은 challenge를 제기합니다. 이 limitation을 mitigate하기 위해, 우리는 TTRL의 effectiveness를 monitor하고 assess하기 위해 특별히 설계된 일련의 training-time metrics를 도입합니다. 이러한 metrics는 optimal checkpoint 선택에 정보를 제공하고 training dynamics에 관한 귀중한 insights를 제공합니다. 예시로 Qwen2.5-Math-7B를 사용한 AIME 2024에서의 TTRL의 두 가지 curves를 보여줍니다.

Entropy: Model’s generation의 uncertainty를 측정합니다.
Majority Voting Reward: Majority-voted label로부터 계산된 Rule-based rewards.
Majority Ratio: Rollout 내에서 가장 일반적인 답변의 frequency.

더욱이, 우리는 training 중 model’s behavior에 대한 더 깊은 analysis를 가능하게 하는 ground-truth labels에 접근해야 하는 여러 metrics를 정의합니다:

Label Accuracy (Maj@N): Estimated label이 ground-truth와 일치하는지 여부를 나타냅니다.
Reward Accuracy: Estimated label로부터 계산된 rewards 중 ground-truth label로부터 계산된 rewards와 일치하는 비율을 나타냅니다.
Ground-Truth Ratio: Rollout 내에서 ground-truth answer의 frequency.

TTRL 논문 Section 3 (Experiments) 정리노트 (AI 연구자용)

Experimental Setup (Sec 3.1):

Models:
- Base Models: Qwen2.5-Math-1.5B, Qwen2.5-Math-7B (TTRL scaling 평가)
- Instruct Model: LLaMA-3.1-8B-Instruct (다른 model family 검증)
Benchmarks: Mathematical reasoning (AIME 2024, AMC, MATH-500).
Evaluation: pass@1 (greedy decoding), Avg@64 (DeepSeek-R1 params) 사용.
Baselines:
- 주 비교 대상: Backbone model 자체 (TTRL의 self-evolution 효과 검증)
- 참고 비교 대상: Instruct versions, 기타 RL 기반 "R1-Zero-Like" models (단, setup 차이로 공정 비교 어려움 명시)
TTRL Implementation:
- RL Algorithm: GRPO 사용 (각 benchmark에 독립 적용)
- Hyperparameters: LR= (AdamW), Rollout N=64 (MATH는 32), Temp=1.0, Training N=16 (downsampling), Max tokens=3072, KL=0.
- 핵심 전략: "Vote-then-sample" (효율적 연산을 위한 rollout/training sample 분리).

Main Results (Sec 3.2):

핵심 결과: Unlabeled Data 기반 Self-Evolution으로 상당한 성능 향상:
- Qwen2.5-Math-7B (AIME 2024): +159.3% pass@1 향상. Large-scale dataset 기반 학습 모델 능가.
- Qwen2.5-Math-7B (3개 benchmarks 평균): +84.1% 향상.
TTRL Scalability:
- Model size 증가 (1.5B -> 7B) 시 performance gains 증가 (AIME, AMC).
- 해석: 큰 모델이 self-improvement 중 더 정확한 majority voting rewards 생성 → 더 효과적 learning.
- 한계: 작은 모델/타 종류 모델(LLaMA-3.1-8B-Instruct, Qwen2.5-Math-1.5B)은 AIME에서 유의미한 향상 X (capacity/knowledge 부족 추정).
TTRL Generalization:
- 한 benchmark에서 TTRL training 시, 다른 benchmarks (out-of-distribution)에서도 성능 향상 관찰.
- 해석: TTRL이 특정 task overfitting이 아닌, generalizable gains를 획득함을 시사.
TTRL Compatibility:
- 다른 RL algorithm (PPO)과도 호환 가능하며 유사한 performance trajectory 및 결과 도출 (GRPO 대비 안정성↑).

Training Dynamics (Sec 3.3):

Challenge: Ground-truth label 없이 training 중 performance 평가의 어려움.
제안된 Metrics:
- Training-time Monitoring (Ground-truth 불필요):
  - Entropy: Generation uncertainty 측정.
  - Majority Voting Reward: Estimated label 기반 rule-based reward.
  - Majority Ratio: Rollout 내 최다 빈도 답변 비율.
- Analysis용 (Ground-truth 필요):
  - Label Accuracy (Maj@N): Estimated label과 ground-truth 일치율.
  - Reward Accuracy: Estimated reward와 ground-truth 기반 reward 일치율.
  - Ground-Truth Ratio: Rollout 내 ground-truth 답변 비율.
목적: Optimal checkpoint 선택 및 training dynamics 분석 위한 insights 제공.

쉬운 설명 :

이 섹션은 TTRL이라는 새로운 학습 방법이 실제로 얼마나 잘 작동하는지 실험해 본 내용입니다.

어떻게 실험했나? (Experimental Setup)

실험 대상: 수학 문제를 잘 푸는 모델(Qwen2.5-Math)과 일반적인 지시를 잘 따르는 모델(LLaMA-3.1-Instruct) 등 여러 종류의 LLM을 사용했습니다.
시험 문제: 아주 어려운 수학 문제들(AIME 2024, AMC, MATH-500)을 가지고 테스트했습니다.
비교 대상: 주로 TTRL을 적용하기 전의 원래 모델과 비교해서 얼마나 스스로 발전했는지(self-evolution)를 봤습니다. 참고로 다른 방식으로 학습된 최고 성능 모델들과도 비교했지만, 학습 방식이 달라 완벽히 공평한 비교는 아니라고 언급합니다.
학습 방법: GRPO라는 RL 학습 기술을 사용했고, 학습 속도(learning rate)나 한 번에 생성하는 답변 수(rollout) 같은 세부 설정을 정해서 실험했습니다. 특히, 답변을 많이 생성해서 '정답 같은 답'을 찾은 다음(vote), 그중 일부만 뽑아서 학습(sample)하는 효율적인 방식을 썼습니다.

실험 결과는? (Main Results)

정답 없이도 스스로 엄청 똑똑해짐! 가장 놀라운 점은, TTRL을 사용하니 모델들이 정답(label)이 없는 시험 문제만 보고도 스스로 학습해서 수학 문제 해결 능력이 크게 향상되었다는 것입니다. 예를 들어, 한 모델은 가장 어려운 시험(AIME 2024)에서 성능이 159.3%나 좋아졌고, 이는 많은 정답 데이터로 학습시킨 다른 모델들보다도 뛰어난 결과였습니다. 전체 수학 문제 평균으로는 84.1% 향상되었습니다.
몸집 큰 모델이 더 잘 배움: 모델의 크기(parameter 수)가 클수록 TTRL을 통한 성능 향상 폭이 더 컸습니다. 아마도 큰 모델이 더 정확하게 '정답 같은 답'을 추측해내서 학습 효과가 더 좋았던 것 같습니다. 반면, 작은 모델들은 아주 어려운 문제에서는 큰 효과를 보지 못했습니다.
하나를 배우면 다른 것도 잘함: 특정 종류의 수학 문제로 TTRL 학습을 시켰더니, 다른 종류의 수학 문제 풀이 능력까지 향상되었습니다. 즉, 단순히 답을 외운 게 아니라 일반적인 문제 해결 능력을 배운다는 뜻입니다.
다른 학습 기술과도 잘 맞음: TTRL은 GRPO라는 기술 외에 PPO라는 다른 RL 학습 기술과 함께 사용해도 잘 작동했습니다.

학습 과정을 어떻게 지켜봤나? (Training Dynamics)

문제점: 정답이 없으니 학습 중에 모델이 얼마나 잘하고 있는지 평가하기가 어렵습니다.
해결책: 학습 과정을 지켜볼 수 있는 여러 지표(metrics)를 만들었습니다.
- 정답 없이 보는 지표: 모델 답변의 불확실성(Entropy), 모델 스스로 매긴 점수(Majority Voting Reward), 모델 답변 중 가장 많이 나온 것의 비율(Majority Ratio) 등.
- (나중에 분석용으로) 정답과 비교하는 지표: 모델이 추측한 '정답 같은 답'이 실제 정답과 얼마나 일치하는지(Label Accuracy), 스스로 매긴 점수가 실제 정답 기반 점수와 얼마나 비슷한지(Reward Accuracy) 등.

이런 지표들을 통해 TTRL 학습이 잘 진행되는지 확인하고, 가장 성능이 좋은 시점의 모델을 선택할 수 있었습니다.