강화학습 : 논문리뷰 : Group Sequence Policy Optimization

논문리뷰

강화학습 : 논문리뷰 : Group Sequence Policy Optimization

AI바라기 2025. 8. 27. 19:06

쉬운 설명 (Core Idea Explained)

이 논문의 핵심 아이디어를 에세이 채점에 비유할 수 있습니다.

기존 방식 (GRPO): 에세이의 각 단어(token)마다 개별적으로 점수를 매기는 것과 같습니다. 특정 단어가 약간 부적절하다고 해서 그 단어에 큰 감점을 주면, 에세이 전체의 훌륭한 논리나 흐름을 놓치고 오히려 글을 망치도록 유도할 수 있습니다. 이런 피드백은 매우 혼란스럽고 불안정합니다.
새로운 방식 (GSPO): 에세이 전체(sequence)를 다 읽고 하나의 총점을 매기는 것과 같습니다. 개별 단어의 사소한 흠결보다는 문단 전체의 논리, 설득력 등 전체적인 완성도를 보고 평가합니다. 이 방식은 작가에게 훨씬 더 일관되고 안정적인 피드백을 주어 다음 에세이를 더 효과적으로 개선하도록 돕습니다.

용어 설명 (Glossary)

GSPO (Group Sequence Policy Optimization): 이 논문에서 제안하는 새로운 Reinforcement Learning (RL) 알고리즘. Sequence 전체의 Likelihood를 기반으로 Importance Ratio를 계산하여 최적화를 수행하는 것이 특징입니다.
GRPO (Group Relative Policy Optimization): GSPO의 비교 대상이 되는 기존 RL 알고리즘. 각 Token 레벨에서 Importance Ratio를 계산하여 불안정성 문제를 야기합니다.
Importance Ratio: Off-policy 학습에서, 과거 policy (π_θ_old)에서 생성된 샘플을 현재 policy (π_θ) 업데이트에 사용하기 위해 곱해주는 가중치입니다.
- Token-level Importance Ratio (GRPO 사용): π_θ(y_t | x, y_<t) / π_θ_old(y_t | x, y_<t) 로, 각 Token마다 개별적으로 계산됩니다. 이는 높은 variance를 유발하여 학습 불안정성의 원인이 됩니다.
- Sequence-level Importance Ratio (GSPO 사용): π_θ(y | x) / π_θ_old(y | x) 로, 생성된 response sequence 전체에 대해 한 번만 계산됩니다. 이는 보상이 주어지는 단위와 일치하여 더 안정적인 학습 신호를 제공합니다.
MoE (Mixture-of-Experts): 여러 개의 "전문가" sub-network 중 일부만 활성화하여 연산을 수행하는 모델 아키텍처. 대규모 모델에서 효율적이지만, RL 훈련 시 expert 활성화 패턴이 급변하는 expert-activation volatility 문제가 발생할 수 있습니다.
Routing Replay: GRPO로 MoE 모델을 훈련시킬 때 사용되던 기법. 과거 policy가 사용했던 expert 활성화 경로를 저장해두었다가 현재 policy의 Importance Ratio 계산 시 "재생(replay)"하여 강제로 동일한 경로를 사용하게 만들어 학습을 안정화시키는 전략입니다. GSPO는 이 기법이 필요 없습니다.
Clipping: Importance Ratio 값이 너무 커지거나 작아져서 학습 업데이트가 불안정해지는 것을 막기 위해, 특정 범위 [1-ε, 1+ε] 밖의 값을 잘라내는 (clip) 기법입니다.

Purpose of the Paper

이 논문은 대규모 언어 모델(LLM), 특히 MoE 모델의 RL 훈련에서 발생하는 심각한 불안정성(severe stability issues) 문제를 해결하는 것을 목표로 합니다.

기존 연구(GRPO)의 한계: GRPO와 같은 기존 알고리즘은 **Token 수준(token-level)**에서 Importance Sampling 가중치를 잘못 적용하여 근본적인 문제가 발생합니다.
- 보상(reward)은 Sequence 전체에 주어지는데, 최적화는 각 Token 별로 수행되어 단위가 불일치합니다.
- 이로 인해 response 길이가 길어질수록 누적되는 높은 variance의 노이즈가 발생하고, 이는 결국 **치명적이고 복구 불가능한 모델 붕괴(catastrophic and irreversible model collapse)**로 이어집니다.
새로운 접근 방식: 이 논문은 최적화의 단위를 보상의 단위와 일치시키기 위해, Token 수준의 접근을 버리고 **Sequence 수준(sequence-level)**에서 직접 중요도 가중치를 계산하고 최적화를 수행하는 새로운 알고리즘 GSPO를 제안합니다.

Key Contributions & Novelty

Contribution 1: Group Sequence Policy Optimization (GSPO) 제안
- Novelty: RL 최적화를 위한 Importance Ratio를 Sequence Likelihood 기반으로 재정의했습니다. 이는 Importance Sampling의 기본 원칙에 더 충실하며, 보상 단위(sequence)와 최적화 단위(sequence)를 일치시켜 학습의 근본적인 안정성을 확보합니다.
Contribution 2: MoE 모델 RL 훈련의 본질적인 안정화
- Novelty: GSPO는 Routing Replay와 같은 복잡한 안정화 전략 없이도 MoE 모델의 expert-activation volatility 문제를 근본적으로 해결합니다. Sequence 전체의 likelihood는 개별 token의 expert 경로 변화에 덜 민감하기 때문에, 인위적인 제약 없이 모델의 전체 수용력을 활용하며 안정적인 학습이 가능합니다.
Contribution 3: RL 인프라 설계 간소화 가능성 제시
- Novelty: GSPO는 Sequence 수준의 likelihood만 사용하므로, training engine과 inference engine 간의 미세한 연산 정밀도 차이에 훨씬 더 강건합니다. 이로 인해, 기존에 필요했던 likelihood 재계산 과정을 생략하고 inference engine의 결과를 직접 최적화에 사용할 수 있어 RL 파이프라인을 크게 단순화하고 효율화할 수 있습니다.

Experimental Highlights

Experimental Setup:
- Model: Qwen3-30B-A3B-Base (MoE model)
- Baselines: GRPO (with Routing Replay)
- Datasets/Metrics: AIME'24 (Pass@1), LiveCodeBench (Pass@1), CodeForces (Elo Rating)
Highlight 1: GSPO의 압도적인 학습 효율성 및 안정성
- Figure 1에서 GSPO는 GRPO 대비 동일한 training compute에서 더 높은 reward와 benchmark 성능을 달성했으며, 학습 과정이 훨씬 안정적이었습니다. 이는 GSPO의 sequence-level 접근법이 더 우수함을 실증적으로 보여줍니다.
Highlight 2: 직관에 반하는 Clipping Fraction 결과 (매우 중요한 발견)
- Figure 2에 따르면, GSPO는 GRPO보다 약 100배 이상 더 많은 token을 clip (GSPO: ~15%, GRPO: ~0.13%)함에도 불구하고 훨씬 뛰어난 성능을 보였습니다.
- 의미: 이는 GRPO의 token-level gradient 추정치가 본질적으로 노이즈가 많고 비효율적이라는 강력한 증거입니다. 반면, GSPO는 더 많은 데이터를 "버리는" 것처럼 보이지만, 실제로는 더 안정적이고 효과적인 학습 신호를 사용하여 샘플을 훨씬 효율적으로 활용함을 시사합니다.

Figure 1: GSPO가 GRPO보다 더 빠르고 안정적으로 높은 성능에 도달함을 보여주는 학습 곡선.

Figure 2: GSPO가 훨씬 많은 token을 clip함에도 성능이 더 우수하다는 것을 보여주는 그래프.

Limitations and Future Work

Limitations: 논문에서 명시적으로 한계점을 언급하지는 않았습니다. 제안된 방법이 성공적으로 작동했기 때문에 장점에 초점을 맞추고 있습니다. 다만, GSPO-token이라는 token-wise advantage 조절이 가능한 변형을 제안했지만, 이에 대한 실험적 검증은 제시되지 않았습니다.
Future Work: 논문은 GSPO를 **확장 가능한 알고리즘의 초석(scalable algorithmic cornerstone)**으로 제시하며, 이를 기반으로 RL을 지속적으로 확장(scale)하여 지능의 근본적인 발전을 이끌어낼 것이라고 언급합니다. 이는 구체적인 향후 연구 계획보다는, GSPO가 대규모 RL의 미래에 중요한 역할을 할 것이라는 비전을 제시하는 것에 가깝습니다.

Overall Summary

이 논문은 기존 RL 알고리즘(GRPO)이 token 단위 최적화로 인해 대규모 MoE 모델 훈련 시 겪는 심각한 불안정성 문제를 지적합니다. 이에 대한 해결책으로, 보상 단위와 최적화 단위를 일치시키는 sequence-level Importance Ratio를 사용하는 새로운 알고리즘 GSPO를 제안합니다. 실험을 통해 GSPO는 Routing Replay와 같은 추가 장치 없이도 MoE 모델 훈련을 안정화시키고, GRPO 대비 월등한 학습 효율성과 성능을 달성함을 입증했습니다. 이 연구는 최신 Qwen3 모델 성능 향상에 기여했을 뿐만 아니라, 향후 대규모 RL 훈련을 위한 더 견고하고 확장 가능한 기반을 제공했다는 점에서 큰 의의를 가집니다.

Abstract

이 논문은 large language models training을 위한 안정적이고 효율적이며 성능이 뛰어난 reinforcement learning algorithm인 Group Sequence Policy Optimization (GSPO)을 소개합니다.

token-level importance ratios를 채택하는 이전 algorithm과 달리, GSPO는 sequence likelihood를 기반으로 importance ratio를 정의하고 sequence-level clipping, rewarding, optimization을 수행합니다.

우리는 GSPO가 GRPO algorithm에 비해 우수한 training efficiency와 performance를 달성하고, 특히 Mixture-of-Experts (MoE) RL training을 안정화하며, RL infrastructure 설계를 단순화할 잠재력이 있음을 입증합니다. GSPO의 이러한 장점들은 최신 Qwen3 models의 놀라운 개선에 기여했습니다.

1 Introduction

Reinforcement learning (RL)은 language models를 scaling하기 위한 중추적인 paradigm으로 부상했습니다 (OpenAI, 2024; DeepSeek-AI, 2025; Qwen, 2025b;a). large-scale RL을 통해, language models는 더 깊고 긴 reasoning processes를 수행함으로써 대회 수준의 수학 및 프로그래밍과 같은 정교한 문제를 해결할 수 있는 capability를 개발합니다.

더 큰 계산 투자를 통해 RL을 성공적으로 scale하기 위한 가장 중요한 전제 조건은 안정적이고 견고한 training dynamics를 유지하는 것입니다. 그러나 GRPO (Shao et al., 2024)로 대표되는 현재의 state-of-the-art RL algorithms는 거대한 language models를 training할 때 심각한 안정성 문제를 보이며, 종종 치명적이고 돌이킬 수 없는 model collapse를 초래합니다 (Qwen, 2025a; MiniMax, 2025). 이러한 instability는 지속적인 RL training을 통해 language models의 capability 한계를 넘어서려는 노력을 방해합니다.

이 논문에서 우리는 GRPO의 instability가 algorithmic design에서 importance sampling weights의 근본적인 오용 및 무효화에서 비롯된다는 것을 확인합니다. 이는 응답 길이가 증가함에 따라 점진적으로 축적되고 clipping mechanism에 의해 더욱 증폭되는 high-variance training noise를 도입하여 궁극적으로 model collapse를 촉발합니다.

이러한 핵심적인 한계를 해결하기 위해, 우리는 large language models training을 위한 새로운 RL algorithm인 Group Sequence Policy Optimization (GSPO)을 제안합니다. GSPO의 핵심 innovation은 importance sampling의 기본 원칙에 부합하는 sequence likelihood (Zheng et al., 2023)에 기반한 이론적으로 근거 있는 importance ratio 정의에 있습니다. 또한 GSPO는 하나의 query에 대한 여러 응답의 advantages로 normalized rewards를 계산하여 sequence-level rewarding과 optimization 간의 정렬을 보장합니다.

우리의 경험적 평가는 training stability, efficiency, performance에서 GRPO에 대한 GSPO의 상당한 우월성을 보여줍니다. 결정적으로, GSPO는 대규모 Mixture-of-Experts (MoE) models의 RL training에서 안정성 문제를 본질적으로 해결하여 복잡한 안정화 전략의 필요성을 없애고, RL infrastructure를 단순화할 수 있는 잠재력을 보여줍니다. GSPO의 이러한 장점들은 궁극적으로 최신 Qwen3 models의 탁월한 performance 향상에 기여했습니다. 우리는 GSPO를 language models를 이용한 large-scale RL training의 지속적인 발전을 가능하게 할 견고하고 scalable한 algorithmic foundation으로 구상합니다.

Introduction 정리노트 (for AI 연구자)

문제 제기 (Problem): Large Language Models의 capability를 극한으로 끌어올리기 위한 large-scale Reinforcement Learning (RL) training에서 state-of-the-art algorithm인 GRPO가 심각한 instability 문제를 보임. 이는 종종 치명적인 model collapse로 이어져 scaling의 발목을 잡고 있음.
원인 분석 (Root Cause Analysis): 본 논문은 GRPO의 instability 원인을 algorithmic design 단에서 importance sampling weights를 근본적으로 오용하고 무효화하는 것에서 찾음. 이로 인해 high-variance training noise가 발생하며, 이는 response 길이가 길어질수록 축적되고 clipping mechanism에 의해 증폭되어 결국 model collapse를 유발함.
제안 방법 (Proposed Solution): Group Sequence Policy Optimization (GSPO)
1. Importance Ratio 재정의: token-level이 아닌, 이론적으로 타당한 sequence likelihood를 기반으로 importance ratio를 정의함. 이는 importance sampling의 기본 원칙과 일치함.
2. Sequence-level Optimization: clipping, rewarding, optimization 전반을 sequence 단위로 수행함.
3. Normalized Rewards 계산 방식: 단일 query에 대한 여러 response들의 advantages로 normalized rewards를 계산하여, sequence-level에서의 rewarding과 optimization 방향을 일치시킴.
핵심 기여 및 결과 (Key Contributions & Results)
- GRPO 대비 training stability, efficiency, performance에서 압도적 우위 확보.
- 복잡한 안정화 전략 없이 대규모 Mixture-of-Experts (MoE) models의 RL training instability 문제를 본질적으로 해결.
- RL infrastructure 설계 단순화 가능성을 제시.
- 최신 Qwen3 models의 성능 향상에 직접적으로 기여함.

쉬운 설명:

large language model이라는 아주 똑똑한 AI 학생을 Reinforcement Learning(RL)이라는 교육 방식으로 가르쳐서 더 어려운 문제를 풀게 만들려고 합니다. RL은 학생이 정답을 맞히면 상점을 주는 것과 같은 방식입니다.

그런데 현재 가장 좋다고 알려진 교육 방식(GRPO)에는 큰 문제가 있었습니다. 이 방식으로 거대한 AI 학생을 가르치면 교육 과정이 매우 불안정해져서, 학생이 갑자기 배운 모든 것을 잊어버리는 현상(model collapse)이 자주 발생했습니다.

이 논문은 그 원인이 선생님(GRPO)이 학생의 답안지를 채점하는 방식에 있다고 지적합니다. 기존 방식은 학생의 긴 답변을 단어 하나하나(token-level) 뜯어보며 채점했는데, 이게 오히려 학생에게 혼란스러운 피드백("noise")을 많이 줘서 결국 학생이 모든 걸 포기하게 만들었다는 겁니다.

그래서 Group Sequence Policy Optimization (GSPO)라는 새로운 교육 방식을 제안합니다. 이 방식의 핵심은 두 가지입니다.

학생의 답안지를 단어별로 채점하지 않고, 문장 전체(sequence-level)가 얼마나 좋은지를 보고 한 번에 평가합니다. 훨씬 안정적이고 합리적인 채점 방식이죠.
하나의 질문에 학생이 내놓은 여러 답안지를 서로 비교해서 상점을 줍니다. 이를 통해 학생은 어떤 답안이 부분적으로가 아니라 전체적으로 더 나은지를 명확하게 배울 수 있습니다.

결과적으로 이 새로운 GSPO 교육 방식은 훨씬 안정적이고 효율적이며, AI 학생의 성적(performance)을 크게 향상시켰습니다. 실제로 이 기술이 최신 Qwen3 AI model을 만드는 데 결정적인 역할을 했습니다.

2 Preliminaries

Notation

이 논문에서, 로 parameterized된 autoregressive language model은 policy $\pi_{\theta}$로 정의됩니다. 우리는 query를 나타내기 위해 를 사용하고 query set으로 를 사용합니다. query 에 대한 response 가 주어졌을 때, policy 하에서의 likelihood는 $\pi_{\theta}(y|x) = \prod_{t=1}^{|y|} \pi_{\theta}(y_t|x, y_{<t})$로 표기되며, 여기서 $|y|$는 에 있는 tokens의 수를 나타냅니다. query-response 쌍 $(x, y)$는 verifier 에 의해 점수가 매겨져 reward $r(x, y) \in [0, 1]$을 결과로 얻습니다.

Proximal Policy Optimization (PPO)

PPO (Schulman et al., 2017)는 기존 policy $\pi_{\theta_{old}}$로부터 생성된 샘플을 사용하여 clipping mechanism을 통해 기존 policy의 proximal region 내에서 policy update를 제한합니다. 구체적으로, PPO는 policy optimization을 위해 다음 objective를 사용합니다 (이 논문의 초점이 아니므로 간결성을 위해 KL regularization term은 이하 생략합니다):

여기서 token 의 importance ratio는 $w_t(\theta) = \frac{\pi_{\theta}(y_t|x, y_{<t})}{\pi_{\theta_{old}}(y_t|x, y_{<t})}$로 정의되고, 의 advantage 는 다른 value model에 의해 추정되며, 은 importance ratios의 clipping 범위입니다.

실제 PPO의 핵심적인 어려움은 value model에 대한 과도한 의존성에 있습니다. 구체적으로, value model은 보통 policy model과 비슷한 크기를 가져 상당한 memory 및 computational burden을 야기합니다. 더욱이, algorithmic effectiveness는 value estimate의 신뢰성에 달려 있습니다. 신뢰할 수 있는 value model을 얻는 것은 본질적으로 어려운 일이며, 더 긴 response와 더 복잡한 작업에 대한 scalability를 보장하는 것은 훨씬 더 큰 도전 과제입니다.

Group Relative Policy Optimization (GRPO)

GRPO (Shao et al., 2024)는 동일한 query에 대한 응답 group 내에서 각 response의 relative advantage를 계산함으로써 value model의 필요성을 우회합니다. 구체적으로, GRPO는 다음 objective를 optimize합니다:

여기서 는 각 query 에 대해 생성된 responses의 수(즉, group size)이며, token $y_{i,t}$의 importance ratio $w_{i,t}(\theta)$와 advantage $\hat{A}_{i,t}$는 각각 다음과 같습니다:

여기서 에 있는 모든 tokens는 와 동일한 advantage를 공유합니다.

Preliminaries 정리노트 (for AI 연구자)

이 섹션은 본 논문이 해결하고자 하는 기존 RL algorithm들, 즉 PPO와 GRPO의 작동 방식과 그 한계를 기술합니다.

PPO (Proximal Policy Optimization)
- 작동 방식: token-level importance ratio ()를 clipping하여 policy update의 안정성을 확보하는 algorithm.
- 핵심적 한계: 각 token의 advantage ()를 추정하기 위해 policy model과 거의 동일한 크기의 value model에 전적으로 의존함. 이는 심각한 memory 및 computational burden을 야기하며, value model의 추정치가 부정확할 경우 training 전체가 불안정해지는 근본적인 문제를 가짐.
GRPO (Group Relative Policy Optimization)
- PPO 대비 개선점: value model을 제거하여 PPO의 resource 및 신뢰성 문제를 해결함.
- 작동 방식: 단일 query에 대해 여러 response()를 생성하고(group), group 내 reward 점수를 정규화하여 relative advantage()를 계산함.
- 내재된 문제점 (본 논문이 지적할 부분): advantage()는 response 전체에 대해 단일 값으로 계산되지만, importance ratio()는 여전히 각 token 단위로 계산됨. 즉, response-level의 advantage를 token-level optimization에 그대로 적용하는 불일치가 발생하며, 이는 본 논문에서 제기하는 instability의 잠재적 원인이 됨.

쉬운 설명:

이 부분은 이 논문이 "우리가 왜 더 나은 방법을 만들었는지"를 설명하기 위해, 기존의 AI 훈련 방식 두 가지(PPO, GRPO)를 먼저 소개하는 내용입니다.

첫 번째 방식: PPO AI를 학생이라고 생각하면, PPO는 학생이 쓴 긴 글의 단어 하나하나를 칭찬하거나 지적하며 가르치는 방식입니다. 그런데 어떤 단어를 칭찬할지 말지를 판단하기 위해, PPO는 '가치 판단 조교'(value model)라는 또 다른 AI를 필요로 합니다. 이 조교는 매우 똑똑해야 해서 유지비(메모리, 계산 비용)가 많이 들고, 가끔 엉뚱한 판단을 해서 전체 교육을 망칠 위험이 있습니다.
두 번째 방식: GRPO GRPO는 비싸고 위험한 '가치 판단 조교'를 해고하는 더 똑똑한 방식입니다. 대신 학생에게 같은 주제로 글을 여러 편 쓰게 합니다. 그리고 그 글 전체에 대해 "이건 A등급 글, 저건 C등급 글"처럼 등급(relative advantage)을 매깁니다. 그 후 A등급 글에 있는 모든 단어는 "좋은 단어", C등급 글에 있는 모든 단어는 "나쁜 단어"라고 가르칩니다. 조교 없이도 가르칠 수 있게 된 것이죠.

하지만 여기에도 숨겨진 문제가 있습니다. A등급을 받은 글이라도 그 안에 나쁜 단어가 있을 수 있고, C등급 글에도 좋은 단어가 있을 수 있는데, GRPO는 글 전체의 등급을 모든 단어에 일괄적으로 적용합니다. 이렇게 평가의 단위(글 전체)와 칭찬의 단위(단어 하나하나)가 맞지 않는 점이 바로 이 논문이 해결하려는 핵심 문제입니다.

Motivation 정리노트 (for AI 연구자)

이 섹션은 GRPO algorithm의 근본적인 설계 결함을 이론적으로 증명하고, 새로운 algorithm(GSPO)의 필요성을 역설하는 핵심 파트입니다.

문제의 본질: GRPO Objective는 Ill-posed
- Large-scale RL training은 sample efficiency를 위해 mini-batch를 사용하므로 본질적으로 off-policy 환경이 됩니다.
- GRPO는 이 off-policy 문제를 해결하기 위해 importance sampling을 사용하지만, 그 원리를 근본적으로 오용하여 objective 자체가 잘못 설정(ill-posed)되었습니다.
이론적 결함: Importance Sampling의 오용
- Importance sampling의 원리는 distribution 간의 차이를 보정하기 위해 다수의 sample()에 대한 평균을 사용하는 것입니다.
- 하지만 GRPO는 각 token의 importance weight를 계산할 때, next-token distribution으로부터 추출된 단 하나의 sample만을 사용합니다. 이는 통계적으로 유의미한 distribution 보정 역할을 전혀 수행하지 못합니다.
결과: High-Variance Noise와 Model Collapse
- Distribution 보정에 실패한 token-level importance weight는 optimization 과정에 high-variance noise를 주입하는 역할만 하게 됩니다.
- 이 noise는 sequence가 길어질수록 계속해서 누적되며, clipping mechanism에 의해 오히려 증폭되어 결국 돌이킬 수 없는 model collapse를 초래합니다.
핵심 원칙 및 동기 부여
- 이러한 실패로부터 "Optimization의 단위는 Reward의 단위와 일치해야 한다"는 핵심 원칙을 도출합니다.
- Reward는 sequence 전체에 대해 주어지므로, off-policy 보정을 포함한 optimization 역시 token-level이 아닌 sequence-level에서 이루어져야 합니다. 이것이 본 논문이 제안하는 새로운 접근 방식의 직접적인 동기가 됩니다.

쉬운 설명:

이 부분은 기존의 AI 훈련 방식(GRPO)이 왜 근본적으로 잘못되었는지를 설명하는 내용입니다.

어떤 코치(GRPO)가 학생에게 글쓰기를 가르치고 있다고 상상해 봅시다. 이 코치는 학생이 쓴 글의 단어 하나하나를 보며 피드백을 줍니다. 그런데 이 피드백 방식에 심각한 문제가 있습니다.

통계학에는 "A반 학생들만 보고 학교 전체 학생들의 생각을 추측하려면, A반의 여러 학생에게 물어보고 그 평균을 내야 정확하다"는 원칙(Importance Sampling)이 있습니다. 한 명만 보고 판단하면 매우 위험한 추측이 되죠.

그런데 GRPO 코치는 바로 이 위험한 행동을 합니다. 학생이 쓴 단어 하나(token)를 보고, "이 단어 하나를 보니, 학교 전체 학생들도 분명 이렇게 생각할 거야!"라고 성급하게 단정하고 피드백을 줍니다. 즉, 단 하나의 샘플(sample)만으로 전체를 판단하는 오류를 저지르는 것입니다.

이런 식의 피드백은 학생에게 매우 혼란스러운 "잡음"(high-variance noise)만 잔뜩 주게 됩니다. 짧은 문장에서는 문제가 안 될 수 있지만, 긴 글(sequence)에서는 이런 잘못된 피드백들이 계속 쌓이다가 결국 학생이 모든 것을 포기하고 머리가 하얘지는 상태(model collapse)에 빠지게 됩니다.

따라서 이 논문은 "글 전체에 대해 점수(reward)를 매기면서, 피드백은 단어 하나하나에 대해 멋대로 추측해서 주는 방식은 틀렸다. 점수를 글 전체에 주었다면, 피드백과 훈련도 글 전체 단위로 해야 한다"고 주장합니다. 이것이 바로 새로운 훈련 방식을 만들어야 하는 이유입니다.

4 Algorithm

4.1 GSPO: Group Sequence Policy Optimization

GRPO에서 token-level importance weight $\frac{\pi_{\theta}(y_{i,t}|x, y_{i,<t})}{\pi_{\theta_{old}}(y_{i,t}|x, y_{i,<t})}$가 문제가 되는 반면, language generation의 맥락에서 sequence-level importance weight $\frac{\pi_{\theta}(y|x)}{\pi_{\theta_{old}}(y|x)}$는 명확한 이론적 의미를 가짐을 우리는 관찰합니다: 이는 $\pi_{\theta_{old}}(\cdot|x)$에서 sampled된 response 가 $\pi_{\theta}(\cdot|x)$에서 얼마나 벗어나는지를 반영하며, 이는 자연스럽게 sequence-level reward와 일치하고 clipping mechanism의 의미 있는 지표로도 작용할 수 있습니다.

이러한 간단한 관찰에 기반하여, 우리는 Group Sequence Policy Optimization (GSPO) algorithm을 제안합니다. GSPO는 다음의 sequence-level optimization objective를 사용합니다:

여기서 우리는 group-based advantage estimation을 채택합니다:

그리고 importance ratio $s_i(\theta)$를 sequence likelihood에 기반하여 정의합니다 (Zheng et al., 2023):

따라서, GSPO는 개별 tokens 대신 전체 responses에 clipping을 적용하여 과도하게 "off-policy"인 samples를 gradient estimation에서 제외하며, 이는 sequence-level rewarding 및 optimization 모두와 일치합니다. 우리는 variance를 줄이고 $s_i(\theta)$를 통일된 numerical range 내에서 제어하기 위해 $s_i(\theta)$에 length normalization을 채택합니다. 그렇지 않으면, 몇몇 tokens의 likelihood 변화가 sequence-level importance ratio의 급격한 변동을 초래할 수 있으며, 길이가 다른 responses의 importance ratios는 다양한 clipping ranges를 요구하게 될 것입니다. 우리는 또한 GSPO와 이전 algorithms(예: GRPO)의 clipping ranges가 importance ratios의 상이한 정의로 인해 크기 순서에서 일반적으로 다르다는 점에 주목합니다.

4.2 Gradient Analysis

GSPO objective의 gradient는 다음과 같이 유도할 수 있습니다 (clipping은 간결성을 위해 생략):

$$\nabla_{\theta} J^{\text{GSPO}}(\theta) = \nabla_{\theta} \mathbb{E}_{x \sim D, \{y_i\}_{i=1}^G \sim \pi_{\theta_{old}}(\cdot|x)} \left[ \frac{1}{G} \sum_{i=1}^G s_i(\theta)\hat{A}_i \right] \quad (8)$$$$= \mathbb{E}_{x \sim D, \{y_i\}_{i=1}^G \sim \pi_{\theta_{old}}(\cdot|x)} \left[ \frac{1}{G} \sum_{i=1}^G s_i(\theta)\hat{A}_i \cdot \nabla_{\theta} \log s_i(\theta) \right] \quad (9)$$$$= \mathbb{E}_{x \sim D, \{y_i\}_{i=1}^G \sim \pi_{\theta_{old}}(\cdot|x)} \left[ \frac{1}{G} \sum_{i=1}^G \left( \frac{\pi_{\theta}(y_i|x)}{\pi_{\theta_{old}}(y_i|x)} \right)^{\frac{1}{|y_i|}} \hat{A}_i \cdot \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \nabla_{\theta} \log \pi_{\theta}(y_{i,t}|x, y_{i,

비교를 위해, GRPO objective의 gradient는 다음과 같습니다 (에 주목):

따라서 GSPO와 GRPO의 근본적인 차이점은 tokens의 log likelihoods의 gradients에 가중치를 부여하는 방식에 있습니다. GRPO에서, tokens는 각각의 "importance weight" $\frac{\pi_{\theta}(y_{i,t}|x, y_{i,일 때) 또는 (일 때) 사이에서 변할 수 있는 이러한 불균등한 weights는 무시할 수 없으며, 그 영향은 training이 진행됨에 따라 누적되어 예측 불가능한 결과를 초래할 수 있습니다. 대조적으로, GSPO는 response 내의 모든 tokens에 동일하게 가중치를 부여하여 GRPO의 이러한 instability 요인을 제거합니다.

4.3 GSPO-token: A Token-level Objective Variant

Multi-turn RL과 같은 시나리오에서는 sequence level보다 더 세분화된 advantage adjustment를 원할 수 있습니다. 이를 위해, 우리는 token-wise advantage customization을 허용하기 위해 GSPO의 token-level objective variant인 GSPO-token을 소개합니다:

여기서

그리고 sg[·]는 gradient를 멈추고 수치 값만 취하는 것을 나타내며, 이는 PyTorch의 detach operation에 해당합니다. GSPO-token의 gradient는 다음과 같이 유도할 수 있습니다:

$$\nabla_{\theta} J^{\text{GSPO-token}}(\theta) = \nabla_{\theta} \mathbb{E}_{x \sim D, \{y_i\}_{i=1}^G \sim \pi_{\theta_{old}}(\cdot|x)} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} s_{i,t}(\theta)\hat{A}_{i,t} \right] \quad (15)$$$$= \mathbb{E}_{x \sim D, \{y_i\}_{i=1}^G \sim \pi_{\theta_{old}}(\cdot|x)} \left[ \frac{1}{G} \sum_{i=1}^G s_i(\theta) \cdot \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \hat{A}_{i,t} \frac{\nabla_{\theta}\pi_{\theta}(y_{i,t}|x, y_{i,

항은 수치적으로 1의 값을 가지므로, $s_{i,t}(\theta)$는 수치적으로 $s_i(\theta)$와 동일합니다. 식 (5)와 (13), 그리고 식 (10)과 (17)를 비교하면, response 에 있는 모든 tokens의 advantages를 동일한 값으로 설정할 때(즉, ), GSPO-token과 GSPO는 optimization objective, clipping 조건, 그리고 이론적 gradient에서 수치적으로 동일하며, 반면 GSPO-token은 token 당 advantages를 조정하는 더 높은 유연성을 가집니다.

Algorithm 정리노트 (for AI 연구자)

이 섹션에서는 본 논문이 제안하는 핵심 algorithm인 GSPO와 그 변형에 대해 설명합니다.

Group Sequence Policy Optimization (GSPO)
- 핵심 아이디어: GRPO의 불안정한 token-level importance ratio를 이론적으로 타당한 sequence-level importance ratio ()로 대체합니다. 이를 통해 reward와 optimization의 단위를 sequence로 통일시켜 Motivation 섹션에서 제기된 근본적인 문제를 해결합니다.
- Objective 함수 (식 5): sequence-level importance ratio $s_i(\theta)$에 직접 PPO 스타일의 clipping을 적용합니다. 이는 response 전체를 하나의 단위로 보고 off-policy 업데이트를 제어하므로 gradient noise를 억제합니다.
- Importance Ratio의 설계 (식 7): $s_i(\theta)$는 두 policy 간의 sequence likelihood 비율에 length normalization (즉, 제곱근)을 적용하여 정의됩니다. 이 정규화는 response 길이에 상관없이 ratio 값의 variance를 줄이고 numerical range를 안정적으로 유지하는 결정적인 역할을 합니다.
Gradient 분석
- 근본적 차이: Gradient 수식을 비교하면 (식 10 vs 식 12), GRPO는 각 token의 gradient에 서로 다른 weight를 곱하여 noise를 주입하는 반면, GSPO는 response 내 모든 token의 gradient에 **균일한 weight**를 적용합니다.
- 결과: GSPO는 GRPO의 핵심적인 instability 요인(불균등한 token-level weight)을 gradient 레벨에서 원천적으로 제거하여 training 안정성을 확보합니다.
GSPO-token: 유연성을 위한 변형
- 목적: Multi-turn RL 등 token 단위의 세밀한 advantage 조정이 필요한 시나리오를 위해 설계된 변형 objective.
- 메커니즘: stop-gradient (sg[·]) 트릭을 사용하여 gradient는 sequence-level 정보(sg[s_i(θ)])를 사용하도록 고정하되, advantage는 token-level()에서 적용할 수 있도록 허용합니다.
- 특징: 모든 token의 advantage가 동일할 경우(), objective 값, clipping 조건, gradient가 GSPO와 수치적으로 완전히 동일합니다. 즉, GSPO의 안정성을 그대로 유지하면서 token-wise customization의 유연성만 추가한 버전입니다.

쉬운 설명:

이 부분은 이 논문이 제시하는 새로운 AI 훈련 방식인 'GSPO'에 대한 설명입니다.

새로운 훈련법: GSPO 기존 훈련법(GRPO)의 문제는 글 전체에 대한 점수를 매기면서, 피드백은 단어 하나하나에 대해 멋대로 추측해서 주는 것이었습니다. GSPO는 이 문제를 완벽하게 해결합니다. 새로운 코치(GSPO)는 글 전체에 대한 점수를 매기고, 피드백 역시 "자네의 이번 글은 지난번 글보다 전체적으로 20% 정도 나아졌군" 과 같이 글 전체에 대해 줍니다. 그리고 이 "20% 향상"이라는 피드백을 글에 포함된 모든 단어에 공평하고 동일하게 적용하여 훈련시킵니다. 더 이상 단어 하나하나를 두고 위험한 추측을 하지 않으므로, 피드백이 매우 안정적이고 일관됩니다.
또한 이 코치는 학생이 짧은 글을 썼을 때와 긴 글을 썼을 때를 공평하게 비교하기 위해, **글의 길이를 고려해서 피드백 강도를 조절하는 스마트한 기능(length normalization)**도 갖추고 있습니다.
왜 GSPO가 더 좋은가? (Gradient 분석) 이전 코치의 피드백은 단어마다 제멋대로여서 학생을 혼란스럽게 만들었습니다. 하지만 새로운 GSPO 코치의 피드백은 글 전체에 대해 하나로 통일되어 있어 학생이 혼란 없이 안정적으로 학습할 수 있습니다. 이것이 training이 안정되는 핵심 원리입니다.
GSPO-token: 특별한 상황을 위한 고급 기능 만약 학생이 쓴 글이 여러 사람이 대화하는 연극 대본 같은 것이라면 어떨까요? 어떤 대사는 훌륭하고 어떤 대사는 별로일 수 있습니다. GSPO-token은 이럴 때 쓰는 고급 기능입니다. 기본적인 피드백은 GSPO처럼 대본 전체의 품질을 기준으로 안정적으로 주면서도, 필요에 따라 각 대사(token)마다 미세하게 다른 격려(advantage)를 해줄 수 있는 유연함을 제공합니다. 즉, GSPO의 안정성은 그대로 가져가면서, 특별한 상황에 대처할 수 있는 능력만 추가한 것입니다.

주인장 이해

개별 토큰 단위로 따로 점수를 주는게 아니라 시퀀스 단위로 한번에 동일한 점수를 줘서. 헷갈리는 문제를 해결함.

GRPO는 각 토큰에 w가 곱해지는 방식이라면
GSPO는 전체 토큰의 합에 w가 곱해지는 방식이라 동일한 점수로 업데이트가 됨