AI바라기의 인공지능

LLM : 빠른 논문 리뷰 : GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization 본문

논문리뷰

LLM : 빠른 논문 리뷰 : GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

AI바라기 2026. 1. 12. 12:18

Terminology

  • Multi-reward RL: 하나의 모델이 정확도(accuracy), 포맷 준수(format), 길이 제한(length constraint) 등 서로 다른 여러 목표를 동시에 만족하도록 학습하는 강화학습(Reinforcement Learning) 설정.
  • GRPO (Group Relative Policy Optimization): Value Model 없이, 샘플링된 그룹 내에서 상대적인 이득(advantage)을 계산하여 Policy를 업데이트하는 효율적인 RL 알고리즘.
  • Reward Collapse: 이 논문에서 규명한 GRPO의 문제점. 서로 다른 보상 조합(예: A는 성공, B는 실패 vs A는 실패, B는 대성공)이 정규화(normalization) 과정을 거치면 동일한 advantage 값으로 변환되어, 모델이 미세한 보상 차이를 구분하지 못하게 되는 현상.
  • Decoupled Normalization: GDPO의 핵심 아이디어. 모든 보상을 합친 후 정규화하는 것이 아니라, 각 보상 항목별로 그룹 내에서 따로 정규화한 뒤 합치는 방식.
  • Reward Hacking: 모델이 풀기 어려운 주 목표(예: 정답 맞추기) 대신, 달성하기 쉬운 보조 목표(예: 짧게 대답하기)만을 과도하게 최적화하여 점수를 얻으려는 현상.
  • Conditioned Reward: Reward Hacking을 방지하기 위한 보상 설계 방식. 쉬운 보상(예: 길이 보상)을 어려운 보상(예: 정답 보상)이 충족되었을 때만 지급하는 조건부 방식.

Purpose of the Paper

  • 기존 Multi-reward RL의 관행적 적용 비판: 최근 LLM 학습에서 다양한 인간 선호(preference)를 반영하기 위해 다중 보상을 사용하는데, 대부분 별다른 검증 없이 단순히 보상을 합산하여 GRPO를 적용해왔습니다.
  • GRPO의 구조적 결함 규명: 저자들은 단순 GRPO 적용이 Reward Collapse를 유발하여, 서로 다른 보상 상황을 동일한 신호로 압축해버림을 수학적, 실험적으로 증명했습니다. 이는 학습 효율을 떨어뜨리고 수렴을 방해합니다.
  • 새로운 최적화 기법 제안: 각 보상의 개별적인 분포 특성을 보존하여 더 정밀한 학습 신호를 제공하는 GDPO를 제안하고, 이를 통해 학습 안정성과 최종 성능을 모두 향상시키고자 했습니다.

Key Contributions

  • Analysis of GRPO Reward Collapse:
    • 다중 보상 상황에서 GRPO가 보상 신호를 뭉개버리는 현상을 분석했습니다.
    • 예를 들어, 2개의 binary reward가 있을 때, 보상 합계가 다르더라도 그룹 내 정규화를 거치면 advantage 값이 똑같아지는 경우가 발생함을 보였습니다. 이는 모델이 어떤 행동이 더 나은지 구별할 수 있는 해상도(resolution)를 떨어뜨립니다.
  • Remediation via GDPO (Group reward-Decoupled Normalization Policy Optimization):
    • Decoupled Group-wise Normalization: 보상을 합치기 에, 각 보상 타입별로 그룹 내 정규화를 먼저 수행합니다. 이를 통해 각 보상 항목의 상대적 차이를 보존합니다.
    • Batch-wise Advantage Normalization: 개별 정규화된 advantage들을 합친 후, 배치(batch) 단위로 다시 정규화를 수행하여 보상 개수가 늘어나도 전체 advantage의 스케일이 안정적으로 유지되도록 설계했습니다.
  • Systematic Guide for Reward Prioritization:
    • 단순히 보상 가중치(weight)를 조절하는 것만으로는 난이도 차이가 큰 보상들(예: 정답 맞추기 vs 길이 맞추기) 간의 균형을 맞추기 어렵다는 것을 발견했습니다.
    • 이에 대한 해결책으로 Conditioned Reward 설계를 제안하고, 이것이 단순 가중치 조절보다 훨씬 효과적으로 Reward Hacking을 막고 사용자의 우선순위를 반영함을 입증했습니다.

Experimental Highlights

  • Tasks & Models: Tool calling (Qwen2.5-Instruct), Math reasoning (DeepSeek-R1, Qwen3), Coding reasoning (DeepSeek-R1) 등 다양한 task와 최신 LLM을 사용하여 검증.
  • Superior Convergence & Performance:
    • Tool Calling: GDPO는 GRPO 대비 **Correctness(정확도)**와 Format(형식) 보상 모두에서 더 높은 점수로 수렴했습니다. 특히 GRPO는 Format 보상 학습에 실패하는 경향이 있었으나 GDPO는 이를 성공적으로 학습했습니다.
    • Math Reasoning: AIME, MATH 벤치마크에서 GDPO를 적용한 모델이 GRPO 모델보다 최대 6.3% 더 높은 정확도를 달성하면서도, 동시에 답변 길이는 더 효율적으로(짧게) 유지했습니다.
    • Training Stability: GRPO는 학습 중반 이후 Reward Collapse로 인해 성능이 하락하거나 불안정한 모습을 보였으나, GDPO는 지속적으로 성능이 향상되었습니다.
  • Ablation Study on Normalization:
    • GRPO에서 표준편차(std) 정규화 항을 제거하는 변형(GRPO w/o std)을 실험했으나, 이는 Format 보상 학습에 완전히 실패하는 등 GDPO만큼의 성능을 내지 못했습니다. 이는 단순히 분모를 없애는 것보다 GDPO의 Decoupled 방식이 필수적임을 시사합니다.

Limitations and Future Work

  • Limitations (명시적 언급보다는 실험적 관찰):
    • 단순히 보상 가중치(weight)를 조절하는 것만으로는 난이도가 현저히 다른 task 간의 균형을 잡기 어렵다는 한계가 있습니다. 논문에서는 이를 GDPO 알고리즘 자체의 한계라기보다 보상 설계(Reward Design)의 중요성으로 연결하여 설명합니다.
    • Batch-wise normalization을 제거할 경우 가끔 수렴에 실패하는 경우가 있어, 이 단계가 안정성에 중요함을 언급합니다.
  • Future Work:
    • 논문은 GDPO가 다양한 인간 선호(human preferences)를 정렬(align)하는 강력한 기반이 될 것임을 강조하며, 더 다양한 종류의 보상(safety, style 등)과 복잡한 real-world 시나리오로의 확장을 암시합니다.

Overall Summary

이 논문은 LLM의 Multi-reward RL 학습 시 관행적으로 사용되던 GRPO가 서로 다른 보상 신호를 획일화하여 학습 정보를 손실시키는 Reward Collapse 문제를 겪음을 밝혀냈습니다. 이를 해결하기 위해 각 보상을 개별적으로 정규화한 뒤 통합하는 GDPO를 제안하여, 보상 간의 상대적 차이를 보존하고 학습 해상도를 높였습니다. 실험 결과 GDPO는 Tool use, Math, Coding 등 다양한 영역에서 기존 GRPO보다 우수한 수렴 속도와 최종 성능(정확도 및 제약 조건 준수)을 달성함을 입증하여, 복합적인 인간 선호를 반영하는 LLM 최적화의 새로운 표준을 제시했습니다.


쉬운 설명

학교에서 수학 점수 영어 점수를 합쳐서 등수를 매긴다고 상상해 보세요.

  • 기존 방식 (GRPO): 학생 A는 수학 0점, 영어 100점이고, 학생 B는 수학 50점, 영어 50점입니다. 둘 다 합계는 100점이라서, 선생님(모델)은 이 둘을 **"똑같은 실력"**이라고 판단하고 뭉뚱그려 처리합니다. 이렇게 되면 모델은 내가 수학을 못해서 점수가 낮은 건지, 영어를 못해서 낮은 건지 헷갈리게 됩니다(Reward Collapse).
  • 이 논문의 방식 (GDPO): 수학은 수학끼리 등수를 매기고(정규화), 영어는 영어끼리 등수를 매긴 다음에 그 결과를 합칩니다. 이렇게 하면 "너는 영어는 1등인데 수학은 꼴찌야"라는 구체적이고 선명한 신호를 줄 수 있습니다. 덕분에 모델은 각 과목(목표)별로 내가 얼마나 잘하고 있는지 정확히 파악하여 훨씬 더 빠르고 똑똑하게 학습할 수 있게 됩니다.

 

 

 

더보기

보상 점수, 태그 점수, 길이 점수 등 여러가지 점수를 합산해서 정규화를 하는게 아니라.
각각에 대해서 정규화를 하고 폴리시 비율을 곱한 후 그것을 보상 신호로 사용.

 

 

학습 신호가 묻히는 것이 방지되고 안정적으로 따로 계산을 할 수 있게 됨.

 

 

왜 좋은지에 대해선 아직 납득하지 못했음.

GDPO역시 정규화를 한 뒤 합산 과정에서 신호가 0이 될 수 있음.

 

GRPO에선 다만 합산 보상을 정규화 하는 과정에서 음수가 될 여지가 있기에 이게 문제가 아닌 가 싶음. 하지만 실제 전달 보상은 그것들의 평균인데 큰 의미가 있을지 의문

 

 

아무튼 결과는 좋다고 하지만 GRPO에서도 밸런스 있게 보상을 조절하면 논문에서 말한 문제는 거의 사라짐. 

 

 

3점 / 5점
저자들은 GPRO의 문제점을 언급했지만 사실 GPRO에서 보상 밸런스 조정만 잘하면 해결 되는 문제들이었음. 그렇게 혁신적인 논문이라고 보여지지 않음.