AI바라기의 인공지능
개념 정리(심화) : LLM의 GRPO : Group Relative Policy Optimization 본문
GRPO(Group Relative Policy Optimization)란
LLM 강화학습의 알고리즘 중 하나.
기본 개념은 PPO나 RLHF 등에서 핵심적으로 사용되는 Value Model을 생략.
대신 동일한 질문에 대해 생성된 G개의 답변 그룹 내에서의 상대적인 점수를 통해 Advantage을 추정하는 것.
또한 LLM의 답변에 특정한 형식을 강제함으로써 추론 과정을 강제할 수 있게 됨.
그 방식은 다음과 같다.
일단 학습 턴에 들어가기 전 대규모로 데이터를 뽑는 롤아웃 단계가 있음.
그 데이터를 생성하고 상태를 박제해두는 것이 old 모델.
롤아웃 후 미니 배치 턴 내에서 파라미터가 계속 업데이트되며 학습되는 것이 현재 모델.
한 턴(롤아웃 주기)이 끝나면 old는 새로운 모델로 바뀜.
턴과 상관없이 가장 초기 모델이 ref 모델. (근데 이도 일정 스텝마다 바꾼다고 함.)
B : 배치사이즈
o_i : G개의 그룹 중 i번째 답변.
PP : 폴리시 비율 : $$PP = \frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}$$
LLM에게 질문과 특정 프롬프트를 B개 입력으로 준다.
LLM이 질문당 G개씩, 총 B x G개의 답변을 생성. (롤 아웃때 뽑았으르모 생략)
각 답변(o_i)에 대해 점수(r_i)를 계산함.
r은 기본적으로 정답 점수, 형식 점수, 길이 점수, 그리고 언어 일관성 점수가 합산됨.
r_i의 평균과 표준편차를 통해 상대적인 이점을 계산할 수 있음.
A_i = $$A_i = \frac{r_i - \text{mean}(\{r_1, r_2, \dots, r_G\})}{\text{std}(\{r_1, r_2, \dots, r_G\})}$$
그 이점을 바로 사용하지 않고, 폴리시 비율(PP)과 곱해서 사용.
하지만 한 번에 너무 많은 업데이트를 할 수도 있기에 폴리시 비율에 Clipping을 걸어줌.
그럼 보정된 이점이 계산되는데, 그 보정된 이점에 현재 모델이 원래의 ref 모델에서 얼마나 멀어졌는지를 계산하는 텀(KL Divergence)을 빼줌.
그걸 G로 평균 낸 것이 최종 목적함수.
$$\mathcal{J}_{GRPO}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^G \left( \min \left( PP \cdot A_i, \text{clip}(PP, 1-\epsilon, 1+\epsilon) \cdot A_i \right) - \beta \mathbb{D}_{KL}(\pi_{\theta} || \pi_{ref}) \right) \right]$$
해당 목적 함수가 높아지는 방향으로 파라미터를 학습하게 되므로
결과적으로 마이너스 이점을 받은 답변은 생성확률이 낮아지고, 플러스 이점을 받은 답변은 생성확률이 높아지게 됨. 왜냐면 그것이 목적 함수를 높이는 방향이므로.
'인공지능' 카테고리의 다른 글
| 개념 정리 : LayerNorm (0) | 2026.03.16 |
|---|---|
| 개념 정리 : CNN (0) | 2026.03.15 |
| 개념 정리 : PPO (Proximal Policy Optimization) (0) | 2026.03.14 |
| 개념 정리(심화) : LLM의 PPO란 Proximal Policy Optimization (0) | 2026.03.14 |
| 개념 정리(심화) : KV Cache (Key-Value 캐시) 원리 및 존재 이유 (0) | 2026.03.11 |
