AI바라기의 인공지능

PPO를 LLM에 어떻게 적용할까? 본문

스터디

PPO를 LLM에 어떻게 적용할까?

AI바라기 2025. 4. 25. 11:07

 

 

LLM은 어떻게 사람 말을 더 잘 알아들을까? RLHF와 PPO 깊이 파헤치기

최근 ChatGPT와 같은 대형 언어 모델(LLM)은 놀라운 성능을 보여주며 우리 삶에 깊숙이 들어오고 있습니다. 하지만 LLM이 단순히 방대한 텍스트 데이터를 학습하는 것만으로는 우리가 정말로 원하는 '유용하고', '정직하며', '무해한' 답변을 항상 생성하지는 못합니다. 이를 '정렬(Alignment) 문제'라고 부르며, LLM을 인간의 가치와 의도에 맞게 조정하는 핵심 기술이 바로 **RLHF(Reinforcement Learning from Human Feedback)**입니다.

이번 글에서는 RLHF가 왜 필요하며, 어떤 과정을 거치는지, 특히 핵심적인 역할을 하는 PPO(Proximal Policy Optimization) 알고리즘이 어떻게 수학적으로 작동하는지 상세히 알아보겠습니다.

1. 왜 그냥 파인튜닝(Fine-tuning)만으로는 부족할까? RLHF의 필요성

LLM을 특정 작업에 맞게 개선하는 가장 기본적인 방법은 지도 파인튜닝(Supervised Fine-tuning, SFT)입니다. <지시, 정답> 쌍으로 이루어진 데이터를 학습시켜 모델이 지시를 따르도록 가르치는 것이죠. 예를 들어, "프랑스 수도는?"이라는 질문에 "파리"라고 답하도록 학습시킬 수 있습니다.

하지만 SFT만으로는 미묘한 인간의 선호도를 반영하기 어렵습니다.

  • '좋음'의 정의: 어떤 답변이 더 '유용한지', '친절한지', '안전한지' 등은 매우 주관적이고 복잡합니다. 이를 만족하는 완벽한 정답 데이터를 대량으로 만드는 것은 거의 불가능합니다.
  • 직접적인 보상 함수 설계의 어려움: 어떤 답변 가 주어졌을 때, 그 '좋음'의 정도를 나타내는 수학적인 보상 함수 를 직접 설계하는 것은 매우 어렵습니다. 단순히 길이나 특정 키워드 포함 여부로는 좋은 답변을 정의할 수 없습니다.

이러한 문제를 해결하기 위해, 인간의 '선호도'를 직접 학습 과정에 반영하는 RLHF가 등장했습니다.

2. RLHF 프로세스: 3단계로 LLM 길들이기

RLHF는 크게 3단계로 진행됩니다.

1단계: 지도 파인튜닝 (Supervised Fine-tuning, SFT)

  • 목표: 기본적인 지시 사항을 이해하고 따르도록 사전 훈련된 LLM을 준비시킵니다.
  • 과정: 소량이지만 품질 좋은 <프롬프트, 답변> 데이터셋을 사용하여 LLM을 파인튜닝합니다. 예를 들어, 사용자가 질문했을 때 적절한 형식으로 답변하는 능력을 학습시킵니다.
  • 결과: 기본적인 지시 수행 능력을 갖춘 모델 가 생성됩니다. 이 모델은 다음 단계인 보상 모델 학습과 PPO 학습 모두에 사용됩니다.

2단계: 보상 모델 (Reward Model, RM) 훈련

  • 목표: 인간이 어떤 답변을 더 선호하는지를 학습하는 모델을 만듭니다. 직접적인 보상 함수 를 설계하는 대신, 인간의 선호도를 예측하는 모델을 만드는 것입니다.
  • 과정:
    1. 하나의 프롬프트 에 대해 SFT 모델()을 사용하여 여러 개의 답변()을 생성합니다.
    2. (핵심) 인간 평가자가 생성된 답변들을 보고 선호도에 따라 순위를 매깁니다. (예: 보다 낫다, 보다 낫다 등)
    3. 이 <프롬프트, 선택된 답변, 선택되지 않은 답변> 비교 데이터를 사용하여 보상 모델 를 훈련시킵니다. 이 모델은 입력으로 <프롬프트 , 답변 >를 받아 해당 답변이 인간 선호도에 얼마나 부합하는지를 나타내는 스칼라 점수 를 출력하도록 학습됩니다. (더 선호되는 답변에 높은 점수를 주도록 학습)
  • 결과: 인간의 선호도를 '이해하는' 보상 모델 가 완성됩니다. 이 모델의 파라미터 는 다음 PPO 단계에서는 고정된 상태로 사용됩니다. 즉, 인간 평가자의 역할을 대신하는 자동 채점기가 되는 것입니다.

3단계: PPO를 이용한 강화학습 파인튜닝

  • 목표: 보상 모델()로부터 높은 점수를 받는 답변을 생성하도록 SFT 모델(이제 '정책 모델 '이라 부름)을 파인튜닝합니다. 동시에 원래 SFT 모델()의 언어 능력을 너무 많이 잃지 않도록 제약합니다.
  • 왜 PPO인가? 강화학습에는 여러 알고리즘이 있지만, LLM처럼 파라미터가 매우 많은 모델을 안정적으로 학습시키는 데 PPO가 효과적임이 알려져 있습니다. 단순한 정책 경사법(Policy Gradient)은 업데이트 스텝이 너무 클 경우 학습이 불안정해지거나 성능이 급격히 저하(policy collapse)될 수 있는데, PPO는 정책 업데이트 크기를 제한하여 이를 방지합니다.
  • PPO 목적 함수 상세 분석: PPO 단계의 핵심은 다음 목적 함수 를 최대화하는 것입니다.

 

 

 

 

 

    • 왜 KL 항을 빼줄까? (- ): 이것이 핵심적인 제약(regularization) 부분입니다. 값은 항상 0 이상이므로, 도 0 이상입니다. 이 값을 빼주는 것은, 이 커질수록 (즉, 모델이 에서 멀어질수록) 전체 목적 함수 의 값을 **감소시키는 페널티(벌점)**로 작용합니다. 목적 함수 를 최대화하는 과정에서, 이 페널티 항 때문에 모델은 값이 너무 커지는 방향(즉, 에서 너무 멀어지는 방향)으로는 업데이트되기를 꺼리게 됩니다. 따라서 보상을 높이면서도 원래 모델의 특성을 유지하도록 유도하는 것입니다.
  • PPO 알고리즘의 역할: PPO 알고리즘은 위에서 정의된 RLHF의 목적 함수 안정적으로 최대화하기 위한 구체적인 업데이트 방법을 제공합니다. 내부적으로 Advantage 추정, 확률 비율 계산, 그리고 핵심인 '클리핑(Clipping)' 기법 등을 사용하여 한 번의 업데이트로 정책이 너무 크게 변하는 것을 막아 학습 안정성을 확보합니다. PPO는 항을 최종적인 '보상 신호'로 받아들여 자신의 최적화 메커니즘을 적용합니다.
  • 파라미터 업데이트: 계산된 PPO 목적 함수를 정책 모델의 파라미터 에 대해 미분하여 그래디언트를 얻고, Adam과 같은 옵티마이저를 사용하여 파라미터 를 업데이트합니다. 이 과정을 반복하여 모델 성능을 점진적으로 개선합니다.
  • 결과: 최종적으로 인간의 선호도에 더 잘 정렬되고, 유용하고 정직하며 무해한 답변을 생성할 가능성이 높아진 LLM ()이 만들어집니다.

3. 결론: 인간과 기계의 협업으로 만드는 더 나은 AI

RLHF는 LLM을 단순히 똑똑하게 만드는 것을 넘어, 인간의 복잡하고 미묘한 요구사항과 가치에 부합하도록 '길들이는' 강력한 방법론입니다. 특히 보상 모델을 통해 인간의 피드백을 정량화하고, PPO 알고리즘을 통해 안정적으로 모델을 개선하며 기존 능력을 유지하도록 하는 메커니즘은 매우 정교합니다.

물론 RLHF도 완벽하지 않으며, 보상 모델의 한계나 인간 평가의 편향성 등 해결해야 할 문제들이 남아있습니다. 하지만 RLHF는 현재 LLM을 더 안전하고 유용하게 만드는 가장 중요한 기술 중 하나이며, 앞으로 AI가 인간과 더 잘 협력하는 미래를 만드는 데 핵심적인 역할을 할 것입니다.