목록2026/03/14 (2)
AI바라기의 인공지능
개념 아무리 좋은 결과를 얻었어도 기존의 폼(정책)을 한 번에 너무 크게 바꾸지 말자 1. 준비물 환경: 그냥 환경 에이전트: 상황 받고 정책에 의해 액션 수행 행동: 그냥 행동 상태: 그냥 상태 보상: 환경이 주는 보상 정책(Actor): 신경망 (어떤 행동을 할지 결정하는 확률의 기준점) Critic: 현재 상태를 보고 앞으로의 총 보상 기대치를 예측 ($V(s)$) 할인율($\gamma$): 미래에 받을 보상을 현재 가치로 환산할 때 곱하는 비율 (보통 $0.99$ 등). 미래일수록 불확실하므로 가치를 조금씩 깎음. 순간 변동폭($\delta$): 딱 한 스텝 행동했을 때, Critic의 예상보다 실제로 얼마나 더 좋았는지를 나타내는 시간차 오차. ($\delta_t = r_t(실제 보상) + \..
PPO란 Proximal Policy Optimization SFT에서는 기본적으로 다음 토큰을 예측하도록 학습된다. 하지만 모델이 생성한 전체 응답만 목적에 맞으면 점수를 주고 싶다!! 이럴때 필요한게 PPO 같은 강화학습 방법이다. 토큰 하나하나에 신경쓰지 않고 전체적인 보상을 통해 모델 파라미터를 업데이트 하는 것이 포인트이다. PPO 목적 함수 (Loss): $$L^{PPO}(\theta) = \mathbb{E} \left[ \min \left( \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} \hat{A}_t, \text{clip}\left(\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}, 1..
