목록2026/03/15 (3)
AI바라기의 인공지능
용어 설명Latent Planning: Raw pixel(이미지) 상태가 아닌, 데이터를 압축한 추상적인 embedding space(잠재 공간) 내에서 미래의 상태를 예측하고 최적의 action을 찾는 방법론.Temporal Straightening: 이 논문의 핵심 제안 기법. World model이 학습할 때, 시간에 따른 상태 변화(trajectory)가 잠재 공간 내에서 굽지 않고 최대한 '직선(straight)'으로 뻗어나가도록 강제하는 정규화(regularization) 기법.Geodesic distance: 장애물을 피해서 실제로 이동해야 하는 최단 경로 거리. (단순한 두 점 사이의 직선거리인 Euclidean distance와 대비됨).Latent trajectory curvature:..
GRPO(Group Relative Policy Optimization)란 LLM 강화학습의 알고리즘 중 하나. 기본 개념은 PPO나 RLHF 등에서 핵심적으로 사용되는 Value Model을 생략. 대신 동일한 질문에 대해 생성된 G개의 답변 그룹 내에서의 상대적인 점수를 통해 Advantage을 추정하는 것. 또한 LLM의 답변에 특정한 형식을 강제함으로써 추론 과정을 강제할 수 있게 됨. 그 방식은 다음과 같다. 일단 학습 턴에 들어가기 전 대규모로 데이터를 뽑는 롤아웃 단계가 있음. 그 데이터를 생성하고 상태를 박제해두는 것이 old 모델. 롤아웃 후 미니 배치 턴 내에서 파라미터가 계속 업데이트되며 학습되는 것이 현재 모델. 한 턴(롤아웃 주기)이 끝나면 old는 새로운 모델로 바뀜. 턴과 상관..
CNN이란 convolution neural network이다. 주어진 데이터와 정답을 통해, 가진 데이터를 잘 설명하는 모델을 만들고 싶다. 하지만 데이터의 전체를 한번에 활용하기엔 차원이 높아서 쉽지않을때 사용하는 방법이다. 데이터의 차원에서 모든 부분에 중요한 정보가 있는 것은 아니다. 이에 데이터를 부분부분 마다 보면서 중요한 정보를 더 잘 뽑아내자는 것이 핵심이다. 부분 부분을 보면서 중요한 정보를 뽑아내는 그 도구가 필터이고, 그 필터에 W가 담기게 된다. 또한 도구로 정보를 뽑아내어, 필요한 예측 차원으로 맞출때 필요한 MLP layer에도 W가 담기게 된다. 즉 필터와 후반부 MLP layer를 학습하는 것이 CNN이라고 봐도 무방하다. 동작 방식은 다음과 같다. 데이터의 지역 부분을 순..
