목록2026/03/19 (3)
AI바라기의 인공지능
용어 설명TD-MPC (Temporal Difference Learning for Model Predictive Control): 이 논문의 바탕이 되는 model-based RL 알고리즘. 환경의 원본 이미지나 상태를 복원(reconstruction)하는 대신, 행동에 따른 미래의 잠재 상태(latent state)와 보상(reward)만을 예측하는 모델을 학습하고, 그 잠재 공간 안에서 최적의 행동 궤적을 계획(planning)합니다.Implicit (decoder-free) world model: 미래의 시각적 이미지나 원본 관측값을 다시 그려내는(decoding) 과정 없이, 오직 제어(control)에 필요한 결과값(reward, value)만을 예측하도록 학습된 world model을 뜻합니다..
용어 설명World Model: 에이전트가 환경과 직접 상호작용하기 전에, 머릿속으로 미래의 상태와 보상을 예측하고 시뮬레이션(imagination)하여 계획을 세울 수 있도록 학습된 환경의 내부 모델입니다.RSSM (Recurrent State-Space Model): World Model을 구현하는 핵심 아키텍처로, 결정론적(deterministic) 순환 상태와 확률론적(stochastic) 표현을 결합하여 과거의 정보를 기억하고 미래를 예측합니다.Symlog (Bi-symmetric Logarithmic) Transformation: 매우 큰 양수와 음수의 크기를 압축하면서도 0 근처에서는 원래 값을 유지하게 만드는 수학적 변환 기법입니다. 도메인마다 천차만별인 관측치나 보상의 크기를 동일한 알고..
용어 설명Chain-of-Frames (CoF): 기존 연구들에서 가정하던 가설로, 비디오 프레임이 시간축에 따라 순차적으로 생성되면서 논리적 reasoning이 점진적으로 일어난다는 개념입니다.Chain-of-Steps (CoS): 이 논문이 새롭게 제안하는 핵심 개념입니다. Reasoning이 프레임 단위의 시간축이 아니라, 모델이 노이즈를 제거해 나가는 diffusion denoising step의 흐름을 따라 전역적(globally)으로 수행된다는 메커니즘입니다.Multi-Path Exploration: 초기 diffusion step에서 모델이 여러 가능한 해결책(예: 미로의 여러 경로, 물체의 다양한 이동 위치 등)을 잠재 공간에 동시에 전개하고, denoising 과정이 진행됨에 따라 오답을..
