world model : 논문 리뷰 : DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

AI바라기의 인공지능

world model : 논문 리뷰 : DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning 본문

논문리뷰

world model : 논문 리뷰 : DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

AI바라기 2026. 3. 18. 19:41

DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning 학습 노트

용어 설명

World Model: 환경의 역학(dynamics)을 모델링하여 현재 상태와 action이 주어졌을 때 미래의 상태를 예측하는 AI 모델.
Zero-shot Planning: 모델 학습 과정에서 특정 task에 대한 정답이나 보상(reward) 정보 없이, 테스트 시점에 처음 주어지는 시각적 목표(goal observation)만을 보고 이를 달성하기 위한 행동 순서(action sequence)를 스스로 추론해내는 과정.
DINOv2 Patch Features: Self-supervised 방식으로 학습된 강력한 vision model인 DINOv2가 추출하는 특징값. 이미지를 하나의 벡터로 압축하는 global feature(CLS)와 달리, 이미지를 여러 패치로 나누어 각각의 공간적(spatial)이고 의미적인(semantic) 정보를 유지하는 임베딩 방식.
Model Predictive Control (MPC): 현재 상태에서 미래의 여러 스텝을 예측해보고, 목표에 가장 가까워지는 최적의 action을 찾아내는 제어 기법.
Cross-Entropy Method (CEM): MPC 과정에서 최적의 action sequence를 찾기 위해 무작위 샘플링과 분포 업데이트를 반복하는 최적화 알고리즘.
LPIPS (Learned Perceptual Image Patch Similarity): 생성된 예측 이미지와 실제 이미지가 사람의 시각적 인지 기준으로 얼마나 유사한지 평가하는 지표 (낮을수록 우수함).

Purpose of the Paper

기존 연구의 한계:
- Online world model: 특정 policy나 task에 맞춰 학습되므로 새로운 task마다 환경과 상호작용하며 재학습해야 하는 비효율성이 존재.
- Offline world model: 재학습 문제는 피할 수 있으나, 픽셀 단위로 이미지를 재구성(pixel reconstruction)하느라 연산량이 매우 크거나, 보상(reward prediction)에 의존하여 본질적으로 task-specific 해지는 한계가 있음.
- Text-to-video generation model: 시각적으로는 그럴듯하지만 물리적 타당성(physical plausibility)이 떨어져 정밀한 제어(control)에 사용하기 부적합함.
논문의 목적 (새로운 접근): 특정 task나 픽셀 복원에 얽매이지 않는 Task-agnostic offline world model (DINO-WM) 구축. 검증된 pre-trained vision 모델을 활용하여 순수하게 잠재 공간(latent space) 안에서만 미래를 예측하고, 이를 바탕으로 시각적 목표에 도달하는 zero-shot planning을 가능하게 함.

Key Contributions & Novelty

DINOv2 기반 Frozen Observation Model 도입 (Novelty):
- 환경마다 encoder를 밑바닥부터 학습시키는 대신, DINOv2를 고정(frozen)된 observation model로 사용함.
- 특히 이미지를 하나로 뭉뚱그리는 대신 Patch features를 사용하여, 객체 조작(manipulation)에 필수적인 미세한 공간 레이아웃과 객체 중심적(object-centric) 정보를 유지한 점이 핵심적인 참신성.
픽셀 복원이 필요 없는 Latent Transition Model (Contribution):
- Reconstruction loss 없이 오직 latent state 간의 일관성(consistency)만으로 모델을 학습시킴.
- Causal attention mask를 적용한 ViT 구조: 과거 프레임의 패치들이 다음 프레임의 패치를 예측할 때, 토큰 단위가 아닌 프레임 단위로 autoregressive하게 예측하도록 설계하여 global structure와 temporal dynamics를 더 완벽하게 포착함.
Task-agnostic Zero-shot Visual Planning 달성 (Contribution):
- Reward 모델링이나 전문가 시연(expert demonstrations)이 전혀 없는 오프라인 궤적(offline trajectories) 데이터만으로 세계의 물리 법칙을 학습.
- 학습 후, 테스트 환경에서 단순히 '도달해야 할 목표 이미지'만 던져주면 MPC와 CEM을 통해 알아서 최적의 행동을 계획함.

Experimental Highlights

핵심 실험 설정:
- Environments: 단순 이동(Maze, Wall)부터 접촉이 중요한 로봇 조작(Reacher, Push-T), 변형 가능한 입자/물체 제어(Rope, Granular)까지 6개 환경.
- Baselines: SOTA world models (IRIS, DreamerV3, TD-MPC2), Diffusion 기반 생성 모델 (AVDC).
주요 결과 1: 압도적인 Zero-shot 성능 (SOTA 달성)
- 입자를 모으거나 모양을 맞추는 가장 복잡한 환경(Push-T, Rope, Granular)에서 다른 baselines를 압도함.
- 가장 어려운 task 기준으로 기존 SOTA 모델 대비 평균 45퍼센트 향상된 planning 성공률 기록. TD-MPC2 같은 모델이 보상 신호(reward signal) 없이는 완전히 실패한 반면, DINO-WM은 성공적으로 목표를 달성함.
주요 결과 2: Unseen Configuration에 대한 강력한 일반화 (Generalization)
- 학습 때 보지 못한 벽/문의 위치(WallRandom), 새로운 물체 형태(PushObj), 입자 개수 변화(GranularRandom) 테스트에서 다른 모델들은 크게 실패했지만, DINO-WM은 월등히 높은 성공률을 유지함. Patch feature가 사물 개수나 모양 변화에 강건함을 입증.
주요 결과 3: 시각적 예측 품질 검증
- 픽셀 복원 학습을 전혀 하지 않았음에도 예측된 미래 latent를 디코딩했을 때 시각적 품질이 가장 우수함. 가장 어려운 환경에서 기존 모델 대비 LPIPS 지표를 56퍼센트 향상시키며 물리적으로 매우 타당한 궤적을 상상해냄.

Limitations and Future Work

한계점 1: 충분한 데이터를 갖춘 Offline dataset 의존성
- 모델이 환경을 이해하려면 충분한 state-action 커버리지가 보장된 데이터가 필수적임. 복잡한 현실 세계의 환경에서는 이러한 데이터를 미리 모두 수집하기 어려움.
- Future Work: Exploration 전략과 세계 모델을 결합하여, agent가 새로운 경험을 획득할 때마다 모델을 점진적으로 업데이트하는 하이브리드 방식으로 발전시킬 수 있음.
한계점 2: Ground truth action 데이터 필요
- 현재 모델은 로봇/agent가 어떤 action을 취했는지에 대한 정확한 정보가 학습 데이터에 포함되어야 함. 이는 인터넷에 널려있는 방대한 일반 비디오 영상(action 정보가 없는 영상)을 그대로 학습에 활용하기 어렵게 만듦.
한계점 3: Low-level action 기반 Planning의 한계
- 현재 planning 과정이 모터 제어 같은 최하위 단계의 action space에서 이루어짐. 따라서 매우 길고 복잡한 일련의 과정이 필요한 작업(long-horizon tasks)에서는 연산 한계에 부딪힐 수 있음.
- Future Work: High-level planning(예: '컵을 잡는다')과 Low-level control policy(세밀한 각도 조절)를 결합하는 계층적(hierarchical) 구조를 도입하여 더 복잡한 제어 문제를 해결할 수 있음.

Overall Summary

이 논문은 기존 world model들이 가진 픽셀 복원 연산의 비효율성과 특정 보상에 종속되는 한계를 극복하기 위해, DINOv2의 pre-trained patch features 기반의 task-agnostic world model인 DINO-WM을 제안합니다. DINO-WM은 물리적 보상이나 정답 시연 없이 오직 오프라인 데이터의 잠재 공간(latent space) 역학만을 학습하여, 접촉이 많고 복잡한 로봇 조작 및 변형 물체 제어 작업에서 기존 방식들을 압도하는 zero-shot planning 성능과 일반화 능력을 입증했습니다. 이는 시각적 추론과 제어를 성공적으로 분리해냄으로써, 향후 로봇 공학과 embodied AI 분야에서 재학습 없이 범용적으로 활용될 수 있는 foundation world model의 강력한 가능성을 제시합니다.

쉬운 설명

이 논문의 핵심 아이디어는 방을 정리하는 로봇에게 **"방의 모든 픽셀 색깔과 먼지 위치를 픽셀 단위로 외우게 하는 대신(Pixel reconstruction), 뛰어난 공간 지각력을 가진 안경(DINOv2 Patch features)을 씌워 핵심적인 사물의 구조만 기억하게 하는 것"**과 같습니다.

로봇은 굳이 이전에 '청소를 잘했을 때 받는 칭찬(Reward)'을 학습하지 않아도, 그저 "저 상자를 이쪽으로 밀면 이렇게 움직이겠지?"를 자신의 머릿속 잠재 공간(Latent space)에서 시뮬레이션해 봅니다. 그 후 주인이 던져준 '정리된 방의 사진(Goal observation)'만 보고도 스스로 어떻게 움직여야 할지(Zero-shot planning) 완벽하게 계획해냅니다. 쓸데없는 시각적 디테일에 집착하지 않고 사물의 물리적 흐름만 정확히 캐치하는 아주 똑똑한 시뮬레이터를 만든 셈입니다.

Abstract

제어 행동이 주어졌을 때 미래의 결과를 예측하는 능력은 물리적 reasoning을 위해 필수적입니다. 그러나 흔히 world models라고 불리는 이러한 predictive models는 여전히 learn하기 어려우며, 일반적으로 online policy learning을 사용하는 task-specific 솔루션을 위해 개발됩니다. world models의 진정한 잠재력을 발휘하기 위해, 우리는 이것들이 1) offline으로 미리 수집된 trajectories에서 trainable해야 하고, 2) test-time 행동 optimization을 지원해야 하며, 3) task-agnostic reasoning을 촉진해야 한다고 주장합니다.

이를 위해, 우리는 visual 세계를 reconstructing하지 않고 visual dynamics를 model하는 새로운 방법인 DINO World Model(DINO-WM)을 제시합니다. DINO-WM은 DINOv2로 pre-trained된 공간적 patch features를 활용하여, 미래의 patch features를 predicting함으로써 offline 행동 trajectories로부터 learn할 수 있게 합니다.

이를 통해 DINO-WM은 action sequence optimization을 통해 관찰 가능한 목표를 달성할 수 있으며, 목표 features를 prediction targets로 취급하여 task-agnostic planning을 촉진합니다. 우리는 DINO-WM이 expert demonstrations, reward modeling 또는 pre-learned된 inverse models 없이 6개의 environments에서 test time에 zero-shot 행동 솔루션을 달성하여, 임의로 구성된 미로, 다양한 물체 모양을 가진 밀기 조작, 그리고 다중 입자 시나리오와 같은 다양한 task 제품군에서 이전의 state-of-the-art 연구를 능가함을 보여줍니다.

Introduction

로봇 공학과 embodied AI는 최근 몇 년 동안 엄청난 발전을 이루었습니다. imitation learning과 reinforcement learning의 발전은 agents가 다양한 tasks 전반에 걸쳐 복잡한 behaviors를 learn할 수 있게 해주었습니다. 이러한 발전에도 불구하고 generalization은 여전히 주요한 과제로 남아있습니다. 기존 접근 방식들은 주로 한 번 trained되면 deployment 중에 feed-forward 방식으로 작동하는 policies에 의존합니다. 이는 추가적인 optimization이나 reasoning 없이 observations를 actions에 매핑하는 것입니다. 이러한 프레임워크 하에서 성공적인 generalization은 본질적으로 training이 완료된 후 agents가 가능한 모든 tasks와 시나리오에 대한 솔루션을 보유할 것을 요구하며, 이는 agent가 training 중에 유사한 시나리오를 본 경우에만 가능합니다. 하지만 모든 잠재적인 tasks와 environments에 대한 솔루션을 미리 learn하는 것은 실현 가능하지도 않고 효율적이지도 않습니다.

training 중에 가능한 모든 tasks에 대한 솔루션을 learn하는 대신, 대안은 training 데이터에 dynamics model을 맞추고 런타임에 task-specific 행동을 optimize하는 것입니다. world models라고도 불리는 이러한 dynamics models는 로봇 공학과 제어 분야에서 오랜 역사를 가지고 있습니다. 최근에는 world models가 원시적인 sensory 데이터로 trained될 수 있음을 보여주는 여러 연구가 있었습니다. 이는 명시적인 상태 추정의 필요성을 우회하기 때문에 policies를 얻기 위한 model-based optimization의 유연한 사용을 가능하게 합니다. 이러한 장점에도 불구하고, 이를 general-purpose tasks를 해결하는 데 사용하는 데에는 여전히 중대한 과제가 남아있습니다.

world modeling의 과제를 이해하기 위해, world models를 learning하는 두 가지 광범위한 패러다임인 online과 offline을 고려해 보겠습니다. online 환경에서는 world model을 개선하기 위해 데이터를 지속적으로 수집할 수 있도록 environment에 대한 접근이 종종 요구되며, 이는 결과적으로 policy와 후속 데이터 수집을 개선합니다. 그러나 online world model은 optimized되고 있는 policy의 범위 내에서만 정확합니다. 따라서 이것이 강력한 task-specific policies를 train하는 데 사용될 수는 있지만, 동일한 environment 내에서라도 모든 새로운 task에 대해 retraining이 필요합니다. 대신, offline 환경에서는 environment에서 수집된 trajectories의 offline dataset에서 world model이 trained되며, 이는 dataset에 충분한 커버리지가 주어졌을 때 task 특수성에 대한 의존성을 제거합니다. 그러나 task를 해결해야 할 때, 이 영역의 방법들은 expert demonstrations, 구조화된 keypoints, pretrained inverse models에 대한 접근, 또는 밀집된 reward functions 형태의 강력한 보조 정보를 필요로 하며, 이 모든 것들은 offline world models 사용의 generality를 감소시킵니다. 더 나은 offline world models를 구축하기 위한 핵심적인 질문은 generality를 훼손하지 않는 대안적인 보조 정보가 존재하는가 하는 것입니다.

본 연구에서 우리는 trajectories의 offline dataset으로부터 task-agnostic world models를 구축하는 새롭고 간단한 방법인 DINO-WM을 제시합니다. DINO-WM은 원시적인 observations 자체보다는 world의 압축된 embeddings를 바탕으로 world dynamics를 models합니다. embedding을 위해 우리는 DINOv2 model의 pretrained patch-features를 사용하며, 이는 공간적 및 객체 중심적 representation prior를 모두 제공합니다. 우리는 이러한 pretrained representation이 강력하고 일관된 world modeling을 가능하게 하여, task-specific 데이터 커버리지의 필요성을 완화한다고 추측합니다. 이러한 visual embeddings와 actions가 주어지면, DINO-WM은 미래의 embeddings를 predict하기 위해 ViT architecture를 사용합니다. 이 model이 offline dataset에서 trained되고 나면, tasks를 해결하기 위한 planning은 visual 목표 도달, 즉 현재의 observation이 주어졌을 때 미래의 원하는 목표에 도달하는 것으로 구성됩니다. DINO-WM에 의한 predictions는 고품질이므로 (Figure 4 참조), 우리는 testing 중에 어떠한 추가 정보 없이도 원하는 목표에 도달하기 위해 inference-time optimization과 함께 model predictive control을 간단히 사용할 수 있습니다.

DINO-WM은 미로 navigation, 슬라이딩 조작, 로봇 팔 제어, 그리고 변형 가능한 물체 조작 tasks에 걸친 6개의 environment 제품군에서 실험적으로 평가되었습니다. 우리의 실험은 다음과 같은 결과들을 밝혀냈습니다:

DINO-WM은 trained decoders로부터 향상된 visual reconstruction에 의해 측정될 수 있는 고품질의 미래 world modeling을 produce합니다. 우리의 가장 어려운 tasks에 대한 LPIPS metrics에서, 이는 이전의 state-of-the-art 연구보다 56% 향상되었습니다 (Section 4.7 참조).
DINO-WM을 사용하여 trained된 latent world models가 주어졌을 때, 우리는 가장 어려운 tasks에서 임의의 목표에 도달하는 데 높은 성공률을 보여주며, 이전 연구보다 평균적으로 45% 향상되었습니다 (Section 4.3 참조).
DINO-WM은 task 제품군 내의 environment 변화(예: navigation을 위한 다른 미로 레이아웃 또는 조작을 위한 다른 물체 모양) 전반에 걸쳐 trained될 수 있으며 이전 연구와 비교하여 더 높은 성공률을 달성합니다 (Section 4.5 참조).

재현성을 보장하기 위해 DINO-WM을 위한 Code와 models는 open-sourced되었으며, planning 영상은 우리의 익명 프로젝트 웹사이트인 https://dino-wm.github.io 에서 확인할 수 있습니다.

Introduction 요약 노트 (AI 연구자용)

연구 배경 및 문제 제기
- 기존 policy 기반 방법론(feed-forward 방식)은 본질적으로 generalization에 취약하며, training 단계에서 보지 못한 새로운 tasks 환경에 대응하기 어려움.
- 대안으로 dynamics model(또는 world models)을 활용하여 런타임에 task-specific 행동을 optimize하는 방법이 부상함.
기존 World Models의 한계
- Online 방식: 지속적인 environment 상호작용이 필요하며, 새로운 task마다 retraining이 강제됨.
- Offline 방식: offline dataset을 활용하여 generality를 높일 수 있지만, task 해결을 위해 expert demonstrations, pretrained inverse models, dense reward functions 등 강력한 보조 정보(auxiliary information)가 필수적으로 요구되어 진정한 generality 확보에 한계가 있음.
제안 방법론: DINO-WM
- 목표: 보조 정보 없이 trajectories의 offline dataset만으로 학습 가능한 task-agnostic world models 제안.
- 핵심 기술:
  - 원시 observation이 아닌, DINOv2의 pretrained patch-features를 활용하여 공간적/객체 중심적 representation prior가 반영된 압축된 embeddings 상에서 world dynamics를 modeling.
  - Visual embeddings와 actions를 입력받아 ViT architecture를 통해 미래의 embeddings를 predict.
- Planning 방식: 학습 완료 후, inference-time optimization과 함께 model predictive control을 사용하여 추가 정보 없이 단순히 미래의 시각적 목표에 도달(visual goal reaching)하는 방식으로 task를 해결.
주요 실험 결과 및 기여
- High-quality Modeling: 가장 어려운 tasks 기준, 이전 state-of-the-art 대비 LPIPS metrics 56% 향상.
- Zero-shot Planning: 임의의 목표 도달 성공률이 이전 연구 대비 평균 45% 향상됨.
- Robust Generalization: 미로의 레이아웃이나 물체의 모양 등 동일 task 제품군 내의 environment 변화에도 강건하게 trained 및 적용 가능.

쉬운 설명 : DINO-WM의 핵심

로봇이나 AI 에이전트가 새로운 환경에서 임무를 수행하게 만드는 것은 매우 어렵습니다. 기존의 방식은 에이전트에게 "A 상황에서는 B 행동을 해"라고 정답을 달달 외우게 하는 것과 같아서, 조금만 상황이 바뀌어도 대처하지 못했습니다.

그래서 연구자들은 AI에게 세상이 어떻게 돌아가는지 그 규칙을 가르치는 world models를 도입했습니다. 하지만 기존 방식들은 AI가 스스로 규칙을 깨우치기 위해 현실 세계에서 끝없이 시행착오를 겪어야 하거나(Online), 남이 만들어둔 비디오(Offline)로 배울 때는 항상 "전문가의 시범"이나 "상세한 점수판(보상)" 같은 친절한 가이드라인이 필요했습니다.

DINO-WM은 이런 가이드라인 없이도 AI가 스스로 목표를 달성하게 만드는 똑똑한 방법입니다. 원리는 이렇습니다. 먼저 세상의 이미지를 있는 그대로 보는 대신, 이미 사물과 공간을 아주 잘 이해하고 있는 DINOv2라는 눈(시각 모델)을 빌려옵니다. 이 눈을 통해 남들이 만들어둔 비디오를 보면서 "아, 이렇게 움직이면 세상이 이렇게 변하는구나"라는 물리법칙을 스스로 학습합니다.

그리고 실제 미션이 주어지면, AI는 머릿속으로 '내가 이렇게 행동하면 미래에 저런 모습이 되겠지?'라고 시뮬레이션을 돌려봅니다. 추가적인 힌트나 보상 없이, 오직 현재 내 모습과 목표 지점의 모습만 비교하면서 스스로 최적의 행동 순서를 짜내어(Planning) 목표에 도달하는 놀라운 성능을 보여줍니다.

Related Work

우리는 world models를 개발하고, 이로부터 behaviors를 최적화하며, 컴팩트한 visual representations를 활용하는 여러 연구를 기반으로 합니다. 간결성을 위해, 우리는 DINO-WM과 가장 관련성이 높은 연구들만 논의합니다.

Model-based Learning: dynamics의 models로부터 학습하는 것은 control, planning 및 robotics 분야에 걸쳐 풍부한 문헌을 가지고 있습니다. 최근 연구들은 dynamics를 모델링하고 future states를 predicting하는 것이 online reinforcement learning, exploration, planning 및 imitation learning을 포함한 다양한 응용 분야에서 embodied agents를 위한 vision-based learning을 크게 향상시킬 수 있음을 보여주었습니다. 이러한 접근 방식 중 일부는 초기에 state-space dynamics에 초점을 맞추었으며, 이후 본 연구에서 다루는 image-based inputs를 처리하도록 확장되었습니다. 이러한 world models는 pixel space 또는 latent representation space에서 future states를 predict할 수 있습니다. 그러나 pixel space에서의 predicting은 image reconstruction의 필요성과 diffusion models 사용의 오버헤드로 인해 computationally expensive합니다. 반면에, latent-space prediction은 일반적으로 images를 reconstructing하는 objectives와 연결되어 있으며, 이는 학습된 features가 task에 대한 충분한 정보를 포함하고 있는지에 대한 우려를 낳습니다. 더욱이, 이러한 models 중 상당수는 reward prediction을 통합하거나, latent representation을 학습하기 위한 auxiliary objective로 reward prediction을 사용하여 본질적으로 world model을 task-specific하게 만듭니다. 본 연구에서 우리는 latent-space prediction에서 task-dependent information을 분리하여, 다양한 시나리오에 걸쳐 generalizing할 수 있는 다목적이고 task-agnostic world model을 개발하고자 노력합니다.

Generative Models as World Models: 최근 대규모 foundation models의 흥행과 함께, self-driving, control 및 범용 video generation 도메인에서 agent의 actions에 conditioned된 대규모 video generation world models를 구축하려는 이니셔티브가 있었습니다. 이러한 models는 text 또는 high-level action sequences에 conditioned된 video predictions를 generate하는 것을 목표로 합니다. 이러한 models가 data augmentations와 같은 downstream tasks에서 유용성을 입증했지만, language conditioning에 대한 의존성은 정밀하게 visually indicative goals에 도달해야 할 때 그 적용을 제한합니다. 또한, video generation을 위한 diffusion models의 사용은 이를 computationally expensive하게 만들어 MPC와 같은 test-time optimization 기술에 대한 적용 가능성을 더욱 제한합니다. 본 연구에서 우리는 raw pixel space 대신 latent space에 world model을 구축하여 보다 정밀한 planning과 control을 가능하게 하는 것을 목표로 합니다.

Pretrained Visual Representations: visual representation learning 분야에서 상당한 발전이 이루어졌으며, 여기서 spatial 및 semantic information을 캡처하는 compact features는 downstream tasks에 쉽게 사용될 수 있습니다. ImageNet pre-trained ResNet, I-JEPA, 그리고 images를 위한 DINO, videos를 위한 V-JEPA, robotics를 위한 R3M, MVP와 같은 Pre-trained models는 풍부한 spatial 및 semantic information을 포함하고 있어 downstream tasks에 대한 빠른 적응을 허용했습니다. 이러한 models 중 상당수는 single global feature를 사용하여 images를 represent하지만, Vision Transformers(ViTs)의 도입은 DINO에서 입증된 바와 같이 pre-trained patch features의 사용을 가능하게 했습니다. DINO는 model이 representations를 효과적으로 학습하여 images 내의 semantic layouts를 캡처하고 spatial understanding을 향상시킬 수 있도록 하는 self-distillation loss를 사용합니다. 본 연구에서 우리는 DINOv2의 patch embeddings를 활용하여 world model을 train하고, 이것이 다양한 정밀 tasks를 처리할 수 있는 다목적 encoder 역할을 한다는 것을 보여줍니다.

Related Work 정리 노트 (AI 연구자용)

1. 기존 Model-based Learning의 한계 및 DINO-WM의 차별점
- 문제점: 기존의 Latent-space world models는 주로 Image reconstruction이나 Reward prediction을 보조 목표로 삼아 학습됨. 이는 학습된 representation이 특정 Task의 점수(Reward)에 종속되도록 만들어 Task-specific한 한계를 지님.
- DINO-WM의 해결책: Reward 예측과 같은 Task-dependent 정보를 완전히 배제. 오직 Latent-space 예측에만 집중하여, 어떤 Task가 주어지더라도 범용적으로 일반화(Generalizing) 가능한 진정한 Task-agnostic world model 구현.
2. Generative Video Models와의 성능적 우위
- 문제점: 최근 유행하는 Video Generation 기반 world models는 Text나 High-level action condition에 의존하며, Diffusion 모델의 특성상 연산량이 매우 큼(Computationally expensive). 이로 인해 실시간 추론이 필요한 MPC(Model Predictive Control) 등 Test-time 최적화에 부적합함.
- DINO-WM의 해결책: Raw pixel 단위의 렌더링을 포기하고 Latent space에서 작동하도록 설계. 연산 비용을 대폭 낮추고, Language condition의 모호성에서 벗어나 정밀한 시각적 목표(Visually indicative goals) 제어 및 고속 Planning 가능.
3. Pretrained Visual Representation(DINOv2) 도입의 핵심 가치
- 문제점: 로보틱스 등에 쓰이는 기존 Representation 모델들은 대부분 이미지를 하나의 Single global feature로 압축하여 국소적인 공간 정보(Spatial information)를 잃어버리는 경향이 있음.
- DINO-WM의 해결책: ViT 아키텍처 기반의 DINOv2가 제공하는 Pre-trained patch features를 적극 채택. Self-distillation을 통해 이미 훌륭하게 학습된 의미론적 레이아웃과 공간 이해 능력을 World model의 Encoder로 그대로 흡수시켜 다양한 정밀 물리 Task를 성공적으로 수행할 수 있는 기반을 마련함.

쉬운 설명 : 기존 연구들과 무엇이 다른가요?

이 섹션은 DINO-WM이 기존에 있던 비슷한 AI 모델들의 단점을 어떻게 똑똑하게 피해갔는지 설명합니다.

왜 점수(보상)로 학습하지 않나요? 기존 AI들은 게임의 '점수'를 잘 받기 위해 미래를 예측하도록 훈련되었습니다. 그러다 보니 테니스 게임 점수 내는 법만 알고 농구 게임에서는 바보가 되어버렸죠. DINO-WM은 점수에 의존하지 않고 세상이 물리적으로 어떻게 변하는지 그 자체만 학습하기 때문에 어떤 게임(Task)이든 유연하게 대처할 수 있습니다.
왜 비디오 생성(생성형 AI) 방식을 쓰지 않나요? 최근 유행하는 영상 생성 AI(예: Sora 등)로 미래를 예측할 수도 있지만, 픽셀 하나하나를 다 그려내야 해서 너무 느리고 무겁습니다. 로봇은 0.1초 만에 미래를 예측하고 행동해야 하거든요. 그래서 DINO-WM은 픽셀 단위의 그림을 그리는 대신, 중요한 '핵심 특징(Latent space)'만 빠르게 상상하는 방식을 택했습니다.
왜 하필 DINOv2의 눈(Patch)을 빌려왔나요? 기존 모델들은 장면 전체를 '두루뭉술한 하나의 느낌'으로만 이해했습니다. 하지만 DINOv2는 화면을 바둑판처럼 잘게 쪼개어(Patch) 각 부분에 어떤 물체가 있는지 아주 정밀하게 파악하는 능력이 있습니다. 이 뛰어난 눈을 그대로 가져와서 AI의 두뇌(World Model)에 붙여주었기 때문에, 복잡하고 섬세한 임무도 척척 해낼 수 있게 된 것입니다.

Related Work 정리 노트 (AI 연구자 타겟)

1. Model-based Learning의 한계 극복: 완벽한 Task-Agnostic 달성

기존의 문제: 기존 world models는 주로 pixel space에서 image reconstruction을 수행하여 연산량이 과도하거나(computationally expensive), latent space를 쓰더라도 reward prediction을 보조 목표로 삼아 모델이 특정 task에 종속(task-specific)되는 한계가 존재함.
DINO-WM의 핵심 차별점: task-dependent information(예: 보상 함수)을 latent-space prediction 과정에서 완전히 분리(decouple)함. 이를 통해 특정 task나 환경에 국한되지 않고 다양한 시나리오에 걸쳐 generalizing이 가능한 진정한 의미의 범용적(task-agnostic) world model을 구축함.

2. Generative Models와의 비교: 실시간 Planning을 위한 경량화 및 시각적 정밀도

기존의 문제: 최근의 대규모 video generation models(예: Diffusion 기반)는 language conditioning이나 high-level action sequences에 의존함. 언어의 모호성으로 인해 정밀한 시각적 목표(visually indicative goals) 도달에 불리하며, 무거운 연산량 탓에 MPC와 같은 test-time optimization에 적용하기 어려움.
DINO-WM의 핵심 차별점: 무거운 raw pixel space 렌더링을 배제하고, 가벼운 latent space 내에서만 world model을 구축함. 이를 통해 복잡한 생성 과정 없이 고속으로 미래 상태를 예측하며, 언어 대신 시각적 목표 자체를 활용하여 훨씬 정밀한 planning과 control을 가능하게 함.

3. Pretrained Visual Representations의 적극적 활용: DINOv2 패치 기반 공간 이해

기존의 문제: robotics에 활용되던 기존의 시각 표현 모델(ResNet, R3M 등)은 이미지를 단일 전역 특징(single global feature)으로 압축하는 경향이 있어, 객체의 위치나 세밀한 공간 정보(spatial information)가 소실됨.
DINO-WM의 핵심 차별점: ViTs 구조인 DINOv2의 pre-trained patch features를 world model의 입력 및 예측 대상으로 채택함. self-distillation loss를 통해 이미 강력하게 학습된 semantic layouts와 공간 이해 능력을 그대로 가져와, 다목적 encoder로서 정밀한 물리적 조작 tasks를 탁월하게 지원함.

쉬운 설명 : 기존 연구들과 무엇이 다른가요?

이 섹션은 DINO-WM이 기존에 존재하던 비슷한 AI 모델들의 단점들을 어떻게 영리하게 피해갔는지 설명하는 대목입니다.

첫째, "점수(보상)에 집착하지 않고 세상의 물리법칙만 배웁니다." 기존 AI들은 특정 게임이나 임무의 '점수'를 잘 받기 위해 미래를 예측하도록 훈련되었습니다. 그러다 보니 테니스 치는 법만 알게 되고 농구공을 주면 멍청해졌죠. DINO-WM은 점수에 아예 관심이 없습니다. 오직 '내가 밀면 물체가 밀린다'는 순수한 물리적 변화 자체만 학습하기 때문에, 나중에 어떤 새로운 미션을 주더라도 유연하게 척척 해냅니다.
둘째, "무거운 비디오를 그리는 대신, 핵심만 빠르게 상상합니다." 요즘 텍스트를 치면 멋진 영상을 만들어주는 생성형 AI가 유행이지만, 로봇이 쓰기엔 너무 느리고 '언어'로 정확한 위치를 지시하기도 어렵습니다. 로봇은 0.1초 만에 미래를 예측하고 움직여야 하거든요. 그래서 DINO-WM은 픽셀 하나하나를 예쁘게 그리는 것을 포기하고, 눈에 보이지 않는 뇌 속의 '핵심 특징'만 가볍고 빠르게 상상하여 행동 계획을 짭니다.
셋째, "전체를 뭉뚱그려 보지 않고, 모자이크처럼 쪼개서 정밀하게 봅니다." 기존 모델들은 방 전체를 '방이다'라는 하나의 덩어리로만 인식해서 세밀한 조작에 서툴렀습니다. 하지만 DINO-WM은 DINOv2라는 뛰어난 눈을 빌려와서, 화면을 바둑판 모양의 패치(Patch)로 잘게 쪼개어 봅니다. 각 조각에 어떤 물체가 어떻게 놓여 있는지 아주 정밀하게 파악하기 때문에, 복잡하고 섬세한 임무도 성공적으로 해낼 수 있는 것입니다.

이미지 설명: DINO-WM: Pre-trained Visual Features 기반 World Models로 Zero-shot Planning 구현

이 이미지는 과학 논문의 개요도로, DINO-WM(DINO World Model)이라는 새로운 방법을 소개하고 그 성능을 시각적으로 설명합니다. 그림은 (a), (b), (c) 세 개의 하위 부분으로 나뉘며, 하단에는 그림을 설명하는 캡션이 있습니다.

(a) DINO-WM 학습 (Training DINO-WM)

목적: DINO-WM 모델이 사전 학습된 시각 특징을 사용하여 세상의 역학(dynamics)을 학습하는 과정을 보여줍니다.
구성:
- 관측 (Observation): 로봇 팔이 물체를 조작하는 모습을 담은 두 개의 연속적인 이미지 프레임, 시간 $t$의 관측 $o_t$와 시간 $t+1$의 관측 $o_{t+1}$이 입력으로 사용됩니다.
- 인코더 (Encoder): 두 이미지 관측은 각각 회색 사다리꼴 상자로 표시된 "DINOv2"라는 사전 학습된 비전 인코더를 통과합니다.
- 임베딩 (Embedding): 인코더는 입력 이미지를 잠재 공간(latent space) 내의 임베딩 $z_t$와 $z_{t+1}$로 변환합니다. 이 임베딩들은 잠재 공간을 나타내는 회색 영역 내부의 점으로 표시됩니다.
- 행동 (Action): 시간 $t$에 에이전트가 취한 행동 $a_t$가 주어집니다.
- 학습 과정: World Model은 현재 상태 $z_t$와 행동 $a_t$가 주어졌을 때, 다음 상태 $z_{t+1}$을 예측하는 법을 배웁니다. 그림에서는 $z_t$에서 점선을 따라 행동 $a_t$를 통해 $z_{t+1}$로 이동하는 경로로 이를 시각화합니다. 즉, DINO-WM은 이미지 전체를 재구성하는 대신, DINOv2로 얻은 핵심 특징(patch features)의 변화를 예측하는 법을 학습합니다.

(b) 테스트 시 추론 (Test-time Inference)

목적: 학습된 DINO-WM 모델을 사용하여 새로운 목표 상태에 도달하기 위한 행동을 계획하는 과정을 보여줍니다.
구성:
- 초기 상태: 초기 관측 $o_1$이 주어지면, DINOv2 인코더를 통해 초기 잠재 임베딩 $z_1$로 변환됩니다.
- 목표 상태: 달성하고자 하는 목표 관측 $o_g$가 주어지면, 역시 DINOv2 인코더를 통해 목표 잠재 임베딩 $z_g$로 변환됩니다. $z_g$는 파란색으로 표시되어 목표임을 나타냅니다.
- 계획 과정: $z_1$에서 시작하여 $z_g$에 도달하기 위한 여러 가지 가능한 행동 시퀀스와 그에 따른 미래 상태 궤적들을 모델을 통해 상상(시뮬레이션)해 봅니다. 그림에서는 얇은 파란색 곡선들로 이를 표시합니다.
- 최적화: 이 상상된 궤적들 중에서 목표 상태 $z_g$에 가장 가까이 도달하는 최적의 궤적을 선택합니다. 그림에서는 굵은 파란색 경로가 선택되어 최종 상태 $z_T$에 도달하는 모습을 보여줍니다. $z_T$에서 $z_g$로 화살표가 그려져 있어, 최종 상태가 목표 상태에 가까워지도록 최적화됨을 보여줍니다. 이는 모델 예측 제어(MPC)를 통해 목표 달성을 위한 최적의 행동 시퀀스를 계획하는 과정입니다.

(c) 계획 성능 (Planning Performance)

목적: 다른 최신 World Model들과 DINO-WM의 계획 성능을 비교하는 막대 그래프입니다.
구성:
- 지표: 세로축은 비교 대상 모델 이름(IRIS, TD-MPC2, DreamerV3, DINO-WM)을, 가로축은 성능 지표인 "Chamfer distance (↓)"를 나타냅니다. (↓)는 값이 작을수록 성능이 좋음을 의미합니다. Chamfer distance는 예측된 최종 상태와 실제 목표 상태 사이의 거리를 측정하는 지표입니다.
- 결과:
  - IRIS: 0.37
  - TD-MPC2: 1.21
  - DreamerV3: 1.04
  - DINO-WM: 0.26
- 해석: DINO-WM의 Chamfer distance 값이 0.26으로 가장 작아, 다른 모든 기준 모델들(IRIS, TD-MPC2, DreamerV3)보다 월등히 뛰어난 성능을 보여줍니다. 이는 사전 학습된 DINOv2 특징을 사용하는 것이 더 정확하고 효과적인 계획을 가능하게 함을 증명합니다.

그림 캡션 요약:

그림 1은 사전 학습된 DINOv2 임베딩을 사용하여 시각 모델을 학습하는 방법(a)인 DINO-WM을 제시합니다. 학습이 완료되면, 목표 관측 $o_T$(그림의 $o_g$)가 주어졌을 때, DINO-WM을 통한 계획을 사용하여 모델 예측 제어로 에이전트 행동을 직접 최적화할 수 있습니다(b). 사전 학습된 임베딩을 사용하면 이전의 최신 World Model들보다 성능이 크게 향상됩니다(c).

종합: 이 그림은 DINO-WM이 사전 학습된 고품질의 시각 특징을 활용하여, 복잡한 이미지 재구성 없이도 세상의 역학을 효과적으로 학습할 수 있으며, 이를 통해 새로운 목표에 도달하기 위한 정밀한 계획을 제로샷(zero-shot)으로 수행할 수 있음을 보여줍니다. 즉, 추가적인 보상 모델링이나 전문가 시연 없이도 목표 관측만 주어지면 스스로 행동을 계획하여 목표를 달성할 수 있다는 것을 시각적으로 명확하게 증명합니다.

DINO World Models

Overview and Problem formulation: 우리의 연구는 environment를 partially observable Markov decision process(POMDP)로 models하는 vision-based control task 프레임워크를 따릅니다. POMDP는 튜플 $(O, A, p)$로 정의되며, 여기서 $O$는 observation space를 나타내고, $A$는 action space를 나타냅니다. environment의 dynamics는 과거의 actions와 observations를 기반으로 future observations를 predicts하는 transition distribution $p(o_{t+1}|o_{\le t}, a_{\le t})$에 의해 modeled됩니다.

본 연구에서 우리는 precollected된 offline datasets로부터 task-agnostic world models를 learn하고, test time에 이러한 world models를 사용하여 visual reasoning 및 control을 수행하는 것을 목표로 합니다. 이전 연구들과 마찬가지로, test time에 우리 시스템은 임의의 environment state에서 시작하여 RGB image 형태의 goal observation을 제공받으며, goal state에 도달하기 위해 actions의 sequence $a_0, \dots, a_T$를 수행하도록 요구받습니다. 이러한 접근 방식은 당면한 고정된 tasks 세트에 대한 rewards를 optimize하는 것이 목표인 online reinforcement learning(RL)에 사용되는 world models나 text prompts를 통해 goals가 지정되는 text-conditioned world models와는 다릅니다.

3.1. DINO-based World Models (DINO-WM)

우리는 latent space에서 environment의 dynamics를 models합니다. 더 구체적으로, 각 time step $t$에서 우리의 world model은 다음 구성 요소로 이루어집니다:

Observation model: $z_t \sim \text{enc}_\theta(z_t|o_t)$

Transition model: $z_{t+1} \sim p_\theta(z_{t+1}|z_{t-H:t}, a_{t-H:t})$

Decoder model: $\hat{o}_t \sim q_\theta(o_t|z_t)$ (visualization을 위한 선택 사항)

여기서 observation model은 image observations를 latent states $z_t$로 encodes하고, transition model은 길이 $H$의 과거 latent states의 history를 입력으로 받습니다. decoder model은 latent $z_t$를 입력으로 받아 image observation $o_t$를 reconstructs합니다. 우리는 이러한 models의 parameters를 나타내기 위해 $\theta$를 사용합니다. decoder의 training objectives는 world model의 나머지 부분을 training하는 것과 독립적이기 때문에 우리의 decoder는 완전히 선택 사항이라는 점에 유의하십시오. 이는 training 및 testing 중에 images를 reconstruct할 필요성을 없애주며, 이전 연구들에서와 같이 observational model과 decoder의 training을 결합하는 것에 비해 computational costs를 줄여줍니다. 우리는 Appendix A.4.3에서 이 선택의 효과를 ablate하고 보여줍니다.

DINO-WM은 environment의 offline trajectory 데이터에서 사용할 수 있는 정보만을 models하며, 이는 rewards, discount factors 및 termination conditions와 같은 task-relevant 정보를 추가로 요구하는 최근의 online RL world models와는 대조적입니다.

3.1.1. OBSERVATION MODEL

많은 environments와 real world 전반에 걸쳐 generic world model을 learn하기 위해, 우리는 observation model이 1) task 및 environment에 독립적이어야 하고, 2) navigation 및 manipulation을 위한 풍부한 spatial 정보를 capture해야 한다고 주장합니다. observation model이 항상 당면한 task를 위해 learned되는 이전 연구들과는 달리, perception은 large-scale 인터넷 데이터의 이점을 얻는 일반적인 task이기 때문에 새로운 environment에 직면했을 때 처음부터 좋은 observation model을 learn하는 것은 비효율적일 수 있으며 종종 불가능할 수도 있다고 우리는 대신 주장합니다. 따라서 우리는 object detection, semantic segmentation 및 depth estimation과 같은 tasks에 대한 강력한 spatial understanding을 활용하여 pre-trained DINOv2 model을 우리 world model의 observation model로 사용합니다. observation model은 training 및 testing 중에 frozen 상태로 유지됩니다. 각 time step $t$에서, 이는 image $o_t$를 patch embeddings $z_t \in \mathbb{R}^{N \times E}$로 encodes하며, 여기서 $N$은 patches의 수를 나타내고 $E$는 embedding dimension을 나타냅니다. 이 과정은 Figure 2에 visually 표현되어 있습니다.

3.1.2. TRANSITION MODEL

우리는 patch features를 처리하는 데 적합하기 때문에 transition model을 위해 ViT architecture를 채택합니다. 이것은 patch embeddings에서 작동하므로 tokenization layer를 제거하여 사실상 decoder-only transformer로 변환합니다. 우리는 proprioception 및 controller actions에 대한 추가적인 conditioning을 허용하기 위해 architecture를 약간 수정합니다.

우리의 transition model은 과거 latent states의 history $z_{t-H:t-1}$와 actions $a_{t-H:t-1}$를 입력으로 받으며, 여기서 $H$는 model의 context length를 나타내는 hyperparameter이고, 다음 time step의 latent state $z_t$를 predicts합니다. time $t$의 world state가 이전 observations와 actions에만 의존해야 한다는 temporal dependencies를 적절하게 capture하기 위해, 우리는 ViT model에 causal attention mechanism을 구현하여 model이 frame 수준에서 latents를 autoregressively하게 predict할 수 있도록 합니다. 구체적으로, latent state $z_t$에 대한 각 patch vector $z_t^i$는 $\{z_{t-H:t-1}^i\}_{i=1}^N$에 attends합니다. 이것은 각 observation을 vectors의 sequence로 유사하게 represents하지만 token 수준에서 $z_t^i$를 autoregressively하게 predict하여 $\{z_{t-H:t-1}^i\}_{i=1}^N$뿐만 아니라 ${z_t^i}_{i=1}^{<k}$에도 attending하는 이전 연구 IRIS와는 다릅니다. 우리는 frame 수준에서 predicting하고 하나의 observation의 patch vectors를 전체로 취급하는 것이 global structure와 temporal dynamics를 더 잘 capture하여 고립된 tokens가 아닌 전체 observation에 걸친 dependencies를 modeling함으로써 향상된 temporal generalization으로 이어진다고 주장합니다. 이 attention mask의 효과는 Appendix A.4.2의 ablation 실험에서 보여졌습니다.

environment에 대한 agent의 action 효과를 model하기 위해, 우리는 이러한 actions에 world model의 predictions를 condition합니다. 구체적으로, 우리는 multi-layer perceptron(MLP)을 사용하여 원래 action representation에서 매핑된 $K$-dimensional action vector를 $i=1,\dots,N$에 대해 각 patch vector $z_t^i$에 concatenate합니다. proprioceptive 정보가 사용 가능한 경우, 우리는 observation latents에 이를 concatenate하여 유사하게 통합함으로써 이를 latent states에 통합합니다.

우리는 teacher forcing을 사용하여 world model을 train합니다. training 동안 우리는 trajectories를 길이 $H+1$의 segments로 분할하고, $H$개의 predicted frames 각각에 대해 latent consistency loss를 계산합니다. 각 frame에 대해 다음을 계산합니다:

$$L_{\text{pred}}=\|p_\theta(\text{enc}_\theta(o_{t-H:t}),\phi(a_{t-H:t}))-\text{enc}_\theta(o_{t+1})\|^2$$

여기서 $\phi$는 actions를 더 높은 dimensions로 매핑할 수 있는 action encoder model입니다. 우리의 world model training은 원래의 pixel images를 reconstruct할 필요 없이 전적으로 latent space에서 수행된다는 점에 유의하십시오.

3.1.3. DECODER FOR INTERPRETABILITY

visualization 및 interpretability를 돕기 위해, 우리는 이전 연구와 유사하게 patch representations를 image pixels로 다시 decode하기 위해 transposed convolution layers 스택을 사용합니다. pre-collected dataset이 주어지면, 우리는 다음과 같이 정의된 간단한 reconstruction loss를 사용하여 decoder $q_\theta$의 parameters $\theta$를 optimize합니다:

$$L_{\text{rec}}=\|q_\theta(z_t)-o_t\|^2, \quad \text{where } z_t=\text{enc}_\theta(o_t)$$

decoder의 training은 transition model training과 완전히 독립적이며 다음과 같은 여러 가지 장점을 제공합니다: 1) decoder는 downstream tasks를 해결하기 위한 world model의 reasoning 및 planning 기능에 영향을 미치지 않으며, 2) planning 중에 raw pixel images를 reconstruct할 필요가 없어 computational costs가 감소합니다. 그럼에도 불구하고, decoder는 world model의 predictions에 대한 interpretability를 향상시키기 때문에 여전히 가치가 있습니다. 이 decoder loss를 predictor로 backpropagating하는 것이 가능하지만, 우리는 이 선택을 ablate하여 decoder loss를 생략하는 것에 비해 performance에 부정적인 영향을 미친다는 것을 발견했습니다. 전체 세부 사항은 Appendix A.4.3에 제공됩니다.

3.2. Visual Planning with DINO-WM

world model의 품질을 평가하기 위해, 우리는 test time에 trajectory optimization을 수행하고 performance를 측정합니다. planning 방법 자체는 상당히 표준적이지만, world models의 품질을 강조하는 수단으로 작용합니다. 이를 위해 우리의 world model은 모두 RGB images로 표현되는 현재 observation $o_0$와 goal observation $o_g$를 받습니다. 우리는 planning을 agent가 $o_g$에 도달하기 위해 취할 actions의 sequence를 검색하는 과정으로 공식화합니다. 우리는 future actions의 결과를 고려하여 planning을 용이하게 하는 model predictive control(MPC)을 사용합니다.

우리는 각 iteration에서 actions의 sequence를 optimize하기 위해 cross-entropy method(CEM)를 활용합니다. planning cost는 현재 latent state와 goal의 latent state 사이의 mean squared error(MSE)로 정의되며, 다음과 같이 주어집니다:

$$C=\|\hat{z}_T-z_g\|^2, \quad \text{where } \hat{z}_t=p(\hat{z}_{t-1}, a_{t-1}), \hat{z}_0=\text{enc}(o_0), z_g=\text{enc}(o_g)$$

MPC 프레임워크 및 CEM optimization 절차는 Appendix A.5.1에 자세히 설명되어 있습니다. 우리의 world model은 differentiable하므로, 이 objective를 gradient descent(GD)를 통해 optimize하여 world model이 agent를 특정 goal로 직접 guide할 수 있도록 하는 것이 잠재적으로 더 효율적인 접근 방식일 수 있습니다. GD의 세부 사항은 Appendix A.5.2에 제공됩니다. 그러나 우리는 경험적으로 실험에서 CEM이 GD보다 outperforms한다는 것을 관찰했으며 전체 결과는 Appendix A.5.3에 있습니다. 우리는 training 중 및 planning objectives에 regularizations를 통합하면 performance를 더욱 향상시킬 수 있다고 가설을 세우고, 이를 future work로 남깁니다.

3. DINO World Models 정리 노트 (AI 연구자 타겟)

문제 정의 및 접근 (Problem Formulation)
- 목표: 임의의 환경에서 RGB image 형태의 goal observation만 주어지면, 추가 학습 없이 test time에 visual reasoning 및 control을 수행하는 task-agnostic offline world models 구축.
- 차별점: 특정 task의 reward를 최적화하는 online reinforcement learning 기반 모델이나, 텍스트에 의존하는 text-conditioned 모델과 달리, 오직 latent space 내에서의 시각적 목표 도달에만 집중함.
모델 아키텍처 핵심 (3.1 DINO-WM)
- 1. Observation Model (Frozen): $z_t \sim \text{enc}_\theta(z_t|o_t)$
  - 처음부터 시각을 학습하는 비효율성을 없애기 위해 인터넷 스케일로 pre-trained된 DINOv2를 채택.
  - 이미지를 $z_t \in \mathbb{R}^{N \times E}$ 형태의 patch embeddings로 변환하여, 공간적(spatial) 이해도를 극대화함. 학습 및 추론 시 가중치는 고정(frozen)됨.
- 2. Transition Model (Modified ViT): $z_{t+1} \sim p_\theta(z_{t+1}|z_{t-H:t}, a_{t-H:t})$
  - patch features 처리에 특화된 ViT architecture를 decoder-only transformer 형태로 수정하여 사용.
  - 핵심 혁신: 이전 연구(IRIS 등)가 토큰(token) 단위로 autoregressively하게 예측했던 것과 달리, DINO-WM은 frame level의 causal attention mechanism을 도입함. 즉, 하나의 observation을 구성하는 패치 전체를 하나의 덩어리로 보고 과거의 프레임들에만 attention을 수행하여 temporal generalization과 global structure 포착 능력을 대폭 향상시킴.
  - 행동(Action) 정보는 MLP를 거쳐 각 패치 벡터에 concatenate 됨.
  - 손실 함수: 픽셀 복원 없이 순수 잠재 공간 예측 오차인 $L_{\text{pred}}=\|p_\theta(\text{enc}_\theta(o_{t-H:t}),\phi(a_{t-H:t}))-\text{enc}_\theta(o_{t+1})\|^2$ 만으로 학습(Teacher forcing 적용).
- 3. Decoder Model (Optional): $\hat{o}_t \sim q_\theta(o_t|z_t)$
  - 연구자의 해석 가능성(interpretability)을 위한 시각화 용도로만 쓰이는 transposed convolution layers.
  - transition model과 완전히 독립적으로 $L_{\text{rec}}=\|q_\theta(z_t)-o_t\|^2$ 로 학습됨. 디코더의 loss를 역전파하는 것은 오히려 성능을 저하시키므로 분리하는 것이 핵심임.
전체 모델은 세 가지 주요 컴포넌트로 구성되며, 픽셀 단위의 복원이 아닌 순수 latent space에서 훈련됨.
Visual Planning 전략 (3.2)
- Test-time Optimization: model predictive control(MPC)을 활용하여 목표 상태($z_g$)에 도달하기 위한 최적의 행동 시퀀스를 탐색함.
- Cost Function: 현재 예측된 잠재 상태와 목표 잠재 상태 간의 mean squared error(MSE)인 $C=\|\hat{z}_T-z_g\|^2$ 를 비용으로 사용.
- Optimizer: 모델이 미분 가능함에도 불구하고 gradient descent(GD)보다 cross-entropy method(CEM)가 경험적으로 더 우수한 성능을 보여 채택함.

쉬운 설명 : DINO World Models의 작동 원리

이 섹션은 로봇의 '눈'과 '뇌'가 어떻게 구성되어 있고, 어떻게 미래를 계획하는지 설명합니다.

눈 (Observation Model) : "세상을 꿰뚫어 보는 DINOv2"
로봇이 새로운 방에 들어갈 때마다 사물이 뭔지 처음부터 배우게 하는 것은 바보 같은 일입니다. 그래서 연구진은 이미 세상의 수많은 이미지를 보고 자라서 사물의 위치와 형태를 기가 막히게 잘 아는 똑똑한 눈(DINOv2)을 로봇에게 이식했습니다. 이 눈은 이미지를 전체적으로 뭉뚱그려 보지 않고 바둑판처럼 잘게 쪼개어(패치) 각 위치의 핵심 정보만 쏙쏙 뽑아냅니다.
뇌 (Transition Model) : "픽셀 대신 개념으로 상상하기"
로봇이 '내가 컵을 밀면 어떻게 될까?'를 상상할 때, 기존 AI들은 컵의 픽셀(색상) 하나하나를 예쁘게 그리는 데 에너지를 낭비했습니다. 하지만 DINO-WM의 뇌는 픽셀을 그리지 않습니다. 그저 컵이라는 '개념(Latent)'이 다음 프레임에서 어디로 이동할지만 상상합니다. 특히, 장면을 점 찍듯이 하나하나 읽어내는 게 아니라 전체 장면을 한눈에 통째로 파악(Frame level)하기 때문에 물리적인 변화를 훨씬 자연스럽고 정확하게 예측합니다. 참고로 로봇의 상상을 우리가 눈으로 확인하기 위해 그림을 그려주는 화가(Decoder)가 있긴 하지만, 로봇이 스스로 계획을 짤 때는 이 화가의 도움 없이 뇌 속의 '개념'만으로 빠르게 연산합니다.
계획 (Visual Planning) : "머릿속 시뮬레이션으로 정답 찾기"
이제 로봇 앞에는 '현재 모습'과 달성해야 할 '목표 이미지'가 주어집니다. 로봇은 머릿속으로 수많은 행동을 시뮬레이션해 봅니다. '오른쪽으로 밀면 목표랑 비슷해지나? 왼쪽으로 밀면 비슷해지나?' 머릿속에서 시뮬레이션한 결과가 목표 이미지의 '개념'과 가장 완벽하게 일치하는 행동 순서를 골라냅니다. 이것이 바로 로봇이 한 번도 해보지 않은 미션을 척척 해낼 수 있는 비결입니다.

H개 프레임을 준비 다음 프레임 예측

t시점의 이미지 한장을 디노v3에 통과 -> z출력

같은 시점의 행동 임베딩을 얻음

이름 컨캣

이를 vit에 넣어서 미래프레임을 보는 것을 막기 위해 과거시점만 어텐션

그래서 다음 상태의 임베딩을 아웃풋으로 뱉어냄

다음 스텝 이미지를 인코딩햇을때랑 맞으면 그게 정답

loss로 때려서 업데이트

역전파 시킴

액션 인코더랑 예측모델만 업데이트하면됨.,

디코더 독립 학습? 이건 뭐 굳이 시각화 용도 정도

2.5/5점

세상의 판도를 뒤집을 만한 시초 논문이라기보단, 이미 잘 알려지고 검증된 재료들을 가져다 그럴싸하게 비벼낸 웰메이드 비빔밥

사전 학습된 비전 모델이 뽑아준 패치 특징 위에다가 흔하게 쓰이는 잠재 공간 추론(Latent Reasoning)과 예측 제어 방식을 그대로 얹은 뻔하디뻔한 방법론

'논문리뷰' 카테고리의 다른 글

world model : 논문 리뷰 : Mastering Diverse Domains through World Models (0)	2026.03.19
VLM : 논문 리뷰 : Demystifying Video Reasoning (0)	2026.03.19
VLM : 논문 리뷰 : Can Vision-Language Models Solve the Shell Game? (0)	2026.03.18
World Model : 빠른 논문 리뷰 : Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model (1)	2026.03.16
Planning : 빠른 논문 리뷰 : Temporal Straightening for Latent Planning (0)	2026.03.16

'논문리뷰' Related Articles

AI바라기의 인공지능

world model : 논문 리뷰 : DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning 본문

world model : 논문 리뷰 : DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

용어 설명

Purpose of the Paper

Key Contributions & Novelty

Experimental Highlights

Limitations and Future Work

Overall Summary

쉬운 설명

Introduction 요약 노트 (AI 연구자용)

쉬운 설명 : DINO-WM의 핵심

Related Work 정리 노트 (AI 연구자용)

쉬운 설명 : 기존 연구들과 무엇이 다른가요?

Related Work 정리 노트 (AI 연구자 타겟)

쉬운 설명 : 기존 연구들과 무엇이 다른가요?

이미지 설명: DINO-WM: Pre-trained Visual Features 기반 World Models로 Zero-shot Planning 구현

(a) DINO-WM 학습 (Training DINO-WM)

(b) 테스트 시 추론 (Test-time Inference)

(c) 계획 성능 (Planning Performance)

3. DINO World Models 정리 노트 (AI 연구자 타겟)

쉬운 설명 : DINO World Models의 작동 원리

'논문리뷰' 카테고리의 다른 글

티스토리툴바