AI바라기의 인공지능

World Model : 빠른 논문 리뷰 : Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model 본문

논문리뷰

World Model : 빠른 논문 리뷰 : Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

AI바라기 2026. 3. 16. 12:49

용어 설명

  • World model: Agent가 행동하기 전 미래 상태를 내부적으로 시뮬레이션하여 의사결정 및 planning을 돕는 신경망 모델.
  • Decision-time planning: Test-time에 학습된 world model을 사용하여 목표 상태에 도달하기 위한 최적의 action sequence를 탐색하는 과정 (예: MPC 적용).
  • CompACT: 이 논문에서 제안한 핵심 모델인 초압축 이산형 토크나이저 (Compact Discrete Tokenizer). 이미지를 단 8개 또는 16개의 토큰으로 압축함.
  • Latent Resampler: Frozen pre-trained vision model (DINOv3)의 특징으로부터 의미론적(semantic) 정보만 추출하여 소수의 토큰으로 압축 매핑하는 모듈.
  • Generative decoding: 소수의 토큰에서 픽셀을 직접 복원하는 대신, 압축된 토큰을 조건(condition)으로 삼아 픽셀 수준의 디테일을 가진 target tokenizer의 토큰을 생성(conditional generation)하는 디코딩 방식.
  • Target tokenizer: Generative decoding의 목표가 되는, 고해상도 시각적 디테일을 보존하는 기존의 무거운 tokenizer (이 논문에서는 MaskGIT의 VQGAN을 사용).
  • Finite Scalar Quantization (FSQ): Latent vector를 이산적인 코드로 변환하는 양자화 기법. 이산 공간의 기하학적 구조를 보존하여, 디코딩 없이 latent space 상에서 직접 거리를 계산할 수 있게 함.

Purpose of the Paper

  • 기존 연구의 한계: 최근 world model들은 photorealistic generation을 위해 이미지당 수백 개의 토큰(예: 784개)을 사용하여 상태를 표현함. 이로 인해 attention 연산 비용이 기하급수적으로 증가하여, real-time control이 필수적인 decision-time planning 환경에서는 계산량이 너무 많아 실용성이 떨어짐.
  • 새로운 접근 방식 제시: "완벽한 시각적 복원보다 극단적인 압축을 우선시하면 어떨까?"라는 가설에서 출발함. Planning에 불필요한 고주파 디테일(질감, 조명 등)은 과감히 버리고, 의사결정에 필수적인 high-level semantic 정보(객체 위치, 공간 관계)만 남기는 8~16 토큰 수준의 극단적 압축을 통해 초고속 planning을 수행하고자 함.

Key Contributions

  • CompACT Tokenizer 구조 설계
    • Novelty: 기존 tokenizer들이 pixel reconstruction 오류를 줄이기 위해 end-to-end 학습을 했던 것과 달리, **frozen pre-trained vision encoder (DINOv3)**를 활용함. 네트워크가 reconstruction에 집착하지 않고 planning-critical semantic 정보만 선택적으로 추출하도록 강제하는 참신한 구조임.
  • Generative Decoding 방식 도입
    • Novelty: 8개의 토큰에서 픽셀로 직접 복원하는 것은 불가능한 문제(ill-posed problem)임. 이를 해결하기 위해 압축된 토큰을 high-level 가이드로만 사용하고, 세부 디테일은 수백 개의 토큰을 다루는 target tokenizer를 통해 생성(masked generative modeling)하는 방식을 도입함. Intractable한 디코딩 문제를 tractable한 conditional generation 문제로 전환한 독창적인 접근임.
  • World Model의 초고속 Planning 실현
    • Novelty: 토큰 수를 획기적으로 줄여 autoregressive rollout 속도를 높였을 뿐만 아니라, FSQ를 활용해 discrete latent space 상에서 직접 cost를 계산함. 이를 통해 무거운 pixel-level 디코딩 과정을 생략하여 planning 단계의 연산량을 극단적으로 최적화함.

Experimental Highlights

  • Goal-conditioned Visual Navigation (RECON dataset): 784개의 토큰을 사용하는 SD-VAE 기반 state-of-the-art 모델(NWM)과 비교했을 때, CompACT (8 토큰 및 16 토큰)는 **동등한 planning accuracy (ATE, RPE)**를 유지하면서 약 40배 빠른 planning latency (178.78초 -> 4.83초)를 달성함.
  • Action-conditioned Video Prediction (RoboNet dataset): 256개의 토큰을 사용하는 target tokenizer 베이스라인과 비교하여, 16 토큰만을 사용하고도 Action Prediction Error (APE)를 3배 감소시킴과 동시에 비디오 생성 속도를 5.2배 향상시킴.
  • Modular Latent 특성 증명: Attention 시각화 실험 결과, CompACT의 토큰들은 명시적인 지도 학습 없이도 로봇의 end-effector나 조작 대상과 같은 의미론적이고 동적인 객체 단위(object-level elements)에 스스로 할당됨을 확인함.

Limitations and Future Work

  • Limitations
    • Generative decoding 방식은 디테일을 생성하는 과정을 거치기 때문에, 기존의 단일 단계(single-step) feedforward 디코더보다 상대적으로 느림 (단, latent space planning을 통해 실질적인 속도 저하는 상쇄됨).
    • ImageNet과 같이 pre-trained된 데이터와 시각적 도메인 차이가 큰 환경(예: RoboNet 로봇 조작 환경)에서는 frozen encoder를 그대로 쓰기 어려워 추가적인 fine-tuning이 요구됨.
  • Future Work
    • 현재의 기본적인 setup을 확장하여, real-time observation과 proprioception(로봇의 자체 감각 데이터)을 Inverse Dynamics Model (IDM)에 통합하는 연구를 제안함. 이는 극도로 압축된 world model이 실제 로봇의 closed-loop manipulation 제어에 완벽히 통합되어 성능을 한 단계 더 끌어올릴 수 있는 잠재력을 가짐.

Overall Summary
이 논문은 world model의 가장 큰 병목인 수백 개의 토큰 연산 비용 문제를 해결하기 위해, 이미지를 단 8~16개의 토큰으로 극단적으로 압축하는 CompACT를 제안했습니다. Frozen vision foundation model을 활용해 planning에 필수적인 구조적/의미론적 정보만 남기고, 시각적 디테일은 generative decoding으로 복원하는 참신한 이원화 파이프라인을 구축했습니다. 결과적으로 기존 모델과 대등한 정확도를 내면서도 planning 속도를 40배 이상 가속화하였으며, 이는 무거운 연산량 때문에 제약이 많았던 world model을 real-time responsiveness가 요구되는 실제 제어 환경(robotics, autonomous navigation)에 배포할 수 있는 매우 중요한 실용적 도약을 이뤄낸 연구입니다.


쉬운 설명
이 논문은 로봇이나 자율주행 AI가 미래를 계획할 때, 주변 풍경의 나뭇잎 질감이나 조명 그림자까지 사진처럼 완벽하게 기억(수백 개의 토큰)하게 만드는 대신, "저기 컵이 있고, 이쪽에 벽이 있다"는 식의 핵심적인 개념도(Mental map) 단 8개만을 기억하게 만드는 방법입니다.

사람도 운전할 때 모든 풍경 픽셀을 외우지 않고 중요한 장애물과 차선만 신경 쓰는 것과 같은 이치입니다. 이렇게 기억할 정보량을 극단적으로 줄였더니, AI가 뇌 속에서 미래를 시뮬레이션하고 최적의 행동을 계획(planning)하는 속도가 무려 40배나 빨라졌습니다. 사람이 화면으로 결과를 확인해야 할 때만 생성 AI 기술을 써서 뼈대 위에 살을 붙이듯 디테일을 "그럴듯하게" 덧칠해 보여주는 아주 효율적인 시스템입니다.

 

 

Abstract

World models는 actions 또는 instructions에 conditioned된 environment dynamics를 simulating하기 위한 강력한 framework를 제공하며, 이를 통해 action planning이나 policy learning과 같은 downstream tasks를 가능하게 합니다. 최근의 approaches는 world models를 learned simulators로 활용하지만, 이를 decision-time planning에 적용하는 것은 real-time control을 진행하기에 여전히 계산적으로 감당하기 어렵습니다.

주요 bottleneck은 latent representations에 존재합니다. conventional tokenizers는 각각의 observation을 수백 개의 tokens로 encode하기 때문에 planning을 느려지게 하고 resource-intensive하게 만듭니다.

이를 해결하기 위해, 우리는 각 observation을 최소 8개의 tokens로 compresses하는 discrete tokenizer인 CompACT를 제안하며, 이는 planning에 필요한 essential information을 보존하면서 computational cost를 획기적으로 감소시킵니다. CompACT tokenizer를 활용하는 action-conditioned world model은 자릿수가 다를 정도로 비약적으로 빠른 planning 속도로 경쟁력 있는 planning performance를 달성하며, world models의 real-world deployment를 향한 실용적인 단계를 제공합니다.

 

 

Introduction

더보기

인간은 주변 환경에 대한 픽셀 단위로 완벽한 기억을 통해 세상을 탐색하는 것이 아니라, decision-making에 필요한 정보만을 캡처하는 콤팩트한 mental representations를 통해 세상을 탐색합니다. 현실에 대한 부정확하지만 효율적인 abstraction인 이 internal model은 감각 입력의 복잡성을 action 및 planning에 최적화된 representation으로 줄여줍니다. artificial intelligence 및 reinforcement learning (RL)의 맥락에서 이 개념은 planning 및 policy learning을 가능하게 하기 위해 environment dynamics를 캡처하는 neural network인 world model로 나타납니다.

World models는 RL의 sample inefficiency에 대한 유망한 해결책으로 부상했습니다. 전통적인 model-free RL methods는 효과적인 policies를 학습하기 위해 환경과의 수백만 번의 상호 작용을 필요로 하므로, 데이터 수집 비용이 많이 들거나 위험한 실제 환경 적용에는 비실용적입니다. future states를 예측하도록 학습함으로써, world models는 agents가 내부적으로 경험을 시뮬레이션할 수 있게 하여 실제 환경과의 상호 작용 필요성을 줄여줍니다. 게다가, 이러한 models 자체는 model-predictive control (MPC)을 통해 policy에 대한 추가적인 학습 없이도 planning에 사용될 수 있습니다.

최근 world modeling의 발전은 generative models, 특히 image and video generation의 눈부신 발전에 의해 주도되었습니다. 이러한 models는 language instructions 또는 actions에 conditioned된 실사 이미지나 비디오를 생성할 수 있으며, 이는 세상의 근본적인 dynamics에 대한 implicit understanding을 시사합니다.

그러나 이러한 generative approaches와 이를 planning에 적용하는 것 사이에는 치명적인 격차가 존재합니다. 이러한 models는 실사 image generation을 위해 설계되었기 때문에 텍스처, 조명, 그림자와 같은 광범위한 perceptual detail을 캡처해야 합니다. 이로 인해 단일 이미지를 수백 개의 latent tokens로 encoding해야 하며, 이는 computational cost를 급격히 증가시킵니다. 문헌에 있는 대부분의 world models가 attention-based architectures를 채택하기 때문에, 이러한 부담은 기하급수적으로 증가하여 planning을 특히 값비싸게 만듭니다. 결과적으로 현재의 world models는 여전히 실제 제어에는 비실용적입니다. 예를 들어, state-of-the-art인 navigation world models (NWM)는 planning을 위해 에피소드당 최대 3분의 계산이 필요하므로 실시간 반응성을 요구하는 응용 분야에는 부적합합니다.

이는 우리가 대안적인 design philosophy를 탐구하도록 동기를 부여합니다. 완벽한 reconstruction보다 극단적인 압축을 우선시한다면 어떨까요? 더 높은 fidelity representations를 위해 token 수를 늘리는 전통적인 방식을 추구하기보다, 우리는 공격적인 압축이 실제로 유익할 수 있다는 가설을 세웠습니다. 즉, world model이 모든 perceptual detail을 보존하기보다는 더 abstract하고 action-relevant representations를 학습하도록 강제하는 것입니다. 이 가설을 테스트하기 위해 우리는 압축을 극단적인 한계까지 밀어붙이고 이러한 급격한 감소가 여전히 효과적인 planning을 지원할 수 있는지 조사합니다.

우리는 각 이미지를 최소 8개의 tokens(각각 16비트인 8개의 tokens, 이미지당 약 128비트)로 encodes하는 compact tokenizer인 CompACT를 제안합니다. 이는 기존 approaches와 비교할 때 극단적인 압축률을 나타냅니다. 예를 들어, NWM에 사용된 SD-VAE tokenizer는 동일한 이미지를 나타내는 데 784개의 tokens를 필요로 합니다. token count의 감소 외에도, 우리의 tokenizer는 discrete latent space를 채택하여 훨씬 더 빠른 future-state prediction을 가능하게 한다는 점에서 더욱 돋보입니다. 즉, continuous latent space를 활용하는 diffusion models에서 일반적으로 요구되는 수백 번의 iterative denoising steps를 거쳐 처리되는 대신, 각 token은 단 한 번만 unmasked됩니다. 이 콤팩트한 latent space에서 world models를 training함으로써, 우리는 rollout latency에서 자릿수가 다를 정도의 비약적인 감소를 달성할 수 있습니다.

각 이미지를 단 128비트로 압축하는 것은 줄일 수 없는 정보 bottleneck을 생성합니다. 여기서 문제는 정보를 잃을 것인지 여부가 아니라 어떤 정보를 보존할 것인지입니다. Planning은 텍스처나 조명 같은 high-frequency perceptual details보다는 high-level semantics 및 spatial relationships와 같은 low-frequency features를 필요로 합니다. 우리의 approach는 이 두 가지 측면을 분리합니다. 오직 planning에 중요한 semantics만이 compact tokens에 보존되는 반면, decoding 중에 pixel-level outputs가 필요할 때 perceptual details가 합성됩니다.

이러한 semantic 정보의 선택적 보존을 가능하게 하는 핵심적인 설계 선택은 우리의 tokenizer의 기반으로 frozen pretrained vision encoder를 사용한 것입니다. 기존의 tokenizers는 reconstruction을 위해 encoders를 end-to-end로 train하여 perceptual fidelity를 우선시합니다. 이와 대조적으로, 우리는 vision foundation models에 의해 이미 캡처된 풍부한 semantic representations를 활용합니다. 우리의 compact latent tokens는 cross-attention-based resampling module을 통해 이러한 frozen representations에 attend하는 learnable queries 역할을 합니다. 결정적으로, vision foundation models는 이미 low-level reconstruction details를 abstract하고 대신 semantic understanding에 집중하기 때문에, 우리의 resampling 과정은 planning에 필수적인 semantic 정보만을 distill할 수 있습니다. 이 설계는 본질적으로 tokenizer가 실사 세부 묘사보다 object-level semantics와 spatial relationships를 보존하도록 보장합니다.

이러한 semantic encoding 전략을 보완하는 우리의 두 번째 핵심 기여는 generative decoding approach입니다. 16개 또는 8개의 tokens에서 직접적인 pixel reconstruction을 시도하는 대신, 우리의 decoder는 우리의 compact tokens를 conditioning으로 사용하여 이미지당 수백 개의 tokens를 사용하는 pretrained target tokenizer(구체적으로는 MaskGIT의 VQGAN tokenizer)로부터 perceptual details를 캡처하는 latent representation을 unmask하도록 학습합니다. 우리의 compact latent tokens는 high-level semantic features만을 캡처하지만, generative decoding 과정은 이러한 semantics와 일치하는 세밀한 세부 사항을 합성합니다. 이러한 공식화는 다루기 힘든 압축 해제 문제를 다루기 쉬운 conditional generation task로 변환합니다.

제안된 approach의 효과를 검증하기 위해, 우리는 navigation 및 robot manipulation tasks 모두에 대해 CompACT의 latent space에서 action-conditioned world models를 train합니다. 이러한 action-conditioned world models는 MPC를 통해 general-purpose planners로 기능할 수 있다는 독보적인 강점을 가지고 있지만, rollouts에 요구되는 엄청난 계산 부담이 병목 현상으로 남아 있었습니다. RECON에서의 navigation planning에서, CompACT로 trained된 action-conditioned world model은 784개의 continuous tokens를 사용하는 모델과 필적하는 정확도를 달성하면서 planning latency에서 약 $40\times$의 속도 향상을 제공합니다. 더욱이, 우리의 8-token model은 64개의 tokens를 가진 이전의 tokenizer를 능가하여, 신중하게 설계된 extreme compression이 계산 효율성과 우수한 planning performance를 모두 산출할 수 있음을 검증합니다.

CompACT가 학습한 compact latent tokens의 효능을 추가로 검증하기 위해, 우리는 RoboNet에서 action-conditioned video prediction experiments를 수행합니다. RoboNet에서 CompACT latent tokens는 $16\times$ 더 많은 tokens를 사용하는 이전 tokenizers에 필적하는 정확한 action regression을 가능하게 하고, 생성된 비디오에서 강력한 action consistency를 유지하여, 학습된 representations가 정확한 planning에 필수적인 action-relevant information을 보존함을 확인해줍니다.

 

 

📝 논문 핵심 정리 노트 (Introduction)

  • Problem Statement (문제 제기)
    • 최근 generative models 기반의 world models는 훌륭한 시뮬레이션 성능을 보이나, decision-time planning에 적용하기에는 computational cost가 너무 높음. (예: NWM은 에피소드당 planning에 3분 소요)
    • 가장 큰 원인은 기존 tokenizers가 완벽한 pixel-level reconstruction을 위해 텍스처, 조명 등 high-frequency perceptual details까지 모두 캡처하느라 단일 이미지를 수백 개의 latent tokens로 encoding하기 때문임.
  • Key Idea (핵심 아이디어)
    • 높은 fidelity를 위해 token 수를 늘리는 기존의 방식을 탈피하고, Extreme compression(극단적 압축)을 우선시함.
    • 이를 통해 world model이 불필요한 perceptual detail을 버리고, planning에 필수적인 abstract하고 action-relevant representations만 학습하도록 강제함.
  • Main Contributions (주요 기여)
    1. Extreme Compression을 위한 CompACT Tokenizer 제안
      • 단일 이미지를 단 8개의 discrete tokens(약 128비트)로 압축. (기존 SD-VAE는 784개 사용)
      • Continuous latent space를 사용하는 diffusion models의 수백 번의 denoising steps 대신, discrete latent space를 채택하여 한 번의 unmasking으로 future-state prediction을 수행해 속도를 획기적으로 개선.
    2. Semantic Encoding (Frozen Vision Encoder 활용)
      • Pixel reconstruction을 위한 end-to-end 학습을 포기하고, frozen pretrained vision encoder가 가진 풍부한 semantic representations를 활용.
      • Compact latent tokens가 learnable queries로 작동하며, cross-attention-based resampling module을 통해 vision model에 attend하여 planning-critical semantics(low-frequency features)만 추출함.
    3. Generative Decoding을 통한 Pixel Synthesis
      • 8개의 tokens로 픽셀을 직접 복원하는 대신, conditional generation task로 문제를 재정의.
      • Decoder는 compact tokens를 conditioning으로 사용하여, pretrained target tokenizer(MaskGIT의 VQGAN)의 latent representation을 unmask하는 방식으로 세밀한 픽셀 디테일을 합성함.
  • Experimental Results (실험 결과)
    • Navigation (RECON): 784개의 continuous tokens를 사용하는 모델과 유사한 정확도를 유지하면서 planning latency에서 40배의 속도 향상 달성. 기존 64개의 tokens를 사용하는 모델의 성능도 상회함.
    • Manipulation (RoboNet): 16배 더 많은 tokens를 사용하는 이전 tokenizers에 필적하는 action regression 성능을 보이며, 비디오 생성 시 높은 action consistency를 유지함.

💡 쉬운 설명 :

이 논문은 AI가 머릿속으로 시뮬레이션을 돌려보고 다음 행동을 결정하는 'world models'를 실생활 로봇 등에 쓸 수 있도록 엄청나게 가볍고 빠르게 만드는 방법을 제안했습니다.

운전을 할 때 우리는 길의 방향이나 장애물의 위치(핵심 정보)만 파악하면 되지, 아스팔트 바닥의 미세한 질감이나 옆 건물의 그림자 모양(시각적 디테일)까지 전부 기억해서 판단을 내리지 않습니다. 하지만 기존의 AI 모델들은 이 모든 시각적 디테일을 사진처럼 완벽하게 기억하려고 수백 개의 조각(token)을 사용하다 보니, 정작 계획을 세우는 데 시간이 너무 오래 걸렸습니다.

그래서 연구진은 CompACT라는 기술을 만들어, AI가 기억해야 할 이미지 조각을 단 8개로 확 줄여버렸습니다. 그림자나 질감 같은 쓸데없는 정보는 버리고 "앞에 벽이 있다", "물건이 왼쪽에 있다" 같은 행동 결정에 꼭 필요한 핵심 의미만 꽉꽉 눌러 담은 것입니다. 나중에 원래 이미지를 눈으로 확인하고 싶을 때만, 이 8개의 핵심 힌트를 바탕으로 다른 AI 모델을 시켜 디테일을 그럴싸하게 덧그리도록 만들었습니다.

결과적으로 시각적 정보의 용량을 극단적으로 압축한 덕분에, AI가 다음 행동을 계획하는 속도가 무려 40배나 빨라졌고 성능도 기존의 무거운 모델들에 뒤처지지 않았다는 것이 이 서론의 핵심입니다.

 

 

 

2. Related Work

더보기

2.1. Image tokenization

Image tokenization은 high-dimensional space에서 distributions를 직접 modeling하는 어려움을 완화함으로써 visual generation에서 중요한 역할을 해왔습니다. 기존의 image tokenization approaches는 2D patch-grid latent representations에 의존하는데, 이는 input resolution에 따라 tokens의 수를 고정시키고 추가적인 token 압축을 방지합니다. 이를 극복하기 위해 최근 연구들은 spatial structure를 명시적으로 보존하지 않는 1D tokenization을 탐구해왔습니다. 구체적으로, FlexTok은 유연한 token 길이(1–256)를 허용하며, 나중의 tokens가 점진적으로 더 세밀한 details를 캡처합니다. 그러나 이러한 tokenizers는 photorealistic generation을 위해 설계되었으며, decision making 및 planning과는 무관한 것으로 간주되는 high-frequency details와 high-fidelity reconstruction을 우선시합니다.

pretrained vision foundation models를 encoders로 활용하는 최근 tokenizers는 제안된 approach와 architectural 유사성을 공유합니다. 그러나 foundation model features의 사용은 CompACT에서와 같이 extreme compression을 달성하기보다는 downstream generative modeling의 다루기 쉬운 정도를 개선하려는 동기에서 비롯됩니다.

여러 최근 world models는 discrete latent representations의 사용을 통해 제안된 approach와 관련이 있습니다. 우리의 연구와 가장 관련된 연구들은 이전 frames에 conditioning함으로써 프레임당 token count를 줄이지만, 이는 long-horizon planning이나 상당한 viewpoint 변화가 있는 시나리오로의 적용 가능성을 제한합니다. 대신 CompACT는 planning에 필수적인 정보만을 유지하도록 학습함으로써 조건 없이 compact tokenization을 달성합니다.

2.2. Masked generative model

Masked image generative models는 generation 과정에서 masked tokens를 reconstruct하기 위해 bidirectional attention mechanisms를 활용합니다. tokens를 하나씩 예측하는 전통적인 autoregressive models와 달리, 이러한 architectures는 단일 단계 내에서 여러 tokens를 sample할 수 있으므로 전체 image generation에 필요한 단계 수를 줄입니다. 특히 MaskGIT 및 MAR은 이러한 설계가 빠르고 고품질의 image synthesis를 모두 가능하게 함을 입증했습니다. 본 연구에서는 tokenization 단계에 초점을 맞추고 token sequences를 generating하기 위해 MaskGIT에서 널리 사용되는 non-autoregressive sampling approach를 채택합니다.

2.3. Planning via World Models

World models는 environmental dynamics를 encode하는 internal representations 역할을 하여, agents가 행동하기 전에 future states를 마음속으로 simulate할 수 있게 해줍니다. 이러한 models는 current states와 actions로부터 future observations를 예측함으로써 robotics, autonomous driving, gaming, 그리고 navigation을 포함한 다양한 domains 전반에 걸쳐 planning을 용이하게 합니다.

기존 approaches는 그들의 planning mechanisms에 따라 크게 두 가지 패러다임으로 분류될 수 있습니다. 한 부류의 approaches는 test-time optimization을 통해 world models를 사용한 decision-time planning을 채택하며, 여기서 TDMPC2, DINO-WM, NWM과 같은 methods는 action-conditioned world model을 사용하여 지정된 goals를 향해 action sequences를 반복적으로 개선합니다. 다른 부류의 approaches는 subgoal generation을 통한 hierarchical planning을 채택하는데, 여기서는 current observations를 goals와 연결하기 위해 sparse intermediate visual states가 먼저 생성된 다음, 실행 가능한 actions를 추출하기 위해 Inverse Dynamics Models가 뒤따릅니다. UniPi는 textual goals에 의해 가이드되는 conditional video generation을 통해 이러한 전략의 예를 보여주며, AVDC는 action estimation을 위해 optical flow와 함께 language-conditioned prediction을 사용합니다.

이러한 기존 approaches는 real-time 환경에서, 특히 diffusion-based video generation models와 같은 큰 models에서 상당한 계산적 어려움에 직면합니다. 본 연구에서 우리는 극도로 compact한 latent space 내에 world model을 구축하여 더 효율적인 planning 및 control을 가능하게 하는 것을 목표로 합니다. 우리의 approach의 일반성을 검증하기 위해, 우리는 이를 두 패러다임 모두에 걸쳐 평가합니다. 즉, world models를 사용한 decision-time planning에 해당하는 goal-conditioned visual navigation과 subgoal generation을 통한 hierarchical planning에 해당하는 action-conditioned video prediction에서 평가합니다.

 

 

더보기

📝 논문 핵심 정리 노트 (Figure 1. Overview)

  • Phase 1: Tokenizer 학습 (a)
    • Input image를 극도로 압축된 compact latent tokens $z$로 변환하는 Encoder와, 이를 다시 이미지로 복원(recon)하는 Decoder로 구성된 Tokenizer를 학습함.
  • Phase 2: World Model 학습 (b)
    • 앞서 학습된 모델의 구조를 활용함.
    • 현재 시점의 observation을 인코딩한 후 일부를 masked 처리함. 이후 이전 상태 $z_{t-1}$와 행동 $a_{t-1}$을 조건으로 주어 unmasked 상태를 예측하도록 하는 masked generative modeling 방식으로 latent world model $f_\phi$를 학습함.
  • Phase 3: Test-time에서의 Planning (c)
    • 학습된 모델들을 연결하여 목표 달성을 위한 decision-time planning을 수행함.
    • 현재의 input image를 $z_0$로 인코딩한 후, 일련의 예측된 행동 시퀀스 $a_{0:H-1}$를 world model $f_\phi$에 반복적으로 통과시켜 미래의 latent state $z_H$를 순차적으로 예측함.
    • 최종 예측된 상태를 Decoder로 풀어낸 final prediction 이미지와 목표인 goal image 간의 distance $d(\cdot,\cdot)$를 비교함.
    • 이 distance를 최소화하는 방향으로 최적의 행동 시퀀스를 찾기 위해 optimization procedure를 수행하여 행동을 지속적으로 업데이트(Optimized)함.

💡 쉬운 설명 :

이 그림은 논문에서 제안하는 AI 모델이 1) 세상의 핵심을 요약하는 법을 배우고, 2) 그 요약본으로 미래를 상상하는 법을 배우며, 3) 배운 것을 토대로 목표에 도달하기 위한 최적의 계획을 짜는 과정을 3단계로 보여줍니다.

  • (a) 요약본 만들기 연습: 카메라에 찍힌 복잡한 풍경 사진을 아주 작고 핵심만 남은 조각들($z$)로 압축했다가, 다시 원래 사진과 비슷하게 복원하는 연습을 합니다. 이 과정을 통해 AI는 픽셀 낭비 없이 세상의 핵심만 짚어내는 눈(Encoder)을 가지게 됩니다.
  • (b) 머릿속으로 시뮬레이션 돌리기: 이제 복잡한 사진을 직접 보지 않고 압축된 조각들만 봅니다. 조각 중 일부를 가려놓고(masked), "내가 아까 이런 상태에서 이런 행동을 했으니까, 가려진 미래의 모습은 아마 이럴 거야!"라고 맞추는 연습(unmasked)을 합니다. 이것이 바로 세상의 변화 법칙을 배우는 과정입니다.
  • (c) 목표를 향한 최적의 행동 계획 짜기: 실제로 적용할 때의 모습입니다. 현재 내 위치(input image)에서 출발해서 "앞으로 이렇게 움직이면" 최종적으로 어떤 모습일지 AI가 머릿속으로 미래를 상상해 봅니다(final prediction). 그리고 내가 가고 싶은 진짜 목적지(goal image)와 비교해 봅니다. 만약 상상한 미래와 목적지가 다르면, 목적지에 딱 도착할 수 있을 때까지 내 행동 계획들을 계속해서 수정(Optimized)해 나가는 과정입니다.

 

 

📝 논문 핵심 정리 노트 (Related Work)

  • Image Tokenization의 한계와 CompACT의 차별점
    • 목적의 차이: FlexTok 등 기존의 1D/2D tokenization은 photorealistic generation을 목적으로 high-frequency details를 우선시하므로, planning에는 부적합함.
    • Vision Foundation Model 활용 방식: 기존 연구들은 downstream generative modeling의 학습 안정성(tractability) 향상을 위해 pretrained vision encoder를 활용하지만, 본 논문은 오직 extreme compression을 달성하기 위해 활용함.
    • 압축 방식의 차이: 기존 world models는 프레임당 token 수를 줄이기 위해 이전 프레임에 의존(conditioning)하는 방식을 사용하여 long-horizon planning에 취약함. 반면 CompACT는 planning-critical 정보만 학습하도록 하여 무조건적(unconditional)인 콤팩트화를 달성함.
  • Masked Generative Model 채택 이유
    • 빠른 생성 속도 확보: 토큰을 하나씩 예측하는 전통적인 autoregressive 모델 대신, 단일 스텝에서 여러 토큰을 병렬로 샘플링할 수 있는 MaskGIT의 non-autoregressive sampling approach를 채택함. 이를 통해 압축된 토큰 시퀀스의 생성 속도와 퀄리티를 동시에 충족시킴.
  • Planning via World Models 적용 및 검증 전략
    • 기존의 한계: 기존 planning 방식들은 크게 decision-time planning과 hierarchical planning으로 나뉘나, 두 진영 모두 diffusion 등 무거운 생성 모델을 사용하여 실시간 계산(real-time)에 심각한 병목을 겪고 있음.
    • 범용성 증명(Generality Validation): CompACT는 극도로 압축된 latent space로 이 병목을 해결함. 특히 이 접근법이 특정 방식에만 국한되지 않음을 증명하기 위해, 1) Goal-conditioned visual navigation (decision-time planning 검증)과 2) Action-conditioned video prediction (hierarchical planning 검증)의 가지 패러다임 모두에서 평가를 진행함.

💡 쉬운 설명 :

이 섹션은 "다른 똑똑한 사람들이 만든 기술들과 우리 기술이 어떻게 다른가?"를 설명하는 부분입니다.

  1. 이미지 압축 방식 (Tokenization): 다른 연구들도 이미지를 조각내어 처리하지만, 대부분 '최대한 예쁘고 원본과 똑같이' 만드는 데 집중합니다. 또 어떤 AI는 데이터 용량을 줄이려고 '방금 전 장면'을 힌트로 써먹는데, 이러면 미래를 길게 예측할 때 엉뚱한 상상을 하게 됩니다. 반면 우리는 과거에 의존하지 않고 오직 '계획을 짜는 데 필요한 핵심 의미'만 남기는 방식으로 조건 없이 데이터를 확 줄였습니다.
  2. 이미지 생성 방식 (Generative Model): 1차원적인 AI는 퍼즐을 맞출 때 한 조각씩 순서대로 맞추느라 속도가 느립니다. 그래서 우리는 한 번에 여러 조각을 팍팍 맞춰버리는 빠르고 성능 좋은 조립 방식(MaskGIT)을 가져다 썼습니다.
  3. AI의 계획 짜기 (Planning): AI가 행동을 계획하는 방식은 크게 '목표 지점까지의 경로를 실시간으로 수정하며 가는 방식'과 '중간 목표 지점들을 징검다리처럼 미리 찍어두고 움직이는 방식'으로 나뉩니다. 기존 AI들은 머리가 너무 무거워서 두 방식 모두 실시간 적용이 불가능했습니다. 우리 모델은 데이터를 극단적으로 압축해서 머리를 가볍게 만들었고, 이 두 가지 계획 짜기 방식 모두에서 아주 빠르고 정확하게 작동한다는 것을 실험으로 증명했습니다.

 

3. Method

더보기

3.1. Latent generative model as world model

이 섹션에서는 먼저 world model이 어떻게 latent generative model로 공식화될 수 있는지 설명합니다. 전체적인 공식화는 Fig. 1에 묘사되어 있습니다. 우리는 current state와 action이 주어졌을 때 future observations를 예측하는 것이 목표인 표준 world model 설정을 고려합니다.

형식적으로, 우리는 observations (예: video frames)를 $O = [o_0, o_1, \ldots, o_T] \in \mathbb{R}^{T \times H \times W \times 3}$으로, actions를 $A = [a_0, a_1, \ldots, a_T] \in \mathbb{R}^{T \times 3}$으로 표기합니다.

world model $f_\theta : \mathbb{R}^{H \times W \times 3} \times \mathbb{R}^3 \to \mathcal{P}(\mathbb{R}^{H \times W \times 3})$는 다음과 같이 공식화될 수 있습니다:

$$f_\theta : (o_t, a_t) \mapsto p_\theta(o_{t+1}|o_t, a_t).$$

간단하게 나타내기 위해 표기법에서 temporal context window를 생략합니다. 실제로는 model이 $\tau$개의 observations와 actions의 history에 condition을 둡니다.

real-world dynamics는 본질적으로 불확실하고 부분적으로만 관찰 가능하기 때문에, world model은 deterministic prediction이 아니라 future states에 대한 stochastic distribution을 생성해야 합니다. world model의 이러한 stochastic formulation은 past observations $o_t$와 action $a_t$에 conditioned된 generator가 있는 generative modeling을 사용하여 자연스럽게 구현될 수 있습니다. pixel space에서의 직접적인 generative modeling은 visual observations의 high dimensionality로 인해 계산적으로 엄두를 내지 못할 정도로 벅찹니다. 대신, world model $f_\theta$는 low-dimensional latent tokens $z \in \mathbb{R}^{N \times D}$에서 작동하도록 공식화될 수 있습니다. 이러한 latent tokens는 reconstruction objective인 $L_{\text{recon}} = ||o - D(E(o))||_2^2$ (Fig. 1(a))로 학습된 encoder $E : \mathbb{R}^{H \times W \times 3} \to \mathbb{R}^{N \times D}$와 decoder $D : \mathbb{R}^{N \times D} \to \mathbb{R}^{H \times W \times 3}$로 구성된 image tokenizer를 통해 얻어집니다. 앞선 수식을 확장하여, latent world model $f_\phi : \mathbb{R}^{N \times D} \times \mathbb{R}^3 \to \mathcal{P}(\mathbb{R}^{N \times D})$는 다음과 같이 설명될 수 있습니다:

$$f_\phi : (z_t, a_t) \mapsto p_\phi(z_{t+1}|z_t, a_t),$$

여기서 $z_t = E(o_t)$입니다. 여기서 token count $N$은 computational complexity를 직접적으로 결정합니다. generative models에서 흔히 사용되는 attention-based architectures의 경우, cost는 $N$에 대해 이차적으로(quadratically) 확장됩니다. $N$을 작게 유지함으로써, latent world model formulation은 이 이차적인 bottleneck을 완화하고 효율적인 decision-time planning을 가능하게 합니다.

latent world model $f_\theta$가 학습되면, 우리는 Fig. 1(c)에 설명된 대로 이를 사용하여 initial observation $o_0$에서 goal observation $o_{\text{goal}}$로의 transition을 이끄는 action sequence ${a_t}$를 찾을 수 있습니다. 우리는 먼저 $z_0 = E(o_0)$를 계산하고 candidate action sequence $a = [a_0, a_1, \ldots, a_{H-1}]$를 초기화합니다. 그런 다음 학습된 world model을 rollout하여 planning horizon $H$에 걸친 future states를 예측함으로써 latent tokens의 sequence ${z_t}$를 얻습니다:

$$z_{t+1} \sim f_\phi(z_t, a_t), \quad t \in \{0, \cdots, H - 1\}.$$

rollout이 planning horizon에 도달하면 (즉, $z_H$가 sample되면), candidate action sequence $a$는 최종 예측된 observation과 goal 사이의 distance를 측정하는 cost function을 사용하여 평가됩니다: $C(a) = d(\hat{o}_H, o_{\text{goal}})$, 여기서 $\hat{o}_H = D(z_H)$, $\hat{o}{\text{goal}} = D(z{\text{goal}})$이고, $d(\cdot, \cdot)$는 distance measure (예: LPIPS)입니다. 그런 다음 optimal action sequence는 다음을 해결하여 얻습니다:

$$a^* = \arg\min_a C(a),$$

여기서 optimization은 sampling-based methods 또는 gradient descent를 사용하여 수행될 수 있습니다.

3.2. CompACT tokenizer

world model planning에서의 computation bottleneck은 latent token count $N$에서 비롯됩니다. 기존의 tokenizers는 일반적으로 이미지를 수백 개의 tokens로 encode하며, 이는 autoregressive rollout 동안 그들의 sampling을 느려지게 합니다. 우리는 각 이미지를 단 16개 또는 8개의 discrete tokens로 encode하고 discrete latent space를 사용하여 iterative denoising을 피하는 compact tokenizer $D_{\text{compact}} \circ E_{\text{compact}}$인 CompACT를 소개합니다 (Fig. 2). 이러한 extreme compression에도 불구하고 CompACT는 여전히 planning에 충분한 정보를 보존합니다.

3.2.1. Semantic encoding via frozen features

우리의 tokenizer의 핵심 설계 원칙은 reconstruction 지향적인 high-frequency features를 버리고 planning-critical semantic 정보만을 보존하는 것입니다. 이를 달성하기 위해 우리는 frozen pretrained vision encoder, 구체적으로는 semantic understanding을 위해 low-level visual details를 이미 추상화한 DINOv3를 중심으로 encoder $E_{\text{compact}}$를 구축합니다. encoder $E_{\text{compact}} : \mathbb{R}^{H \times W \times 3} \to \{1, \ldots, K\}^N$은 input image $o$를 각각 size $K$의 vocabulary에서 선택된 $N (N \le 16)$개의 discrete tokens $z$의 sequence로 map합니다. encoder architecture는 (1) semantic patch representations를 추출하는 frozen DINOv3 model, (2) learnable query tokens가 있는 latent resampler, 그리고 (3) finite scalar quantization layer의 세 가지 구성 요소로 이루어져 있습니다.

구체적으로, input image는 semantic representations를 얻기 위해 frozen DINOv3 model에 의해 patch화되고 encode됩니다. 그런 다음 initial latent tokens $z^0 \in \mathbb{R}^{N \times D}$는 transformer decoder-based latent resampler에서 learnable queries 역할을 합니다. 각각의 decoder block에서 이러한 latent tokens는 cross-attention layers를 통해 DINOv3 output patch tokens에 attend하여, pretrained representations로부터 high-level semantic cues를 효과적으로 distill합니다. vision foundation model은 이미 텍스처, 조명 및 기타 low-level details를 추상화했기 때문에, cross-attention mechanism은 frozen features에 남아 있는 semantic 정보 (object identities, spatial layouts, scene structure)에 선택적으로 집중할 수 있습니다. 그런 다음 latent resampler의 output은 finite scalar quantization을 사용하여 이산화되어 discrete latent tokens $z \in \{1, \ldots, K\}^N$을 산출합니다. 이러한 extreme compression은 불가피하게 fine-grained visual details를 버리지만, 우리는 이러한 details가 object-level semantics와 spatial relationships가 decision-making을 지배하는 planning tasks와 대체로 무관하다는 가설을 세웁니다.

3.2.2. Generative decoding

$N \le 16$개의 tokens에서 직접적인 pixel reconstruction을 하는 것은 ill-posed problem입니다. 동일한 semantic features에서 다양한 pixel-space manifestations가 발생할 수 있기 때문에 information bottleneck은 perceptual details의 deterministic recovery를 방해합니다. 이를 해결하기 위해 우리는 intermediate representation을 도입하는 generative decoding 전략을 제안합니다. 우리의 decoder $D_{\text{compact}} : {1, \ldots, K}^N \to {1, \ldots, K_\psi}^{N_\psi}$는 우리의 compact tokens $z$를 condition으로 사용하여 pretrained tokenizer $D_\psi \circ E_\psi$로부터 latent tokens를 generate하도록 학습합니다. 우리는 이 pretrained tokenizer의 tokens가 우리의 semantic representation을 pixel space에 연결하는 intermediate targets 역할을 하기 때문에 이를 target tokenizer라고 부릅니다. 구체적으로 우리는 MaskGIT의 VQGAN을 사용하는데, 이는 이미지를 수백 개의 tokens ($N_\psi \gg N$, $224 \times 224$ 이미지의 경우 일반적으로 $N_\psi = 196$)로 encode하여 우리의 compact tokens에서 생략된 perceptual details를 캡처합니다. 이는 다루기 힘든 압축 해제 문제를 conditional generation task로 변환합니다.

구체적으로 우리는 먼저 pretrained tokenizer encoder를 사용하여 이미지 $o$를 target tokens $z^\psi = E_\psi(o) \in {1, \ldots K_\psi}^{N_\psi}$로 변환합니다. 여기서 $N_\psi \gg N$ ($224 \times 224$ 이미지의 경우 일반적으로 $N_\psi = 196$)입니다. 그런 다음 $z$에서 $z^\psi$로의 mapping을 학습하기 위해 masked generative modeling을 사용하며, 이는 autoregressive models보다 상당히 빠른 sampling을 제공합니다. training 중에 target tokens $z^\psi$의 무작위 하위 집합이 masked되며, decoder는 compact tokens $z$와 나머지 unmasked tokens를 사용하여 이를 recover하도록 학습합니다. tokenizer training objective는 masked tokens $z^\psi$의 negative log-likelihood를 최소화하도록 정의됩니다:

$$L_{\text{tok}} = -\mathbb{E}_{z^\psi}\left[\log p(z^\psi|z, M(z^\psi))\right],$$

여기서 $M(\cdot)$은 무작위 masking을 나타냅니다. CompACT는 pixel-level reconstruction 없이 latent space에서의 unmasking objective로만 학습되며, target tokenizers의 가중치는 업데이트되지 않습니다. inference 중에 $D_{\text{compact}}$는 완전히 masked된 sequence로 시작하여 예측 신뢰도 기반의 sampling scheme에 따라 반복적으로 unmask합니다. compact tokens $z$는 이 과정 내내 high-level semantic guidance를 제공하는 반면, generative model은 이러한 semantics와 일치하는 그럴싸한 visual details를 합성합니다. 최종 reconstruction은 target decoder를 통해 얻어집니다: $\hat{o} = (D_\psi \circ D_{\text{compact}} \circ E_{\text{compact}})(o)$.

간단히 말해서, 우리의 CompACT tokenizer는 단지 $N (N \le 16)$개의 discrete tokens에 high-level semantics만을 보존함으로써 extreme compression을 달성한 다음, 이를 그럴싸한 high-frequency details를 합성하는 generative decoder를 위한 conditioning으로 사용합니다. 이 설계는 효과적인 planning이 photorealistic world models가 아니라 decision-critical 정보의 compact representations를 필요로 한다는 우리의 핵심 가설과 일치합니다.

3.3. World model in CompACT latent space

우리의 CompACT tokenizer가 정의되었으므로, 이제 앞서 공식화된 world model을 Fig. 1(b)에 표시된 대로 $N$-token discrete latent space ($N \le 16$)에서 직접 학습할 수 있습니다. observations와 action sequences의 dataset이 주어지면, 먼저 CompACT tokenizer를 사용하여 모든 observations를 compact latent tokens로 encode합니다: $z_t = E_{\text{compact}}(o_t)$. generative decoding과 유사하게, 우리는 world model $f_\phi$를 학습하기 위해 masked generative modeling을 사용합니다. training objective는 다음과 같이 주어집니다.

$$L_{\text{world}} = -\mathbb{E}_{z_t, a_t, z_{t+1}}\left[\log p(z_{t+1}|z_t, a_t, M(z_{t+1}))\right].$$

이 formulation의 주요 장점은 planning 중의 computational efficiency입니다. model-predictive control 중에 이제 timestep당 단지 $N (N \le 16)$개의 tokens만 사용하여 rollouts를 수행할 수 있어, 이전에는 수백 길이의 tokens로 인해 감당하기 힘들었던 planning latency를 가능하게 합니다.

world model architecture의 구체적인 선택은 우리의 tokenizer 설계와 직교하기 때문에, discrete sequence distributions를 modeling할 수 있는 어떤 model이든 사용될 수 있습니다. 우리는 conditional distribution $p(z_{t+1}|z_t, a_t)$를 학습하기 위한 두 가지 frameworks를 탐구합니다. navigation tasks의 경우, 우리는 NWM을 따르는 autoregressive framework를 따릅니다. 즉, 각 단계에서 model은 DiT-based architecture를 사용하여 구현된, latents ${z_{t-\tau}, \ldots, z_t}$와 actions ${a_{t-\tau}, \ldots, a_t}$의 고정 길이 history window에 conditioned된 $z_{t+1}$을 예측합니다. action conditioning을 개선하기 위해 우리는 training 중에 history window의 latent tokens를 무작위로 mask합니다. RoboNet에서의 robotic manipulation을 위해 우리는 여러 future frames를 동시에 model하는 block-causal transformer를 사용하여 frames 간의 causal dependencies를 유지하면서 ${z_{t+1}, \ldots, z_{t+K}}$를 병렬로 예측합니다.

두 training schemes 모두 diffusion forcing의 discrete variants로 이해될 수 있습니다. navigation model은 partially masked context에 condition을 두는 것을 배우는 반면, parallel generation은 서로 다른 unmasking stages에 있는 frames가 다양한 수준의 noisy conditioning을 제공하므로 자연스럽게 diffusion forcing을 구현합니다. 이 강력한 training은 추가 비용 없이 planning 정확도를 향상시킵니다.

 

📝 논문 핵심 정리 노트 (Method)

  • 3.1 Latent generative model as world model (배경 및 문제 정의)
    • World model을 stochastic distribution을 예측하는 latent generative model로 정의함.
    • 연산량 문제: attention-based architecture 특성상 연산 비용은 token count인 에 대해 이차적(quadratically)으로 증가함. 따라서 빠른 decision-time planning을 위해서는 을 극단적으로 줄이는 것이 핵심임.
  • 3.2 CompACT tokenizer (핵심 기여 1: 압축 및 복원)
    • Semantic encoding via frozen features (극단적 압축):
      • Pixel-level reconstruction을 위한 학습을 과감히 포기함.
      • 대신 semantic understanding에 특화된 frozen pretrained vision encoder인 DINOv3를 활용하여 high-frequency details를 날려버림.
      • Learnable query tokens가 cross-attention을 통해 DINOv3의 patch representations에 attend하여 planning-critical 정보(object identity, spatial layout 등)만 추출함.
      • 추출된 정보는 finite scalar quantization을 거쳐 최종적으로 단 16개 이하의 discrete tokens 로 압축됨 ().
    • Generative decoding (조건부 복원):
      • 개의 토큰만으로 직접 픽셀을 복원하는 것은 ill-posed problem임.
      • 이를 해결하기 위해 MaskGIT의 VQGAN을 target tokenizer()로 차용하여 intermediate representation으로 활용함.
      • Decoder는 pixel space가 아닌 latent space에서 학습되며, 압축된 tokens 를 condition으로 받아 target tokens 를 unmasking하는 masked generative modeling을 수행함. (압축 해제 conditional generation task로 치환)
  • 3.3 World model in CompACT latent space (핵심 기여 2: 시뮬레이션 및 계획)
    • 앞서 만든 크기의 discrete latent space 위에서 world model 를 직접 학습함.
    • 과거의 states 와 actions 가 주어졌을 때 $z_{t+1}$을 예측하도록 masked generative modeling으로 학습됨.
    • Planning 연산량 감소: Rollout 시 매 timestep마다 단 16개 이하의 tokens만 연산하면 되므로 latency가 혁신적으로 감소함.
    • Architecture 독립성: Navigation에서는 autoregressive 방식을, Manipulation에서는 여러 프레임을 동시에 예측하는 block-causal transformer를 적용함. 두 방식 모두 partially masked/noisy context를 활용하므로 자연스럽게 discrete diffusion forcing의 효과를 얻어 planning 정확도를 높임.

💡 쉬운 설명 :

이 섹션은 AI가 세상의 시각적 정보를 "어떻게 요약하고, 어떻게 상상하고, 어떻게 행동을 계획하는지"에 대한 구체적인 기술적 방법을 설명합니다.

  1. 어떻게 극단적으로 요약하는가? (Semantic encoding) 모든 것을 새로 학습하는 대신, 이미 세상의 사물이 무엇인지 잘 아는 똑똑한 AI 모델인 DINOv3의 눈을 빌려옵니다. 그리고 사물의 질감이나 빛 반사 같은 불필요한 정보는 무시한 채, "왼쪽에 컵이 있다", "오른쪽이 문이다" 같은 계획 수립에 꼭 필요한 핵심 의미만 골라내어 단 8~16개의 블록(단어)으로 세상을 요약해 버립니다.
  2. 요약본으로 어떻게 다시 그림을 그리는가? (Generative decoding) 16개의 단어만 가지고 완벽한 사진을 다시 그리는 것은 불가능에 가깝습니다. 그래서 연구진은 디테일한 묘사를 잘하는 다른 AI 모델인 MaskGIT을 중간 작업자로 고용했습니다. 모델에게 픽셀을 직접 그리라고 지시하는 대신, "이 16개의 핵심 단어들을 바탕으로 MaskGIT이 이해할 수 있는 스케치 밑그림을 생성해 줘!"라고 역할을 바꾼 것입니다. 덕분에 픽셀 단위의 복잡한 연산 없이도 훌륭하게 디테일을 살려낼 수 있습니다.
  3. 어떻게 초고속으로 미래를 계획하는가? (World model planning) 이제 AI는 무거운 이미지 조각 수백 개가 아니라, 단 16개의 가벼운 블록만으로 "내가 이렇게 움직이면 세상이 어떻게 변할까?"를 상상합니다. 머릿속에서 다루는 데이터의 크기가 기하급수적으로 줄어들었기 때문에, 여러 가지 행동 패턴을 아주 빠르게 시뮬레이션해 보고 목적지에 도달하기 위한 최적의 행동을 실시간으로 결정할 수 있게 됩니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

더보기

DINOv3로 이미지 임베딩을 뽑고

이미지 임베딩을 압축기에 넣어서 8개의 토큰으로 압축

그 압축된 토큰을 가지고 196개의 토큰 복원 (디코더 역할)


그 뒤 액션 -> mlp 통과해서 정보 뽑고

AdaLN(Adaptive Layer Normalization) 기법을 사용해서 그 정보를 조건 마냥 주입 한다고 하는데 자세히 모르겠음.

 

아무튼 그렇게 해서 다음 상태의 z인 8개 토큰을 뽑게됨. 이게 다음 프레임.

 

 

 

 

2.5점 / 5점

 

 

  • 참신성 부족 (Clever Engineering, Not Novelty): 완전히 새로운 패러다임이나 아키텍처를 발명한 것이 아님. 이미 성능이 입증된 DINOv3VQGAN을 양쪽에 붙여놓고, 중간에 정보가 넘어가는 통로만 꽉 조여서 토큰을 8개로 쥐어짠 '엔지니어링 트릭'에 가까움.
  • 빈약한 Closed-loop 증명: 서론에서는 "실제 세상 적용을 위한 실용적인 발걸음"이라고 거창하게 선언했지만, 정작 실시간 제어가 필요한 Closed-loop 실험은 부록에 숨겨놓은 Lift 테스크 하나뿐. 게다가 성공률 56%는 기존의 무거운 모델과 똑같은 수치로, 압축이 제어 성능 향상에 전혀 기여하지 못했음을 스스로 증명한 꼴.

 

 하지만 8개의 토큰만으로 빠르게 다음 임베딩 예측에 무난하게 적용시킨 점은 충분히 칭찬 받을만 함.