AI바라기의 인공지능

World model : 논문 리뷰 : Navigation World Models 본문

논문리뷰

World model : 논문 리뷰 : Navigation World Models

AI바라기 2026. 3. 13. 14:44

용어 설명

  • Navigation World Model(NWM): 에이전트의 과거 시각적 관측치와 내비게이션 action을 바탕으로 미래의 시각적 상태를 예측하고 생성해 내는 controllable video generation model입니다.
  • Conditional Diffusion Transformer(CDiT): 모델의 연산 복잡도를 줄이기 위해 이 논문에서 고안한 독창적인 아키텍처입니다. Target frame의 token에만 attention 연산을 집중하고 과거 frame은 cross-attention으로 처리하여 연산 복잡도를 선형(linear)으로 낮춥니다.
  • Model Predictive Control(MPC): 현재 상태에서 목표를 달성하기 위한 최적의 행동 순서를 찾기 위해, NWM을 활용하여 미래를 시뮬레이션하고 평가하는 제어 방법론입니다.
  • Cross-Entropy Method(CEM): MPC 프레임워크 내에서 최적의 action sequence를 샘플링하고 평가하여 해답을 찾아내는 최적화 기법입니다.
  • Mode collapse: OOD(Out-of-Distribution) 데이터, 즉 처음 보는 환경에서 예측 시간이 길어질 때 모델이 점점 학습 데이터와 유사하고 뻔한 형태로만 결과물을 생성하여 다양성을 잃는 현상입니다.

Purpose of the Paper

  • 기존 방식의 한계: 현재 SOTA 수준의 robotics navigation policies는 학습이 끝난 후 "좌회전 금지"와 같은 새로운 제약 조건(constraint)을 동적으로 추가하기 어려운 "hard-coded" 방식이라는 치명적인 단점이 있습니다.
  • 인간의 인지 과정 모방: 인간은 제약 조건과 counterfactuals를 고려하여 머릿속으로 미래의 궤적(trajectory)을 상상하고 계획하지만, 기존 AI 모델은 복잡한 환경에서 동적으로 연산 자원을 할당하며 계획하는 능력이 부족합니다.
  • 새로운 접근 방식 제시: 다양한 로봇 및 사람의 비디오 데이터를 대규모로 학습하여 환경의 dynamics를 이해하고, 동적인 제약 조건 하에서도 유연하게 planning이 가능한 NWM을 제안하여 기존 supervised visual navigation 모델의 근본적인 한계를 극복하고자 합니다.

Key Contributions & Novelty

  • NWM 프레임워크 구축: 과거의 시각적 관측 정보와 행동(action)을 바탕으로 미래의 비디오를 예측하는 모델을 제안하여, 자율 주행 및 내비게이션 분야에서 planning 및 ranking 용도로 활용할 수 있게 했습니다.
  • CDiT 아키텍처 도입 (핵심 참신성): 기존 DiT 모델은 context 길이에 따라 연산량이 2차(quadratic)로 폭증하지만, CDiT는 연산 복잡도를 선형(linear)으로 낮추었습니다. 이로 인해 모델을 1B 파라미터 규모까지 효율적으로 확장할 수 있었습니다.
  • World model 기반의 동적 Planning 달성: MPC 프레임워크를 활용하여 아무것도 없는 상태에서 궤적을 계획(from scratch)하거나, 외부의 기존 policy(NoMaD 등)에서 생성된 궤적들을 NWM으로 시뮬레이션하고 평가(ranking)하여 최적의 경로를 찾는 능력을 입증했습니다.
  • Unlabeled data의 새로운 활용성 입증: 명시적인 행동(action) 데이터나 보상(reward)이 없는 Ego4D 비디오 데이터를 추가로 학습시킴으로써, 처음 마주하는(unknown) 환경에서 모델이 미래를 상상하고 예측하는 능력을 대폭 끌어올렸습니다.

Experimental Highlights

  • Datasets: SCAND, TartanDrive, RECON, HuRoN (in-domain), GO Stanford (unknown), Ego4D (unlabeled).
  • Metrics: ATE, RPE, LPIPS, DreamSim, PSNR, FID, FVD.
  • Baselines: DIAMOND, GNM, NoMaD.
  • 단독(Standalone) SOTA 달성: RECON 데이터셋 기준 단독 planning 평가에서 ATE 1.13을 기록하여, 기존 SOTA 모델인 NoMaD(1.95)를 압도적으로 뛰어넘는 성능을 보였습니다.
  • 시너지 및 Ranking 성능 입증: 기존 NoMaD policy에 NWM ranking(32개 샘플)을 결합했을 때 ATE 수치가 1.79로 유의미하게 향상되었습니다.
  • CDiT의 압도적 효율성: 동일한 파라미터 크기 조건에서 기존 DiT 대비 4배나 적은 FLOPs(연산량)를 소모하면서도, 생성된 이미지의 품질(LPIPS)은 훨씬 더 우수했습니다.
  • Unlabeled Data 효과: Ego4D 데이터를 추가 학습한 모델은 unknown 환경(GO Stanford)에서의 LPIPS 오차율을 0.658에서 0.652로 개선하며 우수한 일반화 성능을 증명했습니다.

Limitations and Future Work

  • Limitations:
    • 처음 마주하는 환경에서 4초 이상 길게 미래를 예측할 경우, 모델이 문맥을 잃고 자신이 학습했던 일반적인 데이터 형태로만 렌더링하는 Mode collapse 현상이 발생합니다.
    • 환경 내 보행자의 움직임과 같은 매우 복잡한 temporal dynamics를 완벽하게 시뮬레이션하는 데에는 아직 한계가 있습니다.
  • Future Work:
    • 더 긴 context window와 훨씬 더 방대한 분량의 비디오 데이터를 학습시켜 Mode collapse 문제를 해결하고 예측의 정확도를 높일 수 있습니다.
    • 현재 3 DoF(자유도) 수준에 머무르는 navigation action을 넘어, 6 DoF 환경이나 로봇 팔(robotic arm)의 관절 제어 영역까지 action space를 성공적으로 확장할 수 있는 발전 가능성을 내포하고 있습니다.

Overall Summary

이 논문은 로봇 내비게이션 환경의 시각적 변화를 스스로 시뮬레이션할 수 있는 Navigation World Model(NWM)과, 이 과정의 연산 효율을 극대화한 독자적인 CDiT 아키텍처를 새롭게 제안했습니다. 규칙이 하드코딩된 기존 policy 방식의 한계를 벗어나, NWM은 동적인 제약 조건을 실시간으로 반영하여 궤적을 계획하거나 기존 policy의 성능을 보완하는 ranking 보조 모델로 훌륭하게 작동합니다. 결론적으로 이 연구는 AI 에이전트가 단순한 '시각적 인지'를 넘어, 인간처럼 스스로 미래 상황을 상상하고 능동적으로 행동을 계획하는 차세대 self-supervised 내비게이션 시스템으로 나아가는 중요한 이정표를 세웠습니다.


💡 쉬운 설명

이 논문은 한마디로 **"로봇의 두뇌에 상상력을 달아주는 연구"**라고 볼 수 있습니다. 기존의 로봇들은 "이 길로 쭉 가!"라고 한 번 학습된 고정된 규칙대로만 움직였습니다. 그래서 주행 도중 "갑자기 여기서는 좌회전 금지야"와 같은 새로운 조건이 주어지면 당황하고 대처하지 못했습니다.

하지만 이 논문이 제안한 NWM을 장착한 로봇은 행동하기 전에 머릿속으로 미리 **"내가 이쪽으로 움직이면 세상이 나에게 어떻게 보일까?"**라며 가상의 비디오를 상상해 봅니다. 즉, 머릿속에서 여러 갈래의 길을 렌더링하며 시뮬레이션해 보고, 그중 가장 안전하고 목표에 가까운 길을 스스로 골라내는 똑똑하고 유연한 자율 주행 방식을 만들어낸 것입니다.

 

 

 

 

 

더보기

 

  • 준비물: 로봇이나 사람이 직접 돌아다니며 찍은 1인칭 비디오 영상과, 그 영상을 찍을 때 어떻게 움직였는지 기록된 행동 데이터(이동 방향, 회전 각도 등)가 필요합니다.
     
  • 사전 작업: 원래의 비디오 이미지는 크기가 너무 커서 다루기 무거우므로, 압축기(VAE)를 사용해 이미지를 아주 작고 핵심적인 데이터로 꾹꾹 눌러 압축해 둡니다.
     
  • 인풋(Input): 모델에게 과거의 이미지들, 앞으로 할 행동(어디로 얼만큼 움직일지), 그리고 실제 정답인 미래 이미지에 일부러 지글지글한 노이즈(잡음)를 잔뜩 씌운 이미지를 한꺼번에 입력으로 줍니다.
     
  • 아웃풋(Output): 모델은 과거 이미지와 행동 힌트를 단서로 삼아서, 노이즈가 덮인 이미지에서 잡음을 지워내며 "이 행동을 했으니 다음 장면은 이거겠구나!"라고 예측한 깨끗한 미래 이미지를 결과물로 만들어냅니다.
     
  • Loss(손실 함수): 모델이 만들어낸 '예측 이미지'와 실제 정답인 '진짜 미래 이미지'를 나란히 두고, **두 이미지가 픽셀 단위로 얼마나 다른지 그 오차(차이)**를 계산합니다.
     
  • 학습(업데이트): 방금 구한 오차(Loss)가 점점 줄어들도록, 즉 모델이 정답과 똑같은 미래를 그려낼 수 있도록 모델 내부의 설정값을 조금씩 고치면서 이 과정을 무수히 반복합니다.