VLM : 빠른 논문 리뷰 : Planning with Reasoning using Vision Language World Mode
Vision Language World Model (VLWM) 학습 노트
쉬운 설명
이 논문의 핵심 아이디어는 AI가 어떤 일을 하기 전에, 사람처럼 머릿속으로 여러 가지 시나리오를 미리 그려보고("what if?") 가장 좋은 방법을 선택하게 만드는 것과 같습니다.
- VLWM (World Model): AI에게 세상이 어떻게 돌아가는지에 대한 '상식'을 가르치는 선생님입니다. 비디오를 보고 "A라는 행동을 하면 B라는 결과가 나온다"는 것을 언어로 배우게 됩니다.
- System-2 Planning (머릿속 시뮬레이션): "토마토 달걀 볶음"이라는 목표가 주어지면, AI는 VLWM을 이용해 '달걀부터 깰까?', '토마토부터 볶을까?' 등 여러 계획(plan) 후보들을 머릿속으로 실행해봅니다.
- Critic (내면의 평가자): 각 계획이 얼마나 '그럴듯하고' 목표 달성에 효과적인지를 점수로 매기는 내면의 평가자 역할을 합니다. "달걀을 껍질째 넣는" 계획은 나쁜 점수를, "달걀을 풀어 스크램블한 뒤 토마토와 섞는" 계획은 좋은 점수를 받습니다.
결론적으로 AI는 가장 높은 점수를 받은 계획을 최종적으로 선택하고 실행하게 됩니다. 이는 단순히 정해진 순서를 따라하는 것을 넘어, 스스로 최적의 방법을 고민하고 찾아내는 한 단계 더 발전된 AI를 만드는 접근 방식입니다.
용어 설명
- VLWM (Vision Language World Model): Natural videos를 기반으로 language-based world modeling을 위해 학습된 foundation model. 시각적 관찰을 통해 목표를 추론하고, action과 world state 변화로 구성된 trajectory를 예측.
- TREE OF CAPTIONS: Raw video를 압축하여 계층적인 캡션 트리로 만드는 효율적인 abstraction pipeline. 비디오의 의미 정보를 보존하면서 데이터 볼륨을 크게 줄임.
- SELF-REFINE: LLM을 사용하여 TREE OF CAPTIONS로부터 구조화된 goal-plan 설명을 반복적으로 개선하고 추출하는 프로세스.
- System-1 Planning: VLWM을 사용하여 빠르고 직관적인(reactive) plan을 생성하는 방식. Autoregressive text completion을 통해 직접적으로 action-state sequence를 생성.
- System-2 Planning: VLWM과 critic module을 결합하여 신중하고 성찰적인(reflective) planning을 수행하는 방식. 여러 후보 action sequence를 생성(roll-out)하고, critic이 평가한 cost를 최소화하는 최적의 plan을 탐색.
- Critic: 후보 plan이 주어진 goal에 얼마나 부합하는지를 평가하는 language model. Self-supervised 방식으로 학습되어, goal에 대한 유효한 진행에는 낮은 cost를, 관련 없거나 잘못된 action에는 높은 cost를 부여.
- PLANNERARENA: AI assistant가 생성한 plan의 품질을 인간 평가자가 직접 비교/선택하는 human evaluation framework. Elo rating system을 통해 모델의 실용적인 성능을 측정.
Purpose of the Paper
기존의 high-level planning을 위한 world model들은 다음과 같은 한계점을 가짐:
- LLM을 직접 사용하는 방식은 실제 sensory experience에 grounded 되어 있지 않음.
- VLM (Vision-Language Models)은 주로 perception에 초점을 맞추며, action에 따른 world-state transition 예측에는 미흡함.
- Generative world model (e.g., diffusion models)은 raw pixel을 예측하여 비효율적이고, long-horizon planning에 부적합함.
- JEPA (Joint Embedding Predictive Architecture) 기반 모델들은 low-level control에는 강하지만, language와 같은 high-level abstraction으로 확장하는 데 어려움이 있음.
이 논문은 이러한 한계들을 극복하기 위해, raw video로부터 직접 language라는 abstract representation space에서 world dynamics를 학습하고 예측하는 VLWM (Vision Language World Model) 을 제안함. 이를 통해 perception, reasoning, planning 사이의 간극을 메우고, 복잡한 high-level task를 수행할 수 있는 AI agent를 구현하고자 함.
Key Contributions & Novelty
- Language-based World Model (VLWM) 제안
- Contribution: 시각적 관찰(video)을 기반으로, 세상의 변화를 raw pixel이나 latent embedding이 아닌 natural language로 직접 예측하는 foundation model을 제안.
- Novelty: 대규모의 정제되지 않은(uncurated) real-world video로부터 직접 high-level, language-based world model을 학습하는 최초의 시도. 이는 기존 VLM과 LLM의 능력을 통합함.
- Dual-Mode Planning Framework 도입 (System-1 & System-2)
- Contribution: 빠른 반응이 필요할 때를 위한 System-1 (reactive plan decoding)과, 신중한 추론이 필요할 때를 위한 System-2 (reflective planning via cost minimization) 두 가지 planning 모드를 모두 지원.
- Novelty: 하나의 모델 내에서 직관적이고 빠른 planning과, 내부적인 trial-and-error (roll-outs) 및 reasoning을 통한 신중한 planning을 유연하게 전환할 수 있는 구조를 제시.
- Self-supervised Critic for Reflective Planning
- Contribution: 생성된 plan의 품질을 평가하는 critic module을 self-supervised 방식으로 학습. 이 critic은 plan이 goal에 얼마나 근접하는지를 semantic distance (cost)로 정량화함.
- Novelty: 별도의 human annotation 없이, 데이터 자체의 구조(e.g., 올바른 순서 vs. 섞인 순서, 관련 있는 step vs. 무관한 step)를 활용하여 plan의 semantic quality를 평가하는 critic을 학습.
- Scalable Data Abstraction Pipeline
- Contribution: 대용량 비디오 데이터를 TREE OF CAPTIONS로 압축하고, LLM SELF-REFINE을 통해 고품질의 (goal, action, state) trajectory 데이터를 자동으로 추출하는 파이프라인 구축.
- Novelty: 대규모 비디오 데이터셋을 LLM이 처리 가능한 형태의 구조화된 텍스트로 자동 변환하여, world model 학습에 필요한 데이터를 효율적으로 생성.
Experimental Highlights
- Visual Planning for Assistance (VPA) Benchmark에서 State-of-the-art 달성
- COIN, CrossTask 데이터셋에서 기존 SOTA 모델인 VidAssist (70B LLM)보다 훨씬 작은 8B 모델임에도 불구하고 SR, mAcc, mIoU 지표에서 더 높은 성능을 보임 (Table 2).
- Human Evaluation (PLANNERARENA)에서 압도적인 선호도
- System-2 planning 모드는 System-1 대비 Elo score를 +27% 향상시켰으며, Llama-4-Maverick, Ground Truth Plan 등 다른 모든 비교 대상보다 인간 평가자에게 월등히 높은 선호도를 얻음 (Table 3, Elo Score 1261).
- 이는 기존 benchmark의 ground truth 데이터가 실제로는 품질이 낮을 수 있다는 문제를 제기함.
- RoboVQA Benchmark에서 높은 성능 기록
- Robotics 데이터에 특화되지 않았음에도 불구하고, 로봇 분야 SOTA 모델들과 대등하거나 더 높은 성능을 기록 (Table 4, BLEU-1 74.2). 이는 VLWM의 강력한 generalization 능력을 보여줌.
- Critic Model의 독립적인 성능 검증
- Goal Achievement Detection task에서 기존의 강력한 semantic similarity 모델들(e.g., Qwen3-Reranker)을 큰 차이로 능가함 (Table 5, Overall Accuracy 96.9%).
- WORLDPREDICTION-PP benchmark에서도 SOTA를 달성하며, critic이 절차적 순서와 인과 관계를 이해하는 능력이 뛰어남을 입증 (Figure 6, 45.4% Accuracy).
Limitations and Future Work
- Limitations:
- Critic 모델은 학습 데이터와 domain이 다른 OOD (Out-of-Distribution) 데이터(e.g., OGP dataset)에 대해서는 성능 저하를 보임. 이는 domain generalization이 여전히 도전 과제임을 시사.
- OGP 데이터셋처럼 action만 있고 world state에 대한 명시적인 설명이 없는 trajectory의 경우, critic의 cost 평가가 더 어려워지는 경향을 보임 (Figure 5).
- 현재의 데이터 추출 파이프라인은 TREE OF CAPTIONS와 LLM SELF-REFINE에 의존하므로, 이 초기 단계의 품질이 전체 모델 성능에 영향을 미칠 수 있음.
- Future Work:
- VLWM의 접근 방식을 통해 perception, reasoning, planning을 통합하여, 단순한 imitation learning을 넘어선, 보다 강인하고 long-horizon decision making이 가능한 reflective agent를 개발하는 연구를 지속.
- Critic의 generalization 성능을 높이기 위해 더 다양한 domain의 데이터를 활용하고, 외부 지식(external knowledge)을 통합하는 방안 연구.
- System-2 planning의 탐색(search) 과정을 더 효율적으로 만들어, 더 넓은 탐색 공간에서도 최적의 plan을 빠르게 찾을 수 있도록 개선.
Overall Summary
이 논문은 대규모 비디오 데이터를 활용하여 **세상의 작동 방식을 language로 이해하고 예측하는 Vision Language World Model (VLWM)**을 제안한다. VLWM은 빠르고 직관적인 System-1 planning과, self-supervised critic을 통해 여러 가능성을 시뮬레이션하고 최적의 해를 찾는 신중한 System-2 planning을 모두 지원한다. 다양한 benchmark와 인간 평가에서 SOTA 성능을 입증함으로써, 이 연구는 AI agent가 단순한 행동 모방을 넘어, 내부적으로 추론하고 계획하는 reflective agent로 발전할 수 있는 강력한 방향성을 제시했다.
주인장 이해
VLWM 학습 데이터 생성 및 학습 과정 (진짜 최종 상세 버전)
Phase 1: Raw Video → Noisy Draft → Refined Text (데이터 정제 및 구조화)
- Input: 대규모의 다양한 Raw Video (수십만 개).
- Feature Extraction: Perception Encoder를 사용하여 비디오의 각 순간을 숫자 벡터의 연속(stream)으로 변환합니다.
- Hierarchical Segmentation: 계층적 군집화(Hierarchical Agglomerative Clustering) 알고리즘으로 2번의 벡터 스트림을 의미적으로 유사한 클립들로 자동 분할하고, 이 클립들의 계층 구조(뼈대)를 생성합니다. (이때 분할 경계가 애매하거나 너무 잘게 쪼개지는 노이즈가 발생할 수 있습니다.)
- Automated Captioning: PerceptionLM (Video Captioning 모델)이 3번에서 생성된 계층 구조의 모든 클립(각 시간 구간)에 대해, 각각의 내용을 설명하는 상세한 캡션을 자동으로 생성합니다. (이때 캡션의 내용이 부정확하거나 목표와 무관한 노이즈가 발생할 수 있습니다.)
- Noisy Tree Construction (TREE OF CAPTIONS Draft): 3번의 '계층 구조' 뼈대에 4번의 '캡션'들을 시간대에 맞게 단순 매핑하여, 여러 종류의 노이즈(분할 오류, 캡션 오류 등)가 포함된 초고(draft) 형태의 TREE OF CAPTIONS를 완성합니다.
- Refinement via LLM SELF-REFINE: 거대 언어 모델(LLM)이 TREE OF CAPTIONS 초고의 전체 문맥과 상식을 동원하여, 애매한 클립 분할을 의미 있는 행동(Action)으로 통합하고, 부정확하거나 목표와 무관한 캡션을 삭제/수정하며, 논리적 순서를 재배열하여 매우 정제된 (Goal, Action, State) 트래젝토리를 추출합니다.
Phase 2: VLWM 모델 학습 (패턴 학습)
- Large-Scale Dataset Construction: 6번의 정제 과정을 거친 수백만 개의 고품질 (Context, Goal, Trajectory) 텍스트 데이터 쌍으로 최종 학습 데이터셋을 구축합니다. (이 대규모 데이터 자체가 일부 잔존 노이즈를 통계적으로 상쇄하는 효과를 가집니다.)
- Training VLWM to Predict Trajectory: VLWM 모델에게 Context(초기 비디오 상황)와 **Goal**을 Input으로 주고, 정제된 최종 Trajectory 전체를 Output으로 생성하도록 next-token prediction 방식으로 학습시켜, 데이터 속의 강력하고 일관된 패턴(signal)을 배우게 합니다.
- Output (Learned VLWM): 이 학습을 통해, 새로운 시각적 상황과 목표가 주어졌을 때, 정제된 논리적 흐름을 갖춘 최적의 행동 계획(Trajectory)을 생성할 수 있는 VLWM이 완성됩니다.
Phase 3: Critic 모델 학습 (평가 능력 배양)
- Self-Supervised Data Creation for Critic: 7번의 정제된 데이터셋을 기반으로, 올바른 순서(긍정 샘플), 순서가 뒤섞인 순서(부정 샘플), 엉뚱한 행동이 추가된 순서(부정 샘플) 등 평가 능력 학습을 위한 예제들을 자동으로 생성합니다.
- Training Critic to Evaluate Quality: Critic 모델에게 **(Goal, Trajectory)**를 Input으로 주고, 해당 계획이 얼마나 좋은지를 나타내는 점수(Cost)를 Output으로 예측하도록 학습시켜, 계획의 논리적 타당성을 평가하는 능력을 배양합니다.
- Output (Learned Critic): 주어진 계획이 얼마나 합리적인지 정량적으로 평가할 수 있는 Critic 모델이 완성되며, 이는 나중에 VLWM이 여러 계획 후보 중 최선을 선택하는 추론(System-2 Planning) 과정에 사용됩니다.