VLM : 빠른 논문 리뷰 : Planning with Reasoning using Vision Language World Mode

카테고리 없음

VLM : 빠른 논문 리뷰 : Planning with Reasoning using Vision Language World Mode

AI바라기 2025. 9. 15. 14:22

Vision Language World Model (VLWM) 학습 노트

쉬운 설명

이 논문의 핵심 아이디어는 AI가 어떤 일을 하기 전에, 사람처럼 머릿속으로 여러 가지 시나리오를 미리 그려보고("what if?") 가장 좋은 방법을 선택하게 만드는 것과 같습니다.

VLWM (World Model): AI에게 세상이 어떻게 돌아가는지에 대한 '상식'을 가르치는 선생님입니다. 비디오를 보고 "A라는 행동을 하면 B라는 결과가 나온다"는 것을 언어로 배우게 됩니다.
System-2 Planning (머릿속 시뮬레이션): "토마토 달걀 볶음"이라는 목표가 주어지면, AI는 VLWM을 이용해 '달걀부터 깰까?', '토마토부터 볶을까?' 등 여러 계획(plan) 후보들을 머릿속으로 실행해봅니다.
Critic (내면의 평가자): 각 계획이 얼마나 '그럴듯하고' 목표 달성에 효과적인지를 점수로 매기는 내면의 평가자 역할을 합니다. "달걀을 껍질째 넣는" 계획은 나쁜 점수를, "달걀을 풀어 스크램블한 뒤 토마토와 섞는" 계획은 좋은 점수를 받습니다.

결론적으로 AI는 가장 높은 점수를 받은 계획을 최종적으로 선택하고 실행하게 됩니다. 이는 단순히 정해진 순서를 따라하는 것을 넘어, 스스로 최적의 방법을 고민하고 찾아내는 한 단계 더 발전된 AI를 만드는 접근 방식입니다.

용어 설명

VLWM (Vision Language World Model): Natural videos를 기반으로 language-based world modeling을 위해 학습된 foundation model. 시각적 관찰을 통해 목표를 추론하고, action과 world state 변화로 구성된 trajectory를 예측.
TREE OF CAPTIONS: Raw video를 압축하여 계층적인 캡션 트리로 만드는 효율적인 abstraction pipeline. 비디오의 의미 정보를 보존하면서 데이터 볼륨을 크게 줄임.
SELF-REFINE: LLM을 사용하여 TREE OF CAPTIONS로부터 구조화된 goal-plan 설명을 반복적으로 개선하고 추출하는 프로세스.
System-1 Planning: VLWM을 사용하여 빠르고 직관적인(reactive) plan을 생성하는 방식. Autoregressive text completion을 통해 직접적으로 action-state sequence를 생성.
System-2 Planning: VLWM과 critic module을 결합하여 신중하고 성찰적인(reflective) planning을 수행하는 방식. 여러 후보 action sequence를 생성(roll-out)하고, critic이 평가한 cost를 최소화하는 최적의 plan을 탐색.
Critic: 후보 plan이 주어진 goal에 얼마나 부합하는지를 평가하는 language model. Self-supervised 방식으로 학습되어, goal에 대한 유효한 진행에는 낮은 cost를, 관련 없거나 잘못된 action에는 높은 cost를 부여.
PLANNERARENA: AI assistant가 생성한 plan의 품질을 인간 평가자가 직접 비교/선택하는 human evaluation framework. Elo rating system을 통해 모델의 실용적인 성능을 측정.

Purpose of the Paper

기존의 high-level planning을 위한 world model들은 다음과 같은 한계점을 가짐:

LLM을 직접 사용하는 방식은 실제 sensory experience에 grounded 되어 있지 않음.
VLM (Vision-Language Models)은 주로 perception에 초점을 맞추며, action에 따른 world-state transition 예측에는 미흡함.
Generative world model (e.g., diffusion models)은 raw pixel을 예측하여 비효율적이고, long-horizon planning에 부적합함.
JEPA (Joint Embedding Predictive Architecture) 기반 모델들은 low-level control에는 강하지만, language와 같은 high-level abstraction으로 확장하는 데 어려움이 있음.

이 논문은 이러한 한계들을 극복하기 위해, raw video로부터 직접 language라는 abstract representation space에서 world dynamics를 학습하고 예측하는 VLWM (Vision Language World Model) 을 제안함. 이를 통해 perception, reasoning, planning 사이의 간극을 메우고, 복잡한 high-level task를 수행할 수 있는 AI agent를 구현하고자 함.

Key Contributions & Novelty

Language-based World Model (VLWM) 제안
- Contribution: 시각적 관찰(video)을 기반으로, 세상의 변화를 raw pixel이나 latent embedding이 아닌 natural language로 직접 예측하는 foundation model을 제안.
- Novelty: 대규모의 정제되지 않은(uncurated) real-world video로부터 직접 high-level, language-based world model을 학습하는 최초의 시도. 이는 기존 VLM과 LLM의 능력을 통합함.
Dual-Mode Planning Framework 도입 (System-1 & System-2)
- Contribution: 빠른 반응이 필요할 때를 위한 System-1 (reactive plan decoding)과, 신중한 추론이 필요할 때를 위한 System-2 (reflective planning via cost minimization) 두 가지 planning 모드를 모두 지원.
- Novelty: 하나의 모델 내에서 직관적이고 빠른 planning과, 내부적인 trial-and-error (roll-outs) 및 reasoning을 통한 신중한 planning을 유연하게 전환할 수 있는 구조를 제시.
Self-supervised Critic for Reflective Planning
- Contribution: 생성된 plan의 품질을 평가하는 critic module을 self-supervised 방식으로 학습. 이 critic은 plan이 goal에 얼마나 근접하는지를 semantic distance (cost)로 정량화함.
- Novelty: 별도의 human annotation 없이, 데이터 자체의 구조(e.g., 올바른 순서 vs. 섞인 순서, 관련 있는 step vs. 무관한 step)를 활용하여 plan의 semantic quality를 평가하는 critic을 학습.
Scalable Data Abstraction Pipeline
- Contribution: 대용량 비디오 데이터를 TREE OF CAPTIONS로 압축하고, LLM SELF-REFINE을 통해 고품질의 (goal, action, state) trajectory 데이터를 자동으로 추출하는 파이프라인 구축.
- Novelty: 대규모 비디오 데이터셋을 LLM이 처리 가능한 형태의 구조화된 텍스트로 자동 변환하여, world model 학습에 필요한 데이터를 효율적으로 생성.

Experimental Highlights

Visual Planning for Assistance (VPA) Benchmark에서 State-of-the-art 달성
- COIN, CrossTask 데이터셋에서 기존 SOTA 모델인 VidAssist (70B LLM)보다 훨씬 작은 8B 모델임에도 불구하고 SR, mAcc, mIoU 지표에서 더 높은 성능을 보임 (Table 2).
Human Evaluation (PLANNERARENA)에서 압도적인 선호도
- System-2 planning 모드는 System-1 대비 Elo score를 +27% 향상시켰으며, Llama-4-Maverick, Ground Truth Plan 등 다른 모든 비교 대상보다 인간 평가자에게 월등히 높은 선호도를 얻음 (Table 3, Elo Score 1261).
- 이는 기존 benchmark의 ground truth 데이터가 실제로는 품질이 낮을 수 있다는 문제를 제기함.
RoboVQA Benchmark에서 높은 성능 기록
- Robotics 데이터에 특화되지 않았음에도 불구하고, 로봇 분야 SOTA 모델들과 대등하거나 더 높은 성능을 기록 (Table 4, BLEU-1 74.2). 이는 VLWM의 강력한 generalization 능력을 보여줌.
Critic Model의 독립적인 성능 검증
- Goal Achievement Detection task에서 기존의 강력한 semantic similarity 모델들(e.g., Qwen3-Reranker)을 큰 차이로 능가함 (Table 5, Overall Accuracy 96.9%).
- WORLDPREDICTION-PP benchmark에서도 SOTA를 달성하며, critic이 절차적 순서와 인과 관계를 이해하는 능력이 뛰어남을 입증 (Figure 6, 45.4% Accuracy).

Limitations and Future Work

Limitations:
- Critic 모델은 학습 데이터와 domain이 다른 OOD (Out-of-Distribution) 데이터(e.g., OGP dataset)에 대해서는 성능 저하를 보임. 이는 domain generalization이 여전히 도전 과제임을 시사.
- OGP 데이터셋처럼 action만 있고 world state에 대한 명시적인 설명이 없는 trajectory의 경우, critic의 cost 평가가 더 어려워지는 경향을 보임 (Figure 5).
- 현재의 데이터 추출 파이프라인은 TREE OF CAPTIONS와 LLM SELF-REFINE에 의존하므로, 이 초기 단계의 품질이 전체 모델 성능에 영향을 미칠 수 있음.
Future Work:
- VLWM의 접근 방식을 통해 perception, reasoning, planning을 통합하여, 단순한 imitation learning을 넘어선, 보다 강인하고 long-horizon decision making이 가능한 reflective agent를 개발하는 연구를 지속.
- Critic의 generalization 성능을 높이기 위해 더 다양한 domain의 데이터를 활용하고, 외부 지식(external knowledge)을 통합하는 방안 연구.
- System-2 planning의 탐색(search) 과정을 더 효율적으로 만들어, 더 넓은 탐색 공간에서도 최적의 plan을 빠르게 찾을 수 있도록 개선.

Overall Summary

이 논문은 대규모 비디오 데이터를 활용하여 **세상의 작동 방식을 language로 이해하고 예측하는 Vision Language World Model (VLWM)**을 제안한다. VLWM은 빠르고 직관적인 System-1 planning과, self-supervised critic을 통해 여러 가능성을 시뮬레이션하고 최적의 해를 찾는 신중한 System-2 planning을 모두 지원한다. 다양한 benchmark와 인간 평가에서 SOTA 성능을 입증함으로써, 이 연구는 AI agent가 단순한 행동 모방을 넘어, 내부적으로 추론하고 계획하는 reflective agent로 발전할 수 있는 강력한 방향성을 제시했다.

주인장 이해

VLWM 학습 데이터 생성 및 학습 과정 (진짜 최종 상세 버전)

Phase 1: Raw Video → Noisy Draft → Refined Text (데이터 정제 및 구조화)

Input: 대규모의 다양한 Raw Video (수십만 개).
Feature Extraction: Perception Encoder를 사용하여 비디오의 각 순간을 숫자 벡터의 연속(stream)으로 변환합니다.
Hierarchical Segmentation: 계층적 군집화(Hierarchical Agglomerative Clustering) 알고리즘으로 2번의 벡터 스트림을 의미적으로 유사한 클립들로 자동 분할하고, 이 클립들의 계층 구조(뼈대)를 생성합니다. (이때 분할 경계가 애매하거나 너무 잘게 쪼개지는 노이즈가 발생할 수 있습니다.)
Automated Captioning: PerceptionLM (Video Captioning 모델)이 3번에서 생성된 계층 구조의 모든 클립(각 시간 구간)에 대해, 각각의 내용을 설명하는 상세한 캡션을 자동으로 생성합니다. (이때 캡션의 내용이 부정확하거나 목표와 무관한 노이즈가 발생할 수 있습니다.)
Noisy Tree Construction (TREE OF CAPTIONS Draft): 3번의 '계층 구조' 뼈대에 4번의 '캡션'들을 시간대에 맞게 단순 매핑하여, 여러 종류의 노이즈(분할 오류, 캡션 오류 등)가 포함된 초고(draft) 형태의 TREE OF CAPTIONS를 완성합니다.
Refinement via LLM SELF-REFINE: 거대 언어 모델(LLM)이 TREE OF CAPTIONS 초고의 전체 문맥과 상식을 동원하여, 애매한 클립 분할을 의미 있는 행동(Action)으로 통합하고, 부정확하거나 목표와 무관한 캡션을 삭제/수정하며, 논리적 순서를 재배열하여 매우 정제된 (Goal, Action, State) 트래젝토리를 추출합니다.

Phase 2: VLWM 모델 학습 (패턴 학습)

Large-Scale Dataset Construction: 6번의 정제 과정을 거친 수백만 개의 고품질 (Context, Goal, Trajectory) 텍스트 데이터 쌍으로 최종 학습 데이터셋을 구축합니다. (이 대규모 데이터 자체가 일부 잔존 노이즈를 통계적으로 상쇄하는 효과를 가집니다.)
Training VLWM to Predict Trajectory: VLWM 모델에게 Context(초기 비디오 상황)와 **Goal**을 Input으로 주고, 정제된 최종 Trajectory 전체를 Output으로 생성하도록 next-token prediction 방식으로 학습시켜, 데이터 속의 강력하고 일관된 패턴(signal)을 배우게 합니다.
Output (Learned VLWM): 이 학습을 통해, 새로운 시각적 상황과 목표가 주어졌을 때, 정제된 논리적 흐름을 갖춘 최적의 행동 계획(Trajectory)을 생성할 수 있는 VLWM이 완성됩니다.

Phase 3: Critic 모델 학습 (평가 능력 배양)

Self-Supervised Data Creation for Critic: 7번의 정제된 데이터셋을 기반으로, 올바른 순서(긍정 샘플), 순서가 뒤섞인 순서(부정 샘플), 엉뚱한 행동이 추가된 순서(부정 샘플) 등 평가 능력 학습을 위한 예제들을 자동으로 생성합니다.
Training Critic to Evaluate Quality: Critic 모델에게 **(Goal, Trajectory)**를 Input으로 주고, 해당 계획이 얼마나 좋은지를 나타내는 점수(Cost)를 Output으로 예측하도록 학습시켜, 계획의 논리적 타당성을 평가하는 능력을 배양합니다.
Output (Learned Critic): 주어진 계획이 얼마나 합리적인지 정량적으로 평가할 수 있는 Critic 모델이 완성되며, 이는 나중에 VLWM이 여러 계획 후보 중 최선을 선택하는 추론(System-2 Planning) 과정에 사용됩니다.