VLM : 논문 리뷰 : Demystifying Video Reasoning

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

AI바라기의 인공지능

VLM : 논문 리뷰 : Demystifying Video Reasoning 본문

논문리뷰

VLM : 논문 리뷰 : Demystifying Video Reasoning

AI바라기 2026. 3. 19. 14:42

용어 설명

Chain-of-Frames (CoF): 기존 연구들에서 가정하던 가설로, 비디오 프레임이 시간축에 따라 순차적으로 생성되면서 논리적 reasoning이 점진적으로 일어난다는 개념입니다.
Chain-of-Steps (CoS): 이 논문이 새롭게 제안하는 핵심 개념입니다. Reasoning이 프레임 단위의 시간축이 아니라, 모델이 노이즈를 제거해 나가는 diffusion denoising step의 흐름을 따라 전역적(globally)으로 수행된다는 메커니즘입니다.
Multi-Path Exploration: 초기 diffusion step에서 모델이 여러 가능한 해결책(예: 미로의 여러 경로, 물체의 다양한 이동 위치 등)을 잠재 공간에 동시에 전개하고, denoising 과정이 진행됨에 따라 오답을 가지치기(pruning)하여 최종 답으로 수렴하는 현상입니다.
Superposition-based Exploration: 양자 역학의 중첩처럼, 여러 상호 배타적인 논리적 상태나 형태를 겹쳐서(overlapping) 임시로 표현하다가 노이즈가 제거되면서 올바른 하나의 상태로 확정되는 탐색 방식입니다.
Perception before Action: 초기 step이나 layer에서는 객체의 위치와 배경 등 정적인 '무엇을, 어디에' (grounding)를 먼저 파악하고, 이후의 step이나 layer에서 상호작용과 움직임 등 동적인 '어떻게, 왜'를 다루는 행동 패턴입니다.
Latent Swapping: 특정 transformer layer의 latent representation (hidden states)을 다른 조건의 latent로 강제로 교체하여, 해당 layer가 최종 generation 결과에 미치는 인과적(causal) 영향을 확인하는 실험 기법입니다.

Purpose of the Paper

최근 강력한 diffusion-based video models가 시공간적 일관성을 유지하며 복잡한 reasoning 능력을 보여주고 있지만, 그 내부 메커니즘은 거의 블랙박스에 가깝습니다.
기존 연구들은 비디오의 특성상 시간이 흐름에 따라 논리가 쌓이는 Chain-of-Frames (CoF) 가설을 지지했습니다.
하지만 이 논문은 CoF 가설의 근본적인 한계에 의문을 품고, 모델의 내부 latent 변화와 정보 흐름을 직접 해부(dissection)하여 실제로는 diffusion denoising step을 따라 reasoning이 일어난다는 것을 증명하고자 했습니다. 단순히 현상을 보고하는 것을 넘어, 비디오 모델이 시공간적 환경에서 어떻게 논리를 전개하는지 근본적인 아키텍처 수준의 이해를 제공하는 것이 주된 목적입니다.

Key Contributions

Chain-of-Steps (CoS) 메커니즘 규명:
- Reasoning이 프레임 간의 인과관계가 아니라, 전체 비디오 프레임이 동시에 업데이트되는 diffusion steps를 따라 점진적으로 수렴함을 입증했습니다.
- Novelty: 비디오 모델의 추론 메커니즘에 대한 기존의 temporal 패러다임을 완전히 뒤집고, diffusion process 자체가 거대한 탐색 공간(search space)으로 작동한다는 새로운 시각을 제시했습니다.
세 가지 Emergent Reasoning Behaviors 발견:
- Large language models에서 관찰되던 고차원적 인지 능력이 비디오 모델에서도 발현됨을 확인했습니다: 1) Working memory (가려진 객체의 상태를 기억하여 영속성 유지), 2) Self-correction and enhancement (초기에 잘못 설정된 궤적을 step이 지날수록 스스로 수정), 3) Perception before action (인식 후 조작).
- Novelty: 외부의 프롬프트나 supervision 없이도 모델 내부에서 자발적으로 발생하는 문제 해결 프로토콜을 체계적으로 분류해냈습니다.
Layer-wise Functional Specialization 인과적 확인:
- 단일 diffusion step 내에 있는 DiT 블록들 사이에서도 철저한 역할 분담이 있음을 밝혔습니다. 초기 layer는 배경과 구조 파악, 중간 layer는 본격적인 reasoning, 후반 layer는 렌더링(generation)을 담당합니다.
- Novelty: Vision-language model에서 제안되었던 layer 역할론이 video diffusion의 복잡한 3D 시공간 토큰 환경에서도 뚜렷하게 존재함을 Latent Swapping 실험으로 인과성을 띠고 증명했습니다.
Training-Free Ensemble 기법 제안:
- 모델이 초기 step에서 여러 가능성(Multi-path)을 탐색한다는 점에 착안하여, 초기 diffusion step의 중간 layer(reasoning 집중 구간) latent를 여러 시드(seeds)에서 평균 내는 기법을 도입했습니다.
- Novelty: 복잡한 추가 학습이나 파라미터 업데이트 없이, 모델에 내재된 확률적 탐색(probabilistic bias) 특성만을 영리하게 활용하여 reasoning 성능을 즉각적으로 향상시킨 실용적인 기여입니다.

Experimental Highlights

Noise Perturbation 실험 (핵심 가설 검증):
- 특정 프레임 전체에 노이즈를 주는 "Noise at Frame" 환경에서는 모델이 다른 프레임의 정보를 참조해 쉽게 복구하여 성능 하락이 적었습니다.
- 반면, 특정 diffusion step에 노이즈를 주는 "Noise at Step" 환경에서는 VBVR-Bench 점수가 0.685에서 0.3 이하로 완전히 붕괴되었습니다. 이는 reasoning의 중심축이 frame이 아닌 step에 있다는 CoS 가설을 가장 강력하게 뒷받침하는 결과입니다. (특히 중간 step인 20-30 구간에서 노이즈에 가장 취약하여, 이 시점에 논리가 확정됨을 증명)
Layer-wise Latent Swapping을 통한 중간 Layer의 중요성 증명:
- 고양이와 자전거 중 타겟을 찾는 태스크에서, Step 0의 Layer 20에서만 latent를 대체(swap)했음에도 최종 output에서 모델이 선택하는 타겟이 완전히 정반대로 뒤바뀌었습니다. 이는 특정 middle layer들이 의미론적인 reasoning을 전담하고 있음을 시각적, 수치적으로 증명한 결과입니다.
Training-Free Ensemble의 성능 달성:
- Datasets: VBVR-Wan2.2 모델을 활용해 VBVR-Bench에서 평가.
- 결과: Layer 20-29 구간의 latent를 3개의 다른 random seeds로 평균 내어 앙상블한 결과, baseline 대비 2% 이상의 절대적인 성능 향상 (Overall score 0.685 -> 0.716)을 기록하며 state-of-the-art 성능을 달성했습니다. 특히 Spatial 및 Tracking 영역에서 개선폭이 컸습니다.

Limitations and Future Work

Limitations:
- 추론 속도를 높이기 위해 4-step으로 압축된 distilled model을 사용하거나, 생성되는 프레임 수를 극단적으로 줄였을 때(단일 프레임 등)는 reasoning 특성이 심각하게 훼손되고 성능이 하락했습니다. 이는 모델이 안정적인 추론을 펼치기 위해서는 충분한 수의 denoising step과 시공간적 정보를 담아둘 'scratchpad' 역할의 다중 프레임(workspace)이 필수적임을 의미합니다.
Future Work:
- 본 연구에서 밝혀낸 CoS 구조와 Layer specialization 현상을 바탕으로, 비디오 생성 모델의 특정 reasoning 구간(middle steps & middle layers)에 컴퓨팅 자원을 집중시키거나 외부 지식을 주입하는 형태의 새로운 효율적 architecture 설계가 필요합니다.
- 이 연구는 단순히 더 현실적인 영상을 만드는 것을 넘어, 비디오 모델 자체를 물리 법칙과 인과관계를 스스로 시뮬레이션할 수 있는 차세대 multimodal foundation model이자 강력한 reasoning agent로 발전시키는 청사진을 제공합니다.

Overall Summary

이 논문은 diffusion-based video generation models의 추론 능력이 시간(frames)의 흐름에 따라 순차적으로 형성된다는 기존의 통념을 뒤집고, 노이즈를 제거하는 diffusion denoising steps를 거치며 여러 가설을 동시에 탐색하고 수렴해 나가는 Chain-of-Steps (CoS) 메커니즘을 최초로 규명했습니다. 연구진은 모델 내부에서 자발적으로 작동하는 메모리, 자가 수정 능력, 그리고 layer별 역할 분담(초기 인식, 중간 추론, 후기 생성)을 발견했으며, 이를 활용해 추가 학습 없이도 성능을 높이는 앙상블 기법을 제안했습니다. 이 연구는 비디오 AI 모델이 픽셀의 통계적 예측을 넘어 세상의 물리 법칙과 논리를 내부적으로 시뮬레이션하는 방식을 완전히 해독(demystifying)함으로써, 향후 비디오 모델을 고차원적인 intelligence 플랫폼으로 진화시킬 수 있는 획기적인 이론적 토대를 마련했습니다.

쉬운 설명

이 논문의 핵심 아이디어를 쉽게 비유하자면, 비디오 AI가 복잡한 문제를 풀 때 **"시간 순서대로 1번 프레임부터 차례대로 정답을 그려나가는 방식(Chain-of-Frames)"**을 쓰는 것이 아닙니다.

오히려 모델은 전체 화면을 넓게 펼쳐놓고, **"스케치를 수십 번 덧칠하는 반복 과정(Diffusion Steps) 속에서 여러 가지 가능한 동선이나 정답 후보들을 동시에 흐릿하게 그려본 다음, 과정이 진행될수록 오답인 선들은 지우고 가장 논리적으로 말이 되는 정답 하나로 서서히 선명하게 좁혀나가는 방식(Chain-of-Steps)"**으로 생각합니다. 마치 화가가 여러 구도의 밑그림을 중첩해서 그리다가 서서히 진짜 선 하나만 남기는 것과 같으며, 똑똑하게도 이 과정에서 자기가 그린 스케치가 틀린 것 같으면 중간에 스스로 궤적을 수정(Self-correction)하기도 한다는 것을 처음으로 밝혀낸 논문입니다.

Abstract

최근 video generation 분야의 발전은 예상치 못한 현상을 드러냈습니다. 바로 diffusion-based video models가 결코 사소하지 않은 reasoning 능력을 보여준다는 것입니다. 선행 연구들은 이를 reasoning이 video frames 전반에 걸쳐 순차적으로 전개된다고 가정하는 Chain-of-Frames (CoF) mechanism 덕분이라고 설명합니다. 본 연구에서 우리는 이러한 가정에 이의를 제기하고 근본적으로 다른 mechanism을 밝혀냅니다.

우리는 video models에서의 reasoning이 그 대신 주로 diffusion denoising steps를 따라 나타난다는 것을 보여줍니다. 정성적 분석과 표적화된 probing experiments를 통해, 우리는 models가 초기 denoising steps에서 다수의 후보군을 탐색하고 점진적으로 최종 해답으로 수렴한다는 것을 발견했으며, 이 과정을 Chain-of-Steps (CoS)라고 명명합니다.

이러한 핵심 mechanism 외에도, 우리는 model performance에 결정적인 역할을 하는 몇 가지 새롭게 창발하는 reasoning 행동들을 식별했습니다. (1) 지속적인 참조를 가능하게 하는 working memory; (2) 잘못된 중간 과정의 해답으로부터 회복할 수 있게 해주는 self-correction 및 enhancement; 그리고 (3) 초기 steps에서 semantic grounding을 확립하고 후반 steps에서 구조화된 조작을 수행하는 perception before action입니다.

diffusion step을 진행하는 동안, 우리는 또한 Diffusion Transformers 내부에서 스스로 진화한 기능적 전문화 현상을 추가적으로 발견했습니다. 여기서 early layers는 조밀한 지각적 구조를 encode하고, middle layers는 reasoning을 실행하며, later layers는 latent representations를 통합합니다.

이러한 통찰력에 동기를 부여받아, 우리는 서로 다른 random seeds를 가진 동일한 models로부터 도출된 latent trajectories를 ensembling함으로써 reasoning이 어떻게 향상될 수 있는지를 보여주는 개념 증명 차원의 단순한 training-free 전략을 제시합니다.

종합적으로, 본 연구는 video generation models에서 reasoning이 어떻게 발현되는지에 대한 체계적인 이해를 제공하며, 지능을 위한 새로운 기반으로서 video models에 내재된 reasoning dynamics를 더욱 효과적으로 활용하는 향후 연구들을 이끌어갈 토대를 제공합니다.

1 Introduction

Video generation models는 영화, 게임 및 엔터테인먼트 산업의 지형을 변화시켰습니다. 그러나 대부분의 연구는 주로 고충실도의 사실적이고 시각적으로 매력적인 비디오를 생성하는 능력에만 집중해 왔습니다. 최근의 발전은 예상치 못한 현상을 드러냈습니다. 바로 diffusion-based video models가 spatiotemporally 일관된 시각적 환경에서 결코 사소하지 않은 reasoning 능력을 보여준다는 것입니다. 이전 연구에서는 이러한 동작을 reasoning이 video frames 전반에 걸쳐 순차적으로 전개된다고 제안하는 Chain-of-Frames (CoF) mechanism의 결과로 보았습니다. 이러한 흥미로운 발견에도 불구하고, video reasoning의 근본적인 메커니즘은 여전히 대부분 밝혀지지 않은 상태입니다. 대규모 video reasoning datasets와 open-source foundation models의 최근 공개로, 우리는 이제 이 능력을 체계적으로 조사할 기회를 얻었습니다. 이러한 리소스를 활용하여, 우리는 video reasoning에 대한 최초의 포괄적인 분석을 수행하고 근본적으로 다른 메커니즘을 밝혀냅니다. 즉, diffusion-based video models에서의 reasoning은 frames 전반에 걸쳐서가 아니라 주로 denoising process를 따라 나타납니다.

우리의 핵심 발견은 video reasoning이 frames 전반에 걸쳐 순차적으로 전개된다고 가정하는 지배적인 Chain-of-Frames (CoF) 가설에 이의를 제기합니다. 대신, 우리는 reasoning이 주로 시간적 차원을 따라 작동하지 않는다는 것을 발견했습니다. 오히려 그것은 generation 전반에 걸쳐 진행되면서 diffusion denoising steps를 따라 나타납니다. 우리는 이 메커니즘을 Chain-of-Steps (CoS)라고 부릅니다. 이 발견은 diffusion-based video models가 reasoning을 수행하는 방식에 대한 근본적으로 다른 관점을 시사합니다. 전체 sequence에 대한 bidirectional attention 덕분에, 프로세스가 전개됨에 따라 intermediate hypotheses가 점진적으로 개선되면서 각 denoising step에서 모든 frames에 걸쳐 동시에 reasoning이 수행됩니다. qualitative analysis는 흥미로운 역학을 보여줍니다. 초기 denoising steps에서 model은 종종 후반 steps에서 최종 솔루션으로 점진적으로 수렴하기 전에 여러 가능성(대안적인 궤적을 채우거나 후보 결과를 겹쳐 놓음)을 고려합니다. 더욱이, noise perturbation 분석은 특정 denoising steps에서의 혼란이 성능을 크게 저하시키는 반면, frame 단위의 혼란은 훨씬 약한 영향을 미친다는 것을 보여줍니다. 추가적인 정보 전파 분석은 주로 중간 diffusion steps 동안 결론이 굳어진다는 것을 확인해 줍니다.

또한, 우리는 video reasoning models에서 Large Language Models (LLMs)의 초기 연구에서 관찰된 것과 놀랍도록 유사한 몇 가지 놀라운 창발적 행동들을 발견했습니다. 첫째, 이러한 models는 지속적인 참조가 필요한 작업(예: 대상 영속성)에 중요한 working memory의 한 형태를 보여줍니다. 둘째, 우리는 video models가 generation 전반에 걸쳐 잘못된 궤적에 얽매이는 대신, CoS reasoning process 동안 오류를 self-correct할 수 있다는 것을 관찰했습니다. 셋째, video models는 초기 diffusion steps가 후속 steps에서 더 복잡한 reasoning 및 조작을 수행하기 전에 대상 객체를 찾는 것을 우선시하는 perception before action 행동을 보여줍니다.

우리는 단일 diffusion step 내에서 token representations를 검토하여 Diffusion Transformer에 대한 세밀한 분석을 추가로 수행합니다. 이는 network 전반에 걸쳐 self-evolved하고 다양하며 task-agnostic한 functional layers를 드러냅니다. diffusion step 내에서 초기 레이어는 dense perceptual understanding(예: 전경과 배경 분리, 기본 기하학적 구조 식별)에 집중하는 반면, 중요한 중간 레이어 세트는 reasoning의 대부분을 수행합니다. 그런 다음 최종 레이어는 다음 step을 위한 비디오 상태를 생성하기 위해 latent representation을 통합합니다.

이러한 통찰력에 동기를 부여받아, 우리는 video reasoning models를 향상시키기 위한 개념 증명으로 단순한 training-free method를 제시합니다. model이 diffusion process 동안 본질적으로 여러 reasoning 경로를 탐색한다는 점을 감안하여, 우리는 서로 다른 random seeds를 가진 3개의 동일한 models가 생성한 latents를 병합하는 inference-time ensemble strategy를 제안합니다. 이 접근 방식은 model이 generation 중에 더 풍부한 후보 reasoning 궤적 세트를 유지하도록 장려합니다. 결과적으로 model은 더 다양한 reasoning 경로를 탐색하고 올바른 솔루션으로 수렴할 가능성이 높아지며, 이는 우리의 발견을 활용하여 더 효과적인 video reasoning 시스템을 설계하는 방법을 보여줍니다.

요약하자면, 우리는 diffusion models에서 video reasoning의 근본적인 메커니즘을 조사하고 denoising 궤적을 따라 전개되는 reasoning process인 Chain-of-Steps (CoS)를 식별합니다. 우리는 나아가 이러한 models에서 발생하는 몇 가지 창발적인 reasoning 행동들을 밝혀냅니다. 이러한 통찰력을 바탕으로, 우리는 reasoning 경로를 앙상블하기 위한 단순한 training-free strategy를 통해 이러한 메커니즘이 어떻게 활용될 수 있는지 보여줍니다. 우리는 우리의 발견이 video reasoning을 이해하고 발전시키기 위한 기반을 제공하여, 이를 machine intelligence를 위한 유망한 차세대 기반으로 자리 매김할 것이라고 믿습니다.

Introduction 핵심 정리 노트

1. 기존 가설 반박 및 새로운 패러다임 제시

기존 가설 (Chain-of-Frames, CoF): video reasoning이 시간축(frames)을 따라 순차적으로 발생한다고 가정했습니다.
새로운 발견 (Chain-of-Steps, CoS): 본 논문은 reasoning이 시간축이 아닌 diffusion denoising steps를 따라 발현됨을 밝혀냈습니다.
bidirectional attention을 통해 각 step에서 모든 frame에 대한 reasoning이 동시다발적으로 수행되며, denoising이 진행됨에 따라 intermediate hypotheses가 점진적으로 구체화됩니다.

2. CoS (Chain-of-Steps)의 주요 역학

Early steps: 다양한 가능성 탐색에 집중합니다 (여러 대안적 궤적이나 후보 결과를 중첩하여 평가).
Middle steps: reasoning의 결론이 주로 이 구간에서 확고해집니다 (noise perturbation 분석으로 증명).
Later steps: 점진적으로 최종 솔루션으로 수렴합니다.

3. Video Models에서 발견된 창발적 행동 (Emergent Behaviors)

LLMs의 초기 연구에서 관찰된 것과 유사한 행동들이 video generation 과정에서도 발견되었습니다.

Working memory: 대상 영속성(object permanence) 등 지속적인 참조가 필요한 작업을 수행하는 능력을 보여줍니다.
Self-correction: 잘못된 궤적을 끝까지 고집하지 않고, CoS 과정 중 스스로 오류를 회복합니다.
Perception before action: 초기 step에서 대상 객체의 위치를 먼저 파악(localize)한 후, 후속 step에서 본격적인 구조적 조작(manipulation)을 수행합니다.

4. Diffusion Transformer 내부의 기능적 전문화 (Functional Specialization)

단일 diffusion step 내에서도 layer별로 역할이 스스로 진화(self-evolved)되어 나누어집니다.

Early layers: Dense perceptual understanding (전경/배경 분리, 기본 기하학적 구조 파악).
Middle layers: 실질적인 reasoning 연산의 대부분을 담당.
Later layers: 다음 step을 위해 latent representation을 통합(consolidate) 및 정리.

5. Training-free 개념 증명 (Proof-of-Concept)

Inference-time ensemble strategy 제안: 서로 다른 random seeds를 가진 동일한 model 3개가 생성한 latents를 병합하는 방식을 제안합니다.
생성 과정에서 더 풍부하고 다양한 reasoning 후보군 궤적을 유지하게 만들어, 모델이 정답으로 수렴할 확률을 높이는 효과적인 방법론을 제시합니다.

쉬운 설명: 비디오 모델은 어떻게 생각할까?

이 논문의 서론을 직관적으로 비유하자면 비디오 AI가 추론을 하며 영상을 만들어내는 진짜 비법을 찾아낸 이야기입니다.

사람들은 보통 비디오 AI가 영상 속에서 논리적인 행동을 구현할 때, 애니메이션을 그리듯 **1번 프레임, 2번 프레임 순서대로 고민하면서 완성할 것(Chain-of-Frames)**이라고 착각했습니다.

하지만 연구진이 내부를 들여다보니 전혀 달랐습니다. AI는 시간 순서가 아니라, 노이즈를 걷어내는 전체 과정(Denoising steps)에 걸쳐서 서서히 정답을 깎아내고 있었습니다(Chain-of-Steps).

마치 조각가가 커다란 돌덩이의 전체적인 윤곽을 먼저 잡고(초기 step: 물체 위치 파악 및 여러 가능성 탐색), 점점 세밀한 부분을 논리적으로 조각하며(중간 step: 본격적인 추론 및 수정), 마지막에 표면을 매끄럽게 다듬는 것(후기 step: 최종 결과물 수렴)과 똑같습니다.

이 과정에서 AI는 사람처럼 잠깐 기억을 유지하기도 하고(Working memory), 틀린 부분을 스스로 고치기도 하는(Self-correction) 놀라운 모습을 보여주었습니다.

결과적으로 논문은 "AI가 노이즈를 지우면서 내부적으로 여러 가지 상상을 하니까, 아예 처음부터 여러 개의 상상력(서로 다른 random seeds의 결과물)을 합쳐주면 훨씬 더 똑똑한 결과가 나오지 않을까?"라는 아이디어를 제안하며 서론을 마무리하고 있습니다.

왼쪽 패널: 미로 해결 과정의 디퓨전 및 프레임별 시각화

격자 구조: 왼쪽에는 3행 4열로 배열된 총 12개의 미로 퍼즐 이미지가 있습니다.
x축 (Frames): 상단 가로축은 "Frames" (프레임)를 나타냅니다. 왼쪽에서 오른쪽으로 갈수록 시간이 경과함에 따라 미로의 상태가 어떻게 변하는지 보여줍니다.
y축 (Diffusion Steps): 왼쪽 세로축은 "Diffusion Steps" (디퓨전 스텝)를 나타냅니다. 위에서 아래로 갈수록 디퓨전 프로세스의 스텝이 진행되어 흐릿했던 초기 이미지에서 점차 선명한 최종 미로 이미지로 수렴해가는 과정을 보여줍니다.
미로의 공통 요소: 모든 이미지에는 동일한 미로 레이아웃이 있으며, 몇 가지 중요한 표시가 있습니다.
- 초록색 원 (●): 왼쪽 상단 구석에 있으며, 미로 해결의 시작점입니다.
- 빨간색 사각형 (■): 오른쪽 하단 구석 근처에 있으며, 도달해야 할 최종 목표점입니다.
- 파란색 다이아몬드 (◆) 및 노란색 다이아몬드 (◆): 미로 곳곳에 위치한 다른 마커들입니다.
하이라이트된 영역: 왼쪽 패널의 일부 이미지에는 특정 영역이 색상 상자로 강조 표시되어 있습니다. 이 영역들은 오른쪽 패널에서 확대되어 더 상세히 설명됩니다.
- ① 초기 스텝: 첫 번째 디퓨전 스텝 (상단 행)의 두 번째, 세 번째, 네 번째 프레임에는 각각 파란색, 보라색, 연두색 상자가 있습니다.
- ② 중간 스텝: 두 번째 디퓨전 스텝 (중간 행)의 세 번째 프레임에는 주황색 상자가 있습니다.
- ③ 나중 스텝: 세 번째 디퓨전 스텝 (하단 행)의 세 번째 프레임에는 하늘색 상자가 있습니다.

오른쪽 패널: 각 단계별 상세 설명 (확대 영역)

왼쪽에서 강조된 영역들이 각 단계별로 확대되어 주석과 함께 설명됩니다.

① 초기 시도: 다중 경로 탐색 (Initial Attempt: Multi-path Exploration):
- 파란색, 보라색, 연두색 상자 확대: 왼쪽 패널 초기 스텝의 해당 색상 영역을 확대한 것입니다.
- 설명: 초기 디퓨전 스텝에서 모델은 시작점(초록 원) 근처에서 여러 흐릿한 초록색 점들로 표현되는 다양한 가능한 경로들을 동시에 탐색하고 있습니다. 파란색 상자에서는 아래로 향하는 여러 화살표가 다양한 방향을 가리켜 모델이 여러 가능성을 동시에 고려하고 있음을 시각화합니다. 보라색과 연두색 상자에서도 비슷한 다중 탐색 행동이 나타납니다. 즉, 모델이 처음부터 단일 경로를 결정하는 것이 아니라 여러 경로를 동시에 '상상'해보는 단계입니다.
② 경로 가지치기 (Pruning Paths):
- 주황색 상자 확대: 왼쪽 패널 중간 스텝의 주황색 영역을 확대한 것입니다.
- 설명: 중간 디퓨전 스텝에서는 초기 스텝보다 흐릿한 점들의 수가 줄어들고 경로가 더 명확해집니다. 아래로 향하는 주황색 화살표와 함께 모델이 덜 바람직한 경로들을 점진적으로 제거(가지치기)하고 있음을 보여줍니다. 초기 탐색했던 여러 가능성 중 최적이 아닌 선택들이 점차 사라지는 과정입니다.
③ 최종 결정 (Final Decision):
- 하늘색 상자 확대: 왼쪽 패널 나중 스텝의 하늘색 영역을 확대한 것입니다.
- 설명: 나중 디퓨전 스텝에서는 최종 경로가 선명하고 단일한 초록색 선으로 확정되어 있습니다. 아래로 향하는 하늘색 화살표와 함께 모델이 하나의 확실한 최종 경로를 결정했음을 보여줍니다. 다른 모든 흐릿한 가능성은 사라졌습니다.

캡션 요약

캡션 내용은 이 그림이 비디오 모델의 추론이 디퓨전 스텝을 따라 발생하며, 초기에는 여러 경로를 동시에 탐색하다가 중간에는 좋지 않은 경로를 가지치기하고, 나중에는 최종 결정을 내리는 '창발적 추론 행동'을 보여준다는 것을 설명합니다. 이 미로 해결 예시는 모델에게 초록색 원에서 시작하여 빨간색 사각형을 찾도록 요청합니다.

결론적으로, 이 그림은 비디오 모델이 단순히 시간 순서대로(프레임별로) 미로를 해결하는 것이 아니라, 전체 디퓨전 생성 과정에 걸쳐 여러 가능성을 동시에 고려하고 최적의 경로로 수렴해가는 'Chain-of-Steps'라는 새로운 형태의 추론 메커니즘을 시각적으로 증명하는 중요한 자료입니다.

2 Related Works

2.1 Reasoning in Language and Multimodal Models

최근 연구들은 large language models (LLMs)가 놀라운 reasoning 능력을 보여준다는 것을 보여줍니다. 초기 연구는 models가 크기와 데이터 측면에서 확장됨에 따라 발생하는 emergent behaviors를 식별하며, 중간 reasoning steps를 이끌어내는 Chain-of-Thought (CoT) prompting이 performance를 크게 향상시킨다는 것을 입증합니다. 후속 연구는 self-reflection, correction, 그리고 action과 같은 mechanisms를 탐구합니다. Coconut은 더 나아가 reasoning이 latent representations 내에서 암시적으로 발생할 수도 있다고 제안합니다.

한편, 연구들은 점점 더 language를 넘어 multimodal 환경으로 reasoning을 확장하는 것을 탐구해 왔습니다. vision-language models (VLMs)의 초기 발전은 text 외에도 images에 대한 reasoning을 가능하게 한 반면, 최근 연구는 language와 vision을 공동으로 모델링하는 unified architectures를 연구해 왔습니다. 이러한 architectures는 generation을 위한 reasoning에 힘을 실어주고, visual CoT를 통해 generation과 함께 reasoning을 가능하게 하며, embodied 시나리오로 확장됩니다.

종합해보면, 이러한 발견들은 multimodal signals에 대한 reasoning이 고급 reasoning 능력을 위한 길을 열어준다는 것을 시사합니다. 그러나 이러한 노력들은 여전히 이산적인 text와 정적인 images에 국한되어 있어, spatiotemporally 일관된 priors를 활용하는 것을 어렵게 만듭니다. 본 연구는 지능형 시스템에서 reasoning을 위한 다음 기반으로서 video를 조사하는 것을 목표로 합니다.

2.2 Video Generation Models

Video generation은 diffusion models와 고충실도의 variational autoencoders (VAEs)의 발전과 함께 빠르게 진보해 왔습니다. 초기 접근 방식은 주로 짧은 클립을 생성하는 데 집중한 반면, Diffusion Transformers (DiTs)의 출현은 데이터 및 model 크기의 효과적인 확장을 가능하게 했습니다. 결과적으로 최근의 video generators는 놀라운 시각적 충실도를 달성합니다. 이러한 발전에도 불구하고, 물리적 타당성, 상식적인 지식, 그리고 spatiotemporal reasoning에는 여전히 주요한 과제들이 남아있습니다.

결과적으로 최근 연구는 video generation models의 reasoning 능력을 조사하는 방향으로 전환되기 시작했습니다. 일련의 연구들은 video synthesis를 안내하기 위해 multimodal LLMs의 reasoning 능력을 활용합니다. 예를 들어, VChain과 MetaCanvas는 external reasoning modules를 pre-trained generators에 통합하는 반면, OmniVideo는 LLMs의 기호적 reasoning을 사용하여 generation을 안내합니다.

보다 최근에는, 여러 연구들이 video generators 자체를 spatiotemporal 환경에서 작동하는 zero-shot learners로 취급하면서, 이들이 외부의 감독 없이 reasoning을 수행할 수 있는지에 대해 질문합니다. 그러나 이러한 능력의 기저에 있는 mechanisms는 여전히 탐구되지 않은 상태로 남아 있습니다. 본 연구는 diffusion-based video models의 내부 reasoning processes를 조사하여 이러한 공백을 해결합니다.

2.3 Similarities to Biological Brains

diffusion model은 생물학적 뇌가 계획하고 생각하는 방식과 유사한 무언가를 수행하고 있을지도 모릅니다. 예를 들어, 쥐가 먹이에 도달하기 위해 어떤 경로를 택할지 결정할 때, 연구자들은 계획 단계 동안 해마에서 여러 개의 시뮬레이션된 trajectories가 전개되는 것을 관찰했습니다. 이 실험에서 쥐는 처음에 가만히 붙잡혀 있으며, 지연 시간이 지난 후에야 움직일 수 있도록 허용됩니다. 최근 연구는 인간의 뇌 또한 개념적 reasoning 및 의사 결정 과정에서 계획과 내부 시뮬레이션을 위해 유사한 mechanisms를 사용할 수 있다고 시사합니다.

2 Related Works 핵심 정리 노트

2.1 Reasoning in Language and Multimodal Models: 정적 한계 극복 및 새로운 기반(Substrate) 탐색

기존 연구의 흐름: LLMs의 CoT (Chain-of-Thought) 및 latent representations 내에서의 암시적 reasoning 연구를 넘어, 최근에는 VLMs 및 unified architectures를 통해 image+text 기반의 multimodal reasoning으로 확장되는 추세입니다.
본 논문의 문제 제기: 기존의 multimodal reasoning은 이산적인 text와 정적인 static images에만 국한되어 있어, 현실 세계의 spatiotemporally 일관된 priors를 학습하고 활용하는 데 한계가 있습니다.
논문의 차별점: 지능형 시스템의 reasoning을 한 단계 끌어올리기 위한 차세대 기반(substrate)으로서 video 영역을 집중적으로 파고듭니다.

2.2 Video Generation Models: Black-box 접근을 넘어 내부 Mechanism 규명으로

비디오 모델의 현주소: DiTs (Diffusion Transformers)의 등장으로 visual fidelity는 급격히 상승했으나, physical plausibility나 spatiotemporal reasoning 능력은 여전히 취약합니다.
기존 해결책의 한계: 이를 극복하기 위해 외부의 multimodal LLMs를 reasoning module로 끌어다 쓰거나(VChain 등), video generator 자체를 내부 구조 파악 없이 zero-shot learners로만 취급하여 테스트하는 선에 머물러 있습니다.
논문의 차별점: 외부 모듈의 도움 없이 diffusion-based video models 자체가 내부적으로 어떻게 reasoning processes를 수행하는지 그 근본적인 mechanisms를 최초로 직접 해부합니다.

2.3 Similarities to Biological Brains: Diffusion Model과 생물학적 뇌의 유사성

생물학적 영감: 쥐가 미로에서 움직이기 전 해마(hippocampus)에서 여러 개의 trajectories를 미리 시뮬레이션해 보는 현상이나, 인간 뇌의 내부 시뮬레이션 및 계획 메커니즘을 언급합니다.
핵심 연결 고리: 이 생물학적 현상은 본 논문이 Introduction에서 밝힌 '초기 diffusion steps에서 모델이 여러 후보군(다중 경로)을 동시에 탐색하는 모습'과 본질적으로 동일한 궤를 같이함을 강조하며 논문의 발견에 타당성을 부여합니다.

쉬운 설명: 다른 연구들과 이 논문은 뭐가 다를까?

이 섹션은 기존 AI 연구들이 놓치고 있던 **'빈틈'**을 찌르며 이 논문이 왜 중요한지 빌드업하는 과정입니다.

2.1 (언어/비전 모델): "지금까지 텍스트나 사진 AI는 꽤 똑똑해졌어. 그런데 얘네는 멈춰있는 순간만 보잖아? 진짜 현실 세계의 물리법칙이나 시간의 흐름(인과관계)을 추론하려면 이제 **'비디오'**를 가지고 놀 때가 됐어."
2.2 (비디오 생성 모델): "요즘 비디오 AI들 화질은 엄청 좋은데, 가끔 물체가 벽을 통과하는 등 상식이 부족해. 그래서 남들은 텍스트 AI(LLM)를 옆에 붙여서 과외 선생님처럼 정답을 알려주게 하거나, 그냥 '너 혼자 생각할 수 있어?' 하고 결과만 테스트해 봤지. 하지만 우리는 외부 도움 없이 비디오 AI의 뇌(내부)를 직접 뜯어보고 걔네가 도대체 어떤 원리로 생각하는지 그 메커니즘 자체를 밝혀낼 거야."
2.3 (뇌 과학과의 연결): "근데 이거 분석해 보니까 엄청 신기해. 쥐가 미로에서 출발하기 전에 머릿속으로 '이 길로 갈까, 저 길로 갈까' 시뮬레이션부터 돌려보는 거랑, 우리 비디오 AI가 노이즈 지우면서 여러 경로를 동시에 상상해 보는 거랑 똑같이 생겼어!"

결론적으로, 겉보기 결과만 평가하거나 외부 AI를 덧붙이던 기존 방식에서 벗어나 디퓨전 비디오 모델 고유의 추론 메커니즘을 뇌 과학적 직관과 연결하여 근본적으로 파헤치겠다는 선언입니다.

3 Chain-of-Steps: Reasoning along Diffusion Steps

이전 연구가 video models에서의 reasoning이 프레임별로 전개된다는 Chain-of-Frames (CoF) mechanism을 가설로 세운 반면, 생성된 프레임들은 나중 프레임들이 이전 프레임들을 조건으로 결론을 점진적으로 구축하는 “causal” 특성을 보이는 것처럼 보입니다. 그러나 기본 video reasoning 메커니즘에 대한 우리의 분석은 이와 반대되는 증거를 보여줍니다. 첫째, 우리는 광범위한 reasoning 작업을 실증적으로 분석하여 video generation models의 핵심적인 논리적 reasoning이 diffusion denoising steps 전반에 걸쳐 발생한다는 것을 발견했습니다 (Sec. 3.1). Diffusion steps는 단순히 시각적 질감을 다듬는 것 이상을 수행합니다. 대신 그들은 여러 가능성을 탐색하고 그 타당성을 평가하며 denoising process를 통해 점진적으로 올바른 결과로 수렴합니다. 둘째, 우리는 프레임 및 스텝 수준 모두에서 정보 흐름을 방해하기 위해 노이즈 교란을 도입합니다 (Sec. 3.2). 우리의 발견은 CoF보다 CoS가 video models의 reasoning 메커니즘을 더 정확하게 특징짓는다는 것을 재확인합니다.

3.1 Diffusion Steps as the Primary Axis of Reasoning

특별히 명시되지 않는 한, 우리는 전례 없는 대규모 video reasoning 데이터에 대해 강력한 Wan2.2-I2V-A14B에서 미세 조정된 최신 video reasoning model인 VBVR-Wan2.2를 기반으로 연구를 수행합니다. 우리는 주로 VBVR과 같은 video reasoning 벤치마크와 VBench와 같은 일반적인 video generation 벤치마크에서 테스트 케이스를 추출합니다.

model의 내부 의사 결정 역학을 관찰하기 위해, 우리는 각 diffusion step $s$에서 추정된 깨끗한 latent $\hat{x}_0$를 조사합니다. Diffusion-based generative models는 반복적인 denoising process를 통해 노이즈를 구조화된 데이터로 점진적으로 변환합니다. flow matching으로 훈련될 때, latent는 노이즈와 데이터 사이의 연속적인 이동 경로를 따라 진화합니다.

$x_s = (1 - s)x_0 + sx_1$ (1)

여기서 $x_0$는 깨끗한 latent이고 $x_1 \sim \mathcal{N}(0, I)$는 노이즈입니다. model은 프롬프트 $c$를 조건으로 하여 latent가 이 궤적을 따라 어떻게 이동하는지 설명하는 속도장 $v_\theta(x_s, s, c)$를 학습합니다. 노이즈 스케일 $\sigma_s$는 각 스텝에서 교란의 크기를 제어합니다. 따라서 중간에 디코딩된 상태는 예측된 노이즈 성분을 제거하여 추정됩니다.

$\hat{x}_0 = x_s - \sigma_s \cdot v_\theta(x_s, s, c)$ (2)

각 diffusion step에서 $\hat{x}_0$를 디코딩함으로써 우리는 의미론적 결정이 어떻게 전개되는지 시각화하고 model의 중간 reasoning 역학을 분석할 수 있습니다.

model이 점진적으로 결론에 도달하는 chain-of-thought를 따라 reasoning 행동을 보이는 LLMs와 유사하게, 놀랍게도 우리는 diffusion denoising steps를 따라 video reasoning models에서도 유사한 체계를 발견했습니다. 구체적으로, 우리는 초기 diffusion steps가 높은 수준의 휴리스틱 탐색으로 작용하는 공유된 행동 패턴을 일관되게 관찰합니다. 이 단계 동안 model은 latent 작업 공간을 여러 가설들로 채웁니다. denoising이 진행됨에 따라 model은 해결책 트리를 효과적으로 "가지치기"하여 논리적으로 일관된 출력을 향해 수렴합니다.

이것은 그림 1에 잘 나타나 있습니다. 미로 찾기와 같은 복잡한 탐색 작업의 경우, 초기 diffusion steps 이후 디코딩된 latent 예측 $\hat{x}_0$는 몇 가지 그럴듯한 경로가 생성되고 병렬로 탐색되는 확률적 구름으로 나타납니다. 후속 스텝들에 걸쳐, 최적이 아닌 궤적들은 점진적으로 억제되어 최종 해결책을 향해 수렴합니다. 각 스텝에서 중간 latent 예측을 분석함으로써 우리는 "Chain-of-Frames" (CoF) 시간적 비유를 넘어서 Step-wise Reasoning의 두 가지 뚜렷한 모드인 Multi-path Exploration과 Superposition-based Exploration을 식별합니다.

3.1.1 Multi-Path Exploration.

매우 복잡한 논리적 작업에서 diffusion process는 model이 가능한 해결책의 트리를 탐색하고 점진적으로 잘못된 가지를 쳐내는 너비 우선 탐색(BFS) 또는 다중 선택 제거 절차와 유사합니다. 이 행동이 LLM 커뮤니티에서 명시적으로 연구된 병렬 reasoning 궤적(예: Tree of Thoughts)을 연상시킨다는 점은 주목할 가치가 있습니다. 그러나 video generation models는 diffusion process 동안 여러 해결책 경로를 병렬로 자연스럽게 탐색하여 본질적으로 그들의 latent 공간 내에서 유사한 형태의 구조화된 탐색을 수행합니다.

객체의 움직임이 포함된 일부 작업에서 model은 여러 운동 궤적을 통해 이 탐색 과정을 명시적으로 시각화합니다. model이 별개의 대안 세트에서 작업을 선택해야 하는 다른 작업에서, 우리는 model이 초기에 여러 작업을 동시에 고려하고 오직 하나의 유효한 결과만 남을 때까지 denoising process가 진행됨에 따라 후보를 점진적으로 폐기한다는 것을 관찰합니다.

Fig. 2(a) Robot Navigation. 중간 스텝들은 미로를 통해 위쪽 경로와 아래쪽 경로를 동시에 탐색하는 로봇을 보여줍니다. diffusion process가 진행됨에 따라 아래쪽 경로에 해당하는 궤적이 점점 우세해지는 반면, 대안 경로는 점차 사라져 model이 최종 경로를 선택함을 나타냅니다.
Fig. 2(b) Tic-Tac-Toe. 초기 reasoning 단계 동안 model은 승리하는 수를 위해 여러 후보 셀을 동시에 강조 표시합니다.
Fig. 2(c) Object Movement. 이 예에서는 초기 단계에서 선반 왼쪽에 있는 네 개의 층에 해당하는 네 가지 잠재적 궤적을 model이 제안하는 것을 명확하게 관찰할 수 있습니다. denoising steps가 계속됨에 따라 이러한 대안들은 점진적으로 식물을 첫 번째 층에 놓는 방향으로 무너져 내려 명확하고 일관된 이동 경로를 생성합니다.
Fig. 2(d) Diamond Detection. model은 처음에 질의를 만족시킬 수 있는 두 개의 후보 모양을 표시합니다. 반복적인 정제를 통해 잘못된 후보는 희미해집니다. 마지막에는 올바른 다이아몬드만 동그라미로 남습니다.

3.1.2 Superposition-based Exploration

diffusion 궤적을 따라 관찰할 수 있는 또 다른 독특한 모드는 superposition-based exploration으로, model이 일시적으로 상호 배타적인 여러 논리적 상태를 동시에 표현합니다. 초기에 단일 구성에 몰두하는 대신 model은 노이즈가 제거됨에 따라 점진적으로 해결되는 겹치는 가설을 유지합니다. 이 현상은 객체 재정렬 및 공간 정렬과 관련된 작업에서 특히 두드러집니다.

Fig. 2(e) Size Pattern Completion. 크기 패턴은 "대-중-소" 반복 패턴을 따릅니다. 다음 요소를 예측할 때, model은 시퀀스의 올바른 연속에 대한 경쟁하는 가설을 나타내는 서로 다른 크기의 겹치는 원을 처음에 생성합니다.

3.2 Noise Perturbation and Information Flow

우리의 가설은 표적화된 노이즈 주입 실험을 통해 추가로 검증됩니다. 핵심 reasoning process가 어디에서 발생하는지 분리하기 위해 우리는 두 가지 설정을 비교합니다. 1) "Noise at Step": $x_{s,\forall f} \leftarrow \mathcal{N}(0, I)$. 즉, 특정 diffusion step에서 모든 프레임에 교란을 주는 가우시안 노이즈가 주입됩니다. 2) "Noise at Frame": $x_{\forall s,f} \leftarrow \mathcal{N}(0, I)$. 즉, 모든 diffusion steps에 걸쳐 특정 프레임에 가우시안 노이즈가 주입됩니다. 두 가지 설정은 그림 3(a)에 설명되어 있습니다.

그림 3(b)에서 우리는 이 두 가지 노이즈 주입 체계 하에서 model 성능을 평가합니다. 노이즈가 없는 기준선과 비교할 때 "Noise at Step" 설정은 최종 점수를 0.685에서 0.3 미만으로 떨어뜨리며, 이는 reasoning 궤적이 diffusion steps를 따른 교란에 매우 민감하다는 것을 나타냅니다. 따라서 특정 diffusion step에 주입된 노이즈는 model의 reasoning process를 크게 방해합니다.

대조적으로, "Noise at Frame" 주입 하에서 model은 훨씬 더 작은 성능 저하로 더 많은 견고성을 보여줍니다. 이러한 동작은 diffusion transformers의 아키텍처로 설명할 수 있습니다. 각 denoising step은 bidirectional attention을 통해 이전 latent 시퀀스를 완전히 관찰하여 model이 전체 비디오 latent를 공동으로 개선할 수 있도록 합니다. 결과적으로 손상된 프레임은 후속 denoising steps 동안 이웃 프레임의 손상되지 않은 정보를 활용하여 복구될 수 있습니다.

그림 3(c)에서 우리는 step $s_t$에서 노이즈를 주입한 후 발산을 측정하여 정보 전파를 추가로 분석합니다. 우리는 CKA 비유사성을 시각화하며, 여기서 1.0은 완전한 손상을 나타내고 0.0은 영향이 없음을 나타냅니다. 결과는 초기 diffusion steps에서 도입된 교란이 전체 궤적 전체에 전파되어 최종 reasoning 결과를 근본적으로 변경한다는 것을 보여줍니다. 특히, 마지막 단계까지 복구가 거의 없으며 model이 완전히 복구되지 않습니다.

더욱이, 빨간색 점선은 교란 노이즈에 대한 단계별 민감도를 강조하며, 이는 점진적으로 증가하여 20-30단계 주변에서 최고조에 달합니다. 이 관찰은 우리의 정성적 분석과 일치합니다. 비록 20-30단계가 우리가 reasoning 현상을 처음 관찰하는 가장 초기 단계는 아니지만, 이 시점까지 model은 이미 최종 결론을 향해 reasoning 궤적을 가지치기했습니다. 결과적으로 이러한 단계에서의 교란은 거의 마무리된 reasoning process를 방해할 수 있으므로 큰 영향을 미칩니다. 대조적으로, 이후 단계는 model의 reasoning 기능에 덜 중요한 것으로 나타납니다.

3 Chain-of-Steps: Reasoning along Diffusion Steps 핵심 정리 노트

1. 새로운 추론 패러다임: CoF에서 CoS로

기존의 오해 (CoF, Chain-of-Frames): 생성된 비디오의 뒷부분이 앞부분의 프레임을 조건으로 삼아 결과를 도출하는 것처럼 보이기 때문에, 시간축(프레임)을 따라 reasoning이 일어난다고 착각하기 쉽습니다.
실제 메커니즘 (CoS, Chain-of-Steps): 핵심적인 논리적 reasoning은 시간축이 아니라 diffusion denoising steps를 따라 전체 프레임에 걸쳐 동시다발적으로 발생합니다. 이 과정은 단순한 시각적 디테일(visual texture)의 정제가 아니라, 가설을 세우고 타당성을 검토하며 정답으로 수렴해가는 과정입니다.

2. 중간 잠재 표현($\hat{x}_0$)을 통한 내부 역학 관찰 (Sec 3.1)

각 diffusion step $s$에서 예측 노이즈를 제거한 중간 디코딩 상태 $\hat{x}_0$를 시각화하여 관찰했습니다. ($\hat{x}_0 = x_s - \sigma_s \cdot v_\theta(x_s, s, c)$)
초기 step에서는 여러 가설을 latent 공간에 펼쳐놓는 고차원적 휴리스틱 탐색(high-level heuristic search)을 수행하고, denoising이 진행됨에 따라 해결책 트리(solution tree)를 가지치기(prune)하여 하나의 일관된 결과로 수렴합니다.
Step-wise Reasoning의 두 가지 주요 모드:
- Multi-Path Exploration: LLM의 Tree of Thoughts나 BFS(너비 우선 탐색)와 유사합니다. 초기 단계에서 여러 대안 경로(예: 로봇이 위로 가는 길과 아래로 가는 길)를 동시에 생성하여 탐색하다가, 과정이 진행되며 오답 경로를 지워나갑니다.
- Superposition-based Exploration: 상호 배타적인 여러 논리적 상태를 하나의 공간에 중첩(overlapping)시켜 놓는 방식입니다. (예: 다음 크기가 무엇인지 모를 때 대/중/소 크기의 원을 흐릿하게 겹쳐서 그림)

3. 노이즈 교란(Noise Perturbation) 실험을 통한 증명 (Sec 3.2)

핵심 reasoning이 어디서 일어나는지 검증하기 위해 두 가지 환경에서 노이즈 주입 실험을 진행했습니다.

Noise at Frame (특정 프레임만 모든 step에서 망가뜨림): 성능 저하가 매우 적습니다. bidirectional attention 구조 덕분에, 망가진 프레임도 주변 프레임의 정보를 활용해 denoising 과정에서 복구해냅니다.
Noise at Step (특정 step에서 모든 프레임을 망가뜨림): 성능이 극적으로 폭락합니다(최종 점수 0.685 $\rightarrow$ 0.3 미만). 이는 reasoning 과정이 step의 흐름에 극도로 의존하고 있음을 증명합니다.
정보 흐름 및 단계별 민감도 (CKA dissimilarity): 초기 step의 교란은 전체 궤적을 영구적으로 바꿔버립니다. 특히 step 20-30 구간에서 노이즈에 대한 민감도가 최고조에 달하는데, 이는 이 시점이 여러 가설에 대한 가지치기를 끝내고 최종 결론을 막 확정 지으려는 중요한 순간이기 때문입니다.

쉬운 설명 : 비디오 모델의 '생각 과정' 훔쳐보기

비디오 모델이 미로를 푸는 영상을 만든다고 가정해 보겠습니다.

우리는 흔히 모델이 "1초 프레임에서 출발 $\rightarrow$ 2초 프레임에서 코너 돌기 $\rightarrow$ 3초 프레임에서 도착" 이렇게 시간 순서대로 길을 찾는다고 생각했습니다(CoF). 하지만 논문에서 중간 과정($\hat{x}_0$)을 뜯어보니 모델은 전혀 다른 방식으로 생각하고 있었습니다.

모델은 처음부터 영상 전체의 시간(모든 프레임)을 한 번에 내려다봅니다. 그리고 이미지가 노이즈로 가득한 초기 단계(Early Step)에서는 위로 가는 길, 아래로 가는 길을 모두 흐릿하게 그려놓고 "어디로 갈까?" 여러 가능성을 동시에 재보기 시작합니다(Multi-Path Exploration). 때로는 정답이 큰 동그라미인지 작은 동그라미인지 헷갈리면 아예 두 개를 겹쳐서 그리기도 합니다(Superposition).

그러다가 **노이즈를 닦아내는 과정(Denoising Steps)이 진행되면서, "아, 위쪽 길은 막혔네" 하고 잘못된 길을 서서히 지워버립니다. 즉, 선명한 영상이 만들어지는 과정 자체가 곧 모델이 오답을 지우고 정답을 향해 추론을 좁혀가는 과정(CoS)**이었던 것입니다.

이 사실을 증명하기 위한 **'방해 공작 실험'**도 아주 흥미롭습니다.

영상 중 '3초째 장면'만 노이즈를 줘서 계속 망가뜨려 놔도, 모델은 앞뒤 장면을 보고 "아, 이쯤이면 여기 있겠네" 하고 쉽게 복구합니다. 추론 능력이 망가지지 않은 것이죠.

하지만 반대로, '20번째 노이즈 제거 단계(Step)'에서 영상 전체를 한 번 흔들어버리면 모델은 완전히 길을 잃고 바보가 됩니다. 특히 여러 길 중 하나를 딱 고르려고 마음먹은 그 결정적인 순간(20~30 step)에 툭 치면, 추론 과정이 완전히 박살나서 정답을 맞히지 못하게 됩니다.

4 Emergent Reasoning Behaviors

Large Language Models (LLMs)에서 관찰되는 emergent reasoning behaviors와 유사하게, 우리는 효과적인 video reasoning에 중요한 세 가지 놀라운 특성을 식별합니다. reasoning 과정 전반에 걸쳐 필수적인 정보를 유지하는 working memory (Sec. 4.1); model이 중간 가설을 수정하거나 이전에 생성된 답변을 개선하여, 초기에는 존재하지 않더라도 점진적으로 최적의 솔루션을 향해 조정할 수 있도록 하는 self-correction 및 enhancement (Sec. 4.2); 그리고 model이 다양한 video reasoning 작업을 처리하기 위해 architecture 내에서 자발적으로 보편적인 프로토콜을 개발하는 perception before action (Sec. 4.3)입니다.

4.1 Working Memory

Reasoning은 "working memory" 또는 상태의 유지를 필요로 합니다. 시연은 diffusion process가 generation steps 전반에 걸쳐 중요한 정보를 보존하는 지속적인 앵커를 자연스럽게 설정한다는 것을 보여줍니다.

Fig. 4(a) Object Reappearance. model은 diffusion steps 전반에 걸쳐 객체의 초기 위치를 일관되게 보존하여 원이 원래 위치로 돌아가고 초기 조건과 일관성을 유지할 수 있도록 합니다.
Fig. 4(b) Teddy Bear Relocation. 이동 작업 중에 가장 큰 곰 인형이 왼쪽에 있는 작은 곰 인형을 일시적으로 가립니다. 이러한 가려짐에도 불구하고, 초기 diffusion steps는 전체 비디오에서 일관된 generation을 보장하기 위해 작은 곰의 상태를 유지합니다.

4.2 Self-correction and Enhancement

diffusion process 동안, 우리는 model이 처음에는 잘못된 옵션을 선택하지만 몇 번의 diffusion steps 후에 reasoning을 수정하여 대안적인 전략을 탐색하는 몇 가지 확률론적 “aha moments”를 관찰합니다. 이러한 행동들은 오랜 시간 생각하는 Large Language Models (LLMs)에서 논의된 내부 역추적 및 "느린 생각"과 기능적으로 유사합니다. 중요한 것은 이러한 전환이 실수를 수정하는 데 국한되지 않는다는 점입니다. model은 초기의 불완전한 답변을 논리적으로 더 풍부하고 포괄적인 답변으로 다듬을 수도 있으며, 이는 단순한 오류 수정이 아니라 latent self-improvement의 한 형태를 반영합니다.

이러한 수정이 시간에 따라 순차적으로 발생해야 한다고 주장하는 "Chain-of-Frames" 이론과 대조적으로, 이러한 반전은 단일 diffusion step 내에서 모든 프레임에 걸쳐 전역적으로 동시에 발생합니다. 이는 video generation model이 국소적이고 순차적인 프레임 단위의 업데이트보다 전역적인 논리적 무결성을 우선시한다는 강력한 증거를 제공합니다.

Fig. 4(c) Hit Target After Bounce. 처음에는 공의 궤적이 불완전하고 모호합니다. diffusion이 진행됨에 따라 model은 점진적으로 궤적을 완성하여 점점 더 명확하게 만들고, 결과는 네 개의 후보 지점에서 하나의 올바른 지점으로 수렴합니다.
Fig. 4(d) 3D Shape Rotation. 첫 번째 diffusion step에서 회전된 큐브들은 잘못된 수량과 배열로 생성됩니다. 몇 번의 diffusion steps 후에, model은 수량과 공간적 구성을 점진적으로 수정하여 일관되고 정확한 최종 결과를 생성합니다.

4.3 Perception before Action

우리는 diffusion trajectory가 생각의 진행 과정에 대한 "어떻게"와 "왜"를 결정하기 전에 장면의 "무엇"과 "어디에"를 먼저 다룬다는 것을 시사하는 현상을 관찰합니다. 이 과정은 정적인 기반 구축에서 동적인 reasoning으로의 전환을 특징으로 하는 "Perception before Action" 전환을 시사하는 것으로 보입니다. 그림 5에 설명된 것처럼, 초기 diffusion step은 주로 prompt에 지정된 전경 개체(예: 자동차 또는 문)를 식별합니다. 이 단계에서는 명시적인 모션 계획이나 관계적 변형이 관찰되지 않습니다. 대신, 동적 구조는 나중의 diffusion steps에서 나타나기 시작하며, 여기서 model은 정적인 기반을 넘어 객체의 움직임과 객체 간의 상호 작용을 조정하기 시작합니다.

4 Emergent Reasoning Behaviors 핵심 정리 노트

이 섹션은 비디오 생성 모델이 디퓨전 과정(Chain-of-Steps)에서 대형 언어 모델(LLM)과 유사하게 보여주는 3가지 독특한 **창발적 추론 행동(Emergent Behaviors)**을 정의합니다.

1. Working Memory (작업 기억: 정보의 지속적 유지)

핵심 요지: 추론 과정 내내 필수적인 정보를 잃지 않고 유지하는 능력입니다. 디퓨전 프로세스가 생성 단계 전반에 걸쳐 '지속적인 앵커(persistent anchors)'를 자연스럽게 형성합니다.
주요 증거:
- 객체가 화면에서 사라졌다가 원래 위치로 정확히 돌아오는 작업(Object Reappearance)을 성공적으로 수행합니다.
- 큰 물체가 작은 물체를 일시적으로 가리는 상황(Occlusion)에서도, 초기 디퓨전 스텝에서 작은 물체의 상태를 기억해두었다가 비디오 전체의 일관성을 유지합니다.

2. Self-correction and Enhancement (스스로 오류 수정 및 답변 고도화)

핵심 요지: 디퓨전 과정 중 모델이 초기에는 오답을 선택했다가도, 확률론적인 "아하! 모멘트(aha moments)"를 겪으며 스스로 경로를 수정하거나 불완전한 답을 더 완벽하게 다듬는 현상입니다. 이는 LLM의 '느린 생각(slow thinking)'이나 역추적(backtracking)과 기능적으로 동일합니다.
CoF 가설의 완벽한 반박: 만약 프레임 단위(CoF)로 추론이 일어난다면 이러한 수정도 시간순으로 순차적으로 일어나야 합니다. 하지만 관찰 결과, 이러한 궤도 수정은 단일 디퓨전 스텝 내에서 전체 프레임에 걸쳐 전역적(globally)이고 동시다발적으로 발생합니다. 즉, 모델은 프레임별 업데이트보다 비디오 전체의 '논리적 무결성'을 최우선으로 삼습니다.

3. Perception before Action (행동 전 인지: 정적 기반 구축 후 동적 추론)

핵심 요지: 비디오 추론 작업을 처리하기 위해 모델 내부에서 자발적으로 생겨난 '보편적 프로토콜'입니다. 생각의 진행 과정에서 "어떻게(How)", "왜(Why)"를 결정하기 전에, 반드시 "무엇(What)"과 "어디(Where)"를 먼저 파악합니다.
작동 방식: * 초기 스텝 (Perception): 프롬프트에 지시된 전경 객체(차, 문 등)의 위치를 찾는 등 '정적인 기반(static grounding)'을 먼저 확립합니다. 이때는 명시적인 움직임이나 상호작용이 나타나지 않습니다.
- 후기 스텝 (Action): 객체의 위치가 확정된 후, 비로소 물체의 움직임과 상호작용을 조정하는 '동적 추론(dynamic reasoning)'을 시작합니다.

쉬운 설명 : 비디오 AI의 3가지 놀라운 습관

비디오 AI가 영상을 깎아내려 가는(디퓨전) 과정을 지켜보니, 마치 똑똑한 사람처럼 행동하는 3가지 습관이 발견되었습니다.

첫 번째 습관: 까먹지 않기 (Working Memory) 영상에서 곰 인형이 큰 상자 뒤로 숨었다가 다시 나타나는 장면을 만들 때, AI는 상자 뒤에 곰 인형이 있다는 사실을 중간에 까먹지 않습니다. 머릿속 어딘가에 그 정보를 꽉 쥐고 영상의 끝부분까지 일관성 있게 그려냅니다.
두 번째 습관: "아차, 틀렸네!" 하고 싹 고치기 (Self-correction) AI가 공이 통통 튀는 영상을 스케치하다가 "어, 이 각도가 아니네?" 하고 깨닫는 순간이 있습니다. 이때 1초, 2초, 3초 프레임을 순서대로 지우개로 지우면서 고치는 게 아닙니다. 영상 전체의 틀린 궤적을 단 한 번의 스텝에서 통째로(전역적으로) 올바른 궤적으로 싹 바꿔버립니다. 프레임 순서에 얽매이지 않고 비디오 전체의 '논리'를 한 방에 고치는 것이죠.
세 번째 습관: 무대 세팅부터 하고 연기시키기 (Perception before Action) "자동차가 달린다"라는 영상을 만들 때, AI는 처음부터 차를 움직이게 만들지 않습니다. 초기 단계에서는 일단 '자동차'라는 물체부터 화면의 정확한 위치에 딱 갖다 놓습니다(인지). 그렇게 주인공과 무대 세팅이 끝나면, 그제야 후반 작업에서 자동차의 바퀴를 굴리고 속도감을 더해 움직이게 만듭니다(행동).

'논문리뷰' 카테고리의 다른 글

world model : 빠른 논문 리뷰 : TD-MPC2: Scalable, Robust World Models for Continuous Control (0)	2026.03.19
world model : 논문 리뷰 : Mastering Diverse Domains through World Models (0)	2026.03.19
world model : 논문 리뷰 : DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning (0)	2026.03.18
VLM : 논문 리뷰 : Can Vision-Language Models Solve the Shell Game? (0)	2026.03.18
World Model : 빠른 논문 리뷰 : Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model (1)	2026.03.16

'논문리뷰' Related Articles

AI바라기의 인공지능

VLM : 논문 리뷰 : Demystifying Video Reasoning 본문

VLM : 논문 리뷰 : Demystifying Video Reasoning

Abstract

1 Introduction

Introduction 핵심 정리 노트

쉬운 설명: 비디오 모델은 어떻게 생각할까?

2 Related Works 핵심 정리 노트

쉬운 설명: 다른 연구들과 이 논문은 뭐가 다를까?

3 Chain-of-Steps: Reasoning along Diffusion Steps 핵심 정리 노트

쉬운 설명 : 비디오 모델의 '생각 과정' 훔쳐보기

4 Emergent Reasoning Behaviors 핵심 정리 노트

쉬운 설명 : 비디오 AI의 3가지 놀라운 습관

'논문리뷰' 카테고리의 다른 글

티스토리툴바