AI바라기의 인공지능
VLM : 논문 리뷰 : Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition 본문
VLM : 논문 리뷰 : Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition
AI바라기 2025. 9. 10. 20:09쉬운 설명 (Simple Explanation)
이 논문의 핵심 아이디어는 복잡한 영상 질문에 답하는 AI를 '탐정' 처럼 만드는 것입니다. 기존 AI가 범죄 현장 사진(video)을 쓱 보고 직감으로 범인을 지목했다면, 이 논문의 AI는 다음과 같은 탐정의 수사 단계를 따릅니다.
- 사건 개요 파악: "누가, 무엇을 했는가?" 질문에서 핵심 인물/사물(Target)을 먼저 식별합니다.
- 알리바이 및 동선 확인: CCTV(video)를 돌려보며 용의자(Target)의 시간대별 움직임(Tracking)을 정밀하게 재구성합니다.
- 행동 분석 및 동기 추론: 용의자의 행동과 주변 상황을 보고, 상식(Commonsense)을 동원해 "왜 저런 행동을 했을까?" (Action Analyzing)를 추리합니다.
- 가설 검증: 여러 용의자(선택지)를 두고, 지금까지 수집한 증거와 추리를 바탕으로 가장 가능성 높은 가설(Answer)의 점수를 매겨 순위를 정합니다.
- 최종 보고서 작성 전 확인: 마지막으로, 내린 결론이 현장 증거(pixel 정보)와 어긋나지 않는지, 상식적으로 말이 되는지 다시 한번 검증(Verification)합니다.
이렇게 복잡한 문제를 잘게 쪼개어 단계별로 해결하니, 훨씬 더 정확하고 논리적인 결론에 도달할 수 있게 됩니다.
Video-of-Thought 학습 노트
용어 설명 (Glossary)
- Video-of-Thought (VoT): 이 논문에서 제안하는 핵심 reasoning framework. 복잡한 video-related 문제를 low-level pixel perception에서 high-level cognitive interpretation으로 이어지는 여러 단계의 하위 문제로 분해하여 순차적으로 해결하는 방식.
- MotionEpic: 이 논문에서 VoT framework를 구현하기 위해 제안된 새로운 video Multimodal Large Language Model (MLLM). Video의 spatial-temporal scene graph (STSG) 표현을 통합하여 fine-grained 한 pixel-level grounding을 달성하는 것이 특징.
- Spatial-Temporal Scene Graph (STSG): Video 내 객체(object), 객체 간의 관계(predicate), 그리고 시간에 따른 변화를 graph 형태로 구조화하여 표현한 것. MotionEpic 모델의 핵심 입력 중 하나로, video의 동적인 semantic 정보를 담고 있음.
- Chain-of-Thought (CoT): 복잡한 질문에 대해 LLM이 최종 답변을 내리기 전에, 생각의 연쇄 과정(중간 추론 단계)을 먼저 생성하도록 하는 prompting 기법. VoT는 이 CoT의 핵심 아이디어를 video domain에 맞게 확장하고 구체화한 것.
- Grounding: Textual-level의 개념(예: "red oil truck")을 video의 실제 pixel-level 영역과 시공간적으로 연결(mapping)하는 과정.
Purpose of the Paper
기존 video understanding 연구들은 두 가지 핵심적인 한계에 부딪혔습니다:
- Fine-grained Perceptive Understanding의 부재: 대부분의 모델이 instance 또는 patch-level 분석에 머물러, video 내 특정 객체를 정확히 추적하고 세밀하게 인식하는 데 한계가 있었음.
- Cognitive-level Comprehension의 부족: Video의 표면적인 내용을 인식하는 것을 넘어, 그 이면에 있는 인과관계, 의도, 상식 기반의 추론 등 깊이 있는 인지적 이해를 달성하지 못했음.
이 논문은 이러한 low-level perception과 high-level cognition 사이의 간극을 메우는 것을 목표로 합니다. 이를 위해 인간의 사고 과정처럼 video를 단계별로 분석하고 추론하는 새로운 framework인 Video-of-Thought (VoT) 를 제안합니다.
Key Contributions & Novelty
- Contribution 1: Novel Video Reasoning Framework, Video-of-Thought (VoT) 제안
- 복잡한 video reasoning 문제를 5개의 구체적인 단계 (Target Identification → Object Tracking → Action Analyzing → QA via Ranking → Answer Verification)로 분해하여 해결.
- Novelty: 기존의 단순한 "Let's think step by step" CoT prompt를 넘어, video domain에 특화된 'perception에서 cognition으로' 진행되는 체계적이고 구체적인 thought-chain을 최초로 구현함.
- Contribution 2: Fine-grained Grounding이 가능한 MotionEpic MLLM 개발
- Video의 구조적인 정보를 담고 있는 Spatial-Temporal Scene Graph (STSG)를 모델 architecture에 직접 통합하여, video의 시공간적 맥락을 세밀하게 이해하고 생성할 수 있음.
- Novelty: STSG를 통해 video의 내용을 pixel-level에서 grounding하는 능력을 MLLM에 부여함으로써, 기존 모델들의 고질적인 문제였던 hallucination (환각)을 완화하고 사실 기반의 정확한 reasoning을 가능하게 함.
- Contribution 3: SOTA 성능 달성
- 설명, 인과관계, 예측 등 복잡한 reasoning을 요구하는 8개의 video QA benchmark에서 기존 SOTA 모델들의 성능을 큰 폭으로 상회함.
- Novelty: 특히 fine-tuning 없이 진행된 zero-shot setting에서 기존 CoT 방식 대비 훨씬 큰 성능 향상을 보여, 제안된 VoT framework의 일반화 가능성과 잠재력을 입증함.
Experimental Highlights
- Datasets & Baselines:
- Fine-tuning: VLEP, STAR, NExT-QA 등 복잡한 video QA를 위한 6개 benchmark 사용.
- Zero-shot: MSR-VTT, ActivityNet datasets 사용.
- Baselines: Video-LLaMA, Video-ChatGPT, Video-LLaVA 등 최신 video MLLM들과 비교.
- Key Results:
- SOTA Performance: Table 1, 2, 3에서 볼 수 있듯이, MotionEpic에 VoT를 적용한 모델이 모든 평가 데이터셋에서 기존 SOTA 및 vanilla CoT를 적용한 모델들보다 월등히 높은 정확도(accuracy)를 달성함.
- 예시: NExT-QA 데이터셋에서 76.0%의 Acc@All을 기록하여 SOTA를 경신.
- Zero-shot Generalization: Table 4에서, VoT는 zero-shot 환경에서 기존 CoT 대비 향상 폭이 더욱 두드러졌음. 이는 VoT가 특정 데이터셋에 과적합되지 않고, 일반적인 video reasoning 능력 자체를 향상시켰음을 시사함.
- Ablation Study (Figure 6): Grounding-aware tuning에 사용된 여러 objective 중, STSG 전체를 생성(L2)하거나 객체가 주어졌을 때 STSG의 일부를 생성(L4)하는 objective를 제거했을 때 성능 하락이 가장 컸음. 이는 STSG를 이해하고 생성하는 능력이 VoT framework의 핵심임을 실험적으로 증명함.
- SOTA Performance: Table 1, 2, 3에서 볼 수 있듯이, MotionEpic에 VoT를 적용한 모델이 모든 평가 데이터셋에서 기존 SOTA 및 vanilla CoT를 적용한 모델들보다 월등히 높은 정확도(accuracy)를 달성함.
Limitations and Future Work
- Limitations:
- Energy & Data Cost: 강력한 성능을 위해 LLM을 기반으로 하므로, system training에 상당한 에너지 소모와 방대한 데이터가 필요함.
- Potential Misuse: 뛰어난 video reasoning 및 이해 능력은 악의적인 의도로 사용될 경우 사회적 위협이 될 수 있음 (예: 가짜 정보 생성, 감시).
- Future Work:
- 논문에서 명시적으로 언급되진 않았으나, 제기된 한계점들을 바탕으로 에너지 효율성을 높이고 데이터 의존도를 줄이는 경량화 연구가 필요함.
- 악용 가능성을 막기 위해 responsible deployment를 위한 라이선싱 메커니즘 구축 및 기술적 안전장치 마련이 요구됨.
Overall Summary
이 논문은 기존 video understanding 모델들이 가진 low-level 인식과 high-level 추론 능력의 단절 문제를 해결하기 위해, 인간의 사고 방식을 모방한 Video-of-Thought (VoT) 라는 새로운 reasoning framework를 제안합니다. 이를 구현하기 위해 video의 시공간적 구조 정보를 활용하는 MotionEpic MLLM을 개발하여 SOTA를 달성했습니다. 이 연구는 단순히 성능을 높인 것을 넘어, 복잡한 video를 어떻게 체계적으로 이해하고 추론할 수 있는지에 대한 새로운 패러다임을 제시했다는 점에서 큰 의의를 가집니다.
Abstract
기존의 video understanding 연구는 두 가지 핵심적인 병목 현상, 즉 세분화된 spatial-temporal perceptive understanding과 cognitive-level의 video scene comprehension에 대한 탐구가 부족하여 복잡한 video에서 심층적인 이해와 reasoning을 달성하는 데 여전히 어려움을 겪고 있습니다. 이 논문은 새로운 해결책을 제시하여 이러한 간극을 메웁니다. 우리는 먼저 video spatial-temporal scene graph (STSG) representation을 통합하여 세분화된 pixel-level의 spatial-temporal video grounding을 달성하는 새로운 video Multimodal Large Language Model (MLLM)인 MotionEpic을 소개합니다.
MotionEpic을 기반으로, 우리는 Video-of-Thought (VoT) reasoning framework를 개발합니다. VoT는 Chain-of-Thought (CoT)의 핵심을 계승하여 복잡한 task를 더 간단하고 관리 가능한 하위 문제로 분해하고, low-level의 pixel perception에서 high-level의 cognitive 해석에 이르기까지 단계별로 해결합니다. 다양한 복잡한 video QA benchmark에 걸친 광범위한 실험은 우리의 전체 framework가 기존 state-of-the-art를 눈에 띄게 향상시킨다는 것을 보여줍니다. 우리가 아는 한, 이는 인간 수준의 video reasoning을 달성하기 위해 CoT technique을 성공적으로 구현한 첫 시도이며, 더 넓은 범위의 video understanding 시나리오로 확장할 수 있는 큰 잠재력을 보여줍니다. Project는 https://haofei.vip/VoT 에서 확인할 수 있습니다.
1. Introduction
learning models이 video data를 정확하게 해석하도록 하는 것은 관련 커뮤니티에서 가장 중요한 목표 중 하나입니다. 현재 연구에서 video action 및 dynamics recognition을 위한 model 구축에 대한 광범위한 탐구가 있었지만, 대부분은 간단한 video에 대한 직접적인 perceptual-level understanding 유형에 그치고 있습니다. 그리고 복잡한 video를 심도 있게 이해하고 reasoning하는 것에 관한 연구에는 상당한 격차가 남아 있으며, 이는 실제 응용 프로그램에서 시급히 필요한 필수적인 역량입니다. 얕은 video perception과 비교하여, 복잡한 video에 대한 reasoning은 더 큰 어려움을 제기합니다: 이는 video의 spatiotemporal 특성에 대한 복잡한 이해뿐만 아니라 pixels 뒤에 숨겨진 근본적인 의미에 대한 깊은 파악을 요구합니다.
인간의 cognition 패턴에서 영감을 받아, 우리는 video, 특히 복잡한 video에 대한 reasoning이 두 가지 점에서 뛰어난 숙달을 필요로 한다는 점을 주목합니다: pixel understanding의 perceptual capability와 semantic understanding의 cognitive ability입니다. 첫째, 정확한 콘텐츠 인식을 달성하기 위해서는 video 움직임에 대한 세분화된 perceptive pixel understanding이 필요합니다. 대부분의 기존 video understanding 접근 방식은 instance 또는 patch-level 분석에 중점을 두어, 심도 있는 video 이해는 물론이고 세밀한 granular 제어와 정확한 object-level recognition 또는 tracking을 위한 정밀성이 부족합니다. 둘째, 심오한 reasoning은 합리적인 설명과 심지어 causal 상상력을 허용하는 cognitive capabilities를 요구합니다. 즉, video pixels을 현실 세계와 연결하기 위한 commonsense knowledge의 저장소가 필요합니다. 예를 들어, 높은 곳에서 뛰어내리면 골절을 유발할 수 있다거나, 유조 트럭과 충돌하면 폭발을 일으킬 수 있다는 것을 이해하는 것입니다.
가장 중요한 것은, 인간에게 video reasoning은 즉각적인 과정이 아니라 low-level에서 high-level로 이어지는 multi-hop procedure를 따른다는 것입니다. 이는 종종 video frames에서 "빨간 유조 트럭" (그림 1 참조)과 같은 특정 target을 먼저 식별한 다음, 그 temporal behaviors와 환경과의 상호작용을 추적하고 분석하여 scene semantics를 추론하고, 마지막으로 사실적 commonsense를 통합하여 cognitively 일관된 응답을 형성하는 것을 포함합니다.
최근 MLLMs 커뮤니티는 빠른 발전을 보이며 강력한 data understanding 및 reasoning capabilities를 보여주었으며, 그중에서도 Video-LLaMA, Video-ChatGPT, Video-LLaVA와 같은 video MLLMs가 광범위하게 개발되었습니다. 동시에, LLMs의 reasoning capabilities를 증강시키기 위해 CoT prompting technique을 통합하는 것에 대한 관심이 증가하고 있습니다. CoT는 복잡한 문제를 더 간단하고 관리하기 쉬운 하위 문제의 chain으로 직관적으로 분해하여 인간과 유사한 reasoning 과정을 촉진하는 방식으로 작동합니다. 이 technique은 language understanding tasks에서 광범위하게 번성했지만, 안타깝게도 video MLLMs를 사용하여 video input에 특화된 CoT 기반 reasoning framework는 아직 충분히 탐구되지 않았습니다.
이를 위해, 이 논문은 인간과 유사한 복잡한 video reasoning을 가능하게 하는 해결책을 고안하는 데 전념합니다. 우리는 먼저 input video와 그 STSG representation을 모두 modeling하는 STSG representation의 통합을 제안하며, 여기서 세분화된 spatial-temporal features가 신중하게 통합되고 modeling됩니다. 이를 구현하기 위해, 우리는 기존 video MLLMs와 유사한 architecture를 기반으로 video input뿐만 아니라 STSG의 encoding, understanding 및 generation을 지원하는 MotionEpic이라는 새로운 video LLM을 소개합니다 (그림 2 참조). MotionEpic이 video와 STSG 간의 세분화된 pixel-level spatial-temporal grounding을 가능하게 하기 위해, 우리는 또한 다양한 비디오-STSG training objects를 조사합니다. STSG annotations는 grounding-aware tuning 단계에서 사용되며, 후속 단계에서는 시스템이 STSG를 autonomously 파싱하도록 학습되어 downstream tasks를 위한 STSG-free inference 및 reasoning을 지원합니다.
MotionEpic을 기반으로, 우리는 다음에 Video-of-Thought (VoT)라는 새로운 reasoning framework를 설계합니다 (그림 4 참조). CoT의 핵심 정신을 계승하여, VoT는 원시의 복잡한 video reasoning 문제를 더 간단한 하위 문제의 chain으로 분해하고, 순차적으로 하나씩 해결합니다. 이러한 하위 질문들은 low-level에서 high-level로의 진행을 따릅니다. 즉, target content의 정확한 이해를 위한 pixel grounding으로 시작하여 해당하는 semantic signals를 정확하게 해석하는 것입니다. 1 주어진 input video와 question에 대해, VoT는 관찰할 question에 관련된 가능한 target(들)을 식별합니다. 2 그 다음 시스템은 temporal tracklet(들)을 grounding하며, 이는 후속 분석에서 content perception을 위한 지원 증거/rationale 역할을 합니다. 3 사실적 commonsense와 결합하여, VoT는 다음으로 target object의 trajectory와 주변 scene과의 상호작용을 해석하여 action dynamics와 semantics를 철저히 이해합니다. 4 video 속 target actions에 대한 깊은 이해를 바탕으로, 우리는 commonsense knowledge를 사용하여 각 optional answer를 신중하게 검토하고, 후보들을 순위 매긴 후 final result를 output합니다. 5 마지막으로, VoT는 pixel grounding perception과 commonsense cognition 관점 모두에서 답변에 대한 verification을 수행하여 가장 사실적으로 정확한 결과를 보장합니다.
우리의 실험은 주로 심층적인 video reasoning에 의존하는 대표적인 task인 video Question Answering (QA)에 중점을 둡니다. 우리는 8개의 복잡한 video QA benchmark에서 우리 시스템을 평가했으며, fine-tuning 및 zero-shot 설정 모두에서 현재 성능을 매우 뚜렷한 차이로 눈에 띄게 향상시켜 일련의 새로운 state-of-the-art를 수립했습니다. 우리는 더 나아가 MotionEpic의 video grounding 능력에 대한 심층 분석을 수행하고, VoT framework의 video reasoning 능력을 탐구하여 framework가 어떻게 발전하는지에 대한 통찰력을 제공합니다. 요약하자면, 이 연구는 여러 측면에서 기여합니다:
- 최초의 video Chain-of-Thought reasoning framework인 VoT를 제안합니다. 이는 원시의 복잡한 문제를 하위 문제의 chain으로 분해하고, low-level에서 high-level까지 여러 단계를 거쳐 reasoning함으로써 video의 pixel perceptive recognition뿐만 아니라 semantic cognitive understanding을 가능하게 합니다.
- STSG encoding 및 generation을 통해 세분화된 pixel-level의 spatial-temporal video grounding을 지원하는 새로운 video MLLM인 MotionEpic에 기여합니다.
- 복잡한 reasoning capability를 요구하는 다양한 video QA benchmark에서 경험적으로 새로운 state-of-the-art (SoTA) 성능을 수립합니다.
AI 연구자들을 위한 Introduction 섹션 정리 노트
Problem Definition
- 한계: 기존 Video Understanding 연구는 단순한 perceptual-level (예: action recognition)에 머물러 있으며, 복잡한 video에 대한 심층적인 comprehension 및 reasoning 능력이 부족함.
- 핵심 병목 현상 (Bottlenecks):
- Fine-grained Perceptive Understanding 부족: Instance나 patch-level 분석을 넘어선 정밀한 pixel-level의 object 추적 및 시공간적 grounding 능력이 부재함.
- Cognitive-level Comprehension 부족: Video pixels를 현실 세계의 commonsense knowledge와 연결하여 causal 관계를 추론하는 cognitive 능력이 부족함.
Proposed Solution: 인간의 Cognition을 모방한 Multi-hop Reasoning
- 본 논문은 인간이 low-level 인식 (객체 식별)에서 high-level 추론 (의미 해석)으로 나아가는 multi-hop 과정을 모방하는 해결책을 제안함.
Core Contributions
- MotionEpic: A Novel Video MLLM for Grounding
- Key Idea: Video와 함께 Spatial-Temporal Scene Graph (STSG) representation을 input으로 받아 fine-grained, pixel-level의 spatial-temporal grounding을 수행하는 새로운 video MLLM.
- Architecture & Training: 기존 video MLLM 구조를 기반으로 STSG의 encoding, understanding, generation을 지원함.
- Training Strategy:
- 1단계 (Tuning): Grounding-aware tuning을 위해 STSG annotation을 직접 사용함.
- 2단계 (Inference): STSG를 autonomously 파싱하도록 학습하여, 최종 downstream task에서는 STSG annotation 없이도 (STSG-free) inference 및 reasoning이 가능하게 함.
- Video-of-Thought (VoT): The First Video CoT Framework
- Key Idea: Language 분야의 Chain-of-Thought (CoT)를 video domain에 최초로 적용한 reasoning framework. 복잡한 video reasoning 문제를 관리 가능한 하위 문제들의 chain으로 분해하여 순차적으로 해결함.
- VoT 5-Step Reasoning Process:
- Target Identification: Question과 관련된 핵심 target(들)을 식별.
- Temporal Grounding: 식별된 target의 temporal tracklet을 grounding하여 후속 분석을 위한 시각적 근거(rationale)를 확보.
- Semantic Interpretation: 확보된 tracklet과 commonsense knowledge를 결합하여 target의 action dynamics와 semantics를 심층적으로 해석.
- Answer Evaluation: 해석된 내용을 바탕으로 주어진 선택지(optional answer)들을 commonsense를 동원해 신중히 검토하고 순위를 매겨 최종 답변을 도출.
- Verification: 최종 답변을 pixel grounding (시각적 사실)과 commonsense cognition (논리적 타당성)의 두 관점에서 검증하여 정확성을 극대화.
Evaluation & Claimed Results
- Task: 심층 reasoning 능력이 요구되는 Video Question Answering (QA) task.
- Datasets: 8개의 복잡한 video QA benchmarks에서 평가.
- Performance: Fine-tuning 및 zero-shot 설정 모두에서 기존 state-of-the-art (SoTA) 성능을 큰 차이로 뛰어넘는 새로운 기록을 수립했다고 주장함.
쉬운 설명 :
이 논문의 Introduction 섹션은 현재 비디오를 이해하는 AI의 한계점에서 이야기를 시작합니다. 지금의 AI는 "영상에 고양이가 있다"처럼 단순한 사실을 파악하는 것은 잘하지만, "여러 차량이 얽힌 사고 현장에서 왜 저 차가 갑자기 멈췄을까?"와 같은 복잡한 상황을 깊이 있게 이해하고 추리하는 것은 매우 어려워합니다. AI가 영상 속 픽셀 단위의 미세한 움직임을 정확히 포착하지 못하고, 현실 세계의 상식(예: '차가 급정거하면 뒤따라오던 차가 부딪힐 수 있다')을 연결하지 못하기 때문입니다.
이 문제를 해결하기 위해 연구팀은 사람이 비디오를 이해하는 방식을 모방한 두 가지 핵심 기술을 제안합니다.
- 더 똑똑한 눈, 'MotionEpic' model: AI에게 아주 정밀한 '눈'을 달아주는 새로운 기술입니다. 이 AI는 영상 속 특정 대상(예: 빨간 자동차)이 시간의 흐름에 따라 어디서 어떻게 움직이고 다른 사물과 어떤 관계를 맺는지 아주 상세한 '시공간 관계 지도(STSG)'를 그려낼 수 있습니다. 덕분에 "대충 저기쯤 있다"가 아니라 픽셀 단위로 "정확히 저기에 저렇게 있다"고 콕 집어낼 수 있게 됩니다.
- 더 똑똑한 뇌, 'Video-of-Thought(VoT)' 프레임워크: 똑똑한 눈(MotionEpic) 위에 논리적으로 생각하는 '뇌'를 얹은 것입니다. 복잡하고 어려운 질문을 받으면 한 번에 답하려 하지 않고, 마치 탐정처럼 질문을 잘게 쪼개 단계별로 해결합니다.
- 1단계: "질문이 '빨간 자동차'에 대한 거네. 영상에서 빨간 자동차부터 찾아보자."
- 2단계: "찾았다. 이제 이 차가 영상 처음부터 끝까지 어떻게 움직이는지 쭉 따라가 보자."
- 3단계: "차가 갑자기 방향을 틀었네. 상식적으로 생각해보면 뭔가를 피하려고 한 것 같아."
- 4단계: "보기 중에 '사람을 피하기 위해'라는 답변이 있네. 내가 본 영상 내용과 상식에 가장 잘 맞아."
- 5단계: "마지막으로 확인! 차가 방향을 튼 바로 그 장면에 사람이 있었나? 응, 있었네. 그럼 이 답이 확실해."
결론적으로, 이 연구는 **정밀하게 보는 기술(MotionEpic)**과 **단계별로 추리하는 기술(VoT)**을 결합하여, AI가 복잡한 영상도 사람처럼 깊이 있게 이해하고 질문에 답할 수 있도록 만드는 획기적인 방법을 제시합니다.
2. Related Work
intelligence 커뮤니티의 핵심 목표는 다양한 modalities의 data를 이해하는 것입니다. 현재 ChatGPT와 같은 LLMs의 출현으로, 우리는 인간 수준에 필적하는 전례 없는 language reasoning capabilities를 달성했습니다. 이는 LLMs에 내재된 방대한 commonsense knowledge와 semantic understanding capabilities 덕분이며, 이를 통해 그럴듯한 causal 설명을 제공하고 심지어 imaginative reasoning에 참여할 수도 있습니다. 특히, 문제를 구성 요소로 분해하고 각 단계마다 rationale을 제공하는 최근 유행하는 CoT technology의 통합은 reasoning 과정을 더욱 신뢰할 수 있게 만들었습니다. image understanding의 경우, LLaVA, GPT-4V와 같은 MLLMs의 빠른 발전 또한 상당한 이해 능력을 거의 달성했습니다. 그러나 language와 image와 달리, video understanding 또는 reasoning은 정적인 spatial 및 temporal dynamics라는 이중의 어려움을 제시합니다.
역사적으로, 초기 video understanding 연구 노력은 주로 작은 크기의 in-domain training datasets에서 neural models을 학습했습니다. 그러나 이러한 'small' models은 상대적으로 피상적인 수준의 perception에 국한되어 인간 수준 cognition의 깊이가 부족했습니다. 결과적으로, 이전 방법들은 대부분 video 내의 콘텐츠와 움직임을 식별하는 것과 같은 간단한 video의 얕은 이해에 국한되었습니다. 주로 perceptive 능력에 의존하는 간단한 video comprehension과 달리, 복잡한 video를 이해하는 것은 video에서 특정 행동이 왜 발생하는지 설명하거나 잠재적인 결과를 가정하는 것과 같은 더 깊은 cognitive reasoning을 필요로 합니다. video data를 지원하는 MLLMs가 개발되어 small models보다 더 큰 video understanding capabilities를 제공하고 있지만, video의 perceptual surface를 넘어 내포된 semantic content를 깊이 이해하고 cognitive-level reasoning을 수행하는 연구는 여전히 불충분하게 탐구되고 있습니다. 우리는 현재 video MLLMs가 video의 fine-grained spatial-temporal understanding을 달성하지 못하거나, 향상된 cognitive-level comprehension을 위해 LLMs에 내재된 풍부한 commonsense knowledge와 causal reasoning을 완전히 활용하지 못하고 있음을 관찰합니다. MLLMs에 spatiotemporal modeling을 가능하게 하기 위해, 우리는 dynamic video scene graph representation을 사용하는 것을 고려합니다. SGs는 고도로 구조화된 graph representations로 특징지어지며, 이는 본질적으로 data의 근본적인 semantic implications를 묘사하므로 광범위한 downstream cross-modal tasks, 특히 video modeling에 광범위하게 통합되어 왔습니다.
한편, CoT technology의 최근 발전은 LLMs의 reasoning capabilities를 향상시키는 데 상당한 진전을 이루었습니다. multimodal CoT로 multimodal reasoning을 향상시키려는 노력이 있지만, 우리는 CoT를 video 시나리오에 통합하여 강력한 video reasoning framework를 구축하는 데 특별히 초점을 맞춘 연구가 여전히 부족하다는 점에 주목합니다. 이 격차를 해소하기 위해, 본 논문은 주도적으로 Video-of-Thought의 개념을 도입합니다. "Let’s Think Step By Step"이라는 간단한 prompt로 output을 개선하려는 기존 CoT 접근 방식과 달리, 우리는 더 진정한 thought chain을 구현합니다. 우리는 MLLM이 reasoning을 시작하기 전에 먼저 원래 문제를 일련의 더 관리하기 쉬운 sub-solutions으로 분해하도록 장려하며, 이는 low-level pixel grounding 및 understanding에서 high-level cognitive semantic meaning inference에 이르는 인간의 cognitive 절차를 따라 궁극적으로 인간 수준의 video understanding 및 reasoning capabilities를 달성합니다.
AI 연구자들을 위한 Related Work 섹션 정리 노트
State of Reasoning in Different Modalities
- Language & Image: LLMs (ChatGPT)와 MLLMs (LLaVA, GPT-4V)는 CoT 기술의 도움으로 이미 인간 수준에 근접한 reasoning 능력을 보여주고 있음. 이는 이 모델들이 방대한 commonsense knowledge와 semantic understanding 능력을 내재하고 있기 때문임.
- Video: Language/Image와 달리, Video는 정적인 spatial 요소와 동적인 temporal dynamics를 동시에 처리해야 하는 이중의 어려움(dual challenge)을 가짐.
Critique of Existing Video Understanding Approaches
- Traditional 'Small' Models:
- 주로 작은 규모의 in-domain datasets으로 학습됨.
- 한계: 인간 수준의 cognition이 아닌 피상적인 perception 수준에 머물러 있음. "무엇이 있는가"는 알지만 "왜 일어나는가"는 모름.
- Current Video MLLMs:
- 'Small' models보다 발전했지만, 여전히 두 가지 핵심적인 문제가 존재함.
- Problem 1 (Perception): Video에 대한 fine-grained spatial-temporal understanding 능력이 부족함.
- Problem 2 (Cognition): 내장된 LLM의 강력한 commonsense knowledge와 causal reasoning 능력을 video를 이해하는 데 온전히 활용하지 못함.
- 'Small' models보다 발전했지만, 여전히 두 가지 핵심적인 문제가 존재함.
Proposed Solutions from Prior Research (Building Blocks)
- For Problem 1 (Perception): Dynamic Video Scene Graph (SG) representation의 도입을 제안함. SG는 데이터의 semantic implications을 구조적으로 표현하는 데 효과적이므로, fine-grained understanding을 위한 강력한 도구가 될 수 있음.
- For Problem 2 (Cognition): Chain-of-Thought (CoT) 기술을 video domain에 맞게 적용하는 것을 제안함.
Novelty of This Paper's Approach (Video-of-Thought)
- 본 논문이 제안하는 **Video-of-Thought (VoT)**는 기존 CoT와 차별화됨.
- 단순히 "Let’s Think Step By Step" prompt를 사용하는 것이 아니라, 더 진정한 thought chain을 구현함.
- 핵심 차별점: MLLM이 reasoning을 시작하기 전, 스스로 원본 문제를 관리 가능한 sub-solutions으로 먼저 분해하도록 유도함.
- 이 분해 과정은 low-level pixel grounding에서 시작해 high-level cognitive semantic inference로 이어지는, 인간의 인지 절차를 명시적으로 따름.
쉬운 설명 :
이 섹션은 "다른 사람들은 이 문제를 어떻게 풀어왔고, 우리는 뭐가 다른가?"를 설명하는 부분입니다. 🧐
AI는 글(ChatGPT)이나 이미지(GPT-4V)를 이해하는 분야에서 거의 인간 수준에 도달했습니다. 특히 "차근차근 생각해보자(Chain-of-Thought)"라는 방법을 쓰면서 추리력이 엄청나게 좋아졌죠. 하지만 비디오는 그냥 움직이는 그림이 아니라 시간의 흐름과 공간의 변화가 얽혀있어 훨씬 더 어려운 문제입니다.
과거의 비디오 AI들을 살펴보면,
- 구형 AI 모델: 특정 종류의 영상 데이터만 조금 학습해서, 영상에 "사람이 뛴다" 정도의 단순한 상황만 인식할 수 있었습니다. 깊이 있는 이해나 "왜 뛰지?" 같은 추론은 전혀 못 했죠.
- 최신 비디오 AI 모델: 훨씬 똑똑해지긴 했지만, 여전히 두 가지 큰 약점이 있습니다. 첫째, 영상 속 대상의 미세한 움직임과 시시각각 변하는 관계를 정확하게 짚어내지 못합니다. 둘째, AI 내부에 들어있는 똑똑한 언어모델(LLM)의 방대한 상식과 추리력을 영상 분석에 제대로 써먹지 못하고 있습니다.
그래서 이 논문은 두 가지 아이디어를 빌려와 이 문제를 풀려고 합니다.
- 정확하게 보기 위한 '관계도 그리기(Scene Graph)': 영상 속 인물, 사물, 배경이 시간의 흐름에 따라 어떻게 서로 관계를 맺는지 구조적인 '관계도'를 그리게 해서, AI의 영상 분석을 훨씬 더 정밀하게 만듭니다.
- 똑똑하게 생각하기 위한 '비디오판 생각의 사슬(Video-of-Thought)': 기존의 "차근차근 생각해보자" 방식을 비디오에 맞게 업그레이드합니다. 단순히 명령을 내리는 게 아니라, AI가 스스로 복잡한 질문을 "① 먼저 영상에서 뭘 찾아야 하지? → ② 찾은 대상이 어떻게 움직였지? → ③ 이걸 상식적으로 해석하면 무슨 의미지?" 와 같이 구체적인 작은 문제들로 쪼개서 생각하도록 훈련시킵니다.
결론적으로 이 연구는 **정밀하게 보는 기술(Scene Graph)**과 **체계적으로 추리하는 기술(Video-of-Thought)**을 결합하여, 기존 AI들이 풀지 못했던 복잡한 비디오 이해 문제를 해결하겠다는 것입니다.
3. MotionEpic: Fine-grained Spatial-temporal Grounded Video MLLM
이 섹션에서는 MotionEpic video MLLM에 대해 설명하고, STSG가 어떻게 통합되는지, 그리고 fine-grained spatial-temporal grounding-aware tuning에 대해 자세히 설명합니다.
3.1. Architecture Briefing
그림 2는 MotionEpic의 개략적인 개요를 보여줍니다. MotionEpic은 text prompt, video, 그리고 video의 STSG representation이라는 세 가지 소스를 입력으로 받습니다. 우리는 가장 일반적인 관행을 따라 Vicuna-7B (v1.5)를 backbone LLM으로 사용합니다. video input을 인식하기 위해 ViT-L/14 encoder와 Q-Former projector를 채택합니다. 또한 MotionEpic이 STSG signal을 지원하도록 설계했으며, multi-frame STSG 정보를 encode하기 위해 Graph Transformer를 recurrent propagation으로 개조했습니다.
3.2. Integrating STSG Representation
정의에 따르면, STSG는 모든 video frames에 해당하는 단일 SG들의 sequence로 구성되며, 각 SG는 video frame 내의 triplets, 즉 'subject'-'predicate'-'object'로 이루어집니다. 여기서 'subject'와 'object'는 'predicate' 관계로 연결된 두 개의 visual proposals (RoIs)를 의미합니다. STSG는 정보가 적은 배경 정보는 걸러내면서 video의 근본적인 핵심 semantics representations를 직관적으로 묘사하여, video의 perceptive understanding을 돕습니다. 또한, 이러한 fine-grained 구조적 feature는 compositional spatiotemporal semantics를 효과적으로 model하는 데 도움이 됩니다.
실제 적용에서, 우리는 reasoning framework의 요구 사항을 충족시키기 위해 vanilla STSG 정의를 약간 수정했습니다. video는 frames 간에 중복되는 temporal contents를 가지고 있으므로, 먼저 frames를 균일하게 샘플링하여(적절한 sampling rate로) 계산 비용을 효과적으로 줄일 수 있습니다. 우리는 k번째 frame에서의 각 단일 SG를 $G_k=(V_k; E_k)$로 표기하며, 여기서 는 nodes, 즉 object proposal의 목록이고, 는 predicate edges의 목록입니다. 각 object proposal $v_{k,i}$에 대해, 우리는 category label , proposal의 neural representation , 그리고 이미지 내의 2D 좌표인 bounding box (bbox) annotation $b_i=(x, y, w, h)$를 기록합니다. 따라서, 각 가 됩니다. 모든 nodes (즉, $v_{k,i}$와 )는 edges $e_{k,i,j}$로 연결됩니다. STSG의 연결성을 향상시키기 위해, 우리는 'tracking' 과정을 모방하여 각 single-frame SG 간에 temporal coreference edges 유형을 추가로 생성합니다. 여기서 동일한 object들은 time-persistent edges $e_{k-1→k}$로 함께 연결됩니다.
MotionEpic은 STSG를 동시에 이해하고 생성함으로써 fine-grained spatial-temporal video grounding을 달성합니다. 전체 tuning(§3.3 참조) 이후, MotionEpic은 input video(text prompts 포함)를 기반으로 (부분적인) STSG를 직접 output할 수 있으며, 이는 본질적으로 input prompts에 표시된 video content의 특정 부분을 grounding하는 것입니다. 그림 3에서는 생성된 STSG 표현이 구조적 STSG에 어떻게 해당하는지를 보여줍니다. 또한, rationale 역할을 하는 output STSG는 시스템 내에서 재활용됩니다. 즉, 다음 라운드를 위한 input으로 용도가 변경됩니다.
3.3. Fine-grained Video-Scene Grounding-aware Tuning
직관적으로, 우리는 우리 시스템이 외부 STSG annotations에 의존하지 않고, 즉 STSG-free inference로 downstream tasks에 대한 video reasoning을 수행하기를 기대합니다. 이를 위해서는 video와 STSG 간의 정확한 spatial-temporal grounding이 필요합니다. 이를 위해, 우리는 MotionEpic이 input instructions에 따라 STSG를 autonomously 파싱하도록 학습되도록 tuning을 수행합니다. grounding-aware tuning은 video-STSG pairs를 기반으로 수행됩니다. 우리는 다양한 training objectives를 설계했으며, 이는 coarse-grained 및 fine-grained level로 더 나눌 수 있습니다:
- Enhancing coarse-grained correspondence:
- L1: 전체 input video와 STSG가 paired인지 예측.
- L2: video가 주어졌을 때, video의 전체 STSG (표현)를 generating.
- Enhancing fine-grained correspondence:
- L3: video와 action description(s)이 주어졌을 때, 해당하는 object tracklet(s), 즉 부분적인 STSG를 output.
- L4: video와 key object(s)가 주어졌을 때, 해당하는 temporal action(s)을 textual response로 설명하고, 해당하는 object tracklet(s)을 output.
- L5: video와 특정 frame의 object에 대한 bbox가 주어졌을 때, object label과 해당하는 tracklet을 output.
각 learning objective에 대해, 우리는 후속 downstream inference와 일관되게 instruction-tuning 스타일의 question-answer pairs로 입력을 구성합니다. 전반적으로, STSG encoder와 video projector를 제외하고, video encoder와 backbone LLM은 모든 학습 단계 동안 frozen 상태로 유지됩니다. LLM을 tune하기 위해, 우리는 LoRA를 활용하여 작은 부분 집합의 parameters만 업데이트될 수 있도록 합니다.
위의 grounding-level tuning을 수행하기 전에, 우리는 Webvid에서 전통적인 video pre-training을 수행하며, 이는 다음 video understanding tuning을 위한 중요한 준비 단계 역할을 합니다. encoding modules를 LLM과 정렬함에도 불구하고, 전체 시스템이 사용자의 instructions를 충실히 따르고 이해하며 원하는 outputs을 생성하도록 하는 목표에는 여전히 격차가 있습니다. 이를 해결하기 위해, 추가적인 instruction tuning이 필요합니다. grounding-level tuning 이후, 우리는 model의 instruction tuning을 위해 기존 video instruction tuning data를 활용했으며, 여기에는 VideoChat과 Video-ChatGPT의 dataset이 포함됩니다.
AI 연구자들을 위한 MotionEpic 섹션 정리 노트
1. Architecture: Tri-modal Input & Specialized Encoders
- Model Core: MotionEpic은 Vicuna-7B를 backbone LLM으로 사용하는 Video MLLM.
- Inputs: 세 가지 종류의 입력을 동시에 처리함: (1) Text Prompt, (2) Video, (3) STSG (Spatial-Temporal Scene Graph) representation.
- Encoders:
- Video: ViT-L/14 Encoder + Q-Former Projector (표준적인 구조).
- STSG (핵심): Recurrent propagation을 적용하여 개조된 Graph Transformer를 사용, multi-frame STSG의 시계열적/구조적 정보를 효과적으로 encode함.
2. STSG Integration: Enhanced Representation for Tracking
- Concept: STSG는 Video의 핵심 semantics를 'subject-predicate-object' triplet 형태로 구조화하여, 불필요한 background 정보를 필터링하고 compositional spatiotemporal semantics의 효과적인 modeling을 가능하게 함.
- Key Modification:
- Frame Sampling: 연산 효율을 위해 전체 frame이 아닌 균일하게 샘플링된 frame을 사용함.
- Temporal Coreference Edges: Vanilla STSG를 개선하여, 서로 다른 frame에 있는 **동일 객체를 연결하는 time-persistent edge ()**를 추가함. 이는 그래프 구조 내에서 명시적으로 'tracking' 과정을 모방하는 핵심적인 장치임.
- Functionality: MotionEpic은 STSG를 이해할 뿐만 아니라, text prompt에 따라 특정 video content를 grounding하는 STSG를 직접 생성(generate)할 수 있음. 생성된 STSG는 reasoning의 근거(rationale)가 되며, 다음 단계의 입력으로 재활용될 수 있음 (recurrent input).
3. Training Strategy: Multi-stage, Grounding-aware Tuning
- Ultimate Goal: STSG-free inference. Inference 단계에서는 외부 STSG annotation 없이, model이 스스로 STSG를 파싱하고 활용하여 downstream task를 수행하게 하는 것.
- Phase 1: Video Pre-training
- Webvid 데이터셋을 사용한 일반적인 video pre-training으로 video feature와 LLM을 align함.
- Phase 2: Fine-grained Grounding-aware Tuning (핵심)
- Video-STSG pair 데이터셋을 기반으로, coarse-grained에서 fine-grained로 점차 세분화되는 multi-task learning을 수행.
- Training Objectives:
- Coarse-grained (L1, L2): Video 전체와 STSG 전체의 correspondence 학습. (e.g., video-STSG pair 예측, 전체 STSG 생성)
- Fine-grained (L3, L4, L5): 특정 text(action, object)나 visual cue(bbox)를 해당 **object tracklet (부분 STSG)**에 grounding하는 능력을 집중적으로 학습.
- Phase 3: Instruction Tuning
- VideoChat, Video-ChatGPT 등의 데이터셋을 활용해 전반적인 instruction following 능력을 향상시킴.
- Efficiency: Video encoder와 backbone LLM의 대부분은 frozen 상태로 유지하고, LoRA를 이용해 LLM의 일부 parameter와 STSG encoder, video projector만 학습시켜 효율을 극대화함.
쉬운 설명 :
이 섹션은 이 논문의 핵심 기술인 'MotionEpic' 이라는 AI 모델이 어떻게 설계되고 훈련되는지를 설명합니다.
MotionEpic은 무엇인가요?
MotionEpic은 비디오를 아주 정밀하게 이해하기 위해 만들어진 AI입니다. 이 AI는 그냥 눈으로만 보는 게 아니라, 비디오 속에서 일어나는 모든 상황을 **'관계도(STSG)'**로 그려가며 이해하는 특별한 능력이 있습니다.
'관계도(STSG)'란 무엇인가요?
예를 들어, "한 소년이 강아지에게 공을 던지는" 영상이 있다고 해봅시다.
- 기존 AI: "소년, 강아지, 공이 있네." 라고 인식합니다.
- MotionEpic: "소년이(Subject) → 공을 던진다(Predicate) → 강아지에게(Object)" 와 같이 마치 문장처럼 관계를 정리합니다.
- MotionEpic의 진짜 무기: 여기서 더 나아가, 1초 후 공이 날아가고, 2초 후 강아지가 공을 무는 장면까지 **시간의 흐름에 따라 '그 공'이 어떻게 움직였는지 선으로 쭉 연결해서 하나의 '움직이는 관계도'**를 만듭니다. 이것이 바로 'tracking'을 가능하게 하는 핵심 기술입니다.
MotionEpic은 어떻게 훈련되나요?
이 똑똑한 AI를 만들기 위해 연구팀은 3단계의 체계적인 훈련 코스를 설계했습니다. 최종 목표는 AI가 나중에는 '관계도' 정답지가 없어도 스스로 모든 것을 해내는 것입니다.
- 1단계 (기초 훈련): 먼저 수많은 비디오를 보여주며 비디오와 언어를 연관 짓는 기본적인 능력을 길러줍니다.
- 2단계 (핵심 훈련 - 관계도 그리기 집중 교육): MotionEpic의 핵심 능력인 '관계도' 그리기와 이해를 집중적으로 가르칩니다.
- 쉬운 과제: "이 비디오랑 이 관계도는 서로 짝이 맞니?"
- 어려운 과제: "이 비디오를 보고 '소년이 공을 던지는' 부분만 찾아서 그 부분만의 미니 관계도를 그려봐."
- 3단계 (실전 훈련): 이제 전반적으로 사람의 다양한 지시(instruction)를 더 잘 알아들을 수 있도록 다듬는 훈련을 합니다.
특히 훈련 과정에서 AI의 거대한 뇌(LLM) 전체를 매번 바꾸는 대신, **'관계도'를 그리는 능력과 관련된 작은 부분만 집중적으로 수정하고 업그레이드(LoRA)**해서 매우 효율적으로 학습시켰습니다.
4. Video-of-Thought Reasoning Framework
MotionEpic을 기반으로, 이제 VoT를 사용하여 video reasoning을 수행합니다. "Let’s think step by step"이라는 하나의 직접적인 prompt를 사용하는 vanilla CoT와 달리, VoT는 원본 문제를 훨씬 더 작고 세분화된 sub-problems으로 나눕니다. 우리는 low-level perceptive pixel grounding에서 high-level cognitive semantic comprehension으로 이어지는 과정을 따르는, 다섯 개의 chained steps를 포함하는 정확한 task decomposition 패러다임을 고려합니다. 그림 4에서는 전반적인 VoT framework를 보여줍니다.
▶ Step-1: Task Definition and Target Identification
먼저, MotionEpic에는 원본 video와 함께 task definition, format, 그리고 원본 question의 text prompt가 제공되며, 이 모든 것이 reasoning의 background foundation information 역할을 합니다. 초기 단계로서, 우리는 분석이 필요한 video 내의 target을 식별하기를 기대하며, 이는 후속 심층 reasoning을 결정하기 위한 중요한 전제 조건입니다. 때때로 question이 video에 보이는 target을 명시적으로 포함하거나, 관련 target을 암시적으로 포함할 수 있다는 점은 주목할 가치가 있습니다. 따라서, 우리는 model에게 다음과 같이 prompt하여 question으로부터 video에 관련되거나 관련된 target object(s)가 무엇인지 추론하도록 진행합니다:
Given the question [Question], what are the possible targets of the mainly mentioned or involved?
이 단계를 거친 후, question에 관련된 모든 가능한 [Target]이 확정될 것입니다.
▶ Step-2: Object Tracking
두 번째 단계에서는 object의 전체 spatial-temporal characteristics를 추가로 grounding하는 것을 목표로 합니다. 즉, target의 trajectory를 track하는 것입니다. 우리는 fine-grained video understanding을 추구하기 위해 targets의 temporal tracking을 grounding하는 것이 중추적이라는 점에 주목합니다. 왜냐하면 video 내의 behaviors를 정확하게 perceiving해야만 후속 cognitive-level understanding이 의미를 가질 수 있기 때문입니다. 이 연구에서는, 원본 video frames를 직접 tracking하는 대신 temporal grounding을 위해 STSG를 활용합니다. STSG에 의해 전달되는 이러한 semantic representation은 매우 간결하여, video target의 tracking이 더 정확하고 신뢰할 수 있도록 보장합니다. 또한 주목할 점은, STSG에 기반한 object tracking과 pixel grounding은 기존 MLLMs에 내재된 hallucination issues를 효과적으로 완화할 수 있다는 것입니다.
grounding-aware tuning을 수행한 MotionEpic은 object에서 (partial) STSG로 ground하는 완전한 capability를 개발합니다. 따라서, 우리는 model에게 직접 다음과 같이 prompt합니다:
Provide the tracklet of involved [Target] by outputting the corresponding partial expression.
산출된 STSG의 grounded [Target Tracklet]은 다음 단계인 behavior analysis를 위한 low-level evidence(즉, supporting rationale) 역할을 할 것입니다.
▶ Step-3: Action Analyzing
이 단계에서, VoT는 STSG의 target tracking을 통합하여 해당 actions와 behaviors를 추가로 분석합니다. target object의 motion을 정확하게 이해하기 위해서는, target 자체를 관찰하는 것만으로는 불충분합니다. 이 과정은 또한 STSG representation 내의 higher-order neighbor nodes를 참조하여, interacting targets와 그들의 neighboring scenes를 함께 고려해야 합니다. 다른 한편으로, video pixels만으로 actions를 직접 추론하는 것은 여전히 부적절합니다. 왜냐하면 pixel information에만 기반한 해석은 종종 superficial하기 때문입니다. 따라서, 우리는 model이 더 잠재적으로 관련된 commonsense knowledge를 고려하도록 추가로 prompt하여, model이 video pixel observations를 factual world와 연결하고, video에 대한 더 심층적인 이해를 달성하도록 합니다. MLLMs가 광범위한 pre-training을 통해 필요한 commonsense knowledge의 저장소를 보유하고 있다는 점을 감안할 때, 필요한 것은 model에게 적절하게 prompt하는 것뿐입니다:
Combining all possible related commonsense, analyze the motion behavior based on the [Target Tracklet] and the neighbor scenes within . Describing the action observations and implications.
이 단계는 target action의 [Observation and Implication]을 산출합니다.
▶ Step-4: Question Answering via Ranking
video 속 target actions에 대한 심층적인 이해를 확립했으므로, 이제 원본 question에 답하는 것을 고려할 수 있습니다. 우리는 여러 candidate answers가 제공되는 multiple-choice QA format을 생각합니다.¹ 인간이 multi-choice questions에 답하는 패턴에서 영감을 받아, 우리도 최종 답변을 결정하기 위해 ranking mechanism을 고려합니다. 구체적으로, 각 candidate answer에 대해, 우리는 model에게 commonsense knowledge와 결합하여 그것의 likelihood를 (1에서 10까지) score 매기도록 prompt하고, 해당 rationale을 제공하도록 합니다:
For the question [Question], given a candidate answer [Answer], please based on the action’s [Observation and Implication] combined with commonsense, score the rationality of this answer with a 1-10 scale, and also output the rationale.
그런 다음 우리는 모든 옵션의 scores를 rank하고 가장 최적의 answer [Answer]를 선택합니다.
▶ Step-5: Answer Verification
복잡한 video task는 종종 복잡한 questions와 answers를 포함하고, 전체 reasoning process가 긴 chained steps를 포함하므로, 이전 단계에서 제공된 answer를 verify하는 것이 필수적입니다. verification에 대한 우리의 기본 idea는, answer A가 정확하다고 가정하고, 그 answer가 두 가지 측면에서 input question 및 video와 모순을 일으키는지 역으로 평가하는 것입니다:
- 첫째, perception standpoint에서 video에 제시된 사실과 일치하는지 pixel grounding information을 확인합니다. 2) 다른 한편으로, cognition perspective에서 answer에 내재된 commonsense implications가 3번째 reasoning 단계에서 추론된 주요 observations 중 어느 것과도 모순되지 않는지 확인하기 위해 model에게 다시 prompt합니다.
Given the , and the raw question [Question], now you need to verify the previous answer by 1) checking the pixel grounding information if the answer [Answer] aligns with the facts presented in the video from a perception standpoint; 2) determining from a cognition perspective if the commonsense implications inherent in the answer contradict any of the main [Observations] inferred in the 3-rd reasoning step. Output the verification result with rationale.
¹ open-ended QA의 경우, 우리는 model에게 여러 개의 구별되는 optional answers를 output하도록 prompt하여, 다른 유형의 QA formats을 multi-choice format으로 통일하는 것을 고려합니다. open-ended QA format에 대해서는, Appendix에서 처리 및 prompt 방법을 자세히 설명합니다.
만약 perception 및 cognition 관점에서 어떤 불일치가 발견되면, 우리는 해당 rationale을 기록하고, 4번째 단계를 다시 실행하여 answer를 다시 선택합니다. 이 접근 방식은 final outcome이 가장 사실적으로 정확하도록 보장합니다.
AI 연구자들을 위한 VoT Framework 섹션 정리 노트
Overall Framework: Structured Task Decomposition
- VoT vs. Vanilla CoT: VoT는 "Let’s think step by step"과 같은 단순 prompt가 아님. low-level perception에서 high-level cognition으로 진행되는, 명시적인 5단계 task decomposition 패러다임임. 복잡한 문제를 관리 가능한 sub-problems으로 체계적으로 분해하여 해결함.
The 5 Chained Steps of VoT
- Step 1: Target Identification
- Function: Reasoning의 범위를 좁히는 초기 포커싱 단계.
- Process: Model에게 Question을 입력하여, 분석에 필요한 핵심 [Target]이 무엇인지 추론하고 명시적으로 확정하게 함.
- Step 2: Object Tracking using STSG (Temporal Grounding)
- Core Idea: 원본 video frames를 직접 tracking하는 대신, MotionEpic이 생성한 STSG (partial)를 temporal grounding의 매개체로 활용함.
- Advantages:
- STSG의 semantic representation은 더 간결하고 정확함.
- MLLM의 고질적인 문제인 hallucination을 효과적으로 완화시킬 수 있음.
- Output: [Target Tracklet] (부분 STSG)을 생성하며, 이는 다음 단계 분석을 위한 low-level evidence (rationale)로 기능함.
- Step 3: Action Analysis (Semantic Interpretation)
- Function: Perception에서 Cognition으로 전환하는 단계.
- Process: [Target Tracklet]을 분석하되, STSG 내의 **higher-order neighbor nodes (주변 객체/환경과의 상호작용)**를 함께 고려함.
- Key Enabler: Model에게 commonsense knowledge를 명시적으로 통합하도록 prompt하여, 피상적인 pixel 정보 기반 해석을 넘어 factual world와 연결된 심층적인 [Observation and Implication]을 도출함.
- Step 4: Question Answering via Ranking
- Method: Multiple-choice QA 형식으로 문제를 해결. (Open-ended QA는 여러 선택지를 생성하게 하여 이 형식으로 통일)
- Process: 각 candidate answer에 대해, 3단계에서 도출된 [Observation and Implication]과 commonsense를 기반으로 rationality score (1-10점)를 매기고 그 rationale을 생성하게 함. 가장 높은 score를 받은 선택지를 최적의 답으로 선정.
- Step 5: Answer Verification (Self-Correction Loop)
- Function: 복잡한 chained reasoning 과정에서 발생할 수 있는 오류를 검증하고 수정하는 필수적인 단계.
- Two-Pronged Verification: 4단계에서 선택된 답이 정답이라고 가정한 후, 다음 두 가지 관점에서 contradiction이 없는지 역으로 검증함.
- Perception Standpoint: 답이 video의 시각적 사실(pixel grounding information)과 일치하는가?
- Cognition Perspective: 답에 내재된 commonsense implication이 3단계에서 추론된 핵심 [Observations]와 모순되는가?
- Self-Correction: 모순이 발견되면, 해당 rationale을 기록하고 4단계를 재실행하여 다른 답을 선택함. 이를 통해 최종 결과의 사실적 정확성을 극대화함.
쉬운 설명 :
이 섹션은 이 논문의 핵심적인 추리 방법론인 **'Video-of-Thought(VoT)'**가 어떻게 작동하는지 설명합니다. VoT는 AI가 복잡한 비디오에 대한 어려운 질문을 받았을 때, 그냥 감으로 때려 맞히는 것이 아니라, 마치 유능한 탐정이 사건을 해결하듯 5단계의 체계적인 수사 과정을 거치도록 설계되었습니다.
🕵️♂️ VoT 탐정의 5단계 수사 기법
1단계: 수사 대상 특정하기
- 탐정(AI)은 사건 파일(비디오와 질문)을 받습니다. 질문이 "왜 빨간 자동차가 사고를 냈나요?"라면, 탐정은 "오케이, 이번 사건의 핵심 용의자는 '빨간 자동차'군. 모든 조사는 이 차에 집중한다!"라고 수사 대상을 명확히 합니다.
2단계: 용의자(대상)의 모든 행적 추적하기
- 탐정은 CCTV 영상(비디오)을 그냥 멍하니 보고만 있지 않습니다. 대신 '움직이는 관계도(STSG)'라는 특별한 도구를 사용해 '빨간 자동차'가 영상 속에서 정확히 어떤 경로로, 어떻게 움직였는지 아주 깔끔한 '행적 지도'를 그립니다.
- 이렇게 하면, 기억에 의존하다가 사실을 왜곡하는 실수를 방지하고(AI의 hallucination 문제 해결), 정확한 물증(근거)을 확보할 수 있습니다.
3단계: 행적 분석 및 동기 추론하기
- 이제 '행적 지도'를 보며 용의자의 행동을 분석합니다. "음... 차가 갑자기 오른쪽으로 틀었네. 지도를 보니 바로 그 지점에 보행자가 있었군."
- 여기에 탐정의 '상식(commonsense)'을 더합니다. "보통 운전자들은 사람을 피하기 위해 핸들을 꺾지." 이를 통해 "용의 차량은 보행자를 피하려다 사고를 낸 것으로 보인다"는 심층적인 행동 분석 결과를 내놓습니다.
4단계: 가장 유력한 시나리오 선택하기
- 탐정에게 "A: 운전자가 졸았다", "B: 타이어가 터졌다", "C: 보행자를 피하려 했다" 와 같은 여러 용의선상(선택지)이 주어집니다.
- 탐정은 3단계에서 분석한 내용을 바탕으로 각 시나리오의 신뢰도에 1점부터 10점까지 점수를 매깁니다. "C 시나리오는 내 분석 결과와 완벽하게 일치하므로 10점 만점이야." 라고 판단하고 C를 가장 유력한 시나리오로 선택합니다.
5단계: 최종 검증 및 보고서 작성
- 사건을 종결하기 전, 탐정은 자신의 결론에 오류가 없는지 마지막으로 한 번 더 확인합니다.
- 두 가지 관점에서 검증:
- 현장 검증: "내 결론이 실제 CCTV 영상과 어긋나는 부분은 없는가?" (시각적 사실 확인)
- 논리 검증: "내 결론이 앞서 분석했던 내용들과 모순되지는 않는가?" (논리적 일관성 확인)
- 만약 여기서 조금이라도 이상한 점이 발견되면, 4단계로 돌아가 다른 시나리오를 다시 검토합니다. 이 과정을 통해 최종 결론의 정확성을 최대한으로 끌어올립니다.
주인장 이해
- 질문에서 핵심 오브젝트가 될만한 단어 추출 (VLM의 역할)
- 그 단어에 해당하는 오브젝트를 프레임별로 좌표와 다른 물체와의 관계 파악
- 만들어진 STSG를 보고 LLM이 어떤 행위인지 역추론
- 각 옵션과 추론결과를 비교해서 점수 반영 가장 높은 옵션 생성
- 결론이 씬그래프와 일치하냐? 텍스트 추론과 일치하냐? 두개를 보고 최종답이 올바른지 파악
Step 5에서 하나만 'Yes'일 경우에 대한 질문
매우 날카롭고 중요한 질문입니다. 논문에서는 이 시나리오에 대해 구체적으로 언급하며, 어떻게 처리하는지 설명하고 있습니다.
결론부터 말씀드리면, "불일치(Inconsistency)가 발견되면 Step 4를 다시 실행한다" 입니다.
논문 6페이지의 "Step-5: Answer Verification" 섹션 마지막 문장에 다음과 같이 명시되어 있습니다.
"If any inconsistencies are found in perception and cognition perspectives, we record the corresponding rationale, and re-execute the 4-th step to reselect the answer. This approach ensures that the final outcome is the most factually accurate."
이것이 의미하는 바는 다음과 같습니다.
시나리오 1: 픽셀 증거(STSG)와 불일치 (Perception Mismatch)
- 상황:
- 결론: [D. 경찰견]
- STSG (증거): "개가 장애물을 넘고 있으며, 주인으로 보이는 사람이 지시를 내리고 있음."
- 검증 결과: 어질리티(agility) 훈련으로 보이는데, 꼭 경찰견 훈련이라고 단정할 시각적 증거(제복, 경찰차 등)는 부족함. -> Inconsistent!
- 모델의 행동:
- "불일치 발견: '경찰견'이라는 결론은 영상 증거만으로는 완벽히 뒷받침되지 않는다" 라는 내부 기록(rationale)을 남깁니다.
- Step 4로 돌아가서, 2순위였던 선택지 (예: [A. 반려동물])를 새로운 후보로 올리고 다시 검증을 시작합니다.
시나리오 2: 상식/논리와 불일치 (Cognition Mismatch)
- 상황:
- 결론: [B. 서커스 공연 동물]
- STSG (증거): "개가 장애물을 넘고 있음." (증거 자체는 일치)
- 내부 추론: "전문적인 훈련을 받고 있는 것으로 보아, 이는 조련사와 교감하는 과정이다."
- 검증 결과: '서커스'라는 개념은 보통 화려한 무대, 관중, 특정 소품과 연관되는데, 영상의 배경은 평범한 잔디밭 훈련장이므로 '서커스'라는 상식과 어긋남. -> Inconsistent!
- 모델의 행동:
- "불일치 발견: '서커스'라는 결론은 일반적인 훈련 환경이라는 상식적 추론과 충돌한다" 라는 기록을 남깁니다.
- 마찬가지로 Step 4로 돌아가서 차순위 선택지를 다시 검토합니다.
최종 정리
정리해주신 5단계 흐름은 완벽하게 맞습니다. 그리고 Step 5의 검증 과정은 단순한 'Yes/No' 확인이 아니라, 하나라도 'No'가 나오면 경고등이 켜지는 '안전장치' 역할을 합니다. 이 장치가 작동하면, 시스템은 성급하게 답을 내지 않고 한 단계 뒤로 물러나(Step 4) 더 나은 대안을 신중하게 재검토하는 과정을 거칩니다. 이것이 VoT가 더 정확하고 신뢰성 높은 답변을 생성하는 핵심적인 메커니즘 중 하나입니다.
