AI바라기의 인공지능

VLM : 논문리뷰 : Video Event Reasoning and Prediction by Fusing World Knowledge from LLMs with Vision Foundation Models 본문

논문리뷰

VLM : 논문리뷰 : Video Event Reasoning and Prediction by Fusing World Knowledge from LLMs with Vision Foundation Models

AI바라기 2025. 7. 29. 14:16

쉬운 설명

이 논문의 핵심 아이디어는 **"아는 것이 많은 전문가(LLM)가 현장을 똑바로 보도록 훈련시키는 과정"**과 같습니다.

이 전문가는 책으로 배운 지식(LLM의 사전 지식)이 너무 많아서, 가끔 현장(비디오)을 대충 보고 "원래 절차는 이렇지"라며 자기가 아는 대로 지어낼 때가 있습니다 (예: 영상에 없는 토크 렌치를 봤다고 주장).

이 논문은 이 전문가에게 Fusion Core라는 특수 안경을 씌워줍니다. 이 안경은 현장의 복잡한 시각 정보(VFM의 feature) 중에서 가장 중요한 핵심만 뽑아 전문가의 눈앞에 명확하게 보여주는 역할을 합니다. 또한, 2단계 훈련을 통해 1단계에서는 안경 쓰는 법(시각 정보를 언어로 변환)을 배우게 하고, 2단계에서는 실제 사건 현장(추론/예측 데이터)에서 문제를 풀어보게 하여 실전 능력을 키웁니다. 그 결과, 전문가는 자신의 방대한 지식을 활용하면서도, 현장의 증거에 입각하여 정확하게 추론하고 예측할 수 있게 됩니다.

 

용어 설명 (Glossary)

  • VFM (Vision Foundation Model): 대규모 시각 데이터로 사전 학습되어, 이미지나 영상에서 풍부하고 일반적인 feature를 추출하는 능력이 뛰어난 모델. 논문에서는 '눈(eyes)'의 역할을 담당합니다. (예: InternVideo)
  • VLM (Vision-Language Model): Vision과 Language 두 가지 modality를 함께 이해하고 처리하는 모델.
  • Knowledge Gap: 기존 video understanding 모델들이 "무엇(what)"이 일어나는지는 잘 인식하지만, "왜(why)" 또는 "그 다음엔(what's next)"과 같은 인과 관계나 미래 예측에 필요한 상식, 세상 지식이 부족한 한계.
  • Fusion Core: 이 논문의 핵심 기술. Vision Foundation Model(VFM)이 추출한 복잡한 시각적 feature들을 LLM이 이해할 수 있는 간결한 language-aligned representation으로 '증류(distill)'하고 변환하는 모듈. Q-Former 구조에서 영감을 받았습니다.
  • Object-centric Features: 영상의 전반적인 맥락(spatiotemporal features)뿐만 아니라, 특정 객체(object)에 초점을 맞춰 추출된 feature. SAM(Segment Anything Model)을 사용해 구현되었습니다.
  • Causal-Vid-Instruct: 이 연구에서 직접 구축한 고품질 instruction-tuning용 데이터셋. GPT-4V를 'teacher model'로 사용하여, 10만 개의 비디오 클립에 대한 인과 관계 설명과 미래 예측 응답을 생성한 합성 데이터셋입니다.
  • LLM-as-a-Judge: 생성된 텍스트의 품질을 평가하기 위해 자동화된 metric(예: BLEU) 대신, 강력한 LLM(예: GPT-4o)을 평가자(judge)로 사용하는 방식. 논문에서는 Factual Grounding, Logical Coherence, Insightfulness를 기준으로 평가했습니다.

Purpose of the Paper

이 논문은 기존 video understanding 모델들이 "무엇"이 일어나는지 인식(recognition)하는 데는 뛰어나지만, 상식 부족으로 인해 "왜" 그런 사건이 발생했는지 추론(causal reasoning)하거나 "다음에 무엇이 일어날지" 예측(future prediction)하는 고차원적 인지(cognitive) 능력에 한계가 있다는 'Knowledge Gap' 문제를 해결하는 것을 목표로 합니다.

이를 위해, 깊이 있는 시각적 인식을 위한 **VFM (Vision Foundation Model)**과 지식 기반 추론을 위한 **LLM (Large Language Model)**을 단순히 연결하는 것을 넘어, **정교한 Fusion Core**를 통해 시각적 증거(visual evidence)에 단단히 기반한(grounded) 추론을 가능하게 하는 새로운 framework를 제시합니다. 이는 단순 인식을 넘어 진정한 인지적 이해로 나아가는 것을 목표로 합니다.

Key Contributions & Novelty

  • VFM과 LLM의 시너지를 극대화하는 통합 Framework 제시
    • Contribution: 시각 인식을 위한 VFM과 추론을 위한 LLM을 효과적으로 결합하여, 영상의 인과 관계 추론 및 미래 예측이라는 고차원적 task를 수행하는 통합된 framework를 제안했습니다.
    • Novelty: 단순 VQA나 captioning을 넘어, '추론'과 '예측'이라는 인지적 영역에 초점을 맞춰 VFM과 LLM의 역할을 명확히 정의하고 시너지를 창출한 점이 독창적입니다.
  • Q-Former 기반의 정교한 Vision-Language Fusion Core 설계
    • Contribution: Spatiotemporal feature와 object-centric feature를 모두 입력받아, LLM이 추론에 활용할 수 있도록 가장 핵심적인 시각 정보만을 압축하고 변환하는 효율적인 Fusion Core를 설계했습니다.
    • Novelty:  Fusion Core는 단순 feature projection이 아니라, 학습 가능한 query를 통해 시각 정보를 '질의'하고 '증류'하는 정보 병목(information bottleneck) 역할을 합니다. 이를 통해 LLM의 추론이 시각적 증거에 강력하게 grounding 되도록 유도하며, 'hallucination'을 억제합니다.
  • 2단계 학습 전략 및 고품질 합성 데이터셋(Causal-Vid-Instruct) 구축
    • Contribution: 1단계에서 대규모 video-caption 데이터로 Fusion Core를 사전 학습(alignment)하고, 2단계에서 자체 구축한 고품질 instruction 데이터셋으로 모델 전체를 미세 조정(fine-tuning)하는 효율적인 2단계 학습 전략을 채택했습니다.
    • Novelty: 고품질 추론/예측 데이터의 부족 문제를 해결하기 위해, GPT-4V를 teacher model로 활용하여 Causal-Vid-Instruct 데이터셋을 직접 생성했습니다. 이는 모델이 복잡한 인과 관계 및 예측 패턴을 효과적으로 학습하게 하는 핵심적인 기여입니다.

Experimental Highlights

  • SOTA 달성 및 강력한 Zero-shot 일반화 성능 증명
    • NExT-QA, VCR과 같은 주요 reasoning 벤치마크에서 기존 SOTA 모델들(Video-LLaMA, ViperGPT 등)을 능가하는 성능을 달성했습니다.
    • 가장 주목할 만한 결과는, 학습에 전혀 사용되지 않은 CLEVRER (물리/인과 추론)와 Test of Time (시간 추론) 벤치마크에서 강력한 zero-shot 성능을 보였다는 점입니다. 이는 모델이 특정 데이터셋에 overfitting된 것이 아니라, 일반화 가능한 추론 능력을 학습했음을 시사하는 강력한 증거입니다.
  • 핵심 구성 요소의 중요성을 입증한 Ablation Study
    • w/o Fusion Core: Fusion Core를 단순 평균 pooling으로 대체하자 성능이 **재앙 수준(catastrophic degradation)**으로 하락하여, 이 모듈이 프레임워크의 핵심임을 증명했습니다.
    • w/o Object Features: 객체 중심 feature를 제거하자 인과 관계 추론 성능이 눈에 띄게 하락하여, 구조화된 시각 정보의 중요성을 확인했습니다.
    • w/o Stage 2 FT: Instruction fine-tuning을 생략하자 모델이 단순 묘사는 가능했지만 추론 task는 완전히 실패하여, 고차원적 능력 학습에 2단계 학습이 필수적임을 보였습니다.
    • w/o Synthetic Data: 자체 제작한 Causal-Vid-Instruct 데이터셋 없이 학습하자 모델의 설명 및 예측 능력이 약화되어, 고품질 instruction 데이터의 가치를 입증했습니다.

Limitations and Future Work

  • Substantial Computational Cost: Foundation model 기반 구조의 특성상 학습과 추론에 상당한 계산 자원이 필요합니다. 향후 연구에서는 모델 압축(model compression)이나 더 효율적인 architecture 탐색이 필요합니다.
  • Dependency on the Teacher Model: Causal-Vid-Instruct 데이터셋은 GPT-4V라는 teacher model에 의존하여 생성되었기 때문에, teacher model의 잠재적 편향(bias)을 물려받을 위험이 있습니다. 사람의 피드백을 통한 강화학습이나 더 다양한 데이터로 fine-tuning 하는 연구가 필요합니다.
  • Factual Grounding and Hallucination: Fusion Core를 통해 크게 완화되었지만, 여전히 LLM의 강력한 사전 지식이 시각적 증거를 무시하고 **사실이 아닌 내용을 생성(hallucination)**하는 문제가 남아있습니다. (예: 영상에 없음에도 '토크 렌치를 사용했다'고 답하는 경우). 이는 더 강건한 grounding 메커니즘이 필요함을 시사합니다.
  • Long-form Video Understanding: 현재의 벤치마크와 모델은 상대적으로 짧은 영상에 초점을 맞추고 있습니다. 몇 시간 길이의 영상에서 복잡하고 모호한 사회적 역학을 추론하는 것은 앞으로의 중요한 도전 과제입니다.

Overall Summary

이 논문은 기존 비디오 이해 모델의 한계인 'Knowledge Gap'을 극복하고자, VFM의 시각적 인식 능력과 LLM의 지식 기반 추론 능력을 Q-Former 기반의 정교한 Fusion Core로 융합하는 새로운 프레임워크를 제안합니다. 자체 구축한 고품질 합성 데이터셋(Causal-Vid-Instruct)을 활용한 2단계 학습 전략을 통해, SOTA 성능 달성과 함께 강력한 zero-shot 일반화 능력을 입증했습니다. 이 연구는 기계의 영상 이해 수준을 단순 인식에서 인과 관계 추론 및 미래 예측과 같은 진정한 인지(cognitive) 능력으로 한 단계 끌어올렸다는 점에서 중요한 의의를 가집니다.

 

 

Abstract

현재 video understanding models은 "무슨 일이 일어나고 있는지"를 recognition하는 데는 뛰어나지만, causal reasoning 및 future prediction과 같은 high-level 인지 tasks에서는 부족한 모습을 보입니다. 이는 commonsense 세계 지식의 부족에 뿌리를 둔 한계입니다. 이러한 인지적 격차를 해소하기 위해, 우리는 깊은 visual 인식을 위한 강력한 Vision Foundation Model (VFM)과 지식 기반 reasoning 코어 역할을 하는 Large Language Model (LLM)을 시너지 효과를 내도록 융합하는 새로운 framework를 제안합니다.

우리의 핵심 기술 혁신은 Q-Former architecture에서 영감을 받은 정교한 fusion module로, 복잡한 spatiotemporal 및 객체 중심 visual features를 간결하고 language에 정렬된 representation으로 추출합니다. 이를 통해 LLM은 추론 과정을 직접적인 visual 증거에 효과적으로 기반을 둘 수 있습니다. model은 two-stage 전략을 통해 trained됩니다. 먼저 video-text data에 대한 대규모 정렬 pre-training으로 시작하여, 고급 reasoning 및 prediction 기술을 이끌어내기 위해 설계된 선별된 dataset에 대한 목표 instruction fine-tuning이 이어집니다.

광범위한 실험을 통해 우리 model이 여러 까다로운 benchmarks에서 state-of-the-art performance를 달성함을 입증합니다. 특히, 이 model은 이전에 보지 못한 reasoning tasks에 대해 놀라운 zero-shot generalization을 보이며, 우리의 심층적인 ablation studies는 각 architectural 구성요소의 중요한 기여를 검증합니다. 이 연구는 machine perception의 경계를 단순한 recognition에서 진정한 인지적 understanding으로 확장하며, robotics, human-computer interaction 및 그 이상의 분야에서 더 지능적이고 유능한 AI systems를 위한 길을 열어줍니다.

Keywords

Computer Vision, Video Understanding, Large Language Models (LLMs), Multimodal AI, Event Reasoning, Future Prediction, Vision-Language Models (VLMs), Foundation Models.

 

 

 

1 Introduction

더보기

video data의 확산은 이를 정보 교환 및 환경 perception의 주요 매체로 자리매김하게 했으며, computer vision 연구의 중요한 발전을 이끌었습니다. 역사적으로 이 분야는 기본적인 image recognition에서부터 videos에서의 복잡한 action 및 gesture recognition에 이르기까지 discriminative tasks에서 놀라운 성공을 거두었습니다. 이러한 발전은 계층적 models이 강력한 recognition capabilities을 보여준 수화 번역과 같은 전문화된 domains과, 간섭에 대해 점점 더 robust하고 내성을 갖게 된 WiFi-based gesture 및 activity recognition과 같은 fine-grained sensing technologies에서도 반영됩니다. 그러나 이러한 "recognition"의 paradigm은 주로 visual scene에서 "무엇이" 일어나고 있는지에 대한 질문에 답합니다. 이제 학계는 단순한 perception에서 진정한 cognition으로 나아가는 더 심오한 도전 과제로 전환하고 있습니다. 이는 기계가 이벤트가 "왜" 발생하는지 reason하고 "다음에 무엇이" 일어날지 predict할 수 있도록 하는 것을 포함하며, 이는 통계적 pattern matching을 훨씬 뛰어넘는 수준의 understanding을 요구하는 task입니다.


이러한 cognitive leap을 달성하는 데 있어 주된 장애물은 "knowledge gap"입니다. 현재의 models은 architectural 정교함에도 불구하고 종종 closed world 내에서 작동하며, 인간이 자연스럽게 적용하는 방대한 양의 commonsense, 물리적 직관, 사회적 지식의 저장소가 부족합니다. 예를 들어, model이 video clip을 "한 사람이 계란과 밀가루를 집는 중"이라고 정확하게 classify할 수는 있지만, "그 사람이 케이크를 만들려고 한다"와 같은 근본적인 의도를 infer하는 데는 일반적으로 실패합니다. 이러한 한계는 차세대 applications의 요구 사항을 고려할 때 특히 두드러집니다. 진보된 human-machine systems, reliability를 위해 label noise를 억제하는 것을 목표로 하는 affective computing, 그리고 language models을 통한 심리적 understanding과 같은 새로운 분야들 모두 이벤트에 대한 더 깊고 causal한 understanding을 필요로 합니다. 마찬가지로, 이제 우리는 상용 기기를 통해 미묘한 생리학적 data를 포착할 수 있지만, 복잡한 인간 활동의 맥락에서 이 data를 해석하기 위해서는 고급 reasoning이 필요합니다. 따라서 핵심적인 challenge는 visual models에 이러한 외부 세계 지식을 부여하는 것입니다.


이 격차를 해소하기 위해, 우리는 현대 AI의 가장 강력한 두 가지 paradigms인 Vision Foundation Models (VFMs)와 Large Language Models (LLMs)의 능력을 시너지 효과를 내도록 융합하는 새로운 framework를 제안합니다. 우리의 approach는 Vision Transformers의 원리에 기반하여 구축되고 multimodal supervision으로 trained된 것과 같은 VFMs를 우리 system의 "눈" 역할을 하도록 leverages합니다. 이 models은 풍부한 spatiotemporal features를 extracting하고 visual world에 대한 상세한 pixel-level perception을 제공하는 데 능숙합니다. 동시에, 우리는 GPT-4와 같은 중요한 연구에서 입증된 바와 같이, 방대한 세계 지식, causal relationships, 추상적 개념의 저장소를 갖춘 reasoning core인 "뇌"로서 pre-trained LLM(예: LLaMA)을 사용합니다. 우리 methodology의 핵심은 VFM으로부터의 연속적이고 비정형적인 visual evidence를 LLM이 process하고 reason upon할 수 있는 이산적이고 language-like format으로 변환하는, 세심하게 설계된 fusion mechanism에 있습니다. 이 approach는 Flamingo 및 BLIP-2와 같은 선구적인 vision-language architectures의 성공에서 영감을 받았지만, 단순한 captioning이나 direct question-answering을 넘어 복잡한 event-level inference와 prediction에 명시적으로 맞춰져 있습니다.


이 연구는 cognitive video understanding의 발전에 몇 가지 중요한 contributions을 합니다. 첫째, 우리는 state-of-the-art Vision Foundation Model과 large-scale LLM을 응집력 있게 통합하여 단순한 recognition tasks를 결정적으로 뛰어넘어 high-level event reasoning 및 prediction을 수행하는 새롭고 효과적인 framework를 최초로 소개합니다. 이 framework의 중심에는 우리의 두 번째 contribution인 lightweight하면서도 강력한 cross-modal fusion module의 설계가 있습니다. 이 component는 효율적인 information bottleneck 역할을 하여 풍부한 visual features를 LLM의 semantic space와 aligning하며, 이는 복잡한 inference를 가능하게 할 뿐만 아니라 model의 reasoning이 직접적인 visual evidence에 확고히 grounded되도록 보장합니다. 우리의 approach를 검증하기 위해, 세 번째 contribution은 여러 까다로운 video reasoning benchmarks에서 수행된 광범위한 실험 세트입니다. 결과는 우리 model이 기존 state-of-the-art methods를 크게 outperforms하며, 특히 미래 이벤트를 predicting하는 데 있어 놀라운 zero-shot capabilities를 보여줌으로써 LLMs로부터 세계 지식을 transferring하는 것의 심오한 이점을 강조합니다. 우리는 여기서 개발된 원칙들이 visual dialog 및 audio-visual event analysis와 같은 관련된 multimodal tasks를 향상시키는 데에도 상당한 가능성을 지니고 있다고 믿습니다.


이 paper의 나머지 부분은 다음과 같이 구성됩니다. Section 2는 관련된 문헌에 대한 포괄적인 review를 제공합니다. Section 3은 우리가 제안하는 methodology의 상세한 architecture와 components를 제시합니다. Section 4는 우리의 실험 설정, datasets을 설명하고 정량적 및 정성적 결과를 모두 제시합니다. 마지막으로 Section ??는 paper를 마무리하고 future work를 위한 유망한 방향을 논의합니다.

 

 

 

Introduction 섹션 정리노트 (AI 연구자용)

Problem Definition

  • 현재 video understanding 분야는 "무엇(what)"이 일어나는지 인식(recognition)하는 discriminative tasks에서는 성공적이지만, "왜(why)" 일어나는지, 그리고 "다음은 무엇(what next)"인지를 다루는 high-level 인지(cognition) 능력, 즉 causal reasoning과 future prediction에는 한계가 명확함.
  • 이 문제의 근본 원인은 models이 commonsense와 같은 외부 세계 지식을 갖추지 못한 knowledge gap 때문임.

Proposed Solution & Core Idea

  • 이 knowledge gap을 해결하기 위해, 강력한 visual perception 능력을 가진 **Vision Foundation Model (VFM)**을 "눈(eyes)"으로, 방대한 세계 지식과 추론 능력을 갖춘 **Large Language Model (LLM)**을 "뇌(brain)"로 사용하는 새로운 framework를 제안함.
  • 두 model을 시너지 효과를 내도록 융합하여, perception과 cognition을 통합하는 것이 핵심.

Key Technical Contribution

  • VFM이 추출한 복잡하고 연속적인 visual evidence (e.g., spatiotemporal features)를 LLM이 이해하고 처리할 수 있는 이산적(discrete)인 language-like format으로 변환하는 **cross-modal fusion module**을 설계함.
  • 이 fusion module은 Q-Former와 BLIP-2 같은 vision-language architectures에서 영감을 받았으며, visual features와 LLM의 semantic space를 정렬(aligning)하는 효율적인 information bottleneck 역할을 수행함. 이를 통해 LLM의 reasoning이 visual evidence에 강력하게 기반(grounded)을 두게 됨.

Claimed Contributions

  1. Novel Framework: VFM과 LLM을 통합하여 high-level event reasoning 및 prediction을 수행하는 최초의 응집력 있는 framework 제시.
  2. Fusion Module: Lightweight하면서도 강력한 cross-modal fusion module 설계.
  3. Experimental Validation: 기존 state-of-the-art를 능가하는 성능과, 특히 future event prediction에서 강력한 zero-shot generalization 능력을 입증.

쉬운 설명 :

현재 비디오를 이해하는 AI는 영상 속에서 '사람이 계란과 밀가루를 들고 있다'고 말해주는 수준까지는 발전했습니다. 하지만 '아마 케이크를 만들려나 보다'라고 추론하거나, 다음에 '오븐을 예열하겠구나'라고 예측하는 능력은 부족합니다. 즉, 눈으로 보는 건 잘하지만, 그 의미나 맥락을 이해하는 상식(knowledge)이 부족한 것이죠.

이 논문은 이 문제를 해결하기 위해 두 종류의 AI를 합치는 아이디어를 제안합니다.

  1. '눈'이 아주 좋은 AI (Vision Foundation Model): 비디오의 모든 시각적 디테일을 매우 정밀하게 파악합니다.
  2. '뇌'가 아주 좋은 AI (Large Language Model): 인터넷의 거의 모든 글을 읽어서 세상의 상식과 지식, 인과관계를 잘 아는 AI입니다.

이 논문의 핵심 기술은 이 둘을 연결하는 **'전문 번역기' (fusion module)**를 만든 것입니다. 이 번역기는 '눈' 역할을 하는 AI가 본 복잡한 영상 정보를 '뇌' 역할을 하는 AI가 이해할 수 있는 언어 형태의 정보로 깔끔하게 변환해줍니다.

결과적으로, 이 AI는 단순히 영상을 묘사하는 것을 넘어, 영상 속 상황에 대한 상식을 동원해 "왜?" 그런 행동을 하는지 추론하고 "다음엔?" 무엇을 할지 예측하는, 한 차원 높은 수준의 이해가 가능해집니다.

 

2 Related Work

더보기

videos 속 events에 대해 reason하고 predict하는 능력을 기계에 부여하려는 노력은 인공지능 분야의 몇 가지 핵심 research 흐름이 합류하는 지점에 서 있습니다. 이 섹션에서는 visual representation learning의 기초에서 시작하여 multimodal models의 발전을 거쳐 LLM-driven video understanding, 전문 reasoning tasks 및 embodied AI의 최신 발전에 이르기까지 관련 연구의 전반적인 동향을 조사합니다.


2.1 Foundations of Visual Representation Learning

의미 있는 video understanding으로의 여정은 강력한 visual representations의 추출에서 시작됩니다. 초기 성공은 주로 Convolutional Neural Networks (CNNs)에 의해 주도되었으며, 이는 images에 대한 계층적 feature extraction에서 탁월한 능력을 보여주었습니다. 그러나 Transformer architecture, 특히 Vision Transformer (ViT)의 등장은 paradigm의 전환을 가져왔습니다. 이미지를 sequence of patches로 처리함으로써, ViT는 self-attention mechanisms을 적용하여 global context를 포착할 수 있게 했으며, 이는 제한된 receptive fields를 가진 CNNs에게는 어려운 과제였습니다. 이러한 architectural innovation은 차세대 foundation models을 위한 토대를 마련했습니다. video의 경우, 이 원칙은 temporal domain으로 확장되어 InternVideo와 같은 강력한 video foundation models로 이어졌으며, 이들은 generative 및 discriminative objectives의 조합을 통해 massive datasets으로부터 일반화 가능한 representations을 학습합니다. 이러한 backbones의 개발은 그 자체로 하나의 research 분야이며, 예를 들어 multi-objective convex quantization과 같은 고급 model compression 기술을 통하거나 crowd counting과 같은 특정 tasks를 위한 전문 architectures를 설계하는 등 효율성과 효과성을 개선하기 위한 노력이 계속되고 있습니다.


2.2 From Recognition to Spatiotemporal Understanding

이러한 강력한 visual backbones를 바탕으로, research는 단순한 classification을 넘어 spatiotemporal dynamics에 대한 더 미묘한 이해로 나아가고 있습니다. 이러한 발전은 공간과 시간 모두에서 events를 localizing해야 하는 tasks에서 명백하게 나타납니다. textual query에 해당하는 특정 video segment를 찾는 것을 목표로 하는 Video grounding이 대표적인 예입니다. 최근 연구들은 이러한 순간들을 정밀하게 식별하기 위해 효율적인 temporal filtering mechanisms을 개발하는 데 초점을 맞추고 있습니다. 이 야망은 VidChapters-7M과 같은 large-scale datasets과 models이 다루는 task인, 뚜렷한 chapters를 만드는 것과 같이 long-form videos의 구조화된 요약을 generating하는 것으로 더욱 확장되었습니다. 이러한 fine-grained temporal understanding은 event causality와 prediction에 대한 reasoning이 "언제" 일이 일어나는지에 대한 정밀한 파악을 필요로 하기 때문에 우리 연구의 기본이 됩니다. 관련된 task인 text-to-video retrieval은 fine-grained alignment의 중요성을 더욱 강조하며, Ground-A-Video와 같은 최근 benchmarks는 semantic queries를 video content에 정확하게 매칭하는 데 있어 state of the art를 발전시키고 있습니다.


2.3 The Rise of Vision-Language Models (VLMs)

고급 visual reasoning의 진정한 촉매는 vision과 language의 효과적인 fusion이었습니다. CLIP의 개발은 massive-scale contrastive pre-training을 통해 학습된 images와 text를 위한 shared embedding space가 놀라운 zero-shot transfer capabilities를 가능하게 할 수 있음을 보여주었습니다. 이 breakthrough는 다수의 large-scale Vision-Language Models (VLMs)를 위한 길을 열었습니다. Flamingo와 같은 초기의 영향력 있는 models은 pre-trained되고 frozen된 language model에 visual features를 inject하기 위해 gated cross-attention layers를 도입하여 인상적인 few-shot learning을 선보였습니다. 이 "frozen LLM" paradigm은 이러한 경제적인 approach의 잠재력을 강조한 연구들에서 더욱 탐구되었습니다. BLIP-2와 같은 Architectures는 frozen image encoder와 frozen LLM 사이의 modality gap을 메우기 위해 lightweight한 "Q-Former" module을 도입하여 이 아이디어를 발전시켰고, 이는 매우 효과적이고 parameter-efficient한 전략임이 입증되었습니다. 이 분야는 vision과 text뿐만 아니라 audio, depth, thermal data까지 unified semantic space로 align하는 VALOR 및 LanguageBind와 같은 omni-perception models을 만드는 것을 목표로 fusion의 범위를 계속 확장하고 있습니다. 이러한 multimodal fusion의 추세는 주류 sensors에 국한되지 않습니다. 혁신적인 research는 emotion recognition과 같은 tasks를 위해 상용 WiFi signals과 vision을 fusing하는 잠재력을 보여주었으며, 이는 우리 연구가 기반으로 하는 synergistic sensing의 더 넓은 원칙을 보여줍니다.


2.4 Large Language Models for Video Understanding and Reasoning

강력한 VLMs와 LLMs의 입증된 reasoning capabilities의 합류는 현재의 최전선인 LLM-powered video understanding을 탄생시켰습니다. 종종 "video assistants"로 구성된 첫 번째 물결의 models은 video content에 대한 dialogue를 가능하게 하는 데 중점을 두었습니다. Video-LLaMA, Video-ChatGPT, Chat-UniVi와 같은 Models은 video encoder가 LLM에 연결되어 비디오의 내용에 대해 questions에 답하고, descriptions을 generate하며, conversations을 나누는 방법을 보여주었습니다. LLaViDA는 in-context learning을 통해 이러한 이해를 향상시키는 것을 더욱 탐구했습니다.

이후 research는 더 복잡하고 구조화된 reasoning을 가능하게 하는 방향으로 전환되었습니다. SeViLA는 model이 문제를 더 작고 관리 가능한 단계로 break down하도록 장려하는 self-chained question-answering approach를 도입했습니다. 이는 명시적인 reasoning paths를 따라 training models과 같은 NLP의 광범위한 추세와 일치합니다. 아마도 가장 혁신적인 approach는 ViperGPT일 것이며, 이는 LLM이 다양한 vision APIs를 호출하는 Python code를 작성하고 실행하도록 권한을 부여하여, LLM을 modular tools을 구성하여 복잡한 visual queries에 답할 수 있는 cognitive orchestrator로 효과적으로 변환합니다. reasoning의 복잡성이 증가함에 따라 더 긴 contexts를 처리해야 하는 요구도 증가합니다. LaVi-L 및 memory-augmented Stammer와 같은 Models은 장시간에 걸쳐 causal chains을 추적하는 데 중요한 long-form video understanding의 과제를 해결하기 위해 특별히 설계되었습니다.

이러한 빠른 진전은 또한 model이 사실적으로 부정확하거나 근거 없는 text를 generate하는 "hallucination" 문제와 같은 model limitations에 대한 비판적 검토를 필요로 했습니다. Woodpecker와 같은 Research는 이제 신뢰할 수 있는 systems 구축을 향한 중요한 단계인 이러한 hallucinations을 detect하고 correct하는 방법을 개발하는 데 중점을 두고 있습니다. 궁극적인 목표는 Emu2, NExT-GPT, Google’s Gemini와 같이 거의 모든 modalities에 걸쳐 content를 원활하게 process하고 generate하는 것을 목표로 하는 통합된, any-to-any multimodal models을 만드는 것입니다. 여기에는 Chat-3D-v2에서 탐구된 바와 같이 reasoning을 3차원으로 확장하고, AMAM의 modality-adaptive mind와 같은 새로운 fusion architectures를 활용하는 것이 포함됩니다. 이러한 연구에서 탐구된 fusion principles은 speech processing을 위한 SUTRA의 multi-view, multi-epoch architecture와 같이 다른 domains에서도 유사점을 찾을 수 있으며, 이는 multimodal AI의 보편적인 추세를 시사합니다.


2.5 Event Prediction and World Models

우리 연구의 "prediction" 구성 요소는 video forecasting이라는 오랜 과제와 직접적으로 관련이 있습니다. Traditional approaches는 종종 미래의 pixels을 generating하는 것과 같은 low-level prediction에 중점을 두었습니다. MCVD에서 볼 수 있듯이 Diffusion models은 최근 high-fidelity의 미래 frames을 generating하는 데 큰 가능성을 보여주었습니다. 그러나 우리의 초점은 higher-level semantic prediction에 있습니다. 이는 V-STF와 같은 models이 사회적 및 시간적 신호(cues)를 fusing하여 미래의 움직임을 예측하는 법을 배우는 human trajectory prediction 연구와 일치합니다.

prediction에 대한 가장 야심 찬 비전은 "World Models"라는 개념에 구현되어 있습니다. DreamerV3와 같은 선구적인 연구는 agent가 환경의 동역학에 대한 robust한 내부 model을 학습할 수 있음을 보여주었으며, 이를 통해 자신의 행동을 효과적으로 plan하기 위해 미래 결과를 "꿈꾸거나"(dream) simulate할 수 있습니다. 이는 reactive prediction에서 proactive simulation으로의 전환을 나타냅니다. 최근의 Genie model은 한 걸음 더 나아가 단일 image에서 상호작용 가능하고 플레이할 수 있는 전체 2D 세계를 generate하는 법을 학습합니다. 우리 연구가 명시적인 world model을 구축하지는 않지만, 축적된 지식을 활용하여 미래 상태에 대한 정보에 입각한 predictions을 내린다는 동일한 정신(spirit)을 공유합니다. VideoPoet과 같은 generative models이 text로부터 일관성 있고 동적인 비디오를 synthesize하는 놀라운 능력은 이러한 models이 세계에 대한 깊고 predictive한 representations을 암묵적으로 학습하고 있음을 더욱 시사합니다.


2.6 Applications, Benchmarks, and Broader Context

video reasoning과 prediction의 궁극적인 목표는 지능적인 applications과 systems를 가능하게 하는 것입니다. 주요 수혜자는 embodied AI와 robotics입니다. paradigm은 수동적인 video analysis에서 물리적 세계에서 perceive, reason, act할 수 있는 능동적인 agents를 training하는 것으로 전환되었습니다. RT-2 및 generalist Octo transformer와 같은 Landmark models은 단일 vision-language-action model이 다양한 tasks를 위해 로봇을 control하도록 trained될 수 있음을 보여줍니다. 이는 지시를 이해하는 것뿐만 아니라 LEO와 같은 agents가 해결하는 과제인 복잡한 actions을 조직하고 planning하는 것을 요구합니다. 이러한 embodied tasks에서 외부 지식의 중요성은 OK-VILA와 같은 전문 benchmarks에 의해 강조됩니다.

이 분야의 Progress는 도전적이고 잘 설계된 benchmarks에 결정적으로 의존합니다. CLEVRER와 같은 Datasets은 특히 causal 및 physical reasoning을 목표로 하는 반면, Test of Time은 temporal understanding을 evaluating하는 데 중점을 둡니다. Ego-Exo4D dataset은 동일한 event에 대한 동기화된 1인칭 및 3인칭 시점을 제공함으로써 최전선을 넓히며, 더 holistic하고 cross-view understanding을 요구합니다. 많은 research가 전통적인 visual data에 의존하지만, 대안적인 sensing modalities의 병행적인 발전은 새로운 기회를 창출하고 있습니다. 상용 WiFi 및 RFID를 사용하는 Technologies는 이제 fine-grained activity 및 심지어 keystroke detection까지 가능합니다. robotic vehicle perception과 같은 복잡한 실제 환경에서 종종 generate되는 이러한 풍부한 data streams는 의미 있게 interpreted되기 위해 동일하거나 더 정교한 reasoning models을 필요로 합니다. 이는 파킨슨병 떨림의 vision-based assessment나 WiFi-based pulmonary function analysis가 미묘한 temporal patterns에 대한 깊은 understanding을 요구하는 healthcare 분야에서 특히 그렇습니다.

마지막으로, 이러한 massive models을 다양하고 실제적인 data에 대해 training하는 것은 그 자체로 challenges를 제시하며, 이는 분산된 data와 이기종 networks를 처리하기 위한 federated learning과 같은 영역의 research로 이어지며, Finch와 같은 frameworks는 이러한 settings에서 neural architecture search를 가능하게 합니다. 우리 연구는 이러한 발전의 교차점에 위치하며, foundational models과 advanced reasoning을 활용하여 video를 understands할 뿐만 아니라 그 미래를 anticipate할 수 있는 system을 만드는 것을 목표로 하며, 이는 이러한 모든 application domains에 광범위한 영향을 미칩니다.

 

 

 

 

2 Related Work 섹션 정리노트 (AI 연구자용)

이 섹션은 본 논문의 제안(VFM-LLM 융합)이 어떤 연구 흐름의 연장선에 있으며, 기존 연구들과 어떻게 차별화되는지를 보여주기 위한 빌드업 과정입니다.

연구 흐름 요약

  1. Visual Backbone의 발전 (2.1)
    • CNN 시대에서 ViT (Transformer) 시대로 넘어오면서 강력한 범용 video foundation models (InternVideo 등)이 등장했습니다.
    • 핵심: 본 논문은 새로운 visual backbone을 제안하는 것이 아니라, 이미 잘 만들어진 강력한 VFM을 '눈'으로 가져다 활용하는 입장입니다.
  2. 이해(Understanding) 수준의 심화 (2.2)
    • 단순 recognition을 넘어, Video grounding이나 VidChapters-7M처럼 '언제', '어디서' 일어나는지를 파악하는 **fine-grained spatiotemporal understanding**이 가능해졌습니다.
    • 핵심: '무엇'과 '언제'를 파악하는 기술이 성숙했으므로, 이제 '왜'를 추론하는 **causal reasoning**으로 나아갈 때라는 당위성을 설명합니다.
  3. Vision-Language Model (VLM)의 진화 (2.3)
    • CLIP의 shared embedding space 아이디어에서 시작해, pre-trained LLM을 frozen 시키고 visual feature를 주입하는 Flamingo 방식이 등장했습니다.
    • 이후 frozen image encoder와 frozen LLM 사이를 lightweight한 Q-Former로 연결한 BLIP-2가 parameter-efficient한 접근법으로 큰 성공을 거두었습니다.
    • 핵심: 본 논문의 fusion module이 바로 이 BLIP-2의 Q-Former와 같은 계보에 있음을 명확히 하고 있습니다. 강력한 기성품들(VFM, LLM)을 frozen 시킨 채, 그 사이를 잇는 효율적인 '브릿지'를 설계하는 전략을 채택했음을 보여줍니다.
  4. LLM 기반 Video Reasoning의 현주소 (2.4)
    • 초기 모델(Video-LLaMA 등)은 간단한 영상 Q&A 수준의 "Video Assistant" 역할이었습니다.
    • 이후 ViperGPT(LLM이 코드를 생성해 vision API 호출)처럼 더 복잡한 reasoning으로 발전했지만, 이는 간접적인 방식입니다.
    • 핵심: 본 논문은 ViperGPT처럼 여러 도구를 조합하는 간접적 방식이 아닌, fusion module을 통해 visual evidence와 LLM의 reasoning을 직접 연결하여 hallucination을 줄이고 더 근거 있는(grounded) 추론을 하겠다는 차별점을 암시합니다.
  5. Prediction과 World Models (2.5)
    • 본 논문의 prediction은 픽셀을 생성하는 low-level 예측이 아닌, higher-level semantic prediction (예: 사람의 다음 행동 예측)을 지향합니다.
    • 궁극적인 비전인 World Models(DreamerV3, Genie)처럼 환경 자체를 simulate하는 것은 아니지만, 지식을 활용해 미래를 예측한다는 정신(spirit)을 공유한다고 밝힙니다.
    • 핵심: 자신들의 연구가 World Model이라는 거창한 목표로 나아가는 실용적이고 구체적인 한 걸음임을 보여줍니다.
  6. 응용 분야 및 평가 기준 (2.6)
    • 궁극적인 목표는 embodied AI와 robotics(RT-2 등) 같은 지능형 시스템에 기여하는 것입니다.
    • 성능 평가는 CLEVRER(causal reasoning)나 Ego-Exo4D 같은 고난도 benchmark를 사용할 것임을 시사합니다.
    • 핵심: 이 연구가 단지 학문적 탐구에 그치지 않고, 로보틱스 등 중요 응용 분야에 직접적인 영향을 줄 수 있으며, 관련 분야의 혹독한 benchmark로 검증될 것임을 강조합니다.

쉬운 설명 :

연구자들이 논문을 쓸 때 "Related Work" 섹션을 쓰는 이유는 "제가 이 분야에 대해 이렇게 공부를 많이 했습니다"라고 보여주는 동시에, "기존 연구들은 이런 것들을 했는데, 제 연구는 이런 점에서 새롭고 다릅니다"라고 선을 긋기 위해서입니다.

이 섹션을 자동차 개발에 비유해볼게요.

"자, 제가 완전히 새로운 자동차 엔진을 개발했습니다. 이걸 설명하기 전에 먼저 기존 자동차 기술 얘기를 해볼게요.

  1. 요즘엔 ViT라는 아주 성능 좋은 타이어가 대세입니다. (2.1)
  2. 자동차의 내비게이션도 단순히 길만 알려주는 게 아니라, 도로의 어느 지점에서 정체가 있는지 정확히 짚어줄 정도로 발전했죠. (2.2)
  3. 사람들은 이 좋은 타이어와 똑똑한 운전자(LLM)를 연결하려고 여러 시도를 했어요. Flamingo는 그냥 철사로 둘을 묶어보는 수준이었고, BLIP-2는 'Q-Former'라는 아주 효율적인 연결 부품을 만들어서 큰 성공을 거뒀습니다. (2.3)
  4. 최근에는 운전자가 직접 여러 도구(API)를 써서 운전하는 ViperGPT 같은 차도 나왔죠. (2.4)
  5. 궁극적으로는 자동차가 스스로 주변 세상을 시뮬레이션하며 운전하는 'World Model'을 꿈꾸고 있습니다. (2.5)
  6. 이런 기술은 결국 자율주행 로봇 같은 곳에 쓰일 겁니다. (2.6)"

이렇게 기존 기술들을 모두 언급한 뒤, 이 논문은 이렇게 말하는 것과 같습니다.

"그래서 저희는 BLIP-2가 만든 똑똑한 연결 부품(Q-Former) 아이디어를 가져와서, 영상에 특화된 fusion module이라는 더 좋은 부품을 만들었습니다. 이걸로 최고의 타이어(VFM)와 최고의 운전자(LLM)를 직접 연결했더니, 차가 '왜' 좌회전해야 하는지까지 이해하게 됐습니다."

결론적으로 이 섹션은 이 논문의 아이디어가 하늘에서 뚝 떨어진 게 아니라, 기존 연구들의 기반 위에서 어떤 부분을 새롭게 발전시켰는지를 보여주는 '기술의 족보'이자 '출사표'인 셈입니다.