AI바라기의 인공지능
VTG : 논문 리뷰 : A Survey on Video Temporal Grounding with Multimodal Large Language Model 본문
VTG : 논문 리뷰 : A Survey on Video Temporal Grounding with Multimodal Large Language Model
AI바라기 2026. 1. 30. 18:22용어 설명 (Terminology)
- Video Temporal Grounding (VTG): Untrimmed video(편집되지 않은 긴 비디오) 내에서 자연어 쿼리(text query)에 해당하는 특정 구간(시작 및 종료 시간)을 정확하게 찾아내는 기술.
- VTG-MLLMs: 기존의 전통적인 딥러닝 모델 대신, Multimodal Large Language Model(MLLM)을 활용하여 VTG 태스크를 수행하는 방법론 또는 모델군.
- Facilitator vs. Executor: 이 논문에서 제시하는 핵심 분류 기준.
- Facilitator: MLLM이 비디오를 텍스트로 설명(captioning)하거나 정보를 구조화하는 '보조자' 역할만 하고, 실제 시간 예측은 별도의 전문가 모듈이 수행하는 방식.
- Executor: MLLM이 비디오와 텍스트를 모두 입력받아, 시간 경계(temporal boundary) 예측까지 직접 수행하는 end-to-end 방식.
- Video Moment Retrieval (MR): 텍스트 설명과 일치하는 비디오 내 단일 구간을 찾는 가장 기본적인 VTG 태스크.
- Dense Video Captioning (DC): 비디오 내의 모든 사건을 찾아내고, 각 사건에 대한 시간 구간과 텍스트 설명을 동시에 생성하는 태스크.
- Token Compression: 긴 비디오 프레임을 LLM의 입력 token limit(토큰 제한) 내로 맞추기 위해 시각 정보를 압축하는 기술.
Purpose of the Paper
- 기존 연구의 한계 극복: 기존의 VTG 연구들은 주로 CNN이나 RNN 기반의 전통적인 딥러닝 구조에 의존하여 visual과 linguistic modality 간의 semantic gap을 줄이는 데 어려움이 있었고, temporal context 모델링이나 generalization(일반화) 성능이 부족했습니다.
- 새로운 패러다임의 체계화: 최근 LLM과 MLLM의 등장으로 VTG 분야가 급격히 발전하고 있지만, 기존 서베이들은 일반적인 video-language understanding이나 pre-LLM 시대의 VTG에만 머물러 있었습니다.
- 연구 목적: 이 논문은 LLM 시대의 VTG (VTG-MLLMs) 를 위한 최초의 포괄적인 서베이로서, MLLM이 VTG에 적용되는 방식을 체계적으로 분류하는 새로운 3차원 taxonomy(분류 체계) 를 제안하고, 최신 방법론들을 심층 분석하여 연구의 방향성을 제시하고자 했습니다.
Key Contributions
- Comprehensive Survey for VTG-MLLMs: 2025년 5월까지의 최신 연구를 포함하여, MLLM 기반 VTG 연구를 집대성한 최초의 서베이입니다.
- Three-Dimensional Taxonomy (참신한 분류 체계):
- Functional Roles: MLLM이 단순 보조(Facilitator)인지, 직접 수행(Executor)인지에 따라 모델 구조를 재정의했습니다.
- Training Paradigms: 학습 방식에 따라 Pretraining, Fine-Tuning, Training-Free로 분류하여 각 방식의 trade-off(자원 효율성 vs 성능)를 분석했습니다.
- Video Feature Processing: MLLM의 입력 토큰 제한을 극복하기 위한 Visual Feature Compression 기법과, 시간 정보를 처리하는 Temporal Modeling (Explicit vs Implicit) 기법을 상세히 분석했습니다.
- Performance Analysis: 4가지 핵심 태스크(MR, DC, HD, GQA)에 대해 Zero-shot 및 Fine-tuning 성능을 비교 분석하여, 각 접근 방식의 강점과 약점을 경험적으로 입증했습니다.
Experimental Highlights
- 주요 실험 설정 (Datasets & Metrics):
- Datasets: Charades-STA, ActivityNet-Captions (주로 MR, DC용), QVHighlights (Highlight Detection용), NEXT-GQA (QA용).
- Metrics: 정확도를 측정하는 mIoU, 특정 IoU threshold에서의 재현율인 R@n(IoU=m), 캡션 품질을 보는 SODA_c, CIDEr 등을 사용했습니다.
- Zero-Shot Performance:
- Pretraining (PT) 모델의 우세: 대규모 데이터로 학습된 PT 모델들(예: Time-R1, VideoMind)이 Training-Free 모델보다 전반적으로 높은 성능을 보였습니다. 특히 Time-R1은 Charades-STA에서 압도적인 R@1 성능을 기록하며 Reinforcement Learning(RL)의 효과를 증명했습니다.
- Training-Free (TF) 모델의 가능성: TFVTG나 DeVi 같은 모델은 별도의 학습 없이도 강력한 foundation model의 reasoning 능력을 활용해 경쟁력 있는 성능을 보였습니다.
- Fine-Tuning Performance:
- State-of-the-art (SOTA): Fine-tuning 시 Time-R1과 VideoChat-R1 같은 RL 기반 방법론이 가장 높은 성능을 기록했습니다.
- Direct Fine-Tuning: LLaVA-MR, Mr.BLIP과 같이 pretraining 없이 downstream task에 직접 fine-tuning하는 모델들도 ActivityNet-Captions 등에서 매우 높은 효율과 성능을 보였습니다. 이는 잘 설계된 fine-tuning이 막대한 pretraining 비용을 대체할 수 있음을 시사합니다.
Limitations and Future Work
- Training Paradigms의 한계 및 발전 방향:
- 한계: Fine-tuning이나 Training-Free 방식은 base model의 능력(pre-trained knowledge)에 종속되어, base model이 시간 개념을 모르면 성능이 제한됩니다.
- Future Work: 단순 SFT(Supervised Fine-Tuning)를 넘어, Reinforcement Learning (RL) 을 통해 모델이 스스로 reasoning 과정을 최적화하도록 유도하거나, pretraining 단계에서부터 시간적 인과관계(causal reasoning)를 학습시키는 목표를 설계해야 합니다.
- Feature Representation의 효율성 문제:
- 한계: 긴 비디오의 고해상도 visual feature를 모두 LLM에 넣는 것은 token limit 때문에 불가능하며, 현재의 압축 방식은 중요한 temporal cue를 손실할 위험이 있습니다.
- Future Work: Adaptive Token Selection (동적 토큰 선택) 기술을 통해 중복 정보는 과감히 버리고, 시간적 중요도(saliency)가 높은 토큰만 선별하는 메커니즘이 필요합니다.
- Temporal Modeling의 모호성:
- 한계: 현재 Explicit(타임스탬프 토큰 직접 주입) 방식과 Implicit(LLM의 추론 능력 의존) 방식 간의 우열이 명확하지 않습니다.
- Future Work: 시간의 연속성(duration, order)을 MLLM의 latent space에 직접 임베딩하는 Unified Temporal Encoding 메커니즘 연구가 필요합니다.
- Multimodal Integration (Audio 활용):
- Future Work: 현재 대부분의 연구가 visual+text에 집중되어 있으나, 발소리나 말소리 같은 Audio 신호는 시간 위치를 특정하는 데 매우 중요한 단서가 됩니다. 따라서 Audio-Visual MLLM으로의 확장이 필수적입니다.
Overall Summary
이 논문은 기존의 파이프라인 기반 비디오 분석에서 벗어나, Multimodal Large Language Model (MLLM) 을 중심으로 재편되고 있는 Video Temporal Grounding (VTG) 분야를 집대성한 서베이입니다. 저자들은 MLLM을 단순한 텍스트 생성기가 아닌, 비디오 내의 시간적 사건을 인지하고 추론하는 Executor로서의 가능성을 높게 평가하며, 이를 위한 학습 방법론(RL 도입 등)과 효율적인 비디오 처리 기술의 중요성을 강조합니다. 이 연구는 향후 비디오 이해 AI가 단순한 분류를 넘어, "언제, 무엇이, 왜 발생했는지"를 정밀하게 이해하는 차세대 에이전트로 발전하는 데 중요한 가이드라인을 제시합니다.
쉬운 설명 (Easy Explanation)
이 논문의 핵심 아이디어는 "비디오 속 특정 장면 찾기"를 똑똑한 AI 비서(MLLM)에게 어떻게 가르칠 것인가? 에 대한 이야기입니다.
- 과거의 방식: 마치 '도서관 사서(검색기)'와 '번역가(텍스트 모델)'가 따로 일하는 것과 같았습니다. 비디오를 텍스트로 대충 번역해두면, 검색기가 그 텍스트만 보고 시간을 찍었습니다. 정확도가 낮았죠.
- 이 논문의 방식 (VTG-MLLMs): 이제는 눈도 좋고 머리도 좋은 비서(MLLM) 한 명에게 일을 시킵니다.
- Facilitator (조력자 역할): 비서가 비디오를 보고 아주 상세한 보고서를 써주면, 우리가 그 보고서를 보고 시간을 찾습니다.
- Executor (해결사 역할): 비서에게 "주인공이 넘어지는 장면이 언제야?"라고 물으면, 비서가 비디오를 쭉 보면서 "3분 15초부터 20초까지입니다" 라고 직접 답을 줍니다.
- 핵심: 이 '해결사' 비서가 긴 비디오를 다 기억하기 힘드니까(Token limit), 중요한 장면만 골라 기억하는 법(Compression) 과 시간 개념을 숫자로 이해하는 법(Temporal Modeling) 을 연구하는 것이 이 분야의 핵심입니다. 특히 최근에는 비서에게 "잘 찾으면 상 줄게(Reinforcement Learning)"라고 훈련시키는 방법이 뜨고 있습니다.
1 INTRODUCTION
Surveillance, entertainment, 그리고 autonomous systems와 같은 도메인 전반에 걸친 untrimmed video content의 확산은 정밀한 temporal understanding이 가능한 시스템에 대한 긴급한 필요성을 창출했습니다. Moment retrieval, scene editing, 그리고 temporal question answering을 포함한 실제 애플리케이션들은 어떤 이벤트가 발생하는지뿐만 아니라 정확히 언제 발생하는지에 대한 정확한 식별을 요구합니다. 기존의 video-language models는 주로 global 또는 coarse-level video comprehension에 초점을 맞추고 있어, natural language로 묘사된 이벤트의 fine-grained temporal grounding을 필요로 하는 태스크에는 부적절합니다. 이러한 능력의 격차를 해소하기 위해, Video Temporal Grounding (VTG)이 중추적인 연구 분야로 부상했습니다. VTG는 주어진 textual queries에 구체적으로 대응하는 video segments를 localizing하는 것을 포함하며, 이는 video content와의 상세한 상호작용을 가능하게 합니다. VTG의 핵심적인 도전 과제는 복잡한 linguistic semantics를 시간적으로 분포된 visual information과 정밀하게 aligning하는 동시에, 비디오 내의 복잡한 temporal relationships를 처리하는 데 있습니다.
Fig. 2에 예시된 바와 같이, VTG는 밀접하게 관련되어 있지만 구별되는 몇 가지 태스크들을 포괄합니다: (a) Video Moment Retrieval, 여기서 목표는 natural language descriptions와 일치하는 video segments를 식별하는 것입니다; (b) Dense Video Captioning, 이는 여러 이벤트에 대해 temporally aligned captions를 생성하는 것을 필요로 합니다; (c) Video Highlight Detection, 이는 주어진 query와 가장 관련성 높은 segments를 선택하는 것을 목표로 합니다; 그리고 (d) Temporally Grounded Video Question Answering, 이는 질문에 정확하게 답하기 위해 필요한 temporal evidence를 정확히 찾아내는 것을 포함합니다. 종합적으로, 이러한 태스크들은 VTG 연구의 현대적 범위를 정의하고 정교한 temporal reasoning의 필요성을 강조합니다.
상당한 진전이 있었음에도 불구하고, 전통적인 deep learning architectures에 기반한 초기 VTG 방법들은 여전히 중대한 한계에 직면해 있습니다. 여기에는 visual 및 linguistic modalities 사이의 semantic gaps를 연결하는 데 있서의 어려움, 불충분한 temporal context modeling, 그리고 제한적인 generalization capabilities가 포함됩니다. 이전 방법들은 종종 수동으로 설계된 proposal-generation mechanisms나 단순한 temporal boundary regression에 의존했으며, 이는 유연성과 해석 가능성이 부족했습니다. 최근 Large Language Models (LLMs) 및 그들의 multimodal 변형인 Multimodal Large Language Models (MLLMs)의 도래는 video-language understanding 분야를 극적으로 재편했습니다. 이러한 모델들은 강력한 cross-modal reasoning, instruction-following capabilities, 그리고 견고한 zero-shot generalization을 제공하여 효과적인 VTG의 잠재력을 크게 향상시킵니다.
이러한 발전들에 동기를 부여받아, temporal grounding tasks를 위해 MLLMs를 활용하는 VTG-MLLMs라고 불리는 빠르게 성장하는 연구 방향이 등장했습니다. 이 하위 분야의 빠른 진화는 대표적인 VTG-MLLM 접근 방식들의 연대기적 개요를 제시하는 Fig. 1에 시각적으로 도표화되어 있습니다. Visual backbones와 task-specific heads에만 의존하던 전통적인 접근 방식과 달리, VTG-MLLMs는 범용 MLLMs를 활용하여 temporal relationships를 추론하고, semantics를 정렬하며, 직접적 또는 간접적으로 관련 video segments를 localize합니다. VTG-MLLMs는 다양한 architectural strategies를 채택하며, 일부 방법은 MLLMs를 semantic grounding을 위한 high-level facilitators로 사용하고, 다른 방법들은 boundary prediction을 위해 명시적으로 사용합니다. 결과적으로, VTG-MLLM 분야는 이제 다양한 architectural innovations, training paradigms, 그리고 representation techniques를 포괄합니다. 그러나 VTG-MLLM 연구의 빠른 진화와 복잡성은 현재 문헌을 탐색하는 데 어려움을 줍니다. 기존의 서베이들은 주로 일반적인 video-language modeling에 초점을 맞추거나 pre-LLM 관점에서 VTG를 다루고 있어, LLM 시대의 VTG에 대한 체계적인 분석에 주목할 만한 공백을 남기고 있습니다.
이러한 공백을 메우기 위해, 우리는 2025년 5월까지의 문헌을 포괄하는, 오직 VTG-MLLMs에 전념한 최초의 포괄적인 서베이를 제시합니다. 이 서베이는 최근의 발전들을 체계적으로 정리하고, 부상하는 기술적 트렌드를 식별하며, 미래의 연구 기회들을 개요 합니다. 구체적으로, 우리는 구조화된 3차원 taxonomy를 소개합니다:
- Functional Roles of MLLMs: MLLMs가 downstream grounding tasks를 보조하는 Facilitators로 작용하는지, 아니면 temporal boundaries를 직접 예측하는 Executors로 작용하는지에 따라 모델을 분류합니다.
- Training Paradigms: 각각 generalization, task specialization, 그리고 supervision 요구 사항에 대한 고유한 trade-offs를 가진 pre-training, fine-tuning, 그리고 training-free 접근 방식들을 구별합니다.
- Video Feature Processing Techniques: Spatiotemporal tokenization 및 temporal modeling 기술을 포함하여, video inputs를 표현하고 통합하기 위한 전략들을 조사합니다.
우리의 taxonomy는 점진적인 분석 프레임워크를 제공하여, 독자들을 MLLMs의 high-level roles로부터 training paradigms를 거쳐 video feature processing 방법들로 안내합니다. 서베이를 이러한 계층적 방식으로 구조화함으로써(Fig. 3 참조), 우리는 명확성을 제공하고, 비교 분석을 발전시키며, VTG-MLLMs 내의 탐구되지 않은 경로들을 식별하는 것을 목표로 합니다.
이 서베이의 나머지 부분은 다음과 같이 구성됩니다. Section 2는 VTG tasks의 개요와 MLLMs 배후의 기초 개념들을 포함하여 VTG-MLLMs의 예비 지식(preliminaries)을 소개합니다. Section 3은 최근 VTG-MLLM 연구에 대한 상세한 taxonomy를 제시하며, 방법들을 세 가지 주요 차원인 functional roles of MLLMs, training paradigms, 그리고 video feature processing strategies에 따라 분류합니다. 이러한 범주들과 그 하위 유형들은 Fig. 3에 예시되어 있습니다. Section 4는 benchmark datasets, evaluation protocols에 대한 개요와 기존 VTG-MLLMs 전반에 걸친 실증적 결과들의 비교 분석을 제공합니다. Section 5는 해결되지 않은 도전 과제(open challenges)와 미래의 연구 방향을 논의합니다. 마지막으로 Section 6은 서베이를 결론짓습니다.
📝 AI 연구자를 위한 1 INTRODUCTION 핵심 정리 노트
이 논문은 Video Temporal Grounding(VTG) 분야에서 Multimodal Large Language Models(MLLMs)를 활용하는 최신 연구 동향(VTG-MLLMs)을 체계적으로 정리한 최초의 서베이 논문입니다(2025년 5월 기준 문헌 포괄).
1. 배경 및 필요성 (Why VTG-MLLMs?)
- 기존 한계: 전통적인 VTG 방식(Deep learning architectures)은 manual proposal-generation이나 단순 temporal boundary regression에 의존하여 semantic gap 해소와 temporal context modeling에 한계가 있었음.
- MLLM의 등장: LLM 및 MLLM의 도입으로 강력한 cross-modal reasoning, instruction-following, zero-shot generalization 능력이 VTG에 적용되기 시작함.
- Research Gap: 기존 서베이들은 일반적인 video-language modeling에 치우치거나, LLM 시대 이전의 VTG만을 다루고 있어 최신 VTG-MLLMs에 대한 체계적 분석이 부재함.
2. VTG의 주요 Scope
단순한 분류를 넘어 정교한 temporal reasoning이 요구되는 4가지 핵심 태스크로 정의:
- Video Moment Retrieval
- Dense Video Captioning
- Video Highlight Detection
- Temporally Grounded Video Question Answering
3. 제안하는 3-Dimensional Taxonomy (핵심 기여)
본 논문은 난립하는 VTG-MLLMs 연구를 다음 세 가지 축으로 구조화하여 분석함:
- Axis 1: Functional Roles of MLLMs
- Facilitators: MLLM을 semantic grounding을 보조하는 고차원 도우미로 활용.
- Executors: MLLM이 직접 temporal boundaries를 예측하는 주체로 활용.
- Axis 2: Training Paradigms
- Pre-training, Fine-tuning, Training-free 접근법으로 분류하여 각각의 generalization과 task specialization 간의 Trade-off 분석.
- Axis 3: Video Feature Processing Techniques
- Video input의 spatiotemporal tokenization 및 temporal modeling 전략 분석.
💡 쉬운 설명 : "비디오 속 그 장면 찾아줘"
이 섹션을 쉽게 비유하자면, 도서관에서 책 속의 특정 문장을 찾는 과정의 진화를 설명하고 있습니다.
- 과거의 방식 (Old VTG): 사서(AI)에게 "주인공이 웃는 장면 찾아줘"라고 하면, 사서가 단순히 '웃음'이라는 키워드만 찾거나 미리 정해진 규칙대로만 대충 페이지만 짚어주는 수준이었습니다. 융통성이 없고 정확도가 떨어졌죠.
- 현재의 방식 (VTG-MLLMs): 이제는 사서가 엄청나게 똑똑해져서(MLLM), 책의 전체 맥락을 이해하고 "아, 앞뒤 내용을 보니 이때가 정말 기뻐서 웃는 장면이군요"라고 추론하며 정확한 문단(시간 구간)을 찾아줍니다. 심지어 배우지 않은 새로운 질문(Zero-shot)에도 대답할 수 있게 되었죠.
- 이 논문이 하는 일: 요즘 이런 '똑똑한 사서' 모델들이 우후죽순 쏟아져 나오고 있습니다. 그래서 이 논문은 이 모델들을 "사서가 직접 찾느냐 보조만 하느냐(Role)", "어떻게 훈련시켰느냐(Training)", "책(비디오) 내용을 어떻게 읽느냐(Feature Processing)" 라는 세 가지 기준으로 깔끔하게 족보 정리를 해주는 역할을 합니다.
2 PRELIMINARIES
이 섹션에서는 핵심 VTG tasks에 대한 개요뿐만 아니라 MLLMs에 대한 기초적인 배경지식을 제공합니다.
2.1 Video Temporal Grounding
본 서베이에서는 네 가지 주요 VTG tasks인 video moment retrieval, dense video captioning, video highlight detection, 그리고 temporally grounded video question answering에 대한 포괄적인 개요를 제공합니다. 다음 하위 섹션들에서 우리는 이 각 태스크들을 간략히 설명합니다.
2.1.1 Video Moment Retrieval
Video moment retrieval (MR), temporal sentence grounding, video moment localization 또는 temporal video grounding으로도 불리는 이 태스크는 natural language queries에 기반하여 untrimmed videos 내의 temporal segments를 식별하고 localize하는 것을 목표로 합니다 (Fig. 2 (a) 참조). 이 태스크는 VTG-MLLMs의 temporal grounding capabilities를 평가하기 위한 가장 직접적이고 기초적인 벤치마크를 나타냅니다. 이는 textual descriptions를 특정 video segments와 정확하게 alignment하는 것뿐만 아니라, video content를 정밀한 temporal boundaries로 매핑하는 능력을 요구하며, untrimmed videos 내에서의 fine-grained temporal relationships와 semantic coherence에 대한 모델의 이해도를 테스트합니다.
2.1.2 Dense Video Captioning
Dense video captioning (DC)은 untrimmed video에서 발생하는 모든 중요한 events나 actions에 대해 상세하고 temporally grounded descriptions를 생성하는 것과 동시에, 그에 상응하는 시작 및 종료 timestamps를 생성하는 것을 포함합니다 (Fig. 2 (b) 참조). Textual query가 주어졌을 때 단일의 특정 moment를 localizing하는 것을 목표로 하는 MR과 달리, DC는 다수의 events와 그들의 복잡한 temporal dependencies를 식별함으로써 완전한 서사를 포착합니다. 이 태스크는 비디오 내의 확장된 temporal contexts와 미묘한 상호작용을 이해하는 모델의 숙련도를 평가합니다. 추가적으로, DC는 명시적으로 모델이 overlapping events를 관리하도록 도전하며, 이는 large language models를 사용하여 포괄적인 fine-grained video understanding을 달성하는 데 필수적인 능력입니다.
2.1.3 Video Highlight Detection
Video highlight detection (HD)은 일반적으로 이러한 moments에 중요도나 관련성 점수를 할당함으로써, 주어진 textual query와 가장 잘 일치하는 untrimmed video 내의 keyframes나 짧은 segments를 식별하는 것을 목표로 합니다 (Fig. 2 (c) 참조). 주로 event level에서 작동하는 MR 및 DC와 달리, HD는 frame-level precision을 강조합니다. 이 태스크는 textual prompts와 밀접하게 대응하는 salient video clips를 정확히 찾아내고 그들의 contextual significance를 평가하는 모델의 능력을 평가합니다. 이러한 fine-grained alignment는 중요한 events를 식별하는 데 있어 높은 temporal precision을 요구하는 애플리케이션들에 필수적입니다.
2.1.4 Temporally Grounded Video Question Answering
Grounded video QA 또는 temporal video grounding of questions라고도 알려진 Temporally grounded video question answering (GQA)은 모델이 질문에 답할 뿐만 아니라 관련된 visual evidence를 포함하는 정밀한 temporal intervals를 식별하고 localize할 것을 요구함으로써 전통적인 video QA를 확장합니다 (Fig. 2 (d) 참조). MR과 달리, GQA는 temporal localization을 multimodal reasoning과 통합해야 하는 추가적인 복잡성을 도입합니다. 이 태스크는 video content 내에서 textual answers와 visual evidence 사이의 명시적이고 해석 가능한 연결을 요구하기 때문에, explainable video QA systems를 개발하는 데 있어 특히 중요합니다.
2.2 Multimodal Large Language Models
MLLMs는 image encoders, video encoders, 그리고 특화된 cross-modal adapters와 같은 multimodal encoders를 통합함으로써 전통적인 LLMs를 확장합니다. Video-LLM을 예시로 들면, video encoder는 downsampled frames의 sequence $V$를 처리하여 이를 visual tokens $F_v = E_v(V)$로 변환합니다. 그 후 이 visual tokens는 visual adapter에 의해 투영되어 language model의 embedding space와 align되며, aligned visual tokens $X_v = Q(F_v)$를 산출합니다. 동시에, instructions, prompts, 또는 기타 textual elements를 포함할 수 있는 input textual query $q$는 textual encoder를 통해 linguistic tokens $X_t$로 인코딩됩니다. Visual 및 textual tokens는 통합된 input sequence $[X_v, X_t]$로 연결(concatenated)되며, 이는 후속적으로 LLM에 의해 처리되어 적절한 inference를 생성합니다.
MLLMs에 대한 현재의 연구 노력은 LLMs의 진보된 능력을 활용하는 효율성을 극대화하는 데 중점을 두고 있습니다. 초기 연구들은 주로 non-linguistic modalities로부터의 features를 language models의 semantic embedding space로 매핑하는 것을 목표로 하는 cross-modality adapters를 설계하는 데 집중했습니다. 선구적인 모델인 Flamingo는 gated cross-attention 메커니즘을 통해 visual 및 linguistic modalities를 통합합니다. 이어서 BLIP, mPLUG, 그리고 LanguageBind와 같은 다양한 접근 방식들은 visual representations를 align하기 위해 Q-Former architecture를 채택한 반면, LLaVA 시리즈의 모델들은 modality integration을 위한 더 단순하지만 효과적인 connectors로서 multilayer perceptrons (MLPs)를 도입합니다. 추가적으로, 더 최근의 연구들은 lightweight하고 효율적인 alignment modules를 제안하여 성능과 모델의 compactness를 지속적으로 향상시키고 있습니다.
Architectural developments와 함께, training strategies는 또 다른 중요한 연구 방향을 구성합니다. 연구자들은 견고하고 다양한 representation learning을 촉진하기 위해 large-scale multimodal pre-training datasets를 구축해 왔습니다. MLLMs의 task comprehension 및 generalization capabilities를 향상시키기 위해 Instruction-tuned datasets와 chain-of-thought (CoT) reasoning에 특화된 datasets가 개발되었습니다. 더 나아가, LoRA, LISA, 그리고 DoRA와 같은 parameter-efficient fine-tuning 방법들이 등장하여, 광범위한 재학습(retraining) 없이도 효율적인 task-specific 또는 domain-specific adaptation을 가능하게 했습니다.
📝 AI 연구자를 위한 2 PRELIMINARIES 핵심 정리 노트
이 섹션은 본 논문에서 다루는 4가지 핵심 VTG Tasks의 정의와 MLLMs의 구조적 진화를 요약합니다. 단순 정의를 넘어 각 태스크가 모델의 어떤 능력을 검증하는지에 초점을 맞췄습니다.
2.1 Video Temporal Grounding (4 Key Tasks)
VTG-MLLMs의 성능을 평가하는 4가지 주요 태스크의 기술적 요구사항과 차이점:
- Video Moment Retrieval (MR)
- 정의: Natural language query에 해당하는 단일 비디오 구간(segment)을 찾아냄.
- 핵심: VTG의 가장 기초적인 벤치마크. Fine-grained temporal relationship 이해도와 시각-언어 간의 정확한 Alignment 능력을 평가.
- Dense Video Captioning (DC)
- 정의: 비디오 내 모든 사건에 대해 캡션과 타임스탬프를 생성.
- 핵심: 단일 시점을 찾는 MR과 달리 전체 서사(Narrative)를 파악해야 함. 특히 Overlapping events(겹치는 사건)를 처리하는 능력이 중요하며, 긴 Temporal context 이해도를 평가함.
- Video Highlight Detection (HD)
- 정의: Query와 가장 관련성 높은 Keyframe이나 짧은 클립을 선별(Scoring).
- 핵심: MR/DC가 Event-level인 반면, HD는 Frame-level precision을 요구함. '어떤 장면이 중요한가(Salience)'를 판단하는 능력이 핵심.
- 정의: Query와 가장 관련성 높은 Keyframe이나 짧은 클립을 선별(Scoring).
- Temporally Grounded Video Question Answering (GQA)
- 정의: 질문에 대한 답변 + 근거가 되는 비디오 구간 식별.
- 핵심: Multimodal reasoning과 Temporal localization의 결합. 답변의 근거를 시각적으로 제시해야 하므로 Explainable AI 시스템 구축에 필수적.
2.2 Multimodal Large Language Models (MLLMs) Foundation
VTG를 수행하기 위한 MLLM의 아키텍처 및 학습 트렌드 요약:
- Standard Architecture Pipeline
- 비디오 입력 $V$ $\rightarrow$ Video Encoder($E_v$) $\rightarrow$ Visual Tokens $F_v$
- Visual Adapter($Q$)를 거쳐 LLM 공간에 맞는 Aligned Visual Tokens $X_v$ 생성.
- 최종적으로 Text Tokens $X_t$와 결합된 $[X_v, X_t]$ 시퀀스를 LLM이 처리.
- Evolution of Modality Alignment (Visual Adapter)
- 초기: Flamingo (Gated Cross-Attention)
- 중기: BLIP, mPLUG (Q-Former 활용)
- 최신(LLaVA 계열): MLP (구조는 단순하지만 효과적임) $\rightarrow$ 최근엔 더 경량화된 모듈로 발전 중.
- Training Strategy Trends
- Data: Large-scale pre-training $\rightarrow$ Instruction-tuned datasets $\rightarrow$ Chain-of-thought (CoT) reasoning 데이터셋으로 고도화.
- Efficiency: 전체 재학습 대신 LoRA, LISA, DoRA 등 Parameter-efficient fine-tuning (PEFT) 기법이 주류로 자리 잡음.
💡 쉬운 설명 : "비디오 이해하기 시험의 4가지 유형"
이 섹션은 AI가 비디오를 얼마나 잘 이해했는지 테스트하는 4가지 시험 과목과, 그 시험을 치르는 AI의 뇌 구조에 대해 설명합니다.
1. 비디오 시험의 4가지 과목 (VTG Tasks)
- 숨은그림찾기 (MR): "주인공이 넘어지는 장면 찾아봐." → 딱 그 장면만 찾아내면 점수 획득.
- 영상 일기 쓰기 (DC): "이 영상 처음부터 끝까지 무슨 일이 있었는지 시간순으로 다 기록해." → 동시에 일어난 일(말하면서 운전하기 등)도 꼼꼼히 기록해야 함.
- 예고편 만들기 (HD): "이 영상에서 제일 재미있는 하이라이트만 1분 뽑아줘." → 전체 흐름보다는 순간순간의 임팩트(프레임 단위)를 잘 골라야 함.
- 서술형 문제 풀기 (GQA): "주인공은 왜 화가 났고, 화난 게 보이는 장면은 어디야?" → 이유도 맞추고 증거 영상도 제출해야 정답.
2. 시험 치는 학생의 뇌 구조 (MLLMs)
- 눈 (Video Encoder): 비디오를 보고 시각 정보를 받아들입니다.
- 통역사 (Adapter): 눈으로 본 정보를 뇌(언어 모델)가 이해할 수 있는 언어로 바꿔줍니다. (옛날엔 복잡하게 통역했는데, 요즘은 MLP라는 단순하고 빠른 통역 방식을 선호합니다.)
- 뇌 (LLM): 통역된 시각 정보와 질문(텍스트)을 합쳐서 생각하고 답을 냅니다.
- 공부법 (Training): 처음엔 무작정 많이 보다가(Pre-training), 요즘은 족집게 과외(Instruction Tuning)나 논리적으로 생각하는 법(CoT)을 집중적으로 배웁니다.
3 A MULTI-FACETED TAXONOMY OF VTG-MLLMS
Introduction (Section 1)에서 확립한 바와 같이, 우리는 VTG-MLLMs의 복잡성을 해체하기 위해 3차원 taxonomy를 사용합니다. 이 섹션에서는 이 분류의 세부 사항을 파헤칩니다. High-level architectural 고려 사항에서 시작하여 fine-grained processing techniques로 나아가는 우리의 taxonomy (Fig. 3에 시각화됨)는 다음 차원들을 통해 상세히 탐구될 것입니다:
- The Functional Roles of MLLMs (Section 3.1): 우리는 MLLMs의 architectural positioning—downstream tasks를 돕는 Facilitators인지 아니면 temporal prediction을 직접 수행하는 Executors인지—이 그들의 전체적인 design과 temporal perception에 미치는 영향을 분석할 것입니다.
- The Training Paradigms (Section 3.2): 이 하위 섹션은 pre-training, fine-tuning, 그리고 training-free paradigms를 구별할 것입니다. 분석은 각 전략이 generalization capability, task-specific adaptation, 그리고 전체적인 resource demands 측면에서 제시하는 내재적인 trade-offs에 집중될 것입니다.
- The Video Feature Processing Techniques (Section 3.3): 여기서는 video inputs를 표현하고 통합하기 위한 다양한 방법론들을 체계적으로 조사할 것입니다. 이는 token budget 내에서의 spatiotemporal tokenization mechanisms와 모델이 dynamic visual content를 효과적으로 처리하고 추론할 수 있게 하는 다양한 temporal modeling approaches에 대한 면밀한 관찰을 포함합니다.
이 구조화된 조사는 이어지는 섹션들에서 VTG-MLLM 분야 내의 특정 방법론들과 트렌드들에 대한 상세한 리뷰를 위한 토대를 제공할 것입니다.
3.1 Functional Roles of MLLMs in VTG-MLLMs
VTG-MLLMs 내에서의 MLLMs의 functional role은 그들의 architectural integration을 특징지으며, 주로 cross-modal understanding을 용이하게 하는 보조 모듈(auxiliary modules)로 기능하는지 아니면 temporal grounding을 직접 수행하는 핵심 reasoning engines로 기능하는지를 결정합니다. 이에 따라, 기존의 VTG-MLLMs는 두 가지 패러다임으로 분류될 수 있습니다: 1) Facilitators, 여기서 MLLMs는 downstream modules를 지원하기 위해 video content로부터 구조화된 textual representations를 생성합니다; 그리고 2) Executors, 여기서 MLLMs는 통합된 multimodal reasoning을 통해 직접 temporal boundary prediction을 수행합니다.
3.1.1 Facilitators
Facilitator 역할에서 MLLMs는 Fig. 4 (a)에 묘사된 바와 같이 복잡한 video data를 구조화된 textual forms로 변환함으로써 중개자(intermediaries) 역할을 합니다. 우리는 이 과정을 conditional generation 문제로 공식화합니다:
여기서 $V$는 input video를 나타내고 $T$는 생성된 textual descriptions를 나타냅니다. 생성된 textual outputs는 dataset construction을 직접 용이하게 하거나 전용 downstream modules 내에서 semantic aids로 작용할 수 있습니다. 이 패러다임 하에서는 두 가지 주요 application areas가 발생합니다: Dataset Construction과 Expert Module Integration.
Dataset Construction: MLLMs는 textual annotations를 합성하는 데 광범위하게 활용되어, model training 및 evaluation을 위한 dataset creation과 expansion의 효율성을 크게 향상시킵니다. 예를 들어, Di와 Xie [91]는 Llama2 [128]를 활용하여 Ego4D [129]의 timestamped narrations를 temporally grounded QA pairs로 변환합니다. 유사하게, GPT-4o [130]는 Bao 등 [100]에 의해 VidMorp에서 video frames와 align된 pseudo-labeled sentences를 자동으로 생성하는 데 사용되었습니다. 다른 연구들 [95, 97]도 BLIP-2 [71], LLaVA [22], 그리고 Gemini-1.5 [131]와 같은 고급 모델들을 활용하여 annotation process를 자동화하고 VTG tasks를 위한 datasets를 풍부하게 만들었습니다.
Expert Module Integration: Dataset generation을 넘어, MLLMs로부터의 textual outputs는 VTG systems 내에서 직접적으로 사용될 수 있는데, similarity-based grounding methods에서의 semantic inputs로 쓰이거나 cross-modal integration을 통해 visual representations를 강화하는 추가적인 signals로 쓰입니다. 예를 들어, Qu 등 [29]은 Video-ChatGPT [132]를 사용하여 multi-granularity clip captions를 생성하고, Sentence-BERT [133]를 사용한 iterative query matching을 용이하게 합니다. 유사하게, Xu 등 [94]은 caption generation을 위해 MiniGPT-v2 [134]를, linguistic biases를 줄이기 위한 query rewriting을 위해 Baichuan2 [135]를 활용합니다. 추가적으로, Cai 등 [90]은 LLaVA-1.5 [74]를 활용하여 paragraph-level narrations를 생성하고, 이를 cross-attention mechanisms [14, 17]를 통해 video features와 시간적으로 align시켜 contextual understanding과 robustness를 향상시킵니다.
Summary: Facilitator 프레임워크는 computational efficiency, deployment의 용이성, 그리고 내재적인 scalability 때문에 유리하며, pre-trained MLLMs의 최소한의 적응(adaptation)만을 요구합니다. 그러나 정적인 pre-trained models에 대한 의존은 내재적 편향(inherent biases) [136]의 전파나 원본 training data로부터의 제약과 같은 한계를 지니며, 이는 잠재적으로 textual outputs의 신뢰성과 downstream performance에 영향을 미칠 수 있습니다. 게다가, off-the-shelf MLLMs의 고정된 성질은 본질적으로 복잡한 temporal reasoning에 대한 능력을 제한하여, 정교한 pipeline designs로도 완전히 해결되지 않을 수 있는 performance bottlenecks를 생성합니다. 그럼에도 불구하고, Facilitators로서 MLLMs는 효율적인 dataset curation에 여전히 가치 있으며, VTG research를 발전시키는 데 중요한 풍부한 task-specific data를 제공합니다.
3.1.2 Executors
Executors로 기능할 때, MLLMs는 VTG의 핵심 tasks를 직접 수행하며, 문제를 end-to-end sequence-to-sequence (seq-to-seq) prediction challenge로 정식화합니다. Fig. 4 (b)에 예시된 이 설정에서, 모델은 raw video input과 task-specific textual prompts를 공동으로 소비하여 temporally aligned output을 생성합니다:
여기서 $V$는 input video stream을 나타내고, $Q$는 textual query이며, $\tau$는 선택적으로 temporal priors를 캡슐화합니다. Output $Y$는 video timeline과 align된 predicted answers, timestamps, 또는 task-specific tokens를 나타냅니다.
이 패러다임은 generative framework 내에서 video understanding을 통합할 잠재력을 가지고 있습니다. 그러나 이는 중대한 장애물에 직면해 있습니다: standard MLLMs [59, 132]는 종종 fine-grained temporal dependencies를 포착하는 데 어려움을 겪습니다. 이 도전 과제는 주로 그들의 vision encoders가 비디오를 정밀한 event localization에 필수적인 순차적 정보(sequential information)를 폐기하는 순서 없는 "bag-of-features"로 취급하는 데서 기인합니다. 이러한 도전 과제들을 해결하기 위해, 연구는 두 가지 주요 방향에 집중되어 왔습니다: Architectural Enhancement와 Training Optimization.
Architectural Enhancement: Architectural innovations는 MLLMs의 temporal perception 및 reasoning capabilities를 향상시키기 위해 설계되었습니다. 이러한 개선 사항들은 전형적으로 input feature processing pipeline을 수정하거나 temporal awareness를 LLM의 내부 구조에 직접 통합하는 것을 포함합니다.
한 연구 라인은 LLM에 의해 처리되기 전에 video feature representations를 강화하는 데 초점을 맞춥니다. 예를 들어, Momentor [28]의 방법은 frame-level features에 명시적인 temporal position encodings를 주입하여 temporal localization을 개선합니다. Grounded-VideoLLM [34]은 spatial 및 temporal dynamics를 별도로 포착하기 위해 dual-stream architecture를 채택하는 반면, LLaVA-MR [105]은 중복성을 줄이고 중요한 dynamic moments를 강조하기 위한 구성 요소들을 도입합니다. 이러한 전략들은 LLM에게 더 풍부한 temporal context를 제공하여 후속 reasoning을 위한 더 강력한 기반을 마련하는 것을 목표로 합니다.
상호보완적인 접근 방식은 temporal cues를 더 잘 처리하기 위해 LLMs의 내부 아키텍처나 출력 메커니즘을 수정합니다. 예를 들어, GeLM [115]은 temporal evidence retrieval을 위한 유연한 grounding tokens를 통합하고, TRACE [31]는 structured temporal output을 위한 task-specific decoding heads를 추가합니다. VideoExpert [125]는 특화된 처리를 위해 병렬 reasoning 및 generation modules를 통합합니다. 유사하게, VideoMind [35]는 복잡한 tasks를 timestamp-decoder를 가진 Grounder와 이를 조정하는 Planner와 같은 특화된 역할들로 분해하며, 매끄러운 협업을 위해 Chain-of-LoRA 전략을 사용합니다. 이러한 접근 방식들이 temporal understanding을 상당히 향상시킬 수 있지만, 증가된 computational overhead나 범용적 유연성(general-purpose flexibility)의 감소와 같은 trade-offs를 도입할 수 있습니다.
Training Optimization: 효과적인 optimization strategies는 MLLMs에 강력한 temporal understanding을 갖추게 하여 유능한 Executors로 변환하는 데 중요합니다. 이러한 전략들은 전형적으로 새로운 training curricula를 temporal tasks 및 datasets와 결합하는 전체론적 파이프라인(holistic pipeline)을 형성합니다.
널리 퍼진 접근 방식은 VTimeLLM [26]과 SlowFocus [116]에서 볼 수 있듯이, 모델의 temporal localization abilities를 점진적으로 정제하는 multi-stage training frameworks를 포함합니다. 또 다른 떠오르는 방향은 **reinforcement learning (RL)**을 통한 optimization입니다. Time-R1 [124]은 temporal reasoning을 위해 특별히 RL-based strategies를 적응시키고, VideoChat-R1 [126]은 Group Relative Policy Optimization (GRPO) [137]의 효과성을 탐구합니다.
Temporal perception을 더 강화하기 위해, 많은 방법들이 명시적인 reasoning tasks를 포함합니다. 예를 들어, TPE-VLLM [120]은 boundary detection과 duration reasoning을 목표로 하는 새로운 training objectives를 도입하여 복잡한 temporal relationships를 처리하는 능력을 개선합니다.
이 모든 전략들을 뒷받침하는 것은 high-quality, time-annotated datasets에 대한 의존입니다. 예를 들어, TimeChat [27]의 TimeIT dataset은 instruction tuning에 필수적인 풍부한 timestamp annotations를 제공하는 반면, TimeSuite [33]는 더 포괄적인 temporal learning을 용이하게 하기 위해 다양한 datasets의 통합된 컬렉션을 제공합니다.
Summary: Executor 패러다임은 통합된 end-to-end temporal grounding을 향한 중추적인 전환을 나타내며, MLLMs가 긴밀하게 결합된 seq-to-seq framework 내에서 video content와 textual queries를 동시에 처리할 수 있게 합니다. 이 접근 방식은 유연한 input 및 output formats를 지원하여, 모듈식의 계단식 아키텍처(modular, cascaded architectures)에 의존하지 않고 복잡한 visual-textual correlations를 포착합니다. 그러나 이러한 유연성은 비용을 수반하며, 종종 광범위한 annotated datasets, 상당한 computational resources, 그리고 복잡한 training procedures를 요구합니다. 이러한 도전 과제들에도 불구하고, Executor 접근 방식은 multimodal models에 더 깊은 temporal reasoning을 통합함으로써 분야를 근본적으로 재편할 잠재력을 가진, fine-grained video understanding을 발전시키기 위한 유망한 방향으로 남아 있습니다.
3.2 Training Paradigms of VTG-MLLMs
MLLMs의 기능적 분화(functional differentiation)를 기반으로, 이 하위 섹션은 효과적인 video temporal grounding을 위해 이러한 모델들을 적응시키는 데 사용되는 training paradigms를 조사합니다. Training 접근 방식의 선택은 시스템의 설계 목표, 즉 domain-generalist 모델을 구축할지 아니면 task-specific 모델을 구축할지를 반영할 뿐만 아니라, supervision, resource efficiency, 그리고 scalability의 trade-offs도 반영합니다. 우리는 현재의 VTG-MLLM 접근 방식들을 세 가지 주요 패러다임으로 분류합니다: Pre-training, Fine-Tuning, 그리고 Training-Free pipelines.
3.2.1 Pretraining VTG-MLLMs
VTG-MLLMs에서의 Pre-training은 large-scale supervised learning을 통해 모델들에 강력한 temporal reasoning capabilities를 갖추게 하는 것을 목표로 합니다. 근본적으로, 대부분의 generative multimodal 접근 방식들처럼, pre-training 과정은 input video $V$와 textual prompt $P$를 조건으로 하여, 일반적으로 event order, timestamps, 또는 durations와 같은 temporal annotations를 포함하는 target output $T$를 생성하도록 모델을 훈련시키는 것을 포함합니다. 형식적으로, 이 목표는 dataset $D$에 대한 pre-training loss를 최소화하는 것으로 표현됩니다:
그러나 general-purpose MLLMs와 달리, pre-training 기반 VTG-MLLMs의 주요 혁신은 architectural design에 있는 것이 아니라, 복잡한 temporal understanding을 위해 식 (3)의 optimization을 조정(tailor)하는 정교한 training strategies와 특화된 pre-training datasets의 생성에 있습니다. 우리는 이 접근 방식의 두 가지 중요한 측면에 초점을 맞춥니다: Prevalent Pretraining Strategies와 High-Quality Temporal Datasets.
Prevalent Pretraining Strategies: VTG pre-training의 초석은 multi-stage, progressive supervised learning pipeline입니다. Executor 모델들의 맥락(Section 3.1.2)에서 소개된 바와 같이, 이 전략은 점진적 학습(incremental learning)의 원칙에 기초하며, 모델을 coarse-grained understanding에서 fine-grained localization으로 안내합니다. 예를 들어, VTimeLLM [26]은 feature alignment, instruction tuning, 그리고 정밀한 boundary optimization을 순차적으로 다루는 boundary-aware three-stage process로 이를 예시합니다. 유사하게, SlowFocus [116]는 temporal resolution을 향상시키기 위해 최종 training stages에서 mixed-frequency sampling을 통합합니다. 이 multi-stage philosophy는 사실상의 표준이 되었으며, TimeMarker [114], GroundingGPT [109], 그리고 LLaVA-ST [113]와 같은 수많은 다른 모델들이 temporal perception을 점진적으로 정제하기 위해 유사한 계층적 프레임워크를 채택하고 있습니다.
Multi-stage supervision이 주류로 남아 있는 동안, 새로운 연구의 물결은 더 큰 정밀도와 효율성을 목표로 혁신적인 개선(refinements)을 탐구하고 있습니다. 특히 두드러진 방향은 RL의 적용입니다. Code generation이나 mathematics와 같은 복잡한 reasoning domains에서의 RL 및 GRPO [137]와 같은 기술들의 성공에 영감을 받아, 연구자들은 이러한 방법들을 VTG를 위해 적응시키기 시작했습니다. RL은 구조화된 reasoning process와 높은 prediction accuracy 모두를 장려하는 복합 보상 함수(composite reward function)를 설계함으로써 IoU와 같은 task-specific metrics의 직접적인 최적화를 가능하게 합니다. 이 방향을 개척한 Time-R1 [124]은 새로운 보상 메커니즘을 가진 reasoning-guided framework를 도입합니다; VideoChat-R1 [126]은 나아가 GRPO를 통한 체계적인 탐구를 제공하며, MUSEG [127]은 여러 분산된 events에 대한 reasoning을 가능하게 함으로써 single-segment 한계를 해결합니다.
이들 외에도, 다른 새로운 전략들도 등장하고 있습니다. 예를 들어, Seq2Time [107]은 자체 생성된 temporal cues를 가진 순차적 훈련 데이터(sequential training data)를 합성하는 data-centric strategy를 채택하는 반면, TimeRefine [112]는 temporal grounding을 iterative refinement task로 재구성하여 모델이 자신의 localization accuracy를 자체 개선(self-improve)할 수 있게 합니다.
High-Quality Temporal Datasets: High-quality, temporally annotated multimodal datasets는 VTG 모델들의 pre-training과 instruction-tuning에 중요하며, 강력한 generalization에 필요한 다양한 맥락을 제공합니다. TimeIT [27]과 VTimeLLM [26]과 같은 초기 노력들을 바탕으로, 후속 연구는 몇 가지 핵심 방향을 따라 발전해 왔습니다.
한 가지 주요 연구 라인은 더 효과적인 pre-training을 위해 data scale과 diversity를 향상시키는 것을 목표로 합니다. 예를 들어, VTG-IT-120K [108]는 YT-Temporal-180M [138]의 annotations를 통합하여 TimeIT를 확장하고, InternVid-G [32]는 더 정밀한 grounding을 위해 segment-level captions와 hard negative samples로 InternVid10M-FLT [139]를 풍부하게 하며, Vid-Morp [100]는 data creation을 확장하기 위해 real-world videos에 대한 pseudo-labeling을 활용합니다. 병행하는 방향은 모델을 복잡한 temporal reasoning과 align하기 위한 특화된 instruction-tuning datasets를 개발합니다. YT-Temporal-1B [140]에서 샘플링된 Moment-10M [28]은 이러한 목적을 위해 설계되었으며, E.T. Instruct 164K [51]는 multi-event 및 time-sensitive scenarios를 위해 특별히 맞춤화된 9개의 별별 tasks에 걸친 정제된 dataset을 제공함으로써 이를 보완합니다. 더 최근에, 프론티어 datasets는 spatial dimensions [122]를 통합하거나 spatiotemporal understanding [113]을 발전시킴으로써 VTG의 범위를 넓히기 시작했습니다. 종합적으로, 수많은 다른 기여들 [33, 34, 124]과 함께 이러한 datasets는 temporal reasoning challenges의 전체 스펙트럼을 해결하기 위해 더 포괄적이고 fine-grained data resources를 구축하는 명확한 궤적을 강조합니다.
Summary: Pre-training 패러다임은 MLLMs에 강력한 temporal grounding capabilities를 부여하여, 다양한 downstream VTG tasks 전반에 걸친 generalization을 지원합니다. 그러나 이 접근 방식은 training의 높은 computational cost와 크고 high-quality인 temporal datasets를 구축하는 데 필요한 상당한 노력을 포함하여 중대한 도전 과제들도 제시합니다. 효과적인 pre-training strategies는 temporal understanding을 극대화하기 위해 task complexity와 learning progression의 균형을 신중하게 맞춰야 하며, 이는 지속적인 연구를 위한 중요한 영역이 됩니다.
3.2.2 Fine-Tuning VTG-MLLMs
자원 집약적인 pre-training 패러다임 (Section 3.2.1)과 대조적으로, VTG-MLLMs의 Fine-Tuning은 더 작고 task-specific datasets를 요구하는, 더 계산 효율적인 접근 방식을 제공합니다. 이 패러다임 내의 연구는 크게 두 가지 주요 방향으로 나눌 수 있습니다: Direct Fine-Tuning of MLLMs와 Offline Textualization with MLLMs, 이는 Section 3.1에서 논의된 functional roles와 밀접하게 일치합니다.
Direct Fine-Tuning of MLLMs: 이 접근 방식은 원래의 아키텍처를 유지하면서 범용 pre-trained MLLMs를 직접 fine-tune하며, task-specific training objectives를 통해 VTG tasks에 적응시킵니다. 이러한 방법들은 일반적으로 VTG를 seq-to-seq prediction 문제로 재구성하여, 모델에 이미 내재된 contextual understanding capabilities를 활용합니다.
예를 들어, SeViLA [102]는 BLIP-2 [71]를 두 개의 상호 연결된 구성 요소—localizer와 answerer—로 적응시키고, localizer의 outputs를 전략적으로 연결하여 answerer를 안내함으로써 temporal precision을 향상시킵니다. 유사하게, LLaViLo [103]는 video-text features를 통합하기 위해 lightweight adapters를 포함하며, 더 정교한 temporal grounding을 위해 multi-objective loss function을 활용합니다. TGB [119]는 CNN-extracted optical flow features를 low-dimensional motion cues로 활용하여, 모델 복잡성을 크게 증가시키지 않으면서 temporal awareness를 향상시키는 독특한 접근 방식을 소개합니다. 추가적으로, 최근의 혁신들은 fine-grained temporal understanding을 위해 BLIP-2를 최적화하는 데 초점을 맞추고 있습니다. 특히, Mr.BLIP [117]은 이벤트의 temporal understanding을 개선하기 위해 새로운 multimodal input sequences를 탐구하는 반면, LLaVA-MR [105]은 spatiotemporal features의 중복성을 줄이고 더 fine-grained event cues를 포착하는 dynamic token compression strategy를 도입합니다.
효율성에도 불구하고, 이러한 방법들은 catastrophic forgetting 문제 [141]에 직면합니다. 모델들이 fine-tuning data에 적응함에 따라, 종종 pre-training 중에 습득한 범용 능력들을 잃어버려, 더 넓은 video understanding tasks에서의 성능 저하로 이어집니다.
Offline Textualization with MLLMs: 대안적인 fine-tuning 전략은 MLLMs를 정적인 능력(static capacity)으로 사용하여 raw video inputs를 textual descriptions로 변환하고, 이것이 downstream modules를 안내하게 합니다. 이 접근 방식은 비구조화된 visual data와 language-conditioned learning tasks 사이의 격차를 효과적으로 메우며, 종종 전통적인 VTG 방법들의 구성 요소들을 통합합니다.
예를 들어, GPTSee [98]는 상세한 video descriptions를 생성하고, 이는 이후 textual queries와 매칭되어 moment localization을 지원합니다. EI-VLG [96]는 이러한 descriptions를 contrastive learning framework 내에서 환경적 단서(environmental cues)로 통합하여 candidate segments의 temporal precision을 정제합니다. 중복성을 해결하기 위해, LMR [99]은 cross-attention을 사용하여 query-relevant segments를 강조하고 contextual alignment를 개선합니다. 유사하게, TEA [90]는 semantic discriminability와 temporal precision을 향상시키기 위해 이러한 textual outputs를 visual features와 통합합니다.
이 접근 방식이 temporal grounding accuracy를 상당히 개선할 수 있지만, 전통적인 VTG 방법들로부터 특정 한계점들을 상속받습니다. 예를 들어, 초기 two-stage matching approaches [142, 143]는 종종 미리 정의된 segment boundaries에 의존하여 global context modeling을 제한합니다. 한편, direct regression methods [144, 145]는 attention biases로 인해 시각적으로 유사한 segments를 의미적으로 동일한 것으로 잘못 해석할 수 있습니다. 대조적으로, fine-tuned MLLMs는 더 풍부하고 context-aware embeddings를 제공하여, 시각적으로 유사한 events를 구별되는 textual semantics와 align시키고 전반적인 robustness를 향상시킵니다.
Summary: VTG-MLLMs를 Fine-tuning하는 것은 pre-training과 완전히 training-free인 접근 방식들 사이의 실용적인 타협점을 제공하여, task-specific temporal alignment를 향상시키면서 computational overhead를 상당히 줄입니다. 그러나 이러한 방법들은 본질적으로 task-optimized되어 있어, 더 넓은 video understanding domains 전반에 걸친 generalization을 제한합니다. 결과적으로, fine-tuned 모델들은 좁고 잘 정의된 tasks에서는 탁월하지만 더 넓은 generalization에는 어려움을 겪는 경우가 많으며, 이는 미래 연구를 위한 중요한 과제입니다.
3.2.3 Training-Free VTG-MLLMs
Training-free 접근 방식들은 VTG-MLLMs에서 빠르게 부상하는 패러다임으로, 낮은 computational overhead와 labeled supervision의 필요성을 제거하는 zero-shot 특성으로 주목받습니다. 이 방법들은 pre-trained foundation models (예: MLLMs 및 LLMs)와 특화된 expert tools [71, 133, 146]를 활용하여 end-to-end training의 필요성을 우회하며, 순수하게 inference-based pipelines를 통해 temporal grounding을 가능하게 합니다. Fine-tuning 접근 방식들 (Section 3.2.2)과 구조적 유사성을 공유하지만, training-free 방법들은 훈련 가능한 구성 요소들을 off-the-shelf 모델들로 대체하여 task-specific parameter updates의 필요성을 상당히 줄임으로써 스스로를 구별합니다. 현재의 training-free VTG-MLLMs는 일반적으로 두 가지 주요 전략 중 하나를 채택합니다: Feature Similarity Matching과 LLM-Driven Reasoning, 이는 MLLM-generated textualizations를 temporal localization에 활용하는 방식에 따라 구별됩니다.
Feature Similarity Matching: 이 전략은 pre-trained encoders를 사용하여 natural language queries와 textualized video content 모두로부터 high-dimensional semantic representations를 추출하는 데 의존합니다. 그 후 Temporal grounding은 query $q$와의 similarity score를 최대화하는 video span $s^$를 식별함으로써 달성되며, 다음과 같이 공식화됩니다: $$s^ = \arg \max_{s_i \in S} \text{sim}(E_Q(q), E_V(v_{s_i})), \quad (4)$$
여기서 $S = {s_1, s_2, \dots, s_N}$은 candidate video spans의 집합을 나타내고, $E_Q(\cdot)$와 $E_V(\cdot)$는 각각 query와 video를 위한 frozen encoders이며, $\text{sim}(\cdot, \cdot)$은 cosine similarity와 같은 similarity function을 나타냅니다.
예를 들어, Moment-GPT [101]는 MiniGPT-v2 [134]로부터의 frame-level captions와 Video-ChatGPT [132]로부터의 segment-level captions를 결합하여 VTG-GPT [94] 프레임워크를 확장하고, similarity-based retrieval 접근 방식을 사용하여 이를 textual queries와 매칭합니다. TFVTG [92]는 LLM을 사용하여 복잡한 queries를 sub-events로 분해하고, BLIP-2 Q-Former [71]를 통해 segment matching을 수행함으로써 이 패러다임을 더 정제합니다. 최종 예측은 sub-event 순서와 관계를 고려하는 temporally-aware filtering을 통해 localized spans를 통합함으로써 도출되며, temporal localization의 정확도를 향상시킵니다.
LLM-Driven Reasoning: 이 대안적인 전략은 VTG를 high-level textual inference task로 취급하여, 풍부해진 video descriptions를 기반으로 temporal segments를 이해하고 localize하기 위해 LLMs의 reasoning capabilities를 활용합니다.
예를 들어, Grounding-prompter [93]는 VTG를 long-text comprehension task로 재구성하여, speech transcriptions와 visual captions를 timestamp annotations와 align합니다. 이는 4단계 multiscale denoising chain-of-thought 접근 방식을 채택하여, iterative prompts를 통해 coarse temporal predictions를 점진적으로 정제합니다. 유사한 맥락에서, DeVi [30]는 Video-LLaVA [58]를 사용하여 계층적인 multi-scale captioning을 수행한 후, GPT-4o [130]를 사용하여 query-driven refinement를 수행합니다. 이 multi-stage reasoning process는 모델이 event dependencies와 fine-grained temporal structures를 더 잘 포착하게 하여, 추가적인 훈련 없이 더 정확한 localization으로 이어집니다.
이러한 지배적인 전략들을 넘어, 떠오르는 방법들은 training-free temporal grounding에 대한 새로운 접근 방식들을 탐구하고 있습니다. 예를 들어, NumPro [106]는 만화 패널 시퀀싱에서 영감을 받은 독특한 번호 매기기 체계(numbering scheme)를 도입하여, temporal traceability를 향상시키기 위해 각 video frame에 numerical identifiers를 삽입합니다. 이 미묘한 형태의 visual embedding은 모델 아키텍처를 수정하거나 fine-tuning을 요구하지 않고도 LLMs가 frame sequences를 더 효과적으로 추적할 수 있게 하여, temporal precision을 개선하면서 일반적인 video comprehension을 보존합니다.
Summary: Training-free VTG-MLLMs는 전통적인 fine-tuning 접근 방식들에 대한 lightweight하고 modular한 대안을 제공하며, 광범위한 training의 computational overhead 없이 VTG를 관리 가능한 하위 태스크들(즉, captioning, matching, 그리고 reasoning)로 효과적으로 분해합니다. 강력한 pre-trained 모델들과 off-the-shelf 구성 요소들을 활용함으로써, 이 방법들은 domain-specific adaptation의 비용과 복잡성을 줄여, 데이터 가용성과 computational resources가 제한된 시나리오에서 매력적인 선택지가 됩니다. 그러나, predefined embeddings와 static representations에 대한 의존은 fine-grained temporal dependencies를 포착하는 데 있어 도전 과제를 도입할 수 있으며, 이는 지속적인 혁신 영역을 제시합니다.
3.3 Video Feature Processing in VTG-MLLMs
우리 taxonomy의 가장 fine-grained level에서, 우리는 VTG-MLLMs를 뒷받침하는 video feature extraction strategies를 조사합니다. Functional roles의 taxonomy에서 논의된 바와 같이, Facilitator-based 방법들은 종종 high-level video embeddings를 제공하기 위해 pre-trained, frozen modules에 의존합니다. 대조적으로, Executor-oriented 설계들은 raw video inputs를 처리하기 위해 더 정교한 메커니즘을 요구하며, 이는 temporal reasoning과 event localization에 대한 그들의 더 직접적인 관여를 반영합니다. 이 하위 섹션은 Executor-based VTG-MLLMs 내에서 visual 및 temporal features를 추출하고 처리하기 위한 중요한 전략들에 초점을 맞춥니다.
3.3.1 Efficient Visual Feature Handling
Frame-level information의 밀도 높은 특성과 대부분의 LLMs의 제한된 input size를 고려할 때, 모델을 압도하지 않으면서 fine-grained temporal cues를 포착하기 위해서는 효율적인 visual feature handling이 필수적입니다. 이러한 기술들은 Fig. 5에 예시된 바와 같이 크게 세 가지 주요 접근 방식으로 분류될 수 있습니다: Learnable Token-Based Compression, Pooling-Based Compression, 그리고 Coarse-to-Fine Progressive Refinement.
Learnable Token-Based Compression: 이 전략은 Fig. 5 (a)에 묘사된 바와 같이 high-dimensional visual features를 간결하고 관리 가능한 표현으로 압축하기 위해 learnable tokens를 사용합니다. 형식적으로, 훈련 가능한 토큰 집합 $Q$와 raw visual features $V$가 주어졌을 때, 압축된 표현 $C$는 매개변수화된 함수 $f_{\text{compress}}$에 의해 얻어집니다:
여기서 $\theta$는 learnable parameters를 나타냅니다. 예를 들어, VTG-LLM [108]은 Slot-Based Token Compression을 도입하여, learnable slot embeddings 집합이 similarity를 기반으로 raw visual tokens로부터 정보를 집계(aggregate)합니다. TRACE [31]는 유사한 전략을 채택하여, slot embeddings를 사용하여 dense visual inputs를 compact summaries로 압축합니다. ReVision-LLM [110]은 self-attention을 통해 segment features를 집계하기 위해 [CLS]-like token [147]을 사용하여, 간결하지만 의미적으로 풍부한 표현을 제공하며, 사실상 식 (5)의 또 다른 구현으로 작용합니다.
Pooling-Based Compression: Pooling 기술들은 Fig. 5 (b)에 나타난 바와 같이 차원성을 줄이면서도 핵심적인 semantic information을 유지하기 위해 local 또는 global visual features를 집계합니다. 예를 들어, LITA [111]는 spatial 및 temporal dimensions 전반에 걸쳐 multi-granularity pooling을 적용하는 반면, Grounded-VideoLLM [34]과 TimeMarker [114]는 계층적인 visual cues를 포착하기 위해 동적으로 조절 가능한 pooling kernels를 사용합니다. LLaVA-MR [105]은 token variance-based selection을 도입하여, dynamic content를 더 효과적으로 포착하기 위해 high-variance tokens를 우선시합니다. 대안적으로, TimeSuite [33]는 token shuffling과 projection을 통해 token overhead를 줄여, 추가적인 parameters 없이 압축을 달성합니다.
Coarse-to-Fine Progressive Refinement: Dense frame-level features를 미리 압축하는 대신, 이 방법들은 Fig. 5 (c)에 개요 된 바와 같이 엄격한 token constraints 하에서 효율성을 개선하기 위해 temporal predictions를 점진적으로 정제합니다. SeViLA [102]는 answer prediction 이전에 language-aware keyframes를 선택함으로써 coarse-to-fine localization strategy를 채택한 초기 예시입니다. 유사하게, HawkEye [32]는 recursive grounding approach를 채택하여, 반복적인 단계에서 temporal search space를 좁힙니다. 또 다른 두드러진 전략은 multi-stage refinement—먼저 coarse temporal segment를 식별하고 그 후 boundaries를 조정하는 것—를 포함하며, 이는 ReVision-LLM [110], SlowFocus [116], 그리고 VideoMind [35]에 의해 효과적으로 사용되어 정확도를 보존하면서 token overhead를 줄입니다.
Summary: Efficient visual feature handling은 dense video data의 풍부함을 input token limitations와 조화시키기 위해 VTG-MLLMs에서 무엇보다 중요합니다. 위에서 논의된 전략들은 정보 축소(information reduction)에 대한 뚜렷한 철학들을 나타냅니다. Token-based 및 pooling 방법들은 사전 압축(upfront compression)을 달성합니다. 대조적으로, progressive refinement는 반복적인 접근 방식을 채택하여, 시간적으로 관련된 segments에 계산 자원을 선택적으로 집중시킵니다. 종합적으로, 이러한 기술들은 MLLMs가 상세한 video sequences를 처리할 수 있게 하는 데 중요하며, 정밀한 grounding에 필요한 fine-grained temporal nuances를 포착하는 것과 계산적 처리 가능성(computational tractability)을 유지하는 것 사이의 중요한 균형을 맞춥니다.
3.3.2 Temporal Representation and Modeling
Global video understanding tasks와 달리, fine-grained temporal grounding은 video frames를 timestamp intervals와 align하기 위해 temporal relationships에 대한 정밀한 추론을 요구합니다. 이 요구 사항은 정확한 temporal boundary predictions에 의존하는 moment retrieval 및 dense video captioning과 같은 VTG tasks에 중요합니다. 강력한 timestamp representation mechanisms는 이러한 수준의 temporal precision을 달성하는 데 필수적입니다. 이러한 도전 과제들을 해결하기 위해, VTG-MLLMs에서의 temporal feature modeling은 크게 Explicit 및 Implicit modeling strategies로 분류될 수 있으며, 이는 temporal cues가 모델의 input stream에 직접 주입되는지 아니면 모델의 architectural design과 reasoning capabilities를 통해 맥락적으로 동화되는지에 따라 구별됩니다.
Explicit Modeling: Explicit modeling strategies는 Fig. 6 (a)-(b)에 예시된 바와 같이 temporal information을 MLLMs의 input이나 feature representations에 직접 임베딩합니다. 이러한 접근 방식들은 visual feature space 내에 명시적인 time markers를 통합함으로써 정밀한 temporal context를 제공하여, video frames를 timestamps와 align하는 모델의 능력을 향상시키는 것을 목표로 합니다. 크게 보아, 이 방법들은 두 가지 주요 접근 방식으로 분류될 수 있습니다: Temporal Embedding과 Token Concatenation, 각각은 temporal cues를 통합하는 뚜렷한 메커니즘을 가집니다.
Temporal Embedding. 한 가지 일반적인 접근 방식은 visual tokens를 전용 temporal embeddings로 증강(augment)하여, 효과적으로 time information을 input tokens의 sequence에 통합하는 것입니다. $v_i$가 $i$번째 visual token을 나타내고 $e_{t_i}$가 그에 상응하는 temporal embedding이라면, 증강된 visual token $v'_i$는 다음과 같이 형성될 수 있습니다:
예를 들어, VTG-LLM [108]은 0으로 초기화된 learnable absolute time embeddings를 도입하여, pre-trained encoders에 의해 생성된 visual tokens의 원래 semantic integrity를 보존합니다. 대조적으로, LITA [111]는 relative time representation을 채택하여, 비디오를 $T$개의 동일한 길이의 청크(chunks)로 분할하고 각 세그먼트에 고유한 temporal tokens (예: $\langle 1 \rangle$부터 $\langle T \rangle$까지)를 할당하여, 거칠지만 계산 효율적인 temporal structure를 제공합니다. Momentor [28]는 $N$개의 learnable anchor points를 정의함으로써 더 세분화된 접근 방식을 취하는데, 각 포인트는 비디오 내의 특정 temporal position을 나타냅니다. 이 앵커들은 continuous temporal feature space를 정의하여, 보간(interpolation)을 통한 더 정밀한 localization을 가능하게 합니다. 다른 방법들도 명시적인 time encodings를 활용합니다. 예를 들어, TGB [119], SlowFocus [116], 그리고 LLaVA-ST [113]는 fine-tuning 중에 temporal awareness를 향상시키기 위해 temporal position embeddings를 통합합니다. 이러한 embeddings는 명확한 temporal context를 제공하여, MLLMs의 기본 아키텍처를 크게 변경하지 않고도 temporal alignment를 개선합니다.
Token Concatenation. 대안적인 접근 방식은 샘플링된 프레임들로부터 직접 timestamps를 토큰화하여, 이 temporal markers를 visual 및 textual tokens와 통합하여 통일된 input sequence를 형성하는 것입니다. $S_P$, $S_V$, 그리고 $S_T$가 각각 prompt tokens, visual tokens, 그리고 tokenized timestamps의 sequences를 나타낸다면, MLLM에 입력되는 최종 input sequence $S_{\text{input}}$은 다음과 같은 연결(concatenation)이 될 수 있습니다:
구체적인 순서와 인터리빙(interleaving) 전략은 다양할 수 있습니다. 예를 들어, LLaVA-MR [105]은 frame sampling rate에 기반하여 relative frame indices 또는 absolute timestamps를 동적으로 선택하고, 이 markers를 $\langle \text{time begin} \rangle$ 및 $\langle \text{time end} \rangle$와 같은 특수 토큰들과 인터리빙하여 temporal boundaries를 나타냅니다. TimeMarker [114]는 유사한 전략을 채택하여, 명시적인 temporal separators (예: "second2.0")를 input sequence에 삽입하여 temporal context를 강화합니다. 추가적으로, Mr.BLIP [117]은 relative 대 absolute time, decimal 대 integer formats, 그리고 다양한 token ordering schemes를 포함한 time representation에 대한 다양한 설계 선택 사항들을 체계적으로 탐구하고, 이것이 모델 성능에 미치는 영향을 평가합니다. TRACE [31]는 이 접근 방식을 더 확장하여 temporal tokenization을 visual feature embeddings와 통합함으로써, spatial 및 temporal information의 긴밀하게 결합된 표현을 제공합니다.
Implicit Modeling: Implicit modeling strategies는 large language models의 내재적인 reasoning 및 contextual understanding capabilities를 활용하여, latent representations를 통해 video data 내의 temporal relationships를 포착하는 것을 목표로 합니다. Timestamps를 visual inputs와 직접 연관시키는 explicit methods와 달리, implicit approaches는 temporal cues를 더 유동적으로 통합하여, 명시적인 time markers 없이도 temporal knowledge를 임베딩합니다. 이러한 전략들은 일반적으로 두 가지 주요 범주로 나뉩니다: Intrinsic Reasoning과 Feature Infusion, 각각은 Fig. 6 (c)-(d)에 예시된 바와 같이 temporal context를 visual representations에 임베딩하기 위한 뚜렷한 기술들을 사용합니다.
Intrinsic Reasoning. 이 접근 방식은 visual features와 time-related language prompts 사이의 상호작용으로부터 간접적으로 temporal relationships를 추론하는 LLM의 내재적 능력에 의존합니다. 명시적인 timestamps를 임베딩하는 대신, 이 방법들은 numerical cues, iterative refinement, 그리고 boundary-aware reasoning을 활용하여 temporal dynamics를 포착합니다. 예를 들어, NumPro [106]는 numerical indices를 video frames에 직접 도입하여, LLM이 positional awareness를 통해 sequence order를 추론할 수 있게 합니다. Grounded-VideoLLM [34]은 유사한 전략을 채택하여, 특화된 temporal tokens를 LLM의 어휘(vocabulary)에 도입함으로써 시간과 의미의 통합된 모델링을 가능하게 합니다. TimeRefine [112]는 temporal grounding을 progressive refinement task로 재구성하는데, 모델이 먼저 거친 구간들(coarse intervals) (예: "15.0s to 27.5s")을 예측하고, 이어서 오프셋 조정(offset adjustments) (예: "+4.0s and -1.5s")을 예측하여 추정치를 정제함으로써, iterative reasoning을 통해 fine-grained localization을 달성합니다. VTimeLLM [26]과 TPE-VLLM [120]과 같은 다른 모델들은 pretraining 중에 boundary-aware tasks를 포함하여, 명시적으로 모델이 event durations와 transitions에 대해 추론하도록 가르침으로써, 명시적인 time tokens 없이도 temporal precision을 향상시킵니다.
Feature Infusion. Feature infusion 기술들은 feature extraction process를 조건부로 하여 temporal context를 visual feature representations에 직접 통합합니다. 이는 종종 spatiotemporal embeddings를 공동으로 학습하도록 설계된 Q-Formers와 같은 아키텍처를 사용하여 달성됩니다. 형식적으로, raw visual features $V_{\text{raw}}$와 temporal descriptor $T_{\text{desc}}$ (예: "This frame is sampled at 2s")가 주어졌을 때, infused features $F_{\text{infused}}$는 다음과 같이 생성될 수 있습니다:
여기서 Extractor (예: Q-Former)는 $T_{\text{desc}}$를 조건으로 $V_{\text{raw}}$를 처리하여, 모델이 명시적인 time tokenization 없이도 미묘하고 context-dependent한 temporal cues를 포착할 수 있게 합니다. 예를 들어, TimeChat [27]과 TemporalVLM [118]은 이러한 temporal descriptors를 Q-Former에 대한 conditional inputs로 제공하여 이를 활용하며, 모델이 temporal context를 포함하도록 안내합니다. 유사하게, TimeSuite [33]는 더 긴 구간에 걸친 temporal dynamics를 포착하는 segment-level features를 생성하여, 더 포괄적인 temporal reasoning을 가능하게 합니다.
Summary: Temporal representation과 modeling은 VTG-MLLMs에 정밀한 temporal localization 능력을 부여하는 데 기초가 됩니다. Explicit modeling strategies는 MLLMs에 모호하지 않은 temporal information을 직접 제공하여, temporal cues에 대한 직접적인 제어와 해석 가능성을 제공합니다. 반면 Implicit modeling은 LLMs의 내재적인 sequential processing 및 reasoning capabilities를 활용하거나 feature extraction 중에 temporal context를 더 미묘하게 통합합니다. 이러한 접근 방식들은 시간의 연속적인 특성(continuous nature of time)을 LLMs의 이산적이고 기호적인 처리(discrete, symbolic processing)와 어떻게 가장 잘 통합할지에 대한 지속적인 탐구를 반영하며, 궁극적으로 미묘한 temporal reasoning과 정확한 boundary prediction을 수행하는 모델의 능력을 형성합니다.
📝 AI 연구자를 위한 3 TAXONOMY 핵심 정리 노트
이 섹션은 VTG-MLLMs(Video Temporal Grounding with MLLMs)의 복잡한 방법론을 기능적 역할(Role), 학습 패러다임(Training), **비디오 처리(Feature Processing)**의 3차원 축으로 구조화하여 분석합니다.
3.1 Functional Roles of MLLMs (모델의 역할 정의)
MLLM이 파이프라인 내에서 보조자인가, 주체자인가에 따른 분류.
- Facilitators (보조자)
- 정의: 비디오를 구조화된 텍스트($T$)로 변환하여 Downstream 모듈을 지원.
- 수식: $T = \text{MLLM}_{\text{facilitator}}(V)$
- 활용:
- Dataset Construction: Pseudo-labeling을 통한 데이터 증강 (예: VidMorp, Ego4D 가공).
- Expert Module Integration: Captioning 후 Similarity matching 수행 (예: Video-ChatGPT $\rightarrow$ S-BERT).
- Pros/Cons: 효율적이고 확장이 쉬우나, Pre-trained 모델의 Bias가 전파되고 복잡한 Temporal Reasoning에는 한계 존재.
- Executors (수행자)
- 정의: End-to-End Seq2Seq로 시간적 경계($Y$)를 직접 예측.
- 수식: $Y = \text{MLLM}_{\text{executor}}(V, Q, \tau)$
- 핵심 기술:
- Architectural Enhancement: Temporal position encoding 주입(Momentor), Dual-stream(Grounded-VideoLLM), Task-specific Head(TRACE).
- Training Optimization: Multi-stage training (VTimeLLM), RL 기반 최적화(Time-R1, GRPO).
- Pros/Cons: 유연한 입력/출력 처리가 가능하고 통합된 추론이 가능하나, 데이터와 연산 비용이 매우 높음.
3.2 Training Paradigms (학습 전략)
Generalization과 Task-specific adaptation 사이의 Trade-off에 따른 분류.
- Pre-training (Large-scale Supervised)
- 목표: $L_{gen}(T | V, P)$ 최소화를 통해 Robust한 Temporal Reasoning 능력 확보.
- 트렌드:
- Progressive Learning: Coarse $\rightarrow$ Fine-grained로 단계적 학습 (VTimeLLM).
- RL Adaptation: IoU 등 Non-differentiable metric 최적화를 위해 RL(GRPO 등) 도입 시도.
- 데이터: 단순 규모 확장(InternVid-G)을 넘어 Spatial/Spatiotemporal 특화 데이터셋(TimeSuite)으로 진화 중.
- Fine-Tuning (Parameter Efficient)
- Direct Fine-Tuning: Pre-trained MLLM에 Adapter(LoRA 등)를 부착하여 VTG Task에 맞게 조정 (SeViLA, LLaViLo). Catastrophic forgetting 주의 필요.
- Offline Textualization: 비디오를 텍스트로 변환 후 LLM이 처리. 기존 2-stage 방식의 한계를 MLLM의 Rich Context로 보완.
- Training-Free (Zero-shot)
- 접근법: 학습 없이 Pre-trained 모델의 Inference 능력만 활용.
- 전략:
- Feature Similarity: Query와 Video Segment 간의 Cosine Similarity 최대화 ($s^* = \arg \max \text{sim}(E_Q, E_V)$).
- LLM-Driven Reasoning: CoT, Denoising 등을 통해 LLM이 논리적으로 구간을 추론 (Grounding-prompter).
3.3 Video Feature Processing (비디오 특징 처리)
Executor 모델들이 Raw Video의 Token Budget 문제를 해결하고 Temporal Precision을 확보하는 방법.
1) Efficient Visual Feature Handling (토큰 압축 기술)
- Learnable Token-Based: $C = f_{compress}(Q, V; \theta)$. Slot Token이나 [CLS] 토큰으로 정보 압축 (VTG-LLM, TRACE).
- Pooling-Based: Spatiotemporal Pooling이나 High-variance token 선택 (LITA, LLaVA-MR).
- Coarse-to-Fine: 전체를 훑은 후, 관련 구간만 다시 세밀하게 인코딩하여 토큰 절약 (SeViLA, HawkEye).
2) Temporal Representation and Modeling (시간 정보 주입)
- Explicit Modeling (명시적 주입)
- Temporal Embedding: Visual Token에 시간 벡터 더하기 ($v'_i = v_i + e_{t_i}$). (Momentor).
- Token Concatenation: $[S_P, S_V, S_T]$ 형태로 타임스탬프 토큰을 텍스트/비전 토큰과 결합 (LLaVA-MR, TimeMarker).
- Implicit Modeling (암묵적 추론)
- Intrinsic Reasoning: 프레임에 숫자(인덱스)를 마킹하거나, LLM의 문맥 추론 능력 활용 (NumPro, TimeRefine).
- Feature Infusion: Q-Former 등의 Extractor 단계에서 Temporal Descriptor를 조건부(Condition)로 주입 ($F_{infused} = \text{Extractor}(V, T_{desc})$).
💡 쉬운 설명 : "똑똑한 AI가 영상을 분석하는 3가지 비결"
이 섹션은 AI 모델들을 어떻게 분류하고 뜯어볼지에 대한 '해부학 개론'입니다.
1. 역할의 차이 (Roles): 비서 vs. 해결사
- Facilitators (비서): 영상을 직접 분석해서 답을 내는 게 아니라, "이 영상 3분에 고양이가 나와요"라고 글로 받아 적어서 넘겨주는 역할만 합니다. 실제 정답은 뒤에 있는 다른 친구가 찾습니다.
- Executors (해결사): 영상을 보고 질문을 듣자마자 "아, 그 장면은 3분 10초부터 20초까지입니다"라고 직접 답을 내놓는 역할입니다. 요즘은 이 '해결사' 모델을 만드는 게 대세입니다.
2. 공부하는 방법 (Training): 대학원 vs. 실무 vs. 컨설팅
- Pre-training (대학원): 엄청나게 많은 데이터를 보며 기초부터 심화까지 빡빡하게 공부합니다. 돈과 시간이 많이 들지만 가장 똑똑합니다.
- Fine-Tuning (실무 연수): 이미 똑똑한 AI에게 "이번엔 비디오 찾는 법만 집중적으로 배워"라고 짧게 가르칩니다. 효율적입니다.
- Training-Free (컨설팅): 따로 공부 안 시키고, 이미 있는 지식으로 "너 이거 알지? 한번 풀어봐"라고 시키는 겁니다.
3. 영상을 보는 눈 (Feature Processing): 요약과 시간 감각
- 영상 압축 (Visual Handling): 영상은 너무 기니까, AI는 이걸 다 기억하지 않고 **"핵심 장면 요약 노트"**를 만듭니다(토큰 압축).
- 시간 감각 (Temporal Modeling):
- Explicit (명시적): 사진마다 구석에 **'2025.01.01 10:00:00'**라고 날짜 도장을 쾅쾅 찍어서 보여주는 방식입니다.
- Implicit (암묵적): 날짜 도장 없이, 사진 속 해의 위치나 시계 바늘을 보고 AI가 **"아, 이건 점심때쯤이구나"**라고 스스로 눈치채게 하는 방식입니다.
별점 3잠 / 5점
잘 정리한 서베이 논문.
