AI바라기의 인공지능
VLM : 논문리뷰 : Generative Frame Sampler for Long Video Understanding 본문
Generative Frame Sampler for Long Video Understanding 학습 노트
Terminology (용어 설명)
- VideoLLMs (Video Large Language Models): Video 입력을 이해하고 이에 대한 language 기반 응답을 생성할 수 있는 대규모 multimodal models.
- GenS (Generative Frame Sampler): 본 논문에서 제안하는, VideoLLM을 활용하여 user question에 관련된 video frame들을 식별하는 plug-and-play 방식의 generative frame sampler.
- GenS-Video-150K: GenS 학습을 위해 구축된 대규모 video instruction dataset. Dense하고 fine-grained frame relevance annotation이 특징.
- Long Video Understanding: 수 분에서 수 시간에 이르는 긴 video의 내용을 이해하는 task.
- Computational Burden: 긴 video의 수많은 frame을 처리하는 데 드는 높은 계산 비용.
- Uniform Sampling: VideoLLM의 최대 context 길이에 맞춰 고정된 간격으로 frame을 sampling하는 방식. 정보 손실 가능성.
- FPS (Frames Per Second) Sampling: 초당 특정 frame 수(e.g., 1 FPS)로 sampling하는 방식. 긴 video의 경우 매우 많은 frame을 얻게 되어 memory 및 속도 문제 야기.
- CLIP-based Frame Sampler: CLIP과 같은 image encoder를 사용하여 query와 frame 간의 유사도를 계산해 관련 frame을 검색하는 방식.
- Vision-Centric Subset: Language-only reasoning으로 풀 수 있는 질문이나 짧은 video를 제외하여, video 이해 능력을 더 정확히 평가하기 위해 필터링된 benchmark의 하위 집합.
- Aria: GenS architecture의 기반이 된 SOTA long-context VideoLLM. (Li et al., 2025)
- Mixture-of-Experts (MoE): 모델의 일부 sub-network (experts)만을 선택적으로 활성화하여 계산 효율성을 높이는 architecture.
- RAG (Retrieval-Augmented Generation): 외부 정보원(여기서는 video frames)을 검색하여 LLM의 generation 품질을 향상시키는 기법.
- LongVideoBench (LVB), MLVU, HourVideo: Long-form video understanding을 평가하기 위한 benchmark datasets.
- E.T. Instruct: 기존의 human-annotated event-level video dataset. GenS 학습 데이터 다양성 증진에 활용.
- YT-Temporal-1B: GenS-Video-150K dataset 구축 시 video source로 사용된 대규모 video dataset.
Purpose of the Paper
- 기존 연구의 한계 극복:
- 기존 VideoLLM들은 긴 video (수천 frames) 처리 시 상당한 computational burden에 직면.
- 기존 sampling 방식의 문제점:
- Uniform Sampling: VideoLLM의 context 길이에 맞춰 sampling하므로, 고정 간격으로 인해 중요한 visual information 손실 발생.
- FPS Sampling (e.g., Gemini): 1 FPS 등으로 전체 frame을 포괄하려 하지만, 긴 video의 경우 수천 개의 frame을 생성하여 과도한 memory 사용 및 느린 inference 속도 야기.
- CLIP-based Frame Samplers:
- Visual 측면: Frame-by-frame matching으로 연속된 frame 간의 temporal relationship 포착 실패.
- Textual 측면: 제한된 language capability로 복잡한 user query 처리 미흡.
- Interaction 측면: Frame과 query를 독립적으로 embedding 후 cosine similarity 계산, 복잡한 multi-hop reasoning에 필요한 충분한 vision-language interaction 저해.
- 새로운 접근 방식 제시:
- 이러한 한계를 극복하기 위해, **Generative Frame Sampler (GenS)**를 제안. GenS는 VideoLLM에 통합되어 효율적인 long video perception을 지원하는 plug-and-play module.
- GenS는 경량 VideoLLM을 기반으로 하며, 내재된 vision-language capabilities를 활용해 question-relevant frames를 식별. 이는 단순 retrieval을 넘어, question의 의미를 이해하고 관련 frame "span"을 "생성"하는 접근.
Key Contributions & Novelty
- GenS (Generative Frame Sampler) 제안:
- Contribution: VideoLLM을 활용하여 question-aware relevant frames를 식별하는 새로운 generative frame sampler. 기존 VideoQA Assistant의 input frame을 향상시키는 plug-and-play 방식으로 작동.
- Novelty:
- 단순히 CLIP embedding 유사도에 의존하는 대신, VideoLLM (Aria) 자체를 frame sampler로 사용하여 temporal relationship (e.g., "immediately after") 및 복잡한 textual instruction 이해.
- Native multi-modal architecture를 통해 long-range temporal cues와 language semantics를 align하여 complex multi-hop reasoning 가능.
- Relevant frame spans와 confidence score를 natural language generation task로 출력. (e.g., {"Frame Nstart-Nend: relevance score", ...})
- GenS-Video-150K Dataset 구축:
- Contribution: Question-relevant frame에 대한 dense하고 fine-grained annotation을 포함하는 대규모 (150K samples) video instruction dataset.
- Novelty:
- Dense annotations: 평균적으로 전체 frame의 20%가 relevant로 annotate됨.
- Fine-grained scoring: 각 relevant frame에 1~5점의 구체적인 confidence score 할당.
- GPT-4o를 활용한 4-stage pipeline (Dense Video Frame Captioning → Construct Video QAs with Grounded Frames → Extend Relevant Frames → Score Fine-grained Relevant Confidence)을 통해 고품질 데이터 생성.
- 광범위한 실험을 통한 GenS의 효과 검증:
- Contribution: Open-source (Qwen2-VL-7B, Aria-25B, LLaVA-Video-7B/72B 등) 및 proprietary (GPT-4o, Gemini) VideoLLM 전반에서 일관된 성능 향상 및 SOTA 결과 달성.
- Novelty (of results):
- LLaVA-Video-72B + GenS: LongVideoBench에서 66.8 (+4.3), MLVU에서 77.0 (+2.7) 달성.
- Aria + GenS: HourVideo에서 39.2점 획득 (Gemini-1.5-Pro 대비 1.9점 우위).
- 이는 효율적인 video perception이 현대 VideoQA Assistant의 critical bottleneck임을 시사하며, GenS가 실용적인 해결책임을 입증.
Experimental Highlights
- Datasets & Metrics:
- LongVideoBench (LVB), MLVU, HourVideo (long-form video QA, multiple-choice accuracy).
- Vision-Centric subset을 구성하여 language-only reasoning으로 풀 수 있는 경우 배제.
- Charades-STA (temporal grounding, mIoU, Recall@1).
- 주요 결과 (SOTA 달성 및 성능 향상):
- Table 1: GenS는 다양한 VideoQA model (open-source, proprietary) 및 크기에서 일관된 성능 향상.
- LLaVA-Video-72B + GenS: LVB 66.8 (+4.3), MLVU 77.0 (+2.7).
- Aria-25B (long-context model) + GenS: LVB에서 3.4점 향상 (model context length scaling 이상의 효율적 frame sampling 중요성 시사).
- Figure 1 (b): GenS는 GPT-4o (≤40 frames)의 VideoQA 정확도를 uniform sampling 대비 13.6점, Aria (≤64 frames)를 13.4점 향상 (LVB Vision-Centric subset).
- Table 2 (HourVideo): 평균 45.7분 길이 video (113개는 1시간 이상).
- Aria + GenS: 39.2% (기존 Gemini-1.5-Pro 37.3% 능가).
- Gemini-1.5-Pro + GenS: 40.7%.
- CLIP-based Sampler 대비 우수성: Figure 1(b)와 Table 3에서 CLIP-L, SigLIP 등보다 GenS가 더 큰 폭으로 성능 향상, 특히 frame 수가 많아질수록 CLIP-based의 한계 명확. InternVL-14B가 CLIP류보다 나은 것은 향상된 language understanding 덕분.
- GenS-Video-150K Dataset 효과 (Table 6):
- GPT-4o (32 frames): Uniform 대비 +10.4점 (53.4 → 63.8).
- Aria (256 frames): Uniform 대비 +3.3점 (54.4 → 57.7).
- Output Indexing Format (Figure 2): Continuous spans + relevance score order (56.1)가 가장 좋은 성능. Input은 textual indexing만으로 충분.
- Table 1: GenS는 다양한 VideoQA model (open-source, proprietary) 및 크기에서 일관된 성능 향상.
Limitations and Future Work
- Limitations:
- Computational Overhead: GenS는 naive uniform sampling보다 key frame retrieval을 위해 추가적인 계산 오버헤드 발생 (각 retrieval window 내 M=256 frames 분석).
- 중요성/완화: Multiple segment window의 parallel processing으로 전체 inference time은 실용적으로 관리 가능. 대규모 VideoQA Assistant (e.g., LLaVA-Video-72B)의 context length를 크게 확장하는 것보다 GenS (3.9B 활성 파라미터)로 소수의 relevant frame을 sampling하는 것이 더 효율적.
- Computational Overhead: GenS는 naive uniform sampling보다 key frame retrieval을 위해 추가적인 계산 오버헤드 발생 (각 retrieval window 내 M=256 frames 분석).
- Future Work:
- Multi-round Retrieval Iterations: 한 번의 retrieval이 아닌, 여러 번의 반복적인 retrieval을 통해 frame selection을 정교화.
- Integration with Video Agent Systems: Video Agent 시스템과 통합하여 더욱 세련된 frame selection.
Overall Summary
이 논문은 긴 video를 이해하는 데 있어 기존 VideoLLM의 한계인 과도한 계산량과 비효율적인 frame sampling 문제를 해결하기 위해 **Generative Frame Sampler (GenS)**를 제안한다. GenS는 가벼운 VideoLLM (Aria)을 기반으로 user question에 가장 관련 있는 frame들을 "생성적"으로 식별하며, 이를 위해 특별히 구축된 **GenS-Video-150K dataset (dense, fine-grained relevance annotations)**에서 학습된다. 실험 결과, GenS는 다양한 SOTA VideoLLM의 성능을 큰 폭으로 향상시켜 long-form video understanding 분야에서 새로운 SOTA를 달성했으며, 이는 효율적인 frame pre-sampling이 long video 이해의 핵심임을 시사한다. 이 연구는 기존 VideoLLM의 구조 변경 없이 plug-and-play 방식으로 성능을 극대화할 수 있는 실용적 접근법을 제시했다는 점에서 중요한 의의를 가진다.
쉬운 설명
긴 영화를 보면서 "주인공이 회의 끝나고 바로 한 일이 뭐야?"라는 질문에 답해야 한다고 상상해 보세요. 기존 AI는 영화 전체를 다 보거나(매우 느리고 비쌈), 영화 중간중간 무작위로 몇 장면만 봐서(중요 장면 놓칠 수 있음) 답을 찾으려고 했습니다.
이 논문이 제안하는 GenS는 똑똑한 조수와 같습니다. 이 조수는 질문을 듣고 영화 전체를 빠르게 훑어본 뒤, "아마 영화 시작 후 10분쯤 나오는 장면이랑 45분쯤 나오는 장면을 보면 답이 있을 거예요!"라고 알려줍니다. 그러면 원래 질문에 답해야 했던 AI는 이 조수가 알려준 몇몇 짧은 부분만 집중해서 보면 되니 훨씬 빠르고 정확하게 답을 찾을 수 있습니다. GenS는 GenS-Video-150K라는 특별한 학습자료(수많은 질문과 관련된 비디오 장면 예시)를 통해 이렇게 똑똑한 조수가 되는 법을 배웁니다.
Abstract
Video Large Language Models (VideoLLMs)의 최근 발전에도 불구하고, 긴 형식의 video를 효과적으로 이해하는 것은 여전히 중요한 challenge입니다. 수천 개의 frame을 포함하는 긴 video를 인식하는 것은 상당한 computational burden을 야기합니다. 이 문제를 완화하기 위해, 본 논문은 VideoLLMs와 통합되어 긴 video 인식을 효율적으로 촉진하는 plug-and-play module인 Generative Frame Sampler (GenS)를 소개합니다.
경량 VideoLLM을 기반으로 구축된 GenS는 내재된 vision-language 능력을 활용하여 question-relevant frames를 식별합니다. 효과적인 retrieval을 촉진하기 위해, 우리는 조밀한 frame relevance annotations를 가진 대규모 video instruction dataset인 GenS-Video150K를 구축합니다.
광범위한 실험을 통해 GenS가 open-source models (Qwen2-VL-7B, Aria-25B, VILA-40B, LLaVA-Video-7B/72B) 및 독점 assistants (GPT-4o, Gemini)를 포함한 다양한 VideoLLMs의 performance를 일관되게 향상시키는 것으로 나타났습니다. GenS를 장착했을 때, open-source VideoLLMs는 긴 형식 video benchmarks에서 인상적인 state-of-the-art 결과를 달성했습니다: LLaVA-Video-72B는 LongVideoBench에서 66.8 (+4.3), MLVU에서 77.0 (+2.7)을 기록했으며, Aria는 HourVideo에서 39.2를 얻어 Gemini-1.5-pro를 1.9 포인트 능가했습니다. 모든 datasets와 models는 https://generative-sampler.github.io에 공개할 예정입니다.
1 Introduction
Large Multimodal Models (LMMs)의 최근 발전은 괄목할 만한 진전을 보여주었지만, 긴 video를 이해하는 것은 여전히 중요한 challenge로 남아 있습니다. 현재 video 중심의 LMMs (VideoLLMs)는 일반적으로 video 인식의 초기 단계로 개별 video frames를 encode 하기 위해 CLIP 또는 SigLIP과 같은 image encoder를 사용합니다. 수천 개의 frames를 포함하는 몇 시간 길이의 video를 processing할 때, 중요한 challenge가 발생합니다: 원본 video sequence에서 representative frames를 효율적으로 sample하는 방법은 무엇인가?
기존 VideoLLM assistants는 주로 긴 video를 sampling하기 위해 두 가지 접근 방식을 사용합니다: 1) VideoLLM의 최대 context length에 기반한 uniform sampling. 이는 제한된 고정 간격 sampling으로 인해 상당한 visual information 손실을 초래합니다. 2) Gemini와 같은 long-context models에서 구현된 frame-per-second (FPS) sampling. 이는 포괄적인 visual coverage를 위해 1 FPS로 frames를 캡처할 수 있습니다. 그러나 몇 시간 길이의 video에 대해 수천 개의 frames를 얻게 되어 memory 소비가 급증하고 inference speed가 느려집니다.
직관적으로, VideoLLM assistants의 경우, 특정 user instruction (즉, query)을 처리할 때 긴 video의 대부분 frames는 redundant합니다. visual redundancy를 완화하기 위해, 여러 연구에서 query-aware frames를 효율적으로 retrieve하기 위해 CLIP을 통한 language-guided frame sampling을 제안합니다. 그러나 CLIP-based frame samplers에는 세 가지 주요 한계가 있습니다. visual 측면에서, frame-by-frame matching은 그림 1 (a)에 묘사된 것처럼 연속적인 frames에 의해 암시되는 temporal relationships를 포착하지 못합니다. textual 측면에서는 제한된 language capabilities에 제약을 받아 간결하고 간단한 user queries만 process할 수 있습니다. 또한, frames와 textual queries를 별도로 embeds하여 cosine similarity를 계산하는데, 이는 complex multi-hop reasoning을 달성하기 위한 충분한 vision-language interaction을 방해합니다.
이러한 한계를 완화하기 위해, 우리는 유연한 user instructions를 통해 relevant frames를 retrieve하는 VideoLLM 기반 접근 방식인 Generative Frame Sampler (GenS)를 제시합니다. 고급 long-context VideoLLM을 기반으로 구축된 우리의 접근 방식은 기본적인 video-language perception 능력을 계승합니다. 첫째, 그림 1 (a)에서 볼 수 있듯이, GenS는 "바로 뒤에"와 같이 연속적인 frames 간의 temporal relationships를 효과적으로 포착합니다. 둘째, 내장된 LLMs에 의해 구동되는 GenS는 복잡하고 유연한 textual instructions를 이해합니다. 셋째, 기본 multi-modal architecture는 long-range temporal cues를 language semantics와 aligning하여 complex multi-hop reasoning을 가능하게 합니다. 그림 1 (b)에서 볼 수 있듯이, GenS는 더 relevant한 visual frames를 선택함으로써 open-source (Aria) 및 proprietary (GPT-4o) models 모두에서 VideoQA Assistants의 performance를 상당히 향상시킵니다. uniform sampling과 비교하여, GenS는 까다로운 long-form video benchmark에서 Aria의 accuracy를 13.4 포인트 (≤64 frames), GPT-4o의 accuracy를 13.6 포인트 (≤40 frames) 향상시킵니다. 이러한 상당한 개선은 효율적인 video perception이 현대 VideoQA Assistants의 중요한 bottleneck이며, GenS가 그 잠재력을 최대한 발휘할 수 있는 실용적인 솔루션을 제공한다는 것을 강조합니다.
GenS sampler를 개발하기 위해 우리는 두 가지 주요 challenge를 해결합니다: 첫째, 기존 video instruction datasets는 다양한 videos와 user instructions에 걸쳐 relevant frames에 대한 조밀한 annotations가 부족하여 training data가 부족합니다. 둘째, relevant frames sampling을 위한 최적의 generative format은 아직 충분히 연구되지 않았습니다. 첫 번째 challenge를 해결하기 위해, 우리는 GPT-4o를 통해 question-relevant frame annotations를 포함하는 새로운 synthetic VideoQA dataset인 GenS-Video150K를 소개합니다. relevant frame annotations는 1) 모든 frames의 20%가 annotated된 dense 형태이며, 2) 각 relevant frame에 특정 confidence scores (레벨 1에서 5)가 할당된 fine-grained 형태입니다. 두 번째 challenge에 대해서는 relevant frames를 indexing하기 위한 다양한 generative formats를 탐색합니다. 경험적 결과에 따르면 visual frames 앞에 textual labels ("Frame Number [N]")를 직접 추가하는 것만으로 sequential frames를 구별하기에 충분합니다. GenS는 natural language generation task로 confidence scores와 함께 relevant frame spans를 outputs합니다 ({"Frame Nstart-Nend: relevance score", ...}).
요약하자면, 우리의 주요 기여는 세 가지입니다: 1) 우리는 VideoLLMs를 활용하여 question-aware relevant frames를 식별하는 새로운 generative frame sampler인 GenS를 제안합니다. 이는 VideoQA Assistants를 위한 input frames를 향상시키는 plug-and-play sampler 역할을 합니다. 2) 우리는 다양한 video questions에 걸쳐 fine-grained confidence scores로 relevant frames를 조밀하게 annotates하는 대규모 video instruction dataset인 GenS-Video150K를 소개합니다. 3) 광범위한 실험을 통해, 우리는 GenS가 open-source (Aria-25B, LLaVA-Video-7B/72B) 및 proprietary (GPT-4o 및 Gemini) VideoQA Assistants 모두의 performance를 크게 향상시킨다는 것을 보여줍니다. 특히, GenS를 장착했을 때, LLaVA-Video-72B는 MLVU에서 accuracy score 77.0, LongVideoBench에서 66.8로 state-of-the-art performance를 달성했으며, Aria는 평균 45.7분의 video duration으로 HourVideo에서 39.2를 달성했습니다. 향후 연구를 촉진하기 위해 모든 models와 datasets를 공개할 예정입니다.
1 Introduction: 정리노트 (AI 연구자용)
핵심 문제 (Problem):
- Large Multimodal Models (LMMs), 특히 VideoLLMs가 긴 video (수천 frames)를 이해하는 데 있어 심각한 computational burden 및 비효율성 문제에 직면함.
- 기존 video sampling 방식들 (uniform sampling, FPS sampling)은 visual information 손실 또는 과도한 resource (memory, inference speed) 소모를 야기함.
기존 접근법의 한계 (Limitations of Existing Approaches):
- Uniform Sampling: VideoLLM의 최대 context length에 맞춰 고정 간격으로 sampling하여 중요 visual information 유실.
- FPS (Frame-Per-Second) Sampling: (예: Gemini) 모든 frame (1 FPS)을 포착하려 하나, 긴 video에서 수천 개의 frames를 생성하여 memory 부담 및 inference 속도 저하.
- Language-Guided Frame Sampling (CLIP-based):
- Temporal Relationships 부족: Frame-by-frame matching으로 연속된 frames 간의 시간적 관계 파악 미흡.
- Limited Language Capability: 간결하고 단순한 user queries 처리에 국한됨.
- Insufficient Vision-Language Interaction: Frames와 textual queries를 분리 embedding 후 cosine similarity 계산 방식은 complex multi-hop reasoning에 필요한 충분한 상호작용을 저해함.
제안 방법론: Generative Frame Sampler (GenS)
- 정의: 유연한 user instructions를 통해 question-relevant frames를 retrieve하는 VideoLLM 기반의 plug-and-play module.
- 기반: Advanced long-context VideoLLM (Li et al., 2025)에 구축되어, 기본적인 video-language perception 능력을 상속.
- 주요 특징 및 장점:
- Temporal Relationship 포착: 연속된 frames 간의 시간적 관계 ("immediately after" 등) 효과적 이해.
- Complex Instruction 이해: 내장된 LLMs를 통해 복잡하고 유연한 textual instructions 처리.
- Multi-hop Reasoning 지원: Native multi-modal architecture를 통해 long-range temporal cues와 language semantics를 aligning하여 복잡한 추론 가능.
- 성능 향상: Open-source (Aria) 및 proprietary (GPT-4o) VideoQA Assistants의 performance를 relevant visual frames 선택을 통해 크게 향상 (Aria +13.4점, GPT-4o +13.6점 on long-form video benchmark). 이는 효율적인 video perception이 현대 VideoQA Assistants의 critical bottleneck임을 시사.
GenS 개발을 위한 Challenges 및 해결책:
- Challenge 1: Training Data 부족
- 문제점: 기존 video instruction datasets에는 다양한 videos와 user instructions에 걸쳐 relevant frames에 대한 dense annotations 부재.
- 해결책: GenS-Video150K Dataset 개발
- GPT-4o를 활용한 question-relevant frame annotations를 포함하는 새로운 synthetic VideoQA dataset.
- Annotations 특징:
- Dense: 전체 frames의 20% annotated.
- Fine-grained: 각 relevant frame에 특정 confidence scores (레벨 1-5) 할당.
- Challenge 2: Optimal Generative Format 탐색
- 문제점: Relevant frames sampling을 위한 최적의 generative format 미확립.
- 해결책:
- 다양한 generative formats 탐색.
- Visual frames 앞에 textual labels ("Frame Number [N]")를 직접 추가하는 방식이 sequential frames 구별에 충분함을 발견.
- GenS는 confidence scores와 함께 relevant frame spans를 natural language generation task 형태로 output ({"Frame Nstart-Nend: relevance score", ...}).
주요 기여 (Main Contributions):
- GenS 제안: VideoLLMs를 활용하여 question-aware relevant frames를 식별하는 novel generative frame sampler. VideoQA Assistants를 위한 input frames를 향상시키는 plug-and-play sampler.
- GenS-Video150K Dataset 소개: Fine-grained confidence scores로 relevant frames를 조밀하게 annotates하는 대규모 video instruction dataset.
- 성능 입증: Open-source (Aria-25B, LLaVA-Video-7B/72B) 및 proprietary (GPT-4o, Gemini) VideoQA Assistants의 performance를 현저히 향상.
- LLaVA-Video-72B + GenS: MLVU에서 77.0, LongVideoBench에서 66.8 (SOTA).
- Aria + GenS: HourVideo (평균 45.7분 video)에서 39.2.
향후 계획:
- 모든 models 및 datasets 공개 예정.
쉬운 설명: "1 Introduction" 섹션
긴 동영상을 보고 특정 장면에 대한 질문에 답해야 한다고 상상해 보세요. 동영상 전체를 처음부터 끝까지 다 보거나(너무 느리고 힘들겠죠?), 아니면 대충 건너뛰면서 보면(중요한 장면을 놓칠 수 있겠죠?) 정확한 답을 찾기 어려울 거예요.
AI 모델, 특히 비디오를 이해하는 VideoLLMs도 비슷한 어려움을 겪습니다. 긴 동영상은 AI에게 너무 많은 정보라서 한 번에 처리하기가 벅찹니다. 기존의 AI들은 동영상을 대충 몇 장면만 뽑아보거나(uniform sampling), 아니면 너무 많은 장면을 하나하나 다 보려고 해서(FPS sampling) 비효율적이거나 중요한 내용을 놓치곤 합니다. 어떤 AI는 특정 단어(CLIP-based)로만 장면을 찾으려고 해서 동영상 전체의 시간적인 흐름이나 복잡한 질문의 의도를 잘 파악하지 못했죠.
이 논문에서는 "Generative Frame Sampler" 줄여서 GenS라는 똑똑한 도우미 AI를 만들었습니다. 이 GenS는 마치 우리가 질문을 받으면 동영상에서 "아, 이 질문에 답하려면 이 부분이랑 저 부분을 봐야겠구나!" 하고 필요한 장면만 쏙쏙 골라내는 것처럼 행동합니다.
GenS가 특별한 이유:
- 시간의 흐름을 이해해요: "A 장면 바로 다음에 무슨 일이 있었지?" 같은 질문에도 답할 수 있도록 장면들 사이의 순서나 관계를 잘 파악합니다.
- 복잡한 질문도 잘 알아들어요: 내부에 똑똑한 언어 모델(LLMs)이 있어서 우리가 던지는 복잡하거나 애매한 질문도 잘 이해하고 관련된 장면을 찾아줍니다.
- 종합적으로 판단해요: 단순히 글자랑 그림을 따로 보는 게 아니라, 동영상의 시각 정보와 질문의 의미를 합쳐서 여러 단계를 거쳐야 하는 어려운 질문(multi-hop reasoning)에도 답할 수 있도록 도와줍니다.
GenS를 어떻게 만들었을까요?
- 학습 데이터 만들기 (GenS-Video150K): AI를 학습시키려면 정답지가 필요한데, 기존에는 "이 질문에는 동영상의 이 부분이 중요해!"라고 꼼꼼하게 표시된 데이터가 부족했어요. 그래서 연구팀은 다른 똑똑한 AI(GPT-4o)를 이용해서 15만 개나 되는 동영상-질문 쌍에 대해 중요한 장면들을 표시하고, 얼마나 중요한지 점수까지 매긴 특별한 학습 데이터를 만들었습니다.
- 정보 전달 방식 결정: GenS가 찾아낸 중요한 장면 정보를 다른 AI에게 어떻게 전달할지 고민했어요. 그 결과, "몇 번부터 몇 번 프레임이 중요하고, 중요도는 이 정도야"라고 자연스러운 문장처럼 알려주는 방식을 택했습니다.
결론적으로, 이 GenS를 사용하면 기존의 VideoLLMs가 긴 동영상에 대한 질문에 훨씬 더 정확하고 빠르게 답할 수 있게 됩니다. 마치 똑똑한 조수가 옆에서 핵심 장면만 딱딱 골라주는 것과 같아서, AI가 훨씬 유능해지는 거죠. 실제로 여러 AI 모델에 GenS를 적용했더니 성능이 크게 향상되었고, 몇몇 분야에서는 최고 수준의 결과를 보여주었습니다. 연구팀은 이 GenS 모델과 학습 데이터를 모두 공개해서 다른 연구자들도 활용할 수 있도록 할 예정입니다.
2 Method
우리는 긴 형식의 videos에서 instruction-aware frames를 효과적으로 선택하는 새로운 GenS method를 소개합니다. 불충분한 training data 문제를 해결하기 위해, 먼저 조밀한 relevant frame annotations를 가진 video instruction dataset인 GenS-Video-150K를 구축합니다 (Section 2.1). 그런 다음 VideoLLM 기반 frame retrieval을 위한 효율적인 generative format에 중점을 둔 GenS architecture를 제시합니다 (Section 2.2). 마지막으로, 긴 형식 video perception을 향상시키기 위해 GenS를 기존 VideoQA Assistants와 통합하는 방법을 보여줍니다 (Section 2.3).
2.1 GenS-Video-150K Dataset Collection
우리의 목표는 GenS가 user instructions에 대한 salient frames를 식별할 수 있도록 (video, user instruction, relevant frames) samples를 구성하는 것입니다. Grounded VideoQA 및 event localization을 위한 기존 datasets는 domain 특수성, 단순한 instruction, 그리고 sparse key frame annotations로 인해 제한적이어서, 실제 long-form video understanding에서 견고한 frame samplers를 training하는 데 부적합합니다. 이러한 한계를 해결하기 위해, 우리는 다양한 video topics와 유연한 user instructions에 걸쳐 두 가지 주요 특징을 가진 GenS-Video-150K를 소개합니다: 1) 약 20%의 frames가 relevant로 표시된 dense frame relevance annotations, 그리고 2) 각 relevant frame에 특정 confidence scores (1-5)가 할당된 fine-grained scoring.
GPT-4o와 같은 강력한 proprietary LMMs조차도 긴 videos에서 수천 개의 frames를 직접 processing할 때 만족스러운 retrieval performance를 달성하는 데 어려움을 겪는다는 것을 관찰했습니다 (Table 3에서 검증됨). 높은 dataset quality를 보장하기 위해, 우리는 GPT-4o를 활용하여 신중하게 설계된 4단계 pipeline으로 synthetic data 생성을 분해합니다. 모든 prompts는 Appendix A.2에 제공됩니다.
Stage 1: Dense Video Frame Captioning. 먼저 YouTube 1의 광범위한 주제를 포괄하는 YTTemporal-1B에서 다양한 videos 모음을 선별합니다. 이전 연구에서 영감을 받아, 이전 frames와 새로운 visual content를 구별하는 데 중점을 두고 dense sampling rate (0.2 fps)로 각 frame에 대한 차등적인 단락 captions를 생성합니다. 이 dense frame captioning 접근 방식은 video instruction dataset 구축에서 예비 단계로 널리 채택되었습니다.
Stage 2: Construct Video QAs with Grounded Frames. 이 단계에서는 dense frame captions를 기반으로 grounded frames를 사용하여 12가지 유형의 video question-answer (QA) pairs를 생성합니다. 구체적으로, GPT-4o에 매 50개의 연속적인 frame captions를 분석하고 할당된 유형의 QA pairs를 생성하도록 prompt합니다. QA generation 중에 참조된 Frames는 grounded frames로 표시됩니다 (Appendix A.2에 자세히 설명됨). 견고한 generalization을 보장하기 위해, generative questions와 multiple-choice questions 간에 균형 잡힌 분포(각각 50%)를 유지합니다. Multiple-choice questions의 경우, user question과 함께 후보 옵션을 통합하여 retrieval query를 보강합니다. 또한 관련 없는 queries에 대한 model robustness를 향상시키기 위해 전략적으로 1%의 negative samples (relevant frames가 없는 questions)를 포함합니다.
Stage 3: Extend Relevant Frames. Stage 2에서 얻은 엄격하게 grounded된 frames를 넘어 relevant frames의 집합을 확장합니다. GPT-4o는 일반적으로 VideoQA generation 중에 적은 수의 frames만 참조하므로 낮은 retrieval ratio 를 초래합니다. 여기서 는 grounded frames의 수를 나타내고 은 caption된 총 frames 수를 나타냅니다. 이렇게 작은 로 training하면 GenS가 long-context video understanding을 위한 포괄적인 frame coverage를 제공하는 능력이 제한됩니다. 따라서 CLIP-based retrieval을 사용하여 를 약 5%에서 30%로 증가시켜 candidate relevant frames를 추가합니다.
Stage 4: Score Fine-grained Relevant Confidence. 마지막으로, video와 user question이 주어졌을 때 모든 candidate relevant frames 사이의 relevance를 점수화합니다 (0에서 5까지, 0은 non-relevant이고 5는 가장 relevant함). 이 단계는 전체 video의 global view에서 relevant frames를 정확하게 정제합니다. 더욱이, confidence score duration inference에 의한 top-K retrieval을 가능하게 하기 위해 multi-level relevances를 구별하기 위한 fine-grained supervision을 제공합니다.
Data Statistics. 우리는 4단계 pipeline에서 150K data samples를 수집합니다. 각 video의 평균 duration은 647.5초이며, 129.5개의 captioned frames를 가집니다. 이 frames 중 평균 20%가 fine-grained confidence scores로 relevant하다고 annotated되어 dense supervision을 제공합니다.
2.2 GenS Architecture
우리는 state-of-the-art Aria model을 기반으로 GenS architecture를 설계했으며, 이는 세 가지 주요 이점을 제공합니다: 1) Native multimodal model로서 Aria는 interleaved video-language contexts를 이해하는 데 뛰어난 능력을 보여주어 textual indexing으로 relevant frames를 효과적으로 식별할 수 있게 합니다. 2) 최대 256 input frames를 지원하는 context window를 통해 Aria의 architecture는 다양한 user instructions에 암시된 temporal relationships를 modeling하는 데 탁월합니다. 3) 3.9B activated parameters를 가진 Mixture-of-Experts (MoE) architecture를 통해 Aria는 기존 7B-parameter VideoLLMs에 비해 inference efficiency와 multimodal performance 간의 최적의 균형을 이룹니다.
2.2.1 Efficient Frame Indexing
Interleaved visual-textual representations를 encoding하는 Aria의 고급 기능을 활용하여, 각 frame 앞에 [N-th Frame]을 나타내는 textual number [N]을 추가함으로써 효율적인 frame indexing mechanism을 구현합니다. 이를 통해 GenS는 temporal positions를 기반으로 relevant frames를 고유하게 식별하고 retrieve할 수 있습니다.
Output representation의 경우, GenS가 frame relevance predictions를 language modeling task로 생성하는 Gemini 및 GPT-4o와 같은 proprietary video assistants와 유사한 JSON 기반 형식을 채택합니다. Output schema는 retrieval context에 따라 discrete frame annotations (예: {"frame number": relevance score})와 continuous temporal spans (예: {"start frame - end frame": relevance score})를 모두 유연하게 수용합니다. Section 3.5의 실험에서는 retrieve된 frames를 relevance scores로 구성하는 것이 temporal ordering에 비해 더 나은 performance를 산출함을 보여줍니다.
2.2.2 Adaptation for Various Input FPS
GenS는 기존 VideoQA Assistants와 원활하게 통합되는 plug-and-play frame sampling module로 설계되었습니다. Downstream VideoQA models에 걸쳐 다양한 candidate frame number와 sampling densities를 처리하기 위해, dense (high FPS) 및 sparse (fixed-interval) frame sampling patterns를 모두 지원하는 유연한 frame retrieval mechanism을 구현합니다. 구체적으로, 각 retrieval temporal window 내에서 candidate frame indices를 1-256의 통합된 범위로 normalize하여 원래 frame sampling rate에 관계없이 견고한 retrieval performance를 보장합니다.
2.3 Training and Inference Paradigm
Training data diversity를 향상시키기 위해 GenS-Video-150K와 기존 human-annotated event-level video datasets, 특히 E.T. Instruct dataset 모두에서 GenS를 train합니다. 그러나 E.T. Instruct data를 직접 혼합하면 sparse grounded frame annotations로 인해 GenS의 performance가 저하됩니다. 따라서 E.T. Instruct dataset을 통합하고 후처리하여 frame sampling task와 더 잘 정렬되도록 합니다 (자세한 내용은 Section 3.1 참조).
Inference 동안 GenS는 임의의 frame rates로 videos를 processing하여 각 temporal window (최대 256 frames) 내에서 confidence scores와 함께 instruction-relevant frames를 retrieve합니다. 여러 temporal windows에 걸친 retrieval은 효율적인 processing을 위해 병렬화될 수 있습니다. Output relevant frames는 confidence scores에 따라 자연스럽게 정렬되며, relevant frames의 수 는 특정 question과 video content에 따라 달라집니다. VideoQA model에 입력하기 위해 top K frames를 선택하며, 여기서 이고, 는 VideoQA model의 maximum context length입니다.
2 Method: 정리노트 (AI 연구자용)
핵심 목표: Long-form video에서 user instruction에 부합하는 frames를 효과적으로 선택하는 GenS (Generative Frame Sampler) 방법론 제시. 이를 위해 (1) 대규모 instruction dataset (GenS-Video-150K) 구축, (2) GenS architecture 설계, (3) 기존 VideoQA Assistants와의 통합 방안을 설명.
2.1 GenS-Video-150K Dataset Collection
- 목표: GenS training을 위한 (video, user instruction, relevant frames) sample triplets 구성.
- 필요성: 기존 grounded VideoQA 및 event localization datasets는 domain 특수성, 단순한 instruction, sparse key frame annotations로 인해, 다양하고 현실적인 long-form video understanding을 위한 robust frame sampler training에 부적합.
- GenS-Video-150K 주요 특징:
- 다양한 video topics 및 유연한 user instructions 포괄.
- Dense Frame Relevance Annotations: 전체 frames의 약 20%를 relevant로 annotate.
- Fine-grained Scoring: 각 relevant frame에 1-5점 범위의 specific confidence scores 할당.
- Dataset 구축 Pipeline (GPT-4o 활용 4단계): GPT-4o가 수천 frames의 long video 직접 처리에 어려움이 있어, 정교한 pipeline 설계.
- Stage 1: Dense Video Frame Captioning: YTTemporal-1B video 대상, 이전 frame과 구별되는 new visual content 중심으로 0.2 fps로 dense하게 differential paragraph captions 생성.
- Stage 2: Construct Video QAs with Grounded Frames: 매 50개 연속 frame captions 기반, 12가지 유형의 QA pairs 생성 (generative 50%, multiple-choice 50% 균형). QA 생성 시 참조된 frames를 grounded frames로 마킹. Model robustness 위해 1% negative samples (relevant frames 없는 questions) 포함.
- Stage 3: Extend Relevant Frames: 초기 grounded frames만으로는 retrieval ratio ()가 낮음 (약 5%). 이를 개선하기 위해 CLIP-based retrieval을 사용, candidate relevant frames를 추가하여 를 약 30%까지 확장.
- Stage 4: Score Fine-grained Relevant Confidence: 전체 video의 global view에서 모든 candidate relevant frames의 relevance를 0-5점으로 scoring. 이를 통해 fine-grained supervision 및 confidence score 기반 top-K retrieval 가능.
- Data Statistics: 총 150K samples. Video 평균 길이 647.5초, video당 평균 129.5 captioned frames. 이 중 평균 20% frames가 relevant로 annotated (dense supervision).
2.2 GenS Architecture
- 기반 Model: State-of-the-art Aria model 활용.
- Aria Model 장점 활용:
- Native multimodal model로서 interleaved video-language contexts 이해 능력 우수 (textual indexing에 유리).
- 최대 256 input frames의 context window로 다양한 user instructions 내 temporal relationships modeling에 적합.
- MoE architecture (3.9B activated parameters)로 inference efficiency와 multimodal performance 간 균형.
- 2.2.1 Efficient Frame Indexing:
- Indexing 방식: 각 frame 앞에 [N-th Frame]을 의미하는 textual number [N]을 추가하여 temporal position 기반 unique identification 및 retrieval.
- Output Representation: JSON 기반 (Gemini, GPT-4o 유사). Frame relevance predictions를 language modeling task로 생성. Discrete frames ({"frame number": relevance score}) 및 continuous temporal spans ({"start frame - end frame": relevance score}) 모두 지원.
- 주요 실험 결과: Retrieved frames를 relevance score로 정렬하는 것이 temporal 순서보다 performance 우수.
- 2.2.2 Adaptation for Various Input FPS:
- Plug-and-play frame sampling module로 설계.
- Downstream VideoQA models의 다양한 candidate frame number 및 sampling density (dense/high FPS, sparse/fixed-interval) 처리를 위한 flexible frame retrieval mechanism.
- Candidate frame indices를 각 retrieval temporal window 내 1-256 범위로 normalize.
2.3 Training and Inference Paradigm
- Training Data: 자체 구축한 GenS-Video-150K와 기존 human-annotated event-level video dataset인 E.T. Instruct dataset을 함께 사용 (training data diversity 향상).
- E.T. Instruct dataset은 sparse grounded frame annotations 문제로 인해 GenS의 frame sampling task에 맞게 post-processing 후 통합.
- Inference:
- 임의의 frame rates로 video processing.
- 각 temporal window (최대 256 frames) 내에서 instruction-relevant frames와 confidence scores retrieve.
- 여러 temporal windows에 대한 retrieval 병렬 처리 가능.
- Output relevant frames는 confidence scores 기준 정렬.
- VideoQA model 입력으로 top K frames 선택: (: retrieved relevant frames 수, : VideoQA model의 max context length).
쉬운 설명: "2 Method" 섹션
이 섹션에서는 똑똑한 동영상 장면 찾기 도구인 GenS를 어떻게 만들었는지 그 방법과 과정을 자세히 설명하고 있어요. 마치 특별한 요리 레시피와 거기에 사용된 도구들을 알려주는 것과 같아요.
1단계: GenS를 위한 맞춤형 "교과서" 만들기 (GenS-Video-150K Dataset)
- 문제점: GenS가 똑똑해지려면 공부할 자료(dataset)가 필요한데, 기존의 자료들은 특정 종류의 동영상이나 질문에만 치우쳐 있거나, 중요한 장면 표시가 너무 적어서 GenS를 제대로 가르치기 어려웠어요.
- 해결책: 그래서 연구팀은 GenS만을 위한 특별한 "교과서"를 직접 만들기로 했어요! 이때 GPT-4o라는 다른 똑똑한 AI의 도움을 받았죠.
- 꼼꼼한 장면 설명 만들기 (Dense Video Frame Captioning): 먼저 GPT-4o에게 수많은 유튜브 동영상들을 보여주고, 동영상의 거의 모든 장면에 대해 (약 5초마다) 이전 장면과 어떤 점이 다른지를 중심으로 아주 자세한 설명(caption)을 만들게 했어요.
- 질문과 정답 세트 만들기 (Construct Video QAs with Grounded Frames): 이 자세한 장면 설명을 바탕으로, GPT-4o는 동영상에 대한 다양한 종류의 질문과 그 답이 되는 장면들을 연결하는 세트를 만들었어요. (예: "이 장면 다음에 무슨 일이 일어났나요?" - "답: 이 장면들을 보세요.") 가끔은 일부러 답이 없는 짓궂은 질문도 섞어서 GenS가 그런 상황에도 잘 대처하도록 했죠.
- 관련 장면 더 찾아내기 (Extend Relevant Frames): 처음 GPT-4o가 찾아낸 장면들만으로는 부족할 수 있어서, CLIP이라는 또 다른 도구를 사용해서 질문과 관련된 장면들을 더 많이 찾아냈어요. "이 장면도 답을 찾는 데 도움이 될 수 있겠는데?" 하고 후보들을 더 모은 거죠.
- 장면마다 중요도 점수 매기기 (Score Fine-grained Relevant Confidence): 마지막으로, GPT-4o가 찾아낸 모든 후보 장면들을 다시 한번 보면서, 각 질문에 대해 각각의 장면이 얼마나 중요한지를 0점부터 5점까지 점수를 매겼어요. 마치 별점처럼요!
- 결과물: 이렇게 해서 동영상, 질문, 그리고 그 질문에 답하기 위해 중요한 장면들과 각 장면의 중요도 점수가 짝지어진 15만 개의 학습 예제가 담긴 방대한 "교과서"가 만들어졌어요. 평균적으로 동영상 한 편(의 클립)에서 약 20% 정도의 장면이 중요하다고 표시되었죠.
2단계: GenS 똑똑이(Architecture) 설계하기
- 기본 뼈대: GenS는 Aria라는 기존의 성능 좋은 AI model을 바탕으로 만들어졌어요. Aria는 동영상과 글을 함께 잘 이해하고, 한 번에 많은 장면을 볼 수 있으며, 효율적으로 작동하는 장점이 있거든요.
- GenS가 장면을 찾는 방법 (Efficient Frame Indexing): 각 장면에 "1번 장면", "2번 장면"처럼 번호표를 붙여서 GenS가 이 번호들을 보고 특정 장면을 찾아낼 수 있게 했어요. GenS는 이 장면 번호(또는 구간)와 함께 앞에서 매긴 중요도 점수를 함께 알려줍니다.
- 정보 전달 방식 (Output Representation): GenS는 다른 AI(VideoQA Assistant)에게 "10번부터 15번 장면이 별 5개짜리 중요도야!" 와 같이 미리 약속된 형식(JSON)으로 정보를 전달해요. 당연히 가장 중요하다고 생각되는 장면부터 알려주고요.
- 다양한 환경 적응 (Adaptation for Various Input FPS): GenS는 나중에 함께 일할 VideoQA Assistant가 동영상 장면을 아주 촘촘하게 보든(high FPS), 듬성듬성 보든(low FPS) 상관없이 잘 작동할 수 있도록 유연하게 설계되었어요.
3단계: GenS 가르치고 실제로 사용하기 (Training and Inference)
- 가르치기 (Training): GenS는 위에서 만든 맞춤형 "교과서"(GenS-Video-150K)와 사람들이 직접 중요한 부분을 표시해둔 기존 학습 자료(E.T. Instruct dataset, 약간 수정해서 사용)를 보면서 열심히 공부했어요.
- 사용하기 (Inference):
- 사용자가 긴 동영상과 질문을 GenS에게 주면, GenS는 동영상을 적당한 길이로 나눠서 봐요 (한 번에 최대 256장면).
- 각 부분마다 질문과 관련된 중요한 장면들을 쏙쏙 골라내고 중요도 점수를 매겨요. 이 작업은 여러 부분을 동시에 처리해서 빠르게 진행될 수 있어요.
- 마지막으로, GenS는 이렇게 찾아낸 중요한 장면들을 점수가 높은 순서대로 정리해서 최종적으로 질문에 답할 VideoQA Assistant에게 전달해줘요. 이때 VideoQA Assistant가 한 번에 처리할 수 있는 만큼만 장면을 골라서 넘겨주는 센스도 발휘한답니다!
GPT를 통해 만든 데이터 셋으로 GenS를 학습해서 적절한 프레임을 잘 보게 학습을 하고, 그걸 가지고
VQA 모델에게 전달
