Benchmark : 논문리뷰 : MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

논문리뷰

Benchmark : 논문리뷰 : MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

AI바라기 2025. 6. 25. 16:31

용어 설명 (Glossary)

MVBench (Multi-modal Video understanding Benchmark): 이 논문에서 제안하는 새로운 비디오 이해도 평가 벤치마크. 정적(static) 이미지 기반 평가의 한계를 넘어, 동적(dynamic) 비디오의 시간적(temporal) 이해 능력을 포괄적으로 측정하는 데 초점을 맞춤.
VideoChat2: 논문에서 제안하는 새로운 SOTA(state-of-the-art) video MLLM (Multi-modal Large Language Model). MVBench에서 기존 모델 대비 월등한 성능을 보이며, temporal understanding 능력의 새로운 기준을 제시.
Static-to-Dynamic Method: 이 논문의 핵심 아이디어. 기존의 정적인 이미지 태스크를 동적인 비디오 태스크로 체계적으로 변환하는 방법론. 예를 들어, '객체의 위치(position)'를 묻는 정적 질문을 '객체의 이동 방향(moving direction)'을 묻는 동적 질문으로 확장하는 방식.
Temporal Understanding: 시간의 흐름에 따른 변화, 이벤트 순서, 행동 예측 등 비디오 전체의 맥락을 파악하는 능력. 단일 프레임의 공간적(spatial) 정보만으로는 파악하기 힘든 동적인 정보를 포함.
Progressive Multi-modal Training: VideoChat2를 학습시키는 3단계의 점진적 학습 전략.
1. Vision-Language Alignment: Visual encoder와 QFormer를 정렬하여 시각 정보를 효율적으로 압축.
2. Vision-Language Connection: 정렬된 visual module을 LLM에 연결.
3. Instruction Tuning: 대규모의 다양한 instruction-tuning 데이터셋을 사용하여 모델의 지시 수행 능력을 극대화.

Purpose of the Paper

기존 MLLM 평가는 대부분 정적인 이미지(static image)에 집중되어 있어, 모델의 공간적(spatial) 이해 능력을 주로 측정했습니다. 이는 시간의 흐름에 따른 변화와 인과관계를 이해해야 하는 **동적인 비디오(dynamic video)**의 시간적(temporal) 이해 능력을 평가하는 데 명백한 한계를 가집니다.

이 논문은 이러한 한계를 극복하기 위해 다음 두 가지를 목표로 합니다:

새로운 문제 정의 및 평가 기준 제시: 'Static-to-Dynamic'이라는 새로운 방법론을 통해, 기존에 없던 20개의 체계적인 temporal understanding 태스크로 구성된 MVBench를 제안합니다. 이를 통해 비디오 MLLM의 능력을 보다 깊이 있고 포괄적으로 평가하고자 합니다.
새로운 SOTA 모델 제안: MVBench를 통해 기존 모델들의 temporal understanding 능력 부족을 입증하고, 이를 해결하기 위한 강력한 baseline 모델인 VideoChat2를 개발하여 향후 연구 방향을 제시합니다.

Key Contributions

Contribution 1: MVBench, a novel temporal understanding benchmark
- Novelty: 'Static-to-Dynamic' 방법론을 최초로 도입하여, 'Action Sequence', 'Moving Direction', 'State Change' 등 20개의 체계적인 temporal task를 정의했습니다. 이는 기존 이미지 벤치마크를 단순히 비디오로 확장한 것이 아니라, 시간적 추론 능력을 직접적으로 겨냥한 새로운 평가 패러다임입니다.
Contribution 2: An automatic and fair QA generation pipeline
- Novelty: 11개의 공개 비디오 데이터셋의 annotation을 활용하여, 사람의 개입 없이 자동으로 multiple-choice QA를 생성하는 파이프라인을 구축했습니다. 이는昂贵的 수동 annotation 비용을 제거하고, LLM을 이용한 주관적 채점 방식에서 발생하는 bias를 원천 차단하여 평가의 공정성과 신뢰도를 보장합니다.
Contribution 3: VideoChat2, a new SOTA video MLLM
- Novelty: Progressive multi-modal training 전략과 이미지/비디오를 모두 포함하는 200만 개의 방대한 instruction-tuning 데이터를 활용하여 모델을 학습시켰습니다. 이는 기존 video MLLM들이 비디오 데이터에만 의존하던 것과 달리, 더 넓은 범위의 시각적 개념을 학습하여 뛰어난 성능을 달성하게 했습니다.

Experimental Highlights

기존 MLLM의 명백한 한계 증명:
- VideoChat2 (Mistral-7B)는 MVBench에서 평균 60.4%의 정확도를 달성했습니다.
- 이는 이전 SOTA video MLLM인 VideoChat (35.5%) 및 강력한 closed-source 모델인 **GPT-4V (43.5%)**를 15-25%p 이상 압도하는 수치입니다. 이 큰 격차는 기존 모델들이 temporal understanding에 매우 취약함을 명확히 보여줍니다.
- 흥미롭게도, 비디오 없이 텍스트 프롬프트만으로 추론하는 VideoChat2_text 모델이 34.7%를 기록했는데, 이는 일부 태스크는 텍스트만으로도 추측이 가능함을 시사하며 벤치마크의 난이도와 공정성을 뒷받침합니다.
뛰어난 일반화(Generalization) 성능:
- VideoChat2는 MVBench뿐만 아니라, 기존의 Zero-shot Video QA 벤치마크(MSRVTT-QA, ActivityNet-QA 등)와 Video Conversation 벤치마크에서도 기존 SOTA 성능을 경신했습니다. 이는 VideoChat2가 특정 벤치마크에만 과적합된 것이 아니라, 범용적인 비디오 이해 능력을 갖추었음을 의미합니다.

Limitations and Future Work

Limitation 1: 위치(Position), 개수(Count), 순서(Character Order) 등 정밀한 grounding 능력 부족
- 원인 분석: 현재 모델은 정확한 객체 위치나 개수를 파악하는 데 필요한 명시적인 grounding 데이터로 학습되지 않았습니다.
- Future Work: 객체의 위치 좌표나 bounding box 같은 grounding 정보를 포함하는 데이터셋을 instruction tuning에 추가하여, 모델의 정밀한 localization 및 counting 능력을 향상시키는 연구가 필요합니다.
Limitation 2: 복잡한 인지(Cognition) 추론 능력의 한계
- 원인 분석: 'Episodic Reasoning'이나 'Egocentric Navigation'과 같은 복잡한 추론은 시각 정보만으로는 불충분할 수 있습니다.
- Future Work: TVQA 벤치마크에서 자막(subtitle) 정보가 성능에 큰 영향을 미치는 것처럼, 시각 정보 외에 오디오(audio), 깊이(depth) 등 다른 modality를 함께 활용하여 보다 풍부한 문맥을 모델에 제공하는 multi-modal fusion 연구가 필요합니다.

Overall Summary

이 논문은 기존 MLLM 평가가 정적 이미지의 공간 이해에 머물러 있다는 문제점을 지적하며, 비디오의 시간적 이해 능력을 체계적으로 측정하는 새로운 벤치마크 MVBench를 제안합니다. 'Static-to-Dynamic'이라는 독창적인 방법으로 20개의 temporal task를 정의하고, 공정한 자동 QA 생성 파이프라인을 구축했습니다. 또한, MVBench에서 기존 모델들을 압도하는 SOTA 모델 VideoChat2를 개발하여, 현재 MLLM들의 temporal reasoning 능력의 한계를 명확히 보여주고 향후 연구의 새로운 기준을 제시했다는 점에서 중요한 의의를 가집니다.

쉬운 설명 (Easy Explanation)

기존의 MLLM 평가는 "사진 한 장을 보고 '이 사람은 어디에 있나요?'"라고 묻는 것과 같았습니다. 이는 한순간의 **상태(spatial)**만 파악하면 됩니다.

하지만 이 논문의 MVBench는 "영상을 처음부터 끝까지 보고 '이 사람은 어디로 움직였나요?'"라고 묻는 것과 같습니다. 이는 시간의 흐름에 따른 **변화(temporal)**를 이해해야만 풀 수 있는 훨씬 더 어려운 문제입니다.

결론적으로, 이 논문은 MLLM을 위한 훨씬 더 어려운 '영상 수능 시험지(MVBench)'를 독창적인 방식으로 만들었고, 이 시험에서 압도적인 1등을 차지한 '모범생 모델(VideoChat2)'을 함께 선보인 연구라고 할 수 있습니다.

Abstract

Multi-modal Large Language Models (MLLMs)의 급속한 발전과 함께, 최근 이러한 models의 이해 능력을 평가하기 위한 여러 진단용 benchmarks가 등장했습니다. 그러나 대부분의 benchmarks는 주로 static image tasks에서의 spatial understanding을 평가하며, dynamic video tasks에서의 temporal understanding은 간과하고 있습니다. 이 문제를 완화하기 위해, 우리는 single frame으로는 효과적으로 해결할 수 없는 20개의 도전적인 video tasks를 포함하는 포괄적인 Multi-modal Video understanding Benchmark, 즉 MVBench를 소개합니다.

구체적으로, 우리는 이러한 temporal-related tasks를 정의하기 위해 새로운 static-to-dynamic 방법을 먼저 소개합니다. 다양한 static tasks를 dynamic한 tasks로 변환함으로써, 우리는 perception에서 cognition에 이르는 광범위한 temporal 기술을 요구하는 video tasks의 체계적인 generation을 가능하게 합니다. 그런 다음, task 정의에 따라 공개 video annotations을 각 task를 평가하기 위한 multiple-choice QA로 자동 변환합니다. 한편으로, 이러한 독특한 paradigm은 많은 수동 개입 없이 MVBench를 효율적으로 구축할 수 있게 해줍니다. 다른 한편으로는, ground-truth video annotations를 통해 평가의 공정성을 보장하며, LLMs의 편향된 점수 부여를 방지합니다.

더 나아가, 우리는 다양한 instruction-tuning data를 사용한 progressive multi-modal training을 통해 robust한 video MLLM baseline인 VideoChat2를 개발합니다. 우리의 MVBench에 대한 광범위한 결과는 기존 MLLMs가 temporal understanding에서 만족스럽지 못한 수준이며, 우리의 VideoChat2는 MVBench에서 이들 주요 models을 15% 이상 크게 능가한다는 것을 보여줍니다. 모든 models와 data는 https: //github.com/OpenGVLab/Ask-Anything에서 확인할 수 있습니다.

1. Introduction

Multi-modal Large Language Models (MLLMs)는 지난 몇 년간 다양한 pretrained LLMs 내에 visual encoders를 연결함으로써 vision-language learning의 발전을 점차 이끌어왔습니다. 이러한 빠른 발전과 함께 자연스러운 질문이 생깁니다: 우리는 이러한 MLLMs의 comprehension capabilities를 어떻게 평가할 수 있을까요? 이러한 평가는 그들의 설계 효율성을 확인하고 open-world multi-modalities에 대한 더 넓은 이해를 위해 models을 더욱 개선하는 데 필수적입니다. 이러한 요구에 부응하여, 다양한 perception tasks의 Question Answering (QA) 형식으로 MLLMs를 평가하는 여러 benchmarks가 출시되었습니다. 그러나 이러한 benchmarks의 대부분은 주로 image-based understanding에 집중하며, 모든 질문은 그림 1에서 보여주듯이 "무대 위에 남자가 있습니까?"와 같은 static images에서의 spatial perception을 위해 설계되었습니다. 따라서, 현실 세계의 procedural activities를 이해하는 데 중요한 dynamic videos에서의 temporal evolution을 평가하는 데 어려움을 겪습니다. 최근 몇몇 시도들이 videos에서의 temporal perception에 대해 MLLMs를 평가하려고 했습니다. 하지만 이는 매우 기본적인 video tasks(예: SEED-Bench에서의 action recognition 및 prediction)에 대해서만 작동하거나, 특정 domains(예: FunQA에서의 surprising comprehension) 및 제한된 scenes(예: Perception Test에서의 indoor scenes)에 초점을 맞춥니다. 결과적으로, MLLMs의 temporal understanding skills에 대한 포괄적인 평가를 위해 이러한 benchmarks를 활용하는 데는 한계가 있습니다. 게다가, 이는 labor-intensive annotations로 수집되어 많은 비용이 드는 수동 개입을 초래합니다. 이러한 문제들을 해결하기 위해, 우리는 open world에서 MLLMs의 temporal perception capabilities를 포괄적으로 평가하는 것을 목표로 하는 Multi-modal Video understanding Benchmark (MVBench)를 제안합니다. 위에서 언급된 기존 benchmarks와 비교하여, 우리의 MVBench에는 두 가지 독특한 설계가 있습니다.

첫째, 우리는 dynamic evolution을 통해 static image tasks를 조정함으로써 temporal-related tasks를 체계적으로 정의하는 새로운 static-to-dynamic method를 소개합니다. 이는 MVBench에서 perception에서 cognition에 이르는 광범위한 temporal understanding skills를 포괄하는 20개의 도전적인 video understanding tasks로 이어집니다. 구체적으로, 우리는 이전 multi-modal benchmarks의 static image tasks를 정의 참조로 사용합니다. 그런 다음, 우리는 video의 temporal context를 사용하여 이러한 static tasks의 질문을 확장합니다. 예를 들어, 그림 1에서 image의 position task는 video의 moving-direction task로 유연하게 변환될 수 있습니다 ("무대 위에 남자가 있습니까?" → "남자가 어느 방향으로 움직이고 있습니까?"). 이 경우, 우리는 전체 video에 대한 reasoning 없이는 해결할 수 없는 이러한 모든 static tasks를 해당하는 dynamic tasks로 효과적으로 변환할 수 있습니다.

둘째, task 정의에 따라 LLMs를 사용하여 11개의 공개 video benchmarks를 변환함으로써 각 task에 대한 multiple-choice QAs를 생성하는 automatic annotation paradigm을 설계합니다. 한편으로, 이는 비용이 많이 드는 human annotations의 비용을 크게 줄일 수 있습니다. 다른 한편으로, 이 11개의 benchmarks는 first-person에서 third-person 시점까지, 그리고 indoor에서 outdoor 환경에 이르기까지 다양한 복잡한 domains와 다양한 scenes를 다룹니다. 따라서, 우리의 MVBench는 open-world temporal understanding에 대한 MLLMs의 general capability를 평가하는 데 선호되는 선택지입니다. 더 중요한 것은, 이 benchmarks가 MVBench에 대한 ground truth를 제공하여 evaluation fairness와 accuracy를 보장하고, LLMs의 biased scoring을 피할 수 있다는 점입니다.

마지막으로, 우리는 MVBench에서 다양한 잘 알려진 MLLMs에 대한 철저한 평가를 수행합니다. 놀랍게도, 이러한 state-of-the-art image 및 video MLLMs는 temporal perception과 cognition 측면에서 만족스럽지 못한 수준입니다. 이는 강력한 vision foundation model과 LLM을 연결하여 강력한 video MLLM baseline인 VideoChat2를 개발하도록 더욱 동기를 부여합니다. 그 후, 우리는 광범위한 multi-modal instructions을 갖춘 progressive training paradigm을 도입하여 video와 language 간의 효과적인 alignment를 가능하게 합니다. 평가 결과, 우리의 VideoChat2는 MVBench에서 최고 성능의 VideoChat을 accuracy 면에서 15% 이상 크게 능가하며, video conversation 및 zero-shot QA benchmarks에서도 새로운 state-of-the-art 결과를 달성합니다. general video understanding의 길을 열기 위해 모든 models와 data는 공개적으로 이용 가능합니다.

Introduction 정리 노트 (for AI Researchers)

1. 문제 제기 (Problem)

기존 Multi-modal Large Language Models (MLLMs) benchmarks는 대부분 static images에서의 spatial understanding 평가에 치중되어 있음.
Dynamic videos에서의 temporal understanding (시간적 이해) 능력을 포괄적으로 측정할 benchmark가 부재함.
기존 video benchmarks는 action recognition 같은 기초적인 tasks에 한정되거나, 특정 domain 또는 제한된 scene에 국한되어 MLLMs의 일반적인 temporal understanding skills를 평가하기에 한계가 명확함. 또한, labor-intensive annotations 문제로 비용과 시간이 많이 소요됨.

2. 제안 방법 (Proposed Solution): MVBench

Open-world 환경에서 MLLMs의 temporal perception capabilities를 종합적으로 평가하기 위한 새로운 Multi-modal Video understanding Benchmark (MVBench)를 제안.

3. MVBench의 핵심 특징 (Key Contributions)

Novel Task Definition (static-to-dynamic):
- 이 논문만의 핵심 idea. 기존 static image tasks에 temporal context를 추가하여 dynamic video tasks로 체계적으로 변환하는 static-to-dynamic 방법을 제안.
- 예: "남자가 무대에 있는가?" (position task in image) → "남자가 어느 방향으로 움직이는가?" (moving-direction task in video).
- 이 방법을 통해, 단순 frame 인지를 넘어 video 전체에 대한 reasoning이 반드시 필요한 20개의 도전적인 video understanding tasks를 정의함.
Automatic & Fair Annotation Paradigm:
- 비용이 많이 드는 human annotation을 배제. 대신 11개의 공개 video benchmarks data를 LLMs를 이용해 multiple-choice QA 형식으로 자동 변환하는 paradigm을 설계.
- 이를 통해 효율적으로 benchmark를 구축하고, ground-truth에 기반하므로 LLM을 평가자로 사용할 때 발생하는 biased scoring 문제 없이 평가의 공정성(fairness)과 정확성(accuracy)을 보장함.

4. 실험 및 결과 (Evaluation & Results)

MVBench를 통해 기존 SOTA image/video MLLMs를 평가한 결과, temporal perception 및 cognition 능력에서 상당히 미흡함을 발견.
이러한 한계를 극복하기 위해 강력한 vision foundation model과 LLM을 결합하고 progressive training을 적용한 video MLLM baseline인 VideoChat2를 개발.
VideoChat2는 MVBench에서 기존 최고 성능 model인 VideoChat보다 accuracy를 15% 이상 능가했으며, 다른 video conversation 및 zero-shot QA benchmarks에서도 SOTA를 달성.

쉬운 설명 :

AI의 이해력을 시험하는 방법이 대부분 사진을 보여주고 "이 사진에 뭐가 있어?"라고 묻는 수준에 머물러 있었습니다. 이는 AI가 static한 image 속에서 공간을 얼마나 잘 이해하는지(spatial understanding)는 알 수 있지만, 동영상을 보여주고 "무슨 일이 벌어지고 있어?"라고 묻는 것과는 다릅니다. 동영상 속에서 시간의 흐름에 따라 상황이 어떻게 변하는지를 이해하는 능력(temporal understanding)은 완전히 다른 차원의 능력입니다.

이 논문은 바로 이 temporal understanding 능력을 제대로 평가할 똑똑한 시험지(benchmark)가 없다는 문제점에서 출발합니다.

그래서 연구자들은 MVBench라는 새로운 AI용 동영상 이해력 시험지를 만들었습니다. 이 시험지의 핵심 아이디어는 두 가지입니다.

새로운 문제 출제 방식 (static-to-dynamic): 기존의 단순한 사진 기반 질문을 동영상용 질문으로 업그레이드했습니다. 예를 들어, "사진 속에 자동차가 어디에 있어?"라는 질문을 "영상 속에서 자동차가 어느 방향으로 움직이고 있어?"라는 질문으로 바꾸는 식입니다. 이렇게 하니, AI가 단순히 동영상의 한 장면만 봐서는 절대 풀 수 없고, 영상 전체의 흐름을 reasoning해야만 풀 수 있는 수준 높은 문제들이 만들어졌습니다.
자동 채점 시스템 구축: 이 많은 문제에 대한 정답지를 사람이 일일이 만들면 시간과 돈이 너무 많이 듭니다. 그래서 기존에 공개된 11개의 video datasets(정답이 이미 있는 데이터)를 가져와, 다른 AI(LLM)를 시켜 객관식 문제(multiple-choice QA) 형식으로 자동 변환하게 했습니다. 이는 매우 효율적이고, ground-truth를 기반으로 하므로 평가가 편향될 위험도 없습니다.

결론적으로, 이 새로운 시험지(MVBench)로 기존의 잘나가는 AI들을 테스트해보니 temporal understanding 점수가 형편없다는 것이 드러났습니다. 그래서 연구팀은 이 시험을 아주 잘 푸는 VideoChat2라는 새로운 AI model까지 개발해서 "이렇게 만들어야 한다"는 baseline을 제시했습니다.

2. Related Works

MLLM. Large Language Models (LLMs)의 상당한 성과를 바탕으로, 학술적 관심은 multi-modal understanding 및 generation capabilities를 증강시키기 위해 Multi-modal Large Language Models (MLLMs)의 탐구 및 개발로 점차 이동하고 있습니다. Flamingo와 PaLM-E와 같은 획기적인 MLLMs는 text와 vision을 원활하게 융합하여 다양한 multi-modal tasks에서 뛰어난 성능으로 선례를 남겼습니다. 최근 LLMs의 open-sourcing은 public MLLMs의 등장을 더욱 가속화했습니다. LLaVA, MiniGPT-4, InstructBLIP과 같은 주목할 만한 예시들은 일련의 visual instruction-tuning data를 제안함으로써 기여했습니다. text와 static images를 넘어, 여러 연구는 LLMs의 방대한 잠재력을 video comprehension tasks에 활용하며 video modality를 활용하기 시작했습니다. VideoChat, VideoChatGPT, Valley와 같은 혁신들은 ChatGPT를 사용하여 video instruction-tuning data를 generation하고, instruction-following capabilities를 향상시키는 것을 목표로 합니다. VideoChat2에서는, MLLMs의 근본적인 temporal understanding capabilities를 비판적으로 검토하여 더 robust한 video MLLMs를 위한 가치 있는 설계 통찰력을 제공하는 것을 목표로 합니다.

Benchmark. 전통적인 Vision-Language (VL) benchmarks는 주로 multi-modal retrieval 및 vision QA와 같은 특정 능력에 초점을 맞추어 왔습니다. MLLMs의 부상은 통합된 VL tasks를 평가하기 위해 설계된 benchmarks를 촉진했습니다. 예를 들어, LVLM-eHub는 image-related queries를 통해 interactive한 model 비교 platform을 제공합니다. OwlEval, MME, SEED-Bench, MM-Vet, MMBench와 같은 다른 benchmarks는 단순한 model 계층을 초월하는 evaluation metrics를 도입하며 포괄적인 VL skills을 강조합니다. 한편, video 영역에서는 Perception Test와 같이 multi-modal video perception과 reasoning을 검사하는 benchmarks와, video inputs로부터 dialogue generation 능력을 정량화하는 VideoChatGPT가 등장했습니다. FunQA는 반직관적이고 유머러스한 content를 통해 video reasoning의 한계를 시험합니다. 기존 benchmarks와 대조적으로, MVBench는 광범위한 temporal tasks를 다루고, temporally-sensitive한 videos와 public annotations의 효율적인 사용을 강조하며, MLLMs의 temporal understanding에 대한 포괄적인 평가를 수행함으로써 차별화됩니다.

Related Works 정리 노트 (for AI Researchers)

1. MLLM 연구 동향 및 본 논문의 위치

기존 연구 흐름: LLM에서 image를 이해하는 MLLM으로, 다시 static images에서 video modality로 연구가 확장되는 추세를 요약.
기존 Video MLLM의 특징: VideoChat, VideoChatGPT 등 선행 연구들은 주로 ChatGPT를 활용해 video instruction-tuning data를 생성하고, 이를 통해 model의 instruction-following (지시 수행) 능력을 높이는 데 집중함.
본 논문 Model (VideoChat2)의 차별점: 이 논문은 단순히 instruction-following 능력을 넘어, MLLMs의 더 근본적인 능력인 temporal understanding capabilities (시간적 이해 능력)를 비판적으로 분석하고, 이를 바탕으로 더 robust한 video MLLM 설계를 위한 통찰을 제공하는 것을 목표로 함. 즉, '무엇이 일어나는지'를 넘어 '시간의 흐름에 따라 어떻게 일어나는지'를 이해하는 능력에 집중.

2. Benchmark 연구 동향 및 본 논문의 위치

기존 Benchmark의 한계:
- Vision-Language (VL) benchmarks는 image 기반의 포괄적인 skills 평가로 발전해왔음 (MME, MMBench 등).
- 반면, 기존 video 관련 benchmarks들은 특정 목적에 국한됨.
  - Perception Test: multi-modal video perception과 reasoning에 집중.
  - VideoChatGPT: Dialogue generation 능력 정량화에 집중.
  - FunQA: Counter-intuitive (반직관적) content로 reasoning의 한계를 테스트.
본 논문 Benchmark (MVBench)의 차별점:
- Coverage (포괄성): 기존 benchmarks보다 훨씬 광범위한 temporal tasks를 포함.
- Focus (초점): 시간적 순서나 변화가 정답을 맞히는 데 결정적인, 즉 temporally-sensitive한 videos를 중점적으로 다룸.
- Efficiency (효율성): Public annotations을 효율적으로 재사용하여 benchmark를 구축.
- Goal (목표): MLLMs의 temporal understanding 능력을 단편적이 아닌, 포괄적으로(comprehensive) 평가하는 것을 목표로 함.

쉬운 설명 :

이 부분은 이 연구가 기존의 다른 연구들과 어떤 관계에 있고, 무엇이 다른지를 설명하는 '자기소개'와 같습니다. 크게 Model과 Benchmark(시험지) 두 부분으로 나누어 설명합니다.

1. AI 모델의 흐름 속 우리 위치: "요즘 AI는 글(LLM)만 아는 게 아니라 그림(MLLM)도 보고, 이제는 동영상(video MLLM)까지 봅니다. 기존의 동영상 보는 AI들은 주로 '영상 속 고양이가 점프하네'처럼 주어진 지시에 따라 영상을 묘사하는 훈련을 받았습니다. 하지만 저희가 만든 VideoChat2는 한 단계 더 나아가, AI가 정말로 영상 속 '시간의 흐름'과 '사건의 순서'를 제대로 이해하는지, 그 근본적인 temporal understanding 능력을 파고드는 것을 목표로 합니다."

2. AI 시험지의 흐름 속 우리 위치: "AI의 능력을 평가하는 시험지(Benchmark)는 많습니다. 그림 시험지는 종류도 많고 꽤 발전했죠. 하지만 동영상 시험지는 아직 부족합니다. 어떤 시험지는 특정 능력(예: 대화 능력)만 재고, 어떤 시험지는 특이한 영상(예: 웃긴 영상)으로만 reasoning을 테스트해서 종합적인 평가가 어려웠습니다. 저희가 만든 MVBench는 다릅니다. 시간의 흐름을 이해해야만 풀 수 있는 다양한 종류의 temporal 문제들을 총망라했고, 기존에 공개된 data를 똑똑하게 재활용해 만들었기 때문에 편향 없이 공정하고 포괄적인 '동영상 이해력 종합 시험지'라고 할 수 있습니다."

3. MVBench

이 섹션에서는 우리의 MVBench에 대해 자세히 소개합니다. 먼저 표 1의 temporal tasks를 설계한 다음, 그림 2와 같이 평가를 위한 multiple-choice QAs를 자동으로 생성합니다.

3.1. Temporal Task Definition

MVBench의 temporal tasks를 설계하기 위해, 우리는 static tasks를 dynamic goals에 맞게 조정하는 간결한 static-to-dynamic 방법을 도입합니다. 서론에서 논의했듯이, 대부분의 기존 MLLM benchmarks는 static image tasks의 체계적인 정의를 통해 spatial understanding에 중점을 둡니다. 이에 동기를 부여받아, 우리는 이러한 task 정의를 참조로 사용하여 perception에서 cognition에 이르는 temporal tasks를 체계적으로 설계할 것을 제안합니다. 그림 1에서 볼 수 있듯이, 우리는 이전 benchmarks에서 spatial understanding의 9가지 주요 tasks를 요약하는 것으로 시작합니다. 그런 다음, 이 image tasks를 video context로 풍부하게 만들어, single image로는 효과적으로 해결할 수 없고 포괄적인 video understanding이 요구되는 temporal tasks를 생성합니다. 최종적으로, 우리는 다음과 같이 20개의 temporal tasks를 정의합니다. 예시는 표 1에 나열되어 있습니다.

Action. (1) Action Sequence: 특정 action 전후에 발생하는 events를 검색합니다. (2) Action Prediction: 현재 actions을 기반으로 후속 events를 추론합니다. (3) Action Antonym: 반대로 정렬된 두 actions 중에서 올바른 action을 구별합니다. (4) Fine-grained Action: 다양한 유사 옵션 중에서 정확한 action을 식별합니다. (5) Unexpected Action: 유머, 창의성 또는 마술이 특징인 videos에서 놀라운 actions을 감지합니다.

Object. (6) Object Existence: 특정 event 동안 특정 object의 존재 여부를 판단합니다. (7) Object Interaction: 특정 event에 참여하는 object를 식별합니다. (8) Object Shuffle: 가려진 상태에서 object의 최종 위치를 찾습니다.

Position. (9) Moving Direction: 특정 object의 움직임 궤적을 확인합니다. (10) Action Localization: 특정 action이 발생하는 시간 구간을 결정합니다.

Scene. (11) Scene transition: video에서 scene이 어떻게 전환되는지 결정합니다.

Count. (12) Action Count: 특정 action이 몇 번 수행되었는지 계산합니다. (13) Moving Count: 특정 action을 수행한 objects의 수를 계산합니다.

Attribute. (14) Moving Attribute: 주어진 순간에 특정 움직이는 object의 외형을 결정합니다. (15) State Change: video 전체에서 특정 object의 상태가 변하는지 여부를 결정합니다.

Pose. (16) Fine-grained Pose: 다양한 유사 옵션 중에서 정확한 pose 카테고리를 식별합니다.

Character. (17) Character Order: 문자가 나타나는 순서를 결정합니다.

Cognition. (18) Egocentric Navigation: agent의 현재 navigation 지침을 기반으로 후속 action을 예측합니다. (19) Episodic Reasoning: TV 시리즈의 에피소드 내에서 등장인물, events, objects에 대한 reasoning을 수행합니다. (20) Counterfactual Inference: 특정 event가 발생할 경우 어떤 일이 일어날 수 있는지 고려합니다.

3.2. Automatic QA Generation

temporal task 정의의 지침에 따라, 다음으로 각 task에 대한 videos를 수집하고 annotation을 답니다. 구체적으로, 우리는 그림 2에서 open-sourced video annotations을 MLLMs 평가를 위한 multiple-choice QAs로 효율적으로 변환하는 automatic QA generation paradigm을 설계합니다.

Data Filtration. 노동 집약적인 수집을 줄이기 위해, 기존 benchmarks에서 videos를 선택할 것을 제안합니다. (1) Video Diversity: video 다양성을 높이기 위해, first-person에서 third-person 시점, indoor에서 outdoor 환경에 이르는 광범위한 domains와 scenes를 포괄하는 11개의 video datasets(표 1 참조)을 신중하게 선택합니다. (2) Temporal Sensitivity: 각 task가 temporal sensitive하도록 보장하기 위해, 일반적으로 무시할 수 있는 motions을 포함하는 short clips를 제거하고, 평가하기에 지나치게 복잡한 contexts를 제시하는 매우 긴 videos도 삭제합니다. 따라서, 주로 5초에서 35초 사이의 중간 길이의 videos를 선택합니다. (3) Question Difficulty: 지나치게 간단하거나 복잡한 질문은 유사한 응답으로 인해 구별할 수 없는 평가로 이어질 수 있습니다. 질문 난이도의 균형을 맞추기 위해, STAR와 CLEVRER에 대한 selection criteria를 설계합니다. STAR의 경우, video clips의 시작 또는 끝 지점을 무작위로 이동시켜 특정 events를 localizing하는 복잡성을 증가시켜 난이도를 높입니다. CLEVRER의 경우, 특정 events를 설명하는 데 10개 이상의 conditions(예: material, shape)을 필요로 하는 질문을 제외하여 QA 난이도를 낮춥니다.

QA Generation. 선택된 datasets의 모든 annotations이 multiple-choice QA format을 따르지 않는다는 점을 고려하여, LLMs를 통해 video annotations을 이 형식으로 자동 변환합니다. 구체적으로, 먼저 ChatGPT를 사용하여 task 정의에 기반하여 각 video에 대한 question을 생성합니다. 그런 다음, 다음과 같이 해당 answer options를 만듭니다. (1) Template-Based Construction: 대부분의 질문에 대해, ground truth annotations에서 직접 option candidates를 구성합니다. 예를 들어, Action Antonym task의 candidates는 정답 action, 그 반대 action, 그리고 not-sure 선택지를 포함합니다. Moving Direction task의 경우, option candidates는 네 방향(즉, 위, 아래, 왼쪽, 오른쪽)과 정지 상태로 구성됩니다. (2) LLM-Based Generation: 특히 Unexpected Action task의 경우, ChatGPT를 활용하여 open-ended QAs를 answer options이 있는 multiple-choice QA로 변환합니다. 평가의 정확성과 fairness를 위해 open-ended 형식이 아닌 multiple-choice 형식을 사용한다는 점에 유의해야 합니다. 이는 주로 open-ended 답변이 LLMs나 사용자 연구에 의해 채점되어야 하므로, evaluation bias나 수동 개입을 초래할 수 있기 때문입니다. 최종적으로, 우리는 각 temporal understanding task에 대해 200개의 multiple-choice QA 쌍을 생성합니다. 모든 tasks에 대한 QA generation의 더 자세한 내용은 부록에서 찾을 수 있습니다.

Answer Option Processing. 모든 질문에 대해, 사용 가능한 candidates에서 3개에서 5개의 answer options를 무작위로 샘플링하고, option 순서를 섞어 평가의 robustness를 강화합니다. 또한, 더 긴 option이 정답인 경향이 있는 흔한 answer leakage 문제를 방지하기 위해, LLM을 추가로 사용하여 질문의 모든 answer options이 비슷하고 합리적인 길이를 갖도록 보장합니다.

3.3. Prompt Design for Evaluation

MLLMs의 temporal sensitivity를 강조하기 위해, 우리는 평가를 위한 상세한 system prompt를 작성합니다 (그림 2의 오른쪽 하단 참조). 이 prompt는 MLLMs가 사람의 actions과 poses, 그리고 object 움직임의 details와 movements와 같은 요소에 주의를 기울여 질문에 답하기 위해 video content를 신중하게 검토하도록 유도합니다.

또한, 또 다른 중요한 과제는 MLLMs의 responses에서 options를 추출하는 것입니다. MMBench는 predictions을 여러 option 형식과 일치시키려고 시도합니다. 실패할 경우, 복잡한 설계를 통해 options을 추출하기 위해 ChatGPT에 의존합니다. 그러나 이 방법은 상대적으로 비효율적이어서 사람과의 alignment rate가 87%에 불과합니다. 반면, 우리의 MVBench는 option extraction에서 100% 비율을 보장하는 간단한 접근 방식을 사용합니다. 우리는 질문에서 options을 괄호로 묶고, "Best Option: ("이라는 answer prompt를 사용하여 MLLMs가 option을 generation하도록 유도합니다. 표 9의 결과는 다양한 MLLMs에 대한 우리 prompt의 효과성을 입증하며, 이를 통해 accuracy를 신뢰할 수 있는 평가 metric으로 사용할 수 있습니다.

MVBench 섹션 핵심 정리노트 (AI 연구자용)

1. 문제 제기: 기존 비디오 이해 벤치마크의 한계 명확화

포화 상태(Saturation): MSRVTT, MSVD, ActivityNet-QA 등 기존 벤치마크들은 대부분의 최신 MLLM(Multi-modal Large Language Models)이 상위권 성능을 기록하며 사실상 포화 상태에 도달했습니다. 이는 더 이상 모델 간의 실질적인 성능 차이를 변별하기 어렵다는 의미입니다.
단편적 능력 평가: 기존 벤치마크들은 주로 짧은 비디오 클립(초)을 기반으로 단일 기술(예: 객체 인식, 행동 분류)만을 평가합니다. 이는 MLLM이 가진 문맥 이해, 장기 기억, 복합 추론 능력을 제대로 측정하지 못하는 근본적인 한계가 있습니다.
정적인(Static) 질의: 대부분의 질문이 비디오의 특정 시점이나 전체적인 내용에 대한 단편적인 정보를 묻는 'What is...?' 형태에 그칩니다. 시간의 흐름에 따른 변화나 인과관계를 묻는 동적인(dynamic) 질의가 부족합니다.

2. MVBench의 핵심 목표 및 설계 철학

핵심 목표: 최신 MLLM의 '장기적 시간적 이해(Long-term Temporal Understanding)'와 '복합적 추론(Compositional Reasoning)' 능력을 종합적으로 평가하는 것입니다.
설계 철학:
- 시간적 깊이(Temporal Depth): 단기 기억을 넘어 장기적인 시간 의존성을 파악해야만 풀 수 있는 문제를 제시합니다.
- 계층적/조합적(Hierarchical/Compositional) 구조: 단순 인지(Perception)에서 시작하여 속성(Attribution), 관계(Relation), 심층 인지(Cognition), 행동(Behavior) 예측에 이르는 계층적 능력 구조를 평가합니다. 이는 AI가 단순 정보를 나열하는 것을 넘어, 정보를 조합하고 추론하는 능력을 측정하기 위함입니다.

3. MVBench의 구성: 20개 과제와 5가지 능력 차원

MVBench는 총 20개의 과제(Task)를 통해 5가지 핵심 능력 차원(Capability Dimensions)을 측정합니다. 이는 이 벤치마크의 가장 핵심적인 구조입니다.

5가지 능력 차원 (Capability Dimensions):
1. Perception (인지): 객체, 장면, 인물 등 비디오의 기본적인 구성 요소를 정확히 인식하는 능력.
2. Attribution (속성): 객체의 색상, 모양, 개수, 크기 등 구체적인 속성을 이해하는 능력.
3. Relation (관계): 객체 간의 공간적, 시간적 관계를 추론하는 능력 (예: A가 B보다 먼저 일어났다).
4. Cognition (심층 인지): 인물의 의도, 감정, 사건의 원인과 결과를 파악하는 고차원적 추론 능력.
5. Behavior (행동): 절차적 순서를 이해하거나 다음 행동을 예측하는 능력.
시간적 추론 유형에 따른 과제 분류 (Temporal Reasoning Types): MVBench의 차별점은 위의 5가지 능력 차원을 다양한 '시간적 추론 유형'과 결합하여 평가한다는 점입니다.
- 사건 순서 이해 (Event Sequence): 여러 사건의 발생 순서를 정확히 나열.
- 상태 변화 탐지 (State Change Detection): 특정 객체나 환경의 상태 변화를 인지.
- 행동 순서 이해 (Action Sequence): 특정 과업을 완수하기 위한 행동들의 순서를 파악.
- 사건 예측 (Event Prediction): 주어진 상황 이후에 일어날 가능성이 높은 사건을 예측.
- 비일관성 탐지 (Inconsistency Detection): 비디오 내에서 논리적/시간적으로 모순되는 지점을 발견.

4. 평가 방식 및 주요 특징

평가 형식: 객관식 질의응답 (Multiple-Choice Question Answering)
- 이는 생성형 모델의 답변을 평가할 때 발생하는 모호함과 주관성을 배제하고, 특정 능력을 정량적으로 정확하게 측정하기 위한 전략적 선택입니다.
데이터셋: 공개적으로 사용 가능한 고품질 비디오(Youtube, Pexels 등)를 사용하여 투명성과 재현성을 확보했습니다.
질문의 질적 차별화: 단순 사실을 묻는 질문을 넘어, '왜(Why)?', '어떻게(How)?', '만약... 라면(What if...)?' 등 깊이 있는 추론을 요구하는 질문들이 다수 포함되어 있습니다. 이는 기존 벤치마크와의 가장 큰 차별점 중 하나입니다.

쉬운 설명 :

기존의 비디오 AI 테스트가 '사진 보고 이름 맞히기' 수준이었다면, MVBench는 '영화 한 편 보고 줄거리 요약 및 등장인물 심리 분석하기' 시험이라고 할 수 있습니다.

기존 테스트 방식 (예: MSRVTT, ActivityNet-QA):

5초짜리 짧은 영상(예: 강아지가 공을 무는 영상)을 보여주고 "영상에 무엇이 있나요?"라고 묻습니다.
답: "강아지와 공이 있습니다."
이런 테스트는 AI가 단순히 사물을 인식하는지만 확인할 뿐, 전체적인 흐름이나 복잡한 상황을 이해하는지는 알 수 없습니다. 최신 AI들에게는 너무 쉬운 문제입니다.

MVBench 테스트 방식:

5분짜리 요리 영상(예: 케이크 만드는 영상)을 전부 보여줍니다.
그리고 이렇게 묻습니다.
- (관계/순서): "밀가루를 넣기 전에 계란을 먼저 넣었나요, 아니면 나중에 넣었나요?"
- (상태 변화): "오븐에 들어가기 전 반죽의 색깔과 오븐에서 나온 후 케이크의 색깔은 어떻게 다른가요?"
- (원인-결과): "왜 요리사가 반죽이 너무 질다고 말하며 밀가루를 더 넣었나요?"
- (행동 예측): "케이크를 다 만든 후에 요리사가 가장 먼저 할 행동은 무엇일까요? (예: 장식하기, 자르기, 설거지하기)"

이처럼 MVBench는 AI가 단순히 '보는' 것을 넘어, 시간의 흐름에 따라 벌어지는 사건들의 순서와 관계, 원인과 결과를 사람처럼 '이해'하는지를 종합적으로 시험하는 훨씬 더 발전된 형태의 벤치마크입니다.

4. VideoChat2

MVBench를 구축한 후, 우리는 표 2에서 다수의 인기 있는 image 및 video MLLM을 평가합니다. 놀랍게도, 기존 MLLM들은 temporal understanding 측면에서 만족스럽지 못합니다. 이 격차를 해소하기 위해, 우리는 VideoChat2라고 불리는 견고한 video MLLM baseline을 개발합니다.

4.1. Instruction-Tuning Data

우선, MLLM의 최적화되지 않은 performance는 instruction-tuning data의 제한된 다양성에 기인할 수 있습니다. 이 문제를 해결하기 위해, 우리는 그림 3에 표시된 풍부한 data를 도입하며, 이는 34개의 서로 다른 출처에서 온 2M개의 sample로 구성됩니다. 우리는 training을 개선하기 위해 instruction set에 image와 video data를 모두 포함합니다.

M3IT에 동기를 부여받아, 우리는 그림 3의 오른쪽 하단에 표시된 것처럼 모든 data sample을 통일된 format으로 재구성합니다. 여기에는 두 개의 key가 포함됩니다: {‘image’ 또는 ‘video’}와 {‘QA’}. 첫 번째 key는 vision data의 경로를 나타냅니다. 두 번째 key는 task instruction (‘i’)과 question-answer(‘q’-‘a’)를 포함하는 list를 나타냅니다. 또한, dataset 당 10개의 instruction을 연구자가 작성해야 하는 M3IT와는 다르게, 우리는 그림 3의 오른쪽 상단에 있는 {dataset description}, {task description}, {instruction example}에 따라 ChatGPT를 사용하여 이를 생성합니다.

결과적으로, 우리의 전체 instruction-tuning data set은 다음과 같이 대략 6개의 category로 나눌 수 있습니다:

(1) Conversation은 다중 턴(multi-turn) 대화 능력을 향상시키는 것을 목표로 합니다. 우리는 LLaVA와 VideoChat에서 conversation data를 수집합니다. data를 확장하기 위해, 우리는 VideoChatGPT의 caption data를 video ID를 기반으로 conversation format에 통합합니다.

(2) Simple Caption은 기본적인 visual description 능력을 향상시키는 것을 목표로 합니다. 우리는 널리 사용되는 COCO Caption과 WebVid를 선택하고, YouCook2의 1차 video caption을 함께 사용합니다.

(3) Detailed Caption은 visual detail을 이해하기 위한 포괄적인 능력을 풍부하게 하는 것을 목표로 합니다. 우리는 MiniGPT-4, LLaVA, VideoChat의 detailed caption data를 활용합니다. 또한 image와 video 내의 text를 고유하게 이해해야 하는 Paragraph Captioning, TextCaps, TextVR을 통합합니다.

(4) VQA는 visual question-answering 능력을 향상시키는 것을 목표로 합니다. 우리는 기본적인 VQA (VQAv2, GQA, TGIF-QA, WebVidQA), knowledge-based VQA (OK-VQA, AOK-VQA, ViQuAE), OCR-based VQA (OCR-VQA, TextVQA, ST-VQA, DocVQA), 그리고 Ego4D의 egocentric VQA를 포함합니다.

(5) Reasoning은 다양한 reasoning 능력을 향상시키는 데 중점을 둡니다. 우리는 spatial reasoning을 위해 LLaVA-reasoning과 CLEVR을, reading comprehension을 위해 VisualMRC를, temporal reasoning을 위해 NExT-QA를, 그리고 spatiotemporal reasoning을 위해 CLEVRER를 사용합니다.

(6) Classification은 object 및 action recognition에 대한 강건성을 높이는 것을 목표로 합니다. 우리는 ImageNet, COCO-ITM, Kinetics-710, SthSthV2에서 data를 sample합니다.

4.2. Progressive Multi-Modal Training

MLLM을 향상시키는 또 다른 중요한 요소는 visual representation과 linguistic representation 사이의 semantic gap을 효과적으로 연결하는 방법입니다. 이 문제를 해결하기 위해, 우리는 그림 4에 표시된 바와 같이 점진적인 multi-modal training paradigm을 채택합니다.

Stage1: Vision-Language Alignment. 첫 번째 stage에서, 우리는 vision과 text를 align하는 것을 목표로 합니다. 효율성과 효과성의 균형을 맞추기 위해, 우리는 visual encoder를 freeze하고 유연한 QFormer를 train합니다. QFormer는 중복되는 visual token을 더 적은 수의 query token으로 압축하고, 이 query들을 multi-modal loss, 즉 Vision-Text Contrastive learning (VTC), Vision-Text Matching (VTM), Vision-grounded Text Generation (VTG)을 통해 text token과 align합니다. 하지만, 우리는 spatial-temporal representation learning의 강력한 능력 때문에 우리의 visual encoder로 pre-trained UMT-L을 선택합니다. 또한, video-language modeling을 향상시키기 위해, 우리는 CC3M과 CC12M에서 가져온 15M개의 image caption뿐만 아니라 WebVid10M에서 가져온 10M개의 video caption으로 QFormer를 train합니다.

Stage2: Vision-Language Connection. 초기 alignment 이후, 우리는 vision-language understanding 능력을 구축하기 위해 visual encoder를 pre-trained LLM과 연결합니다. 우리는 query token을 추가로 transform하기 위해 linear projection을 적용하고, projection된 token을 text token과 concatenate하여 LLM에 입력해 vision-based caption generation (즉, VTG)을 수행합니다. 하지만, 우리는 LLM과의 더 나은 alignment를 위해 visual encoder를 unfreeze합니다. Stage1에서 앞서 언급한 training data 외에도, caption 다양성을 풍부하게 하기 위해 2M개의 image caption(COCO, Visual Genome, SBU)과 10M개의 video caption(InternVid)을 추가로 도입합니다.

Stage3: Instruction Tuning. 마지막 stage에서, 우리는 instruction tuning을 위해 섹션 4.1에서 제안된 data를 사용합니다. instruction에 대한 response를 더 잘 align하기 위해, 우리는 frozen LLM에 low-rank adaptation을 사용하고, VTG loss를 통해 visual encoder 및 QFormer와 함께 이를 tune합니다. 또한, 우리는 instruction 관련 visual token을 추출하여 LLM에 input으로 제공하기 위해 instruction(즉, ‘QA’의 ‘i’)을 QFormer에 통합합니다. 그러나, 우리는 저조한 performance 때문에 question(즉, ‘QA’의 ‘q’)을 QFormer에 통합하지 않습니다.

VideoChat2 섹션 핵심 정리노트 (AI 연구자용)

1. 문제 정의 및 목표

문제: 저자들이 자체 제작한 MVBench로 기존 MLLM들을 평가한 결과, 대부분의 모델이 '시간적 이해(temporal understanding)' 능력에서 현저히 낮은 성능을 보임을 확인했습니다.
목표: 이 문제를 해결하기 위해, 시간적 이해 능력이 강화된 강력한 video MLLM baseline인 VideoChat2를 개발하는 것을 목표로 설정했습니다.

2. 핵심 기여 1: 대규모/고품질 Instruction-Tuning Data 구축

기존 MLLM의 성능 한계가 instruction-tuning data의 다양성 부족에 있다고 판단하고, 이를 해결하기 위해 방대한 데이터셋을 구축했습니다.

규모와 다양성: 34개의 다른 source로부터 총 2M개의 sample을 수집하여 데이터의 폭과 깊이를 모두 확보했습니다.
ChatGPT를 활용한 Instruction 생성: M3IT와 같이 연구원이 직접 instruction을 작성하는 방식 대신, ChatGPT를 활용하여 {dataset description}, {task description}, {instruction example}을 기반으로 instruction을 대량으로 자동 생성했습니다. 이는 확장성과 효율성 측면에서 주목할 만한 접근법입니다.
6가지 체계적 분류: 데이터셋을 6개의 명확한 category로 나누어 모델이 다방면의 능력을 균형 있게 학습하도록 설계했습니다.
1. Conversation: LLaVA, VideoChat, VideoChatGPT 데이터를 활용한 다중 턴(multi-turn) 대화 능력 강화.
2. Simple/Detailed Caption: COCO, WebVid 등 기본 caption과 MiniGPT-4, LLaVA 등의 상세 caption을 모두 사용하여 시각 정보 서술 능력의 기초와 심층을 모두 훈련. 특히 TextCaps, TextVR 등을 포함하여 비디오 내 text 인식 능력까지 고려.
3. VQA: 기본적인 VQA를 넘어 knowledge-based, OCR-based, egocentric VQA까지 포함하여 질문-답변 능력의 범위를 크게 확장.
4. Reasoning: 공간, 시간, 시공간(spatiotemporal) reasoning 등 복합적 추론 능력을 직접적으로 훈련.
5. Classification: ImageNet, Kinetics 등을 활용하여 기본적인 object 및 action recognition의 강건성(robustness) 확보.

3. 핵심 기여 2: 점진적 Multi-Modal Training (3-Stage)

Visual과 linguistic representation 간의 semantic gap을 효과적으로 줄이기 위해 3단계의 점진적 training paradigm을 채택했습니다.

Stage 1: Vision-Language Alignment
- 핵심: Vision과 text를 초기 정렬하는 단계.
- 차별점:
  - Visual Encoder로 강력한 spatial-temporal representation 학습 능력을 가진 pre-trained UMT-L을 채택.
  - QFormer를 훈련시킬 때, image caption(15M) 뿐만 아니라 video caption(10M)을 대량으로 사용하여 video-language modeling에 집중.
- 구조: Visual encoder는 freeze, QFormer를 VTC, VTM, VTG loss로 학습.
Stage 2: Vision-Language Connection
- 핵심: Alignment된 visual encoder를 pre-trained LLM에 연결하는 단계.
- 차별점:
  - LLM과의 더 나은 alignment를 위해 Stage 1에서 freeze했던 visual encoder를 unfreeze하여 함께 튜닝.
  - Caption 데이터의 다양성을 극대화하기 위해 2M개의 image caption과 10M개의 video caption(InternVid)을 추가로 투입.
- 구조: QFormer의 query token을 linear projection하여 text token과 함께 LLM에 입력.
Stage 3: Instruction Tuning
- 핵심: 위에서 구축한 대규모 데이터셋으로 모델의 지시 수행 능력을 최종적으로 다듬는 단계.
- 차별점:
  - Frozen LLM에 **Low-Rank Adaptation (LoRA)**를 적용하여 효율적인 fine-tuning 수행.
  - QFormer에 instruction(i)은 통합하여 instruction과 관련된 visual token을 추출하도록 유도하되, question(q)은 성능 저하 문제로 통합하지 않는 세밀한 설계 선택.
- 구조: Visual encoder, QFormer, LoRA-tuned LLM을 VTG loss로 함께 튜닝.

쉬운 설명 :

AI 모델 'VideoChat2'는 '영상을 보고 사람처럼 깊이 있게 이해하고 대화하는 AI'를 만들기 위한 프로젝트입니다. 이 AI를 특별하게 만드는 두 가지 비결은 '엄청난 양의 맞춤형 교재'와 '체계적인 3단계 학습법'입니다.

1. 엄청난 양의 맞춤형 교재 (데이터)

기존 AI들이 '단어 카드'나 '짧은 문장 책'만 보고 공부해서 똑똑해지는 데 한계가 있었다면, VideoChat2는 아래와 같은 거의 모든 종류의 시청각 교재를 총망라한 '초대형 디지털 도서관'에서 공부했습니다.

대화록: 사람들이 영상에 대해 나누는 대화를 학습합니다.
기본/상세 설명문: "강아지가 있다" 같은 단순 묘사부터 "갈색 털의 강아지가 햇살 좋은 잔디밭에서 빨간 공을 쫓고 있다" 같은 상세 묘사까지 배웁니다.
Q&A 문제집: 영상에 대한 온갖 종류의 질문(상식, 글자 읽기, 논리)에 답하는 연습을 합니다.
추리 소설: 영상 속 사건의 순서나 원인과 결과를 추리하는 훈련을 합니다.

특히, 이 모든 교재에 필요한 수많은 질문과 지시사항을 사람이 일일이 만들지 않고, 'ChatGPT'라는 AI 조수를 시켜 자동으로 만들어내서 매우 효율적으로 방대한 학습자료를 만들었습니다.

2. 체계적인 3단계 학습법 (훈련)

최고의 교재가 있어도 학습법이 별로면 소용없겠죠? VideoChat2는 3단계에 걸친 체계적인 훈련을 받습니다.

1단계 (알파벳 배우기): 먼저 '눈'을 담당하는 부분(visual encoder)이 영상 속 장면과 '언어'를 담당하는 부분의 단어를 짝 맞추는 법을 배웁니다. (예: 🍎 그림 = '사과' 단어). 특히, 사진보다는 영상 자료를 많이 보여줘서 움직임 이해의 기초를 다집니다.
2단계 (문장 만들기): 이제 막 단어를 배운 '눈'과, 원래부터 글을 잘 쓰는 '두뇌'(LLM)를 연결합니다. 이제 AI는 단순히 사과를 알아보는 것을 넘어 "빨갛고 먹음직스러운 사과가 보인다"처럼 완전한 문장으로 설명할 수 있게 됩니다. 이 과정에서 '눈'이 '두뇌'에 더 잘 맞춰지도록 약간의 추가 훈련을 합니다.
3단계 (심화 학습 및 실전 응용): 마지막으로, 위에서 만든 '초대형 디지털 도서관'의 모든 교재를 가지고 최종 실전 훈련을 합니다. 온갖 종류의 지시사항을 따르고 복잡한 질문에 답하는 연습을 통해, 사람처럼 영상을 깊이 있게 이해하고 소통하는 능력을 완성합니다. 이 과정은 매우 효율적인 방식(LoRA)을 사용해 시간과 비용을 아끼며 진행됩니다.