AI바라기의 인공지능
벤치마크 : 논문 리뷰 : Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding 본문
벤치마크 : 논문 리뷰 : Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding
AI바라기 2026. 4. 20. 15:03용어 설명
- Progressive tri-level hierarchy: 비디오 이해 능력을 점진적인 3단계(Level 1: Visual Information Aggregation, Level 2: Temporal Dynamics, Level 3: Complex Reasoning)로 구조화한 이 논문의 고유한 capability 분류 체계.
- Group-based evaluation strategy: 개별 질문을 독립적으로 평가하지 않고, 연관된 질문들을 하나의 그룹으로 묶어 모델의 일관성과 추론의 신뢰성을 평가하는 전략.
- Capability consistency: 동일한 capability를 다양한 측면과 세밀함(granularity)으로 묻는 질문 그룹을 통해 모델의 이해 폭(breadth)을 평가하는 지표.
- Reasoning coherence: 인과관계가 있는 질문들을 순차적으로 제시하여, 모델이 복잡한 결론에 도달하기 위한 중간 논리 단계를 제대로 밟아가는지 깊이(depth)를 평가하는 지표.
- Group-level Non-linear Score (Non-Lin Score): 이 논문이 제안한 독창적인 채점 방식. 그룹 내 질문 중 일부만 맞춘 경우(부분적 성공이나 찍기)를 강하게 페널티(quadratic suppression) 주거나, 논리 체인에서 첫 번째 오류 발생 시 이후 정답을 무효 처리(first-error truncation)하는 엄격한 metric.
- Omni-modal: 텍스트(subtitle) 변환 없이 raw audio와 visual frames를 동시에 직접 처리하고 융합할 수 있는 아키텍처 (예: Gemini-3-Pro, MiMo-v2-Omni).
- Thinking mode: 최근 MLLM에 도입된 추론 강화 방식(Chain-of-Thought 등). 이 논문에서는 이 모드가 text modality의 유무에 따라 성능에 어떤 영향을 주는지 분석함.
- Hierarchical Bottlenecks: 고차원적인 복잡한 추론(Level 3)의 실패가 단순히 추론 능력 부족 때문이 아니라, 하위 단계인 기초 시각 인지(Level 1)나 시간적 흐름 파악(Level 2)의 오류가 누적되어 발생한다는 이 논문의 핵심 발견.
Purpose of the Paper
- 기존 벤치마크의 한계: 최근 video MLLMs의 점수가 빠르게 포화 상태에 이르렀으나, 부풀려진 leaderboard 점수와 실제 모델의 capability 간에 심각한 괴리가 존재함. 기존 평가들은 파편화된 per-question accuracy에만 의존하여, 모델이 운으로 맞춘 것인지 진짜 이해한 것인지(faithfulness)를 구별하지 못함.
- 새로운 문제 정의 및 접근 방식: 모델의 '견고함(robustness)'과 '신뢰할 수 있는 추론(faithful reasoning)'을 정확히 측정하기 위해 Video-MME-v2를 제안함. 단편적인 질문 대신 상호 연관된 질문들을 그룹화하고 비선형적 채점 방식을 도입하여, 모델이 일관성을 유지하고 논리적 오류 없이 단계별로 추론하는지를 엄격하게 검증하고자 함.
Key Contributions
- Progressive Tri-level Hierarchy 도입
- 기여: 비디오 이해 능력을 다중 지점 정보 통합(L1) -> 시간적 동적 모델링(L2) -> 복잡한 멀티모달 추론(L3)으로 계층화.
- 참신성: 기존의 병렬적 task 나열과 달리, 인지부터 고차원 추론까지의 '의존성(dependency)'을 구조화하여 모델의 실패 원인이 어느 단계에 있는지(Hierarchical Bottlenecks)를 추적할 수 있게 함.
- Group-Based Evaluation Strategy 설계
- 기여: Capability consistency 그룹과 Reasoning coherence 그룹이라는 두 가지 평가 축을 개발.
- 참신성: 개별 질문을 단순히 augmentation하는 것을 넘어, "단서 탐색 -> 이상 징후 확인 -> 목적 추론 -> 최종 결론"과 같이 인간의 실제 문제 해결 프로세스를 모방한 순차적 질문 세트를 구성함.
- Group-level Non-linear Metric (Non-Lin Score) 제안
- 기여: Avg Acc 대신 그룹 내 joint correctness를 기반으로 점수를 부여하는 새로운 metric 도입.
- 참신성: 비디오 분야에서 최초로 논리적 단계의 'first-error truncation(첫 오답 이후 정답 무효화)' 및 'quadratic suppression'을 적용하여, 파편화된 지식이나 운에 의한 정답(guess-based correctness)을 원천 차단함.
- Data Leakage를 방지한 고품질 Datasets 구축
- 기여: 3,300시간의 human annotation을 거친 800개 비디오, 3,200개 질문 세트 구축 및 adversarial distractor(오답 선택지) 설계.
- 참신성: Pre-trained 데이터 오염을 막기 위해 2025년 이후의 신규 비디오 위주로 수집(Recency-Oriented Collection)하여 모델의 순수한 추론 능력을 측정함.
Experimental Highlights
- 실험 설정: SOTA closed-source 모델(Gemini-3-Pro, GPT-5 등) 및 open-source 모델(Qwen3.5-397B-Think 등)을 대상으로 'w. sub(subtitle/audio 포함)'와 'wo sub(visual frames 전용)' 세팅에서 Non-Lin Score 기반으로 평가.
- Massive Human-AI Gap 확인: Human Expert가 90.7점(Non-Lin Score)을 기록한 반면, 최고 성능의 Gemini-3-Pro는 49.4점, open-source 1위인 Qwen3.5-397B-Think는 39.1점에 그침. SOTA 모델조차 복잡한 비디오 추론에서는 인간 수준에 한참 미치지 못함을 증명.
- 전통적 metric(Avg Acc)의 착시 현상 규명: Gemini-3-Pro의 기존 Avg Acc는 66.1%로 꽤 높아 보이지만, 제안된 Non-Lin Score로는 49.4%로 급락함. 이는 모델이 연관된 질문 그룹 내에서 일관성 있게 정답을 내지 못하고 있음을 수치(Robustness Ratio 약 74%)로 증명한 핵심 결과임.
- Thinking mode의 양날의 검 (Text 의존성): Instruction-tuned 모델에 Thinking mode를 적용했을 때, 텍스트 단서(subtitles)가 있으면 성능이 크게 오르지만, 순수 시각 정보(wo sub)만 주어졌을 때는 오히려 심각한 성능 저하(regression)를 보임. 현재의 reasoning 메커니즘이 여전히 language priors에 과도하게 의존하고 있음을 밝혀냄.
- Omni-modal architecture의 우위: Raw audio를 직접 처리하는 Gemini-3-Pro와 MiMo-v2-Omni는 오디오 통합 시 각각 +11.2, +8.7점의 큰 폭의 성능 향상을 보여, 단순 텍스트 변환(ASR) 이상의 paralinguistic 정보 융합의 중요성을 입증함.
Limitations and Future Work
- 한계 1: Hierarchical Bottleneck의 존재
- 내용 및 중요성: 고차원 추론(Level 3)에서의 실패는 단지 추론 모듈의 크기가 작아서가 아니라, 기초적인 시각 정보 통합(Level 1)과 시간적 모델링(Level 2)의 에러가 전파되기 때문임.
- Future Work: 파라미터 크기(scale)를 키우거나 reasoning 모듈만 튜닝하는 것을 넘어, 모델의 하위 perception 능력과 temporal grounding 능력을 필수 전제 조건으로 함께 강화하는 holistic enhancement가 필요함.
- 한계 2: Language-based Reasoning에 대한 과의존
- 내용 및 중요성: 텍스트(subtitle)가 제거된 순수 시각 환경에서는 SOTA 모델들의 일관성과 추론 능력이 급격히 무너짐. 이는 진정한 시각적 물리 법칙이나 동적 인지가 아닌 언어적 패턴 매칭에 의존하고 있음을 뜻함.
- Future Work: 텍스트 단서 없이도 시각적, 시간적 단서만으로 신뢰할 수 있는 reasoning chain을 형성할 수 있는 진정한 의미의 vision-centric reasoning architecture 개발이 요구됨.
Overall Summary
이 논문은 기존 비디오 벤치마크의 과대평가 문제를 해결하기 위해, 모델의 일관성과 논리적 추론 능력을 엄격하게 검증하는 Video-MME-v2를 제안했습니다. 점진적인 3단계 계층 구조와 그룹 기반의 강력한 비선형 채점(Non-Lin Score)을 도입한 결과, 현재의 SOTA 모델들이 파편화된 지식에 의존하며 하위 수준의 인지 오류가 상위 추론을 망치는 '계층적 병목 현상'을 겪고 있음을 명백히 밝혀냈습니다. 이 연구는 단순히 새로운 데이터셋을 만든 것을 넘어, 향후 비디오 MLLM 연구가 단순한 언어적 패턴 매칭에서 벗어나 기초적인 멀티모달 인지 역량과 신뢰할 수 있는 단계적 추론 능력을 함께 키우는 방향으로 나아가야 함을 제시하는 강력한 기준점을 세웠습니다.
쉬운 설명
이 논문은 AI를 평가하는 방식을 "객관식 문제 하나씩 무작위로 풀기"에서 **"꼬리 질문이 달린 깐깐한 구술 면접"**으로 바꾼 것과 같습니다. 기존에는 AI가 비디오를 대충 보고 문제 하나를 운으로 맞춰도 점수를 줬다면, Video-MME-v2는 "범인이 누구야? -> 왜 그렇게 생각해? -> 그 증거가 화면 몇 분에 나오지? -> 그 행동의 진짜 목적은 뭐야?"처럼 꼬리를 무는 질문 그룹(group-based)을 던집니다. 여기서 AI가 중간에 논리 하나라도 틀리면 부분 점수 없이 가차 없이 0점 처리(Non-Lin Score)를 해버립니다. 그 결과, 똑똑해 보이던 최신 AI들도 사실은 눈치가 빠르거나 자막(text)을 보고 찍었을 뿐, 비디오의 흐름을 처음부터 끝까지 완벽하게 이해하고 추론하는 능력은 아직 인간에게 한참 못 미친다는 "진짜 실력"을 들통나게 만든 벤치마크입니다.
Abstract
video understanding의 급속한 발전과 함께, 기존 benchmark들은 increasingly 포화 상태가 되어가고 있으며, 부풀려진 leaderboard score와 실제 model capability 사이의 심각한 괴리를 드러내고 있습니다. 이 넓어지는 격차를 해결하기 위해, 우리는 video understanding의 robustness와 faithfulness를 엄격하게 evaluate하도록 설계된 포괄적인 benchmark인 Video-MME-v2를 소개합니다.
model capability를 체계적으로 evaluate하기 위해, 우리는 video comprehension의 복잡성을 점진적으로 증가시키는 점진적인 tri-level hierarchy를 설계했습니다. 이는 multi-point visual information aggregation에서 시작하여 temporal dynamics modeling을 거쳐 궁극적으로 복잡한 multimodal reasoning에 이릅니다. 또한, 기존의 per-question accuracy와 대조적으로, 우리는 관련된 query들 전반에 걸친 일관성과 multi-step reasoning에서의 논리적 연결성을 모두 강제하는 group-based non-linear evaluation strategy를 제안합니다. 이는 파편화되거나 추측에 기반한 correctness에 페널티를 부여하고, 타당한 reasoning에 의해 뒷받침되는 answer에만 점수를 할당합니다.
data quality를 보장하기 위해, Video-MME-v2는 12명의 annotator와 50명의 독립적인 reviewer가 참여하는 엄격하게 통제된 human annotation pipeline을 통해 구축되었습니다. 3,300 human-hour와 최대 5회의 quality assurance 라운드의 뒷받침을 통해, Video-MME-v2는 가장 권위 있는 video benchmark 중 하나가 되는 것을 목표로 합니다.
광범위한 experiment는 현재 최고의 model인 Gemini-3-Pro와 인간 전문가 사이의 상당한 격차($49.4$ 대 $90.7$)를 보여주며, visual information aggregation 및 temporal modeling에서의 오류가 전파되어 high-level reasoning을 제한하는 명확한 hierarchical bottleneck을 발견합니다. 우리는 나아가 thinking-based reasoning이 textual cues에 크게 의존하여, 자막이 있는 경우에는 performance를 향상시키지만 순수하게 visual setting에서는 때때로 저하시킨다는 것을 발견했습니다. 이러한 한계를 드러냄으로써, Video-MME-v2는 차세대 video MLLMs의 개발을 위한 까다로운 새로운 testbed를 구축합니다.
1 Introduction
video-based multimodal large language models (video MLLMs)의 최근 발전은 다양한 understanding 및 reasoning tasks 전반에 걸쳐 놀라운 진전을 이끌어냈으며, 단순한 video comprehension에서 더 깊은 understanding과 더 복잡한 reasoning으로의 전환을 알리고 있습니다. 이러한 진전에도 불구하고, 기존의 evaluations는 종합적인 evaluation hierarchy가 부족한 경우가 많으며, task-specific benchmarks나 고립된 주제에 대한 performance를 강조하기 때문에 총체적인 assessment를 어렵게 만듭니다. 더욱이, previous work는 주로 per-question accuracies에 초점을 맞추어, evaluation에서 일관되고 신뢰할 수 있는 video comprehension의 필요성을 간과합니다. 이러한 한계점들은 최전선에 있는 video MLLMs에 대한 철저한 assessment를 방해하며, 이들의 robust understanding과 신뢰할 수 있는 reasoning capabilities에 대한 더 깊은 조사의 필요성을 강조합니다.
이러한 과제를 해결하기 위해, 우리는 dynamic visual content comprehension을 위한 video MLLMs의 robustness와 faithfulness를 evaluate하도록 설계된 포괄적인 benchmark인 Video-MME-v2를 소개합니다. 이는 새로운 multi-level evaluation hierarchy와 group-based evaluation strategy를 통해 달성됩니다.
- Multi-level Evaluation Hierarchy. 이전의 일반적인 video understanding benchmarks는 종종 다른 capabilities를 별개의 측면으로 취급하여, 총체적인 evaluation을 위한 포괄적인 taxonomy가 부족합니다. 우리의 evaluation hierarchy는 핵심 video understanding skills를 세 가지 점진적인 level로 분류합니다. Level 1은 information aggregation에 중점을 두며, cross-frame 및 cross-modal information을 perceive하고 aggregate하는 model의 능력을 평가합니다. Level 2는 temporal dynamics modeling을 검토하여, causality, state changes, 그리고 sequential order의 포착을 evaluate합니다. Level 3는 complex video reasoning을 목표로 하며, real-world 시나리오를 모방하여 physical understanding, social intelligence, complex plot comprehension과 같은 고급 video comprehension skills를 테스트합니다. 종합적으로, multiple-point information aggregation에서 temporal dynamics modeling, 그리고 마침내 complex reasoning으로 이어지는 이 점진적인 framework는, 기초적인 visual perception부터 정교하고 인간과 유사한 video comprehension에 이르기까지 총체적인 evaluation을 보장합니다.
- Group-based Evaluation Strategy. 우리의 group-based evaluation strategy는 최전선 models를 두 가지 다른 관점에서 평가합니다: (1) Capability consistency는 다양한 측면(예: spatial understanding을 위한 상대적 위치 판단부터 spatial reconstruction까지)과 세분성(예: video-based counting을 위한 object counting부터 motion counting까지)을 가진 tasks 그룹들을 통해 특정 기초 perception skill의 폭을 검토합니다. 그리고 (2) Reasoning coherence는 temporally 및 causally related questions의 sequences를 제시하여, model이 복잡하고 high-level inference를 향한 logical steps를 따를 수 있는지 여부를 드러냄으로써 model의 reasoning ability의 깊이를 측정합니다. 이러한 group-based design과 시너지를 내기 위해, 우리는 correlated questions를 독립적으로 취급하기보다는 그들의 joint correctness를 evaluate하는 non-linear scoring method를 추가로 도입합니다. 이는 파편화되거나 추측에 기반한 success에 페널티를 부여하고, stepwise reasoning validity를 강제합니다. 기초 skills의 폭과 complex reasoning의 깊이를 함께 evaluate함으로써, 이 strategy는 진정한 multimodal video proficiency에 대한 model의 capability의 엄격한 척도를 제공합니다.
우리의 benchmark design을 보완하여, 우리는 높은 data quality를 보장하기 위해 상당한 인간 참여를 수반하는 세심한 human annotation pipeline을 개발합니다. 총 12명의 annotators와 50명의 reviewers가 3,300 human-hours 이상을 기여합니다. 우리는 엄격한 video selection criteria를 적용하고, 철저한 multi-stage review 및 quality control process를 구현합니다. 이 pipeline을 따라, 우리는 800개의 videos와 3,200개의 questions로 구성된 datasets를 큐레이션합니다. 종합적으로, Video-MME-v2는 고립된 task performance뿐만 아니라, 복잡한 video 시나리오에서 robust하고 faithful comprehension을 달성하는 model의 능력까지 평가하는 고품질의 포괄적인 benchmark를 제공합니다.
Video-MME-v2의 까다로운 특성을 입증하기 위해, 우리는 광범위한 최전선 video MLLMs 전반에 걸쳐 광범위한 evaluations를 수행합니다. 우리의 분석은 Qwen3.5 및 Kimi-K2.5와 같은 선도적인 open-source models와 함께, Gemini-3-Pro, GPT-5, Seed-2.0, 그리고 MiMo-v2-Omni와 같은 최첨단 독점 시스템들을 아우릅니다. 경험적 결과는 현재의 models와 인간 전문가 사이의 상당한 격차를 드러냅니다: 인간 전문가가 90.7점을 달성하는 반면, 최고 성능의 model인 Gemini-3-Pro는 49.4점에 그칩니다. open-source 커뮤니티에서도 상당한 performance 격차가 지속되고 있으며, 최고 성능을 내는 model인 Qwen3.5-397B-A17B-Think는 39.1점을 달성합니다. 이 격차를 넘어, 우리는 video understanding에서 명확한 hierarchical bottleneck을 발견합니다. high-level reasoning에서의 실패는 단순히 불충분한 reasoning ability 때문만이 아니라, visual information aggregation 및 temporal modeling을 포함한 초기 단계에서 누적된 errors들에 의해서도 발생합니다. 이러한 결과는 치명적인 한계를 드러냅니다: 현재의 models가 얕은 perception-level tasks에서는 적절하게 perform할 수 있지만, 이들은 근본적으로 역동적이고 real-world 시나리오를 탐색하는 데 필요한 capability consistency와 reasoning coherence가 부족합니다.
우리는 Video-MME-v2에 대한 analysis experiments를 추가로 수행하여 여러 핵심적인 통찰력을 얻었습니다.
- 기존의 per-question accuracy는 model capability를 크게 과대평가하는 반면, 우리의 group-based nonlinear scoring은 state-of-the-art models조차도 correlated queries 전반에 걸쳐 일관성이 부족하다는 것을 밝혀냅니다.
- 흥미롭게도, thinking modes를 활성화하면 자막이 있을 때는 performance가 향상되지만 textual cues가 없을 때는 심각한 regression을 유발할 수 있으며, 이는 현재의 models가 여전히 language-based reasoning에 과도한 가중치를 두어 language priors에 대한 과의존성을 초래한다는 것을 나타냅니다.
- Omni-modal aggregation, long-context temporal modeling, 그리고 complex reasoning은 시너지 효과를 내는 향상을 보여주지만, 큰 parameters 스케일은 누락된 capabilities를 부분적으로 보완할 수 있습니다.
이러한 목적을 위해, 우리는 이러한 experiments와 심층적인 분석에 의해 뒷받침되는 Video-MME-v2 benchmark가 video MLLM evaluation을 위한 주력 표준으로 작용하여 이 분야의 미래 발전을 주도하기를 바랍니다.
[Video-MME-v2: 1. Introduction 핵심 정리 노트]
1. 연구 배경 및 문제 제기 (Motivation)
- 기존 벤치마크의 한계: 기존 video understanding 평가 지표들은 빠르게 포화 상태(saturated)가 되고 있으며, 단편적인 단일 문항 정답률(per-question accuracy)에만 의존함.
- 문제점: 이로 인해 모델의 실제 역량이 과대평가되며, 일관성(consistency)과 신뢰할 수 있는 추론(reliable reasoning) 능력을 제대로 평가하지 못하는 한계가 존재함.
2. 핵심 제안: Video-MME-v2 벤치마크
- 단순한 video comprehension을 넘어, 모델의 Robustness와 Faithfulness를 엄격하게 평가하기 위한 새로운 비디오 벤치마크 도입.
3. 핵심 혁신 요소 (Methodological Innovations)
A. Multi-level Evaluation Hierarchy (점진적 3단계 평가 계층) 단편적 평가를 탈피하고 인지부터 고차원 추론까지 종합적인 taxonomy 제공.
- Level 1 (Information aggregation): 프레임 간, 모달리티 간 정보의 단순 취합 및 인지 능력.
- Level 2 (Temporal dynamics modeling): 인과관계, 상태 변화, 시간적 순서(sequential order) 모델링.
- Level 3 (Complex video reasoning): 물리적 이해, 사회적 지능, 복잡한 플롯 파악 등 실제 세계 수준의 심층 추론.
B. Group-based Evaluation Strategy (그룹 기반 비선형 평가 전략) 단일 문항이 아닌 연관된 '문항 그룹'을 평가하여 모델의 진짜 실력을 검증.
- Capability consistency (역량의 폭): 동일한 기초 인지 스킬을 다양한 측면과 세분성(예: 객체 수 세기 -> 동작 수 세기)으로 테스트하여 일관성 검증.
- Reasoning coherence (추론의 깊이): 시간적/인과적으로 연결된 질문 시퀀스를 던져, 모델이 논리적 단계(logical steps)를 제대로 밟아가는지 검증.
- Non-linear scoring (비선형 채점): 연관된 질문들의 **Joint correctness(공동 정답 여부)**를 평가. 부분적인 찍기(guess-based)나 파편화된 정답에 페널티를 부여.
4. 데이터셋 구축 (High-Quality Pipeline)
- 총 3,300시간 이상의 휴먼 리소스 투입 (12명의 annotator, 50명의 reviewer).
- 엄격한 다단계 리뷰를 거쳐 800개의 비디오와 3,200개의 고품질 질문(questions) 구축.
5. 주요 실험 결과 및 통찰 (Key Findings & Insights)
- 압도적인 성능 격차: Human Expert (90.7) vs 현재 최고 모델 Gemini-3-Pro (49.4).
- Hierarchical Bottleneck 발견: 모델들이 고차원 추론(Level 3)에서 실패하는 이유는 단순한 추론 능력 부족 때문이 아니라, **초기 단계(Visual aggregation 및 Temporal modeling)에서 발생한 오류가 누적(propagate)**되기 때문임.
- Thinking Mode의 텍스트 의존성 (Language Prior Bias): Thinking mode를 켤 때, 자막(Textual cues)이 있으면 성능이 오르지만 순수 Visual 환경에서는 오히려 성능이 심각하게 하락함. 현재 모델들이 언어 기반 추론에 지나치게 의존하고 있음을 시사.
- 결론: 기존의 per-question 평가는 모델의 능력을 크게 과대평가했으며, 최첨단 모델들조차 복잡한 비디오 시나리오에서 요구되는 일관성(consistency)과 논리적 연결성(coherence)이 근본적으로 부족함.
쉬운 설명 :
이 논문의 서론을 쉽게 비유하자면 **"AI 영상 모델들을 위한 족집게 방지용 심층 면접 시험"**을 만들었다고 볼 수 있습니다.
지금까지 AI 모델들의 비디오 이해 능력을 평가하는 시험(기존 벤치마크)은 단순한 O/X 퀴즈나 단답형 객관식 위주였습니다. 그러다 보니 AI가 진짜로 영상을 이해해서 맞춘 건지, 아니면 대충 찍거나 텍스트(자막)만 보고 눈치껏 맞춘 건지 구별하기가 어려웠고, 모델들의 점수만 비정상적으로 높게 나오는 거품 현상이 있었습니다.
그래서 연구진은 Video-MME-v2라는 아주 까다롭고 똑똑한 새로운 시험을 만들었습니다.
이 시험의 가장 큰 특징은 두 가지입니다.
- 단계별 꼬리물기 질문 (Multi-level & Reasoning coherence): "이 화면에 사과가 있니?"라고 묻고 끝나는 게 아니라, "사과가 있니? -> 누가 사과를 먹었니? -> 사과를 먹은 이유는 앞선 장면의 어떤 사건 때문이니?"처럼 인과관계와 논리적 흐름을 제대로 파악해야만 끝까지 대답할 수 있게 만들었습니다.
- 부분 점수 없는 연대 책임 (Non-linear scoring): 꼬리물기 질문 중 하나라도 찍어서 맞추거나 앞뒤 말이 안 맞으면 점수를 주지 않습니다. 진짜로 영상을 완벽하게 이해하고 논리적으로 추론해야만 점수를 줍니다.
결과적으로 이 무자비한 시험을 현재 세상에서 가장 똑똑하다는 AI들(Gemini-3-Pro, GPT-5 등)에게 치르게 해보니, 사람(90.7점)에 비해 턱없이 낮은 점수(최고 49.4점)를 받았습니다. 특히 재미있는 점은, AI들이 영상을 보고 생각(Thinking)을 할 때 화면에 나오는 영상 그 자체보다 자막(글씨)에 엄청나게 의존한다는 약점도 들통났다는 것입니다. 영상을 제대로 볼 줄 아는 게 아니라, 여전히 글 읽는 능력에 기대고 있었다는 뜻이죠.
결론적으로 이 벤치마크는 **"AI 모델들아, 너희 아직 갈 길이 멀었어. 제대로 된 시각적 이해력과 논리력을 키워와!"**라고 뼈를 때리며 새로운 목표를 제시해 주는 역할을 합니다.
2 Related Work
Advancements in Video MLLMs. Video understanding은 multimodal large language models (MLLMs)에 있어 매우 중요한 연구 방향입니다. LLaVA-Video 및 Qwen2.5-VL과 같은 초기 연구들은 주로 비디오를 개별 프레임의 sequences로 취급하여, image understanding에서 video comprehension으로 capabilities를 전이시켰습니다. visual reasoning 분야에서 MLLMs가 빠르게 발전함에 따라, 최근 연구들은 더 복잡한 video reasoning tasks를 다루기 시작했습니다. Group Relative Policy Optimization (GRPO)를 통합함으로써, Video-R1 및 VideoChat-R1과 같은 models는 비디오 tasks에 대해 향상된 reasoning 능력을 보여주었습니다. VideoChat-R1.5와 같은 더 최근의 발전들은 tool 사용을 video understanding에 통합함으로써 이러한 연구 방향을 더욱 확장하고 있습니다.
Video MLLMs Benchmarks. video MLLMs의 빠른 발전과 함께, 관련된 benchmarks 또한 발전해 왔습니다. 기존의 노력들은 주로 두 가지 범주로 나뉩니다. 일부는 세밀한 action understanding을 강조하는 MVBench 및 MotionBench와, 긴 video comprehension을 목표로 하는 LongVideoBench 및 LVBench처럼 domain-specific capabilities에 초점을 맞춥니다. 한편, Video-MME와 같은 benchmarks는 일반적인 video understanding 능력에 대한 보다 포괄적이면서도 비교적 기초적인 evaluation을 제공하는 것을 목표로 합니다. VideoMMMU, MMVU, 그리고 VideoReasonBench를 포함한 더 최근의 연구들은 complex video reasoning으로 관심을 돌리며, video MLLM 연구의 새로운 트렌드를 제시하고 있습니다. 그러나 기존의 benchmarks는 specific하거나 기초적인 capabilities만을 평가하는 경향이 있어, perception과 reasoning에 대한 더 깊은 조사는 대체로 미개척 상태로 남아 있습니다. 이러한 공백을 해결하기 위해, 우리는 포괄적이고 multi-level인 task suite를 통해 perception consistency와 reasoning coherence를 모두 평가하도록 설계된 새로운 benchmark인 Video-MME-v2를 소개하며, 이는 차세대 video MLLMs를 위한 강력한 evaluation 표준으로서의 역할을 합니다.
[Video-MME-v2: 2. Related Work 핵심 정리 노트]
1. Video MLLM 모델의 발전 동향 (Trend & Shift)
- 초기 접근법 (Frame-level transfer): LLaVA-Video, Qwen2.5-VL 등은 비디오를 단순한 '개별 프레임의 연속'으로 취급하여, 기존 Image understanding 역량을 비디오로 전이하는 데 집중함.
- 최근의 진화 (Complex Reasoning): 단순 인지를 넘어 복잡한 비디오 추론으로 연구 초점이 이동함.
- 강화학습 도입: GRPO(Group Relative Policy Optimization)를 적용한 Video-R1, VideoChat-R1 등이 등장하며 비디오 태스크의 추론 능력을 크게 향상시킴.
- 도구 사용 (Tool-use): VideoChat-R1.5처럼 외부 도구 사용을 비디오 이해에 통합하는 단계까지 발전함.
2. 기존 Video Benchmarks의 한계 (Research Gap) 비디오 MLLM의 발전에 따라 벤치마크도 진화했으나, 현재 평가는 양극화되어 있으며 심층성이 부족함.
- Domain-specific 평가: MVBench/MotionBench(세밀한 동작 위주), LongVideoBench(긴 길이 위주) 등 특정 영역에만 치우쳐 있음.
- Elementary 평가: 기존 Video-MME와 같은 벤치마크는 포괄적이긴 하나 평가의 깊이가 얕고 기초적인 수준에 머무름.
- 최신 트렌드의 한계: VideoMMMU, VideoReasonBench 등 복잡한 추론(Complex reasoning)을 평가하려는 시도들이 등장하고 있으나, 여전히 모델의 **Perception(인지)**와 Reasoning(추론) 사이의 유기적이고 심층적인 관계를 파고들지는 못함.
3. Video-MME-v2의 핵심 포지셔닝 (Contribution)
- 단순히 어려운 문제를 내는 것을 넘어, **인지적 일관성(Perception consistency)**과 **논리적 연결성(Reasoning coherence)**을 동시에 평가하는 최초의 Multi-level 벤치마크를 제안함.
- 기존 벤치마크들이 놓치고 있던 "기초 인지가 탄탄한가?"와 "추론 과정이 논리적으로 이어지는가?"를 종합적으로 검증하는 차세대 평가 표준으로 자리매김하고자 함.
쉬운 설명 :
이 섹션은 **"AI 영상 모델들은 그동안 어떻게 똑똑해졌고, 기존 시험지들은 왜 이제 쓸모가 없어졌는가?"**를 설명하는 배경지식 부분입니다.
1. AI 영상 모델의 발전 과정 옛날 AI 모델들은 영상을 볼 때 그냥 **"사진 여러 장을 빠르게 넘겨보는 수준"**이었습니다. 하지만 요즘 AI들은 단순한 시각 능력을 넘어서서 생각(Reasoning)을 하기 시작했습니다. 사람처럼 강화학습(GRPO)을 통해 복잡한 문제를 풀고, 심지어 계산기나 검색기 같은 도구(Tool)를 활용해서 영상을 이해할 정도로 똑똑해졌습니다.
2. 기존 시험지(벤치마크)의 문제점 학생(AI)들의 수준이 이렇게 높아졌는데 시험지는 그대로면 안 되겠죠? 기존의 시험지들은 크게 두 가지 문제가 있었습니다.
- 편식형 시험지: 달리기 속도만 재거나, 마라톤 체력만 재는 식으로 특정 능력(미세한 동작 구분, 엄청 긴 영상 보기)만 평가했습니다.
- 수박 겉핥기형 시험지: 종합 문제지이긴 한데 난이도가 너무 낮아서 진짜 실력을 가리기 어려웠습니다. 최근에 '심화 추론' 문제집들이 나오고는 있지만, 학생이 진짜 원리를 이해해서 푼 건지(인지) 아니면 논리적으로 잘 찍은 건지(추론) 꼼꼼하게 따져 묻지 못했습니다.
3. 그래서 우리가 이 시험지(Video-MME-v2)를 만들었다! 이 논문의 연구진은 **"기본기(흔들리지 않는 시각 인지 능력)부터 심화 응용(논리적인 꼬리물기 추론)까지, 꼼꼼하고 입체적으로 채점하는 끝판왕 시험지를 만들자!"**라고 선언하며 Video-MME-v2를 제안한 것입니다.
3 Benchmark Design
3.1 Progressive Capability Hierarchy
이전의 benchmarks는 대부분 고립된 측면에서 questions를 구성하여, video comprehension의 점진적인(progressive) 특성을 누락했습니다. 이러한 한계를 해결하기 위해, 우리는 dataset을 기본 multiple-point information aggregation부터 dynamic temporal modeling을 거쳐 complex reasoning에 이르는 12개의 하위 범주와 30개 이상의 task 유형으로 구성된 세 가지 hierarchical levels로 구성합니다. Figure 1에서 볼 수 있듯이, questions는 이 levels에 균등하게 분포되어 있습니다. 전체 taxonomy는 Table 4에 제공됩니다.
- Level 1: Visual Information Aggregation. 이 foundational level은 주로 특정 timestamps에서 information을 식별하고 통합하는 model의 능력을 평가합니다. 이는 세 가지 핵심 측면을 포함합니다: objects, attributes, 그리고 scenes를 식별하는 데 중점을 두는 Visual Recognition; visual cues와 audio semantics(예: 톤-무드 동기화)의 정렬을 평가하는 Cross-Modal Consistency; 그리고 counting 및 기본 숫자 reasoning과 관련된 tasks를 포함하는 Basic Counting & Calculation입니다.
- Level 2: Temporal Dynamics. Level 1을 기반으로, 이 level은 events의 시간적 진화(temporal evolution)를 강조합니다. 여기에는 세 가지 주요 하위 level이 포함됩니다: actions를 인식하고 motion trajectories를 추적하는 model의 능력을 평가하는 Action & Motion Analysis; events나 object 출현의 시간적 순서(chronological order)를 결정하는 데 중점을 두는 Sequential Ordering; 그리고 시간적 context를 기반으로 events의 원인을 이해하는 것을 포함하는 Causal Reasoning입니다.
- Level 3: Complex Reasoning. 이 advanced level은 전문 지식과 multi-hop inference가 필요한 real-world 인지 tasks를 시뮬레이션합니다. 여기에는 세 가지 주요 측면이 포함됩니다: plot twists, 은유, 그리고 비선형 스토리텔링(non-linear storytelling)을 해석하는 것을 포함하는 Narrative Understanding; dyadic interactions와 집단 행동(collective behaviors)을 분석하는 데 중점을 두는 Social Dynamics; 그리고 real-world 시나리오에서 counterfactual reasoning과 물리적 제약 조건을 이해해야 하는 Physical World Reasoning입니다.
3.2 Group Type Definition
previous work는 주로 per-question accuracy에 초점을 맞춰, faithful video understanding과 reasoning을 위한 일관되고(consistent) 논리적으로 연결된(coherent) comprehension의 중요성을 간과했습니다. image 도메인에서, MME는 이해의 신뢰성을 테스트하기 위해 augmented group QA(하나의 대상 question에 대해 두 가지 다른 방식으로 질문하고, 대답은 각각 'yes'와 'no'임)를 처음 도입했습니다. MMBench는 대답 안정성을 보장하기 위해 대답 옵션 내용을 바꾸는 순환적(circular) evaluation strategy를 제안합니다. video understanding에서, Video-TT는 model consistency를 조사하기 위해 augmented group questions를 사용하는 최초의 benchmark입니다. 그러나 이러한 방법들은 주로 개별 questions를 augmenting하는 데 집중하며, group 내 interrelations의 중요성은 무시합니다. 우리의 디자인은 perception과 reasoning 모두에 대해 관련된 queries 간의 relationships를 명시적으로 model하는 question groups를 통합함으로써 이러한 관점을 확장하고, 이를 통해 model understanding에 대한 보다 포괄적인 assessment를 가능하게 합니다.
- Consistency-Based Group. consistency-based group은 제한된 일련의 questions를 사용하여 특정 capability를 어떻게 evaluate할 것인가 하는 핵심 문제를 해결하여, 결과적으로 model 역량에 대한 보다 정확한 assessment를 가능하게 하는 것을 목표로 합니다. 우리는 두 가지 차원, 즉 breadth(폭)와 granularity(세분성)를 따라 consistency groups를 구성합니다. breadth를 위해, 우리는 다른 reasoning 측면을 포착하기 위해 단일 도메인 내에서 다양한 question 유형을 디자인합니다. 예를 들어, spatial understanding 도메인 내에서 우리는 static과 dynamic 공간 comprehension을 모두 평가하기 위해 object localization consistency와 relative motion reasoning questions를 포함합니다. granularity를 위해, 우리는 하나의 question 유형을 다중 spatio-temporal scales로 확장합니다. 예를 들어, 한 피트니스 튜토리얼 video에서, 우리는 전체적인(holistic) understanding을 평가하기 위해 전역적인 운동 sequence에 대해 묻고, fine-grained action comprehension을 측정하기 위해 단일 동작 내의 하위 동작들의 순서 매기기(ordering)에 대해 묻습니다. 이 두 가지 차원을 결합함으로써, consistency-based groups는 특정 도메인 내에서 video understanding의 체계적이고 multi-granularity evaluation을 제공합니다.
- Coherence-Based Group. coherence-based group은 complex video reasoning tasks를 처리할 때 model의 reasoning coherence를 평가하도록 설계되었습니다. 기존 benchmarks는 일반적으로 그러한 questions에 대한 최종 answers만 평가하며, model이 어떻게 그 answers에 도달하는지는 간과합니다. 그러나, model이 진정으로 multi-step reasoning을 수행하는지 아니면 그저 우연히 정답 옵션을 추측하는지 결정하기 위해 중간 reasoning process를 추적하는 것은 매우 중요합니다. 일부 연구들이 reasoning 내용을 평가하여 중간 supervision(intermediate supervision)을 탐구했지만, 이들은 처음부터 마일스톤 reasoning steps를 명시적으로 확인하는 점진적인 question group으로 evaluation을 구성하지 않습니다. 각 coherence-based group에서, 우리의 question sets는 인간이 복잡한 문제를 풀기 위해 따를 논리적 진행(logical progression)을 모방하도록 구성됩니다. 예를 들어, 한 인물이 다른 사람들을 속이기 위해 자신의 죽음을 위장하는 복잡한 plot 분석 task의 경우, 우리는 model이 표면적인 죽음에 대한 직접적인 visual clues를 식별할 수 있는지, 진짜 죽음과 모순되는 변칙적인 세부 사항(anomalous details)을 포착할 수 있는지, 연출된 행동의 근본적인 목적을 추론할 수 있는지, 그리고 선행 증거들에 의해 제약받는 최종 결론을 도출할 수 있는지 체계적으로 평가합니다. clue localization, anomaly verification, purpose explanation, 그리고 conclusion closure를 통한 이러한 hierarchical verification process는 우리가 model이 video content에 기반하여 coherent reasoning을 수행하는지 효율적으로 구별할 수 있게 해줍니다. 이 디자인은 우리가 명시적인 reasoning chain을 구축할 수 있게 하여, 현재 video MLLMs의 진정한 reasoning capability에 대한 보다 엄격하고 해석 가능한 assessment를 제공합니다.
3.3 Metrics
우리의 evaluation은 기존의 per-question accuracy와 group-level scores를 모두 통합합니다. Video-MME-v2의 근본적인 디자인 철학과 맞추기 위해, 우리는 group evaluations에 non-linear scoring mechanism을 적용하여, 명시적으로 capability consistency와 reasoning coherence를 강조합니다.
- Average Accuracy (Avg Acc). $q$를 questions 인덱스라고 합시다. Avg Acc는 per-question correctness의 평균입니다:
- $$AvgAcc = \frac{1}{|Q|} \sum_{q \in Q} I[\hat{y}_q = y_q]$$
- Group-level Non-linear Score. 기존의 evaluation protocols는 non-linear scoring metrics를 거의 사용하지 않습니다. image 도메인에서, MME는 동일한 task에 묶인 augmented questions를 올바르게 대답한 models에 보너스 점수를 부여함으로써 non-linear 접근법을 선도했습니다. 그러나 video 도메인에서, 이전 연구들은 주로 표준 average accuracy에 의존하며, 신중한 metric 디자인이 어떻게 video comprehension의 robustness와 faithfulness를 더 잘 반영할 수 있는지는 크게 간과합니다. Video-MME-v2에서, 우리는 특정 group 내에서 관련된 questions에 대해 model의 robustness를 평가하도록 설계된 group-level non-linear metric을 도입합니다. $g$를 groups 인덱스라고 하고, 각 group은 네 개의 questions $(q_{g,1}, \dots , q_{g,4})$를 갖습니다. 우리는 questions를 독립적으로 취급하기보다는 group 내의 joint correctness 패턴에 따라 달라지는 group score $S(g)$를 정의합니다:consistency groups의 경우, 우리는 non-linear scoring function을 사용합니다: 4개의 관련된 questions 중 $N$개의 올바른 대답이 주어지면, group score는 $(N/4)^2$입니다. 이 이차 억제(quadratic suppression)는 고립된 올바른 추측에 페널티를 부여하고 동일한 capability의 다른 측면 전반에 걸친 일관된 performance에 보상을 줍니다. coherence groups의 경우, 우리는 첫 번째 오류 절단(first-error truncation) mechanism을 적용합니다: 첫 번째 reasoning step에서 시작하여, 가장 긴 연속적인 올바른 대답의 sequence만 점수에 산입됩니다. 오류가 발생하는 순간, 그 이후의 올바른 대답은 무시됩니다. 이는 model이 논리적으로 뒷받침되지 않는 올바른 단계에 대해 점수를 얻는 것을 방지하여, 오직 faithful reasoning chains에만 보상이 주어지도록 보장합니다.
-
$$Overall = \frac{1}{|G|} \sum_{g \in G} S(g)$$
[Video-MME-v2: 3. Benchmark Design 핵심 정리 노트]
1. 점진적 역량 평가 계층 (Progressive Capability Hierarchy)
기존 벤치마크들의 파편화된 평가 방식을 지양하고, 비디오 이해의 점진적 특성을 반영하여 3단계(12개 하위 범주, 30개 이상의 task)로 구조화함.
- Level 1 (Visual Information Aggregation): 특정 프레임(Timestamp)에서의 기초 정보 통합 능력 (객체/장면 인식, Cross-Modal 일관성, 카운팅 등).
- Level 2 (Temporal Dynamics): 시간의 흐름에 따른 사건의 진화 모델링 (동작 분석, 순서 지정, 인과적 추론).
- Level 3 (Complex Reasoning): 전문 지식과 다중 호프 추론(Multi-hop inference)이 요구되는 실제 세계 수준의 인지 능력 (내러티브 이해, 사회적 역학 분석, 물리 세계의 제약 조건 추론).
2. 그룹 기반 평가 설계 (Group Type Definition) - 핵심 차별점
단일 문항 정답률(per-question accuracy)이 가진 '우연한 정답(guessing)'의 맹점을 막기 위해, 문항들을 논리적으로 묶어 평가함.
- Consistency-Based Group (역량의 일관성 검증): 특정 능력에 대해 폭(Breadth: 정적/동적 이해 등 다양한 측면)과 세분성(Granularity: 전체 흐름부터 미세 동작까지의 스케일)을 다각도로 질문하여 모델의 기초기가 탄탄한지 검증.
- Coherence-Based Group (추론의 논리적 연결성 검증): 인간의 논리적 문제 해결 과정을 모방하여 꼬리물기식 질문 세트 구성. (예: 시각적 단서 포착 -> 모순점 확인 -> 목적 추론 -> 최종 결론 도출). 중간 단계를 건너뛰고 결론만 맞추는 것을 방지함.
3. 비선형 채점 매트릭스 (Non-linear Metrics) - 논문의 치트키
전통적인 평균 정답률(Avg Acc)에 더해, 그룹 단위의 **비선형 점수(Group-level Non-linear Score)**를 도입하여 모델의 진정한 신뢰성(Faithfulness)을 수치화함.
- 일관성 그룹 채점 (Quadratic Suppression): 4개의 연관된 문제 중 정답 개수를 $N$이라 할 때, 점수는 $(N/4)^2$로 산출됨. 1~2개만 우연히 맞춘 경우 페널티를 크게 부여하여 확실한 일관성을 요구함.
- 논리성 그룹 채점 (First-error Truncation): 첫 번째 추론 단계부터 시작하여 '연속으로 맞춘 질문'까지만 점수로 인정. 중간에 논리적 오류가 한 번이라도 발생하면(틀리면), 그 이후의 질문을 맞춰도 모두 무시(0점 처리)하여 찍기 기반의 추론을 철저히 배제함.
쉬운 설명 :
이번 섹션은 Video-MME-v2라는 **'새로운 수능 시험지가 어떻게 출제되고 채점되는지'**를 설명하는 부분입니다.
1. 문제의 난이도는 3단계로 올라갑니다.
- 1단계 (눈썰미 테스트): "이 화면에 강아지가 있니? 빨간색 공은 몇 개니?" 같은 기초적인 시각 정보를 묻습니다.
- 2단계 (기억력 및 인과관계 테스트): 영상이 재생되는 동안 "강아지가 공을 물고 어디로 갔니? 유리가 깨진 이유는 무엇이니?"처럼 시간의 흐름과 원인-결과를 묻습니다.
- 3단계 (심층 추론 테스트): "이 영화에서 주인공이 일부러 죽은 척을 한 진짜 이유는 무엇일까?"처럼 사람도 머리를 써야 하는 복잡한 상황과 물리법칙, 사회적 관계를 묻습니다.
2. 꼼수 방지용 '세트 문제'를 출제합니다.
기존 AI들은 오지선다형을 대충 찍어서 맞추는 꼼수를 부렸습니다. 이를 막기 위해 문제들을 '그룹'으로 묶었습니다.
- 일관성 세트: 사과를 인식하는 능력을 보려면, "저기 사과 있어?"만 묻는 게 아니라 "사과가 왼쪽으로 갔어 오른쪽으로 갔어?", "사과를 반으로 쪼개면 어떻게 돼?" 등 한 가지 주제를 이리저리 찔러보며 진짜 아는지 확인합니다.
- 논리성 세트 (스무고개): 탐정 놀이처럼 꼬리물기 질문을 합니다. "1번: 바닥에 피가 있니?", "2번: 창문이 깨졌니?", "3번: 범인이 누구니?". AI가 이 과정을 논리적으로 따라오는지 확인합니다.
3. 채점 방식이 아주 무자비합니다. (이 논문의 가장 큰 특징)
- 제곱 감점법: 4문제 세트에서 1문제만 찍어서 맞추면 원래 25점을 줘야 하지만, 이 시험은 "어차피 찍은 거네!" 하면서 점수를 대폭 깎아버립니다. 다 맞아야 제대로 된 점수를 줍니다.
- 연속 정답만 인정 (가차 없는 채점): 앞서 말한 탐정 놀이에서 1번(단서)과 2번(논리) 문제를 틀렸는데, 3번(범인) 문제만 맞추면 어떻게 될까요? 이 시험관은 "논리가 틀렸는데 범인을 맞췄다? 너 찍었구나!" 하고 가차 없이 0점 처리해 버립니다. 중간에 한 번이라도 틀리면 그 뒤는 아예 채점도 안 하는 아주 엄격한 방식입니다.
8지 선다로 바꿈
텍스트만 보고 풀 수 있는 문제 차단
보기 길이 편향 제거
프레임 정보가 중요한 문제들로 대거 배치
3단계의 채점 단계 활용
