AI바라기의 인공지능
VLM : 논문리뷰 : VideoRewardBench: Comprehensive Evaluation of Multimodal Reward Models for Video Understanding 본문
VLM : 논문리뷰 : VideoRewardBench: Comprehensive Evaluation of Multimodal Reward Models for Video Understanding
AI바라기 2025. 9. 8. 18:22쉬운 설명 (Easy Explanation)
이 논문의 핵심 아이디어를 쉽게 비유하자면 다음과 같습니다.
"지금까지 AI 모델(MRM)들이 비디오를 얼마나 잘 이해하는지 평가하는 시험은 몇 문제 안 되는 쪽지시험 수준에 불과했습니다. 이 논문은 비디오 이해 능력을 제대로 평가하기 위해 '종합 대학수학능력시험(수능)'과 같은 VideoRewardBench라는 새로운 시험지를 만든 것입니다. 이 '수능'은 'perception(국어/영어)', 'knowledge(사회/과학탐구)', 'reasoning(수학)', 'safety(윤리)'와 같은 다양한 과목을 포함하고 있으며 문제도 훨씬 어렵습니다. 이 새로운 시험으로 AI들을 테스트해 보니, 전교 1등(SOTA 모델)조차 60점대 초반의 점수를 받는다는 충격적인 결과가 나왔습니다. 즉, 이 연구는 AI들이 비디오를 제대로 이해하려면 아직 갈 길이 멀다는 것을 명확히 보여주고, 앞으로 어떤 과목을 더 공부해야 할지 알려주는 기준점을 제시한 것입니다."
용어 설명 (Terminology)
- Multimodal Reward Models (MRMs): Video와 text prompt가 함께 주어졌을 때, 생성된 답변의 품질(quality)을 평가하여 점수(reward)를 매기는 모델. Large Vision Language Models (LVLMs)의 학습, 추론, 평가 전반에 걸쳐 중요한 역할을 합니다.
- VideoRewardBench: 이 논문에서 제안하는, video domain의 MRM 성능을 종합적으로 평가하기 위한 최초의 대규모 benchmark.
- Generative, Discriminative, Semi-scalar MRMs: MRM의 세 가지 주요 카테고리.
- Generative: LVLM을 직접 사용하여 주어진 응답에 대한 비평(critique) 텍스트를 생성하는 방식.
- Discriminative: 주어진 prompt와 응답에 대해 직접적인 스칼라 점수(scalar score)를 할당하는 방식.
- Semi-scalar: 먼저 응답에 대한 비평 텍스트를 생성한 후, 이를 바탕으로 스칼라 점수를 예측하는 방식.
- Inference-time scaling: 추론 시, 동일한 prompt에 대해 여러 개의 후보 응답을 생성하고, 이를 종합(e.g., majority voting)하여 최종 판단을 내리는 기법.
- Cross-modal generalization: Image나 text 데이터로 학습된 reward modeling 능력이 video라는 다른 modality에서도 효과적으로 발휘되는 능력.
Purpose of the Paper
이 논문은 video understanding 분야에서 Multimodal Reward Models (MRMs)를 평가하기 위한 기존 benchmark들의 명확한 한계를 극복하고자 수행되었습니다.
- 기존 연구의 한계점:
- Limited questions: 평가에 사용되는 질문의 수와 다양성이 절대적으로 부족했습니다. (기껏해야 100개 수준)
- Lack of comprehensive dimensions: 대부분 'perception' 영역에만 치우쳐 있었고, 'knowledge', 'reasoning', 'safety'와 같은 핵심적인 평가 차원을 다루지 못했습니다.
- Insufficient analysis of MRMs: 주로 generative MRM에만 초점을 맞추고, 다양한 종류의 MRM에 대한 분석이 부족했으며, inference-time scaling이나 video frame 수와 같은 변수가 성능에 미치는 영향을 탐구하지 않았습니다.
- 이 연구의 목표:
- 위의 한계들을 모두 해결하는, video domain을 위한 최초의 대규모 종합 평가 benchmark인 VideoRewardBench를 제안하는 것을 목표로 합니다. 이를 통해 현재 MRM들의 실질적인 성능 수준을 측정하고, 미래 연구 방향을 제시하고자 합니다.
Key Contributions & Novelty
Key Contributions
- VideoRewardBench 제안: video understanding을 위한 MRM 평가용 최초의 대규모 종합 benchmark를 구축했습니다.
- 1,563개의 annotated samples, 1,482개의 unique videos, 1,559개의 distinct questions를 포함 (기존 benchmark 대비 15배 이상).
- 4가지 핵심 평가 차원 (Four Core Aspects): Perception (long/short-form), Knowledge, Reasoning, Safety를 포괄적으로 다룹니다.
- 28개 MRMs에 대한 포괄적인 평가 (Comprehensive Evaluation):
- Proprietary models (GPT-4o, Gemini-2.5-Pro 등)와 open-source models을 모두 포함.
- Generative, discriminative, semi-scalar 세 가지 주요 MRM 카테고리를 모두 평가하여 모델 타입별 성능 차이를 분석했습니다.
- MRM에 대한 3가지 새로운 발견 (Three Key Insights):
- Reinforcement Learning (RL)으로 학습된 MRM이 반드시 더 나은 cross-modal generalization 성능을 보이지는 않습니다.
- Inference-time scaling은 (discriminative MRM을 제외하고) video domain에서 대부분의 MRM 성능을 일관되게 향상시킵니다.
- 입력 video frame 수의 변화는 MRM 종류에 따라 각기 다른 영향을 미칩니다.
Novelty
- 'Video' Domain 특화: 기존의 text나 image 중심의 reward model benchmark와 달리, video라는 동적이고 복잡한 modality에 특화된 최초의 대규모 benchmark라는 점에서 독창적입니다.
- '평가 차원의 포괄성': 단순 인지를 넘어 지식, 추론, 안전성까지 평가함으로써 MRM의 다각적인 능력을 측정할 수 있는 holistic benchmark를 처음으로 제시했습니다.
- '실험적 발견의 참신성': RL 학습의 효과, inference-time scaling의 유용성 등 video domain에서 MRM의 동작 방식에 대한 기존 통념을 뒤집거나 새로운 관점을 제시하는 분석 결과를 내놓았다는 점에서 참신합니다.
Experimental Highlights
- Benchmark의 높은 난이도 검증: 현존 최강의 모델들도 VideoRewardBench에서 높은 성능을 보이지 못했습니다.
- Gemini-2.5-Pro (SOTA): Overall Accuracy 63.6%
- Claude-3.7-Sonnet: 63.2%
- GPT-4o: 57.0%
- 최고 성능의 open-source model (LLaVA-Critic-72B)은 63.0%를 기록했으며, 이는 기존 SOTA LVLM들의 성능을 뛰어넘는 수치입니다.
- 모델들의 취약점 발견: 대부분의 모델들이 short-form perception, knowledge, reasoning 차원에서 특히 낮은 성능(대부분 60% 미만)을 보였습니다. 이는 현재 MRM들이 복잡한 비디오 QA task에 대한 이해 및 추론 능력이 부족함을 시사합니다.
- RL 학습의 역효과 확인: RL 기반으로 학습된 MRM (e.g., R1-Reward)이 SFT(Supervised Fine-Tuning)로 학습된 모델보다 오히려 성능이 크게 하락하는 현상을 발견했습니다 (base model 대비 -15.6%p). 이는 image나 text 데이터에 대한 RL 학습이 video domain으로의 generalization에 실패했음을 의미합니다.
- Inference-time Scaling의 효과:
- 대부분의 generative 및 semi-scalar MRM에서 K (샘플링 수)가 증가함에 따라 성능이 향상되었습니다. 예를 들어, Claude-3.7-Sonnet은 K=1에서 9로 증가 시, 성능이 10.6% 향상되었습니다.
- RL로 학습된 모델(R1-Reward)이 non-critic-trained 모델보다 scaling으로 인한 성능 향상 폭이 훨씬 컸습니다 (14.3% vs 5.5%).
Limitations and Future Work
- Limitations: 논문 자체에서 명시적인 한계점을 직접적으로 서술하기보다는, 이 연구 자체가 기존 연구 분야의 한계점을 지적하고 해결하는 데 초점을 맞추고 있습니다. 따라서 이 논문의 결과가 곧 현재 MRM 기술의 한계를 보여줍니다.
- 현재 SOTA 모델들의 낮은 성능: 최고 모델도 63.6%의 정확도에 그쳐, video understanding을 위한 reward modeling이 여전히 매우 어려운 과제임을 보여줍니다.
- Cross-modal Generalization의 한계: 특히 RL로 학습된 모델들이 다른 modality(image/text)에서의 학습 결과를 video로 효과적으로 일반화하지 못하는 문제가 두드러집니다.
- Future Work: VideoRewardBench는 향후 MRM 연구를 위한 "challenging testbed" 역할을 합니다.
- 새로운 MRM 개발 및 평가: 더 정교하고 강력한 video-native MRM을 개발하고, VideoRewardBench를 통해 그 성능을 검증하는 연구가 필요합니다.
- Knowledge 및 Reasoning 능력 강화: 현재 모델들이 가장 취약한 지식 및 추론 능력을 향상시키는 새로운 architecture나 학습 방법론 연구가 요구됩니다.
- RL 방법론 개선: Video domain에서의 cross-modal generalization을 향상시킬 수 있는 새로운 RL 기법이나 데이터 증강 전략에 대한 연구가 필요합니다.
Overall Summary
이 논문은 video understanding을 위한 Multimodal Reward Models (MRMs) 평가에 있어 기존 benchmark들의 양적, 질적 한계를 지적하고, 이를 해결하기 위한 최초의 대규모 종합 benchmark인 VideoRewardBench를 제안합니다. 28개의 최신 MRM에 대한 심층 평가를 통해, 현존 최고 성능의 모델들조차 복잡한 비디오 이해, 특히 지식과 추론 영역에서 상당한 한계를 보임을 실험적으로 증명했습니다. 더 나아가, RL 학습의 일반화 실패, inference-time scaling의 유효성 등 video domain에서 MRM의 동작에 대한 새로운 인사이트를 제공하며, 이는 향후 더 발전된 MRM 개발을 위한 중요한 기반과 방향을 제시한다는 점에서 큰 의의를 가집니다.
Abstract
Multimodal reward models (MRMs)은 응답 품질을 평가함으로써 Large Vision Language Models (LVLMs)의 training, inference, evaluation에서 중요한 역할을 합니다. 하지만, video domain에서 MRMs를 평가하기 위한 기존 benchmark들은 제한된 수와 다양성의 question, 포괄적인 평가 차원의 부재, 그리고 다양한 유형의 MRMs에 대한 부적절한 평가라는 문제를 겪고 있습니다.
이러한 격차를 해소하기 위해, 우리는 video 이해의 네 가지 핵심 측면인 perception, knowledge, reasoning, safety를 다루는 최초의 포괄적인 benchmark인 VideoRewardBench를 소개합니다. 우리는 AI 지원 data pipeline을 통해 1,482개의 고유한 video와 1,559개의 개별 question을 포함하는 1,563개의 주석이 달린 sample로 구성된 고품질 선호도 dataset을 구축했으며, 이는 이전의 가장 question이 풍부했던 benchmark에서 발견된 수의 15배에 달합니다. 각 sample은 video-text prompt, 선택된 응답, 그리고 거부된 응답으로 구성된 triplet입니다.
우리는 또한 generative, discriminative, semi-scalar의 세 가지 범주에 걸쳐 있는 28개의 multimodal reward model에 대해 포괄적인 평가를 수행했습니다. 결과에 따르면 최고 성능의 model인 GPT-4o조차도 전체 정확도 57.0%를 달성하는 데 그쳤으며, state-of-the-art open-source model인 Qwen2.5-VL-72B는 단지 53.3%에 도달했습니다. 더욱이, 전문화된 reward modeling training을 거친 기존 MRMs는 여전히 최고의 상용 model에 뒤처져 있습니다.
우리의 분석은 다음 세 가지 핵심적인 통찰을 추가로 보여줍니다: (i) reinforcement learning (RL)으로 trained된 MRMs가 RL 없이 trained된 model보다 반드시 더 강력한 cross-modal 일반화 성능을 보이는 것은 아닙니다; (ii) discriminative MRMs를 제외하고, 다양한 model 용량에 걸친 다른 유형의 MRMs는 inference-time scaling의 이점을 얻을 수 있습니다; 그리고 (iii) 입력 video frame 수의 변화는 다양한 유형의 MRMs에 각기 다른 영향을 미칩니다.
우리는 VideoRewardBench가 video domain에서 MRMs의 평가와 개발을 발전시키는 데 있어 도전적이고 가치 있는 benchmark를 제공한다고 믿습니다. 우리의 dataset과 code는 https://videorewardbench.github.io/ 에 공개되어 있습니다.
1. Introduction
Reward models은 Large Language Models (LLMs)와 Large Vision Language Models (LVLMs)가 human preferences에 더 잘 부합하도록 안내하고, training, inference, evaluation에 이점을 줍니다. 첫째, training 중에 reward models은 품질이 낮은 question-answer pairs를 걸러내어 고품질의 synthetic training data 생성을 촉진합니다. 이 외에도, Direct Preference Optimization (DPO)를 위한 preference data 구축이나 Reinforcement Learning from Human Feedback (RLHF)를 위한 reward signals 제공과 같은 post-training 단계에 적용될 수 있습니다. 비록 rule-based rewards가 logical reasoning이나 factual judgment tasks에서 reward models을 대체할 수 있지만, open-domain question answering이나 safety-related tasks와 같이 검증 가능한 답변을 사용할 수 없는 domain에서는 여전히 reward models이 필요합니다. 둘째, inference 시에, 여러 후보 중에서 최상의 응답을 선택하여 성능을 향상시키기 위해 test-time scaling strategies와 통합될 수 있습니다. 셋째, evaluation 중에 고품질의 reward models은 신뢰할 수 있고 확장 가능한 평가를 제공하여 foundation models의 발전을 촉진할 수 있습니다.
LLMs와 LVLMs 개발에서 reward models의 중요한 역할에도 불구하고, reward models을 평가하기 위한 기존 benchmark들은 일반적으로 text와 image modalities에 국한되어 있습니다. 최근의 연구들은 video domain에서 multimodal reward models (MRMs)을 평가했습니다. 그러나 표 1에서 볼 수 있듯이, 이러한 노력들은 세 가지 주요 한계에 직면합니다. (1) 제한된 수와 다양성의 questions: 이 benchmark들에서 고유한 video-related questions의 수는 최대 100개이며, 주로 open-ended general video QA tasks에 국한되어 있어 다양한 question types를 포괄하지 못합니다. (2) 포괄적인 evaluation dimensions의 부재: 이 benchmark들은 어떠한 차원적 분류도 채택하지 않으며, 주로 perception domain에 국한되어 knowledge, safety, reasoning(예: spatial reasoning)을 다루지 못합니다. (3) 기존 MRM 카테고리에 대한 불충분한 분석: 이전 연구들은 주로 generative MRMs에 초점을 맞춘 제한된 수의 MRMs만을 평가합니다. 더욱이, inference-time scaling이나 video frame sampling rates가 MRM 성능에 어떻게 영향을 미치는지 조사하지 않습니다. 이러한 격차를 해소하기 위해, 우리는 video domain에서 multimodal reward models을 perception, knowledge, reasoning, safety라는 네 가지 핵심 차원에 걸쳐 평가하기 위한 최초의 포괄적인 benchmark인 VideoRewardBench를 소개합니다. perception 차원은 다양한 question types에 따라 long-form perception과 short-form perception이라는 두 개의 하위 차원으로 나뉩니다. data contamination을 피하기 위해, 우리는 training에 사용된 공개적으로 이용 가능한 모든 video preference data를 제외합니다. 우리는 여러 open-source benchmarks에서 video-text pairs를 수집하고, AI-assisted, multi-stage filtering process를 적용하여 question의 품질과 난이도를 보장합니다. 그런 다음, 여러 LVLMs를 사용하여 candidate responses를 생성하고, 각 preference pair 내에서 chosen response와 rejected response를 결정하기 위해 human annotation을 거칩니다. 우리는 충분한 annotator 간 합의가 있는 preference pairs만 유지하여 총 1,563개의 (prompt, chosen response, rejected response) triplets를 만들었습니다. 그런 다음, MRMs는 두 응답 중 어느 것이 더 나은지 식별하는 과제를 받습니다. 총체적으로, VideoRewardBench는 이전 benchmarks에 비해 15배 이상 많은 1,559개의 서로 다른 prompts를 포함합니다.
우리는 또한 generative, discriminative, semi-scalar를 포함하여 28개의 multimodal reward models (MRMs)에 대한 포괄적인 평가를 수행합니다. 우리의 VideoRewardBench는 기존 MRMs의 상당한 한계를 드러냅니다: Gemini-2.5-Pro나 Claude-3.7-Sonnet과 같은 선도적인 proprietary models은 중간 정도의 성능(Gemini-2.5-Pro: 63.6%, Claude-3.7-Sonnet: 63.2%)만을 달성했으며, GPT-4o는 단 57.0%의 성능을 보였습니다. 최고 성능의 open-source LVLM인 Qwen2.5-VL-72B는 전체 accuracy가 53.3%에 불과했습니다. 모든 open-source MRMs는 여전히 최고의 proprietary model에 뒤처져 있습니다. 대부분의 models은 short-form perception, knowledge, reasoning에서 어려움을 겪습니다. 우리는 또한 inference-time scaling과 video frame count가 다양한 MRM 카테고리에 미치는 영향을 조사했습니다. 우리의 실험은 세 가지 주요 발견을 밝혀냈습니다: (1) reinforcement learning (RL)으로 trained된 MRMs가 supervised fine-tuning (SFT)을 통해 trained된 generative MRMs나 최고 성능의 discriminative MRMs와 같이 RL 없이 trained된 models보다 반드시 더 강력한 cross-modal generalization을 보이는 것은 아닙니다. (2) VL-RewardBench의 발견과 달리, 적절한 설정과 aggregation methods 하에서 discriminative MRMs를 제외한 모든 유형의 MRMs는 다양한 model capacities에 걸쳐 inference-time scaling으로부터 일관되게 이점을 얻습니다. (3) sampled frames의 수를 늘리는 것은 대부분의 traditional video benchmarks에서 일반적으로 성능을 향상시킵니다. 그러나, frame count variation은 다양한 카테고리의 MRMs에 다르게 영향을 미칩니다. frame count가 증가함에 따라, critic-trained generative MRMs가 다른 카테고리보다 더 많은 이점을 얻는 반면, semi-scalar MRMs는 약간의 성능 저하를 보입니다. 우리는 모든 data와 evaluation code를 승인 시 공개할 것입니다.
Our main contributions are summarized as follows:
- 우리는 perception, knowledge, reasoning, safety라는 네 가지 전체적인 evaluation dimensions에 걸쳐 video domain에서 multimodal reward models (MRMs)을 평가하기 위한 최초의 대규모 종합 benchmark를 제안합니다.
- 우리는 generative, discriminative, semi-scalar와 같은 현존하는 모든 유형의 MRMs에 대한 철저한 분석을 수행합니다.
- 우리는 inference-time scaling과 다양한 sampled frame count가 여러 MRM 유형에 미치는 영향을 조사합니다.

표 1 설명
이 표는 이 논문에서 제안하는 VideoRewardBench가 기존의 다른 video 이해 benchmark들과 비교했을 때 얼마나 뛰어난지를 한눈에 보여주는 자료입니다.
각 항목을 살펴보면 다음과 같습니다.
- Dataset (데이터셋 이름)
- MM-RLHF-RewardBench, JudgeAnything은 기존에 있던 benchmark들입니다.
- VideoRewardBench (Ours)가 이 논문에서 새롭게 제안하는 benchmark입니다.
- #Questions (질문의 수)
- 기존 benchmark들의 질문 수는 각각 10개, 100개에 불과합니다.
- 반면 VideoRewardBench는 1559개의 압도적으로 많은 질문을 보유하고 있어, 훨씬 더 폭넓고 다양한 평가가 가능합니다.
- Dimension split (평가 차원 분할)
- 기존 benchmark들은 AI의 능력을 여러 차원(예: 인식, 추론 등)으로 나누어 세밀하게 평가하는 기능이 없습니다 (X 표시).
- VideoRewardBench는 이 기능이 있어서(✓ 표시), AI가 어떤 부분에서 강하고 약한지를 구체적으로 분석할 수 있습니다.
- Cover holistic dims (전체론적 차원 포괄)
- knowledge(지식)나 safety(안전성) 같은 고차원적이고 중요한 영역을 기존 benchmark들은 다루지 못했습니다 (X 표시).
- VideoRewardBench는 이러한 핵심 영역까지 모두 포함하여(✓ 표시) AI를 종합적으로 평가합니다.
- Evaluate all MRM types (모든 MRM 유형 평가)
- 기존 연구들은 일부 유형의 MRM(심판 AI)만 테스트했습니다 (X 표시).
- VideoRewardBench는 generative, discriminative 등 현존하는 모든 주요 유형의 MRM을 평가할 수 있도록 설계되었습니다 (✓ 표시).
- Evaluated #MRMs (평가된 MRM의 수)
- 기존 연구에서는 5개의 model만 평가했지만, 이 논문에서는 VideoRewardBench를 사용해 28개의 model을 테스트하여 훨씬 더 신뢰도 높은 결과를 보여줍니다.
- Highest accuracy (달성된 최고 정확도)
- 이 부분이 매우 중요합니다. 기존의 간단한 MM-RLHF-RewardBench에서는 최고 점수가 88.0%로 높게 나왔습니다.
- 하지만 훨씬 더 어렵고 종합적인 VideoRewardBench에서는 현재 가장 뛰어난 model도 **63.6%**의 정확도를 얻는 데 그쳤습니다. 이는 VideoRewardBench가 기존 model들의 한계를 명확하게 드러내는, 훨씬 더 도전적인 benchmark라는 것을 의미합니다.
결론적으로 이 표는 VideoRewardBench가 규모, 깊이, 포괄성 모든 면에서 기존 benchmark들을 압도하며, video를 이해하는 AI의 성능을 제대로 검증할 수 있는 최초의 종합적인 평가 도구임을 강조하고 있습니다.
Introduction 섹션 정리 노트 (For AI Researchers)
1. 문제 제기 (Problem Statement)
- 핵심: Video domain에서 Multimodal Reward Models (MRMs)를 평가하기 위한 기존 benchmark들의 심각한 한계점.
- 세부 문제점:
- Question 부족 및 편중: Question 수가 100개 미만으로 매우 적고, 대부분 open-ended general video QA에 치우쳐 다양성이 부족함.
- 평가 차원의 한계: Evaluation dimensions가 perception에만 국한되어 있으며, knowledge, safety, reasoning (특히 spatial reasoning)과 같은 핵심 영역을 포괄하지 못함.
- MRM 분석 부족: 소수의 generative MRMs 위주로만 평가가 이루어졌으며, inference-time scaling이나 video frame 수와 같은 변수가 MRM 성능에 미치는 영향에 대한 분석이 부재함.
2. 제안 방법 (Proposed Solution: VideoRewardBench)
- 정의: Video domain의 MRMs를 위한 최초의 대규모 종합 benchmark.
- 주요 특징:
- 4대 핵심 차원 포괄: Perception (long/short-form으로 세분화), knowledge, reasoning, safety.
- 대규모 Data: Open-source benchmarks에서 video-text pairs를 수집하고 AI-assisted filtering 및 human annotation을 통해 고품질 dataset 구축. 총 1,563개의 triplets (prompt, chosen, rejected)과 1,559개의 고유 prompts를 포함 (기존 benchmark 대비 15배 이상).
- Data 오염 방지: Training에 사용된 공개 video preference data는 모두 배제하여 평가의 신뢰성 확보.
3. 실험 및 주요 발견 (Evaluation & Key Findings)
- 평가 대상: Generative, discriminative, semi-scalar 3개 카테고리에 걸친 28개의 MRMs를 종합적으로 평가.
- 결과 요약:
- Proprietary models도 성능이 기대에 미치지 못함 (GPT-4o: 57.0%, Gemini-2.5-Pro: 63.6%).
- State-of-the-art open-source model (Qwen2.5-VL-72B) 역시 53.3%로 낮은 accuracy를 기록. 이는 현존 MRMs의 명확한 한계를 보여줌.
- 핵심 통찰 (Key Insights):
- RL의 효과: RL (Reinforcement Learning)로 trained된 MRM이 SFT (Supervised Fine-Tuning) 기반 MRM보다 반드시 더 나은 cross-modal generalization을 보이는 것은 아님.
- Inference-Time Scaling: Discriminative MRMs를 제외한 대부분의 MRM 유형은 model 용량과 무관하게 inference-time scaling을 통해 성능 향상 효과를 볼 수 있음 (이는 VL-RewardBench의 발견과 일부 대조됨).
- Frame 수의 영향: Video frame 수를 늘리는 것이 모든 MRM에 동일하게 긍정적이지 않음. Critic-trained generative MRMs는 가장 큰 이점을 보지만, semi-scalar MRMs는 오히려 성능이 약간 저하되는 등 MRM 유형별로 다른 효과를 보임.
4. 기여 (Contributions)
- Video domain을 위한 최초의 대규모 종합 MRM evaluation benchmark 제안.
- 현존하는 모든 MRM 유형(generative, discriminative, semi-scalar)에 대한 심층 분석 수행.
- Inference-time scaling과 sampled frame 수가 MRM 유형별 성능에 미치는 영향을 규명.
쉬운 설명 :
AI가 동영상을 보고 사람처럼 유용한 답변을 하도록 훈련시키려면, AI의 답변이 좋은지 나쁜지를 평가해 주는 '심판 AI'가 필요합니다. 이 심판 AI를 Reward Model (RM)이라고 부릅니다.
이 논문은 "현재 비디오를 이해하는 심판 AI들을 테스트하는 시험지가 너무 쉽고 부실하다"는 문제점에서 시작합니다. 기존 시험지들은 문제 수가 너무 적고, '이 영상에 뭐가 보여?' 같은 단순한 질문만 물어볼 뿐, '영상 속 상황은 안전한가?' 또는 '이 지식을 바탕으로 다음 상황을 추리해봐' 같은 깊이 있는 영역은 전혀 다루지 않았습니다.
그래서 연구팀은 'VideoRewardBench'라는 훨씬 더 어렵고 종합적인 새 시험지를 만들었습니다. 이 시험지는 문제 수를 15배나 늘리고, AI의 영상 이해력을 perception(인식), knowledge(지식), reasoning(추론), safety(안전성)라는 네 가지 핵심 영역에 걸쳐 종합적으로 평가합니다.
이 새로운 시험지로 현재 가장 뛰어나다는 GPT-4o 같은 최신 AI들을 테스트해 본 결과, 정답률이 57%에 불과할 정도로 성적이 저조했습니다. 이는 현재 비디오를 이해하는 심판 AI들의 능력이 아직 갈 길이 멀다는 것을 의미합니다.
결론적으로, 이 연구는 AI가 비디오를 더 깊고 정확하게 이해하도록 발전시키기 위해 꼭 필요한, 새롭고 어려운 표준 시험지를 만들었다는 점에서 큰 의미가 있습니다.
2. Related Works
2.1. Multimodal Reward Models
기존의 multimodal reward models (MRMs)은 reward generation paradigms에 따라 세 가지 카테고리, 즉 discriminative (scalar), semi-scalar, generative로 분류될 수 있습니다. discriminative MRMs의 경우, 주어진 prompt와 response에 대해 직접적으로 scalar score를 할당합니다. IXC-2.5-Reward나 Skywork-VL Reward와 같은 연구들은 training을 위해 대량의 고품질 preference data를 구축합니다. semi-scalar MRMs의 경우, 먼저 평가 대상 response에 대한 textual critique를 생성한 다음, prompt, response, 그리고 생성된 critique를 기반으로 scalar reward value를 예측합니다. generative MRMs의 경우, 이 방법은 주어진 response에 대해 textual critiques만을 생성하는 MRMs로서 LVLMs를 직접 사용합니다. 초기 연구들은 critic instruction-following datasets를 구축하고 training 중에 주로 supervised fine-tuning (SFT)을 활용했습니다. 최근 연구들은 generative MRMs를 train하기 위해 reinforcement learning (예: GRPO)을 활용하는 데 점점 더 집중하고 있습니다. 기존 MRMs를 체계적으로 분석하기 위해, 우리의 benchmark는 세 가지 카테고리의 MRMs를 철저하게 평가합니다.
2.2. Reward Models Benchmarking
reward models을 평가하기 위한 기존 benchmark들은 주로 text와 image modalities에 국한되어 있습니다. RewardBench, RM-Bench, ReWordBench, REWARDBENCH 2와 같은 연구들은 순전히 textual 설정에서 reward models을 평가합니다. MLLM-as-a-Judge, VL-RewardBench, Multimodal RewardBench와 같은 연구들은 image understanding에서 multimodal reward models (MRMs)을 평가합니다. 비록 최근의 연구들(예: MM-RLHF-RewardBench, JudgeAnything)이 video understanding에서 MRMs를 평가했지만, 이들은 제한된 questions라는 문제점을 겪고 있으며 knowledge나 safety와 같은 중요한 영역을 포괄하지 못합니다. 이와 대조적으로, 우리의 VideoRewardBench는 video understanding에서 MRMs를 평가하는 최초의 large-scale 및 holistic benchmark로서 네 가지 핵심 dimensions를 다룹니다.
Related Works 섹션 정리 노트 (For AI Researchers)
1. MRM의 분류 (Taxonomy of MRMs)
이 섹션은 Multimodal Reward Models (MRMs)을 reward 생성 방식에 따라 3가지로 명확히 분류하며 시작합니다.
- Discriminative (scalar): prompt-response 쌍에 대해 단일 scalar 점수를 직접 출력. (예: IXC-2.5-Reward)
- Semi-scalar: 먼저 textual critique를 생성한 후, 이를 prompt, response와 함께 입력하여 최종 scalar 점수를 예측.
- Generative: LVLM을 직접 활용하여 점수 없이 textual critique만 생성. 훈련 방식은 초기 SFT에서 최근 RL (e.g., GRPO)로 발전하는 추세.
논문과의 연결점: 기존 연구들이 일부 유형의 MRM에만 집중했던 반면, 이 논문의 benchmark는 언급된 3가지 유형을 모두 체계적으로 평가한다는 점에서 포괄적인 분석을 제공합니다.
2. Benchmark 연구 동향 및 연구 공백 (Benchmarking Landscape & The Gap)
기존 Reward Model 평가 benchmark들의 현황과 명확한 한계점을 지적합니다.
- Text 및 Image Domain: RewardBench, VL-RewardBench 등 성숙한 benchmark들이 다수 존재함.
- Video Domain: 기존 연구(MM-RLHF-RewardBench, JudgeAnything)가 존재하지만, 결정적인 약점을 가짐.
- Scale의 한계: Question의 수가 매우 적음.
- Scope의 한계: Evaluation dimension이 perception 위주이며, knowledge, safety와 같은 holistic한 영역을 전혀 다루지 못함.
이 논문의 포지셔닝: VideoRewardBench는 바로 이 연구 공백(research gap)을 정확히 파고듭니다. Video understanding 분야에서 MRM을 평가하기 위한 **최초의 large-scale이자 holistic한 benchmark**임을 명확히 하며, 4가지 핵심 dimensions를 포괄한다는 점에서 기존 연구들과의 차별성을 명확하게 부각합니다.
쉬운 설명 :
AI가 잘했는지 못했는지를 평가하는 '심판 AI' (Reward Model)에도 여러 종류가 있고, 이들을 테스트하는 시험지(Benchmark)도 여러 개가 있다는 배경을 설명하는 부분입니다.
1. 심판 AI의 종류는 세 가지가 있어요.
- 점수형 심판 (Discriminative): 답변을 보고 바로 "85점" 하고 점수만 매기는 심판입니다.
- 서술형+점수형 심판 (Semi-scalar): "이 부분은 논리적이지만 저 부분은 근거가 부족하네요. 그래서 78점입니다." 와 같이, 평가 이유를 글로 쓴 다음 점수를 매기는 꼼꼼한 심판입니다.
- 컨설턴트형 심판 (Generative): 점수는 매기지 않고, "답변을 더 좋게 만들려면 이런 방향으로 수정해보세요" 라고 상세한 피드백만 주는 심판입니다.
2. 그런데 비디오 분야 시험지는 문제가 많았어요.
- 글이나 사진을 평가하는 심판 AI들을 위한 시험지는 좋은 것들이 이미 많이 있었습니다.
- 하지만 비디오를 평가하는 심판 AI들을 위한 시험지는 거의 쪽지시험 수준이었습니다. 문제 수도 너무 적고, 영상에 뭐가 보이는지 같은 단순한 내용만 물어봤습니다. AI가 지식을 활용하는지, 안전한 답변을 하는지 같은 중요한 능력은 전혀 테스트하지 못했습니다.
결론: 이 섹션은 "기존의 비디오 심판 AI 시험지들은 너무 부실해서 진짜 실력을 잴 수 없었다. 그래서 우리가 모든 종류의 심판 AI를, 모든 중요한 능력에 걸쳐 제대로 평가할 수 있는 최초의 종합 시험지(VideoRewardBench)를 만들었다" 라고 이 연구의 독창성과 필요성을 강조하는 부분입니다.
VideoRewardBench 섹션 정리 노트 (For AI Researchers)
이 섹션은 VideoRewardBench라는 새로운 benchmark를 어떻게 설계하고 구축했는지에 대한 구체적인 방법론을 설명합니다.
1. 데이터 구조 및 소싱 전략
- 기본 구조: 모든 데이터는 (x, yc, yr) 형태의 preference pair로 구성됩니다.
- x: video + textual question으로 이루어진 prompt.
- yc: chosen response (선택된 더 나은 응답).
- yr: rejected response (거부된 더 나쁜 응답).
- Prompt 소싱: 새로운 prompt를 직접 만들지 않고, 10개의 기존 전문 benchmark (예: VCGBench, MVBench, Video-Hallucer, Video-MME 등)에서 prompt를 선별적으로 가져와 perception, knowledge, reasoning, safety의 4가지 핵심 dimension을 포괄하도록 설계했습니다. 이는 benchmark의 넓은 커버리지와 신뢰도를 확보하기 위함입니다.
2. 핵심적인 품질 관리: Multi-Stage Prompt Filtering
수집한 prompt의 품질을 보장하기 위해, 다음과 같은 독자적인 다단계 자동 필터링 과정을 적용했습니다.
- 길이 필터링: 10분 이상의 긴 video를 가진 prompt를 우선 제거합니다.
- Video 의존성 검증: video를 제외하고 오직 textual question만 강력한 model에게 주어 답변하게 합니다. 만약 정답을 맞히면, 해당 prompt는 video 없이도 풀 수 있는 부적절한 문제로 판단하여 제거합니다.
- 난이도 검증: video와 text를 함께 중간 성능의 baseline model(Qwen2-VL-7B)에게 주어 답변하게 합니다. 만약 정답을 맞히면, benchmark가 측정하고자 하는 난이도에 비해 너무 쉬운 문제로 판단하여 제거합니다.
3. 차별화된 응답 수집 및 어노테이션 전략
Dimension의 특성에 따라 response를 수집하고 preference를 결정하는 방식을 다르게 적용하여 효율성과 품질을 모두 높였습니다.
- Short-form Perception (객관식/OX):
- 완전 자동화 방식을 사용합니다. Ground-truth 정답을 chosen response로, 오답 보기 중 하나를 rejected response로 자동 생성하여 human annotation 비용을 없앴습니다.
- Long-form Perception & Safety (주관식):
- 여러 open-source 및 proprietary model을 활용해 다양한 response를 생성합니다.
- 3명의 human annotator가 **majority voting**으로 preference를 결정하며, tie(무승부)나 consensus(의견 일치)가 없는 pair는 제거합니다. Preference strength(선호도 강도)까지 측정하여 데이터의 질을 관리합니다.
- Knowledge & Reasoning (고난도 서술형):
- 최고 성능의 proprietary model들만 사용하여 response를 생성하고, 너무 쉽거나(10번 시도해서 10번 다 맞힘) 어려운 문제는 prompt 단계에서 필터링합니다.
- 가장 큰 특징은, 최종 답변이 정답이라 할지라도 annotator가 intermediate reasoning process(중간 추론 과정)을 직접 검토하여, 풀이 과정에 critical flaw(치명적 결함)가 있는 경우 해당 pair를 폐기하는 매우 엄격한 기준을 적용했습니다.
4. 데이터 편향성 검증
- Benchmark의 공정성을 확보하기 위해 length bias(길이 편향성)를 집중적으로 분석했습니다.
- 분석 결과, chosen response와 rejected response의 평균 단어 수는 각각 102.9와 104.6으로 거의 차이가 없었습니다.
- 단어 수 차이의 분포 또한 0을 중심으로 하는 정규분포(bell-shaped distribution)를 보여, 평가가 응답의 길이가 아닌 **오직 response quality(응답의 질)**에 의해 결정되었음을 통계적으로 입증했습니다.
쉬운 설명 :
AI를 위한 새로운 수능 시험, VideoRewardBench가 어떻게 만들어졌는지 설명해 드릴게요. 📝
1단계: 시험 문제 만들기 (양질의 문제 수집 및 선별)
- 문제 수집: 새로운 문제를 처음부터 만들지 않고, 신뢰도 높은 10개의 기존 문제집에서 인식, 지식, 추론, 안전 4과목에 해당하는 좋은 문제들만 쏙쏙 뽑아왔습니다.
- 불량 문제 걸러내기:
- 너무 긴 영상 문제는 제외! (10분 이상)
- 영상을 안 보고 글만 읽고도 풀 수 있는 꼼수 문제들은 제외!
- 너무 쉬워서 변별력이 없는 문제들도 제외!
2단계: 모범 답안과 아쉬운 답안 만들기 (정답/오답 쌍 구성)
과목의 특성에 따라 채점 방식을 다르게 적용했습니다.
- 객관식/OX 문제 (Short-form Perception):
- 컴퓨터가 자동으로 채점했습니다. **정답은 '모범 답안'으로, 오답은 '아쉬운 답안'**으로 간단히 처리했습니다.
- 일반 주관식 문제 (Long-form Perception, Safety):
- 여러 AI들에게 답안을 쓰게 한 뒤, 3명의 전문 채점관(사람)이 투표해서 '모범 답안'과 '아쉬운 답안'을 공정하게 골랐습니다.
- 초고난도 서술형 문제 (Knowledge, Reasoning):
- 가장 꼼꼼하게 채점했습니다. AI가 답을 맞혔더라도, '풀이 과정'에 논리적 오류가 있으면 가차 없이 '오답' 처리했습니다. "찍어서 맞힌 답"은 인정하지 않은 셈이죠.
3단계: 최종 검증 (시험지의 공정성 확인)
- "혹시 AI 채점관들이 단순히 긴 답변을 더 선호하는 건 아닐까?"라는 의문을 확인했습니다.
- 분석 결과, '모범 답안'과 '아쉬운 답안'의 길이는 거의 차이가 없었습니다. 즉, 이 시험은 답변의 길이가 아니라 **오직 '답변의 퀄리티'**로만 공정하게 평가한다는 것을 증명했습니다. 👍
주인장 이해
리워드 모델 전용 벤치마크 인듯
