AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : When Thinking Drifts: Evidential Grounding for Robust Video Reasoning 본문
VLM : 빠른 논문 리뷰 : When Thinking Drifts: Evidential Grounding for Robust Video Reasoning
AI바라기 2025. 12. 12. 16:17용어 설명 (Terminology)
- Visual Thinking Drift: Video reasoning 과정에서 CoT(Chain-of-Thought)를 사용할 때 발생하는 현상. 모델이 실제 Visual input(영상)보다 내부의 Language prior(언어적 편향)에 의존하여 논리적이지만 사실과 다른(hallucinated) 추론을 전개하고, 결국 오답에 이르는 현상을 말함.
- Visual Evidence Reward (VER): 이 논문에서 제안하는 Reinforcement Learning(RL)의 Reward 메커니즘. 모델의 reasoning trace(추론 과정)가 실제 영상의 시각적 증거(Visual Evidence)를 포함하고 있는지 판단하여 보상을 줌.
- Inverted Prompting: 학습에 필요한 '정답 시각적 증거'를 생성하기 위한 기법. 강력한 교사 모델(Teacher MLLM)에게 '질문'과 '비디오' 뿐만 아니라 '정답'을 미리 제공하고, "이 정답을 지지하는 시각적 증거를 나열하라"고 역으로 요청하여 High-quality data를 얻는 방식.
- GRPO (Group Relative Policy Optimization): DeepSeek-R1 등에서 사용된 RL 알고리즘으로, Value function 모델 없이 그룹 내 출력들의 상대적 점수를 통해 Policy를 업데이트하는 방식. 본 논문은 이를 비디오 도메인에 적용함.
Purpose of the Paper
- 기존 CoT의 한계 지적: Text-based task에서 강력한 성능을 보이는 Chain-of-Thought (CoT) 가 Video understanding task에서는 오히려 성능을 저하(degrade)시키는 역설적인 현상을 발견함. 단순히 "Think before answering"을 강제하면 모델이 영상을 보지 않고 그럴싸한 말을 지어내는(hallucination) 경향이 강해짐.
- 문제의 원인 규명: 이를 Bayesian 관점에서 분석하여, 추론 단계가 길어질수록 **Visual likelihood(영상 정보)**가 희석되고 **Language prior(언어적 개연성)**가 지배하게 되어 Visual Thinking Drift가 발생함을 증명함.
- 해결책 제시: 모델이 단순히 "생각"만 하는 것이 아니라 "생각하는 동안 영상을 보도록(see while thinking)" 강제하기 위해, 추론 과정이 시각적 증거에 기반할 때만 보상을 주는 Visual Evidence Reward (VER) 프레임워크를 제안함.
Key Contributions
- Discovery of Visual Thinking Drift:
- CoT가 Video Reasoning, 특히 즉각적인 시각적 인지가 필요한 과제(예: Video-MME)에서 성능을 떨어뜨린다는 것을 체계적인 실험으로 입증함.
- 긴 추론 과정이 Visual Evidence와 분리되어(unmoored) 초기 단계의 작은 Hallucination이 전체 논리를 망가뜨리는 메커니즘을 규명함.
- Visual Evidence Reward (VER) Framework:
- 기존의 정답 여부(Correctness)만 따지는 RL과 달리, **Intermediate reasoning process(중간 추론 과정)**가 실제 비디오 내용과 일치하는지를 평가하는 새로운 Reward system 도입.
- LLM-based Judge를 활용하여 생성된 추론 텍스트가 Visual Evidence를 포함하는지 Binary(0/1)로 평가하여 GRPO 학습에 반영.
- Inverted Prompting for Data Generation:
- Human annotation 없이도 고품질의 Visual Evidence 데이터를 얻기 위해, Teacher model에게 정답(Answer)을 조건부로 주어 근거만 역추적하게 만드는 Inverted Prompting 전략을 사용하여 학습 데이터의 신뢰성을 확보함.
Experimental Highlights
- State-of-the-art Performance:
- **Video-VER (7B 모델)**은 GPT-4o, Video-R1, Qwen2.5-VL 등을 제치고 10개의 주요 Video Benchmarks 중 9개에서 1위 또는 2위를 기록함.
- 특히 Base model인 Qwen2.5-VL-7B (CoT 적용 시) 대비 VideoHallucer 벤치마크에서 +9.0%, MVBench에서 +4.3% 의 압도적인 정확도 향상을 달성.
- Effectiveness of VER:
- Ablation study를 통해 일반적인 Video Caption을 증거로 사용하는 것보다, 질문에 특화된(Question-dependent) Visual Evidence를 사용하는 것이 훨씬 효과적임을 입증 (Vinoground 점수 상승).
- Mitigating Hallucination:
- VideoHallucer 및 EventHallusion 벤치마크에서의 높은 성능 향상은 VER이 모델의 Object hallucination 및 Temporal misinterpretation을 효과적으로 억제함을 증명함.
Limitations and Future Work
- Length Constraint:
- Limitation: 현재의 Vision Encoder와 LLM의 한계로 인해 중간 길이의 비디오(moderate length)에 최적화되어 있음. 매우 긴 비디오(long-form video)의 경우 Frame sampling 과정에서 핵심 정보가 유실될 수 있어 추론이 부정확해질 수 있음.
- Future Work: Long-sequence video encoding 기술의 발전과 결합하여 긴 호흡의 영상에서도 Visual evidence를 놓치지 않는 연구가 필요함.
- Dependency on LLM Judge:
- Limitation: Reward를 주는 LLM Judge(Llama-3.1-70B 등)의 성능에 의존함. Judge가 시각적 증거 포함 여부를 잘못 판단할 경우 노이즈가 될 수 있음.
- Future Work: Judge model 자체를 최적화하거나, 더 정교한 평가 메커니즘을 도입하여 Reward 신뢰성을 높이는 방향.
- Extension to Open-ended Tasks:
- Future Work: 현재는 객관식(MCQ) 위주로 검증되었으나, Free-form QA와 같은 개방형 과제에서도 Grounded Reasoning이 작동하도록 프레임워크를 확장해야 함.
Overall Summary
이 논문은 비디오 이해(Video Understanding) 과제에서 무조건적인 Chain-of-Thought(CoT) 적용이 오히려 **"Visual Thinking Drift"**라는 환각 현상을 유발하여 성능을 저해함을 밝혀냈습니다. 이를 해결하기 위해, 모델이 추론 과정에서 시각적 증거를 명시적으로 언급하도록 유도하는 Visual Evidence Reward (VER) 기반의 Reinforcement Learning 방법을 제안했습니다. 결과적으로 Video-VER 모델은 다양한 벤치마크에서 SOTA 성능을 달성하며, Multimodal 모델이 단순히 답변 전에 생각하는 것을 넘어 **"생각하는 동안 영상을 지속적으로 확인"**하도록 만드는 것이 진정한 Video Intelligence의 핵심임을 입증했습니다.
쉬운 설명 (Intuitive Explanation)
우리가 영화 퀴즈를 맞힐 때, 영화 내용은 제대로 기억나지 않는데 "보통 이런 영화는 주인공이 이기지"라는 **편견(Language Prior)**만 가지고 장황하게 소설을 써서 틀리는 경우(Visual Thinking Drift)가 있습니다.
이 논문은 AI가 이렇게 혼자 상상의 나래를 펼치는 것을 막기 위해, 선생님(RL Judge)이 학생(AI)에게 단순히 정답만 맞혔다고 칭찬하는 것이 아니라, "그 정답이 영화의 어느 장면에서 나왔는지 정확히 짚어내며 설명했니?"(Visual Evidence) 를 확인하고 점수를 주는 방식(VER)을 도입한 것입니다.
즉, "소설 쓰지 말고, 화면에 보이는 팩트만 가지고 추리해!" 라고 AI를 훈련시킨 논문입니다.
주인장 이해
대형 모델에게 정답을 주고 정답을 도출하기 위해 필요한 객체를 언급하라고 하고 그걸 정답지로 사용
모델이 답변할 때, 정답지(Teacher)에 있는 '핵심 물체나 행동'을 언급하면 GRPO로 가산점(Reward)을 준다.