AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding 본문
VLM : 빠른 논문 리뷰 : VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding
AI바라기 2026. 2. 12. 17:58
용어 설명 (Glossary)
- Vision-Language Models (VLMs): 이미지나 비디오와 같은 시각 정보와 텍스트 정보를 함께 처리하여 이해하고 생성하는 AI 모델.
- Hallucination (환각): 모델이 시각적 입력(Video/Image)과 일치하지 않는 사실이나, 존재하지 않는 객체/행동을 텍스트로 생성하는 현상.
- Negative-control tests: 실험군과 대조되는 개념으로, 이 논문에서는 물리 법칙이나 상식이 통하지 않는 비디오(예: 깨진 수박이 다시 붙음)를 보여주었을 때 모델이 이를 제대로 인지하는지 테스트하는 방식.
- Language Priors: 모델이 학습 과정에서 익힌 텍스트 기반의 사전 지식. (예: "총을 쏘면 수박이 깨진다"는 지식 때문에, 영상에서 수박이 안 깨져도 깨졌다고 답하는 편향).
- SFT (Supervised Fine-Tuning): 정답 데이터셋(Label)을 이용해 모델을 지도 학습시키는 미세 조정 방식.
- GRPO (Group Relative Policy Optimization): DeepSeek-R1 등에서 사용된 Reinforcement Learning 기법으로, 명시적인 Reward Model 없이 답변 그룹 간의 선호도를 통해 모델을 최적화하는 방식.
- Chain-of-Thought (CoT): 모델이 최종 답변을 내기 전에 단계별로 추론 과정을 생성하도록 유도하는 프롬프팅 기법.
Purpose of the Paper
- 기존 연구의 한계 (Positive-control bias): 기존 VLM 벤치마크는 현실 세계의 물리 법칙을 따르는 Real-world videos (Positive-control)에 의존함. 이 경우 모델이 영상을 실제로 보고 이해한 것인지, 아니면 단순히 "총=깨짐"과 같은 Language Priors나 텍스트-시각 상관관계(correlation)에 의존해 답을 맞힌 것인지 구별하기 불가능함.
- 새로운 접근 (Synthetic Video & Negative-control): Sora, Veo2 같은 생성형 AI를 활용해 물리적으로 불가능하거나 논리적으로 모순된 Synthetic Video를 생성함. 이를 통해 모델이 자신의 사전 지식(Language Priors)을 억제하고, **실제 시각적 단서(Visual Cues)**를 기반으로 추론하는지 평가하고자 함.
Key Contributions
- VideoHallu Dataset 구축:
- 3,000개 이상의 전문가가 주석을 달은 QA(Question-Answering) 쌍으로 구성된 데이터셋 제안.
- Physics (중력, 운동 법칙 위반), Commonsense (상식 위반), Spatial-temporal Consistency (시공간적 일관성), Alignment (텍스트-영상 불일치)의 4가지 카테고리로 분류하여 모델의 약점을 정밀 진단.
- State-of-the-art (SOTA) 모델의 취약점 발견:
- GPT-4o, Gemini-2.5-Pro, Qwen2.5-VL 등 최신 모델들이 현실 세계 벤치마크에서는 뛰어난 성능을 보이지만, Synthetic Video의 반직관적인(Counterintuitive) 상황에서는 Hallucination을 심각하게 일으킨다는 것을 입증.
- Training Method에 대한 새로운 통찰 (Novelty):
- 단순히 Real-world 데이터로 학습된 RL(Video-R1 등)은 비정상적인 비디오 이해에 도움이 되지 않음(오히려 현실 편향 강화).
- GRPO를 사용하여 Real-world 데이터와 Synthetic 데이터를 혼합(Mix)하여 학습시켰을 때, 일반적인 성능 저하 없이 비정상적인 비디오에 대한 추론 능력이 향상됨을 발견.
Experimental Highlights
- Evaluation Results:
- Baseline Performance: GPT-4o, Gemini-2.5-Pro, Qwen2.5-VL을 포함한 SOTA 모델들이 VideoHallu 데이터셋에서 약 50%의 정확도를 기록함. 이는 거의 Random guess(찍기) 수준으로, 모델들이 시각 정보를 제대로 "보고" 있지 않음을 시사.
- Failure Cases: 예를 들어, 총을 맞은 수박이 깨지지 않거나 다시 붙는 영상에서, 모델들은 텍스트 상식(Priors)에 의존해 "수박이 산산조각 났다"고 잘못된 답변을 생성함.
- Fine-tuning Comparison (SFT vs. GRPO):
- SFT 방식보다 GRPO 방식이 Out-of-distribution (OOD) 데이터인 Synthetic Video 이해에 더 효과적임.
- SFT는 표면적인 패턴을 암기하는 경향이 있는 반면, GRPO는 내부적인 Reasoning 능력을 강화함.
- Data Mixture Strategy:
- Synthetic Only: 합성 데이터만으로 학습하면 현실 세계 비디오 성능이 떨어질 위험이 있음.
- Combined (Real + Synthetic): 두 데이터를 섞어서 GRPO로 학습했을 때, VideoHallu(합성 비디오) 성능이 향상되면서도 MVBench(현실 비디오) 성능이 유지되는 최적의 결과를 얻음.
Limitations and Future Work
- Limitations:
- Scalability: 고품질의 Negative-control QA 쌍을 만들기 위해 인간 전문가의 주석(Expert annotation)에 의존했기 때문에, 데이터셋 확장에 비용과 시간이 많이 소요됨.
- Dataset Size: 현재 약 3천 개 수준의 데이터셋은 거대 모델(Large Scale Models)을 충분히 학습시키기에 부족할 수 있음.
- Future Work:
- Automatic Evaluation: 프롬프트 분해(Prompt decomposition)나 적대적 생성(Adversarial QA generation)을 통해 인간의 개입 없이 자동으로 평가 데이터를 생성하고 확장하는 방법 연구 필요.
- Critical Reasoning: 단순한 정답 맞추기를 넘어, 비디오 내의 이상 현상(Abnormalities)을 스스로 감지하고 설명할 수 있는 더 강력한 Reasoning 중심의 학습 방법론 개발.
Overall Summary
이 논문은 VLMs가 실제 시각 정보를 이해하는 것이 아니라 텍스트 기반의 사전 지식(Language Priors)에 의존해 답변을 생성한다는 가설을 입증하기 위해, 물리 법칙과 상식을 위반하는 Synthetic Video 기반의 벤치마크 VideoHallu를 제안했습니다. 실험 결과 SOTA 모델들이 이러한 반직관적인 영상에서 심각한 Hallucination을 보임을 확인했으며, 이를 해결하기 위해 Real 데이터와 Synthetic 데이터를 혼합한 GRPO 기반의 Post-training이 가장 효과적인 해결책임을 제시했습니다. 이 연구는 VLM의 진정한 시각적 추론 능력을 평가하는 새로운 기준을 마련하고, Synthetic Data가 모델의 Critical Thinking 능력을 향상시키는 데 필수적임을 시사합니다.
쉬운 설명 (Easy Explanation)
이 논문의 핵심 아이디어는 **"학생이 진짜 공부를 해서 문제를 푸는지, 아니면 답을 외워서 푸는지 확인하는 함정 문제 테스트"**와 같습니다.
- 기존 테스트(Real-world Video): 학생(AI)에게 "사과를 놓으면 어떻게 될까?"라고 묻고, 사과가 떨어지는 영상을 보여줍니다. 학생은 "떨어집니다"라고 답합니다. 하지만 학생이 진짜 영상을 보고 답한 건지, 아니면 그냥 "사과는 원래 떨어져"라고 외운 걸 말한 건지 알 수 없습니다.
- 이 논문의 테스트(Synthetic Video): 이번에는 사과가 하늘로 솟구치는 마법 같은 영상을 보여줍니다.
- 만약 학생이 영상을 제대로 봤다면 "사과가 하늘로 올라갑니다"라고 해야 합니다.
- 하지만 현재 AI 모델들은 영상을 무시하고 자기 지식대로 **"사과가 바닥으로 떨어졌습니다"**라고 우깁니다(Hallucination).
- 해결책: AI에게 현실적인 영상뿐만 아니라, 이런 마법 같은(비현실적인) 영상도 같이 보여주며 훈련(GRPO)시켰더니, 편견을 버리고 진짜 눈앞에 보이는 대로 상황을 판단하는 능력(Visual Reasoning)이 좋아졌다는 것입니다.
현실과는 전혀 다른 리버스 형식의 비디오, 총을 맞은 수박이 다시 붙음.
중력 위반 깃털이 바위보다 늦게 떨어짐
충돌 무시 로봇이 벽 통과
운동 법칙 위반 떨어지던 공이 갑자기 공중에 멈추거나함,
사물 변형 사물이 도중에 바뀜.
상식 위반 태양이 토성처럼 거대한 고리가 달려있음 .
애초에 눈(Visual Encoder)이 침침한 상태에서, 억지로 함정 질문을 던지는 것처럼 보일 여지가 있음
기초적인 시각 능력(Alignment) 점수 자체가 충격적으로 낮기때문.
비디오는 상식이지만 텍스트가 비상식인 경우엔 어땠을지 궁금함.
할루시네이션으로 갈건지, 상식과 다른 충돌로 갈건지 정해야함.
그리고 왜 굳이 비상식 비디오에 대한 답을 할 수 있어야하는지 모르겠음. 내재된 지식과의 충돌 과는 큰 상관이 없고 오히려 편파적일 수 있을듯. 다른 방식으로 측정했어야할지도 모름.
2.5점 / 5점
"눈(Visual)도 안 좋은 애한테, 노이즈 낀 가짜 영상을 보여주면서, 현실에선 쓸모도 없는 마법을 이해 못 한다고 혼내는 꼴이며, 해결책이라고 내놓은 것도 '눈치껏 찍기'를 가르친 것일 수 있다."
