AI바라기의 인공지능
AI바라기 : 빠른 논문 리뷰 : Taming Hallucinations: Boosting MLLMs’ Video Understanding via Counterfactual Video Generation 본문
AI바라기 : 빠른 논문 리뷰 : Taming Hallucinations: Boosting MLLMs’ Video Understanding via Counterfactual Video Generation
AI바라기 2026. 2. 20. 19:18
용어 설명
- Visual ungrounded hallucinations: MLLMs가 시각적 증거(visual evidence)를 제대로 인지하지 않고, 텍스트 데이터에서 학습된 언어적 편향(language priors)이나 상식에만 의존하여 그럴듯하지만 시각적으로는 완전히 틀린 답변을 생성하는 현상.
- Counterfactual video: 객체가 갑자기 사라지거나, 물이 위로 솟구치는 등 일반적인 물리 법칙이나 상식(common sense)에 위배되는 현상을 의도적으로 합성해 넣은 조작된 비디오.
- Automation Paradox: 모델의 시각적 인지 능력을 개선하려면 counterfactual 데이터가 필요한데, 모델 자체가 이미 hallucination에 빠져 있어 미세한 시각적 이상을 감지하지 못하므로, 결과적으로 고품질의 학습 데이터를 자동 생성하지 못하는 순환적 오류 현상.
- DualityForge: 이 논문에서 제안하는 데이터 합성 framework. Controllable video editing을 통해 실제 비디오를 counterfactual video로 변환하고, 그 편집된 문맥(context)을 MLLM에 미리 제공하여 고품질 QA pair를 자동으로 생성하게 만듦
- DNA-Train (Duality-Normalized Advantage Training): 강화 학습(RL) 과정에서 real video와 counterfactual video 쌍(pair) 간의 advantage(학습 신호의 크기) 차이를 l1-normalization 기법으로 조정하여, 모델이 특정 데이터 타입에 편향되지 않고 균형 있게 학습하도록 유도하는 방법론.
Purpose of the Paper
- 기존 연구의 한계: MLLMs는 텍스트 데이터에 압도적으로 노출되어 학습된 탓에, 비디오를 이해할 때 화면을 보기보다는 '언어적 상식'에 의존하는 편향(language priors)이 매우 강함. 기존에는 텍스트 캡션을 수정하는 수준에 그쳤으며, 실제 시각적 편향을 깨기 위한 counterfactual 비디오 구축은 비용이 너무 많이 들고 자동화가 불가능(Automation Paradox)했음.
- 새로운 접근 방식: 이 논문은 단순히 텍스트를 고치는 것이 아니라, 비디오 생성 AI (diffusion models)를 활용해 비디오 자체를 편집하는 **'생성 기반의 데이터 합성 패러다임'**을 제안함. 상식을 깨는 비디오를 만들고 이를 바탕으로 모델을 훈련시켜, MLLMs가 텍스트 상식이 아닌 철저한 시각적 증거에 기반해 답변을 도출하도록 강제하는 것이 목적임.
Key Contributions
- DualityForge framework 도입: 시각적, 의미론적, 상식적 오류(anomalies)를 실제 비디오에 주입하는 자동화 파이프라인. 편집된 구조적 정보(blueprint)를 활용하여 기존의 Automation Paradox를 우회하고, 수동 어노테이션 없이 고품질 QA를 대규모로 합성해 낸 점이 참신함.
- 대규모 쌍방향 데이터셋 DualityVidQA 구축: 144K 개의 video-QA pair로 구성됨. 특히 하나의 질문(shared-question)에 대해 원본 비디오(real)와 편집된 비디오(counterfactual)가 각기 다른 정답을 가지도록 설계된 contrastive 구조를 띠고 있어, 모델이 언어적 찍기가 아닌 미세한 시각적 차이를 판별하도록 강제함.
- DNA-Train 학습법 제안 (SFT + RL): 원본과 조작 비디오 간의 정확도 격차 때문에 발생하는 RL 학습 초기의 불안정성을 해결하기 위해 l1-normalized advantage 전략을 도입함. 이를 통해 모델이 real 비디오에서의 성능을 잃지 않으면서도 counterfactual 비디오에 대한 인지 능력을 안정적으로 끌어올리는 독창적인 강화학습 구조를 설계함.
Experimental Highlights
- 주요 실험 결과 (State-of-the-art 달성): 베이스라인인 Qwen2.5-VL-7B 모델에 DNA-Train을 적용한 결과, 환각 평가 지표인 DualityVidQA-Test에서 24.0%라는 압도적인 성능 향상(33.3% -> 76.8%)을 기록함.
- 범용 성능(General Video Understanding) 동반 상승: 환각을 줄이는 데 특화되었음에도 불구하고, TempCompass, MVBench(73.5%), TVBench(53.0%) 등 일반 비디오 이해 벤치마크에서도 베이스라인은 물론 GPT-4o 같은 closed-source 모델과 견주거나 능가하는 성능을 보임.
- 어려운 Task에서의 우위: '물리 법칙 위배(Counter Physical)'와 같이 모델들이 가장 어려워하는 카테고리에서 DNA-Train-7B는 79.2%의 높은 정확도를 달성하며 GPT-4o 등 다른 모델들을 크게 상회함.
Limitations and Future Work
- 명확한 한계점 (Limitations): 컴퓨팅 리소스의 제약으로 인해 가장 큰 모델인 72B 버전에서는 RL 최적화 스텝을 충분히 진행하지 못함(7B 모델은 600 스텝, 72B 모델은 20 스텝). 이로 인해 파라미터가 큰 모델에서는 DNA-Train의 성능 향상 폭이 상대적으로 제한적이었음.
- 향후 연구 방향 (Future Work): RL 단계의 리소스 효율성을 극대화하는 방법을 연구하여 더 방대한 파라미터를 가진 MLLMs 아키텍처에서도 최적화를 완벽히 수행할 필요가 있음. 또한 생성 모델 기반 편집 기술의 발전과 함께 더욱 다양하고 복잡한 counterfactual 시나리오를 확장 적용할 수 있을 것임.
Overall Summary
이 논문은 MLLMs가 비디오를 해석할 때 시각 정보 대신 텍스트 상식에 의존하여 환각을 일으키는 본질적인 문제를 해결하고자, DualityForge라는 혁신적인 생성 기반 데이터 합성 프레임워크를 제안했습니다. 이를 통해 원본-조작 비디오 쌍으로 이루어진 대규모 DualityVidQA 데이터셋을 구축하고, DNA-Train이라는 균형 잡힌 SFT-RL 학습법을 적용하여 모델이 철저히 시각적 증거에만 의존하도록 훈련시켰습니다. 결과적으로 이 연구는 모델의 시각적 환각 현상을 획기적으로 줄이는 동시에 범용적인 비디오 이해력까지 함께 향상시켰으며, 향후 vision-language 모델이 언어적 편향을 넘어 현실 세계를 더 정확히 인지하도록 돕는 중요한 이정표가 될 것입니다.
쉬운 설명
이 논문의 핵심은 MLLM의 **"눈 감고 상식대로 찍는 버릇"**을 고치는 것입니다. AI에게 단순히 "사과는 나무에서 아래로 떨어진다"는 텍스트 데이터만 주입하면, AI는 비디오에서 사과가 위로 솟구치고 있어도 대충 상식에 맞춰 "사과가 떨어지고 있다"고 오답을 냅니다. 이를 해결하기 위해 연구진은 비디오 편집기를 이용해 '사과가 하늘로 솟구치는 영상'이나 '바위가 둥둥 떠다니는 영상' 같은 **'시각적 함정 문제(Counterfactual video)'**를 대량으로 만들었습니다. 그리고 AI에게 똑같은 질문을 던진 뒤, 화면을 정확히 보지 않고 상식대로 대답하면 감점하는 방식(DNA-Train)으로 훈련시켰습니다. 즉, 상식을 깨는 오답 노트를 활용해 AI가 화면(시각적 증거)을 똑바로 쳐다보도록 집중력을 길러주는 훈련법이라고 볼 수 있습니다.
정상영상 , 함정 영상을 1대1로 준비
옵션은 4개인데 정상 영상의 답, 함정 영상의 답, 동떨어진답 4개가 있음
SFT로 학습후
DAPO로 학습
