AI바라기의 인공지능
ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding 본문
ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding
AI바라기 2025. 9. 3. 16:56쉬운 설명 (Easy Explanation)
이 논문이 지적하는 SAH 문제는 다음과 같이 비유할 수 있습니다.
어떤 탐정이 살인사건 현장에서 "피해자의 손에 있던 칼", "거실에 깨진 유리 조각", "열려있는 창문"이라는 세 가지 단서를 모두 정확하게 발견했다고 가정해봅시다 (frame-level semantics는 정확). 하지만 탐정이 이 단서들을 잘못 조합하여 "범인이 창문으로 들어와 칼로 피해자를 위협하다가, 몸싸움 끝에 유리 조각이 깨졌다"고 결론 내립니다 (SAH 발생). 실제로는 "피해자가 유리 조각으로 손을 베어 칼을 놓쳤고, 이후 범인이 열린 창문으로 도망쳤다"가 진실일 수 있습니다.
이처럼, 개별적인 사실(단서)은 모두 맞지만, 그 사실들의 시간적 순서나 인과관계를 잘못 엮어 완전히 틀린 이야기(결론)를 만들어내는 것이 바로 SAH의 핵심입니다.
용어 설명 (Glossary)
- Video-MLLMs (Video Multimodal Large Language Models): 비디오와 텍스트를 함께 이해하고 처리할 수 있는 대규모 AI 모델.
- Semantic Aggregation Hallucination (SAH): 이 논문에서 새롭게 정의한 hallucination 유형. 모델이 비디오의 각 프레임에 대한 시각적 정보(frame-level semantics)는 정확하게 인식하지만, 이를 시간적으로 잘못 결합하거나 다른 이벤트(event)에 속한 정보를 잘못 연결하여 틀린 내용을 생성하는 현상.
- ELV-Halluc: 이 논문에서 제안하는 긴 비디오(long-video)에서의 SAH를 체계적으로 측정하기 위한 최초의 벤치마크 데이터셋.
- In-video Hallucination: 환각을 유도하기 위해, 비디오 내의 다른 이벤트에 실제로 존재하는 객체나 행동을 현재 이벤트의 설명에 삽입하여 만든 거짓 정보.
- Out-of-video Hallucination: 환각을 유도하기 위해, 비디오에 전혀 등장하지 않는 그럴듯한 객체나 행동을 설명에 삽입하여 만든 거짓 정보.
- SAH Ratio: 전체 Hallucination 오류 중 SAH가 차지하는 비율을 측정하기 위해 이 논문에서 제안한 평가지표. Out-video hallucination에 대한 정확도와 In-video hallucination에 대한 정확도의 차이를 이용해 계산됨.
- DPO (Direct Preference Optimization): 모델이 더 선호하는 결과(예: Ground Truth)와 덜 선호하는 결과(예: Hallucinated caption)를 직접적으로 학습하여 모델의 출력을 미세 조정하는 기법.
Purpose of the Paper
기존의 video hallucination 연구는 수 초에서 수십 초 길이의 짧은 비디오에 집중되어 있었습니다. 이 논문은 이러한 연구들이 긴 비디오(long-video)에서 발생하는 핵심적인 문제, 즉 서로 다른 시간대의 의미 정보들을 잘못 조합하는 Semantic Aggregation Hallucination (SAH) 현상을 간과하고 있다는 한계를 지적합니다. 따라서 이 연구의 목적은 다음과 같습니다.
- 긴 비디오에서 발생하는 SAH라는 새로운 유형의 hallucination을 명확하게 정의하고, 그 심각성을 체계적으로 분석하는 것.
- SAH를 탐지하고 평가할 수 있는 최초의 long-video hallucination 벤치마크(ELV-Halluc)를 구축하는 것.
- SAH의 발생 원인을 탐구하고, 이를 완화할 수 있는 효과적인 전략을 제시하고 검증하는 것.
Key Contributions & Novelty
- Contribution 1: SAH의 정의 및 문제 제기
- 단순한 시각적 오류가 아닌, 정확하게 인식된 시맨틱 정보들을 시간적으로 잘못 종합하여 발생하는 SAH라는 새로운 hallucination 유형을 최초로 명확하게 정의했습니다.
- Novelty: 기존의 hallucination 연구가 '무엇을 보았는가'의 오류에 집중했다면, 이 연구는 '언제, 어느 이벤트에서 보았는가'의 시간적 귀속(temporal attribution) 오류로 문제의 관점을 확장했습니다.
- Contribution 2: ELV-Halluc 벤치마크 개발
- 긴 비디오(평균 672.4초)에 특화된 최초의 hallucination 벤치마크를 구축했습니다.
- Novelty: in-video와 out-of-video hallucination을 구분하는 독창적인 적대적 질문 쌍(adversarial question pair) 설계를 통해, 다른 hallucination 원인과 SAH를 분리하여 측정할 수 있는 정교한 평가 방법을 제시했습니다.
- Contribution 3: SAH 발생 원인에 대한 심층 분석
- 실험을 통해 SAH가 비디오의 길이가 아닌, 이벤트의 수(semantic complexity)가 증가할수록 심해진다는 것을 밝혔습니다.
- 또한, SAH는 '선언적 내용(Declarative Content)'처럼 느리게 변하는 정보보다 '시각적 디테일(Visual Details)'처럼 빠르게 변하는 정보에서 더 빈번하게 발생함을 입증했습니다.
- Novelty: SAH가 모델의 성능이나 비디오의 길이 같은 단순한 요인이 아니라, 비디오의 시맨틱 구조의 복잡성과 변화율에 직접적인 영향을 받는다는 구체적인 원인을 실험적으로 규명했습니다.
- Contribution 4: SAH 완화 전략 제시 및 검증
- 강화된 Positional Encoding 전략이 SAH를 줄이는 데 효과가 있음을 보였습니다.
- DPO 전략을 활용하여 모델이 in-video hallucination보다 올바른 설명을 선호하도록 학습시켜 SAH 비율을 27.7%까지 크게 감소시켰습니다.
- Novelty: SAH라는 특정 문제를 해결하기 위해 DPO를 적용, 비디오 내의 시간적 오류를 바로잡도록 모델을 직접적으로 최적화하는 구체적이고 효과적인 해결책을 제시했습니다.
Experimental Highlights
- Datasets: ELV-Halluc (200개의 긴 비디오, 평균 672.4초, 24개의 QA 쌍/비디오)
- Metrics: In-Video Accuracy, Out-Video Accuracy, 그리고 새롭게 제안된 SAH Ratio
- Baselines: 14개의 open-source 모델 (Qwen2.5-VL, InternVL3 등)과 2개의 closed-source 모델 (GPT-4o, Gemini 2.5-Flash)
- Key Result 1: SAH의 보편성 확인
- 테스트된 대부분의 Video-MLLM에서 out-of-video hallucination보다 in-video hallucination에 대한 정확도가 현저히 낮게 나타나, SAH가 모델 전반에 걸쳐 발생하는 문제임을 확인했습니다.
- Key Result 2: SAH와 Semantic Complexity의 관계
- Figure 6a에서 볼 수 있듯이, 비디오의 이벤트 수가 증가할수록 SAH Ratio가 일관되게 증가하는 양의 상관관계를 보였습니다. 이는 시맨틱 복잡성이 SAH의 핵심 원인임을 뒷받침합니다.
- Key Result 3: SAH 완화 전략의 효과
- DPO를 in-video 데이터 쌍으로 학습시킨 경우(invideo-4k), SAH Ratio를 8.3에서 6.0으로 27.7% 감소시키며 가장 큰 개선 효과를 보였습니다 (Table 4). 이는 SAH 문제에 대한 매우 효과적인 접근법임을 시사합니다.
Limitations and Future Work
- Limitations:
- Gemini-based Captioning Bias: 초기 캡션 생성에 Gemini 모델을 사용했기 때문에, Gemini 모델의 평가 결과가 실제보다 부풀려졌을 수 있는 잠재적 편향이 존재합니다.
- Dataset-World Gap: 벤치마크는 명확히 구분된 '이벤트 기반(event-based)' 비디오로 구성되어 있어, 이벤트 경계가 모호한 실제 세상의 긴 비디오와는 차이가 있을 수 있습니다.
- Limited Scale: 수작업 검수 비용이 높아 데이터셋의 규모가 제한적입니다.
- Future Work:
- 더 큰 규모와 다양한 형태의 실제 비디오를 포함하는 벤치마크를 구축하여 SAH 문제를 더 깊이 탐구할 필요가 있습니다.
- 이 논문에서 제안한 DPO 외에, SAH를 근본적으로 해결할 수 있는 새로운 모델 아키텍처나 학습 방법을 개발하는 연구가 요구됩니다.
Overall Summary
이 논문은 긴 비디오를 이해하는 과정에서 발생하는 'Semantic Aggregation Hallucination (SAH)' 이라는 새롭고 중요한 문제를 처음으로 정의했습니다. 이를 측정하기 위해 독창적인 방법론을 적용한 ELV-Halluc 벤치마크를 구축하고, 다양한 최신 모델들의 SAH 경향성을 분석했습니다. 더 나아가 DPO를 활용하여 SAH를 효과적으로 완화하는 방안까지 제시함으로써, 향후 더 신뢰성 있는 long-video understanding 모델 개발을 위한 견고한 기반을 마련했다는 점에서 큰 학술적 의의를 가집니다.
Abstract
Video multimodal large language models (Video-MLLMs)은 video understanding에서 놀라운 발전을 이루었습니다. 그러나 video inputs과 일치하지 않거나 관련 없는 콘텐츠를 생성하는 hallucination에 취약합니다. 이전의 video hallucination benchmarks는 주로 short-videos에 초점을 맞춥니다. 이들은 hallucinations의 원인을 강력한 language priors, missing frames 또는 visual encoder에 의해 도입된 vision-language biases와 같은 요인으로 돌립니다. 이러한 원인들이 실제로 short videos에서 발생하는 대부분의 hallucinations을 설명하지만, 여전히 hallucinations의 원인을 지나치게 단순화합니다. 때때로, models는 정확한 frame-level semantics를 가지면서도 잘못된 outputs을 생성합니다. 우리는 이러한 유형의 hallucination을 Semantic Aggregation Hallucination (SAH)라고 부르며, 이는 frame-level semantics를 event-level semantic groups로 aggregating하는 과정에서 발생합니다. 여러 events에 걸친 semantic complexity의 증가로 인해 SAH가 long videos에서 특히 중요해지기 때문에, 이러한 유형의 hallucination의 원인을 분리하여 철저히 조사하는 것이 필수적입니다.
위 문제를 해결하기 위해, 우리는 SAH에 대한 체계적인 조사를 가능하게 하는 최초의 long-video hallucination 전용 benchmark인 ELV-Halluc를 소개합니다. 우리의 실험은 SAH의 존재를 확인하고 semantic complexity에 따라 증가한다는 것을 보여줍니다. 또한, models이 빠르게 변화하는 semantics에 대해 SAH에 더 취약하다는 것을 발견했습니다. 더 나아가, SAH를 완화하기 위한 잠재적인 접근 방식에 대해 논의합니다. 우리는 positional encoding strategy가 SAH를 완화하는 데 기여함을 입증하고, 나아가 events 내외의 semantics를 구별하는 model의 능력을 향상시키기 위해 DPO strategy를 채택합니다. 이를 지원하기 위해, 우리는 8K 개의 adversarial data pairs로 구성된 dataset을 선별했으며, ELV-Halluc와 Video-MME 모두에서 개선을 이루었고, 특히 SAH ratio가 27.7%나 크게 감소했습니다. dataset과 evaluation code는 https://github.com/hlsv02/ELV-Halluc에서 찾을 수 있습니다.
Introduction
Video multimodal large models은 visual understanding에서 강력한 능력을 보여주었습니다. 그러나 models이 video content와 일치하지 않거나 심지어 조작된 content를 생성하여 실제 응용 프로그램에서 models의 신뢰성에 영향을 미치는 hallucination이라는 심각한 문제가 여전히 남아있습니다. 많은 연구들이 video MLLMs에서 hallucination을 측정하려고 시도했지만, 주로 수 초에서 수십 초에 이르는 short videos에 초점을 맞추어 long-video contexts에서의 hallucination 문제는 거의 탐구되지 않았습니다. 그들은 VideoMLLMs에서의 hallucinations을 vision–language misalignment, 낮은 frame quality, 또는 최적이 아닌 frame sampling strategies와 같은 요인으로 돌리는데, 이는 model이 불완전하거나 부정확한 visual evidence에 의존하게 만듭니다. 대안으로, model은 visual semantics를 정확하게 인식하지만 강력한 language priors에 지나치게 의존하여 visual input을 무시하고 부정확한 content를 생성할 수 있습니다. 위의 원인들이 실제로 hallucinations의 상당 부분을 차지하지만, 이전의 short video hallucination benchmarks에서 간과된 또 다른 원인이 있습니다. 바로 model이 정확한 frame-level semantics를 인식하고 출력하면서도, event 간에 semantics를 잘못 귀속시켜 부정확한 content를 생성하는 경우입니다. 예를 들어, 그림 1에서 model은 진행자가 뉴스를 설명하며 "어떤 종이"를 들고 있는 첫 번째 event에 "스타벅스"를 귀속시킵니다. 그러나 "스타벅스"에 대한 언급은 실제로는 비디오의 나중 event에 해당합니다. 이 경우, frame-level visual semantics의 인식은 정확하지만, 오류는 temporal segments에 걸쳐 정보를 잘못 aggregating하는 것, 즉 한 event의 visual cues를 다른 event의 concepts에 잘못 연결하는 것에서 발생합니다. 우리는 이 현상을 Semantic Aggregation Hallucination (SAH)라고 부릅니다.
short-video scenarios에서 SAH의 영향은 제한적입니다. 왜냐하면 frame-level semantics는 보통 단일하고 독립적인 event에 직접 매핑되기 때문입니다. 결과적으로, 논리적으로 일관된 event semantics, 특히 language priors와 일치하는 것들은 상대적으로 드뭅니다 (예: "사람", "말", "타기"; model이 "말이 사람을 타는 것"을 hallucinate할 가능성은 낮습니다). 반면, long videos는 종종 시간적으로 확장되면서도 의미적으로 일관된 여러 events를 포함하고 있어, events 간에 concepts를 잘못 귀속시킬 위험을 증가시킵니다. 그림 1에서 볼 수 있듯이, 이러한 더 풍부한 temporal structure는 모든 visual elements가 정확하게 인식되더라도 model이 event가 언제 발생했는지 혼동하는 SAH의 가능성을 증폭시킵니다.
앞서 언급한 한계를 해결하기 위해, 우리는 최초의 long video hallucination benchmark인 ELV-Halluc를 소개합니다. SAH는 long videos에서 특히 두드러지고 도전적인 문제이지만 아직 충분히 연구되지 않았기 때문에, ELV-Halluc는 event-based videos를 통해 semantic complexity를 정량화하고, visual details, action, object, declarative content를 포함한 semantic granularity에 기반하여 hallucination aspects를 분류함으로써 SAH를 연구하도록 설계되었습니다. 집중적인 조사를 용이하게 하기 위해, 이는 adversarial triplet question pair design을 채택합니다: (1) Ground Truth Question과 InVideo Hallucinated Question 쌍, 그리고 (2) Ground Truth Question과 Out-of-Video Hallucinated Question 쌍. 우리는 in-video와 out-of-video hallucinated question pairs 간의 accuracy gap을 사용하여 events 간의 semantic misalignment에 대한 model의 민감도를 정량화하는데, 이는 SAH의 핵심적인 측면입니다. 나아가, 우리는 SAH Ratio를 모든 hallucinations 중에서 이러한 사례가 차지하는 비율로 정의하여 체계적이고 해석 가능한 분석을 가능하게 합니다.
우리는 ELV-Halluc에서 14개의 open-source MLLMs와 2개의 closed-source models을 포함하여 광범위한 실험을 수행했습니다. 우리의 연구 결과는 SAH의 존재를 확인하고, 그것이 전체 hallucination rates와 반드시 상관관계가 있는 것은 아니라는 것을 보여줍니다. 특히, SAH는 더 많은 events나 더 조밀한 frame sampling과 같이 semantic complexity가 증가할수록 더 심각해지며, fine-grained하고 빠르게 변화하는 측면(예: declarative content보다 visual details)에서 발생할 가능성이 더 높습니다. SAH는 events 간의 frame-level semantics의 부정확한 aggregation에서 비롯되기 때문에, 우리는 개선된 positional encodings를 통해 frames와 events 간의 mapping을 강화하는 것이 그 발생을 줄이는 데 도움이 될 수 있음을 보여줍니다. 우리는 더 나아가 hallucinated semantics에 대한 model의 선호도를 명시적으로 억제하는 DPO strategy를 채택합니다. 우리의 기여는 다음과 같이 요약됩니다:
- 우리는 SAH를 평가하기 위해 특별히 설계된 최초의 long-video benchmark인 ELV-Halluc를 소개합니다.
- 우리는 광범위한 실험을 통해 SAH가 semantic complexity 및 semantic variation rate와 양의 상관관계가 있음을 입증합니다 (예: declarative content보다 visual details에서 더 많은 SAH 발생). 이 관계로 인해 SAH는 때때로 전체 hallucination levels와 반대되는 추세를 보이기도 합니다 (예: 더 많은 frames가 sampled될 때).
- 우리는 SAH를 완화하는 데 있어 multimodal positional encoding의 효과를 검증하고, SAH를 줄이기 위해 DPO strategy를 추가로 채택합니다. hallucinations 유무에 따른 8K 개의 QA pairs를 선별함으로써, SAH ratio를 최대 27.7% 감소시키는 동시에 전체적인 performance도 향상시켰습니다 (+0.9% on VideoMME).
AI 연구자를 위한 Introduction 섹션 정리노트
1. 문제 제기: Long-Video Hallucination의 간과된 원인
- 기존 Video-MLLM의 hallucination 연구는 주로 short videos에 집중되어 있으며, 원인을 vision-language misalignment나 language priors 의존 등으로 한정함.
- 이 논문은 기존 연구들이 간과한 새로운 유형의 hallucination을 제시함. 이는 model이 개별 frame의 내용은 정확히 인식(correct frame-level semantics)하지만, 시간적으로 다른 event에 속한 정보들을 잘못 조합하여(misaggregating information across temporal segments) 발생하는 문제임.
2. 핵심 개념: Semantic Aggregation Hallucination (SAH)
- 정의: SAH는 model이 frame-level의 시각적 semantics는 정확히 인지했으나, 이를 시간적으로 다른 event의 개념과 잘못 연결하여 발생하는 hallucination임.
- 중요성: 이 현상은 단일 event로 구성된 short videos보다 여러 개의 독립적인 events를 포함하는 long videos에서 훨씬 치명적이고 빈번하게 발생함. Long videos의 풍부한 temporal structure가 SAH 발생 가능성을 증폭시키기 때문임.
- 예시: 영상 초반에 진행자가 '종이'를 들고 있는 event와, 영상 후반에 '스타벅스'라는 단어가 언급되는 event가 있을 때, model이 '진행자가 스타벅스 종이를 들고 있었다'고 잘못된 사실을 생성하는 경우.
3. 제안 방법론: ELV-Halluc Benchmark
- 목표: Long videos에서 발생하는 SAH를 체계적으로 측정하고 연구하기 위한 최초의 benchmark.
- 설계: Adversarial triplet question pair design을 채택함.
- (Ground Truth Q, In-Video Hallucinated Q)
- (Ground Truth Q, Out-of-Video Hallucinated Q)
- 측정 지표:
- In-video와 out-of-video hallucinated questions 간의 accuracy gap을 통해 event 간 semantic misalignment에 대한 model의 민감도, 즉 SAH를 정량화함.
- SAH Ratio: 전체 hallucinations 중 SAH가 차지하는 비율을 나타내는 지표를 정의하여 해석 가능한 분석을 제공함.
4. 주요 실험 결과 및 기여
- SAH의 존재 및 특성: 14개의 open-source MLLMs와 2개의 closed-source models 실험을 통해 SAH의 존재를 입증함. SAH는 semantic complexity(event 수, frame sampling 밀도)가 증가할수록 심화되며, 특히 빠르게 변하는 세부 정보(visual details)에서 더 자주 발생함.
- SAH 완화 방안 제시 및 검증:
- Positional Encoding: Frame과 event 간의 mapping을 강화하는 multimodal positional encoding이 SAH 완화에 효과적임을 보임.
- DPO (Direct Preference Optimization): Hallucinated semantics에 대한 model의 선호도를 명시적으로 억제하는 DPO strategy를 채택함. 이를 위해 8K개의 adversarial QA pair dataset을 구축하여 DPO 튜닝을 수행함.
- 결과: 제안된 방법을 통해 SAH ratio를 최대 27.7% 감소시켰으며, 동시에 VideoMME 점수도 0.9% 향상시켜 전반적인 performance 저하 없이 SAH 문제를 개선함.
쉬운 설명 :
이 논문의 Introduction 섹션은 비디오를 이해하는 AI가 겪는 '환각(hallucination)' 문제에 대해 이야기합니다. 기존에는 AI가 영상 속 물체를 잘못 보거나, 영상 내용과 상관없이 원래 알던 지식에 너무 의존해서 헛소리를 한다고 생각했습니다.
하지만 이 논문은 새로운 종류의 환각 문제를 지적합니다. AI가 비디오의 각 장면(frame)에 무엇이 있는지는 정확히 파악하지만, 시간 순서를 뒤죽박죽으로 섞어서 잘못된 내용을 만들어낸다는 것입니다.
예를 들어, 1시간짜리 영상이 있다고 상상해 봅시다. 영상 10분쯤에 주인공이 '사과'를 먹고, 50분쯤에 '병원'에 방문하는 장면이 나옵니다. AI는 '사과'와 '병원'이라는 정보를 각각 정확히 인식했지만, "주인공이 병원에서 사과를 먹었다"와 같이 시간적으로 전혀 다른 두 사건을 마음대로 합쳐서 이야기하는 실수를 저지릅니다. 이처럼 정보 조각들은 맞지만, 시간적 맥락을 무시하고 잘못 조합하는 현상을 이 논문에서는 'Semantic Aggregation Hallucination (SAH)'이라고 부릅니다.
이런 실수는 짧은 영상보다 여러 사건이 등장하는 긴 영상에서 훨씬 더 큰 문제가 됩니다. 그래서 연구팀은 이런 '시간 뒤섞기' 오류(SAH)를 전문적으로 찾아내는 테스트(ELV-Halluc benchmark)를 만들었습니다. 그리고 AI에게 각 장면에 시간표(positional encoding)를 더 잘 붙여주거나, 정답과 오답 예시를 함께 보여주며 학습시키는(DPO) 방법으로 이 문제를 해결할 수 있다는 것을 보여주었습니다.
Related Works
Video Understanding Benchmarks
Video-MME와 MVBench 같은 Video Understanding benchmarks는 여러 video lengths와 다양한 comprehension 측면을 포괄하여 video understanding capabilities에 대한 포괄적인 평가를 제공하는 것을 목표로 합니다. 그러나 일부 benchmarks는 video models의 특정 능력에 초점을 맞춥니다. 예를 들어, ETBench는 temporal localization과 time-awareness를 강조하고, Video-Holmes는 강력한 reasoning skills을 요구하는 QA pairs를 통해 복잡한 reasoning capabilities를 평가합니다.
long video contexts에서, LVBench는 한 시간을 초과하는 ultra-long videos에 대한 model comprehension을 평가하는 반면, MLVU는 long-video capabilities를 평가하기 위해 holistic understanding, single-detail comprehension, multidetail reasoning과 같은 다양한 요구 사항을 가진 tasks를 설계합니다. 유사하게, EgoSchema는 egocentric video scenarios에서의 model performance 평가를 강조합니다. 그러나 model reliability의 중요하고 상대적으로 독립적인 측면인 hallucination은 이러한 general-purpose video understanding benchmarks에서 대체로 충분히 탐구되지 않은 채로 남아있습니다.
Hallucination Evaluation in Video-MLLMs
몇몇 이전의 노력들은 hallucination-specific benchmarks를 구축하는 것을 목표로 했습니다. VideoHallucer는 hallucinations을 두 가지 유형으로 분류합니다: model이 원본 비디오와 일치하지 않는 content를 outputs하는 intrinsic과, 비디오만으로는 정확성을 판단할 수 없는 extrinsic입니다. EventHallusion은 Video-MLLMs에서 hallucination의 두 가지 주요 원인인 language priors와 vision-language bias를 추가로 식별하고, rare events와 misleading contexts를 포함하는 QA designs를 통해 이를 조사합니다. VidHalluc는 dynamic video segments에서의 hallucinations 평가에 초점을 맞추며, visual encoders에 내재된 inductive bias가 semantically similar videos를 처리할 때 hallucinations을 더 발생시킬 가능성이 있다고 주장합니다. 반면에 ARGUS는 open-ended video captioning tasks에서의 hallucination evaluation을 강조합니다.
그럼에도 불구하고, 이러한 기존 benchmarks는 두 가지 주요 한계를 공유합니다: (1) 주로 비교적 단순한 semantics를 가진 short videos를 대상으로 합니다. (2) long-video understanding에서 중요한 도전 과제인 Semantic Aggregation Hallucination (SAH)에 대한 명시적인 논의가 부족합니다.
AI 연구자를 위한 Related Works 섹션 정리노트
이 섹션은 본 논문의 연구(ELV-Halluc)가 기존 연구들과 어떻게 차별화되는지를 명확히 보여주기 위해 작성되었습니다.
1. 기존 Video Understanding Benchmark들의 한계
- 종합 및 특수 목적 Benchmark 현황:
- 종합 평가: Video-MME, MVBench 등은 다양한 측면에서 video understanding 능력을 포괄적으로 평가함.
- 특수 목적 평가: ETBench(시간 인지), Video-Holmes(추론), LVBench(초장편 비디오), MLVU(장편 비디오 내 복합 과제) 등 특정 능력에 초점을 맞춘 benchmark들도 존재함.
- 본 논문의 비판 (Research Gap): 이러한 기존의 일반적인 video understanding benchmark들은 model reliability의 핵심 요소인 hallucination 문제를 독립적으로, 그리고 깊이 있게 다루지 않음.
2. 기존 Hallucination Evaluation Benchmark들의 한계
- 기존 Hallucination 연구 현황:
- VideoHallucer: hallucination을 intrinsic / extrinsic으로 분류.
- EventHallusion: language priors와 vision-language bias를 주요 원인으로 보고 QA 형식으로 평가.
- VidHalluc: visual encoder의 inductive bias가 hallucination을 유발한다고 주장.
- ARGUS: open-ended video captioning에서의 hallucination에 집중.
- 본 논문의 비판 (Research Gap): 기존의 hallucination 전문 benchmark들조차 두 가지 명확한 한계를 가짐.
- Short Videos 편향: 대부분 단순한 semantics를 가진 short videos에만 초점을 맞추고 있음.
- SAH의 부재: 본 논문이 핵심 문제로 제기하는 Semantic Aggregation Hallucination (SAH), 즉 시간적 맥락을 잘못 종합하여 발생하는 hallucination에 대한 논의나 평가가 전무함.
- 결론: 기존 연구들은 long-video에서 발생하는 SAH라는 중요한 문제를 간과하고 있으므로, 이를 전문적으로 평가하기 위한 새로운 benchmark (ELV-Halluc)가 필요함을 역설함.
쉬운 설명 :
이 부분은 이 연구가 왜 새로운지를 설명하기 위해 "기존에는 어떤 연구들이 있었는가?"를 정리한 내용입니다. 일종의 '시장 조사' 보고서와 같습니다.
1. 기존의 '영상 이해 능력' 시험지들
- 세상에는 AI가 영상을 얼마나 잘 이해하는지 평가하는 다양한 시험지(benchmark)들이 있습니다. 어떤 시험지는 전반적인 이해 능력을 종합적으로 평가하고(Video-MME), 또 어떤 시험지는 '시간 순서 맞추기'(ETBench)나 '긴 영상 내용 요약하기'(LVBench)처럼 특정 능력만 따로 평가합니다.
- 문제점: 그런데 이 시험지들은 AI가 정답을 맞혔는지 틀렸는지만 볼 뿐, AI가 그럴듯하게 거짓말을 하는 '환각(hallucination)' 문제를 제대로 평가하지는 않는다는 한계가 있습니다.
2. 기존의 'AI 환각' 전문 시험지들
- 물론 AI의 '환각' 문제만 전문적으로 파고든 시험지들도 있습니다. 어떤 시험지는 AI가 영상에 없는 내용을 지어내는지(VideoHallucer), 또 어떤 시험지는 AI가 헷갈리는 상황에서 헛소리를 하는지(EventHallusion) 등을 평가합니다.
- 진짜 문제점: 하지만 이 '환각' 전문 시험지들도 결정적인 약점이 두 가지 있습니다.
- 대부분 1분도 안 되는 짧은 영상(short videos)만 가지고 테스트합니다.
- 이 논문이 가장 중요하게 생각하는 문제, 즉 '정보 조각들은 다 맞는데 시간 순서를 뒤죽박죽 섞어서 틀리는 문제(SAH)'는 아무도 다루지 않았습니다.
결론: 따라서 이 섹션은 "기존의 영상 이해 시험지들은 환각 문제를 제대로 안 다뤘고, 환각 전문 시험지들조차 짧은 영상만 다루면서 우리가 발견한 '시간 뒤섞기' 오류는 놓치고 있었다. 그래서 우리가 이 문제를 제대로 평가할 새로운 시험지를 만들었다"고 주장하는 것입니다.
ELV-Halluc
위의 문제들을 해결하기 위해, 우리는 Event 기반 Long Video Hallucination benchmark인 ELV-Halluc를 제안하고 수행합니다.
Event by event Video collection
우리의 benchmark는 Event-by-Event Videos로 구성됩니다. 우리는 Event-by-Event Videos를 동일한 전체 주제를 공유하지만 여러 개의 명확하게 구분된 events로 구성된 비디오로 정의합니다. (예: 여러 뉴스 항목이 있는 뉴스 방송). Event-by-Event Videos는 long-video hallucination benchmark를 구축하는 데 여러 가지 이점을 제공합니다:
- 명확하게 구분된 events가 있는 비디오는 semantic units을 분리하여 captioning의 어려움을 줄일 수 있습니다.
- Event-by-event videos의 semantics는 여러 그럴듯하지만 부정확한 설명으로 재구성될 수 있으므로 SAH를 유발할 가능성을 높입니다.
- Event-by-event videos에서 events의 수는 semantic complexity의 직관적인 지표 역할을 할 수 있습니다.
마지막으로, 우리는 YouTube에서 500개의 비디오를 수동으로 수집했습니다. 잠재적인 data leakage를 방지하기 위해 YouCook2와 같은 datasets과의 중복 샘플은 제거했습니다.
Semi-automated Caption Pipeline
그림 2에서 볼 수 있듯이, 우리는 annotation 품질을 보장하면서 인력을 줄이기 위해 3단계 semi-automated caption pipeline을 채택합니다.
Video Quality Recheck Event-by-Event concept에 대한 annotator 간의 불일치를 줄이기 위해 품질 재검사를 수행했습니다. Annotators는 2-10개의 명확하게 구별 가능한 events가 있는 비디오를 유지하고 각 비디오의 핵심 event를 요약하는 keyword를 제공했습니다(예: 농구에서의 득점 순간, 방송에서의 뉴스 보도). 총 348개의 비디오가 유지되었으며, 각 비디오는 최소 두 명의 annotators에 의해 검토되었습니다.
Automated Caption Generation with Gemini 초기 captions을 생성하기 위해 Gemini-2.5 Flash를 사용했습니다. Gemini는 annotated keywords를 기반으로 비디오를 segment하고, 전환 부분이거나 비필수적인 부분을 제외하며, 식별된 각 event에 대한 상세한 captions을 생성하도록 prompted 되었습니다.
Human Verification and Refinement Annotators는 다음 단계를 통해 gemini가 생성한 captions을 수정하도록 요청받았습니다: 1. 부정확한 시간 범위 수정; 2. captions의 사실 오류 수정; 3. 불필요한 segments 제거 (예: 도입, 요약, 전환 부분); 4. 누락된 events 추가 및 수동으로 captions annotating.
이 semi-automated process를 통해, 우리는 348개의 고품질 Event-by-Event videos와 사람이 수정한 ground truth captions을 확보하여, 수동 annotation 비용을 상당히 줄이면서 정확성을 보장했습니다.
Hallucinate QAs curation
우리는 더 나은 hallucination 평가를 위해 adversarial question pairs를 설계합니다. model은 정답 caption을 선택하고 hallucinated captions을 거부할 수 있어야 합니다. 이 원칙에 따라, 우리는 GPT-4o를 사용하여 hallucination elements를 도입함으로써 ground truth captions을 수정합니다. 수정된 각 caption은 그 ground truth와 쌍을 이루어 Question pair를 형성하며, 이 쌍은 model이 두 질문에 모두 정확하게 답해야만 정답으로 간주됩니다.
우리의 수정은 구체적으로 네 가지 aspect의 semantics를 대상으로 합니다: Visual details: 색상, 모양, 크기, 패턴, 공간 관계 또는 화면 상의 텍스트(OCR)와 같은 attributes. Action: 수행되고 있는 핵심 활동이나 움직임을 나타냅니다. Object: caption에 언급된 사람이나 물리적 객체를 의미합니다. Declarative content: 구체적인 행동이나 event보다는 상황을 요약하거나, 결과를 주장하거나, 신념이나 결과를 전달하는 서술적이거나 명제적인 진술. (예: "A팀이 앞서고 있다," "경기가 치열해 보인다,")
GPT-4o는 이러한 aspect 중 하나를 변경하여 captions을 수정하도록 지시받습니다. SAH를 더 깊이 조사하기 위해, 우리는 두 가지 modification strategies를 설계합니다:
In-video modification: GPT는 ground truth caption에 있는 object를 동일한 비디오 내 다른 event에서 가져온 object로 대체합니다.
Out-video modification: GPT는 ground truth caption에 있는 object를 비디오의 어떤 captions에도 나타나지 않는 조작된 object로 대체합니다.
수정 후의 Captions는 비디오를 보지 않고는 정확성을 판단할 수 없도록 그럴듯하고 합리적으로 유지되어야 합니다. 만약 model이 in-video hallucinated caption에 의해 오도된다면, 모든 hallucination types이 원인이 될 수 있습니다. 반면, model이 out-video hallucinated caption에 의해 오도된다면, hallucinated content가 비디오에 존재하지 않으므로 SAH는 가능한 원인이 될 수 없습니다. 따라서, in-video mislead rate에서 out-video mislead rate를 빼면 Semantic Aggregation Hallucination의 기여도를 근사할 수 있습니다. 그림 4에서 볼 수 있듯이, 우리는 object를 예로 들어 In-video 및 Out-video modifications을 시연합니다.
이러한 수정을 적용한 후, 우리는 348개 비디오에 걸쳐 20072개의 hallucinated captions을 얻었습니다.
Hallucinated Caption Quality Check
우리는 GPT-4o를 사용하여 모든 수정된 captions을 자동으로 재확인하여, in-video captions은 다른 events의 ground truths에 존재하는 원하는 aspect 변화를 도입하고, out-video captions은 모든 ground truths에 없는 변화를 도입하는지 확인했습니다. 위의 기준을 충족하는 captions만 유지하여, 348개의 Event-by-Event videos와 8,630개의 hallucinated caption pairs를 얻었습니다.
Final Benchmark and Evaluation Metrics
우리는 원본 348개 비디오 중 200개를 선택하고, 나머지 148개 비디오는 DPO를 위한 training set으로 남겨둡니다. 선택된 각 비디오에 대해, 우리는 24개의 captions을 선택하여 "다음 캡션은 완전히 정확합니까? 'Yes' 또는 'No'로만 답하세요."라는 question prefix를 덧붙여 binary QA pairs를 구성합니다.
이 QA pairs는 앞서 언급한 네 가지 aspects를 다룹니다: visual details, objects, actions, declarative content. 각 aspect는 동일한 비디오 내 다른 events에서 추출된 2개의 triplets으로 형성된 6개의 questions을 포함합니다. 각 triplet은 ground truth, in-video hallucinated, out-of-video hallucinated의 세 가지 captions으로 구성됩니다. 최종 QA pairs의 예는 그림 5에 나와 있습니다.
우리는 ground-truth question과 hallucinated question을 결합하여 adversarial QA pairs를 형성하며, 이는 triplet 당 두 개의 쌍을 만듭니다: (GT, In-Video Hallucination), (GT, Out-of-Video Hallucination). 쌍은 model이 ground-truth question에 "Yes"라고 예측하고 hallucinated question에 "No"라고 예측해야만 정답으로 간주됩니다. 전반적으로, benchmark는 4,800개의 binary QA pairs를 포함하며, 이는 다시 3,200개의 adversarial QA pairs로 그룹화될 수 있습니다. 그림 3은 ELV-Halluc의 상세한 statistics를 제시하며, video length, topics, events 수의 다양성을 보여줍니다.
Accuracy 우리는 long-video scenarios에서 models의 전반적인 hallucination level을 평가하기 위해 Accuracy를 사용합니다. 구체적으로, 우리는 다음 metrics를 보고합니다: In-Video Accuracy: in-video hallucinations을 포함하는 QA pairs에 대한 Accuracy. Out-Video Accuracy: out-of-video hallucinations을 포함하는 QA pairs에 대한 Accuracy.
SAH Ratio 우리는 모든 hallucination errors 중에서 Semantic Aggregation Hallucination (SAH)의 비율을 정량화하기 위해 SAH Ratio를 추가로 제안합니다. 만약 model이 out-of-video hallucinations에 대해서는 높은 accuracy를 달성하지만 in-video ones에 대해서는 현저히 낮은 accuracy를 보인다면, 이는 SAH의 특징인 events 간의 semantic misalignment를 해결하는 데 어려움을 겪고 있음을 나타냅니다. 따라서, accuracy gap은 model이 정확한 frame-level content와 부정확한 event-level attribution을 혼동하는 경향이 얼마나 되는지를 반영하므로, SAH severity에 대한 적절한 proxy가 됩니다. 따라서 우리는 Out-Video와 In-Video accuracy 간의 절대적인 차이 대신 SAH Ratio를 사용합니다. 이 접근법은 model의 절대적인 performance level의 영향을 최소화하면서 SAH의 상대적 심각도를 더 정밀하게 측정할 수 있게 합니다. 결과적으로, 이는 SAH를 구체적으로 해결하는 targeted solutions을 용이하게 합니다. 이 metric은 다음과 같이 계산됩니다: 여기서 OutAcc와 InAcc는 각각 out-of-video 및 in-video hallucination pairs에 대한 accuracy를 나타냅니다.
AI 연구자를 위한 ELV-Halluc 섹션 정리노트
이 섹션은 본 논문의 핵심 기여인 ELV-Halluc benchmark의 설계 및 구축 과정을 상세히 설명합니다.
1. 데이터셋 구축: SAH 측정을 위한 설계
- 데이터 소스: 'Event-by-Event Videos' 개념을 도입. 이는 뉴스 방송처럼, 하나의 주제 아래 여러 개의 명확히 구분되는 event들로 구성된 영상임.
- 선정 이유: ① 명확한 semantic 단위로 분리되어 annotation이 용이. ② 여러 event의 정보를 재조합하여 그럴듯한 오답을 만들기 쉬워 SAH 유발에 최적화. ③ Event의 수가 영상의 semantic complexity를 나타내는 직관적 지표로 활용 가능.
- 캡션 생성 파이프라인: 3단계 Semi-automated 방식을 채택하여 효율과 품질을 확보.
- 품질 검수: 사람이 직접 2~10개의 명확한 event를 가진 영상 348개를 선별.
- 자동 캡션 생성: Gemini-2.5 Flash를 활용하여 각 event별 상세 캡션 초안 생성.
- 사람 검증 및 수정: 사람이 직접 시간, 사실 오류를 수정하고 불필요한 부분을 제거하여 최종 ground truth 캡션을 완성.
2. Adversarial QA 생성: SAH를 정량화하는 핵심 방법론
- 핵심 아이디어: 정답(ground truth) 캡션을 GPT-4o를 이용해 의도적으로 변형시켜 '진짜'와 '그럴듯한 가짜'를 구분하는 adversarial question pairs를 생성.
- 수정 전략 (Key Innovation): SAH를 분리하여 측정하기 위해 두 가지 유형의 hallucinated caption을 설계.
- In-video modification: SAH 측정의 핵심. 영상 A의 1번 event 캡션에 있는 object를, 동일 영상 A의 5번 event에 등장하는 object로 교체. (예: 1번 event의 '책'을 5번 event의 '커피'로 바꿔 "진행자가 커피를 들고 있다"고 기술). 모델이 여기에 속으면 SAH가 발생한 것으로 판단.
- Out-video modification: 통제군 역할. 영상에 전혀 등장하지 않는 임의의 object로 교체. (예: '책'을 '망치'로 교체). 모델이 여기에 속으면 SAH보다는 일반적인 hallucination 문제로 판단.
- 평가 방식: 모델은 (정답, In-video 오답), (정답, Out-of-video 오답)의 adversarial QA pair에 대해 정답은 'Yes', 오답은 'No'로 맞춰야 함.
3. 최종 Benchmark 구성 및 평가 지표
- 최종 데이터셋: 총 348개 영상 중 200개(4,800개 QA)는 평가용 benchmark, 148개는 DPO를 위한 training set으로 활용.
- 평가 지표 (Key Metric):
- Accuracy: In-Video Accuracy와 Out-Video Accuracy를 통해 전반적인 hallucination 수준을 측정.
- SAH Ratio: 본 논문이 제안하는 핵심 지표. 모든 hallucination 오류 중 SAH가 차지하는 '비율'을 측정.
- 수식:
- 목적: Out-of-video 정답률(OutAcc)과 In-video 정답률(InAcc)의 단순 차이가 아닌, 비율을 계산함으로써 모델의 전반적인 성능과 무관하게 SAH 문제의 '상대적 심각도'를 정밀하게 측정 가능. 이는 SAH 문제 해결에 더 집중된 평가를 가능하게 함.
쉬운 설명 :
이 부분은 연구팀이 'AI의 시간 뒤섞기 오류(SAH)'를 어떻게 측정하는 시험지(benchmark)를 만들었는지 설명하는 '시험지 제작 설명서'입니다.
1단계: 시험 문제로 쓸 영상 고르기
- 먼저, AI가 헷갈리기 딱 좋은 영상들을 고릅니다. 예를 들어, 한 편의 뉴스 영상처럼 여러 개의 다른 꼭지(event)들로 구성된 영상들을 선택했습니다. 이런 영상은 AI가 A 꼭지에 나온 내용과 C 꼭지에 나온 내용을 섞어서 잘못 기억하기 쉽기 때문입니다.
2단계: 모범 답안(정답지) 만들기
- 고른 영상의 각 꼭지(event)마다 무슨 내용이 있었는지 사람이 직접 확인하고 Gemini라는 AI의 도움을 받아 아주 상세하고 정확한 '모범 답안'(ground truth caption)을 작성했습니다.
3단계: 그럴듯한 '오답 보기' 만들기 (가장 중요한 부분)
- 이제 AI를 테스트하기 위한 '함정 문제'를 만듭니다. GPT-4o라는 또 다른 AI를 시켜서 모범 답안을 바탕으로 두 종류의 그럴듯한 가짜 설명을 만들게 했습니다.
- 함정 1 (In-video): 시간 뒤섞기 오류(SAH)를 잡기 위한 핵심 함정입니다. 예를 들어, 뉴스 1번 꼭지에서 기자가 '책'을 들고 있었고, 5번 꼭지에서 '반도체'라는 단어가 나왔다면, 이 둘을 섞어서 "1번 꼭지에서 기자가 반도체에 관한 책을 들고 있었다"는 식의 가짜 설명을 만듭니다. 영상에 나온 단어들만 썼기 때문에 매우 그럴듯해 보입니다. AI가 여기에 속으면 SAH 문제가 심각하다는 뜻입니다.
- 함정 2 (Out-of-video): 비교를 위한 쉬운 함정입니다. 영상에 아예 나온 적도 없는 '요리' 같은 단어를 넣어서 "1번 꼭지에서 기자가 요리책을 들고 있었다"는 가짜 설명을 만듭니다. AI가 여기에 속으면 그냥 기본적인 사실 확인 능력이 부족하다는 뜻입니다.
4단계: 시험 채점하기
- AI에게 이 설명들이 맞는지 'Yes' 또는 'No'로 답하게 합니다.
- 연구팀은 AI가 '함정 1'에 얼마나 많이 속고, '함정 2'에 얼마나 많이 속는지를 비교합니다. 만약 유독 '함정 1'에 많이 속는다면, 그 AI는 다른 능력은 괜찮아도 시간 순서대로 정보를 종합하는 능력이 떨어진다고 판단할 수 있습니다.
- 이 '시간 뒤섞기 오류'의 심각성을 점수로 나타내기 위해 SAH Ratio라는 특별한 채점 공식까지 만들었습니다.
