AI바라기의 인공지능
VLM : 논문리뷰 : Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning 본문
VLM : 논문리뷰 : Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning
AI바라기 2025. 8. 27. 18:07쉬운 설명
이 논문의 핵심 아이디어는 똑똑한 AI에게 영상에 대해 질문하고 답을 얻을 때, AI가 "대충 감으로 찍는 것"이 아니라 **"명탐정처럼 논리적으로 증거를 찾아 설명하게 만드는 것"**과 같다.
- 기존 방식: 탐정이 범죄 현장(질문)을 보고 "직감적으로 범인은 이 사람이야!"라고 말하는 것과 같다. 왜 그런 결론을 내렸는지 알 수 없다.
- 이 논문의 방식: 탐정에게 "A가 범인인 이유는 B라는 동기가 있고 C라는 행동을 했기 때문이다"라는 큰 주장을 증명하게 시킨다.
- 탐정은 이 주장을 **"A는 B라는 동기가 있었다"**와 **"A는 C라는 행동을 했다"**는 두 개의 작은 주장으로 나눈다. (→ Entailment Tree 생성)
- 그리고 각 작은 주장에 대한 결정적인 증거를 CCTV 영상(Video)에서 찾아낸다. "여기 영상 1분 3초를 보면 A가 C 행동을 하는 것이 보입니다." (→ Video-Grounded 검증)
- 모든 작은 주장이 영상 증거로 증명될 때만, 탐정은 최종적으로 "A가 범인이다"라는 결론을 내린다.
이처럼 모든 추론 과정을 단계별로 나누고 실제 영상 증거와 연결함으로써, AI의 답변이 더 투명해지고 신뢰할 수 있게 된다.
용어 설명 (Glossary)
- VQA (Video Question Answering): Video를 보고 관련된 Question에 대한 Answer를 찾는 task.
- VLM (Vision-Language Model): 이미지나 Video와 같은 Visual 정보와 Text Language를 함께 이해하고 처리하는 model.
- Entailment Tree: 하나의 문장(가설)을 증명하기 위해, 그 문장을 논리적으로 함의(entail)하는 여러 개의 더 간단한 하위 문장들로 재귀적으로 분해하여 만든 나무 형태의 구조. 최상위 노드의 주장이 참이 되려면 모든 자식 노드의 주장이 참이어야 함.
- Video-Grounded: 추론의 각 단계가 추상적인 지식이나 model 내부의 믿음에만 의존하는 것이 아니라, Video의 특정 구간(fragment)이라는 구체적인 시각적 증거에 기반을 두는 것.
- Spurious Correlation (허위 상관관계): Model이 Video 내용을 진정으로 이해해서 답을 찾는 것이 아니라, Question의 특정 단어와 정답 선택지에 자주 함께 등장하는 단어 간의 우연한 통계적 연관성(예: '왜 넘어졌는가?'라는 질문에 '미끄러워서'라는 답이 자주 나옴)을 학습하여 답을 추측하는 현상. 이 논문이 해결하려는 핵심 문제.
- De-biasing Procedure: VQA benchmark의 정답 선택지들을 LLM을 이용해 재작성하는 절차. 기존 선택지들이 가지는 textual bias를 제거하고, 모든 선택지가 그럴듯하게 만들어 model이 반드시 Video를 봐야만 정답을 고를 수 있도록 강제함.
- Anchor Frame: Question에서 언급된 핵심 사건(fact)과 가장 관련성이 높은 Video의 특정 keyframe. 이 frame을 기준으로 전후 Video 구간을 탐색하여 정답의 증거를 찾음.
- Statement Prover (Prv(·)): Entailment tree의 각 노드에 있는 문장(statement)이 주어진 Video 증거(moment)를 바탕으로 참(True)인지 거짓(False)인지 판단하는 VLM.
Purpose of the Paper
이 논문은 기존 VQA model들이 가진 근본적인 한계를 극복하고자 한다.
- Black-Box Reasoning 극복: 기존 VLM들은 정답을 어떻게 도출했는지 그 과정을 설명할 수 없는 'black-box'처럼 작동한다. 이로 인해 model이 정말 Video를 이해한 것인지, 아니면 spurious correlation에 의존해 "찍은" 것인지 알 수 없다.
- Shortcut Learning 방지: Model들이 Video의 시각적 내용을 깊이 reasoning하는 대신, 질문과 정답 사이의 언어적 지름길(shortcut)을 학습하는 경향이 있다.
- '왜' 이 연구를 했는가: 연구팀은 VQA model의 의사결정 과정을 투명하고(transparent), 해석 가능하며(interpretable), 검증 가능하게(verifiable) 만들기 위해 이 연구를 수행했다. 이를 위해 'Video-Grounded Entailment Tree' 라는 새로운 reasoning framework를 제안했다. 이는 정답 후보를 여러 개의 검증 가능한 하위 가설로 나누고, 각 가설을 Video의 실제 증거와 연결하여 model이 추론에 기반해 답을 찾도록 강제하는 방식이다.
Key Contributions & Novelty
Key Contributions
- 최초의 Video-Grounded Entailment Tree Reasoning Framework 제안:
- 정답 후보를 문장으로 변환하고, 이를 재귀적으로 더 작은 단위의 하위 문장으로 분해하는 Entailment Tree를 생성.
- 각 하위 문장을 검증하기 위해 Video 내의 특정 증거 구간(grounded moment)을 찾아 연결.
- VLM을 Prover로 사용하여 각 문장이 시각적 증거에 기반해 참/거짓인지 판별하고, 이를 종합하여 최종 답변을 추론.
- LLM 기반의 VQA Benchmark De-biasing Procedure 개발:
- 기존 VQA benchmark의 정답 선택지들이 가진 textual bias를 제거하기 위해, 오답 선택지들을 더 그럴듯하게 재작성하는 de-biasing 절차를 고안.
- 이를 통해 model이 더 이상 언어적 힌트에만 의존할 수 없게 만들어, VQA model의 실제 reasoning 능력을 더 공정하게 평가할 수 있는 de-biased test set을 구축.
- Model-Agnostic Framework의 일반화 가능성 및 효율성 입증:
- 제안된 framework는 특정 model에 종속되지 않고, 다양한 기존 video/image 기반 VLM에 적용하여 성능을 일관되게 향상시킬 수 있음을 보임.
- GPT-4와 같은 거대 reasoner를 사용하는 SOTA VQA agent들과 경쟁력 있는 성능을 달성하면서도, parameter 수를 257배 적게 사용하여 높은 효율성을 보임.
Novelty
- 기존 entailment tree 연구는 주로 NLP 영역에서 텍스트 데이터에 기반했지만, 이 논문은 **세계 최초로 entailment tree를 Video의 시각적 내용에 직접 grounding**했다는 점에서 독창적이다. (이전 연구는 Video transcript가 제공된다고 가정).
- 단순히 성능을 높이는 새로운 architecture를 제안하는 것이 아니라, 기존 model들의 추론 과정을 투명하게 만들고 신뢰도를 높이는 '해석 가능한 reasoning' 방법론을 제시했다는 점에서 참신하다.
Experimental Highlights
- Datasets: NExT-QA, IntentQA, Video-MME (주로 Causal, Temporal reasoning에 중점) 및 이 데이터셋들의 de-biased 버전을 사용.
- 핵심 결과 1 (De-biased 데이터셋에서의 강건함):
- 모든 model은 de-biased 데이터셋에서 성능이 하락했지만 (평균 8-10% 감소), 제안된 framework를 적용한 model들은 하락폭이 훨씬 적었고, 성능 향상 효과는 오히려 de-biased 셋에서 더 크게 나타났다.
- 이는 제안된 방법이 spurious correlation에 대한 의존도를 줄이고, 진정한 시각적 reasoning을 유도한다는 가설을 강력하게 뒷받침한다.
- 핵심 결과 2 (SOTA와의 경쟁력):
- 훨씬 거대한 GPT-4 기반 reasoner를 사용하는 VideoAgent, VideoTree와 같은 SOTA 방법론들과 대등하거나, 일부 benchmark(예: IntentQA)에서는 더 나은 성능을 달성했다.
- 이는 제안된 framework가 매우 parameter-efficient 하면서도 효과적임을 보여준다.
- 핵심 결과 3 (일관된 성능 향상):
- Video-LLaVA, LLaVA-1.5 등 다양한 baseline VLM에 적용했을 때, 모든 dataset에서 일관되게 평균 1-4%의 정확도 향상을 가져왔다.
Limitations and Future Work
- Limitations:
- Component 성능 의존성: 전체 framework의 성능은 문장 분해를 담당하는 LLM과, 참/거짓을 판별하는 Prover(VLM)의 성능에 크게 좌우된다. 이들 component의 오류가 전체 추론 과정에 영향을 줄 수 있다.
- Grounding의 정확도 한계: 제안된 증거 탐색(grounding) 메커니즘이 효과적이긴 하지만 완벽하지 않다. 실제 정답 구간(ground-truth)을 제공했을 때 성능이 더 오르는 것을 보면(Table 7), grounding 정확도를 높일 여지가 여전히 존재한다.
- Future Work:
- Grounding Accuracy 향상: 각 하위 문장에 대한 가장 정확한 Video 증거를 찾아내는 더 정교한 grounding 기술 개발.
- Video-to-Text 표현력 강화: Video를 텍스트로 변환하는 captioning 기술이 발전한다면, 이 framework의 성능이 더욱 향상될 잠재력이 있다.
Overall Summary
이 논문은 VQA를 위해 세계 최초로 제안된 'Video-Grounded Entailment Tree Reasoning' framework이다. 이 framework는 기존 VLM들이 가진 'black-box' 추론 방식과 spurious correlation 의존 문제를 해결하기 위해, 답변 과정을 해석 가능하고 검증 가능한 논리적 단계로 분해하고 각 단계를 Video 속 시각적 증거와 직접 연결한다. 또한, LLM 기반의 de-biasing 절차를 통해 VQA benchmark를 개선하여 model의 실제 reasoning 능력을 더 정확히 평가할 수 있게 했다. 이 연구는 훨씬 적은 parameter로 SOTA와 경쟁하는 성능을 보이며, 더욱 투명하고 신뢰할 수 있는 VQA system을 향한 중요한 진전을 이루었다.
Abstract
이 논문은 commonsense video question answering (VQA)를 위한 최초의 video-grounded entailment tree reasoning 방법을 제안합니다. large visual-language models (VLMs)의 놀라운 발전에도 불구하고, 이 model들이 비디오와 가능한 답변 사이의 spurious correlations를 학습한다는 우려가 커지고 있으며, 이는 그들의 black-box 특성과 남아있는 benchmarking 편향에 의해 강화됩니다. 우리의 방법은 네 가지 단계, 즉 entailment tree construction, video-language entailment verification, tree reasoning, 그리고 dynamic tree expansion을 통해 VQA task를 비디오 조각에 명시적으로 grounds합니다. 이 방법의 중요한 이점은 현재의 비디오 및 이미지 기반 VLMs에 걸쳐 다양한 reasoning 유형에 대한 generalizability입니다. 공정한 평가를 지원하기 위해, 우리는 model reasoning을 강제하도록 VQA benchmark answer sets를 재작성하는 large-language models 기반의 de-biasing 절차를 고안합니다. 기존 및 de-biased benchmarks에 대한 체계적인 실험은 benchmarks, VLMs 및 reasoning 유형 전반에 걸쳐 우리 방법 구성 요소의 영향을 강조합니다.
1. Introduction
이 논문은 commonsense video question answering (VQA)를 위한 video-grounded reasoning method를 제안합니다. VQA는 computer vision에서 오랜 전통을 가지고 있으며, 최근 video- 및 image-language models (이 논문 전체에서는 vision-language models 또는 VLMs로 통칭함)를 통해 놀라운 발전을 이루었습니다. 그러나 이들의 향상된 performance가 reasoning이 아닌, 비디오와 가능한 답변 사이의 shortcut associations를 학습한 결과라는 우려가 커지고 있습니다. 이러한 우려는 이 models의 black-box 특성으로 인해 강화되며, 이는 의사 결정 과정에 대한 더 깊은 이해를 방해합니다.
우리는 natural language processing의 최근 연구에서 영감을 받았습니다. 여기서는 LLMs를 사용하여 후보를 hypotheses로 재귀적으로 분해하고 natural language inference 형식을 사용하여 hypotheses를 평가함으로써 답변 후보를 명시적으로 분석하는 메커니즘으로 entailment trees가 등장했습니다. Entailment trees는 model의 의사 결정 과정을 설명하고 각 단계의 verification을 가능하게 하는 명시적인 reasoning chain을 제공하여 shortcut learning에 대한 우려를 해결합니다. 최근 Sanders 등은 entailment trees를 비디오에 적용하는 메커니즘을 고안했습니다. 그러나 그들의 연구는 답변을 평가하기 위해 비디오 스크립트가 명시적으로 제공된다고 가정하므로, hypotheses를 비디오 콘텐츠에 grounding하는 복잡성을 피합니다.
이 논문에서 우리는 commonsense VQA를 위한 최초의 video-grounded entailment tree reasoning method를 제안합니다. 우리의 방법은 (i) entailment tree construction, (ii) video-language entailment verification, (iii) tree reasoning, 그리고 (iv) dynamic tree expansion의 네 단계로 VQA tasks를 비디오 조각에 명시적으로 grounds합니다. 그림 1에서 볼 수 있듯이, 비디오와 multiple-choice question이 주어지면, 우리는 각 답변 후보에 대해 첫 번째 수준의 hypothesis 역할을 하는 진술을 생성합니다. 우리는 각 진술을 반복적으로 분해하여 비디오에서 확실하게 verified될 수 있는 하위 진술을 생성하는 것을 목표로 합니다. 비디오 자체는 frames의 집합으로 구성된 partitions으로 분해됩니다. 각 진술을 Verifying하는 것은 그것을 비디오 partition에 aligning하는 문제가 됩니다.
이 방법의 중요한 이점은 temporal 및 causal을 포함한 reasoning types에 걸쳐 현재의 video 및 image-based VLMs에 대한 generalizability입니다. 비디오 reasoning ability를 입증하기 위해, 우리는 LLM이 지원하는 answer-set de-bias procedure를 개발하여 VQA benchmarks가 spurious correlations에 의존하지 않고 비디오에서 reasoning하기에 적합하도록 보장합니다. 우리의 실험은 video-grounded entailment tree method가 기존 및 de-biased benchmarks 모두에서 video- 및 image-based baselines를 일관되게 개선함을 보여줍니다. 더욱이, 이 방법은 257배 적은 parameters를 활용하면서도 state-of-the-art video-based VLMs와 동등하거나 종종 더 나은 성능을 보입니다. 추가적인 ablations는 이 방법이 textual 및 video information을 모두 고려함으로써 이점을 얻으며, 그 performance가 특히 causal 및 temporal questions에서 강력하다는 것을 보여줍니다.
정리노트 (For AI Researchers)
- Problem Definition: 현재의 large vision-language models (VLMs)는 Video Question Answering (VQA) task에서 높은 performance를 보이지만, 실제 video content에 기반한 reasoning이 아닌, video와 정답 간의 spurious correlations (shortcut learning)에 의존하는 경향이 있음. 또한, 이 VQA models의 black-box 특성 때문에 decision-making 과정을 신뢰하고 분석하기 어려움.
- Proposed Method: 세계 최초의 video-grounded entailment tree reasoning method를 제안.
- NLP 분야의 entailment tree 개념을 VQA에 적용. 답변 후보를 검증 가능한 작은 단위의 hypotheses로 재귀적으로 분해하여 명시적인 reasoning chain을 구축.
- 기존 연구가 video transcript (텍스트)에 의존한 것과 달리, 본 연구는 생성된 hypotheses를 video의 실제 시각적 조각 (video fragments/partitions)에 직접 grounding하는 것을 핵심으로 함.
- Core Mechanism (4-Step Process):
- Entailment Tree Construction: 답변 후보로부터 검증할 상위 hypothesis 생성.
- Video-Language Entailment Verification: 분해된 하위 hypotheses를 video partition과 aligning하여 검증.
- Tree Reasoning: 검증된 hypotheses를 종합하여 최종 답변 추론.
- Dynamic Tree Expansion: 필요에 따라 tree를 확장하여 추가적인 reasoning 수행.
- Key Contributions & Strengths:
- Generalizability: 특정 model architecture에 종속되지 않고, 기존의 다양한 video 및 image-based VLMs에 적용 가능하며 temporal, causal 등 여러 reasoning types를 포괄함.
- Efficiency & Performance: State-of-the-art video-based VLMs 대비 257배 적은 parameters를 사용하면서도, 동등하거나 더 우수한 performance를 보임. 특히 causal 및 temporal reasoning에서 강점.
- Robust Evaluation: Shortcut learning에 의한 평가를 방지하기 위해, LLM을 활용하여 기존 VQA benchmarks를 de-bias하는 절차를 직접 개발하고, 이를 통해 제안 방법의 실제 reasoning 능력을 입증함.
쉬운 설명 :
현재 비디오 내용을 질문하고 답하는 AI 모델들은 종종 비디오를 제대로 이해해서 답하기보다, 그럴듯한 답변을 찍는 방식으로 높은 점수를 얻습니다. 예를 들어 영상에 '부엌'이 나오면 질문과 상관없이 '요리'와 관련된 단어를 답하는 식입니다. 게다가 AI가 어떤 과정을 거쳐 답을 골랐는지 알 수 없는 '블랙박스'라서 그 결과를 믿기 어렵다는 문제가 있었습니다.
이 논문은 AI가 명탐정처럼 자신의 추리 과정을 단계별로 증명하도록 만드는 새로운 방법을 제안합니다.
어떤 질문에 대한 가능한 답변이 있다면, AI는 그 답변이 왜 맞는지 여러 개의 작은 사실(가설)로 나눕니다. 예를 들어 "고양이가 왜 선반에서 떨어졌나요?"라는 질문에 "새가 날아와 놀랐기 때문"이라는 답이 있다면, AI는 이 문장을 "1. 고양이가 선반에 있었다", "2. 새가 날아왔다", "3. 고양이가 놀랐다", "4. 고양이가 떨어졌다" 와 같이 증명 가능한 작은 단위로 쪼갭니다.
가장 중요한 점은, AI가 이 작은 사실들을 그냥 머릿속으로만 생각하는 게 아니라, 비디오의 몇 초 몇 프레임에 그 증거가 있는지를 정확히 찾아내도록 강제하는 것입니다. 이렇게 각 추리 단계마다 영상 속 증거를 직접 연결(grounding)하니, AI가 더 이상 정답을 대충 찍지 못하고, 논리적인 근거를 가지고 답변하게 됩니다.
그 결과, 훨씬 가볍고 작은 모델을 사용하면서도 거대한 최신 AI 모델만큼, 혹은 그 이상으로 똑똑하게 비디오를 이해하고 질문에 답할 수 있게 되었습니다.
2. Related work
Video question answering.
최근 연구에 따르면 video-based VLMs는 state-of-the-art performance를 달성할 수 있지만, 그 답변은 객체의 크기, 위치 및 속도에 민감합니다. 더욱이, temporal 및 spatial questions에 답할 때 VLMs는 visual-text information에 대한 진정한 이해와 reasoning을 수행하기보다는 textual biases에 의존하여 답변을 "추측"합니다.
VLMs의 robustness와 interpretability를 향상시키기 위해, 한 연구 분야는 QA 중에 VLMs에 visual grounding 기능을 추가하여, VLMs가 답변을 뒷받침하기 위해 관련 비디오 순간이나 key frames를 localize할 수 있도록 합니다. 그러나 이러한 방법들은 visual evidence를 localize하지만, VLMs가 이를 사용하여 답변을 deduce하는 과정은 여전히 opaque합니다. 또 다른 접근 방식은 interpretability를 textual modality에서 향상시키기 위해 external LLMs를 reasoners 또는 agents로 활용합니다. 예를 들어, LLoVi는 video captioning을 통해 VQA를 text-based QA task로 변환한 다음, LLM에게 답변을 제공하도록 prompts합니다. 유사하게, VideoAgent는 LLM을 사용하여 현재 frames의 textual descriptions를 기반으로 주어진 질문에 답할 수 있는지 재귀적으로 결정합니다. 그러나 이러한 방법들은 LLMs의 reasoning capabilities에 크게 의존합니다. VLMs와 마찬가지로, LLM의 reasoning process는 black box로 남아 있으며 hallucinations가 흔합니다. 최근, TV-trees는 neuro-symbolic system을 사용하여 visual 및 textual modalities 모두에 대해 explicit reasoning을 수행하려고 시도했습니다. 그러나 그들의 연구는 답변을 평가하기 위해 비디오 스크립트가 명시적으로 제공된다고 가정하므로, hypotheses를 비디오 콘텐츠에 grounding하는 복잡성을 피합니다. 대신, 우리는 question components를 video fragments와 aligns하는 grounding component를 기반으로 commonsense VQA에서 explicit reasoning을 위한 general framework에 기여합니다.
Methodology를 넘어서, 일부 연구는 새로운 benchmarks를 만들어 VQA tasks에서 공정하고 포괄적인 VLM evaluations를 제공하는 데 중점을 둡니다. 이러한 benchmarks에는 VLMs가 악용할 수 있는 textual shortcuts를 방지하도록 설계된 신중하게 제작된 질문과 옵션이 포함된 다양한 시나리오와 길이의 비디오가 포함되어 있습니다. VLMs의 commonsense reasoning을 테스트하기 위해 textual associations를 넘어서는 통찰력이 필요한 Video-specific questions (예: compositional action reasoning)가 포함됩니다. 이러한 benchmarks에 남아있는 biases에 대한 우려를 해결하기 위해, 우리는 VQA benchmarks가 spurious correlations보다는 비디오에서의 reasoning을 평가하기에 적합하도록 보장하는 LLM-based answer-set de-biasing procedure에 기여합니다.
Systematic language reasoning.
LLMs가 reasoning에서 큰 잠재력을 보여줌에 따라, LLMs를 사용하여 답변을 뒷받침하는 systematic explanations를 generate하는 데 상당한 관심이 있었습니다. Chain-of-Thought prompting 시리즈는 LLMs가 step-by-step으로 생각하여 explicit multi-hop reasoning을 수행하도록 장려하며, 답변에 도달하기 전에 free-form reasoning steps를 제공합니다. 그러나 이러한 implicit explanations는 external knowledge나 evidence에 grounded되어 있지 않아, unverifiable하고 unfaithful reasoning으로 이어질 수 있습니다. EntailmentBank의 개발 이후, 연구는 explanation trees와 graphs를 구축하는 데 점점 더 집중하여, models이 a set of supporting facts를 사용하여 진술에 대한 step-wise entailment proofs를 generate하도록 장려하고 있습니다. Entailer는 이 systematic explanation framework를 language-based multiple-choice QA에 도입하여, model의 internal beliefs에 grounded된 entailment trees를 generating함으로써 explicit reasoning을 수행합니다. REFLEX는 entailment tree를 확장하여 QA models를 위한 belief graph를 형성하며, intermediate reasoning steps에 intervening함으로써 consistency issues를 해결하는 것을 목표로 합니다. Predefined된 규칙이나 model beliefs에 facts를 grounding하는 대신, NELLIE는 Prolog-based inference engines와 external natural language corpora를 채택하여 multiple-choice QA tasks를 위한 explainable reasoning으로서 entailment trees를 build합니다. Natural language processing을 위한 이러한 기술들이 우리의 framework에 영감을 주었지만, 우리는 entailment trees를 VQA로 generalize하여, entailment trees를 video fragments와 aligns하는 새로운 grounding method에 기여합니다.
정리노트 (For AI Researchers)
이 논문은 두 가지 주요 연구 분야, Video question answering과 Systematic language reasoning의 기존 한계를 지적하고 그 교차점에서 새로운 해결책을 제시합니다.
1. On Video Question Answering (VQA)
- Existing Problems:
- 현재의 VLMs은 정답을 reasoning하기보다 textual bias에 의존해 "추측"하는 경향이 있습니다.
- Visual grounding을 통해 관련 video frame을 localize하는 연구들이 있지만, localize된 정보를 어떻게 사용하여 답변을 deduce하는지는 여전히 opaque한 black box로 남아 있습니다.
- Video를 text(caption)로 변환 후 LLM을 reasoner로 사용하는 접근법 (LLoVi, VideoAgent)은 black box 문제를 VLM에서 LLM으로 전가할 뿐이며, hallucination의 위험이 있습니다.
- 가장 유사한 neuro-symbolic 접근법인 TV-trees는 reasoning 과정을 보여주지만, video의 시각 정보가 아닌, 사전에 제공된 text transcript에 의존한다는 치명적인 한계가 있습니다.
- This Paper's Differentiation:
- 본 논문은 reasoning의 각 단계를 video의 실제 시각적 조각 (video fragments)에 직접 aligns하는 grounding 메커니즘을 제안합니다. 이는 기존 연구들이 해결하지 못한, reasoning 과정의 투명성과 시각적 증거 기반의 신뢰성을 동시에 확보하는 general framework입니다.
- 또한, 공정한 평가를 위해 기존 VQA benchmarks의 textual shortcuts (꼼수)를 제거하는 LLM-based de-biasing 절차를 제안하여 방법론의 실제 reasoning 능력을 검증합니다.
2. On Systematic Language Reasoning
- Existing Problems:
- Chain-of-Thought는 reasoning 과정을 보여주지만, 그 단계들이 external evidence에 grounded되지 않아 unverifiable하고 unfaithful할 수 있습니다.
- EntailmentBank에서 파생된 explanation trees 및 graphs (Entailer, REFLEX, NELLIE)는 step-wise proof를 통해 신뢰도를 높였지만, 이는 전적으로 language-based task를 위한 것입니다. 이들은 model의 내부 지식이나 text corpora에 grounding될 뿐, video와 같은 시각적 양식에는 적용할 수 없습니다.
- This Paper's Differentiation:
- 본 논문은 language 영역에 한정되었던 entailment tree 개념을 VQA로 성공적으로 generalize (일반화)했습니다.
- 핵심 기여는 entailment tree의 각 reasoning 단계를 video fragments라는 시각적 증거와 직접 연결하는 새로운 grounding method를 제안한 것입니다.
쉬운 설명 :
이 연구가 어떤 점에서 새로운 것인지 기존의 다른 AI 연구들과 비교해서 설명해 드리겠습니다.
1. 비디오 내용을 질문하고 답하는 AI 분야에서
기존의 비디오 AI들은 몇 가지 문제가 있었습니다.
- 꼼수 쓰는 AI: 비디오를 제대로 보지 않고, 질문에 포함된 단어만 보고 그럴듯한 답을 찍는 경우가 많았습니다.
- 설명 못 하는 AI: 비디오의 중요한 장면을 찾아내긴 하지만, "그래서 그 장면을 보고 왜 그런 결론을 내렸는데?"라고 물으면 설명하지 못하는 '블랙박스'였습니다.
- 일을 떠넘기는 AI: 자기가 직접 비디오를 보고 판단하기 힘드니, 비디오 내용을 글로 요약해서 글만 읽고 답하는 다른 AI에게 일을 넘기기도 했습니다. 하지만 이 경우에도 여전히 추리 과정은 깜깜이였습니다.
- 자막 없으면 안 되는 AI: 이 연구와 가장 비슷한 이전 연구는, 비디오에 모든 상황이 설명된 '자막(transcript)'이 있어야만 작동하는 한계가 있었습니다.
이 논문의 AI는 이 문제들을 해결했습니다. AI가 내놓은 결론의 모든 근거를 "이 생각은 비디오의 O초~O초 장면 때문에 한 거야" 라고 단계별로 명확하게 증명자료를 제출하도록 만듭니다. 즉, 추리 과정을 투명하게 만들고, 그 근거를 영상 증거에 직접 연결한 최초의 방법입니다.
2. AI의 생각 과정을 체계적으로 설명하는 분야에서
AI가 왜 그런 답을 했는지 그 생각의 흐름을 보여주려는 연구는 이전에도 있었습니다.
- 혼자 생각만 하는 AI: "A는 B이고, B는 C니까, 정답은 C야" 라고 생각의 흐름(Chain-of-Thought)을 보여주지만, A가 B라는 근거가 어디 있는지 증명하지는 못해서 그 생각이 사실인지 거짓인지 알 수 없었습니다.
- 글로만 증명하는 AI: 생각의 흐름을 논리적인 '트리' 구조로 만들고, 각 단계가 맞다는 것을 다른 글(텍스트 문서)에서 찾아와 증명하는 똑똑한 AI(Entailment Tree)도 있었습니다. 하지만 이 AI는 오직 텍스트 세상에서만 작동했습니다.
이 논문은 바로 이 '글로만 증명하던' 똑똑한 AI의 능력을 비디오의 세계로 확장시켰습니다. 논리 트리의 각 단계를 글이 아닌, '비디오 장면'이라는 시각적 증거에 직접 연결하는 새로운 방법을 개발한 것입니다.
3. Video-grounded entailment tree reasoning
이 논문은 grounded commonsense VQA를 위한 새로운 explainable framework를 고안합니다. 이 framework는 entailment trees를 사용하여 video-text information에 대한 systematic reasoning을 통해 답변을 도출합니다. 구체적으로, entailment tree (그림 2a)에서 각 후보 답변은 그 답변을 entail하는 statements로 decomposed되어, 각 답변이 왜 plausible한지를 설명합니다. 이러한 statements는 비디오의 관련 visual evidence에 grounded되어 그것들을 prove하거나 refute합니다 (그림 2b). Natural language processing에서의 entailment trees가 model의 internal knowledge나 corpora를 기반으로 구성되는 반면, 우리는 entailment trees를 video fragments에 ground합니다. 마지막으로, entailment tree를 통한 backtracking은 statements에 대한 systematic reasoning으로 이어집니다 (그림 3). 따라서, 답변은 opaque한 black-box models에 의존하는 대신 explicit reasoning paths와 explanations를 가진 systematic structure에 의해 deduced될 수 있습니다.
3.1. Entailment tree construction
Initial statement generation. Question과 그 answer candidates가 주어지면, 우리는 먼저 각 question-answer pair를 원래 QA pair의 semantic meaning을 보존하는 declarative sentence로 변환합니다. 결과적으로, N-way multiple-choice QA 문제는 $D={d1, \dots, dN}$으로 표시되는 statements의 집합을 생성합니다. 예를 들어, “흰 옷을 입은 소년이 풍선을 처음 잡은 후 무엇을 했나요? (A) 의자에서 쉬고 있다 (B) 훌라후프 쪽으로 그것을 옮긴다”라는 two-way question은 다음과 같이 변환됩니다: D : {d1= “흰 옷을 입은 소년은 풍선을 처음 잡은 후 의자에서 쉬고 있다.”, d2= “흰 옷을 입은 소년은 풍선을 처음 잡은 후 훌라후프 쪽으로 그것을 옮긴다.”}. 따라서 최상의 답변을 선택하는 것은 주어진 비디오에 대한 올바른 statement를 식별하는 것과 같습니다.
Recursive statement decomposition. D에 있는 각 initial statement에 대해, 우리는 그 statement를 support하는 proofs로서 두 개의 sub-statements를 생성합니다: Statement ⇐ Sub-statement1, Sub-statement2. Statement는 두 sub-statements가 모두 True로 proved될 때 그리고 오직 그럴 때만 True입니다, 즉, sub-statements가 statement를 entail합니다. 따라서 원래 statements를 Proving하는 것은 두 개의 더 간단한 sub-statements를 Proving하는 것으로 변환됩니다. 이 절차는 recursive합니다: sub-statements는 그것들을 entail하는 더 나아간 sub-statements로 더 decomposed될 수 있습니다. 따라서, entailment tree를 construct하기 위해, 우리는 maximum depth에 도달하거나 stop criterion을 충족할 때까지 이러한 sub-statements를 다음 tree layer의 새로운 statements로서 recursively decompose합니다. 그림 2(a)는 entailment tree generation의 예를 보여줍니다. 우리는 initial statement generation과 statement decomposition 모두에 LLM prompting을 활용합니다, 왜냐하면 이들은 linguistic tasks이기 때문입니다 (implementation details 참조).
3.2. Video-language entailment verification
Entailment tree가 주어지면, framework는 grounded된 video content를 evidence로 사용하여 language statements를 verifies합니다. 구체적으로, entailment tree의 각 statement는 비디오를 분석하여 proven되거나 refuted되어야 합니다. 간단한 해결책은 전체 비디오를 encode하여 statement를 verify하는 데 사용할 수 있는 정보를 수집하는 것입니다. 그러나 statement를 정확하게 verifies하는 critical visual evidence는 전체 비디오가 아닌 local moment에 존재하는 경향이 있습니다. 따라서, 우리는 verification process를 관련 visual evidence가 있는 moments로 안내하는 새로운 video grounding을 개발합니다.
Question-aware video captioning. 비디오가 주어지면, 우리는 그것의 visual information을 상세한 textual information으로 변환합니다. 구체적으로, 우리는 각 frame에 대한 caption $c_i=\texttt{Cap}(f_i)$를 얻기 위해 video frames를 VLM-based captioner Cap(·)에 입력합니다. 그러나 frames를 개별적으로 captioning하면 필수적인 세부 사항을 간과하거나 VQA에 관련 없는 정보를 도입할 수 있습니다. Commonsense VQA에서, questions는 종종 비디오에서 이미 관찰된 특정 사실에 초점을 맞춥니다. 예를 들어, 일반적인 temporal reasoning question은 “Event-A 전/후에 무슨 일이 있었나요?”이며, 여기서 Event-A는 비디오의 이벤트에 대한 fact statement를 나타냅니다. Question에 의해 참조된 fact는 비디오 이해를 안내하는 데 활용될 수 있습니다. 이를 위해, 우리는 먼저 question에 의해 표시된 anchor fact를 추출하고 이를 prior knowledge로 Cap(·)에 제공하여, relevant captions의 generation을 장려합니다. 또한, 이전의 모든 frames로부터의 captions도 각 현재 frame에 제공되어 Cap(·)이 과거로부터의 temporal context를 포착하도록 보장합니다. 이 과정은 다음과 같이 formulated됩니다: 여기서 F는 fact statement를 나타냅니다.
Video evidence grounding. Commonsense VQA의 경우, question이 fact statement를 중심으로 어떻게 reasons하는지에 따라, 답변에 필요한 evidence는 특정 video moments에서 수집될 수 있습니다. 예를 들어, temporal reasoning의 경우 (예: 전 또는 후 questions), 답변은 관련 fact의 시간 이전 또는 이후에 발생하는 moments에서 추론되어야 합니다. 이 intuition에 따라, 우리는 answering을 위한 critical moments를 localize하기 위해 two-step evidence-grounding strategy를 설계합니다.
첫째, frame-wise captions가 주어지면, 우리는 fact statement와 가장 관련이 있다고 간주되는 keyframe을 retrieve하며, 이를 anchor frame이라고 합니다. 간단한 retrieval 접근 방식은 anchor frame을 식별하기 위해 특정 metrics를 사용하여 각 를 fact description과 비교하는 것입니다. 그러나 우리는 structured semantic retrieval strategy를 채택하여 retrieval accuracy를 향상시킵니다. 구체적으로, 각 frame과 fact statement의 textual descriptions는 structured triplets으로 변환됩니다. 이 triplets는 structured semantics를 통해 각 frame에 있는 objects의 attributes와 relationships를 포착합니다. 그림 2(a)에서 볼 수 있듯이, frames와 fact statements의 raw textual descriptions를 직접 비교하는 대신, 우리는 retrieval을 위해 이 triplets를 사용합니다. Retrieval tasks에 LLMs를 사용하는 성공에 영감을 받아, 우리는 fact statement의 triplets를 query로 사용하여 anchor frame retrieval을 수행하도록 LLM에게 prompt합니다. 그러면 LLM은 가장 관련 있는 frame ID, 즉 timestamp를 식별하고 반환합니다. 여기서 $t_{\text{anchor}}$는 anchor frame의 time stamp이고, Rtv(·)는 retrieval process를 나타냅니다. 둘째, 우리는 question에 있는 temporal relations를 통합하기 위해 $t_{\text{anchor}}$를 중심으로 찾아봐야 할 final moment를 결정합니다. 따라서, anchor frame을 기반으로, moment에 대한 navigation은 question을 고려하여 “look ahead, look behind, look around” 중에서 선택됩니다: 여기서 Gnd(·)는 grounding process이고 M은 비디오에서 grounded된 continuous interval을 나타냅니다. 그런 다음, frames는 M 내에서 비디오로부터 resampled되어 entailment tree statements를 proving하거나 refuting하는 visual evidence로 사용됩니다.
Visual-text statement prover. 비디오의 grounded visual evidence M이 주어지면, statements는 true 또는 false로 추정됩니다. 구체적으로, 우리는 VLM의 이 statement에 대한 internal belief를 probing하여 tree 내의 각 statement를 evaluate하기 위해 Prv(·)로 표시되는 VLM을 statement prover로 사용합니다. 각 statement는 True 또는 False의 가능한 옵션을 가진 binary QA task로 변환됩니다. 그런 다음, 우리는 binary QA prompt로 Prv(·)를 직접 probe하고, model의 belief를 elicit하기 위해 단어들의 next token prediction probabilities를 사용합니다. 우리는 두 옵션의 prediction logits를 normalize하여 해당 statement의 confidence score를 얻습니다. 위 과정은 다음과 같이 formulated됩니다: 여기서 M은 grounded moment이고 h는 verified되어야 할 statement를 나타냅니다.
3.3. Dynamic entailment tree expansion
지금까지, 우리는 pre-defined된 depth를 가진 entailment tree를 construct하기 위해 statement decomposition을 recursively 수행했습니다. 그러나 모든 statements가 recursively verified될 필요는 없으며, 특히 VLMs에 의해 쉽게 true 또는 false로 결정되는 것들은 더욱 그렇습니다. 또한, depth가 증가함에 따라, 일부 statement sentences는 atomic하고 직접 verifiable합니다. 따라서, reasoning process의 efficiency를 향상시키기 위해, 우리는 entailment tree를 dynamically expand하는 strategy를 추가로 채택합니다.
구체적으로, 각 statement d는 Prv(·)에 의해 제공되는 두 개의 confidence scores와 연결됩니다: (1) Direct score , 이는 Prv(·) model의 d에 대한 belief를 나타냅니다. (2) Proof score , 이는 model이 d를 얼마나 자신 있게 prove할 수 있는지를 나타내며, 그것의 direct sub-statements의 scores를 곱하여 계산됩니다.
Statement d에 대해, decomposition의 목표는 단순히 VLMs에 의해 d가 true인지 evaluate하는 것보다 더 reliable하고 convincing한 proof path를 설정하는 것입니다. 만약 decomposition-based reasoning이 d를 그것의 direct score보다 higher confidence로 prove할 수 있다면, statement d에 대한 전반적인 confidence는 증가해야 합니다. 그렇지 않다면, decomposition은 disregarded되어야 합니다. 따라서, dynamic tree expansion에서, 만약 decomposition이 statement의 score를 enhance하지 않는다면, 그것은 pruned되고, 그 statement node는 entailment tree에서 leaf가 됩니다. 그림 3은 간단한 예를 보여줍니다. 이 기준은 유익한 decompositions만 유지되도록 보장하여, tree reasoning process의 efficiency를 크게 향상시킵니다.
3.4. Reasoning over the entailment tree
마지막으로, 우리는 각 top statement의 confidence score를 calculate하기 위해 entailment tree를 통해 backtrace를 수행합니다. 구체적으로, 각 statement에 대한 final score는 그것의 direct score 와 proof score 를 비교하여 생성됩니다, 즉, backtrace 동안 $s=\max(s_d, s_p)$입니다 (그림 3 참조). 전체 framework는 top-scoring proof를 가진 top layer의 statement에 해당하는 answer를 selects합니다.
4. De-biasing commonsense VQA answer sets
Video-grounded entailment trees의 reasoning ability를 입증하기 위해서는, model reasoning을 enforce하는 commonsense VQA benchmarks를 사용하여 evaluate하는 것이 필수적입니다. 최근 연구는 VQA datasets에 VLMs가 video-grounded reasoning보다는 textual associations를 기반으로 이러한 tasks를 해결할 수 있게 하는 shortcuts가 존재한다는 evidence를 제공했습니다. VQA benchmarks가 비디오 내용의 temporal (예: after, before) 또는 causal (how, why, what if) relationships와 같은 commonsense reasoning skills에 점점 더 초점을 맞추고 있지만, reasoning shortcuts는 그 evaluation의 validity에 영향을 미칩니다. 이는 그림 4 (상단)에 설명되어 있으며, 여기서 정답 (D)은 question과 훨씬 더 관련이 있고 실제 기대와도 가장 잘 aligns합니다. 결과적으로, VLM (이 예에서 사용된 VideoLLaVA)은 비디오 내용을 분석하지 않고 이러한 associations를 활용하여 이 question에 정확하게 답할 수 있습니다. 한편, 그림 4 (하단)에서 설명된 것처럼 answer set distractors를 다른 commonsensical answer candidates로 교체하면 이 task는 VLMs에게 challenging해집니다. 여기서, VLM은 자신의 답변을 옵션 (C)로 잘못 전환하며, 이는 commonsense associations의 영향과 이러한 models에 의한 grounded reasoning의 부족을 확인시켜 줍니다.
이를 위해, 우리는 commonsense VQA answer sets에서 reasoning shortcuts를 mitigates하는 de-biasing procedure를 고안합니다. 우리의 de-biasing procedure는 question과 ground-truth answer는 그대로 유지하면서 answer distractors를 rewriting하여 multiple-choice VQA benchmarks (예: NExT-QA)를 transforms합니다. 우리는 각 original QA set에 대해 rewriting procedure를 구현하기 위해 LLM (LLaMA-3)에게 prompt합니다. 그림 5는 우리가 NExT-QA dataset에 대해 LLaMA-3에 사용한 상세한 prompt를 보여줍니다. 이 procedure는 (1) answers가 QA set associations에서 쉽게 도출될 수 없도록 하고 (2) answer가 original QA pair와 consistent하게 유지되도록 보장합니다. 따라서, 우리의 procedure는 LLMs의 commonsense associations를 leveraging하여 de-biased QA sets의 scalable construction을 가능하게 합니다. 실험적 evaluation에 초점을 맞춘 다음 섹션에서는, 다양한 datasets에 대한 de-biasing의 application과 그것이 entailment tree reasoning의 유무에 따른 VLMs의 performance에 미치는 영향을 분석합니다.
정리노트 (For AI Researchers)
이 섹션은 논문의 핵심 방법론인 Video-grounded Entailment Tree Reasoning의 전체 과정을 상세히 기술합니다. 과정은 크게 4단계로 구성됩니다.
1. Entailment Tree Construction (3.1)
- 목표: VQA의 각 Question-Answer 쌍을 검증 가능한 statement(명제)로 변환하고, 이를 논리적 tree 구조로 분해.
- 과정:
- Initial Statement Generation: 각 선택지를 질문과 결합하여 완전한 문장의 statement로 변환. (e.g., Q: "소년은 무엇을 했나?" + A: "의자에 앉았다" -> "소년은 의자에 앉았다.")
- Recursive Decomposition: LLM을 이용해 각 statement를 논리적으로 함의(entail)하는 두 개의 하위 sub-statements로 재귀적으로 분해. 이 과정을 반복하여 tree를 생성.
2. Video-Language Entailment Verification (3.2)
- 목표: Tree의 각 statement(leaf node)를 실제 비디오의 시각적 증거에 grounding하여 참/거짓을 검증. 이 부분이 본 논문의 핵심 contribution임.
- 과정:
- Question-aware Video Captioning: 비디오의 모든 프레임에 대해 단순 caption을 생성하는 대신, 질문의 핵심 내용(anchor fact)을 context로 제공하여 질문과 관련된 caption을 생성. 이를 통해 verification에 필요한 정보의 밀도를 높임.
- Video Evidence Grounding:
- Anchor Frame Retrieval: LLM을 이용해 caption과 fact statement의 의미 구조(structured triplets)를 비교, statement와 가장 관련 깊은 단일 프레임(anchor frame)을 특정.
- Moment Localization: Anchor frame의 시간()과 질문의 시간적 속성(e.g., before/after)을 고려하여 증거가 있을 만한 짧은 비디오 구간()을 look ahead/behind/around 방식으로 특정.
- Visual-text Statement Prover: 특정된 비디오 구간()과 statement를 VLM(Prover)에 입력하여, statement의 참/거짓에 대한 confidence score()를 산출.
3. Dynamic Entailment Tree Expansion (3.3)
- 목표: Reasoning 과정의 효율성 증대.
- 과정: Statement를 분해하는 것이 오히려 검증의 신뢰도를 떨어뜨리는 경우를 방지. Statement를 직접 검증한 점수(direct score, )와, 그것을 분해한 sub-statements들의 점수를 종합한 점수(proof score, )를 비교. Proof score가 더 높을 때만 decomposition을 채택하고, 그렇지 않으면 해당 branch를 pruning하여 불필요한 연산을 줄임.
4. Reasoning & Final Decision (3.4)
- 목표: Tree 전체의 검증 결과를 종합하여 최종 답변 선택.
- 과정: Tree의 leaf부터 root까지 backtrace를 수행하며 각 node의 최종 점수를 $s = \max(s_d, s_p)$로 업데이트. 최종적으로 root statement들 중 가장 높은 점수를 얻은 statement에 해당하는 답변을 선택.
(Bonus) De-biasing VQA Answer Sets for Fair Evaluation (4.0)
- 목표: 제안한 방법론이 textual association 같은 shortcut이 아닌, 진짜 video-grounded reasoning을 수행하는지 공정하게 평가.
- 과정: 기존 VQA benchmark의 오답 선택지(distractors)들이 너무 명확해서 model이 비디오를 보지 않고도 정답을 유추하는 문제를 해결. LLM을 이용해 오답들을 정답과 의미적으로 더 유사하고 그럴듯하게 rewriting하여, model이 반드시 비디오를 보고 reasoning해야만 풀 수 있는 de-biased 데이터셋을 구축.
쉬운 설명 :
AI에게 비디오를 보여주고 질문에 답하게 하는 과정을 '탐정이 CCTV 영상을 보고 사건의 진실을 밝히는 과정'에 비유하여 설명해 보겠습니다.
1단계: 모든 가능성에 대한 논리 지도 그리기
탐정(AI)은 "범인은 A이다"라는 가설(답변 후보)이 있다면, 이 가설을 증명하기 위한 논리 지도를 그립니다.
- "A가 범인임을 증명하려면, '1. A에게는 동기가 있었다'와 '2. A에게는 기회가 있었다'는 두 가지 사실을 먼저 증명해야 한다" 와 같이 큰 주장을 작은 주장들로 나눕니다.
- 이 과정을 계속 반복해서 'A는 2시 15분에 CCTV에 포착되었다' 와 같이 더 이상 쪼갤 수 없는 아주 작은 사실들로 구성된 거대한 '논리 트리'를 만듭니다.
2단계: CCTV 영상에서 결정적 증거 찾기 (이 논문의 가장 중요한 부분)
이제 탐정은 논리 트리의 가장 작은 사실 하나하나를 CCTV 영상에서 직접 확인합니다.
- 예를 들어 'A가 2시 15분에 CCTV에 포착되었다'는 사실을 확인하기 위해 24시간짜리 영상을 전부 돌려보지 않습니다.
- 대신, 'A'라는 인물의 특징과 '2시 15분'이라는 정보를 단서로, 영상 데이터베이스에서 가장 관련성 높은 장면(anchor frame)을 바로 찾아냅니다.
- 그리고 그 장면의 바로 앞뒤 몇 분간(moment)만 집중적으로 돌려보며 해당 사실이 진짜인지 가짜인지(True/False) 판단하고 신뢰도 점수를 매깁니다.
3단계: 똑똑하게 수사 과정 정리하기
탐정은 수사 효율을 높이기 위해, 어떤 주장을 더 작은 단위로 쪼개서 조사하는 것이 오히려 더 헷갈리기만 하고 신뢰도를 떨어뜨린다고 판단되면, 과감하게 세부 조사를 중단하고 처음의 직관적인 판단을 믿기로 합니다. 이렇게 불필요한 조사를 줄여 수사 속도를 높입니다.
4단계: 최종 결론 내리기
모든 작은 사실들에 대한 영상 증거 확인이 끝나면, 탐정은 논리 지도를 거꾸로 거슬러 올라가며 점수를 종합합니다. 최종적으로 가장 높은 신뢰도 점수를 얻은 가설(예: "범인은 A이다")을 사건의 진실로 채택합니다.
(보너스) 더 어려운 문제로 실력 검증하기
탐정이 진짜 실력자인지, 아니면 그냥 운이 좋은 건지 확인하기 위해 일부러 더 어려운 문제를 냅니다. 용의자 4명 중 3명이 누가 봐도 범인이 아닌 쉬운 문제 대신, 4명 모두가 그럴듯한 알리바이를 가진 어려운 문제를 만들어, 탐정이 반드시 영상 증거에 기반한 논리적인 추리를 해야만 해결할 수 있도록 합니다.
주인장 이해
1. 질문과 보기를 통해. 시나리오를 만듬 (수사할 가설)
2. 가설을 증명하기 위해 서브 fact를 증명하는 방식을 책함.
3. 서브 fact들이 비디오에 있는지를 증명하기 위해 먼저 비디오를 보고 구간별로 이벤트를 기록함.
4. 서브 fact들과 이벤트를 비교하며 신뢰도 점수를 매김. (이땐 이벤트를 기록할때 얻은 시간 정보를 가지고 frame을 파악해서 실제 영상과의 신뢰도 점수도 계산함. 대신 앞으로 볼지, 뒤로 볼지, 주변으로 볼지 정도는 파악) (VLM을 통해 True인지 false인지...에 대한 점수를 가지고 채택)
5. 가설별 신뢰도를 파악하고 가장 높은 가설들의 어미인 상위 가설을 채택
상위 가설은 곧 옵션 후보.. 꽤나 괜찮은 방법인듯 ... 아래는 제미나이 결과
- 1단계: 시나리오(가설) 만들기
- 사용자 설명: 질문과 보기를 통해 시나리오(수사할 가설)를 만듬.
- 논문 내용: 이것이 바로 Initial statement generation 단계입니다. 각 (질문, 정답 후보) 쌍을 하나의 완전한 문장, 즉 검증해야 할 '최상위 가설'로 변환합니다.
- 2단계: 가설을 서브 팩트로 분해
- 사용자 설명: 가설을 증명하기 위해 서브 fact를 증명하는 방식을 채택.
- 논문 내용: 이것이 **Recursive statement decomposition**을 통해 Entailment Tree를 구축하는 과정입니다. 큰 가설을 증명하기 위해, 논리적으로 더 작고 검증하기 쉬운 두 개의 '서브 팩트(sub-statement)'로 재귀적으로 계속 분해합니다.
- 3단계: 비디오 내용 기록 (이벤트 캡셔닝)
- 사용자 설명: 서브 fact들이 비디오에 있는지를 증명하기 위해 먼저 비디오를 보고 구간별로 이벤트를 기록함.
- 논문 내용: 이것이 Verification을 위한 준비 단계인 **Question-aware video captioning**에 해당합니다. VLM을 이용해 비디오의 각 프레임에 대한 설명을 텍스트(이벤트 기록)로 생성하여, 나중에 텍스트 기반으로 빠르게 증거를 탐색할 수 있도록 합니다.
- 4단계: 서브 팩트와 영상 증거를 대조하여 신뢰도 채점
- 사용자 설명: 서브 fact들과 이벤트를 비교하며 신뢰도 점수를 매김. (시간 정보로 프레임 파악 → 실제 영상과 신뢰도 계산 → 방향성 파악 → VLM으로 True/False 점수화)
- 논문 내용: 이 단계가 이 논문의 핵심인 **Video-language entailment verification**의 전 과정입니다.
- Anchor frame retrieval: 서브 팩트와 가장 관련 있는 프레임(시간 정보)을 텍스트 기록에서 찾아냅니다.
- Evidence grounding: '앞으로/뒤로/주변으로 볼지'를 결정하여(temporal navigation) 검증에 필요한 실제 비디오 구간을 특정합니다.
- Visual-text statement prover: 특정된 비디오 구간과 서브 팩트 문장을 VLM에 함께 입력하여, 이 서브 팩트가 '참(True)'일 확률, 즉 신뢰도 점수를 계산합니다.
- 5단계: 최종 가설 채택
- 사용자 설명: 가설별 신뢰도를 파악하고 가장 높은 가설들의 어미인 상위 가설을 채택.
- 논문 내용: 이것이 바로 Tree reasoning 및 backtracking 단계입니다. 4단계에서 계산된 각 서브 팩트의 신뢰도 점수들을 나무 구조를 따라 아래에서 위로 종합하여, 각 최상위 가설(시나리오)의 최종 신뢰도 점수를 계산합니다. 그리고 가장 높은 점수를 얻은 시나리오를 최종 정답으로 선택합니다.
결론적으로, 사용자님께서 정리해주신 5단계의 "수사 과정" 비유는 이 논문의 복잡한 기술적 흐름을 이해하는 데 매우 훌륭하고 정확한 방법입니다. 완벽하게 파악하셨습니다.
