AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : Video Evidence to Reasoning: Efficient Video Understanding via Explicit Evidence Grounding 본문
VLM : 빠른 논문 리뷰 : Video Evidence to Reasoning: Efficient Video Understanding via Explicit Evidence Grounding
AI바라기 2026. 6. 8. 14:20
용어 설명
- CoE (Chain of Evidence): 본 논문에서 제안하는 핵심 프레임워크. 단순히 생각을 이어가는 Chain-of-Thought(CoT)와 달리, 모델이 반드시 구체적인 **시각적 증거(Evidence)**를 먼저 확보하고 그에 기반하여 추론을 진행하도록 강제하는 방법론.
- EGM (Evidence Grounding Module): 사용자의 query에 맞춰 방대한 video frame 중 핵심적인 시각 정보만 동적으로 필터링하고 추출하는 경량화 모듈. LLM에 전달되는 연산 부담을 극적으로 줄여줌.
- Evidence-Anchoring Protocol: 모델이 추론을 할 때, EGM이 찾은 시간적 구간(Temporal Anchors)을 명시적으로 선언하고, 추론 과정(Reasoning Draft)에서 반드시 이 구간을 참조하도록 만드는 엄격한 출력 포맷 규칙.
- Process Reward (in GRPO): Reinforcement Learning 단계에서 결과(Answer)만 맞췄는지 평가하는 것이 아니라, 모델이 생성한 추론 과정이 예측된 시각적 증거 구간(Temporal Anchors)을 정확히 인용하고 있는지(IoU 계산) 그 과정 자체를 평가하여 보상하는 메커니즘.
- Dual-annotation Schema: 학습 데이터셋(CoE-Instruct)을 구성할 때, 단순한 질문-답변 쌍이 아니라 '시각적 증거의 위치(perception)'와 '간결한 논리적 추론 과정(reasoning)'을 각각 별도로 분리하여 라벨링한 독창적인 구조.
Purpose of the Paper
- 기존 연구의 한계: 기존의 Video LVLMs는 심각한 딜레마를 겪고 있음. 정확도를 높이기 위해 장황한 CoT 방식을 쓰면 막대한 token 소모와 긴 inference latency가 발생하고, 반대로 연산량을 줄이기 위해 key-frame만 추출하는 방식을 쓰면 모델의 추론 과정이 실제 시각적 증거에 제대로 결합되지 않아 **사실을 지어내는 현상(hallucination)**이 빈번하게 발생함.
- 새로운 접근 방식: 본 연구는 이러한 perception(정확도/증거)과 reasoning(효율성) 간의 trade-off를 근본적으로 해결하기 위해, 아키텍처 수준에서 이 둘을 **완전히 분리(decoupling)**하고 **동시 최적화(co-optimizes)**하는 새로운 패러다임인 CoE 프레임워크를 제안함. '블랙박스' 안에서 대충 추론하는 것이 아니라, 명확히 필터링된 증거만을 기반으로 투명하고 간결하게 추론하게 만드는 것이 목적임.
Key Contributions
- Architecture: CoE 프레임워크와 EGM 도입
- 기여: Vision encoder와 Language decoder 사이에 query-guided EGM을 삽입하여, 원본 비디오를 고압축된 Grounded Evidence Features(Eg)로 변환함.
- 참신성: 기존 모델들이 거대한 시각 정보를 LLM에 통째로 밀어 넣거나 외부 네트워크에 의존했던 것과 달리, 단일 end-to-end 모델 내에서 EGM이 필터 역할을 하여 LLM의 입력 길이를 획기적으로 줄이고 white-box 형태의 증거 기반 추론을 가능하게 함.
- Dataset: 독자적인 CoE-Instruct 데이터셋 구축 (164k)
- 기여: Question, Temporal Anchors(증거 위치), Reasoning Draft(추론 과정), Answer로 이루어진 구조화된 데이터를 생성함.
- 참신성: perception과 reasoning에 대한 명시적이고 독립적인 supervision을 제공하는 dual-annotation을 최초로 적용함. Gemini를 이용한 real video distillation과 합성 환경(CLEVRER)에서의 완벽한 programmatic generation을 결합하여 비용은 낮추고 논리적 정밀도는 극대화함.
- Training: Decoupled SFT와 Evidence-Feedback 기반 RL 적용
- 기여: SFT 단계에서 EGM을 위한 Grounding Loss와 LLM을 위한 Reasoning Loss를 분리하여 학습함. 이후 RL(GRPO) 단계에서 과정 보상(process reward)을 통해 추론과 증거 간의 alignment를 강제함.
- 참신성: 모델이 우연히 답을 맞추는 것을 방지하고, "반드시 내가 찾은 시각적 증거(Temporal Anchors)를 근거로 삼았을 때만" 높은 보상을 받도록 강화학습 목적 함수를 설계하여 hallucination을 원천적으로 억제함.
Experimental Highlights
- 압도적인 State-of-the-Art (SOTA) 달성: InternVL3-8B 기반의 CoE-8B(RL) 모델이 Video-MME, MVBench, VSI-Bench 등 5개 주요 벤치마크에서 오픈소스 모델 1위를 차지함.
- Closed-source 모델 능가: 특히 MVBench에서 91.2점을 기록하며 기존 backbone 대비 +16.8점이라는 비약적인 상승을 이뤄냈고, GPT-4V(43.7점)를 완전히 압도함. 복잡한 추론이 요구되는 VSI-Bench에서도 Gemini-1.5-Pro(48.8점)를 뛰어넘는 성능(52.1점)을 기록함.
- Long Video에서의 독보적인 Robustness: Video-MME 실험 결과, 기존 모델들은 영상 길이가 길어질수록 성능이 급락하지만, CoE-8B 모델은 긴 영상(Long)에서도 68.4점을 기록함. 이는 원본 backbone 모델의 중간 길이 영상(Medium) 점수인 65.3점보다도 높은 수치로, 시각적 증거만 추출하여 추론하는 CoE 방식이 긴 context 처리에서 얼마나 효율적인지 증명함.
- Ablation Study (Prompting vs. Fine-tuning): 단순히 CoT prompting만 적용한 모델은 hallucination 벤치마크에서 오히려 성능이 저하되는 등 한계를 보였으나, CoE 방식으로 SFT와 RL을 거친 모델은 모든 지표에서 안정적이고 일관된 성능 향상을 보여주어 학습 방식의 우수성을 입증함.
Limitations and Future Work
- Limitations: 본 논문의 실험적 검증이 현재 최고 성능의 오픈소스 계열인 InternVL 아키텍처(InternVL2.5-4B, InternVL3-8B)에 집중되어 있음. 다른 구조를 가진 vision-language model에서도 이 프레임워크가 동일하게 높은 효율과 성능 확장을 보여줄지에 대한 교차 검증이 필요함.
- Future Work: 제안된 CoE 패러다임을 다른 architecture에 이식하고, 비디오를 넘어선 다양한 multimodal domain으로 확장하는 것을 목표로 함. 이는 본 연구의 'explicit evidence grounding' 방식이 특정 모델의 튜닝 기법에 머물지 않고, AI 모델 전반의 '해석 가능성(Interpretability)'과 '신뢰성'을 높이는 범용적 아키텍처 표준으로 자리 잡을 수 있는 거대한 잠재력을 시사함.
Overall Summary
이 논문은 기존 Video LVLMs가 겪고 있는 연산 비효율성과 Hallucination 문제를 근본적으로 해결하기 위해, 시각적 단서 탐색(perception)과 논리적 판단(reasoning)을 분리하는 Chain of Evidence (CoE) 프레임워크를 제안했습니다. 쿼리 기반 필터인 EGM을 통해 영상에서 핵심 증거만 고압축하여 추출하고, 모델이 반드시 이 증거를 명시적으로 참조하여 추론하도록 강제하는 특화된 데이터셋(CoE-Instruct)과 강화학습(RL) 메커니즘을 도입했습니다. 그 결과, 훨씬 적은 파라미터로도 GPT-4V나 Gemini-1.5-Pro 같은 거대 상용 모델을 뛰어넘는 SOTA 성능을 기록했으며, 특히 긴 영상과 복잡한 추론 환경에서 AI가 '근거 없는 헛소리'를 하지 않고 검증 가능한 신뢰도 높은 추론을 수행할 수 있는 새로운 길을 열었습니다.
쉬운 설명
이 논문은 AI에게 **"수학 문제를 풀 때 눈으로 대충 훑고 짐작해서 답만 적어내는 방식(기존 방식)"**을 버리게 하고, **"질문과 관련된 핵심 지문에만 형광펜을 칠한 뒤(EGM), 오직 그 형광펜 칠한 부분만 보면서 풀이 과정을 또박또박 적어 내려가는(Evidence-Anchoring Protocol) 모범생의 방식"**을 가르친 것과 같습니다. 쓸데없는 배경 정보를 보지 않으니 뇌(연산)가 지치지 않아 속도가 빠르고, 자기가 찾은 정확한 단서만 보고 결론을 내리기 때문에 거짓말(Hallucination)을 할 확률이 획기적으로 줄어들어 성능이 폭발적으로 오르는 원리입니다.
EGM 이라는 모듈로 필요한 부분만 고압축해서 증거 특징 벡터로 최종 추출
LLM이 어떤 구간 볼지 텍스트로 출력하면, 그걸 바탕으로 추론 진행!
SFT는 egm이 중요도 점수와 실제 데이터를 가지고 loss주고, 주어진 증거로 잘 생성하도록, 두개 더해서 역전파
RL도 진행하는데 GRPO로 비디오, 질문만 넣고 구간, 추론 정답을 뱉게함 싱글턴 인듯함.
