AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : Watching, Reasoning and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning 본문

논문리뷰

VLM : 빠른 논문 리뷰 : Watching, Reasoning and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

AI바라기 2026. 1. 14. 12:44

 

용어 설명 (Terminology)

  • VideoDR (Video Deep Research): 이 논문에서 제안하는 새로운 benchmark의 이름. Video 속 단서를 활용하여 Open Web에서 정보를 검색하고, 다단계 추론(multi-hop reasoning)을 통해 질문에 답하는 능력을 평가함.
  • Agentic Paradigm: Video와 질문을 하나의 multimodal agent에게 직접 입력하여, Video 이해, 검색어 생성, 웹 검색, 정보 통합 등 모든 과정을 자율적으로 수행하게 하는 end-to-end 방식.
  • Workflow Paradigm: 두 단계로 구성된 방식. 먼저 multimodal model이 Video에서 질문과 관련된 시각적 단서를 추출하여 중간 텍스트(intermediate text)로 요약하고, 그 다음 이 텍스트와 원본 질문을 사용하여 검색 및 추론을 수행하는 시스템.
  • Visual Anchors: 질문에 답하기 위해 웹 검색의 출발점이 되는 Video 내의 핵심적인 시각적 단서들. 예를 들어, 특정 건물의 로고, 예술 작품의 스타일, 특정 장소의 풍경 등이 해당됨.
  • Goal Drift: Agent가 여러 단계의 검색 및 추론을 수행하는 과정에서 초기의 목표(원본 질문의 의도)를 잃어버리고 관련 없는 방향으로 벗어나는 현상. 이 논문에서 지적하는 핵심적인 문제점 중 하나.
  • Long-horizon Consistency: 긴 검색 및 추론 과정 전반에 걸쳐 초기의 Video visual anchors와의 일관성을 유지하는 능력. Goal Drift를 방지하기 위해 필수적인 역량.

Purpose of the Paper

이 논문은 기존 연구의 다음과 같은 명확한 한계를 해결하고자 함:

  • 기존 Video QA의 한계: 대부분의 Video Question Answering 연구는 'closed-evidence' 환경, 즉 Video 자체에 정답이 포함된 경우를 가정함. 하지만 실제 시나리오에서는 Video가 단서만 제공하고 정답은 외부 웹에 있는 경우가 많음.
  • 기존 Deep Research의 한계: 웹 기반의 심층 연구(deep research) benchmark들은 대부분 텍스트(textual queries)에서 시작함. Multimodal 정보가 포함되더라도, Video는 정적인 보조 정보로 취급될 뿐, 추론 과정에서 지속적으로 추적하고 활용해야 할 핵심 증거(key evidence)로 다뤄지지 않았음.
  • 새로운 문제 정의: 이 연구는 'Video가 국소적인 시각적 단서(localized visual cues)를 제공하고, 검증 가능한 정답은 웹 전반에 흩어져 있는' 새로운 문제(Video Deep Research Task)를 정의하고, 이를 해결하기 위한 benchmark를 제시함.

Key Contributions & Novelty

Key Contributions:

  • Video Deep Research Task 정의: Video 이해를 단순한 인식(perception)에서, Video 단서를 기반으로 웹에서 능동적으로 정보를 탐색하고 다단계 추론을 수행하는 과제로 확장함.
  • VideoDR Benchmark 구축: Video만 보거나 웹 검색만 해서는 풀 수 없는, 반드시 두 가지를 결합해야만 답을 찾을 수 있는 고품질의 데이터셋 100개를 구축함.
    • 이를 위해 Video & Web Dependency Testing이라는 엄격한 품질 관리 절차(quality control)를 도입하여 데이터의 신뢰성을 높임.
  • Agent 능력 경계 분석: Workflow와 Agentic이라는 두 가지 패러다임 하에서 주요 multimodal model들의 성능을 체계적으로 비교 분석함.

Novelty:

  • 최초의 Video 기반 Open-Domain Research Benchmark: Video 속 시각적 단서가 웹 검색과 추론의 핵심 'anchor'가 되는 최초의 benchmark라는 점에서 독창적임.
  • Agentic vs. Workflow의 심층 비교: 단순히 어떤 방식이 더 우수하다고 결론 내리지 않고, 'Goal Drift'와 'Long-horizon Consistency'라는 핵심 병목 현상을 식별하며, 모델의 능력과 과제의 난이도에 따라 각 패러다임의 유불리가 달라짐을 실험적으로 규명함.

Experimental Highlights

  • Dataset & Metrics:
    • Dataset: 자체 구축한 VideoDR (100개 샘플, 6개 도메인: Daily Life, Economics, Technology, Culture, History, Geography).
    • Baselines: Gemini-3-pro-preview, GPT-5.2, GPT-4o (closed-source) 및 Qwen3-Omni-30B-A3B, InternVL3.5-14B, MiniCPM-V 4.5 (open-source) 등.
    • Metrics: LLM-as-judge를 이용한 Accuracy.
  • Key Results:
    • 전반적인 성능: Gemini-3-pro-preview가 Workflow (69%)와 Agentic (76%) 패러다임 모두에서 가장 높은 성능을 기록하며 SOTA를 달성함. 흥미롭게도 인간의 평균 정답률(50.4%)을 크게 상회하는 결과.
    • Agentic 패러다임의 함정: Agentic 방식이 항상 우월하지는 않음. 특히 성능이 낮은 모델(e.g., MiniCPM-V 4.5)이나 Video 길이가 길어질수록, 초기 Video 단서를 유지하지 못해 성능이 급격히 하락하는 경향을 보임 (Workflow 25% → Agentic 16%).
    • 난이도에 따른 성능 변화: 어려운(High difficulty) 문제에서는 상위 모델(Gemini, GPT-5.2)의 Agentic 성능 향상이 두드러지지만, 중간급 모델(GPT-4o)은 오히려 성능이 급락(46.88% → 28.12%)함. 이는 Agentic 방식이 'Goal Drift'에 더 취약할 수 있음을 시사함.

Limitations and Future Work

  • Limitations:
    • Benchmark에 포함된 검색 과정과 추론 경로는 소수의 전문가 annotator들의 주관적인 검색 행동에 기반하여 제작됨. 이는 효율적인 경로 중 하나를 반영할 뿐, 실제 일반 사용자들이 정보를 찾는 다양한 방식을 모두 포괄하지는 못함.
  • Future Work:
    • 이러한 한계를 극복하기 위해, 향후에는 더 넓은 범위의 실제 사용자 검색 로그(human search logs)를 수집하여, 사용자-Agent 상호작용의 다양성을 모델링하는 연구가 필요하다고 제안함.

Overall Summary

이 논문은 Video 속 시각적 단서를 기반으로 웹에서 정보를 검색하고 다단계 추론을 수행하는 새로운 과제인 'Video Deep Research'와 이를 위한 최초의 benchmark 'VideoDR'을 제안합니다. Workflow와 Agentic 패러다임에 대한 광범위한 실험을 통해, Gemini-3-pro-preview가 가장 뛰어난 성능을 보였지만, end-to-end 방식의 Agentic 접근법이 항상 우월한 것은 아님을 밝혔습니다. 특히, 복잡하고 긴 추론 과정에서 초기 목표를 잃어버리는 'Goal Drift' 현상이 핵심적인 문제임을 규명했으며, 이는 차세대 Video agent 개발에 있어 'Long-horizon Consistency' 확보가 중요 과제임을 시사합니다.

쉬운 설명

이 논문의 핵심 아이디어는 다음과 같은 상황을 AI에게 풀어보게 하는 것과 같습니다:

당신은 친구가 보내준 짧은 박물관 내부 영상 하나를 받았습니다. 영상에는 특이한 조각상과 스쳐 지나가는 안내 표지판 일부만 보입니다. 친구의 질문은 "이 영상 속 박물관의 1층 '놓치지 말아야 할 전시품' 목록 중에서, 정문에서 가장 가까운 유물의 등록번호는 뭐야?" 입니다.

이 문제를 풀기 위해 AI는 먼저 영상 속 조각상의 모습, 희미한 글씨 등을 (Visual Anchors) 단서로 "이 박물관이 어디인지" 웹에서 검색해야 합니다. 박물관을 찾아낸 후에는, 그 박물관의 공식 웹사이트에 접속해서 "놓치지 말아야 할 전시품" 목록과 "1층 평면도"를 찾아야 합니다. 마지막으로 이 두 정보를 종합하여 정문에서 가장 가까운 전시품을 찾고, 그 유물의 등록번호를 최종적으로 답해야 합니다. 이처럼 Video 단서 → 웹 검색 → 추가 정보 탐색 → 종합 추론으로 이어지는 복잡한 과정을 얼마나 잘 수행하는지 평가하는 것이 바로 이 연구의 핵심입니다.

 

더보기

별점 3점 / 5점

 

좋은 벤치마크. 딱 그정도

 

해당 벤치마크를 풀기 위해선 장기기억 능력과, 장기 과업 능력이 요구됨.
이는 agi로 향하는 핵심 능력