AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : VideoSeek: Long-Horizon Video Agent with Tool-Guided Seeking 본문

논문리뷰

VLM : 빠른 논문 리뷰 : VideoSeek: Long-Horizon Video Agent with Tool-Guided Seeking

AI바라기 2026. 5. 6. 11:33

용어 설명 (Terminology)

  • Long-Horizon Video Agent: 긴 비디오를 한 번에 입력받아 처리하는 것이 아니라, 여러 단계의 추론(reasoning)과 행동(action)을 반복하며 정답을 찾아가는 AI agent.
  • Video Logic Flow: 비디오 내에 존재하는 시간적(temporal), 인과적(causal) 흐름. 인간이 스토리라인을 파악하고 중요한 장면이 어디쯤 있을지 유추하는 근거가 됨.
  • Think-Act-Observe Loop: Agent가 현재까지 수집된 정보를 바탕으로 추론(Think)하고, 적절한 도구를 선택해 실행(Act)한 뒤, 반환된 시각적 단서(Observe)를 다시 추론에 반영하는 반복 과정.
  • Trajectory: Agent가 문제를 해결하는 과정에서 누적된 thought, action, observation의 전체 기록.
  • Toolkit (<overview>, <skim>, <focus>): VideoSeek이 비디오를 탐색하기 위해 사용하는 세 가지 다중 입도(multi-granular) 시각적 도구.

Purpose of the Paper

  • 기존 연구의 한계: 기존 video agentic models는 densely sampled video frames를 전체적으로 탐색(exhaustive parsing)하여 막대한 계산 비용이 발생하며, long-form video에 확장하기 어려움. 또한, 불필요한 multi-granular 정보를 모두 주석 처리하는 비효율성을 가짐.
  • 새로운 접근 방식: 인간이 비디오를 볼 때 처음부터 끝까지 보지 않고, 스토리라인을 파악해 유망한 구간으로 건너뛴 뒤 필요한 부분만 자세히 보는 방식에서 착안함.
  • 차별점: 사전에 구축된 video database나 메모리 버퍼에 의존하는 대신, video logic flow를 활용하여 누적된 observation을 기반으로 **answer-critical evidence를 능동적으로 탐색(actively seek)**하는 고효율 패러다임을 제시함.

Key Contributions

  • VideoSeek Framework 제안
    • Exhaustive parsing 대신 actively seek 방식을 채택한 long-horizon video agent 개발.
    • Novelty: 전체 비디오를 수동적으로 스캔하는 single-pass 방식에서 벗어나, agent가 스스로 증거가 충분한지 판단할 때까지 탐색을 반복하는 adaptive search 구조를 확립함.
  • Multi-granular Toolkit 설계
    • 전체 스토리를 파악하는 <overview>, 특정 구간을 빠르게 훑는 <skim>, 짧은 클립을 1 FPS로 정밀 분석하는 <focus> 도구 도입.
    • Novelty: 다양한 temporal granularity를 agent가 상황(logic flow)에 맞게 취사선택하여 호출함으로써 시각적 예산(visual budget)의 낭비를 극적으로 줄임.
  • Long-horizon Reasoning over Trajectory
    • Think-act-observe loop를 통해 과거의 모든 탐색 기록(trajectory)을 바탕으로 다음 탐색 계획을 수립.
    • Novelty: 고정된 coarse-to-fine 규칙이 아니라, LLM(GPT-5 등)의 추론 능력을 활용해 매 순간 유연하게 tool-calling 전략을 수정함.

Experimental Highlights

  • 압도적인 Efficiency 및 SOTA 성능 달성 (LVBench)
    • Subtitles 환경에서 base model인 GPT-5 대비 **93 퍼센트 적은 프레임(평균 27.2 프레임)**만 사용하면서도 정확도는 10.2 포인트 향상된 76.7 퍼센트 달성.
    • 기존 가장 강력한 baseline agent인 DVD 대비 약 1 퍼센트 미만의 프레임 예산만으로 SOTA 달성.
  • Complex Video Reasoning 검증 (Video-Holmes)
    • 복잡한 추론이 필요한 벤치마크에서도 평균 42.7 프레임만 사용하여 47.3 퍼센트 정확도로 Gemini 2.5 Pro 및 GPT-5를 압도.
  • Ablation Study 및 실험의 시사점
    • <overview>, <skim>, <focus> 툴킷 중 하나라도 제거하면 성능이 크게 하락함 (특히 전체 흐름을 잡는 <overview> 제거 시 13.3 포인트 하락).
    • 무작정 많은 프레임을 파싱하는 것보다, 능동적인 evidence seeking이 long-form video understanding에서 훨씬 효과적임을 데이터로 완벽히 입증.

Limitations and Future Work

  • Limitations: Anomaly detection과 같이 예측 불가능하거나 극도로 국소적인(highly localized) 놀라운 순간을 포착하는 task에는 취약함.
    • 중요성: VideoSeek은 video logic flow를 기반으로 "이쯤에 단서가 있을 것"이라고 예측하여 탐색하므로, 인과관계 없이 갑작스럽게 등장하는 decisive evidence는 놓칠 확률이 높음.
  • Future Work: Rare and unexpected events를 더 잘 처리할 수 있는 방법론 탐구.
    • 해결 방향: 현재의 극단적인 효율성을 유지하면서도, 예측 범위를 벗어난 디테일을 감지할 수 있는 보완적인 visual signal 처리 기법이나 탐색 로직을 추가하여 완벽한 autonomously video agent로 발전할 수 있음.

Overall Summary

이 논문은 비디오 전체를 촘촘히 뜯어보는 기존의 비효율적인 관행(exhaustive parsing)을 타파하고, 인간처럼 비디오의 논리적 흐름(video logic flow)을 따라 필요한 단서만 능동적으로 찾아내는 VideoSeek이라는 long-horizon video agent를 제안했습니다. <overview>, <skim>, <focus>로 구성된 툴킷과 think-act-observe loop를 결합하여, 경쟁 모델 대비 1 퍼센트 수준의 극소수 프레임만으로 SOTA 성능을 달성했습니다. 이는 계산 비용이 막대한 long-form video understanding 분야에서, 무작정 컴퓨팅 자원을 쏟아붓는 대신 "영리한 도구 사용과 추론"을 통한 고효율 탐색 패러다임이 새로운 표준이 될 수 있음을 증명한 매우 중요한 연구입니다.


쉬운 설명

이 논문의 아이디어는 두꺼운 전공 서적에서 시험 정답을 찾을 때 **"첫 페이지부터 끝까지 모든 글자를 정독(Exhaustive parsing)"**하는 대신, "목차를 먼저 훑어보고(<overview>), 관련 챕터만 빠르게 넘겨본 뒤(<skim>), 정답이 있을 만한 특정 문단만 형광펜을 칠하며 자세히 읽는(<focus>)" 똑똑하고 효율적인 학생의 공부 방식과 정확히 같습니다.

 

 

더보기

 

 

 

 

 

초기엔 비디오를 받지 않음.

 

사용할 수 있는 액션은 4개

정답뱉기, 전체요약

정밀검사, 구간스캔

 

풀다가 필요한 액션을 호출하고 끊고 정보를 트래젝토리에 다시 넣는

 

멀티턴 방식이고

 

2.5 점 / 5점

트레이닝 프리