AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : VideoSeek: Long-Horizon Video Agent with Tool-Guided Seeking 본문
VLM : 빠른 논문 리뷰 : VideoSeek: Long-Horizon Video Agent with Tool-Guided Seeking
AI바라기 2026. 5. 6. 11:33용어 설명 (Terminology)
- Long-Horizon Video Agent: 긴 비디오를 한 번에 입력받아 처리하는 것이 아니라, 여러 단계의 추론(reasoning)과 행동(action)을 반복하며 정답을 찾아가는 AI agent.
- Video Logic Flow: 비디오 내에 존재하는 시간적(temporal), 인과적(causal) 흐름. 인간이 스토리라인을 파악하고 중요한 장면이 어디쯤 있을지 유추하는 근거가 됨.
- Think-Act-Observe Loop: Agent가 현재까지 수집된 정보를 바탕으로 추론(Think)하고, 적절한 도구를 선택해 실행(Act)한 뒤, 반환된 시각적 단서(Observe)를 다시 추론에 반영하는 반복 과정.
- Trajectory: Agent가 문제를 해결하는 과정에서 누적된 thought, action, observation의 전체 기록.
- Toolkit (<overview>, <skim>, <focus>): VideoSeek이 비디오를 탐색하기 위해 사용하는 세 가지 다중 입도(multi-granular) 시각적 도구.
Purpose of the Paper
- 기존 연구의 한계: 기존 video agentic models는 densely sampled video frames를 전체적으로 탐색(exhaustive parsing)하여 막대한 계산 비용이 발생하며, long-form video에 확장하기 어려움. 또한, 불필요한 multi-granular 정보를 모두 주석 처리하는 비효율성을 가짐.
- 새로운 접근 방식: 인간이 비디오를 볼 때 처음부터 끝까지 보지 않고, 스토리라인을 파악해 유망한 구간으로 건너뛴 뒤 필요한 부분만 자세히 보는 방식에서 착안함.
- 차별점: 사전에 구축된 video database나 메모리 버퍼에 의존하는 대신, video logic flow를 활용하여 누적된 observation을 기반으로 **answer-critical evidence를 능동적으로 탐색(actively seek)**하는 고효율 패러다임을 제시함.
Key Contributions
- VideoSeek Framework 제안
- Exhaustive parsing 대신 actively seek 방식을 채택한 long-horizon video agent 개발.
- Novelty: 전체 비디오를 수동적으로 스캔하는 single-pass 방식에서 벗어나, agent가 스스로 증거가 충분한지 판단할 때까지 탐색을 반복하는 adaptive search 구조를 확립함.
- Multi-granular Toolkit 설계
- 전체 스토리를 파악하는 <overview>, 특정 구간을 빠르게 훑는 <skim>, 짧은 클립을 1 FPS로 정밀 분석하는 <focus> 도구 도입.
- Novelty: 다양한 temporal granularity를 agent가 상황(logic flow)에 맞게 취사선택하여 호출함으로써 시각적 예산(visual budget)의 낭비를 극적으로 줄임.
- Long-horizon Reasoning over Trajectory
- Think-act-observe loop를 통해 과거의 모든 탐색 기록(trajectory)을 바탕으로 다음 탐색 계획을 수립.
- Novelty: 고정된 coarse-to-fine 규칙이 아니라, LLM(GPT-5 등)의 추론 능력을 활용해 매 순간 유연하게 tool-calling 전략을 수정함.
Experimental Highlights
- 압도적인 Efficiency 및 SOTA 성능 달성 (LVBench)
- Subtitles 환경에서 base model인 GPT-5 대비 **93 퍼센트 적은 프레임(평균 27.2 프레임)**만 사용하면서도 정확도는 10.2 포인트 향상된 76.7 퍼센트 달성.
- 기존 가장 강력한 baseline agent인 DVD 대비 약 1 퍼센트 미만의 프레임 예산만으로 SOTA 달성.
- Complex Video Reasoning 검증 (Video-Holmes)
- 복잡한 추론이 필요한 벤치마크에서도 평균 42.7 프레임만 사용하여 47.3 퍼센트 정확도로 Gemini 2.5 Pro 및 GPT-5를 압도.
- Ablation Study 및 실험의 시사점
- <overview>, <skim>, <focus> 툴킷 중 하나라도 제거하면 성능이 크게 하락함 (특히 전체 흐름을 잡는 <overview> 제거 시 13.3 포인트 하락).
- 무작정 많은 프레임을 파싱하는 것보다, 능동적인 evidence seeking이 long-form video understanding에서 훨씬 효과적임을 데이터로 완벽히 입증.
Limitations and Future Work
- Limitations: Anomaly detection과 같이 예측 불가능하거나 극도로 국소적인(highly localized) 놀라운 순간을 포착하는 task에는 취약함.
- 중요성: VideoSeek은 video logic flow를 기반으로 "이쯤에 단서가 있을 것"이라고 예측하여 탐색하므로, 인과관계 없이 갑작스럽게 등장하는 decisive evidence는 놓칠 확률이 높음.
- Future Work: Rare and unexpected events를 더 잘 처리할 수 있는 방법론 탐구.
- 해결 방향: 현재의 극단적인 효율성을 유지하면서도, 예측 범위를 벗어난 디테일을 감지할 수 있는 보완적인 visual signal 처리 기법이나 탐색 로직을 추가하여 완벽한 autonomously video agent로 발전할 수 있음.
Overall Summary
이 논문은 비디오 전체를 촘촘히 뜯어보는 기존의 비효율적인 관행(exhaustive parsing)을 타파하고, 인간처럼 비디오의 논리적 흐름(video logic flow)을 따라 필요한 단서만 능동적으로 찾아내는 VideoSeek이라는 long-horizon video agent를 제안했습니다. <overview>, <skim>, <focus>로 구성된 툴킷과 think-act-observe loop를 결합하여, 경쟁 모델 대비 1 퍼센트 수준의 극소수 프레임만으로 SOTA 성능을 달성했습니다. 이는 계산 비용이 막대한 long-form video understanding 분야에서, 무작정 컴퓨팅 자원을 쏟아붓는 대신 "영리한 도구 사용과 추론"을 통한 고효율 탐색 패러다임이 새로운 표준이 될 수 있음을 증명한 매우 중요한 연구입니다.
쉬운 설명
이 논문의 아이디어는 두꺼운 전공 서적에서 시험 정답을 찾을 때 **"첫 페이지부터 끝까지 모든 글자를 정독(Exhaustive parsing)"**하는 대신, "목차를 먼저 훑어보고(<overview>), 관련 챕터만 빠르게 넘겨본 뒤(<skim>), 정답이 있을 만한 특정 문단만 형광펜을 칠하며 자세히 읽는(<focus>)" 똑똑하고 효율적인 학생의 공부 방식과 정확히 같습니다.
초기엔 비디오를 받지 않음.
사용할 수 있는 액션은 4개
정답뱉기, 전체요약
정밀검사, 구간스캔
풀다가 필요한 액션을 호출하고 끊고 정보를 트래젝토리에 다시 넣는
멀티턴 방식이고
2.5 점 / 5점
트레이닝 프리
