AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding 본문

논문리뷰

VLM : 빠른 논문 리뷰 : Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding

AI바라기 2026. 5. 14. 20:53

용어 설명

  • Long Video Understanding (LVU): 수 분에서 수 시간에 이르는 긴 길이의 비디오에서 정보를 추출하고 추론하여 주어진 질문에 답하는 작업.
  • Active Perception: 에이전트가 단순히 데이터를 수동적으로 받아들이는 것이 아니라, "무엇을, 언제, 어디서, 어떻게" 인지할지 목표(query)에 맞춰 능동적으로 결정한다는 이론 (주로 로보틱스에서 사용됨).
  • Query-agnostic captioner: 기존 연구들에서 자주 쓰이는 방식으로, 질문(query)의 내용과 무관하게 비디오의 모든 프레임을 일괄적으로 텍스트(caption)로 변환하는 모듈.
  • Plan-Observe-Reflect process: 이 논문에서 제안한 반복적인 에이전트 루프. (계획 세우기 -> 타겟 영상 관찰 -> 증거 충분성 검증).
  • MiRA score: MINERVA 벤치마크에서 사용하는 지표로, LLM-as-a-judge 방식을 통해 모델의 reasoning trace(추론 과정)가 얼마나 정확하고 논리적인지(지각, 시간적 지역화, 논리, 완전성) 평가하는 기준.
  • Structured Evidence List: 모델이 관찰을 통해 얻은 정보들을 타임스탬프와 함께 체계적으로 정리한 리스트. 이 논문에서는 단순 텍스트 나열(unstructured flat list)을 대체하여 사용됨.

Purpose of the Paper

  • 기존 연구의 한계: 최근 agentic LVU 프레임워크들은 비디오를 처리할 때 query-agnostic captioner에 의존함. 이로 인해 질문과 무관한 배경이나 정적인 프레임까지 텍스트로 변환하는 연산 낭비(High Computational Cost)가 발생하고, 캡션으로 변환하는 과정에서 미세한 시공간적 단서가 유실되어 정확한 인과 추론이 어려워지는 문제(Imprecise Grounding)가 존재.
  • 새로운 문제 정의 및 접근 방식: 저자들은 로보틱스의 Active Perception 이론을 LVU에 도입하여, 비디오를 단순한 입력 데이터가 아닌 상호작용 가능한 환경(interactive environment)으로 취급해야 한다고 주장함. 에이전트가 픽셀 단위에서 직접 query와 관련된 증거만 찾아나서는 Active Video Perception (AVP) 프레임워크를 제안하여, 연산 효율과 추론의 정확성을 동시에 해결하고자 함.

Key Contributions

  • AVP 프레임워크 제안 (반복적 증거 탐색 루프)
    • MLLM agent를 기반으로 한 Plan-Observe-Reflect의 3단계 루프를 제안.
    • Novelty: 비디오 전체를 수동적으로 캡셔닝하는 기존 패러다임에서 벗어나, query에 맞춰 능동적으로 관찰 영역을 좁혀가는 goal-conditioned observation으로 전환함.
  • 동적 시공간 해상도 조절을 통한 Coarse-to-Fine 탐색
    • Planner 에이전트가 "무엇을(what), 어디서(where), 어떻게(how)" 볼지 계획함. 특히 how 부분에서 프레임 레이트(fps)와 공간 해상도(spatial_res)를 동적으로 결정.
    • Novelty: 초기 라운드에서는 low fps/resolution으로 전체 영상을 훑어 단서를 찾고, 이후 라운드에서는 단서가 있는 특정 시간대만 high fps/resolution으로 세밀하게 관찰하는 적응형 연산 할당 방식을 구현함.
  • 구조화된 메모리와 자체 검증 (Self-Verification) 메커니즘
    • Observer가 추출한 단서들을 Structured Evidence List로 누적 기록하고, Reflector가 이 증거들이 query를 해결하기에 충분한지(confidence) 평가하여 조기 종료(halting) 또는 추가 탐색을 지시함.
    • Novelty: 자유 형식의 텍스트 생성 대신, 타임스탬프가 매핑된 명확한 증거(evidence)만을 수집하여 환각(hallucination)을 줄이고 long-horizon reasoning의 신뢰성을 극대화함.

Experimental Highlights

  • 압도적인 효율성과 SOTA 성능 동시 달성
    • MINERVA, LVBench, MLVU, Video-MME, LongVideoBench 등 5개 주요 벤치마크에서 SOTA 달성.
    • 가장 강력한 기존 agentic baseline인 DVD (DeepVideoDiscovery)와 비교했을 때, 평균 정확도(accuracy)는 5.7% 향상됨.
    • 특히 효율성 측면에서 DVD 대비 inference time은 18.4% (약 5.4배 속도 향상), input tokens는 12.4% 만 사용하는 극적인 연산량 감소를 증명함.
  • 최고 수준의 Reasoning Trace 품질 (MiRA Score)
    • MINERVA 벤치마크의 MiRA 평가에서 OpenAI o1, GPT-4o 등을 제치고 가장 높은 종합 점수 달성. 특히 Temporal Localization과 Logical Reasoning 항목에서 크게 우위를 점하며, AVP의 타겟 탐색 방식이 실제 모델의 추론 근거를 탄탄하게 만듦을 입증.
  • Ablation Study 핵심 결과
    • Planner와 Reflector 모듈을 하나씩 추가할 때마다 성능이 계단식으로 상승함.
    • 최대 라운드 제한(Max Round Limit)을 늘릴수록 성능이 향상되나, 3라운드에서 최고점(saturation)에 도달함. 이는 AVP가 단 몇 번의 가벼운 상호작용만으로도 충분한 증거를 수집할 수 있음을 의미함.

Limitations and Future Work

  • Limitations
    • 오프라인 환경 의존성: 현재 AVP는 전체 비디오에 미리 접근할 수 있는 standard offline video QA 환경에 맞춰져 있음. 실시간 대응이 불가.
    • Prompting 기반 정책: 현재 planning과 observation 모듈이 MLLM의 prompting 지시어에 전적으로 의존하여 동작하므로, 복잡한 제약 조건 하에서의 최적화가 어려움.
  • Future Work
    • Embodied 및 Online 환경으로의 확장: 로봇 시각이나 실시간 스트리밍처럼 에이전트가 현실 세계의 물리적 제약 속에서 실시간으로 인지하고 행동해야 하는 환경에 Active Video Perception을 적용하는 방향으로 확장 가능.
    • 학습 기반 Policy 개발: 단순 prompting을 넘어, 리소스와 latency 제약 조건 하에서 장기 인지 효율성을 최적화할 수 있도록 reinforcement learning이나 differentiable planner를 활용해 탐색 정책(learning policies)을 직접 학습시키는 연구 방향 제시.

Overall Summary

이 논문은 긴 비디오를 이해하기 위해 기존의 비효율적인 수동적 캡셔닝 방식을 탈피하고, 목표 지향적으로 비디오를 탐색하는 Active Video Perception (AVP) 프레임워크를 제안했습니다. MLLM agent 기반의 Plan-Observe-Reflect 반복 루프를 통해 질문에 꼭 필요한 시공간적 영역만 높은 해상도로 추출함으로써, 5개 주요 벤치마크에서 연산 비용(inference time, input tokens)을 기존 SOTA 대비 10~20% 수준으로 혁신적으로 줄이는 동시에 최고 정확도를 달성했습니다. 이는 비디오를 단순한 데이터 시퀀스가 아닌 '에이전트가 상호작용하며 탐색하는 환경'으로 바라보는 중요한 패러다임 전환이며, 향후 실시간 비디오 분석 및 embodied AI 분야에 매우 효율적이고 신뢰도 높은 추론 기반을 제공할 것입니다.


쉬운 설명

기존의 비디오 이해 모델들의 방식이 "시험 문제를 보기 전에 두꺼운 교과서 전체를 처음부터 끝까지 다 읽고 무작정 요약본(caption)을 만든 뒤에, 그 요약본만 보고 시험 문제(query)를 푸는 방식" 이었다면, 연산 시간이 너무 오래 걸리고 중요한 디테일을 놓치기 쉽습니다.

이 논문이 제안한 AVP 방식은 "시험 문제를 먼저 꼼꼼히 읽은 뒤, 교과서의 목차만 대충 훑어보고(low fps/resolution scan), 정답이 있을 만한 특정 페이지만 찾아가서 돋보기(high fps/resolution)로 자세히 들여다본 다음, 얻은 정보가 확실하면 바로 책을 덮고 답안을 작성하는 똑똑하고 능동적인 오픈북 시험 방식" 과 같습니다. 이렇게 하면 정답률은 올라가면서도 책을 읽는 시간(inference time)은 획기적으로 줄어들게 됩니다.

 

 

 

 

 

 

 

 

 

 

더보기

질문만보고 조율하는 에이전트가 있음

질문을 보고 리즈닝하고, 무엇을, 어디를, 어떻게 볼지 json으로 출력

그걸 기반으로 진짜 비디오 처리를 해서 다시줌 

이 과정을 반복


그럼 반복횟수에 도달하거나 답을 낼때까지 함

멀티턴 방식

트레이닝 프리라고함. 

 

 

흠... 애매하네

 

3점 까진 아닌듯

 

2.5 점 / 5점