AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding 본문

논문리뷰

VLM : 빠른 논문 리뷰 : VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding

AI바라기 2026. 6. 8. 14:03


VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding
 학습 노트


용어 설명 (Terminology)

  • VideoARM: 이 논문이 제안하는 핵심 프레임워크 명칭. Agentic Reasoning over Hierarchical Memory의 약자로, 계층적 메모리를 바탕으로 에이전트가 자율적으로 비디오를 탐색하고 추론하는 시스템.
  • HM3 (Hierarchical Multimodal Memory): 에이전트의 관찰과 추론 과정을 계층적으로 저장하는 동적 메모리 아키텍처. Sensory, Result, Working Memory의 3단계로 구성됨.
  • Sensory Memory: 원본 프레임이나 오디오 등 에이전트가 감각적으로 받아들인 인지 데이터(perception cues)를 임시로 저장하는 장소.
  • Result Memory: 에이전트가 tool을 사용해 얻어낸 중간 결과물들을 시간 순서대로 기록하는 동적 작업 공간.
  • Working Memory: controller의 추론 흔적(reasoning traces)과 tool 호출 목적을 기록하여, MLLM의 context 중복을 막고 이후 행동의 길잡이 역할을 하는 메모리.
  • Temporal Scoping Tools: 비디오 전체에서 질문과 관련된 특정 시간 구간(interval)을 좁히고 타겟팅하는 도구 세트 (Interval Localizer, Clip Explorer 포함).
  • Multimodal Understanding Tools: 좁혀진 시간 구간 내에서 캡션 생성, 오디오 전사, 세부 프레임 분석 등 구체적인 시각/청각적 디테일을 파악하는 도구 세트 (Scene Snapper, Audio Transcriber, Clip Analyzer 포함).
  • Observe-Think-Act-Memorize Loop: 에이전트가 비디오를 이해하기 위해 반복하는 능동적인 인지 및 행동 사이클.
  • Token-consuming: 기존의 비디오 분석 방식론들이 전체 비디오를 잘게 쪼개어 미리 전부 처리하면서 발생하는 막대한 LLM 토큰 낭비 현상.

Purpose of the Paper

  • 기존 연구의 한계 1 (경직성): VideoTree 등 기존 연구들은 사람이 수작업으로 설계한 고정된 파이프라인(hand-crafted reasoning pipelines)에 의존하여, 강력한 base MLLM이 가진 자율적인 추론 능력을 극대화하지 못함.
  • 기존 연구의 한계 2 (비효율성): DVD 등 SOTA 에이전트 모델들은 본격적인 추론 전에 긴 비디오 전체를 10초 단위로 쪼개어 캡션과 데이터베이스를 미리 구축(static, exhaustive preprocessing)하는데, 이는 질문과 무관한 정보까지 전부 처리하게 만들어 극심한 token-consuming 문제를 유발함.
  • 새로운 접근 방식: 무겁고 정적인 사전 데이터베이스 구축 단계를 완전히 폐기하고, 질문에 따라 비디오의 필요한 부분만 on-the-fly로 탐색, 생각, 기록하는 **Agentic Reasoning 패러다임(VideoARM)**을 제안함. 이를 통해 효율성(토큰 절약)과 유연성(정확한 추론)을 동시에 달성하고자 함.

Key Contributions

  • Adaptive Agentic Reasoning 도입 (Novelty):
    • 단순히 미리 만들어둔 DB에서 정보를 검색(retrieval-centric)하는 방식을 탈피함.
    • ReAct-like 구조의 controller가 스스로 질문을 분석하고 Observe-Think-Act-Memorize loop를 돌며 거시적(coarse) 영역에서 미시적(fine) 영역으로 능동적으로 탐색 범위를 좁혀나가는 독창적인 구조를 제시함.
  • HM3 (Hierarchical Multimodal Memory) 제안 (Novelty):
    • 긴 비디오 데이터를 MLLM의 context 창에 무작정 밀어 넣으면 정보 과부하가 옴.
    • Sensory (원시 데이터) -> Result (도구 분석 결과) -> Working (추론 흔적) 형태의 3단 계층 메모리를 실시간으로 구축 및 업데이트하여, context overflow를 방지하고 불필요한 중복 연산을 제거함.
  • 상호보완적 Multimodal Toolsets 설계:
    • 탐색 범위를 좁히는 Temporal Scoping Tools와 세부 내용을 분석하는 Multimodal Understanding Tools를 분리함.
    • 이를 통해 넓은 시간대 커버리지 유지와 정밀한 마이크로 이벤트(micro-event) 검증을 모순 없이 결합함.
  • 극단적인 Token 효율성 및 SOTA 달성:
    • 사전 처리 생략 및 적응형 프레임 샘플링 전략을 통해, 기존 SOTA 대비 수십 분의 일 수준의 토큰만 사용하면서도 여러 벤치마크에서 최고 성능을 경신함.

Experimental Highlights

  • 압도적인 SOTA 성능 달성: Video-MME, LongVideoBench, EgoSchema, MLVU, LVBench 등 5개의 주요 long-form video benchmarks에서 기존 상용/open-source VLMs 및 DVD 등 강력한 training-free 방법론들을 모두 뛰어넘는 성능을 기록함.
  • 획기적인 Token 소비 감소 (Token Efficiency):
    • 30분 길이의 비디오 1개를 처리할 때, 기존 DVD 방식은 최소 3.98M(약 4백만) 개의 시각 토큰을 소비함.
    • 반면 VideoARM은 단 0.08M(약 8만) 개의 토큰만 소비하여, 이론적으로 DVD의 1/50, 실제 Video-MME 실험 기준 1/34 수준의 토큰량만으로 더 높은 정확도를 달성함.
  • 핵심 실험 설정: Controller와 Temporal Scoping tool에는 OpenAI o3를, Multimodal Understanding tool에는 GPT-4.1 및 GPT-4o를 조합하여 사용함. Base model들(o3, GPT-4o)을 단독으로 썼을 때는 맞추지 못하는 문제들을 VideoARM 프레임워크 위에서는 완벽하게 추론해냄.

Limitations and Future Work

  • 초기 샘플링 의존성 병목 (Limitation):
    • 에이전트의 초기 가설은 성글게(sparsely) 샘플링된 프레임에 의존함. 따라서 아주 짧은 순간 지나가는 미세한 이벤트(fleeting events)나 작은 물체를 초기에 놓치면, 이후의 추론 방향 자체가 엉뚱하게 흘러가는 치명적인 한계가 있음.
  • 초기 오류 복구 메커니즘 부재 (Limitation):
    • 잘못된 시간대를 탐색하고 있다는 것을 에이전트가 조기에 감지하고, 강제로 다시 전체를 탐색(re-exploration)하도록 트리거하는 명시적인 시스템이 부족함.
  • Closed-source MLLM 편중 현상 (Limitation):
    • 현재 구조는 다중 프레임을 바둑판처럼 이어 붙인 jigsaw-style 이미지를 이해하고, 복잡한 다단계 추론(multi-step reasoning)을 수행해야 하므로 OpenAI 모델(o3, GPT-4o)에 크게 의존함.
  • 향후 연구 방향 (Future Work):
    • 최근 Qwen3-VL 등 발전된 open-source MLLM이 일부 벤치마크에서 GPT-4o 설정을 능가하는 가능성을 보여줌.
    • 따라서 특정 기업의 API에 의존하지 않고, 완전히 독립적으로 구동 가능한(self-hostable) open-source 기반의 VideoARM으로 시스템을 마이그레이션하고 고도화하는 것이 가장 중요한 future work임.

Overall Summary

VideoARM은 long-form video understanding을 위해 무거운 사전 데이터베이스 구축 과정을 과감히 버리고, 에이전트가 실시간으로 계층적 메모리(HM3)를 관리하며 비디오를 탐색하는 혁신적인 프레임워크입니다. 거시적 탐색과 미시적 분석 도구를 결합한 Observe-Think-Act-Memorize 사이클을 도입하여, MLLM이 스스로 가설을 세우고 필요한 구간만 정밀하게 검증하도록 설계되었습니다. 결과적으로 기존 SOTA 모델 대비 토큰 사용량을 최대 1/50 수준으로 대폭 절감하면서도 최고 성능을 경신하여, 컴퓨팅 자원이 제한된 환경에서도 매우 실용적이고 확장성 높은 긴 영상 분석의 새로운 패러다임을 제시했습니다.


쉬운 설명

이 논문은 두꺼운 백과사전에서 답을 찾을 때 "책 전체를 처음부터 끝까지 전부 타이핑해서 요약본을 만든 뒤에 질문에 답하는 비효율적인 방식(기존 방식)" 대신, "질문을 먼저 읽고 목차를 스윽 훑어본 뒤, 필요한 챕터만 딱 펼쳐서 포스트잇(계층적 메모리)에 단서를 적어가며 정답을 추리하는 똑똑한 탐정(Agentic Reasoning)"을 고안한 것과 같습니다. 이 탐정 방식 덕분에 책 전체를 읽을 필요가 없어 시간과 비용(토큰)이 엄청나게 절약되면서도 훨씬 빠르고 정확하게 정답을 찾아냅니다.

 

 

 

 

 

 

 

 

 

 

더보기

초기 프레임은, 장기 메모리.

결과창이나 단기 메모리는 비워둠,

관찰하고 띵크 후에 구간 찾고 구찬 부분에 대한 정보 얻는 tool 사용해서 메모리에 기록하고, 메모리 업데이트 하면서 반복횟수 도달이나, 정답 도출했다면 끝

트레이닝 프리 .