AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : Visual Agentic Memory: Enabling Online Long Video Understanding via Online Indexing, Hierarchical Memory, and Agentic Retrieval 본문
VLM : 빠른 논문 리뷰 : Visual Agentic Memory: Enabling Online Long Video Understanding via Online Indexing, Hierarchical Memory, and Agentic Retrieval
AI바라기 2026. 6. 8. 15:28
용어 설명
- VAM (Visual Agentic Memory): 이 논문에서 제안하는 핵심 프레임워크. 끊임없이 들어오는 비디오 스트림을 검색 및 검증 가능한 형태의 장기 메모리로 변환하는 시스템.
- Recoverability Collapse (복구 가능성 붕괴): 메모리 용량을 줄이기 위해 비디오를 심하게 압축하거나 텍스트 요약본만 남길 경우, 나중에 세부적인 시각적 증거(raw frames)를 다시 확인하고 검증할 수 없게 되는 치명적인 현상.
- Online Indexing: 전체 비디오를 오프라인 상태에서 한 번에 전처리하는 것이 아니라, 스트리밍 환경에서 프레임이 들어오는 즉시 실시간으로 필터링하고 메모리를 업데이트하는 과정.
- Hierarchical Memory (계층적 메모리): 저장된 데이터를 나이(age)에 따라 recent, mid, long tiers로 나누어 압축 강도를 다르게 관리하는 메모리 구조.
- Parallel Temporal-Spatial Representation (병렬 시간-공간 표현): 메모리를 저장할 때, 빠른 검색을 위한 '시간적 요약(temporal summaries)'과 직접적인 시각적 검증을 위한 '공간적 관찰(spatial raw frames & embeddings)'을 나란히 동기화하여 유지하는 이 논문만의 독창적인 저장 방식.
- Agentic Retrieval: MLLM을 단순한 답변 생성기가 아닌 능동적인 '에이전트(agent)'로 사용하여, 메모리를 search, inspect, summarize 하는 과정을 반복하며 정답을 추론하는 검색 방식.
- Otsu Partitioning: 컴퓨터 비전에서 영상의 임계값을 자동으로 설정하는 기법. 이 논문에서는 고정된 threshold 대신, 비디오의 동적 변화에 맞춰 의미 있는 이벤트 경계(event boundaries)를 자동으로 나누기 위해 사용됨.
Purpose of the Paper
- 기존 연구의 한계:
- Direct generative inference: 모델의 context window를 무작정 늘리는 방식은 영상이 길어질수록 주의력 분산(attention dilution) 현상이 발생함.
- Compressed memory modelling: 연산량을 줄이기 위해 메모리를 압축하면, 세부 시각 정보가 소실되어 나중에 팩트 체크를 할 수 없는 recoverability collapse가 발생함.
- Agentic reasoning: 기존 에이전트들은 주로 텍스트 요약이나 압축된 표현 위주로 추론하여, 초기 가설이 틀렸을 때 원본 시각 데이터(raw RGB)로 돌아가 오류를 수정하지 못하는 memory drift를 겪음.
- 새로운 문제 정의 및 접근 방식:
- 단순히 '더 긴 context window'를 만드는 것이 아니라, 온라인 장기 비디오 이해를 **'증거 복구가 가능한 시각적 메모리 문제(evidence-recoverable visual memory problem)'**로 재정의함.
- 비디오 스트림을 실시간으로 처리하면서도 원본 프레임을 '1급 증거(first-class evidence)'로 보존하고, 메모리 생성 과정과 쿼리 시점의 추론 과정을 완벽히 분리(decouple)하는 training-free 접근법을 제안.
Key Contributions
- VAM 프레임워크 제안 (Training-free, Retrieval-first): 추가적인 학습 없이, 실시간 스트리밍 환경에서 끊임없이 들어오는 비디오를 검색 가능한 장기 메모리로 변환하는 시스템 구축.
- Novelty: 압축 효율성과 원본 데이터 보존이라는 딜레마를 Online Indexing과 Hierarchical Memory의 결합으로 해결.
- 적응형 Online Indexing 도입: Blur 및 Redundancy 필터링을 거친 후, Otsu partitioning 기반의 적응형 임계값을 사용하여 잉여 프레임을 제거하고 핵심 'moments'와 'events'만 추출.
- Novelty: 고정된 threshold가 아닌 슬라이딩 윈도우 기반 통계를 활용해, 카메라 모션이나 장면 역동성이 변해도 강건하게 핵심 프레임만 인덱싱.
- Parallel Temporal-Spatial Representation 설계: 이벤트 요약본(Temporal)과 원본 프레임 및 임베딩(Spatial)을 병렬로 구성.
- Novelty: 에이전트가 넓은 범위의 타임라인은 요약본으로 빠르게 search 하고, 특정 구간은 원본 프레임을 직접 inspect 할 수 있게 하여 정보의 손실 없는 정확한 evidence 기반 추론을 가능하게 함.
Experimental Highlights
- OVO-Bench (온라인 스트리밍 환경 검증):
- SOTA 달성: RT+BT (Real-Time Visual Perception + Backward Tracing) 평균 68.41 기록.
- 중요성: 동일한 MLLM (Gemini 3 Flash)을 end-to-end로 사용한 베이스라인(67.46)보다 높은 성능을 기록. 이는 단순히 모델의 capacity가 아니라, VAM의 구조적 설계(메모리 인덱싱 및 에이전트 검색) 자체가 성능 향상의 핵심임을 증명함.
- MM-Lifelong (초장기 horizon 환경 검증):
- 51일 동안 촬영된 105.6시간 분량의 데이터셋에서 17.11% accuracy 달성 (GPT-5를 사용한 ReMA에 이어 2위 기록).
- 효율성 하이라이트: 이 한 달 규모의 비디오에서 원본 스트림의 단 0.06%에 해당하는 6,876개의 프레임만 저장하고도 SOTA급 성능을 달성함.
- 중요성: 무한히 길어지는 비디오 스트림에서도 시스템 메모리가 폭발하지 않고 핵심 증거를 보존 및 검색할 수 있음을 입증.
Limitations and Future Work
- Modality Asymmetry (모달리티 불균형):
- 한계: 현재 VAM은 시각적 프레임 보존에만 초점이 맞춰져 있어, 발화자 신원이나 대화 내용 같은 오디오/사운드 단서는 동일한 수준으로 검색 및 검증할 수 없음.
- Future Work: 시각 정보를 넘어 오디오-비주얼을 모두 포괄하는 멀티모달 메모리 시스템으로 확장 필요.
- Long-term Scaling (장기 확장성 문제):
- 한계: 저장 기간이 몇 달, 몇 년으로 길어지면 메모리 계층 구조가 있더라도 검색 공간이 너무 방대해져 세밀한 정보의 disambiguation (중의성 해소)이 어려워짐.
- Future Work: 더 긴 기간의 배포 환경 평가와, 방대한 검색 공간을 효율적으로 관리할 수 있는 메커니즘 연구 필요.
- Operational Cost (운영 비용):
- 한계: 실시간 인덱싱, 계층적 저장, 에이전트의 반복적인 검색 및 검증 과정에서 MLLM 호출이 잦아 inference latency와 비용이 매우 높음.
- Future Work: 전체 성능은 유지하면서도 연산 비용을 줄일 수 있는 더 가벼운(lighter) retrieval controllers 개발.
Overall Summary
이 논문은 무한히 지속되는 비디오 스트림을 이해하기 위해, 컨텍스트 길이를 늘리거나 데이터를 심하게 압축하는 기존 방식에서 벗어나 Visual Agentic Memory (VAM) 라는 새로운 프레임워크를 제안합니다. VAM은 원본 시각 프레임을 보존하면서도 데이터를 효율적으로 필터링 및 계층화하고, MLLM 에이전트가 이 병렬 메모리를 능동적으로 검색하고 시각적으로 직접 검증하도록 설계되었습니다. 한 달 이상 분량의 비디오(105.6시간)에서 원본 프레임의 단 0.06%만 저장하고도 최고 수준의 성능을 달성한 이 연구는, 향후 웨어러블 디바이스나 스마트 홈 등에서 작동할 '장기간 기억을 유지하고 팩트 체크가 가능한 Lifelong AI Assistant' 개발에 핵심적인 패러다임 전환을 가져올 것입니다.
쉬운 설명 (Analogy)
이 논문의 아이디어는 방대한 분량의 역사책(Long Video)을 공부해서 오픈북 시험을 치르는 과정과 비슷합니다.
기존 AI들은 책 전체를 억지로 한 번에 다 외우려다가 머리가 과부하에 걸리거나(Direct context), 너무 짧게 요약된 족보만 보다가 디테일한 팩트를 놓쳐버리곤 했습니다(Compressed memory).
하지만 VAM은 책을 읽으면서 중요한 사건 단위로 목차를 만들고 핵심 페이지에 포스트잇을 붙여놓습니다(Online Indexing & Hierarchical Memory). 그리고 질문을 받으면, 대충 기억나는 대로 답하는 것이 아니라 똑똑한 탐정처럼 목차를 먼저 훑어보고(search), 포스트잇이 붙은 원본 페이지를 펼쳐서 직접 눈으로 사실을 확인한 뒤(inspect raw frames)에 완벽하게 검증된 정답을 내놓는 방식입니다. 그래서 한 달짜리 영상에서도 아주 적은 메모리만으로 정확한 답변을 찾아낼 수 있습니다.
트레이닝 프리
프레임 쭉 보다가 이전 프레임과의 거리가 멀어지면 끊고 이벤트 구간으로 파악후 텍스트화 시킴.
그렇게 계속하다가 질문이 들어오면 어떤 정보를 찾아야할ㅈ디 계획해서 대충 풀고 더블체크 해봄.
스트리밍용 방법론인듯
