AI바라기의 인공지능

VLM : 논문 리뷰 : WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning 본문

논문리뷰

VLM : 논문 리뷰 : WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning

AI바라기 2026. 5. 8. 15:33


용어 설명

  • WorldMM: 이 논문에서 제안하는 Dynamic Multimodal Memory Agent의 이름. 매우 긴 비디오(수 시간~수일)를 이해하기 위해 텍스트와 시각 정보를 모두 활용하는 기억 시스템.
  • Episodic Memory: 과거의 특정 사건이나 행동을 기록한 텍스트 기반의 Knowledge Graph. 이 논문에서는 단일 시간 단위가 아닌 초, 분, 시간 단위의 Multi-scale로 구성하여 다양한 길이의 이벤트를 유연하게 포착함.
  • Semantic Memory: 비디오 내 개체 간의 장기적인 관계, 역할, 습관 등을 지속적으로 업데이트하여 저장하는 개념적 Knowledge Graph. 단발성 이벤트가 아닌 누적된 패턴을 파악하는 데 사용됨.
  • Visual Memory: 텍스트로 다 담을 수 없는 미세한 외형, 공간적 맥락 등을 보존하기 위해 비디오 세그먼트의 feature나 timestamp를 직접 저장하는 시각적 기억 장소.
  • Adaptive Memory Retrieval: 질의(Query)에 따라 어떤 종류의 Memory(Episodic, Semantic, Visual)를 탐색할지, 어떤 시간 규모를 볼지 Agent가 스스로 판단하고, 충분한 정보가 모일 때까지 반복(multi-turn)해서 검색하는 과정.
  • Semantic Consolidation: 새로 추출된 정보(triplet)를 기존 Semantic Memory에 통합할 때, 중복을 병합하고 충돌을 해결하여 Knowledge Graph를 지속적으로 진화시키는 과정.
  • tIoU (temporal Intersection over Union): 모델이 검색한 비디오 구간과 실제 정답 구간이 얼마나 겹치는지를 측정하는 평가 지표(metrics).

Purpose of the Paper

  • 기존 연구의 한계: 기존 memory-augmented RAG 모델들은 긴 비디오를 처리하기 위해 비디오를 텍스트(caption 등)로 변환하여 검색함. 이로 인해 정밀한 시각적 단서(visual evidence)가 소실됨. 또한 검색 시 '고정된 시간 길이(예: 30초 클립 3개)'만 가져오도록 설계되어 있어, 짧은 찰나의 사건부터 후반부 전체를 묻는 질문까지 다양한 시간 범위를 요구하는 실제 query에 유연하게 대처하지 못함.
  • 새로운 접근 방식 제시: 시각 정보의 손실과 고정된 시간 탐색의 한계를 극복하기 위해, 텍스트와 시각 정보를 분리하여 저장하는 세 가지 멀티모달 메모리를 구축하고, 질문의 성격에 맞춰 필요한 모달리티와 시간 규모를 Agent가 스스로 선택하여 탐색하는 WorldMM 구조를 제안함.

Key Contributions

  • Multimodal & Multi-scale Memory Construction 제안
    • Novelty: 기존 모델들이 텍스트 요약에만 의존했던 것과 달리, 이벤트를 다루는 Episodic Memory(multi-scale), 장기적 패턴을 다루는 Semantic Memory, 세밀한 시각 정보를 보존하는 Visual Memory로 역할을 분리하여 상호 보완적인 지식 기반을 구축함.
  • Adaptive Multi-turn Retrieval Agent 도입
    • Novelty: 한 번의 검색으로 끝내거나 무조건 텍스트+비디오를 같이 가져오는 고정된 방식(excessive visual context로 인한 방해 유발)에서 벗어남. Agent가 질문과 이전 검색 기록을 바탕으로 다음 검색 대상(memory type)과 검색어(query)를 동적으로 결정하며, 정보가 충분해질 때까지 검색을 반복(multi-turn)함.
  • State-of-the-art 성능 달성
    • Novelty: 수 시간에서 일주일 단위의 초장기 비디오 QA 벤치마크에서 기존 최고 성능 모델 대비 평균 8.4퍼센트의 압도적인 성능 향상을 달성하며 구조의 우수성을 입증함.

Experimental Highlights

  • 실험 설정:
    • Datasets: EgoLifeQA, Ego-R1 Bench (일주일 길이), HippoVlog, LVBench, Video-MME (수 시간 길이).
    • Baselines: Base Video LLMs (GPT-5, Gemini 2.5), Long Video LLMs (Time-R1 등), RAG-based (HippoRAG 등), Memory-based Video LLMs (EgoRAG, M3-Agent).
  • 주요 실험 결과:
    • 압도적인 SOTA 달성: WorldMM-GPT 모델이 5개 벤치마크 평균 69.5퍼센트의 accuracy를 기록하여, 가장 강력한 baseline 모델들을 큰 폭으로 뛰어넘음.
    • Memory 모듈별 Efficacy 입증: Visual Memory는 객체 인식이나 행동 파악 카테고리(EntityLog)에서 필수적으로 작동했으며, Semantic Memory는 장기적인 추론이 필요한 카테고리(HabitInsight)에서 accuracy를 무려 23퍼센트 향상시킴.
    • Dynamic Temporal Scope Retrieval 성과: 고정된 시간 구간이 아닌 유동적 구간 검색을 통해, WorldMM은 EgoLifeQA에서 10.09퍼센트의 tIoU를 달성하여 기존 검색 모델들(5퍼센트 미만) 대비 훨씬 정확한 시간적 근거(grounding)를 찾아냄.

Limitations and Future Work

  • Limitations (전처리 부하 및 프라이버시 문제)
    • 비디오 captioning, triplet extraction, semantic consolidation 등 메모리를 구축하기 위한 전처리 과정(preprocessing)에 상당한 연산과정이 요구됨.
    • 사용자의 일상을 담은 초장기 비디오(egocentric video)에서 구조화된 지식을 지속적으로 축적하기 때문에 심각한 프라이버시 및 보안 문제(privacy and security concerns)가 발생할 수 있음.
  • Future Work
    • 프라이버시 한계를 극복하기 위해, 실제 배포 시에는 엄격한 접근 제어(strict access controls), 안전한 데이터 처리, 프라이버시 보호를 강제하는 safeguard policies를 연구 및 도입하는 방향으로 발전해야 함. (또한 실시간 스트리밍 환경에서 전처리 부하를 더욱 최소화하는 최적화 연구가 잠재적 과제임).

Overall Summary

이 논문은 수 시간에서 며칠에 이르는 초장기 비디오 추론을 위해, 텍스트와 시각 정보를 모두 아우르는 멀티모달 메모리 에이전트인 WorldMM을 제안했습니다. 다양한 시간 규모의 Episodic, Semantic, Visual Memory를 독립적으로 구축하고, Retrieval Agent가 질문의 성격에 맞춰 필요한 메모리 타입과 시간 구간을 반복적으로 탐색하여 정답을 도출합니다. 이 구조는 기존 텍스트 의존적이고 고정된 시간 검색을 하던 RAG 모델들의 한계를 극복하며, 5개의 Long Video QA 벤치마크에서 SOTA 성능을 달성하여 향후 embodied agent 및 비서 AI 분야의 중요한 아키텍처 방향성을 제시합니다.


쉬운 설명

이 논문의 아이디어는 **"1년 치 일기장과 사진첩을 동시에 활용해 오픈북 시험을 치르는 똑똑한 학생"**과 같습니다.
기존 AI 모델들은 1년 치 영상을 다 보기 힘드니 "텍스트 요약본(일기)"만 대충 훑어보고 답변을 해서 시각적인 디테일(그날 입은 옷 색깔 등)을 자주 틀렸고, 무조건 "하루치" 분량만 고정해서 찾아보는 융통성 없는 방식을 썼습니다.
하지만 WorldMM(이 논문의 AI)은 질문을 받으면 먼저 사람의 '습관 정리본(Semantic)'을 보고, 대략적인 '사건 일지(Episodic)'를 찾아 날짜를 특정한 뒤, 마지막으로 그날의 실제 '사진첩(Visual)'을 꺼내 디테일한 증거까지 눈으로 직접 확인합니다. 만약 증거가 부족하면 다른 날짜의 사진이나 일기를 다시 찾아보는(Multi-turn) 과정을 스스로 반복하여, 가장 완벽한 답변을 찾아내는 유연하고 똑똑한 방식을 제안한 것입니다.

 

 

 

더보기

비디오를 30초, 3분, 10분, 1시간 단위로 쪼갬

각 구간마다 캡션 생성하고

주어 행동 목적어 형태의 트리플렛 구성 (이렇게 4가지 버전의 사건 일지를 만듦)

그리고 추상적인 트리플렛도 구성. 이건 4가지 버전이 아니라, 별도의 '단일 모음집' 1개로만 만듦.

새로 뽑은 추상적 트리플렛과 기존에 저장해둔 추상적 트리플렛 모음과의 유사도를 구해서 겹치는 것을 찾고, llm에게 말해서 중복 제거하거나 낡은 정보 지우라고 함.

그리고 비디오도 피쳐로 저장하고

(질문이 들어오면) llm에게 일단 입력 함. 3개의 액션을 할 수 있는데, 사건 캡션 가져오기(4가지 버전 중 탐색), 추상적 트리플렛(습관/관계) 가져오기, 비디오 클립(사진) 가져오기

 

그 후 답변 ?

 

 

 

흠... 잘 모르겟음  어려움 메모리 관리