AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : RAVU: Retrieval Augmented Video Understanding with Compositional Reasoning over Graph 본문
VLM : 빠른 논문 리뷰 : RAVU: Retrieval Augmented Video Understanding with Compositional Reasoning over Graph
AI바라기 2026. 4. 23. 13:16
용어 설명
- LMM (Large Multi-modal Model): 텍스트뿐만 아니라 이미지, 비디오 등 다양한 모달리티를 함께 이해하고 처리할 수 있는 거대 모델.
- Spatio-temporal graph: 비디오를 단순히 프레임 단위로 보지 않고, 공간적(프레임 내 객체 간의 관계) 요소와 시간적(프레임 간 동일 객체의 추적 및 상태 변화) 요소를 연결망 형태로 구조화한 그래프. 본 연구에서는 이를 비디오의 long-term memory로 활용함.
- Compositional Reasoning: 복잡한 질문을 한 번에 처리하는 대신, 여러 개의 작은 논리적 추론 단계(reasoning steps)로 쪼개어 순차적으로 해결하는 과정.
- Entity-wise event chunking: 비디오 전체 흐름에서 특정 객체(entity)의 의미 있는 행동이나 상태 변화를 기준으로 그래프 노드들을 묶어 '이벤트' 단위로 분할하는 작업.
- localize_node / sample_entity_events: RAVU 프레임워크 내에서 그래프를 탐색하기 위해 정의된 특수 함수들. 질문에 해당하는 객체 노드를 특정하거나, 해당 객체의 과거/미래 프레임을 샘플링하는 역할을 수행함.
Purpose of the Paper
- 기존 연구의 한계: 최근 LMM들은 수십 분에서 수 시간 단위의 long video를 처리할 때 context length의 한계에 부딪힘. 기존 모델들은 비디오 압축을 통해 세부 정보를 잃거나, 질문과 개별 프레임 간의 단순 유사도(similarity-based retrieval)에 의존해 프레임을 추출함. 이로 인해 프레임 간 객체의 동일성을 추적하지 못하거나(예: 이전 프레임의 남자가 현재 프레임의 누구인지), multi-hop reasoning이 필요한 복잡한 시간/인과 관계 질문을 해결하는 데 치명적인 약점이 있었음.
- 새로운 접근 방식 제안: 본 논문은 비디오 자체를 LMM을 활용해 표현력이 풍부한 spatio-temporal graph로 단 한 번만 변환하여 explicit memory로 저장하는 RAVU 프레임워크를 제안함. 이후 질문을 단순 검색하는 대신, 질문을 여러 reasoning 단계로 분해하여 그래프 위에서 순차적으로 함수를 실행함으로써, 질문 답변에 꼭 필요한 극소수의 핵심 프레임만 지능적으로 역추적하여 가져오는 독창적인 접근법을 제시함.
Key Contributions
- LMM을 활용한 고품질 Spatio-temporal graph 구축 (Novelty): 제한된 어휘만 사용하는 기존 scene graph 기술의 한계를 벗어나, 객체 추적 모델(SAM2)로 프레임 간 동일 객체의 ID를 유지한 상태에서 LMM에 bounding box 정보를 매핑하여 매우 상세하고 표현력 높은(expressive) 비디오 메모리 그래프를 생성함.
- 그래프 기반 Compositional Reasoning Retrieval 제안 (Novelty): "개가 계단을 뛰어오른 후 무엇을 했는가?" 같은 복잡한 질문을 LMM을 통해 "1. 개가 계단을 오르는 노드 찾기(localize_node) -> 2. 해당 노드 이후의 이벤트 샘플링(sample_entity_events)"과 같이 분해함. 단순 텍스트-이미지 매칭이 아닌 명시적 그래프 구조 위에서 논리적 함수를 실행하여 과거/미래의 문맥을 정확하게 탐색하는 방식이 참신함.
- 최소한의 프레임으로 SOTA 성능 달성: 비디오 전체를 처리하거나 압축하는 무거운 방식 대신, reasoning 과정을 통해 찾아낸 단 5에서 10개의 프레임만을 최종 LMM에 전달하여 비용 효율성과 성능을 동시에 극대화함.
Experimental Highlights
- 실험 설정: 시간적/인과적 추론을 평가하는 NExT-QA 데이터셋과 긴 1인칭 비디오 이해력을 평가하는 EgoSchema 데이터셋을 사용. 모든 평가는 zero-shot 환경에서 진행되었으며, 추론 모델로 Gemini-1.5-flash-002를 채택함.
- 핵심 결과 1 (NExT-QA 최고 성능 달성): RAVU는 전체 정확도 74.09 퍼센트를 달성하여, 기존 SOTA 모델인 VideoAgent(71.3 퍼센트)를 능가함. 특히 전후 관계를 파악해야 하는 temporal 질문 카테고리에서 단순 텍스트 검색 베이스라인(65.4 퍼센트) 대비 69.2 퍼센트를 기록하며 multi-hop reasoning에 압도적으로 강함을 수치로 입증함.
- 핵심 결과 2 (EgoSchema에서의 효율성): 3분짜리 긴 비디오에서 단 10개의 프레임만 검색하여 LMM에 제공했음에도 불구하고 67.41 퍼센트의 정확도를 달성하여 기존 SOTA 방법론들을 모두 상회함.
- Ablation Study (그래프 품질의 중요성): 그래프 생성 시 Ground-truth tracking 데이터를 사용했을 때(76.65 퍼센트)와 자동화 툴인 SAM2를 사용했을 때(74.58 퍼센트) 성능 차이가 발생함을 보여, 정확한 객체 추적이 전체 QA 성능에 직결됨을 실험적으로 검증함.
Limitations and Future Work
- 비용 문제 및 해결 방안 (Limitation & Future Work): 질문을 reasoning 단계로 분해하기 위해 LMM에 in-context 예시들을 넣어주다 보니, 질문당 평균 5.9k 토큰이 소모되어 단순 검색(1.4k 토큰) 대비 연산 비용이 높음. 향후 연구(Future Work)에서는 질문 분해 전용으로 LMM을 fine-tuning하여 in-context 예시 없이 토큰 소모를 대폭 줄이고, prompt compression 기법을 도입해 검색 과정의 비용을 현실화할 계획임.
- LMM 환각(Hallucination)으로 인한 병목 (Limitation): 사람이 직접 주석을 단 그래프 구조(VidOR)를 사용할 때가 LMM이 자동 생성한 그래프를 사용할 때보다 미세하게 더 높은 성능을 보임. 이는 LMM이 그래프를 생성하는 과정에서 약간의 환각을 만들어내어 성능의 병목(bottleneck)으로 작용함을 의미함. 향후 그래프 생성의 robustness를 높이는 연구가 필요함.
Overall Summary
본 논문은 LMM이 긴 비디오의 복잡한 문맥을 파악하지 못하는 한계를 해결하기 위해, 비디오를 spatio-temporal graph 형태의 장기 메모리로 구조화하고 그 위에서 질문을 논리적으로 쪼개어 탐색하는 RAVU 프레임워크를 제안합니다. 단순 텍스트-이미지 유사도가 아닌, 추적된 객체의 시간적 흐름을 따라가는 compositional reasoning을 통해 정답 도출에 필요한 극소수(5-10개)의 프레임만을 정확히 찾아냅니다. 이 방법론은 zero-shot 환경에서 기존 SOTA를 능가하는 성능을 입증하며, 향후 무거운 비디오 전체 처리 없이도 빠르고 논리적인 long-form video 이해 시스템을 구축할 수 있는 새로운 패러다임을 제시합니다.
쉬운 설명
이 논문의 방식은 "두꺼운 소설책을 처음부터 끝까지 훑어보며 정답과 비슷한 단어 찾기" (단순 유사도 검색)를 하던 기존 AI에게, "등장인물 관계도와 시간대별 사건 일지(Spatio-temporal graph)" 를 미리 만들어주는 것과 같습니다.
만약 "주인공이 식당에서 도망친 후 무엇을 했지?" 라는 질문이 들어오면, AI는 책 전체를 뒤지는 대신 요약된 사건 일지 위에서 "1. 주인공 찾기 -> 2. 식당에서 도망친 시점 찾기 -> 3. 그 바로 다음 사건 확인" (Compositional reasoning) 처럼 논리적인 단계를 밟습니다. 이렇게 하면 책 전체를 다 읽을 필요 없이 딱 필요한 핵심 장면 5장(프레임)만 꺼내서 완벽한 정답을 낼 수 있는 매우 효율적이고 똑똑한 검색 방식입니다.
영상을 1fps로 프레임 샘플링.
각 프레임 마다 등장하는 주요 entity를 찾음. (모델이 나와있진 않음.)
객체 하나하나가 노드 후보가 됨.
검출된 객체마다, id를 붙임.
박스에 색을 입혀 시각적으로 구분,
tracklet 기반으로 동일 객체를 연결해 consistent ID 를 유지하거나 새로 부여할지 결정
색에도 id가 달리는걸 텍스트로 줘서 lmm에게 같이 보여줌
이때 target frame만 넣는 것이 아니라 주변의 N개 프레임도 함께 넣어, 시간 문맥을 반영한 더 풍부하고 정확한 프레임/객체 설명을 생성하게 한다
lmm이 프레임 디스크립션과, 객체 디스크립션을 뽑게된다.
다시 그 디스크립션을 참고해서 프레임 내의 관계를 알 수 있고 그 부분은 연결함
LLM이 각 프레임을 하나의 씬그래프로 만들게됨.
spatio-temporal graph
정확히는
프레임마다 그래프가 하나씩 있고, 엣지는 프레임 간의 같은 객체 끼리 연결
프레임내는 lmm이 뽑아준 정보 기반 연결
그 후 프레임에 따른 객체의 변화를 이벤트 단위로 LLM이 묶어줌
그 후 질문을 리즈닝 스텝으로 분리,
나눴던 스텝은 사실 리즈닝 펑션으로 나눈셈인데, 순차적으로 해결해가면서 정보를 찾게됨.
그럼 몇개의 관련 프레임이 선택되는데
그거랑 질문이랑 뭐 정보 넣고 답변 생성