VLM : 빠른 논문 리뷰 : RAVU: Retrieval Augmented Video Understanding with Compositional Reasoning over Graph

Notice

Recent Posts

Recent Comments

Link

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : RAVU: Retrieval Augmented Video Understanding with Compositional Reasoning over Graph 본문

논문리뷰

VLM : 빠른 논문 리뷰 : RAVU: Retrieval Augmented Video Understanding with Compositional Reasoning over Graph

AI바라기 2026. 4. 23. 13:16

용어 설명

LMM (Large Multi-modal Model): 텍스트뿐만 아니라 이미지, 비디오 등 다양한 모달리티를 함께 이해하고 처리할 수 있는 거대 모델.
Spatio-temporal graph: 비디오를 단순히 프레임 단위로 보지 않고, 공간적(프레임 내 객체 간의 관계) 요소와 시간적(프레임 간 동일 객체의 추적 및 상태 변화) 요소를 연결망 형태로 구조화한 그래프. 본 연구에서는 이를 비디오의 long-term memory로 활용함.
Compositional Reasoning: 복잡한 질문을 한 번에 처리하는 대신, 여러 개의 작은 논리적 추론 단계(reasoning steps)로 쪼개어 순차적으로 해결하는 과정.
Entity-wise event chunking: 비디오 전체 흐름에서 특정 객체(entity)의 의미 있는 행동이나 상태 변화를 기준으로 그래프 노드들을 묶어 '이벤트' 단위로 분할하는 작업.
localize_node / sample_entity_events: RAVU 프레임워크 내에서 그래프를 탐색하기 위해 정의된 특수 함수들. 질문에 해당하는 객체 노드를 특정하거나, 해당 객체의 과거/미래 프레임을 샘플링하는 역할을 수행함.

Purpose of the Paper

기존 연구의 한계: 최근 LMM들은 수십 분에서 수 시간 단위의 long video를 처리할 때 context length의 한계에 부딪힘. 기존 모델들은 비디오 압축을 통해 세부 정보를 잃거나, 질문과 개별 프레임 간의 단순 유사도(similarity-based retrieval)에 의존해 프레임을 추출함. 이로 인해 프레임 간 객체의 동일성을 추적하지 못하거나(예: 이전 프레임의 남자가 현재 프레임의 누구인지), multi-hop reasoning이 필요한 복잡한 시간/인과 관계 질문을 해결하는 데 치명적인 약점이 있었음.
새로운 접근 방식 제안: 본 논문은 비디오 자체를 LMM을 활용해 표현력이 풍부한 spatio-temporal graph로 단 한 번만 변환하여 explicit memory로 저장하는 RAVU 프레임워크를 제안함. 이후 질문을 단순 검색하는 대신, 질문을 여러 reasoning 단계로 분해하여 그래프 위에서 순차적으로 함수를 실행함으로써, 질문 답변에 꼭 필요한 극소수의 핵심 프레임만 지능적으로 역추적하여 가져오는 독창적인 접근법을 제시함.

Key Contributions

LMM을 활용한 고품질 Spatio-temporal graph 구축 (Novelty): 제한된 어휘만 사용하는 기존 scene graph 기술의 한계를 벗어나, 객체 추적 모델(SAM2)로 프레임 간 동일 객체의 ID를 유지한 상태에서 LMM에 bounding box 정보를 매핑하여 매우 상세하고 표현력 높은(expressive) 비디오 메모리 그래프를 생성함.
그래프 기반 Compositional Reasoning Retrieval 제안 (Novelty): "개가 계단을 뛰어오른 후 무엇을 했는가?" 같은 복잡한 질문을 LMM을 통해 "1. 개가 계단을 오르는 노드 찾기(localize_node) -> 2. 해당 노드 이후의 이벤트 샘플링(sample_entity_events)"과 같이 분해함. 단순 텍스트-이미지 매칭이 아닌 명시적 그래프 구조 위에서 논리적 함수를 실행하여 과거/미래의 문맥을 정확하게 탐색하는 방식이 참신함.
최소한의 프레임으로 SOTA 성능 달성: 비디오 전체를 처리하거나 압축하는 무거운 방식 대신, reasoning 과정을 통해 찾아낸 단 5에서 10개의 프레임만을 최종 LMM에 전달하여 비용 효율성과 성능을 동시에 극대화함.

Experimental Highlights

실험 설정: 시간적/인과적 추론을 평가하는 NExT-QA 데이터셋과 긴 1인칭 비디오 이해력을 평가하는 EgoSchema 데이터셋을 사용. 모든 평가는 zero-shot 환경에서 진행되었으며, 추론 모델로 Gemini-1.5-flash-002를 채택함.
핵심 결과 1 (NExT-QA 최고 성능 달성): RAVU는 전체 정확도 74.09 퍼센트를 달성하여, 기존 SOTA 모델인 VideoAgent(71.3 퍼센트)를 능가함. 특히 전후 관계를 파악해야 하는 temporal 질문 카테고리에서 단순 텍스트 검색 베이스라인(65.4 퍼센트) 대비 69.2 퍼센트를 기록하며 multi-hop reasoning에 압도적으로 강함을 수치로 입증함.
핵심 결과 2 (EgoSchema에서의 효율성): 3분짜리 긴 비디오에서 단 10개의 프레임만 검색하여 LMM에 제공했음에도 불구하고 67.41 퍼센트의 정확도를 달성하여 기존 SOTA 방법론들을 모두 상회함.
Ablation Study (그래프 품질의 중요성): 그래프 생성 시 Ground-truth tracking 데이터를 사용했을 때(76.65 퍼센트)와 자동화 툴인 SAM2를 사용했을 때(74.58 퍼센트) 성능 차이가 발생함을 보여, 정확한 객체 추적이 전체 QA 성능에 직결됨을 실험적으로 검증함.

Limitations and Future Work

비용 문제 및 해결 방안 (Limitation & Future Work): 질문을 reasoning 단계로 분해하기 위해 LMM에 in-context 예시들을 넣어주다 보니, 질문당 평균 5.9k 토큰이 소모되어 단순 검색(1.4k 토큰) 대비 연산 비용이 높음. 향후 연구(Future Work)에서는 질문 분해 전용으로 LMM을 fine-tuning하여 in-context 예시 없이 토큰 소모를 대폭 줄이고, prompt compression 기법을 도입해 검색 과정의 비용을 현실화할 계획임.
LMM 환각(Hallucination)으로 인한 병목 (Limitation): 사람이 직접 주석을 단 그래프 구조(VidOR)를 사용할 때가 LMM이 자동 생성한 그래프를 사용할 때보다 미세하게 더 높은 성능을 보임. 이는 LMM이 그래프를 생성하는 과정에서 약간의 환각을 만들어내어 성능의 병목(bottleneck)으로 작용함을 의미함. 향후 그래프 생성의 robustness를 높이는 연구가 필요함.

Overall Summary
본 논문은 LMM이 긴 비디오의 복잡한 문맥을 파악하지 못하는 한계를 해결하기 위해, 비디오를 spatio-temporal graph 형태의 장기 메모리로 구조화하고 그 위에서 질문을 논리적으로 쪼개어 탐색하는 RAVU 프레임워크를 제안합니다. 단순 텍스트-이미지 유사도가 아닌, 추적된 객체의 시간적 흐름을 따라가는 compositional reasoning을 통해 정답 도출에 필요한 극소수(5-10개)의 프레임만을 정확히 찾아냅니다. 이 방법론은 zero-shot 환경에서 기존 SOTA를 능가하는 성능을 입증하며, 향후 무거운 비디오 전체 처리 없이도 빠르고 논리적인 long-form video 이해 시스템을 구축할 수 있는 새로운 패러다임을 제시합니다.

쉬운 설명
이 논문의 방식은 "두꺼운 소설책을 처음부터 끝까지 훑어보며 정답과 비슷한 단어 찾기" (단순 유사도 검색)를 하던 기존 AI에게, "등장인물 관계도와 시간대별 사건 일지(Spatio-temporal graph)" 를 미리 만들어주는 것과 같습니다.

만약 "주인공이 식당에서 도망친 후 무엇을 했지?" 라는 질문이 들어오면, AI는 책 전체를 뒤지는 대신 요약된 사건 일지 위에서 "1. 주인공 찾기 -> 2. 식당에서 도망친 시점 찾기 -> 3. 그 바로 다음 사건 확인" (Compositional reasoning) 처럼 논리적인 단계를 밟습니다. 이렇게 하면 책 전체를 다 읽을 필요 없이 딱 필요한 핵심 장면 5장(프레임)만 꺼내서 완벽한 정답을 낼 수 있는 매우 효율적이고 똑똑한 검색 방식입니다.

영상을 1fps로 프레임 샘플링.
각 프레임 마다 등장하는 주요 entity를 찾음. (모델이 나와있진 않음.)

객체 하나하나가 노드 후보가 됨.

검출된 객체마다, id를 붙임.
박스에 색을 입혀 시각적으로 구분,

tracklet 기반으로 동일 객체를 연결해 consistent ID 를 유지하거나 새로 부여할지 결정

색에도 id가 달리는걸 텍스트로 줘서 lmm에게 같이 보여줌
이때 target frame만 넣는 것이 아니라 주변의 N개 프레임도 함께 넣어, 시간 문맥을 반영한 더 풍부하고 정확한 프레임/객체 설명을 생성하게 한다

lmm이 프레임 디스크립션과, 객체 디스크립션을 뽑게된다.

다시 그 디스크립션을 참고해서 프레임 내의 관계를 알 수 있고 그 부분은 연결함

LLM이 각 프레임을 하나의 씬그래프로 만들게됨.

spatio-temporal graph

정확히는
프레임마다 그래프가 하나씩 있고, 엣지는 프레임 간의 같은 객체 끼리 연결
프레임내는 lmm이 뽑아준 정보 기반 연결

그 후 프레임에 따른 객체의 변화를 이벤트 단위로 LLM이 묶어줌

그 후 질문을 리즈닝 스텝으로 분리,

나눴던 스텝은 사실 리즈닝 펑션으로 나눈셈인데, 순차적으로 해결해가면서 정보를 찾게됨.

그럼 몇개의 관련 프레임이 선택되는데

그거랑 질문이랑 뭐 정보 넣고 답변 생성

'논문리뷰' 카테고리의 다른 글

VLM : 빠른 논문 리뷰 : GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking (1)	2026.04.23
VLM : 빠른 논문 리뷰 : Video as Conditional Graph Hierarchy for Multi-Granular Question Answering (0)	2026.04.23
VLM : 빠른 논문 리뷰 : Event Graph Guided Compositional Spatial–Temporal Reasoning for Video Question Answering (1)	2026.04.22
LLM : 논문 리뷰 : Pretraining on the Test Set Is All You Need (0)	2026.04.21
diffusion : 빠른 논문 리뷰 : FLOW MATCHING ON GENERAL GEOMETRIES (0)	2026.04.21

'논문리뷰' Related Articles

AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : RAVU: Retrieval Augmented Video Understanding with Compositional Reasoning over Graph 본문

VLM : 빠른 논문 리뷰 : RAVU: Retrieval Augmented Video Understanding with Compositional Reasoning over Graph

'논문리뷰' 카테고리의 다른 글

티스토리툴바