AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding 본문

논문리뷰

VLM : 빠른 논문 리뷰 : Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding

AI바라기 2026. 5. 15. 10:41

 

용어 설명

  • LVLM (Large Video Language Model): 대용량 비디오-언어 모델. 비디오의 시각적 정보와 텍스트를 함께 처리하고 추론하는 대규모 모델.
  • RAG (Retrieval-Augmented Generation): 검색 증강 생성. 모델의 내부 지식에만 의존하지 않고, 외부 데이터(이 논문에서는 비디오 클립)를 검색하여 답변 생성에 활용하는 기법.
  • Entity Merging: 여러 비디오 클립에서 독립적으로 추출된 개체(entity)들 중, 의미적으로 동일한 것들을 하나의 글로벌 개체로 병합하여 그래프의 노드를 연결하는 이 논문의 핵심 전처리 과정.
  • Structured Reasoning: 구조화된 추론. 검색된 비디오 클립들을 곧바로 답변 생성에 쓰지 않고, "이 클립에 특정 객체가 있는가?"와 같은 yes/no 또는 counting 형태의 subqueries를 생성해 클립의 연관성을 팩트 체크하는 중간 검증 단계.
  • Hard negative: 검색 결과(Retrieval)에는 높은 유사도로 잡혔지만, 실제 질문의 정답을 도출하는 데는 방해가 되는(hallucination을 유발하는) 오답 샘플.

Purpose of the Paper

  • 기존 연구의 한계: 기존의 비디오 RAG 방식들은 긴 비디오를 짧은 chunk(클립)로 쪼개어 독립적인 문서처럼 검색함. 이로 인해 인물/사물의 연속성(entity continuity)과 temporal dependencies가 단절됨. 또한, 검색된 여러 클립을 한 번에 LVLM에 입력하면 시각적 정보 과부하(information overload)와 불필요한 노이즈(hard negatives)로 인해 모델의 추론 능력이 급격히 저하됨.
  • 새로운 접근 방식 (Vgent 제안): 비디오를 단순히 텍스트 chunk로 나누는 것을 넘어, 공통 entity를 기반으로 연결된 Graph 형태로 구축하여 문맥과 시간적 흐름을 보존함. 더불어, 검색된 결과에 속지 않기 위해 Structured Post-retrieval Reasoning이라는 중간 검증 단계를 도입하여 오직 검증된 클립의 정보만으로 정답을 생성하는 구조를 제안함.

Key Contributions & Novelty

  • Offline Graph-based Video Representation (Novelty: 쿼리 독립적 문맥 보존)
    • 긴 비디오에서 entity, action, scene을 추출해 노드(video clips)와 엣지(shared entities)로 이루어진 Graph를 offline으로 미리 구축함.
    • 기존 RAG가 쿼리가 들어올 때마다 단편적인 유사도를 계산하는 것과 달리, 그래프를 통해 비디오 전반에 걸친 temporal dependencies와 의미론적 관계를 보존하여 다중 클립 추론(multi-clip reasoning)에 유리함.
  • Structured Post-retrieval Reasoning (Novelty: 환각(hallucination)을 제어하는 중간 검증망)
    • LVLM이 hard negative 클립에 시선을 뺏기는 문제를 해결하기 위해 도입된 단계.
    • 질문을 여러 개의 이진(binary) 또는 수치형(numerical) subqueries로 분할하고, 검색된 각 클립이 이 subqueries를 만족하는지 검증(verify)한 후 통과한 클립의 정보만 aggregate 함. 이를 통해 retrieval noise를 획기적으로 줄임.
  • Self-contained, Training-free Pipeline (Novelty: 오픈소스 모델의 한계 극복)
    • GPT-4V와 같은 비용이 많이 드는 closed-source API에 의존하는 agent 방식(예: VideoAgent)과 달리, 오픈소스 LVLM만으로 파이프라인 전체(그래프 구축, 검증, 생성)를 가동할 수 있는 유연한 training-free 구조를 제안함.

Experimental Highlights

  • Datasets & Baselines: MLVU, VideoMME, LongVideoBench (LVB) 사용. Baselines로 최신 오픈소스 LVLMs (Qwen2.5-VL, LongVU, LLaVA-Video 등), NaiveRAG, Video-RAG 및 API 기반 에이전트 모델들과 비교.
  • State-of-the-art 성능 달성:
    • MLVU 데이터셋에서 base LVLMs 대비 3.0 ~ 5.4 퍼센트의 성능 향상을 기록.
    • 기존 최신 RAG 모델인 Video-RAG와 비교하여 8.6 퍼센트 높은 성능(outperformed)을 달성.
  • 작은 모델로 큰 모델 압도 (Efficiency): Vgent를 적용한 Qwen2.5-VL (3B) 모델이 70.4 퍼센트의 정확도를 기록하며, Vgent를 적용하지 않은 Qwen2.5-VL (7B) 모델의 성능을 능가함.
  • 다중 클립 추론 입증: 여러 클립의 정보를 종합해야 하는 'Count(횟수 세기)' 및 'Order(순서 맞추기)' task에서 성능 향상 폭이 가장 두드러짐.
  • Inference Time 향상: Graph 구축을 offline으로 분리하여, Video-MME 추론 시 기존 Video-RAG 대비 1.73배 빠른 속도를 기록함.

Limitations and Future Work

  • Limitations (텍스트 기반 그래프의 한계): 현재의 Graph 구축은 비디오의 raw visual features(이미지 임베딩 등)를 직접 사용하지 않고, LVLM이 추출한 텍스트 기반의 descriptions(entity, scene 등)에만 의존함. 이로 인해 텍스트로 완벽히 묘사되지 않는 세밀한(low-level) 시각적 디테일이나 뉘앙스가 누락될 가능성이 있음. 또한 성능의 고점이 base LVLM의 기초 역량에 종속됨.
  • Future Work (Visual embedding 통합): 향후 연구에서는 frame-level features나 raw visual embeddings를 Graph 구조의 노드 연산에 직접 통합하는 방안을 제시함. 연산량(computational intensive)은 증가하겠지만, 텍스트 변환 과정에서 발생하는 정보 손실을 막아 훨씬 더 정밀한 비디오 이해가 가능해질 것임.

Overall Summary

이 논문은 오픈소스 LVLMs가 긴 비디오를 처리할 때 겪는 문맥 단절과 정보 과부하 문제를 해결하기 위해, 비디오 클립 간의 관계를 이어주는 Graph 기반의 검색(Retrieval)과, 오답을 걸러내는 구조화된 추론(Structured Reasoning)을 결합한 Vgent 프레임워크를 제안했습니다. 실험을 통해 무거운 closed-source API에 의존하지 않고도 SOTA RAG 성능을 뛰어넘었으며, 3B 크기의 작은 모델이 7B 모델을 압도하는 결과를 보여주었습니다. 이는 향후 multimodal RAG 시스템이 단순히 유사도 기반의 검색을 넘어, 정보의 논리적 연결(Graph)과 팩트 체크(Reasoning)를 어떻게 통합해야 하는지 보여주는 중요한 이정표가 됩니다.


쉬운 설명

기존의 비디오 AI 방식이 범인을 찾기 위해 2시간짜리 CCTV 영상을 1분 단위로 쪼갠 뒤, '모자 쓴 사람'이 등장하는 조각 영상들을 한꺼번에 모아서 결론을 내리려다 엉뚱한 행인(Hard negative)에게 시선을 뺏겨 오답을 내는 방식이었다고 가정해 봅시다.

이 논문이 제안하는 Vgent는 먼저 CCTV 전체 영상의 **'인물 동선 관계도(Graph)'**를 미리 그려둡니다. 그리고 검색된 영상들을 곧바로 믿지 않고, **"이 영상에 진짜 모자 쓴 범인이 등장해? (Yes/No)", "범인이 가방을 들고 있어? (Yes/No)"**라고 체크리스트(Structured Reasoning)를 만들어 하나하나 검증합니다. 이 팩트 체크를 통과한 진짜 핵심 단서들만 모아서 최종 결론을 내리기 때문에, 엉뚱한 장면에 속지 않고 정확하게 전체 스토리를 파악할 수 있습니다.

 

 

더보기

비디오를 클립으로 나누고, 각 클립을 VLM을 통과시켜서 텍스트로 뽑음
그걸 가지고 비디오 전체를 표현하는 graph를 만들게 되고

질문을 던지면 질문에서 해결해야할 하위 쿼리들을 만들고
그걸로 graph를 보면서 해결하기 위해 관련 클립을 모두 불러옴, 

쪼갠 질문을 하나씩 확인하면서 yes no로 분류하고 ,
no로 된 클립은 과감히 제거

나머지 영상 모아서  텍스트로 요약하고 문제풀이 

 

 

2.5점 / 5점 

약간 올드함.