AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : Semantic Event Graphs for Long-Form Video Question Answering 본문

카테고리 없음

VLM : 빠른 논문 리뷰 : Semantic Event Graphs for Long-Form Video Question Answering

AI바라기 2026. 4. 23. 22:09

Terminology: 전문 용어 및 핵심 개념

  • Semantic Event Graphs (SEG): 비디오의 원본 프레임을 직접 사용하는 대신, 사람과 물체 간의 상호작용을 START/END 형태의 이벤트 로그로 변환하여 표현한 심볼릭 구조입니다.
  • Temporal Scene Graph (TSG): 개체(Nodes)와 시간적 관계(Edges)를 인코딩한 지식 그래프로, 비디오 전체의 타임라인을 구조화합니다.
  • Query-aware Pruning: 사용자의 질문(Query)에 포함된 핵심 단어(Anchor Entities)를 바탕으로 전체 그래프에서 관련된 부분(Subgraph)만 골라내는 과정입니다.
  • Symbolic Compression: 픽셀 데이터나 고차원 임베딩 대신, "사람이 컵을 들었다"와 같은 추상화된 기호(Symbol)로 정보를 압축하는 방식입니다.
  • Lexical Relevance: 질문의 토큰과 이벤트 로그 간의 텍스트 유사도를 계산하여 관련성 점수를 매기는 방식입니다.
  • Identity Persistence: 비디오 내에서 같은 물체나 사람에게 일관된 ID를 부여하여 긴 시간 동안 추적을 유지하는 기능입니다.

Purpose of the Paper:

기존의 **Vision-Language Models (VLMs)**는 긴 비디오(hour-scale)를 처리할 때 context window의 한계와 기하급수적으로 증가하는 token cost 문제에 직면합니다. 기존 연구들은 프레임을 줄이거나(downsampling) 밀집된 시각적 임베딩을 사용하지만, 이 과정에서 중요한 temporal interaction 정보가 손실되거나 비용이 너무 비싸지는 단점이 있습니다. 본 논문은 **"세상은 밀집된 데이터가 아니라 이벤트 중심(Event-driven)이다"**라는 관점에서, 비디오를 텍스트 기반의 compact temporal interaction logs로 변환하여 비용 효율적이면서도 장기 기억 추론이 가능한 시스템을 제안합니다.


Key Contributions & Novelty:

  • Semantic Event Graphs (SEG) 프레임워크: 원본 비디오를 가벼운 심볼릭 인터페이스로 변환하여, 대규모 GPU 연산 없이도 장기 비디오 추론이 가능한 구조를 제시했습니다. (Novelty: 시각적 입력을 텍스트 타임라인으로 완전히 대체)
  • Temporal Scene Graph (TSG) 및 Query-seeded Pruning: YOLOv11 기반 추적과 근접성(Proximity) 분석을 결합해 이벤트를 추출하고, 질문과 관련된 하위 그래프만 선택적으로 추출하여 효율성을 극대화했습니다. (Contribution: 91.4%의 토큰 절감률 달성)
  • Verbalization & LLM Reasoning: 추출된 이벤트를 텍스트 서사(Narrative)로 변환하여 Gemini 2.5 Flash에 전달함으로써, 복잡한 시각 지능 대신 고도의 언어 추론 능력을 활용했습니다.
  • 신규 데이터셋 공개: 5개의 긴 YouTube 비디오(10-20분)와 120개의 자동 생성된 long-horizon QA 쌍으로 구성된 벤치마크를 구축했습니다.

Experimental Highlights:

  • 압도적인 효율성: SEG 방식은 질문당 평균 3.47k tokens만 사용하여, 전체 로그를 다 보내는 Full Log 방식(40.39k tokens) 대비 토큰 사용량을 91.4% 감소시켰습니다.
  • 성능 유지 및 향상: 90% 이상의 데이터를 압축했음에도 65.0%의 QA 정확도를 기록하여, Full Log 방식(62.5%)보다 오히려 높은 성능을 보였습니다. 이는 불필요한 정보(Noise)가 제거되어 모델의 attention이 중요한 정보에 집중되었기 때문입니다.
  • Short-context의 한계 증명: 마지막 30초만 사용하는 베이스라인은 2.5%의 정확도에 그쳐, 장기적인 이벤트 메모리가 필수적임을 입증했습니다.
  • 비용 절감: Full context LLM 접근 방식보다 약 12배 저렴한 토큰 비용으로 운영이 가능합니다.

Limitations and Future Work:

  • Lexical Brittleness: 현재는 문자열 매칭 기반의 anchor detection을 사용하여, "mug"와 "cup" 같은 유의어를 인식하지 못하는 한계가 있습니다. 이를 해결하기 위해 Embedding-aware retrieval (CLIP 등) 도입이 필요합니다.
  • Off-camera Actions: 카메라 밖으로 나간 대상의 행동은 기록되지 않으므로 답변이 모호해질 수 있습니다. 이는 에고센트릭(Egocentric) 데이터의 고질적인 문제로 남아 있습니다.
  • No Visual Grounding: 순수하게 심볼릭 이벤트에만 의존하므로, "빨간 컵"과 "파란 컵"을 구분하는 등의 미세한 외형적 특징 파악이 불가능합니다. 향후 Hybrid symbolic + visual querying 연구가 필요합니다.
  • Scalability: 현재는 오프라인 처리 방식이지만, 실시간 스트리밍 환경에서 Incremental TSG updates를 적용하는 방향으로 확장이 가능합니다.

Overall Summary:

이 논문은 긴 비디오를 처리할 때 발생하는 막대한 토큰 비용과 계산 복잡성을 해결하기 위해, 비디오를 '사람-물체 상호작용' 중심의 텍스트 그래프로 압축하는 **Semantic Event Graphs (SEG)**를 제안합니다. 실험 결과, 91.4%의 토큰을 줄이면서도 오히려 정확도를 높이는 성과를 거두었으며, 이는 LLM이 원본 픽셀보다 정제된 이벤트 로그를 추론할 때 더 효율적임을 시사합니다. 이 연구는 고가의 GPU 자원 없이도 시간 단위의 장편 비디오를 이해할 수 있는 비용 효율적이고 확장 가능한 비디오 QA 기술의 가능성을 열어주었습니다.


쉬운 설명:

이 논문은 1시간짜리 CCTV 영상을 다 돌려보는 대신, **"누가 언제 무엇을 했는지" 기록된 짧은 일기장(이벤트 로그)**만 읽고 질문에 답하는 방식과 같습니다. 예를 들어 "철수가 언제 컵을 들었어?"라는 질문을 받으면, 1시간치 영상을 다 보는 게 아니라 일기장에서 '철수'와 '컵'이 적힌 부분만 골라 읽고 답하는 것입니다. 이렇게 하면 보는 시간(연산량)과 비용을 90% 이상 아끼면서도, 핵심 내용만 집중해서 보기 때문에 정답률은 오히려 더 높아집니다.

 

 

 

 

 

 

 

 

 

 

더보기

비디오를 따라가며 사람/물체를 검출함

각 객체의 bbox와 ID를 얻음

bbox 중심점으로 사람-물체 거리 계산

가까워지면 START, 멀어지면 END 이벤트 생성

이 이벤트들을 객체 중심 그래프로 저장

질문에 나온 객체 주변 이벤트만 골라냄

그 이벤트들을 텍스트 타임라인으로 바꿔 Gemini가 답함