AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : Video as Conditional Graph Hierarchy for Multi-Granular Question Answering 본문

논문리뷰

VLM : 빠른 논문 리뷰 : Video as Conditional Graph Hierarchy for Multi-Granular Question Answering

AI바라기 2026. 4. 23. 17:45

 

용어 설명

  • VideoQA (Video Question Answering): 비디오 영상을 바탕으로 주어진 자연어 질문에 대한 올바른 답을 추론하는 태스크.
  • Bottom-up and Top-down insight: 이 논문의 핵심 설계 철학. Bottom-up은 low-level visual entity(객체)들이 모여 high-level global event(사건)를 구성하는 비디오의 계층적 특성을 의미. Top-down은 질문(Question)의 의도에 따라 요구되는 시각적 정보의 granularity(해상도/세밀도)가 다름을 의미.
  • Multi-Granular: 객체(objects) -> 원자적 행동(atomic actions) -> 활동(activities) -> 사건(events) 등 다양한 층위의 의미적 정보 단위를 모두 아우르는 개념.
  • QGA (Query-conditioned Graph Attention): 본 연구에서 제안한 핵심 모듈. language query를 조건(condition)으로 받아, semantic 및 geometric 공간에서 시각적 노드들 간의 관계를 학습하고 집계하는 유닛.
  • RoI (Region of Interest): 객체 탐지 모델을 통해 추출된, 특정 객체가 존재하는 프레임 내 관심 영역.

Purpose of the Paper

  • 기존 연구의 한계: 기존 VideoQA 모델들은 video와 question을 프레임과 단어의 순차적(sequential) 나열로만 처리하거나, 그래프를 사용하더라도 flat하고 monolithic한 형태로 구축했습니다. 이로 인해 비디오 내 시각적 요소들의 계층적(hierarchical) 구조와 언어적 개념의 multi-granular 특성을 반영하지 못해, 복잡한 관계 추론 및 다양한 질문 처리에 취약했습니다.
  • 새로운 접근 방식 제시: 비디오는 프레임의 연속이지만, 의미론적으로는 '객체 -> 행동 -> 활동 -> 사건'으로 이어지는 계층적 구조를 가집니다. 본 연구는 이 점에 착안하여, 비디오를 Conditional Graph Hierarchy로 모델링하는 방법을 제안합니다. 질문이 요구하는 다양한 레벨의 시각 정보를 정확히 타겟팅하고 모델의 추론 능력 및 해석 가능성을 높이는 것이 주된 목적입니다.

Key Contributions

  • Bottom-up 및 Top-down 인사이트 기반 아키텍처 제안: 비디오의 의미적 계층 구조(Bottom-up)와 질문의 다중 수준 정보 요구(Top-down)를 결합한 통찰을 VideoQA에 최초로 적용함.
  • Hierarchical Conditional Graph (QGA 모듈) 설계:
    • 재사용 가능한 QGA 유닛을 설계하고 이를 층층이 쌓아올림(stacking).
    • 단순한 relation pooling이 아닌 graph attention을 사용하여 객체 간의 정적 상호작용(프레임 단위)부터 동적 상호작용(클립 단위), 전체 사건(비디오 단위)까지 점진적으로 시각적 자원을 집계(aggregation)함.
  • Multi-level Query Condition을 통한 참신성(Novelty): 단일 global query에 의존하던 기존 계층형 모델(HCRN, HOSTR 등)과 달리, 각 계층(level)마다 token-wise 언어적 단서를 주입함. 이를 통해 모델이 각 granularity 수준에 맞는 video elements를 세밀하게 포착(pinpointing)하고 유연하게 매칭할 수 있음.
  • 향상된 Interpretability: 순수 attention 기반 설계로, 결과 도출 시 모델이 어떤 비디오 클립, 프레임, 특정 객체(RoI) 영역 및 질문 단어에 주목했는지 가중치를 통해 직관적인 시각적/텍스트적 증거를 제공함.

Experimental Highlights

  • 주요 실험 결과: NExT-QA 데이터셋(Val Overall 51.42%)을 비롯해 MSRVTT-QA, MSVD-QA, TGIF-QA 등 총 4개의 주요 벤치마크에서 기존의 cross-attention, motion-appearance, 단순 graph-structured, 타 hierarchical 모델들을 모두 뛰어넘는 SOTA (State-of-the-art) 성능을 달성함.
  • Ablation Study를 통한 가설 검증:
    • Hierarchy: 하위 레벨 그래프(객체 및 클립 레벨)를 제거하거나, graph attention 대신 단순 sum-pooling을 적용했을 때 성능이 급락함. 이는 계층적 그래프 추론이 필수적임을 입증.
    • Multi-level Condition: 언어 조건을 단일 글로벌 쿼리로 바꾸거나 특정 레벨에서 제거했을 때 성능이 저하됨을 확인하여 다중 레벨 조건 부여의 타당성을 입증함.
  • 효율성 입증: 전체 비디오에서 8~16개의 sparse sampled clip만으로도 SOTA를 달성하며, 파라미터 공유 및 가벼운 그래프 구조 덕분에 학습 및 추론 속도가 매우 빠름을 확인.

Limitations and Future Work

  • 한계점 (Limitations): 현재 모델의 시공간 관계 추론은 객체의 외형 특징(appearance features)에 강하게 의존하고 있으며, **객체 단위의 움직임 정보(region-level motion)**가 반영되지 않았습니다. 이로 인해 MSRVTT-QA 등에서 단순 객체 인식 대비 고도화된 행동/활동(action/activity) 인식 성능에 여전히 격차가 존재합니다.
  • 향후 연구 방향 (Future Work):
    • 복잡한 다중 객체 시나리오에서의 행동 인식 능력을 향상시키기 위해, 각 객체에 대한 appearance와 motion 정보를 결합하여 조인트 모델링(jointly modeling)하는 기법 도입이 필요.
    • 더욱 강력한 multi-granular 매칭을 위해 pre-trained vision-text architecture 기술을 finetuning 하는 방식으로 확장 발전시킬 계획.

Overall Summary
이 논문은 비디오 데이터의 계층적 의미 구조와 자연어 질문의 다중 수준 정보 요구를 동시에 해결하기 위해 Conditional Graph Hierarchy 기반의 새로운 VideoQA 모델을 제안했습니다. 각 시각적 계층에 token-level language query를 조건으로 부여하는 QGA 모듈을 도입함으로써, 기존 순차적 모델들이 가지던 제한적인 관계 추론 능력을 극복했습니다. 이 모델은 복잡한 인과관계 및 다중 객체 상호작용 추론이 필요한 데이터셋을 포함한 4대 주요 벤치마크에서 SOTA를 달성했으며, 향후 multi-modal 환경에서 vision-language alignment 및 모델 해석 가능성 연구의 새로운 기준을 제시합니다.


쉬운 설명
이 논문의 방식은 "복잡한 사건의 진상을 파악하는 베테랑 탐정의 수사 기법"과 같습니다. 기존 모델들은 영상을 단순히 '처음부터 끝까지 쭉 보는 것'에 그쳤다면, 이 모델(탐정)은 고객의 의뢰(Question)를 세밀하게 분석한 뒤 수사를 진행합니다. 현장의 작은 단서들(물건, 사람 = Bottom 레벨)부터 시작해, 그들 간의 짧은 다툼(행동 = Middle 레벨), 그리고 최종적인 범행 흐름(전체 사건 = Top 레벨)으로 단계별 퍼즐을 맞춰 올라갑니다. 핵심은 각 단계를 조사할 때마다 고객의 질문을 다시 확인하며 "이 질문에 답하려면 이 단계에선 저 물건이 중요해!", "저 행동에 주목해야 해!"라고 맞춤형 돋보기를 들이댄다는 점입니다. 그 결과, 훨씬 더 정확하고 '왜 이 답이 나왔는지' 설명까지 가능한 똑똑한 추론이 가능해집니다.

 

 

 

 

 

 

 

 

 

더보기

비디오와 질문을 준비.
문제는 두가지 객관식과 주관식

비디오를 유니폼하게 k개의 클립으로 나눔.
각 클립의 길이는 L

그리고 두가지 방식으로 처리하게 되는데
dense stream으로 촘촘하게 보면서 모션 특징 등을 뽑음 (16프레임)
sparse stream으로 듬성듬성하게 프레임의 전체 특징 정보를 뽑음 (4프레임)

위 sparse stream에서 
frame appearance feature도 뽑고
object detector도 돌린다

오브젝트 디텍션으로 N개의 객체 영역을 찾고, 각 객체마다 
RoI appearance
bounding box 위치
시간 위치
를 기록해서 객체 피쳐를 만듬

질문은 버트로 토큰별특징화 하고, bi gru를 통과해서 최종 질문 표현을 만듬
토큰 단위 질문 표현, 그리고 전역 단위


GO: 객체 수준
GF: 프레임/클립 수준
GC: 클립/비디오 전체 수준

논문은 위 세단계로 블록을 쌓음 

GO는 각 sparse frame마다 객체 그래프를 만들고, 각 객체 노드가 질문 토큰들과 어텐션한 뒤, 노드 간 연결 강도를 계산하고, graph attention과 pooling을 거쳐 프레임 요약 벡터를 만듬

GO 결과를 프레임 전체 문맥과 합침

GF도 비슷하게 처리(f go 가 노드가 됨), 질문을 조건으로 넣고 그래프는 질문토큰들과 어텐션, , 클립 내 프레임들 사이의 관계 계산, 그래프 어텐션, 풀링

GF 결과를 위에서 뽑은 모션 피쳐와 합침 (덴스 피쳐)

이제 GC, 각 클립을 하나의 노드로 보고(사실상 f gf) QGA 적용, 중간에 질문 토큰들과 어텐션도 있음.


그럼 질문과 관련된 영상 전체 의미 요약본
그걸 가지고 정답을 고름

객관식은 보기마다 질문 + 답 후보를 합쳐 젤 점수 높은거
주관식은 최종 표현으로 앤서 보카부러리 분류



객체 feature

질문 토큰과 attention해서 question-conditioned object feature 생성

객체 쌍끼리 projected dot-product similarity 계산

softmax로 normalize해서 adjacency matrix A 생성

A를 edge weight처럼 사용해서 graph attention / message passing

self-attention pooling으로 객체들을 하나의 프레임 요약 벡터로 압축

 

비디오를 균일하게 K개의 클립으로 나눈다.

각 클립에서 두 종류의 시각 정보를 뽑는다.

하나는 dense stream으로, 16프레임을 사용해 motion feature를 뽑는다.

다른 하나는 sparse stream으로, 4프레임을 사용해 frame appearance feature와 object feature를 뽑는다.

sparse frame마다 object detector를 돌려 객체들을 찾고, 이 객체들을 노드로 하는 object-level graph, GO를 만든다.
각 객체 노드는 질문 토큰과 attention하고, 객체들 사이의 관계를 반영한 뒤 pooling되어 프레임 수준 요약 벡터가 된다.
GO에서 나온 프레임 요약 벡터를 해당 sparse frame의 전체 appearance feature와 합친다.
즉, 객체 관계 정보 + 프레임 전체 문맥 정보를 합쳐 frame-level representation을 만든다.

이 frame-level representation들을 노드로 하여 frame/clip-level graph, GF를 만든다.
GF도 질문과 attention하면서 클립 안의 프레임들 사이 관계를 보고, pooling을 통해 클립 수준 요약 벡터를 만든다.
GF의 결과를 dense stream에서 얻은 motion feature와 합친다.
즉, 질문 관련 프레임 관계 정보 + 클립의 motion 정보를 합쳐 clip-level representation을 만든다.

각 클립 representation을 노드로 하여 clip/video-level graph, GC를 만든다.
GC도 질문과 attention하면서 클립들 사이 관계를 보고, 최종적으로 비디오 전체 representation을 만든다.

마지막으로 이 비디오 representation과 질문 representation을 이용해 답을 예측한다.
객관식이면 각 후보 답변의 score를 계산해 가장 높은 것을 고르고, open-ended QA면 answer vocabulary에 대한 classification을 수행한다.