AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : Event Graph Guided Compositional Spatial–Temporal Reasoning for Video Question Answering 본문
VLM : 빠른 논문 리뷰 : Event Graph Guided Compositional Spatial–Temporal Reasoning for Video Question Answering
AI바라기 2026. 4. 22. 20:35
용어 설명
- Compositional Spatial-Temporal Reasoning: 비디오 내의 시간적 흐름(Temporal)과 공간적 관계(Spatial)를 구성 요소별(Compositional)로 나누어 복잡하고 다단계적인 추론을 수행하는 과정.
- Event Graph: 비디오를 인간의 시각 이해 과정과 유사하게 4가지 계층(Object, Relation, Scene, Action)의 노드로 분해하고, 이들의 시공간적 포함 및 선후 관계를 Edge로 연결한 다중 위계 비디오 표현 방식.
- Hierarchical Spatial-Temporal Transformer (HSTT): Event Graph의 다계층 노드를 입력으로 받아, 시각 정보와 텍스트(Question) 간의 Cross-modal alignment를 수행하는 본 논문 제안 모델.
- Edge-Guided Attention (EGA): Transformer의 기본적인 Fully connected Self-attention 대신, Event Graph상에서 시공간적 Edge로 연결된 유의미한 노드끼리만 Attention 연산을 수행하도록 마스킹(Masking)하는 희소(Sparse) 어텐션 기법.
- Graph Search Order (BFS): 노드들을 Transformer의 입력 Sequence로 만들기 위해 그래프를 탐색하는 순서. 본 연구에서는 시간적 발생 순서(Breadth)와 의미 계층(Depth)을 고려해 향상된 Breadth-First Search(BFS)를 적용하여 순서를 임베딩함.
Purpose of the Paper
- 기존 연구의 한계: 기존 VideoQA 모델들은 비디오를 프레임이나 클립 단위의 단일 계층(Single-level) 특징으로만 뭉뚱그려 표현(Holistic feature)함. 이로 인해 국소적 객체부터 전역적 행동을 넘나들며 시각적 단서를 찾아야 하는 복잡한 Cross-level reasoning 문제에서 고전함.
- 새로운 접근 방식: 비디오를 단순히 연속된 이미지의 합이 아닌, 객체(Object)들의 상호작용(Relation)이 모여 정적 장면(Scene)을 이루고, 이것이 연속되어 행동(Action)을 형성한다는 Bottom-up 방식의 Hierarchical Event Graph로 구조화함. 이를 기반으로 다중 계층의 시각적 단서를 명시적으로 연결하여 복잡한 질문에 답하는 구조 인지형 모델을 제안함.
Key Contributions and Novelty
- Key Contributions
- 복잡한 비디오 이벤트를 명확한 시공간적 관계를 가진 4단계 수준의 시각적 개념으로 파싱(Parsing)하는 구조화된 Event Graph 제안.
- Event Graph의 노드들을 시각적 입력으로 받아, Question과의 계층적 의미 대응(Hierarchical semantic correspondence)을 학습하는 HSTT 아키텍처 고안.
- 그래프의 구조적 사전 지식(Structure prior)을 Transformer에 주입하기 위해, 개선된 그래프 탐색 알고리즘 기반의 Order Embedding과, 연결된 노드 간의 문맥만 결합하는 Edge-Guided Attention (EGA) 적용.
- Novelty (참신성)
- 단순히 화면 내 객체나 프레임 단위의 Flat한 그래프가 아니라, 의미적 위계(Semantic depth)와 시간 흐름(Temporal breadth)을 동시에 포함하는 Multi-level 구조를 창안했다는 점이 가장 독창적임.
- Transformer에 그래프를 넣을 때 단순히 노드를 나열하는 것을 넘어, **그래프의 Edge 연결성 자체를 Attention Mask로 활용(EGA)**하여 무의미한 시공간적 노이즈 정보가 섞이는 것을 원천적으로 차단한 점이 혁신적임.
Experimental Highlights
- 핵심 실험 설정: 다단계 시공간 추론 능력을 평가하기 위해 고안된 대규모 벤치마크 AGQA datasets (Balanced, Novel, Step 설정) 및 STAR datasets 활용.
- 주요 성능 지표 (SOTA 달성)
- AGQA Balanced에서 59.72% 의 정확도 달성. 이는 수백만 개의 비디오-텍스트 쌍으로 Pre-trained 된 강력한 SOTA 모델인 VQA-T(54.45%)를 무려 5.27% 큰 폭으로 상회하는 수치임.
- STAR datasets에서도 62.58%를 기록하여 기존 최신 Baseline(L-GCN, MIST 등) 대비 명확한 우위를 점함.
- Generalization 성과: 훈련 데이터에 없는 새로운 조합을 묻는 Novel 설정과 더 긴 추론 단계를 요구하는 Step 설정에서도 Pre-trained 모델을 압도함. 이는 방대한 데이터에 의존한 암묵적 학습보다, 명시적으로 다중 계층 구조를 정렬(Multi-level cross-modal alignment)하는 본 논문의 방법이 훨씬 효과적이고 일반화 능력이 뛰어남을 증명함.
Limitations and Future Work
- 한계점 (Limitations): 제안된 Event Graph 구축 방식이 Object 감지, Relation 예측, Action 제안 등 여러 모듈을 이어 붙인 파이프라인(Pipeline) 형태의 초기 시도(Early attempt)임. 따라서 파이프라인 앞단에서 발생한 노이즈 노드나 잘못 연결된 Edge가 그래프에 포함될 경우, 모델의 최종 추론 성능에 부정적인 영향을 미칠 수밖에 없는 구조적 한계가 존재함.
- 향후 연구 방향 (Future Work)
- 더욱 견고하고 효과적인 비디오 Event representation을 구축하기 위한 이론적, 통합적 구조 연구 진행.
- 그래프 내의 노이즈 노드 및 Edge의 영향을 줄이기 위해, 학습 중 모델 스스로 유의미한 연결망을 재조정하는 Adaptive adjustment mechanism 기반의 Dynamic reasoning 기법을 탐구할 예정.
Overall Summary
이 논문은 비디오의 복잡한 이벤트를 단순한 프레임 단위가 아닌 Object, Relation, Scene, Action의 4단계 의미적 계층으로 분해하여 구조화한 Event Graph 방법론을 새롭게 제안합니다. 나아가 그래프의 위계와 시간 순서를 반영하는 임베딩, 그리고 Edge로 연결된 정보만 선택적으로 결합하는 Edge-Guided Attention을 장착한 HSTT 모델을 통해 완벽한 다단계 추론 체계를 구축했습니다. 결과적으로 방대한 외부 데이터를 사용한 Pre-trained 모델들을 압도하는 SOTA 성능을 달성했으며, VideoQA 분야에서 모호한 전체 비디오 특징 학습을 넘어 명시적이고 해석 가능한 구조 기반 추론(Compositional reasoning)의 새로운 기준을 제시했다는 점에서 매우 중요한 학술적 의의를 가집니다.
쉬운 설명
기존의 비디오 AI가 영상 전체를 믹서기에 갈아서(Holistic features) 대략적인 분위기만으로 정답을 유추하는 방식이었다면, 이 논문의 모델(HSTT)은 영상을 "단어-문장-문단-챕터"로 잘게 쪼개어 완벽한 "목차(Event Graph)"를 만든 뒤 질문을 푸는 방식입니다.
특히 질문의 답을 찾을 때, 목차의 연결선(Edge)을 따라 관련된 부분끼리만 돋보기를 대고 읽어보기(Edge-Guided Attention) 때문에, 엉뚱한 정보에 한눈팔지 않고 매우 복잡하고 꼬인 질문(Cross-level reasoning)에도 빠르고 정확하게 정답을 찾아낼 수 있습니다.

비디오와 질문 준비
비디오는 유니폼 하게 10개의 프레임 추출
비디오를 Object / Relation / Scene / Action의 4개 level 노드로 만들고자 함.
object node는 faster R-CNN + ResNeXt-101-FPN backbone 를 사용해서
프레임에서 오브젝트를 뽑고, roi 풀링으로 객체 피쳐 추출
Relation node는 relation prediction head를 디텍터 가 찾은 후에 오브젝트 끼리 페어를 만들고 나서 그 뒤에 붙여서
두 오프젝트간의 관계를 예측하도록 함. (이때 인풋은 정확히는 오브젝트1, 유니폰 스페이션 피쳐, 오브젝트2 형태의 어떤 concat feature가 됨)
그걸 head로 통과시켜서, 관계를 맞추게 하고 그걸 다시 트리플렛 형태로 바꿈
scene node 는 ResNet-50 CNN으로 각 프레임의 2D feature를 뽑아서 scene node로 씀
action node 는 RGB frames sampled at 8 FPS를 3D-ResNet애 넣고 피쳐를 뽑음
그 피쳐를 액션이 있을법한 구간을 예측하는 모델에 넣고, 여러 구간을 뽑게됨.
그중 신뢰도가 0.3 보다 큰 액션 구간을 찾고, 그 구간을 feature로 뽑음
edge는
Relation ↔ Object
Scene ↔ Relation
Action ↔ Scene
또한
relation node가 만들어질 때 사용된 subject/object에만 연결.
같은 frame/time에서 나온 scene node와 relation node만 연결
action proposal의 시간 구간 안에 포함되는 scene node들만 연결.
intra-level edge는 같은 level 내부 노드들 사이의 temporal dependency를 위한 연결
예를 들어 object-object, relation-relation, scene-scene, action-action 간 시간 문맥을 반영함
Object / Relation / Scene / Action node feature들은 차원이 다르니까
각 level마다 linear projection으로 공통 차원으로 보냄
Object → Relation → Scene → Action
이 순서로 배열
그다음 BFS/DFS로 얻은 graph traversal order를 embedding으로 바꿔서 추가로 더함
질문은 BERT 스타일 WordPiece embedding을 사용
질문 단어를 POS tagging해서
Object
Relation
Action
others
로 나누고
graph node와 question word 둘 다에 level embedding을 더함.
node embedding + level embedding + order embedding
word embedding + level embedding
두개의 임베딩을 얻음
이 둘을 concat해서 Transformer에 넣음
edge-guided attention mask를 써서 그래프 edge 없는 노드 간 attention을 막음
HSTT가 질문 토큰과 그래프 노드를 joint encoding
쭉 통과 시키고 cls 토큰떼서 소프트 맥스
- 비디오에서 프레임을 샘플링한다.
- 샘플링된 비디오에서
scene feature, object feature, object pair relation, temporal action feature를 추출하고,
이를 이용해 비디오를 Object / Relation / Scene / Action의 4-level event graph로 구성한다. - Graph edge는 두 종류로 구성된다.
같은 level 내부 node들은 temporal dependency를 반영하기 위해 fully connected로 연결하고,
서로 다른 level 사이는 Relation-Object, Scene-Relation, Action-Scene의 미리 정의된 포함 관계에 해당하는 node들만 연결한다. - 각 graph node에는
node feature + level embedding + graph traversal order embedding을 더해 Transformer 입력 embedding을 만든다. - 질문은 WordPiece embedding을 사용하고, 질문 단어를 Object / Relation / Action / Others로 태깅한 뒤 level embedding을 추가한다.
- Graph node embedding과 question token embedding을 concat하여 HSTT에 입력한다.
HSTT는 질문 token과 graph node를 joint encoding하고, graph node 간에는 edge-guided attention mask를 사용해 event graph 구조를 반영한다. - 마지막으로 [CLS] token representation에 classifier head를 붙이고 softmax를 통해 정답을 예측한다.