AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : Temporally Grounding Instructional Diagrams in Unconstrained Videos 본문

논문리뷰

VLM : 빠른 논문 리뷰 : Temporally Grounding Instructional Diagrams in Unconstrained Videos

AI바라기 2026. 2. 11. 21:14

Terminology (용어 설명)

  • Temporal Grounding: 긴 비디오 내에서 특정 쿼리(질문이나 지시사항)에 해당하는 구간(시작 시간과 종료 시간)을 찾아내는 기술.
  • Instructional Diagrams: 텍스트 설명 대신 사용되는 시각적인 단계별 지시 그림 (예: IKEA 조립 설명서의 그림). 이 논문에서는 Text query가 아닌 Image query를 다룸.
  • Unconstrained Videos: 통제된 실험실 환경이 아닌, YouTube 등에서 수집한 자연스러운 비디오. 촬영자가 설명서를 엄격히 따르지 않거나, 순서가 뒤바뀌거나, 중간 단계가 생략될 수 있어 분석이 어려움.
  • Composite Queries: 이 논문의 핵심 개념. Diagram features(내용 정보)와 Learnable positional embeddings(위치/순서 정보)를 결합하여 만든 쿼리 형태.
  • Self-Attention / Cross-Attention: Transformer architecture의 핵심 메커니즘. Self-attention은 쿼리들끼리의 관계를 파악하고, Cross-attention은 쿼리와 비디오 feature 간의 관계를 파악함.
  • IAW (IKEA Assembly in the Wild) Dataset: IKEA 가구 조립 비디오와 설명서 그림을 매칭하는 벤치마크 dataset.

Purpose of the Paper

  • 기존 연구의 한계 (Single-query Limitations): 대부분의 기존 Temporal Grounding 연구는 한 번에 하나의 쿼리(단계)만 독립적으로 처리했습니다. 이로 인해 단계 간의 temporal order(시간적 순서)나 mutual exclusiveness(상호 배타성, 한 구간에 두 개의 단계가 겹치지 않음)와 같은 구조적 정보를 무시했습니다. 그 결과, 예측된 구간들이 서로 심하게 겹치거나 순서가 뒤죽박죽인 문제가 발생했습니다.
  • 문제 정의의 전환: 이 논문은 개별 단계가 아닌, 일련의 sequence of step diagrams를 비디오 내에서 동시에(simultaneously) 찾아내는(grounding) 것을 목표로 합니다.
  • 접근 방식: 설명서의 단계들이 가지는 고유한 순차적 구조(inherent sequential structure)를 활용하여, 모델이 개별 단계뿐만 아니라 전체적인 흐름을 파악하도록 설계했습니다.

Key Contributions

이 논문은 Moment-DETR 기반의 모델을 확장하여 다음과 같은 독창적인 기여를 했습니다.

  • Composite Queries (Novelty):
    • 기존에는 쿼리와 위치 정보를 분리하거나 나중에 결합했지만, 이 연구에서는 Diagram featuresLearnable positional embeddings를 모든 가능한 조합으로 짝지어(exhaustively pairing) Composite Queries를 생성했습니다.
    • 이를 통해 모델은 Semantic information(무엇을)과 Positional information(언제/어디서)을 동시에 고려하여 학습합니다.
  • Structure-Aware Attention Mechanisms:
    • Self-Attention: 서로 다른 내용을 가진 쿼리들이 서로를 억제(suppress)하여 예측 구간이 겹치는 것을 방지합니다. (Masked Self-Attention Type D 제안)
    • Joint Guided Cross-Attention: Content와 Position 정보가 결합된 가이드를 통해, 비디오 내의 잘못된 정렬(misalignment)을 시간적으로 보정(temporal correction)합니다.
  • Simultaneous Grounding Framework:
    • 순차적인 단계들을 한 번에 처리함으로써, 개별적으로 처리할 때보다 시간적 중복을 줄이고 Ground Truth와의 상관관계를 높였습니다.

Experimental Highlights

  • Datasets:
    • IAW (IKEA Assembly in the Wild): 주 실험 데이터셋. 텍스트가 아닌 Diagram 기반의 매칭 난이도가 높음.
    • YouCook2: 일반화 성능 검증을 위한 요리 비디오 데이터셋 (Text query 기반).
  • Performance:
    • IAW Dataset에서 제안된 모델은 기존 SOTA인 EaTR이나 Moment-DETR의 single-query 버전보다 월등히 높은 성능을 기록했습니다.
    • Metrics: R@1 (IoU=0.3, 0.5, 0.7), mIoU 사용.
    • 특히 "Ours (EaTR)" 버전은 R@1, IoU=0.5 기준 **26.45%**를 달성하며, 기존 방식들(약 18~22% 수준)을 크게 앞섰습니다.
  • Ablation Study Findings:
    • Mask Type D: 쿼리 간의 관계를 모델링할 때, 불필요한 쌍(pair)의 attention을 마스킹(masking)하는 것이 성능 향상에 중요함을 입증했습니다.
    • Positional Encoding: Diagram의 순서 정보(Positional Encoding)를 통합하는 것이 시간적 정렬에 필수적임이 확인되었습니다.

Limitations and Future Work

  • Limitations (한계점):
    • Partial Video Problem: 모델이 Diagram positional encoding에 의존하기 때문에, 비디오가 처음부터 시작하지 않고 중간 단계(예: Step 8)부터 시작하는 경우, 모델은 여전히 앞부분을 예측하려는 경향(bias)을 보여 예측에 실패하는 경우가 발생했습니다.
  • Future Work (향후 연구 방향):
    • Multi-modal Integration: 현재는 비전 정보만 사용하지만, Audio cues(조립 소리 등)를 통합하여 강건성(robustness)을 높이는 방향.
    • Domain Extension: 순차적 이벤트가 중요한 의료 시술 비디오(medical procedure videos)나 교육용 콘텐츠 등으로 적용 분야 확장.

Overall Summary

이 논문은 비디오 내에서 지침서의 시각적 다이어그램(Instructional Diagrams)을 찾을 때, 기존의 '단계별 개별 탐색' 방식이 가진 한계를 극복하기 위해 "동시 순차 탐색(Simultaneous Sequence Grounding)" 패러다임을 제안했습니다. 저자들은 내용과 위치 정보를 결합한 Composite Queries를 도입하여, 단계 간의 상호 배타성과 순서 정보를 모델이 학습하게 함으로써, 복잡하고 제약 없는(unconstrained) 비디오 환경에서도 훨씬 정확한 시간적 매칭이 가능함을 증명했습니다. 이 연구는 단순한 객체 인식을 넘어, 비디오 이해(Video Understanding) 분야에서 **구조적 문맥(Structural Context)**의 중요성을 부각했다는 점에서 큰 의의가 있습니다.


쉬운 설명 (Easy Explanation)

조립 설명서를 보고 가구를 만드는 영상을 분석한다고 상상해 보세요.

  • 기존 방식 (Single-query): "나사 조이는 장면 찾아줘", "다리 연결하는 장면 찾아줘"라고 AI에게 하나씩 따로따로 질문합니다. 이렇게 하면 AI는 나사를 조이는 장면을 찾을 때, 이게 다리 1번인지 다리 2번인지 헷갈려서 엉뚱한 곳을 찍거나, 두 단계가 같은 시간이라고 답해버릴 수 있습니다. 문맥을 모르기 때문입니다.
  • 이 논문의 방식 (Proposed Method): AI에게 설명서 전체 그림을 한 번에 보여주면서 "이 순서대로 영상 전체의 흐름을 맞춰봐"라고 시킵니다. 이때 Composite Query라는 기술을 써서 "그림 1번은 영상 앞부분에, 그림 2번은 그다음 부분에 있어야 해"라는 힌트(내용+위치 정보)를 줍니다.
  • 결과: AI는 "아, 다리를 연결하고 나서 나사를 조여야 하니까, 이 장면은 뒤쪽 단계겠구나"라고 눈치(context)를 챙기게 되어, 훨씬 정확하게 각 단계가 영상의 어디에 있는지 찾아냅니다. 마치 퍼즐 조각을 하나씩 맞추는 게 아니라, 전체 그림을 보면서 순서대로 맞추는 것과 같습니다.

 

 

 

 

 

 

더보기

1. Input & Feature Extraction (Frozen Backbones)

  • Video Input: $N$개의 비디오 클립 $\{V_i\}_{i=1}^N$.

    •  
    • Encoder: VideoMAEv2 (Frozen) 사용.
    • Output: 비디오 특징 벡터 $f^V \in \mathbb{R}^{N \times D_{raw}}$.
  • Diagram Input: $M$개의 설명서 그림 $\{I_j\}_{j=1}^M$.

    •  
    • Encoder: DINOv2 (Frozen) 사용.
    • Output: 다이어그램 특징 벡터 $f^I \in \mathbb{R}^{M \times D_{raw}}$.

2. Feature Projection (The "2 MLPs")


  •  
  • Video MLP: $f^V$를 입력받아 차원을 $D$로 변환.

  •  
  • Diagram MLP: $f^I$를 입력받아 차원을 $D$로 변환.
  • Result: 두 특징이 동일한 $D$ 차원 공간으로 투영됨 ($f^V, f^I \in \mathbb{R}^{\cdot \times D}$).

3. Query Construction (Composite Queries)

  • Components:
    • Content: 위에서 만든 다이어그램 특징 $f^I$ ($M$개).

    •  
    • Position: 학습 가능한 위치 임베딩 벡터 $q$ ($K$개, 랜덤 초기화 후 학습됨).

  •  
    • $M$개의 그림 각각에 대해 $K$개의 위치 쿼리를 붙임.
    • Total Queries: $M \times K$개의 쿼리 생성.
    • 각 쿼리 = Concat(Diagram_Feature, Learnable_Position_Embedding).
    •  
  • Operation: Cartesian Product (모든 조합 쌍).

4. Transformer Decoder (Core Logic)

  • Input: 생성된 $M \times K$개의 Composite Queries.
  • Self-Attention (Masked):

    •  
       
    • Type D Mask 적용: 같은 다이어그램 그룹 내의 쿼리끼리만 Attention을 허용하고, 다른 다이어그램 그룹 간의 간섭은 마스킹(차단)함.
  • Cross-Attention (Jointly Guided):
    • Decoder가 비디오 특징($f^V$)을 조회할 때 두 가지 점수(Score)를 합산하여 Attention Weight 계산:
      1. Content Score: 다이어그램 내용($Q_{content}$) $\cdot$ 비디오 내용($K_{content}^T$).
      2. Position Score: 위치 임베딩($Q_{pos}$) $\cdot$ 비디오 위치 인코딩($K_{pos}^T$).
    •  

    •  
    • Fact: 단순히 Feature를 Concat해서 넣는 게 아니라, Attention Score 단계에서 덧셈 연산을 수행함 ($Score = S_{content} + S_{position}$).

5. Prediction Heads (Output MLPs)

Decoder의 출력을 두 개의 작은 MLP(FNN)에 통과시킴:


  •  
  • Class Head: 해당 쿼리가 정답인지 아닌지 (Foreground/Background) 0~1 점수 출력 ($s$).

  •  
  • Box Head: 해당 쿼리의 시작 시간, 종료 시간 ($t_{start}, t_{end}$) 출력 ($t$).

6. Training Objective (Loss)


  •  
  • Matching: 예측된 $M \times K$개의 결과와 정답(Ground Truth) 사이를 Hungarian Algorithm으로 1:1 매칭.
  • Loss Calculation:

    1.  
    2. L1 Loss: 예측 시간과 정답 시간의 절대 차이.

    3.  
    4. gIoU Loss: 예측 구간과 정답 구간의 겹침 정도(IoU) 기반 손실.

    5.  
    6. Cross Entropy Loss: 정답 매칭 여부(점수)에 대한 분류 손실.
    •  
    • Final Loss = $\lambda_{L1} \cdot L1 + \lambda_{gIoU} \cdot gIoU + \lambda_{score} \cdot CE$.

 

 

 

 

2.5점 / 5점

이 논문은 "시각적으로 영상을 이해해서" 구간을 찾았다기보다는, "설명서의 순서와 대략적인 시간 분포를 외워서" 맞추는 "똑똑한 찍기(Smart Guessing)" 모델에 가깝다는 비판을 피하기 어려움