AI바라기의 인공지능

VLM : 논문리뷰 : Harnessing Object Grounding for Time-Sensitive Video Understanding 본문

논문리뷰

VLM : 논문리뷰 : Harnessing Object Grounding for Time-Sensitive Video Understanding

AI바라기 2025. 9. 9. 19:47

쉬운 설명

기존의 Video-LLM은 비디오를 볼 때, 마치 빠르게 감는 흐릿한 화면을 보는 것과 같았습니다. 전체적인 흐름은 파악하지만 누가 무엇을 가지고 어디에 있는지는 놓치기 쉬웠죠.

이 문제를 해결하기 위해 객체 정보를 글(text)로 줄줄 읊어주는 방식을 시도했지만, 너무 정보가 많아 LLM이 혼란스러워하고, 중간에 "치킨"을 "가재"라고 잘못 알려주면 전체 내용을 오해하는 문제가 있었습니다.

이 논문이 제안한 GO-Tokenizer는 비디오의 중요한 객체마다 "이 물건, 지금, 여기에 있음!" 이라고 알려주는 스마트한 포스트잇을 붙여주는 것과 같습니다. 길고 복잡한 설명 대신, 간결하고 정확한 핵심 정보만 'object token'이라는 포스트잇으로 전달해주니 LLM이 훨씬 쉽고 정확하게 비디오의 미세한 부분까지 이해할 수 있게 된 것입니다.

 

용어 설명 (Glossary)

  • TSV (Time-Sensitive Video understanding): 비디오에서 단순히 '무엇'이 일어나는지를 넘어 '언제' 일어나는지에 대한 시간적 맥락을 이해하는 task. 예: dense video captioning, temporal localization.
  • GO (Grounded Objects): 비디오 프레임 내에서 Bounding box 위치, 객체 종류(class), 그리고 타임스탬프 정보가 명시된 객체.
  • Video-LLM (Video Large Language Model): 비디오를 이해하고 관련된 질문에 답할 수 있는 대규모 언어 모델.
  • GO-Tokenizer: 이 논문에서 제안하는 핵심 모듈. GO 정보를 기존의 긴 텍스트가 아닌, LLM이 효율적으로 처리할 수 있는 간결한 'object token'으로 변환하는 역할을 수행.
  • LITA & TimeChat: 본 연구에서 GO-Tokenizer의 성능을 검증하기 위해 사용된 대표적인 state-of-the-art Video-LLM.
  • ActivityNet-RTL & YouCook-2: 실험에 사용된 주요 datasets. 각각 reasoning temporal localization과 dense video captioning task에 사용됨.
  • ROI-Patch-Pool: GO-Tokenizer 내부에서 Bounding box 내의 visual feature들을 평균내어 해당 객체의 semantically-rich 한 feature를 추출하는 연산.
  • Object Detector (YOLO-World, Detic): 비디오 프레임에서 GO 정보를 추출하기 위해 사용된 기성(off-the-shelf) 객체 탐지 모델.

Purpose of the Paper

기존 Video-LLM들은 긴 비디오를 처리하기 위해 각 프레임을 고도로 압축하여 단일 video token으로 만드는 방식을 사용했습니다. 이 과정에서 객체의 클래스, 속성, 공간적 관계 등 세밀한 spatial 정보가 손실되는 문제가 발생했습니다. 이러한 정보 손실은 특히 정확한 시간과 객체 수준의 이해가 필수적인 TSV (Time-Sensitive Video understanding) task에서 모델의 성능을 저하시키는 주요 원인이었습니다.

이 논문은 "압축된 video token에 객체 수준의 정보(GO)를 명시적으로 보강해주면 Video-LLM의 TSV 성능을 향상시킬 수 있을 것이다" 라는 가설을 세우고, 이를 효과적이고 효율적으로 수행하기 위한 새로운 방식인 GO-Tokenizer를 제안하는 것을 목표로 합니다.

Key Contributions & Novelty

  • Contribution 1: GO 정보의 유효성 입증
    • 기존 Video-LLM의 구조 변경 없이, GO 정보를 텍스트 설명(textual description) 형태로 프롬프트에 추가하는 것만으로도 TSV task의 성능이 향상됨을 실험적으로 증명했습니다.
    • Novelty: 이는 GO 정보가 TSV 성능 향상에 직접적으로 기여할 수 있다는 가설을 뒷받침하는 중요한 근거를 제시합니다.
  • Contribution 2: GO-Tokenizer 제안
    • GO 정보를 비효율적이고 노이즈에 취약한 텍스트 대신, 객체의 semantic, spatial, temporal 정보를 하나의 간결한 object token으로 압축하여 인코딩하는 가벼운(lightweight) add-on 모듈인 GO-Tokenizer를 제안했습니다.
    • Novelty: 이는 Video-LLM을 위한 새로운 형태의 입력 representation 입니다. 텍스트 방식(객체 당 약 42 토큰) 대비 훨씬 효율적(객체 당 1 토큰)이며, Bounding box나 class 예측 오류 같은 노이즈에 더 강건한(robust) 특성을 보입니다.
  • Contribution 3: GO-Tokenizer의 일반성(Generality) 및 효과성 검증
    • GO-Tokenizer를 LITA, TimeChat과 같은 서로 다른 구조를 가진 두 개의 SOTA Video-LLM에 적용하여 reasoning temporal localization 및 dense video captioning task에서 일관된 성능 향상을 보였습니다.
    • Novelty: 제안된 방법론이 특정 모델이나 task에 국한되지 않고, 범용적으로 적용될 수 있는 효과적인 솔루션임을 입증했습니다.

Experimental Highlights

  • Baseline 성능 향상: ActivityNet-RTL 데이터셋에서, vanilla LITA 모델(mIOU 28.72) 대비 GO-Tokenizer를 적용한 GO-LITA 모델이 mIOU 31.52, Rel. Score 59.0으로 모든 지표에서 큰 폭의 성능 향상을 기록했습니다. 이는 텍스트 기반으로 GO 정보를 추가한 모델(LITA+Text)의 성능도 상회하는 결과입니다.
  • Zero-shot 성능 향상: YouCook-2 데이터셋을 이용한 zero-shot dense video captioning 평가에서, GO-Tokenizer를 적용한 GO-TimeChat은 F1 score 18.5를 달성하여 vanilla TimeChat(F1 12.6) 대비 월등한 성능을 보였습니다. 흥미롭게도 이 task에서는 텍스트로 GO 정보를 제공했을 때 오히려 성능이 하락했는데, 이는 텍스트 방식의 불안정성과 GO-Tokenizer의 강건함을 잘 보여줍니다.
  • Ablation Studies:
    • Object Detector: Detic 또는 YOLO-World 등 다른 종류의 object detector를 사용하더라도 GO-Tokenizer는 텍스트 기반 접근법이나 vanilla 모델보다 일관되게 우수한 성능을 보였습니다.
    • 프레임 및 객체 수: GO 정보를 추출하는 프레임(F)의 수가 많아질수록, 프레임 당 객체(k)의 수가 특정 임계점(4-5개)에 도달할 때까지 성능이 향상되는 경향을 확인하여, 정보량과 성능 간의 관계를 분석했습니다.

Limitations and Future Work

  • Limitations:
    • 외부 Object Detector 의존성: GO-Tokenizer의 성능은 외부 off-the-shelf object detector의 성능에 크게 의존합니다. 논문에서도 YOLO-World가 'chicken'을 'crawfish'로 잘못 탐지하는 예시를 보여주었듯, detector의 오류는 전체 시스템 성능의 잠재적 한계점으로 작용합니다.
    • 많은 객체 처리의 한계: Ablation study에서 프레임 당 객체 수가 5개를 넘어가면 성능이 정체되거나 하락하는 경향을 보였습니다. 이는 매우 복잡하고 객체가 많은(cluttered) 영상에서는 모델이 입력 토큰을 처리하는 데 어려움을 겪을 수 있음을 시사합니다.
  • Future Work:
    • End-to-end 학습: 현재는 사전 학습된 고정된(frozen) object detector를 사용하지만, 향후 Video-LLM의 vision encoder와 object detector를 통합하여 end-to-end로 학습시키는 방식을 통해 더 task에 최적화된 객체 정보를 추출할 수 있을 것입니다.
    • Token 처리 효율화: 많은 수의 object token을 더 효율적으로 처리하고 통합하기 위한 새로운 architecture (e.g., attention mechanism) 연구가 필요합니다.

Overall Summary

이 논문은 기존 Video-LLM이 시간적 이해(TSV) task에서 겪는 공간 정보 손실 문제를 해결하기 위해, 객체 정보를 명시적으로 활용하는 GO-Tokenizer를 제안합니다. GO-Tokenizer는 객체의 위치, 종류, 시간 정보를 텍스트가 아닌 간결하고 강건한 'object token'으로 변환하여 LLM에 전달하는 혁신적인 모듈입니다. 실험을 통해 GO-Tokenizer가 다양한 SOTA Video-LLM과 결합되었을 때 temporal localization, dense captioning 등의 task에서 기존 모델 및 텍스트 기반 증강 방식보다 월등한 성능을 보임을 입증했습니다. 이 연구는 Video-LLM의 세밀한 영상 이해 능력을 한 단계 끌어올리는 효과적이고 일반화 가능한 방법을 제시했다는 점에서 큰 의의를 가집니다.

 

Abstract

우리는 grounded objects (GO)를 사용하여 video large language models (VideoLLMs)의 time-sensitive video understanding (TSV) 능력을 향상시키는 것을 제안합니다. 우리는 TSV tasks가 frames 내의 GO로부터 이점을 얻을 수 있다고 가정하며, 이는 reasoning temporal localization을 위한 state-of-the-art Video-LLM인 LITA에 대한 예비 실험을 통해 뒷받침됩니다.

이러한 object annotations의 textual description으로 prompts를 보강하면 LITA의 performance가 향상되지만, 추가적인 token length와 object level information의 noise에 대한 민감성을 야기합니다. 이를 해결하기 위해, 우리는 즉시 compact object information을 encode하기 위해 기존의(off-the-shelf) object detectors를 활용하는 Video-LLMs용 lightweight add-on module인 GO-Tokenizer를 제안합니다.

실험 결과는 GO-Tokenizer를 사용한 pretraining이 일반적인(vanilla) Video-LLM 및 prompt에서 objects의 textual description을 활용하는 대응 모델보다 성능이 우수함을 보여줍니다. 이러한 이점은 reasoning temporal localization 및 dense captioning과 같은 다양한 models, datasets 및 video understanding tasks에 걸쳐 일반화됩니다.

 

 

1. Introduction

더보기

Large-Language-Models (LLMs)의 능력을 video modality로 확장하는 것은 Video-LLMs에 길고 복잡한 비디오를 이해하고 사용자 쿼리에 응답하여 video summarization 및 video captioning과 같은 다양한 downstream tasks를 수행하는 능력을 갖추게 하려는 새로운 분야입니다. pretrained LLMs의 지식을 활용하기 위해, 대부분의 Video-LLMs는 text modality와 동일한 latent space를 공유하는 video features 세트를 학습하도록 설계되었으며, 두 modalities의 features는 training 및 inference를 위해 LLMs에 전달됩니다.

Video-LLMs가 pretrained LLMs로부터 지식과 reasoning 능력을 상속받지만, long sequences를 modeling하는 데 있어 LLMs의 한계는 여전합니다. 비디오는 보통 많은 frames를 포함하고 각 frame의 resolution이 클 수 있기 때문에 이는 특히 우려되는 부분입니다. sequence length 제한을 고려할 때, temporal information(더 많은 frames) 보존과 spatial detail(더 높은 resolution) 사이에는 명확한 trade-off가 있습니다. 예를 들어, 합리적인 input length를 관리하기 위해 이전 연구에서는 각 frame을 단일 video token으로 압축했습니다. 이것이 action classification과 같이 global content만 요구하는 downstream tasks에는 충분할 수 있지만, video dense captioning, highlights detection, temporal action localization, video temporal grounding과 같이 fine-grained details를 요구하는 tasks에는 부적합합니다. 이러한 유형의 tasks는 frames에 걸쳐 class, attributes, spatial relationships를 포함한 상세한 object-level information이 보존되어야 하므로 time-sensitive video understanding (TSV) tasks입니다.

이 연구에서 우리는 TSV의 task를 조사하고 object-level information이 보존될 때 TSV의 performance가 향상될 수 있다고 가정합니다. 최근의 Video-LLMs는 training이나 inference 중에 이러한 object-level information을 활용하지 않기 때문에, 우리는 먼저 기존 Video-LLM인 LITA를 사용하여 이 문제에 대한 예비 연구를 수행합니다. 더 구체적으로, 우리는 ActivityNetCaptions dataset의 object annotations을 object classes, location 및 object가 나타나는 timestamp를 포함하는 textual description으로 변환합니다. frames에 걸친 이러한 object descriptions은 downstream tasks를 수행하기 위해 Video-LLM에 전달됩니다. 이 접근법을 사용한 초기 결과는 model의 performance 향상을 보여주며, 이는 기존 Video-LLMs에 object information을 통합할 필요가 있음을 시사합니다. 그러나 이러한 이득은 과도한 양의 추가 tokens을 사용하는 대가를 치릅니다. 예를 들어, object class, bounding box, objects의 timestamps를 포함하는 object description을 도입할 때, model은 vanilla LITA에 비해 inference 중에 약 1425개의 추가 tokens를 소비합니다. 더욱이, 예비 연구는 text description에 부정확한 object classes나 잘못 정렬된 bounding boxes가 포함될 때 이득이 크게 감소함을 보여줍니다. 이 발견은 temporal understanding tasks를 위해 object-level information을 활용하는 효과적이고 효율적인 방법을 조사하도록 동기를 부여했습니다.

이를 해결하기 위해, 우리는 그림 1에서 설명된 바와 같이 video frames 내 grounded objects (GO)의 object semantics, spatial positions, temporal cues를 compact object tokens으로 encodes하는 기존 Video-LLMs를 위한 lightweight module인 GO-Tokenizer를 제안합니다. frame의 각 object에 대해, 주어진 object bounding box 내의 patch features를 평균화하기 위해 ROI patch pooling을 도입합니다. 여기서 patch features는 pretrained encoder의 semantic-rich visual feature map과 location-aware positional embeddings를 결합합니다. 이 pooling mechanism은 본질적으로 semantic 및 spatial information을 포착합니다. 결과 feature는 text tokens와 공유되는 latent space로 projected되고 object가 나타나는 시점을 포착하기 위해 time-aware positional encoding으로 강화됩니다. 따라서 각 object는 단일 object token으로 효율적으로 표현되며, 이는 text 및 video tokens와 함께 LLM에 전달됩니다. GO-Tokenizer module은 LLM component에 low-rank adaptation이 적용되어 end-to-end로 optimized된 GO-Video models라고 불리는 기존 Video-LLMs와 원활하게 통합됩니다. GO annotations를 사용할 수 없는 inference 중에는 adjacent frames의 중복성을 활용하여 비디오에서 sparse frames를 균일하게 sample합니다. 우리는 이러한 frames에서 GO information을 추출하기 위해 off-the-shelf object detector를 사용하고, GO-Tokenizer로 이를 object tokens으로 encode합니다. 이 전략은 정확한 temporal grounding을 쉽게 보장합니다.

GO-Tokenizer의 효능을 입증하기 위해, 우리는 이를 두 선도적인 Video-LLMs인 TimeChat과 LITA에 통합하여 각각 GO-TimeChat과 GO-LITA라고 하는 models를 만듭니다. 전자는 YouCook-2 dataset을 사용한 dense video captioning task에서 평가되고, 후자는 ActivityNet-RTL dataset을 사용한 reasoning temporal localization에서 평가됩니다. 두 tasks 모두에서, GO-Tokenizer를 장착한 models는 (1) 그들의 vanilla version과 (2) object text descriptions으로 trained되고 inferred된 vanilla version보다 우수한 성능을 보입니다. 또한, 우리는 서로 다른 object detectors의 사용과 video frame당 objects의 수를 포함하여 inference 중 다양한 configurations을 고려하는 ablation studies를 수행합니다. 모든 configurations 하에서, 제안된 GO-Tokenizer는 object information을 encode하기 위해 더 robust하고 compact한 representation을 사용하여 baselines보다 뛰어난 성능을 보입니다.

종합적으로, 이 연구에서 우리는 time-sensitive video understanding을 위해 GO information을 효과적이고 효율적으로 활용하는 방법을 조사하고 다음과 같은 세 가지 contributions를 제시합니다. 첫째, 우리는 기본 architecture를 수정하지 않고도 text prompt level에서 training 및 testing을 위한 class labels 및 spatial grounding과 같은 다양한 수준의 granularity에서 object information을 통합함으로써 기존 Video-LLMs를 개선할 수 있음을 보여줍니다. 둘째, 우리는 기존 object detectors의 object-level visual features를 활용하고 object information을 효율적으로 encode하기 위해 학습 가능한 grounded object (GO) tokens을 train할 것을 제안합니다. 마지막으로, 우리는 제안된 GO-Tokenizer가 두 개의 다른 Video-LLMs인 LITA와 TimeChat에 적용되었을 때 TSV tasks에서 baselines보다 일관되게 우수한 성능을 보인다는 것을 보여줍니다.

 

 

 

 

 

 

 

 

더보기


이 이미지는 기존 Video-LLM과 이 논문에서 제안하는 GO-Video 모델의 접근 방식을 비교하여 설명합니다.

  1. Existing Video-LLM (왼쪽): 기존의 Video-LLM은 비디오의 연속된 frames를 입력받아 이를 고도로 압축된 Video tokens () 시퀀스로 변환합니다. 이미지의 캡션에서 설명하듯이, 이 과정은 spatial information(공간 정보)을 상당 부분 손상시키는 단점이 있습니다. 즉, 비디오의 전체적인 맥락은 파악할 수 있지만, 각 frame 안의 객체가 무엇인지, 어디에 있는지와 같은 세부 정보는 잃어버리게 됩니다.
  2. GO-Video (Ours) (오른쪽): 제안하는 GO-Video 모델은 이 문제를 해결하기 위해 Grounded Objects (GO) 정보를 활용합니다.
    • 비디오에서 일부 frames를 샘플링한 후, object detector를 이용해 frame 내의 중요한 객체들을 탐지하고 빨간색 bounding box로 위치를 특정합니다.
    • 이 Grounded Objects (GO) 정보에는 객체가 나타나는 시간(Time), 객체의 위치(Bbox), 그리고 객체의 의미 정보(Semantics)가 포함됩니다.
    • 이러한 상세한 GO information은 Object tokens ()라는 별도의 tokens으로 encode됩니다.

결론적으로, 이 모델은 기존의 압축된 Video tokens가 놓치는 세밀한 객체 수준의 정보를 Object tokens 형태로 보충해 줍니다. 이를 통해 time-sensitive video understanding (TSV) task의 성능을 향상시키는 것이 이 연구의 핵심 목표입니다.

 

 

 

 

정리노트 (AI 연구자용)

1. Problem Definition

  • 핵심 문제: 기존 Video-LLMs는 비디오 frames를 고도로 압축된 video tokens으로 변환하는 과정에서 fine-grained한 spatial 및 object-level information을 손실함.
  • 영향: 이러한 정보 손실은 video dense captioning이나 temporal localization과 같은 Time-Sensitive Video Understanding (TSV) tasks의 성능을 저해하는 주요 원인임.

2. Preliminary Study & Key Findings

  • 가설 검증: object-level information을 기존 Video-LLM (LITA)의 prompt에 textual description 형태로 직접 추가하여 성능 향상을 확인함으로써, object 정보의 유효성을 입증함.
  • 한계점 발견 (연구 동기):
    1. Inefficiency: Object의 class, bounding box, timestamp를 텍스트로 추가하자 inference 시 token 길이가 약 1425개나 급증하여 비효율적임.
    2. Noise Sensitivity: Object class나 bounding box 정보가 조금이라도 부정확할 경우, 성능 향상 폭이 크게 감소하여 robustness가 부족함.

3. Proposed Method: GO-Tokenizer

  • 개념: 기존 Video-LLMs에 부착하는 lightweight add-on module로, grounded objects (GO) 정보를 compact한 object tokens으로 encode함.
  • 작동 방식:
    • Pretrained encoder에서 얻은 visual feature와 positional embedding을 결합한 patch features를 ROI patch pooling하여 object의 semantic 및 spatial 정보를 포착함.
    • 결과 feature를 text/video tokens와 공유하는 latent space로 projecting하고, time-aware positional encoding을 추가하여 시간 정보를 보강함.
    • 각 object를 단일 object token으로 효율적으로 표현함.
  • Inference 전략: Annotation이 없는 inference 시에는, off-the-shelf object detector를 sparsely sampled frames에 적용하여 GO information을 실시간으로 추출하고 encode함.

4. Contributions & Validation

  • Contribution 1: Object 정보를 text prompt에 주입하는 간단한 방식으로도 Video-LLM 성능 개선이 가능함을 최초로 입증함.
  • Contribution 2: 비효율적인 텍스트 방식 대신, object detector의 시각적 feature를 직접 학습 가능한 GO tokens으로 encode하는 효율적이고 robust한 GO-Tokenizer를 제안함.
  • Contribution 3: LITA, TimeChat 두 개의 다른 Video-LLM과 reasoning temporal localization, dense video captioning 두 개의 다른 TSV task에서 일관된 성능 우위를 보이며 제안 방법의 일반화 가능성을 증명함.

쉬운 설명

이 논문의 Introduction 섹션을 쉽게 설명해 드릴게요.

문제 상황은 이렇습니다. 🤖

  • 기존의 비디오 이해 AI (Video-LLM)는 비디오를 이해하기 위해 영화를 몇 장의 스틸컷 사진으로 요약하는 것과 비슷한 방식을 사용해요. (video tokens로 압축)
  • 이렇게 하면 "주방에서 요리하는 영상"이라는 전체적인 내용은 알 수 있지만, "양파를 썰어서, 프라이팬 왼쪽에 넣었다"와 같은 구체적인 객체의 정보나 위치, 순서는 대부분 잃어버리게 됩니다. 이런 세부 정보가 중요한 작업(TSV task)에서 AI가 성능을 잘 내지 못하는 원인이었죠.

그래서 연구팀은 이런 아이디어를 떠올렸습니다. 🤔

  • "그럼 AI에게 글자로라도 객체 정보를 알려주면 어떨까?"
  • 실제로 "5초에 양파가 도마 위에 있음" 같은 text 정보를 넣어주니 AI의 성능이 올라갔습니다. 가설이 맞았죠!
  • 하지만 여기엔 두 가지 큰 문제가 있었습니다.
    1. 설명해야 할 글이 너무 길어져서 AI가 처리하기에 매우 비효율적이었습니다. (엄청난 token 길이)
    2. 만약 "양파"를 "오이"라고 잘못 알려주면 AI가 완전히 헷갈려 해서 성능이 오히려 떨어졌습니다. (noise에 민감)

이 논문의 똑똑한 해결책은 이것입니다! 💡

  • 글자로 길게 설명하는 대신, 객체 정보를 담은 **'특수 아이콘'**을 만들자는 겁니다. 이 아이콘이 바로 object token입니다.
  • 이 논문이 제안한 GO-Tokenizer라는 장치는 비디오를 보고 "양파", "칼", "프라이팬" 같은 중요한 객체를 스스로 찾아냅니다. 그리고 각 객체의 (1)생김새, (2)위치, (3)나타난 시간을 모두 담은 compact한 '특수 아이콘'(object token)을 만들어 AI에게 전달합니다.
  • 이렇게 하면 긴 글로 설명할 필요 없이, 훨씬 효율적이고 정확하게 객체 정보를 AI에게 알려줄 수 있습니다.

결론적으로, 이 연구는 기존 AI가 놓치던 비디오 속 객체의 세부 정보를 '특수 아이콘'이라는 효율적인 방법으로 제공해서, 비디오를 훨씬 더 깊이 있고 정확하게 이해하도록 만드는 새로운 기술을 제안한 것입니다.

 

 

 

2. Related Work

더보기

Large Language Models for Video Understanding

방대한 datasets에서 pre-trained된 large language models (LLM)의 출현은 finetuning 없이 prompts를 사용하여 다양한 tasks를 처리하는 능력을 눈에 띄게 증가시켰습니다. computer vision 분야에서 LLMs를 활용하는 것에 대한 여러 연구가 있었으며, LLaVA, GPT-4V, Visual-ChatGPT 등이 그 예입니다. video understanding과 통합된 LLMs는 비디오와 상호작용하는 완전히 새로운 방법을 열었습니다. 이러한 models는 복잡한 multimodal reasoning 능력을 갖추고 있어, 인간에게 더 자연스러운 방식으로 textual prompts와 상호작용합니다.

최근 몇 년간, 이러한 Video-LLM tasks를 위한 models가 급증했습니다. 한 서베이 논문은 Video-LLM 분야 전체에 대한 훌륭한 참고 자료입니다. 일반적으로, 이러한 models의 대부분은 LLaMA나 Vicuna와 같은 open source LLMs를 backbone으로 활용합니다. 최근의 Video-LLM models는 video classification에서 video question-answering에 이르는 여러 video understanding tasks에서 이전 방법들을 크게 능가하며, video interpretation 능력에서 인간에 가까운 수준의 performance를 목표로 합니다.

Time-Sensitive Video Understanding Tasks

Video understanding은 각각 고유한 applications와 benchmarks를 가진 다양한 tasks를 포함합니다. 이러한 tasks는 크게 세 가지 범주로 분류될 수 있습니다. 첫 번째는 video classification, action recognition, multi-modal retrieval, video captioning, video-to-textual summarization 등을 포함하는 holistic understanding입니다. 두 번째 범주는 time-sensitive video understanding (TSV) tasks를 포함하며, temporal understanding에 초점을 맞추고 video highlights, 긴 비디오를 짧게 압축하는 것, temporal action 또는 event localization, moment retrieval, dense video captioning과 같은 tasks를 포함합니다. 마지막으로, 세 번째 범주는 spatial-temporal understanding에 중점을 두며, object-level tracking, re-identification, segmenting video objects 등과 관련이 있습니다. 이 연구에서 우리는 두 번째 범주인 TSV에 집중합니다. 우리는 TSV를 위해 개발된 state-of-the-art Video-LLM models이 object level information을 활용하지 않는다는 점을 관찰했습니다. 이와 대조적으로, 우리는 최소한의 overhead로 temporal video understanding tasks를 개선하기 위해 grounded object tokens를 활용하는 방법을 고안합니다.

Large Multimodal Models with Object Information

Multimodal Large Language Models (MLLMs)의 핵심 idea는 visual signals을 pre-trained LLMs에 적합한 feature representations으로 변환하는 vision tokenization에 있습니다. MLLMs에 대한 최근 방법들은 image-based reasoning tasks를 위해 명시적인 entity-level information을 활용하는 여러 방법을 도입했습니다. RegionGPT는 사용자가 region of interest를 입력하게 하고, 이러한 placeholders는 이후 language model에 입력되는 semantic region-level embeddings으로 대체됩니다. VCoder는 segmentation이나 depth maps와 같은 off-the-shelf object perception modalities를 추가적인 control inputs으로 탐색하고, control input의 정보를 LLM의 공간으로 projects합니다. 또 다른 최근 연구인 MG-LLaVA는 semantic equivalent visual tokens를 통해 concept-level image-text alignment를 도입했습니다. 이러한 방법들은 image-level reasoning을 위한 visual tokenization strategies를 연구했으며, temporal dynamics가 중요한 도전 과제인 비디오가 아닌 자신들이 선택한 tasks를 위한 고유한 tokenization 방식을 고안했습니다. GO-Tokenizer 또한 pretrained LLM에 integrated되도록 설계되었지만, 이는 video understanding, 특히 TSV tasks에 맞춰져 있습니다.

 

 

 

정리노트 (AI 연구자용)

1. Research Landscape & Positioning

이 연구는 세 가지 주요 연구 분야의 교차점에 위치합니다:

  • General Video-LLMs: LLaMA와 같은 open source LLM을 backbone으로 하는 Video-LLM이 video question-answering 등 일반적인 video understanding 분야에서 SOTA 성능을 달성했음을 인정하며, 이는 보편적인 배경 기술임을 시사합니다.
  • Time-Sensitive Video Understanding (TSV) Tasks: 본 연구는 video understanding을 3개 카테고리(holistic, TSV, spatial-temporal)로 분류하고, temporal localization이나 dense video captioning이 포함된 두 번째 카테고리, 즉 TSV에 명확히 집중합니다.
  • Object Information in Multimodal Models (MLLMs): RegionGPT, VCoder 등 object/region-level 정보를 활용하는 MLLM 연구가 존재함을 인지하고 있습니다.

2. Identified Research Gaps

  • Gap 1 (in TSV Research): TSV task를 위해 개발된 기존 state-of-the-art Video-LLM들조차도 object level information을 전혀 활용하지 않고 있다는 결정적인 공백을 지적합니다. TSV가 세밀한 시간적 이해를 요구함에도 불구하고, 정작 시간의 흐름에 따른 객체의 변화나 상호작용은 무시되고 있다는 것입니다.
  • Gap 2 (in MLLM Research): RegionGPT 등 기존 object-level 정보 활용 연구들은 모두 정적인 이미지(static images)를 대상으로 한 visual tokenization 전략이라는 한계를 가집니다. 비디오의 핵심 특징인 temporal dynamics를 고려하도록 설계되지 않았습니다.

3. Novelty & Contribution

  • 본 연구의 핵심적인 novelty는 위 두 가지 gap을 동시에 해결하는 데 있습니다.
  • 즉, image-level reasoning에 머물렀던 object-level 정보 활용 idea를 비디오 도메인으로 확장하고, 특히 temporal dynamics가 중요한 TSV task 성능 향상에 직접적으로 연결한 첫 시도 중 하나입니다.
  • GO-Tokenizer는 기존 이미지 기반 tokenization 방법들과 달리, TSV에 특화되어 temporal 정보를 효과적으로 encode 하도록 설계된 새로운 video-centric 접근법임을 강조합니다.

쉬운 설명

이 섹션은 이 논문이 기존의 다른 연구들과 뭐가 다른지, 어떤 빈틈을 파고들었는지를 설명하는 부분입니다.

세 종류의 AI 연구가 있다고 상상해 보세요. 🧑‍🔬

  1. '전체 흐름'을 보는 AI (Video-LLM): 축구 경기 전체를 보고 "어느 팀이 이겼어?" 또는 "오늘 경기는 어땠어?" 같은 질문에 답하는 AI입니다. 이 분야는 이미 꽤 발전했습니다.
  2. '결정적 순간'을 찾아내는 AI (TSV): "3쿼터 1분 32초에 A선수가 B선수에게 한 결정적인 패스는 뭐였어?"처럼, 영상 속 특정 시간대의 디테일한 사건을 콕 집어내야 하는 AI입니다. 이 논문은 바로 이 분야에 집중합니다. 그런데 이 논문은 "기존의 '결정적 순간' 분석 AI들은 정작 선수(객체) 개개인의 움직임은 제대로 보지 않고 있다"라는 중요한 문제점을 발견했습니다.
  3. '사진 속 사물'을 분석하는 AI (MLLM): 축구 경기 영상이 아니라, '선수들의 단체 사진' 한 장을 보고 "왼쪽에서 세 번째 선수는 누구야?" 또는 "공은 어디에 있어?"라고 묻는 것에 답하는 AI입니다. 이 AI들은 사진 속 특정 사물이나 인물을 콕 집어내는 건 아주 잘합니다.

이 논문의 독창적인 아이디어는 이것입니다. 💡 "3번(사진 분석) AI가 사물을 잘 찾아내는 능력을 2번('결정적 순간' 분석) AI에게 접목시키자! 그러면 '결정적 순간'에 어떤 선수가(객체) 어떻게 움직였는지까지 파악해서 훨씬 더 정확한 분석을 할 수 있을 거야!"

즉, 지금까지 아무도 비디오의 '시간 흐름'과 그 속의 '객체 정보'를 제대로 연결해서 활용한 적이 없었는데, 이 논문이 바로 그 빈틈을 파고들어 GO-Tokenizer라는 새로운 해결책을 제시했다는 점을 강조하는 것입니다.

 

 

 

3. Preliminaries

더보기

Video-LLM architecture

LLMs는 sequence modeling에서의 입증된 효능과 text tokens 예측에서의 놀라운 performance 덕분에 다양한 modalities에 널리 적용되어 왔습니다. visual modality에서 널리 사용되는 접근 방식은 이미지를 일련의 visual patch tokens으로 representation하는 것이며, 이러한 visual tokens는 text tokens와 공유되는 latent space로 projected됩니다. 그런 다음 LLM은 결합된 text tokens와 visual tokens를 받아들여 다양한 downstream tasks를 위한 text tokens를 generates합니다. 유사하게, video large language models (Video-LLMs)는 주어진 비디오 $V \in \mathbb{R}^{T \times H \times W \times 3}$로부터 video encoder (예: Video-Qformer 또는 ViT)를 사용하여 video tokens를 추출합니다. 여기서 는 frames의 수를,  는 video frame의 공간적 차원을 나타냅니다. 요약하자면, Video-LLMs는 두 가지 유형의 input tokens, 즉 video tokens $v_{1...K}$와 text tokens $t_{1...L}$을 사용하며,  은 각 modality의 token length를 나타냅니다.

Advancing Video-LLMs for TSV

Video-LLMs의 Time-sensitive video understanding (TSV) 능력은 일반적으로 temporal labels과 event-related queries가 포함된 대규모 annotated video datasets에서 model을 instruction tuning함으로써 강화됩니다. 이를 통해 model은 events가 언제 시작되고, 끝나고, 또는 겹치는지와 같은 events 간의 temporal relationships을 이해하고 예측할 수 있게 됩니다. 예를 들어, event localization에서 instruction은 "비디오에서 [event]는 언제 일어나나요? 시작과 끝 timestamps만을 사용하여 답하세요."가 될 수 있으며, model은 해당하는 timestamps를 제공합니다. 유사하게, dense video captioning의 경우, instruction은 "비디오에서 활동 events의 시작과 끝 timestamps를 감지하고 설명과 함께 보고하세요."가 될 수 있으며, model은 timestamps와 함께 일련의 narrations을 생성합니다. output이 natural language이기 때문에, model은 일반적으로 optimization objective로서 next-token prediction을 사용하여 trained됩니다.

 

 

정리노트 (AI 연구자용)

1. Baseline Architecture: Standard Video-LLM

이 섹션은 본 논문이 수정하고 개선하고자 하는 Video-LLM의 기본 architecture를 정의합니다.

  • Input Pipeline:
    1. 비디오 ()가 ViT나 Video-Qformer 같은 video encoder에 입력됩니다.
    2. Encoder는 비디오를 K개의 video tokens () 시퀀스로 변환합니다.
    3. 이 video tokens는 L개의 text tokens ()으로 구성된 prompt와 결합됩니다.
  • Core Model: LLM은 이 결합된 token 시퀀스를 입력받습니다.
  • Output Generation: LLM은 downstream task(예: 질의응답)를 수행하기 위해 text tokens를 생성합니다.
  • 시사점: 본 논문에서 제안하는 GO-Tokenizer는 이 기본 input pipeline에 object tokens라는 새로운 정보 스트림을 추가하는 방식으로 작동할 것임을 암시합니다.

2. Specialization for TSV Tasks

Video-LLM이 어떻게 Time-sensitive video understanding (TSV) 능력을 획득하는지에 대한 기존 패러다임을 설명합니다.

  • Core Methodology: Instruction Tuning.
  • Training Data: Temporal labels (timestamps)과 event 관련 질의응답이 annotation된 대규모 비디오 datasets을 사용합니다.
  • Learning Objective: Model이 시간과 관련된 자연어 지시(instruction)를 이해하고, 비디오 내용과 연결하여 timestamps나 시간 정보가 포함된 서술형 텍스트를 생성하도록 학습시킵니다.
    • 예시 (Event Localization): "언제 [event]가 발생했는가?"라는 instruction에 대해 "시작: 00:10, 종료: 00:15" 형식으로 답하도록 학습합니다.
  • Optimization: 학습은 LLM의 표준 방식인 next-token prediction을 optimization objective로 사용합니다.
  • 시사점: 현재 TSV 성능은 instruction tuning의 품질에 크게 의존합니다. 이 논문의 접근법은 model이 tuning 과정에서 더 풍부하고 정확한 object-level 시각 정보를 활용하게 함으로써, temporal relationships을 더 효과적으로 학습하도록 돕는 것을 목표로 합니다.

쉬운 설명

이 섹션은 이 논문의 아이디어를 이해하기 위해 꼭 알아야 할 두 가지 기본 지식을 설명하는 부분입니다.

1. AI는 어떻게 비디오를 "보는가"? (기본 구조)

  • AI의 핵심 두뇌(LLM)는 글자만 읽을 수 있는 똑똑한 학생이라고 상상해 보세요. 이 학생에게 비디오를 보여주려면 특별한 방법이 필요합니다.
  • 번역기 (Video Encoder): 비디오를 '글자'로 번역해 주는 기계입니다. 이 기계는 비디오를 보고 [#자동차_지나감], [#사람_달림] 처럼 비디오의 핵심 장면들을 요약한 '특수 키워드'(video tokens) 여러 개로 바꿔줍니다.
  • 수업 방식: 선생님은 학생(LLM)에게 (1) 질문이 적힌 교과서(text tokens)와 (2) 방금 번역한 '특수 키워드'(video tokens) 뭉치를 함께 줍니다. 학생은 이 두 가지를 같이 읽고 비디오 내용을 이해합니다.
  • 답변: 학생은 오직 글자(text tokens)로만 질문에 답합니다.

2. AI에게 "시간 개념"은 어떻게 가르치는가? (TSV 학습법)

  • 이제 이 학생에게 '시간'을 가르쳐야 합니다. "선수가 골을 넣은 게 정확히 몇 분 몇 초야?" 같은 질문에 답하게 만들어야 하죠.
  • 훈련 방식 (Instruction Tuning): 학생에게 **'시간 훈련 문제집'(annotated video datasets)**을 엄청나게 많이 풀게 합니다.
  • 문제집 구성: 각 문제에는 짧은 비디오 클립과 함께 시간 관련 질문과 정답이 적혀 있습니다.
    • 문제: "영상 속 고양이가 점프한 시간은? (시작/종료 시간으로만 답하세요.)"
    • 정답: "시작: 00:05, 종료: 00:06"
  • 학습 원리: 학생은 수많은 문제를 풀면서 정답의 다음 단어를 계속 예측하는 연습(next-token prediction)을 합니다. 이 과정을 반복하면서 비디오의 '특수 키워드'와 '시간' 사이의 연관 관계를 스스로 터득하게 됩니다.

이 논문은 바로 이 '기본 구조'와 '학습법'을 전제로, AI에게 더 좋은 학습 자료(객체 정보가 담긴 object tokens)를 주면 시간 개념을 훨씬 더 잘 배울 수 있을 것이라고 주장하는 것입니다.

 

 

4. Motivation: Can object grounding in VideoLLMs help TSV?

더보기

compute 한계와 긴 sequences를 modeling하는 복잡성 때문에, 기존 LLMs는 유한한 수의 tokens만 처리할 수 있으며, 이러한 제약은 Video-LLMs에 대한 spatial 및 temporal resolutions 간의 trade-off로 이어집니다. 예를 들어, long-sequence 비디오(즉, 큰 )를 modeling하기 위해 각 video frame의 크기가 줄어들고(즉, 작은 ), 이는 frame당 더 적은 video tokens를 초래합니다. 이전 연구들에서는 각 frame을 단 하나의 video token으로만 represents하기도 했습니다(즉, ). spatial dimension에서의 compression은 fine-grained spatial details의 손실을 의미하므로, 이는 reasoning temporal localization 및 dense video captioning과 같이 각 frame의 fine-grained information을 필요로 하는 time-sensitive downstream tasks에서 Video-LLMs가 뛰어난 성능을 발휘하는 것을 방해합니다. 최근에 LITA는 이 trade-off를 위해 Slow-Fast tokens를 도입했으며, Slow 및 Fast tokens는 각각 spatial 및 time resolution을 선호합니다.

이 논문에서 우리는 보다 abstract level에서 고도로 압축된 video tokens를 보강하는 orthogonal direction을 탐색합니다. 우리는 video frames 내의 sparse하지만 정보가 풍부한 grounded objects (GO)를 활용하는 것이 TSV tasks의 performance를 향상시킬 수 있다고 가정합니다. 우리는 두 가지 질문에 답하고자 합니다: (1) Video-LLMs에 GO information을 제공하는 것이 TSV를 향상시킬 수 있는가? (2) 어느 수준의 GO information이 필요한가? 그러나 실제 환경에서의 Object grounding은 class label 및 bounding box location space에 약간의 noise를 포함할 수 있습니다. 우리의 가설에서 이 요소를 분리하기 위해, 우리는 object entity annotations(예: object class, bounding box location 등)을 사용할 수 있는 ActivityNet-RTL evaluation set의 subset을 구성했으며, 이를 ActivityNet-RTL-GO라고 명명했습니다. 이 dataset은 비디오당 평균 10.43개의 objects와 frame당 평균 2.41개의 objects를 sparsely하게 labels하며, object labels은 평균 4.45개의 frames에 존재합니다. 이 섹션에서 우리는 TSV를 위한 state-of-the-art Video-LLM인 LITA를 사용하여 이러한 질문들에 대한 empirical studies를 수행하고, test time에 제공되는 다양한 수준의 GO information을 사용하여 ActivityNet-RTL-GO에서의 temporal localization performance를 평가합니다.

4.1. Augmenting Video-LLMs with GO information

비디오에서의 Object grounding은 object category(Class), objects가 보이는 time-stamp(Time), 그리고 frames 내의 spatial locations(Bbox)을 포함한 여러 차원을 포함합니다. GO를 Video-LLMs에 통합하기 위해, 우리는 이 정보를 inference 중 text instructions 앞에 추가되는 additional context로서 text descriptions으로 encode합니다. 우리는 어떤 수준이 temporal understanding에 필수적인지 검토하기 위해 다양한 granularity의 GO information을 Video-LLMs에 별개의 variants로 제공합니다, 즉,

  • Class: “이 비디오의 객체는 다음과 같습니다: man, window, ...”.
  • Class+Time: “각 객체는 <timestamp, class label> 형식으로 timestamp와 class label이 제공됩니다. 객체는 다음과 같습니다: <91.2 second, man>, ...”.
  • Class+Time+Bbox: “각 객체 bounding box는 <timestamp, (bbox coordinates), class label> 형식으로 timestamp와 class label이 제공됩니다. 객체는 다음과 같습니다: <91.2 second, (0.0001, 0.1715, 0.0806, 0.3784), man>, ...”.

표 1은 이러한 variants를 사용한 LITA의 temporal localization performance를 제시하며, 첫 번째 행은 어떠한 GO information도 제공되지 않은 baseline performance를 보여줍니다. mIOU는 predicted 시간 세그먼트와 ground truth 시간 세그먼트 간의 평균 intersection-over-union (IOU)를 계산하며, P@0.5는 0.5 IOU threshold에서의 precision을 측정합니다. GO information을 도입했을 때, 결과는 baseline에 비해 눈에 띄는 향상을 보여주며, 더 fine-grained한 GO information이 제공될수록 더 큰 이득이 관찰됩니다. 이는 video tokens를 GO로 보강하는 것이 Video-LLMs의 TSV 능력을 향상시킬 수 있다는 가설을 뒷받침합니다. 그러나 test time에 완벽한 object grounding을 가정하는 것은 비현실적입니다.

4.2. Analysis of Object Grounding Perturbations

text instructions를 사용한 GO information의 robustness를 평가하기 위해, 우리는 ground truth class labels과 bounding box locations에 noise를 도입하여 object grounding에서의 perturbations을 시뮬레이션합니다. 교란된 GO information은 이전 섹션의 Class+Time+Bbox 접근 방식에 추가됩니다. object grounding은 샘플링된 video frames에서 object detection을 실행하여 얻어지므로, inference 중 time annotation은 항상 정확하다는 점에 유의해야 합니다. 아래에서 고려된 perturbations을 자세히 설명합니다.

Class flipping. 이 operation은 비디오당 objects의 x%를 무작위로 선택하고, 그들의 class labels을 dataset에서 무작위로 선택된 labels로 교체하여, object detection에서의 classification errors를 시뮬레이션합니다. 우리는 세 개의 random seeds에 대한 average performance를 보고합니다.

Bounding box shift. object localization error는 ground truth bounding box positions을 이미지의 높이와 너비의 백분율만큼 이동시켜 시뮬레이션되며, object detection에서의 noise에 대한 제어를 가능하게 합니다.

표 2와 표 3은 GO information을 단순히 text로 제공하는 것이 object grounding의 perturbations에 robust하지 않다는 것을 보여줍니다. performance는 더 높은 noise levels에서 저하됩니다. 이 접근법의 또 다른 부작용은 object를 representing하기 위한 token length의 비효율성입니다. 예를 들어, Class+Time+Bbox는 object당 대략 42개의 additional tokens를 필요로 하며, total overhead는 objects의 수에 비례하여 증가합니다.

이는 GO information을 represent하는 가장 효과적이고 일반화 가능한 방법이 무엇인지에 대한 질문을 제기합니다. 그래야 input sequence를 Video-LLMs에 관리 가능한 길이 내에서 유지하면서 visual domains에 걸쳐 일반화할 수 있습니다. 예비 실험에서 영감을 받아, 우리는 N개의 objects에 대한 GO information을 더 abstract level에서 representing하는 object tokens $o_{1...N}$의 개념을 도입합니다. 이것은 video tokens와 text tokens를 supplement하기 위한 Video-LLMs의 새로운 유형의 input token입니다. GO tokenization의 세부 사항은 다음 섹션에서 제시됩니다.

 

 

정리노트 (AI 연구자용)

1. Hypothesis Formulation

  • Problem Context: Video-LLMs는 temporal 정보를 보존하기 위해 spatial 정보를 압축하며, 이는 fine-grained한 시각적 단서가 중요한 TSV tasks에 불리하게 작용합니다.
  • Core Hypothesis: 고도로 압축된 video tokens를 sparse하지만 정보가 풍부한 Grounded Object (GO) 정보로 보강하면, 손실된 spatial detail을 보완하여 TSV 성능을 향상시킬 수 있다.

2. Preliminary Experiments & Findings

이 섹션의 핵심은 GO 정보의 가치를 증명하고, 동시에 가장 간단한 주입 방식(텍스트)의 한계를 드러내기 위한 두 단계의 체계적인 실험을 설계한 것입니다.

  • Experiment 1: Proving the Value of GO Information
    • Setup: ground truth GO 정보(Class, Time, Bbox)를 다양한 granularity의 text descriptions으로 변환하여, SOTA 모델인 LITA의 prompt에 주입. ActivityNet-RTL-GO라는 ground truth annotation이 포함된 dataset을 구축하여 평가.
    • Finding 1: GO 정보를 추가했을 때 baseline 대비 temporal localization 성능(mIOU, P@0.5)이 일관되게 향상됨.
    • Finding 2: 더 fine-grained한 정보(Class+Time+Bbox)를 제공할수록 성능 향상 폭이 커짐.
    • Conclusion: Hypothesis가 검증됨. GO 정보는 TSV 성능 향상에 유의미한 기여를 함.
  • Experiment 2: Analyzing the Weaknesses of Text-based Injection
    • Setup: GO 정보의 robustness와 efficiency를 평가. (1) Class flipping과 Bbox shift를 통해 object detection 오류를 모사하는 perturbations(noise)를 주입. (2) object당 token 오버헤드를 측정.
    • Finding 1 (Lack of Robustness): noise level이 높아질수록 performance가 급격히 저하됨. 이는 text 방식이 실제 object detector의 불완전성에 매우 취약함을 시사.
    • Finding 2 (Inefficiency): Class+Time+Bbox 방식은 object당 약 42개의 additional tokens를 요구하여, overhead가 크고 확장성이 떨어짐.

3. Motivation for the Proposed Solution

  • Synthesis: 예비 실험을 통해 GO 정보의 원칙적 유효성은 입증했으나, text를 통한 단순 구현 방식의 기술적 한계(취약성, 비효율성) 또한 명확히 확인함.
  • Core Question Raised: GO 정보를 어떻게 하면 (1)robust하고, (2)efficient하며, (3)generalizable하게 representation할 수 있는가?
  • Proposed Direction: 이 질문에 대한 해답으로, text가 아닌 더 abstract level에서 GO 정보를 표현하는 새로운 input token 유형인 **object tokens ()**의 필요성을 제시. 이는 video tokens와 text tokens를 보완하는 제3의 input으로, 다음 장에서 소개될 GO-Tokenizer의 개발 당위성을 마련함.

쉬운 설명

이 섹션은 "왜 우리 연구가 필요한가?"를 똑똑한 실험을 통해 단계적으로 증명하는 과정입니다.

궁금증: "AI에게 영상 속 '핵심 물체' 정보를 알려주면, 시간을 더 잘 맞출 수 있을까?" 🤔

1단계: 아이디어가 진짜 효과 있는지 확인하기

  • 실험 방법: 똑똑한 비디오 AI(LITA)에게 흐릿한 CCTV 영상(압축된 비디오 토큰)을 보여주면서, 추가로 **'정답 쪽지'**를 줬습니다. 쪽지에는 영상 속 핵심 물체 정보가 정확히 적혀있었습니다.
    • 쪽지 A: "영상에 '사람', '자동차' 나옴" (Class)
    • 쪽지 B: "영상 10초에 '사람', 25초에 '자동차' 나옴" (Class+Time)
    • 쪽지 C: "영상 10초에 '사람'이 왼쪽 위에, 25초에 '자동차'가 중앙에 나옴" (Class+Time+Bbox)
  • 결과: 쪽지를 받은 AI가 그냥 영상을 본 AI보다 훨씬 더 시간 관련 질문을 잘 맞췄습니다. 특히 가장 상세한 C 쪽지의 효과가 가장 좋았습니다.
  • 1차 결론: "네, 효과 있습니다! 객체 정보를 주니 AI가 똑똑해지네요."

2단계: '정답 쪽지' 방식의 문제점 파헤치기

  • 하지만 현실에서 저렇게 완벽한 '정답 쪽지'는 없습니다. object detector는 실수를 하니까요. 그래서 쪽지에 일부러 **'가짜 정보(noise)'**를 섞어서 실험해봤습니다.
  • 실험 방법:
    1. "사람"을 "고양이"라고 잘못 적어서 줘보기 (Class flipping)
    2. "왼쪽 위"를 "오른쪽 아래"라고 엉뚱한 위치를 알려줘보기 (Bbox shift)
  • 결과 1 (신뢰도 문제): 가짜 정보가 조금만 섞여도 AI가 크게 헷갈려하며 성능이 뚝 떨어졌습니다. 글자로 알려주는 방식은 신뢰성이 낮고 불안정했습니다.
  • 결과 2 (효율성 문제): 그리고 상세한 C 쪽지는 너무 길어서 AI가 읽는 데 시간이 오래 걸렸습니다. 비효율적이었죠.

최종 결론 및 진짜 아이디어 제시

"좋아, '객체 정보'가 유용한 건 알겠어. 그런데 그걸 글로 적은 쪽지로 주는 건 별로 좋은 방법이 아니군. 불안정하고 비효율적이야."

"그렇다면... 글자 쪽지 대신, 객체 정보를 한 번에 딱 알 수 있는 **'특수 스마트 아이콘'(object token)**을 만들어서 AI에게 주면 어떨까? 이 아이콘은 텍스트보다 훨씬 더 효율적이고 정확할 거야!"

이것이 바로 이 논문이 GO-Tokenizer라는 새로운 기술을 발명하게 된 동기입니다.

 

 

더보기

 

  • 원칙 증명: 일단 '완벽한 정답 쪽지'(ground truth)를 줘보니, AI(TSV 모델)의 성능이 올라갔습니다.
    • (결론: 아, object 정보는 확실히 도움이 되는구나!)
  • 현실성 테스트: 그런데 실제 object detector는 종종 실수를 하니까('가짜 정보'), 일부러 '가짜 정보가 섞인 쪽지'를 줘봤습니다.
    • (결론: 그랬더니 성능이 뚝 떨어지네!)
  • 문제 제기"도움이 되는 건 맞는데, 이렇게 불안정해서야 현실에서 써먹을 수가 없잖아!" 라는 문제에 부딪힌 것이죠.
  • 해결책 제시: 바로 그 문제를 해결하기 위해, 불안정한 글자 쪽지(text) 대신, 훨씬 더 안정적이고 효율적인 **'스마트 아이콘'(object token)**으로 정보를 주자고 제안하는 것입니다.

 

 

5. Grounded Object Tokenization

더보기

GO information을 Video-LLMs에 더 효율적이고 일반화 가능한 representation으로 encode하기 위해, 우리는 GO information을 object tokens으로 abstract하는 lightweight add-on module로서 GO-Tokenizer를 제안합니다. 우리는 GO-Tokenizer가 보강된 Video-LLM architecture를 그림 2의 왼쪽에 설명된 바와 같이 GO-Video라고 지칭합니다.


5.1. Architecture

i번째 video frame에서 샘플링된 이미지 $V_i \in \mathbb{R}^{H \times W \times 3}$와 이미지 내 object와 연관된 bounding box coordinate 가 주어지면, GO-Tokenizer는 object token $o_j \in \mathbb{R}^{d_t}$를 extracts합니다. 이 token은 object semantics, bounding box locations, time information을 single token 안에 포함합니다. 더 구체적으로, 이미지 $V_i \in \mathbb{R}^{H \times W \times 3}$가 주어지면, 우리는 frame-level feature map을 extract하기 위해 pre-trained visual encoder 로서 YOLO-World backbone을 활용합니다. YOLO-World가 선택된 이유는, 그것이 lightweight한 CNN-based architecture이며 CLIP의 text encoder를 사용한 region-based image-text alignment로 trained되었기 때문입니다. vanilla CLIP의 ViT와 같은 다른 feature extractors도 가능하지만, 이는 region level이 아닌 image level에서 image-text alignment를 가지므로, 성능이 저하되는 경향이 있습니다 (부록에 표시된 바와 같이). location information을 encode하기 위해, 우리는 에 의해 extract된 frame-level feature map에 patch positional embedding 를 추가합니다. 즉,

여기서 $\Phi_v(V_i), P_e \in \mathbb{R}^{N_p \times N_p \times d_v}$이고, 는 patches의 수를, 는 visual feature의 차원을 나타냅니다. training과 inference 모두에서 는 frozen 상태로 유지됩니다.

다른 domains으로 잘 transfers되는 semantically-rich object features를 얻기 위해, 우리는 주어진 object bounding box 를 사용하여 에서 ROI (region of interest)를 crop합니다. 이것은 그림 3에 설명된 바와 같이 bounding box에 의해 덮인 patches 내의 모든 patches에 대해 평균을 내어 object ROI feature 를 extracts하는 ROI-Patch-Pool(·)로 implemented됩니다. ROI-Patch-Pool operation은 다음과 같이 공식화될 수 있습니다.

우리는 feature map에서 pooling operation을 수행하기 때문에, architecture는 bounding box predictions의 사소한 오류에 더 robust해집니다. 마지막으로, ROI feature를 text tokens와 동일한 latent space로 project하기 위해, linear projection layer $\mathbf{W}_o \in \mathbb{R}^{d_v \times d_t}$가 trained되고 time-aware positional embedding 가 추가됩니다. 즉,

여기서 $\mathbf{q}_i \in \mathbb{R}^{d_t}$는 i번째 frame을 represents하고 는 i번째 frame의 object를 represents하는 object token입니다. GO-Tokenizer의 전체 architecture는 그림 2의 오른쪽에 요약되어 있습니다.


5.2. Training and Inference

GO-Tokenizer의 generality를 보여주기 위해, 우리는 이를 TSV tasks에 tuned된 두 개의 state-of-the-art Video-LLMs인 LITA와 TimeChat에 integrate하여, GO-LITA와 GO-TimeChat을 만듭니다. 그들이 video tokens를 extract하기 위해 서로 다른 architectures(ViT 및 Q-Former 등)를 사용하지만, GO-Tokenizer는 다양한 Video-LLMs에 적용 가능한 versatile module로 남아 있습니다.

각 GO-Video model(GO-LITA/GO-TimeChat)에 대해, model은 원래 설정에 따라 video tokens와 text tokens를 extracts하는 한편, GO-Tokenizer로 object tokens를 extracting합니다. LLM은 세 가지 유형의 input tokens의 concatenation을 사용합니다.

여기서 는 sequence concatenation을 나타냅니다. 우리는 Video-LLM과 GO-Tokenizer(trainable parameters: )를 그들의 원래 설정에 있는 language modeling loss를 사용하여 end-to-end 방식으로 optimize합니다. LLM component에는 Low-rank adaption이 적용되어, 대부분의 parameters는 fixed 상태로 유지됩니다. 각 model에 대한 상세한 settings는 실험 섹션에서 상세히 설명됩니다.

inference 중에는, 비디오에서 균일하게 샘플링된 sparse frames에 off-the-shelf object detector를 적용하여 GO information을 on-the-fly로 extract합니다. noisy predictions을 줄이기 위해, 우리는 confidence threshold 를 설정하고 그 threshold를 넘는 top-k object predictions만 유지합니다. 따라서, 개의 샘플링된 frames를 가진 비디오에 대해, object tokens의 수  에 의해 bounded by 됩니다. 특별히 언급되지 않는 한, 이 논문에서는  그리고 로 설정합니다. extracted된 GO information은 그 후 GO-Tokenizer에 의해 object tokens으로 encoded됩니다.

 

 

정리노트 (AI 연구자용)

1. Objective & Core Idea

  • Objective: 기존 text 기반 GO 정보 주입 방식의 비효율성(high token cost)과 불안정성(low robustness to noise)을 해결.
  • Core Idea: GO 정보(object semantics, spatial location, temporal location)를 abstract하여 compact한 단일 object token으로 encode하는 lightweight add-on module인 GO-Tokenizer를 제안.

2. GO-Tokenizer Architecture

GO-Tokenizer는 (Frame, Bbox) -> Object Token으로 변환하는 파이프라인입니다.

  1. Frame Feature Extraction:
    • Pre-trained된 **YOLO-World**의 backbone을 frozen 상태의 visual encoder()로 사용하여 frame-level feature map()을 추출.
    • Key Design Choice: Image-level alignment를 사용하는 ViT와 달리, YOLO-World는 **region-based image-text alignment**로 학습되어 object-level semantics 추출에 더 적합함.
  2. Spatial & Temporal Encoding:
    • Spatial: Feature map 에 학습 가능한 patch positional embedding ()을 더하여 명시적인 위치 정보를 주입.
    • Temporal: 최종 token 생성 단계에서 학습 가능한 time-aware positional embedding ()을 더하여 frame의 순서(시간) 정보를 주입.
  3. Object Feature Aggregation:
    • Bounding box() 내의 모든 patch features를 **ROI-Patch-Pool**을 통해 평균냄으로써 단일 object ROI feature()를 생성.
    • Key Advantage: 이 pooling 과정은 bounding box 위치의 미세한 오류에 대한 robustness를 확보하는 핵심적인 역할을 함.
  4. Final Token Projection:
    • ROI feature 를 학습 가능한 linear projection layer()를 통해 LLM의 latent space 차원으로 변환.
    • 최종 object token 는 객체의 의미, 공간, 시간 정보를 모두 함축.

3. Training & Inference Strategy

  • Input to LLM: LLM은 video tokens, object tokens, text tokens 세 가지 시퀀스가 concatenation된 형태()를 입력으로 받음.
  • Training:
    • GO-Tokenizer의 파라미터()와 Video-LLM을 end-to-end로 학습.
    • LLM 자체는 frozen하고 **Low-rank adaption (LoRA)**을 적용하여 파라미터 효율적인 tuning을 수행.
  • Inference:
    • Sparse하게 샘플링된 frames()에 off-the-shelf object detector를 on-the-fly로 적용.
    • Noise 감소를 위해 confidence threshold와 top-k() 필터링을 거쳐 GO 정보를 추출하고, 이를 GO-Tokenizer에 통과시켜 object tokens을 생성.

쉬운 설명

이전 섹션에서 '글자로 쓴 쪽지' 방식이 불안정하고 비효율적이라는 문제점을 발견했죠. 이 섹션에서는 그 문제를 해결하기 위한 첨단 기술인 GO-Tokenizer를 소개합니다. GO-Tokenizer는 비디오 속 객체마다 고유한 **'스마트 디지털 ID 카드'(object token)**를 발급해주는 기계라고 생각하면 쉽습니다. 💳

## '스마트 ID 카드' 발급 과정 (Architecture)

  1. STEP 1: 특수 사진 촬영
    • 먼저, 비디오의 한 장면을 그냥 카메라가 아닌, **사물의 숨은 속성까지 찍어내는 특수 카메라(YOLO-World encoder)**로 촬영합니다. 결과물은 feature map이라는 일종의 '성분 분석도'처럼 나옵니다.
  2. STEP 2: GPS 정보 추가
    • 촬영된 '성분 분석도' 위에 **정밀한 GPS 좌표(patch positional embedding)**를 입힙니다. 이제 사진 속 모든 위치 정보가 명확해집니다.
  3. STEP 3: 대상 객체만 추출
    • "이 사람에 대한 ID 카드를 만들어줘!" 라는 명령(bounding box)을 받으면, 기계는 GPS 정보가 입혀진 성분 분석도에서 정확히 그 사람에 해당하는 부분만 깔끔하게 잘라냅니다 (ROI-Patch-Pool).
    • 핵심 기술: 이 때 단순히 잘라내는 게 아니라 그 영역의 정보를 '평균'내기 때문에, 명령을 내린 빨간 박스가 살짝 흔들려도 결과물은 거의 흔들림 없이 안정적입니다. 글자 쪽지보다 훨씬 robust한 비결이죠!
  4. STEP 4: 최종 ID 카드 발급
    • 추출된 객체의 핵심 정보는 AI가 바로 알아볼 수 있는 언어(latent space)로 **번역(linear projection)**됩니다.
    • 마지막으로 "이 객체는 영상 시작 후 5초 시점에 등장함"이라는 **시간 도장(time-aware embedding)**을 꽝 찍습니다.
    • 이렇게 [무엇인지(What) + 어디 있는지(Where) + 언제 나왔는지(When)] 정보가 모두 압축된 하나의 object token이 완성됩니다.

## 이 ID 카드는 어떻게 사용될까? (학습 및 실제 사용)

  • AI의 업무 환경: 이제 AI(LLM)는 일을 할 때, (1)흐릿한 전체 영상 요약본(video tokens), (2)사용자의 질문(text tokens), 그리고 (3)방금 발급된 **'스마트 ID 카드' 뭉치(object tokens)**를 모두 참고해서 훨씬 더 정확하게 상황을 파악합니다.
  • 실제 사용 시: 새로운 영상이 들어오면, object detector라는 별도의 AI가 실시간으로 객체들을 찾아내고, GO-Tokenizer가 즉석에서 ID 카드들을 착착 발급해주는 방식으로 모든 것이 자동 처리됩니다.

 

 

 

 

 

더보기
  1. 욜로 인코더를 통해 이미지를 피쳐맵으로 변환
  2. 정답 bbox를 통해 ROI-Patch-Pool 방법으로 해당 객체가 있는 피쳐맵 자르기
  3. 그걸 전부 평균내서 단 하나의 백터로 만듬
  4. 그걸 리니어 프로젝션 시켜서 llm이 이해할 수 있는 형태로 차원이동
  5. 시간 위치 임베딩을 벡터화시켜서 더해줌
  6. 그럼 시간 정보 있고, 위치 정보 있고, 누군지까지 나옴

 

 

전체 비디오 처리 흐름 (사용자께서 정리한 내용을 확장)

전제: 비디오 전체를 다 처리하는 것은 비효율적이므로, 논문에서는 일정 간격으로 프레임을 샘플링합니다. (예: 10초짜리 비디오에서 1초, 4초, 7초 시점의 프레임만 뽑아 사용, 논문에서는 F=8 즉 8개 프레임 샘플링)

이제 비디오 전체에 대한 처리 과정입니다:

  1. For each sampled frame in video: (샘플링된 각 프레임에 대하여 반복)
    • 1단계: Feature Map 생성
      • 해당 프레임 이미지를 YOLO Encoder에 통과시켜 Feature Map을 만듭니다.
    • 2단계: 객체 탐지 및 Bbox 확보
      • 별도의 Object Detector (YOLO-World 등)를 돌려 해당 프레임에 있는 객체들과 그 위치(Bbox)들을 찾아냅니다. (예: 1초 프레임에서  Bbox, 그릇 Bbox 탐지)
    • 3단계: 객체별 토큰 생성
      • For each detected object in frame: (해당 프레임에서 탐지된 각 객체에 대하여 반복)
        • 3-1. Feature 추출: 정답/예측 Bbox를 이용해 Feature Map의 해당 영역에서 ROI-Patch-Pool로 특징들을 긁어모읍니다.
        • 3-2. 평균 벡터 생성: 긁어모은 특징들을 평균내어 하나의 대표 벡터(h_j)를 만듭니다.
        • 3-3. LLM 호환 변환: Linear Projection을 통해 LLM이 이해할 수 있는 차원으로 변환합니다.
        • 3-4. 시간 정보 추가: 현재 프레임의 시간(예: '1초')에 해당하는 시간 임베딩 벡터(q_i)를 더해줍니다.
        • 🎉 최종 Object Token 생성! 🎉

결과:

  • 1초 프레임에서: O_닭_1초, O_그릇_1초 토큰이 생성됩니다.
  • 4초 프레임에서: O_닭_4초, O_양념통_4초 토큰이 생성됩니다.
  • 7초 프레임에서: O_주걱_7초, O_그릇_7초 토큰이 생성됩니다.

최종 LLM 입력 시퀀스

이렇게 각 샘플링된 프레임에서 생성된 모든 Object Token들을 한데 모아서 최종 입력 시퀀스를 만듭니다.

[전체 비디오 요약 토큰들...] [O_닭_1초, O_그릇_1초, O_닭_4초, O_양념통_4초, O_주걱_7초, O_그릇_7초...] [사용자 질문 텍스트 토큰들...]

이것이 바로 LLM이 최종적으로 읽게 되는 '문장'입니다.

사용자께서 정리하신 "프레임별로 객체마다 토큰 하나" 라는 개념이 정확히 이 모델의 핵심 작동 방식입니다. 이 방식을 통해 LLM은 비디오 전체의 흐름(비디오 요약 토큰)과 함께, 특정 시간, 특정 위치에 어떤 객체가 있었는지에 대한 구체적이고 세밀한 정보(오브젝트 토큰)를 동시에 제공받아 훨씬 더 정확한 시간 기반 추론(TSV)을 할 수 있게 되는 것입니다.