VLM : 논문리뷰 : Video ReCap: Recursive Captioning of Hour-Long Videos

논문리뷰

VLM : 논문리뷰 : Video ReCap: Recursive Captioning of Hour-Long Videos

AI바라기 2025. 9. 10. 16:19

쉬운 설명 (Simple Explanation)

이 논문의 핵심 아이디어는 긴 회의의 녹취록을 정리하는 과정과 유사합니다.

Clip Captions: 먼저 회의의 전체 음성 녹취록(raw data)을 받아 적습니다. 이는 비디오의 가장 짧은 단위인 클립에 대한 원자적 행동 설명과 같습니다. ("C가 펜을 집는다.")
Segment Descriptions: 그 다음, 이 녹취록을 보면서 5~10분 단위로 어떤 논의가 오갔는지 중간 요약을 만듭니다. ("C가 분기 실적에 대해 발표하고 있다.") 이것이 바로 클립 캡션들을 입력으로 활용해 세그먼트 설명을 생성하는 단계입니다.
Video Summary: 마지막으로, 이 중간 요약들을 모두 모아 회의 전체의 핵심 결론과 내용을 담은 최종 요약본(executive summary)을 작성합니다. ("C의 주도 하에 진행된 회의에서 다음 분기 목표는 A로 설정하기로 결정했다.")

이처럼, Video ReCap은 방대한 원본 비디오를 처음부터 끝까지 한 번에 보려는 대신, 짧은 단위의 요약(clip caption)을 만들고, 이 요약본을 활용해 더 큰 단위의 요약(segment description)을 만드는 과정을 재귀적으로 반복하여 최종적으로 비디오 전체를 이해하는 효율적이고 영리한 접근 방식을 사용합니다.

용어 설명 (Terminology)

Hierarchical Video Captioning: 비디오를 클립(Clip), 세그먼트(Segment), 전체 비디오(Video Summary)와 같이 여러 시간 단위의 계층으로 나누고, 각 계층에 맞는 텍스트 캡션을 생성하는 작업.
Recursive Captioning: 낮은 계층(e.g., clip captions)에서 생성된 캡션을 높은 계층(e.g., segment descriptions)의 캡션을 생성하기 위한 입력으로 재귀적으로 활용하는 방식.
Video ReCap: 본 논문에서 제안하는 재귀적 비디오 캡셔닝 모델의 이름.
Ego4D-HCap Dataset: 논문에서 제안한 새로운 hierarchical video captioning 벤치마크. Ego4D 데이터셋에 장시간 비디오 요약 annotation을 추가하여 구축.
Curriculum Learning: 모델을 쉬운 작업부터 점차 어려운 작업 순서로 학습시키는 전략. 이 논문에서는 짧은 'clip caption'부터 시작해 'segment description', 'video summary' 순으로 학습을 진행.
Pseudo-Annotations: вручную аннотированных данных недостаточно, поэтому для расширения обучающего набора с помощью Large Language Models (LLMs) создаются искусственные (псевдо) аннотации.

Purpose of the Paper

기존 video captioning 모델들은 수 초 길이의 짧은 비디오 클립을 처리하는 데 초점이 맞춰져 있어, 실제 세계의 수 분에서 수 시간에 달하는 긴 비디오를 이해하는 데 한계가 있었음.
본 논문은 긴 비디오에 내재된 복잡한 계층적 구조(e.g., 원자적 행동 → 중간 단계의 활동 → 전체 목표)를 이해하고, 각기 다른 시간 단위(temporal granularities)에 맞는 캡션을 생성하는 hierarchical video captioning이라는 새로운 문제를 해결하고자 함.
이를 위해 입력 길이와 계층 수준이 다른 캡션을 효율적으로 생성할 수 있는 재귀적(recursive) 아키텍처를 제안하여 기존 모델의 한계를 극복하는 것을 목표로 함.

Key Contributions & Novelty

A Recursive Video-Language Model (Video ReCap)
- Contribution: 짧은 클립 캡션부터 중간 길이의 세그먼트 설명, 그리고 긴 비디오 요약에 이르기까지, 다양한 길이의 비디오 입력을 처리하고 여러 계층의 캡션을 생성할 수 있는 모델을 제안.
- Novelty: 하위 계층에서 생성된 캡션(text)과 희소하게 샘플링된 비디오 특징(vision)을 상위 계층 캡션 생성의 입력으로 함께 사용하는 재귀적 구조를 채택. 이를 통해 정보의 시너지를 극대화하고, 장시간 비디오를 효율적으로 처리.
Ego4D-HCap Dataset
- Contribution: 장시간(최대 2시간) egocentric 비디오에 대해 수동으로 수집된 8,267개의 요약(summaries)을 포함하는 새로운 계층적 캡셔닝 데이터셋을 구축.
- Novelty: 기존 데이터셋에는 없었던 '장시간 비디오 요약' annotation을 제공함으로써, hierarchical video understanding 연구를 위한 귀중한 리소스를 제공.
Hierarchical Curriculum Learning & LLM-based Supervision
- Contribution: 'Clip → Segment → Summary' 순으로 모델을 점진적으로 학습시키는 curriculum learning 전략과, 부족한 학습 데이터를 보충하기 위해 LLM을 활용하여 pseudo-summary 데이터를 생성하는 방식을 도입.
- Novelty: 인간의 행동 인식 과정(원자적 행동 인지 → 상위 목표 추론)에서 영감을 얻은 학습 전략을 적용하여, 모델이 비디오의 계층적 구조를 효과적으로 학습하도록 유도. 또한, LLM을 학습 데이터 증강에 활용하여 성능을 크게 향상시킴.

Experimental Highlights

Datasets & Metrics:
- 주요 실험은 새로 구축한 Ego4D-HCap dataset에서 수행.
- 성능 평가는 CIDEr, ROUGE-L, METEOR 등 표준 captioning metrics를 사용.
State-of-the-Art Performance:
- Video ReCap은 모든 계층(clip, segment, summary)에서 LaViLa와 같은 강력한 baseline 모델들을 큰 차이로 능가.
- 특히, 긴 비디오를 다루는 segment description과 video summary 생성에서 기존 모델 대비 CIDEr 점수가 각각 +20.97%, +24.50% 이상 향상되며 압도적인 성능을 보임.
Ablation Study를 통한 핵심 아이디어 검증:
- Hierarchical Curriculum Learning: 이 학습 전략을 사용하지 않을 경우, video summary 생성 성능이 CIDEr 기준 -19.44% 폭락하여, 이 전략의 필수성을 입증.
- Input Modalities: 비디오(vision)와 이전 계층의 캡션(text)을 함께 사용할 때가 한쪽만 사용할 때보다 성능이 월등히 좋았으며, 이는 재귀적 구조의 효과를 증명.
- LLM Supervision: LLM이 생성한 pseudo-annotations를 학습에 추가했을 때, segment description과 video summary 성능이 각각 +5.14%, +1.28% (CIDEr) 추가적으로 향상됨.
Downstream Task에서의 효과성:
- Video ReCap으로 생성한 계층적 캡션들을 장시간 Video Question Answering 벤치마크인 EgoSchema에 적용했을 때, 이전 SOTA 모델(InternVideo)을 **18.13%**라는 큰 차이로 뛰어넘는 새로운 SOTA를 달성.

Limitations and Future Work

Limitations:
- Clip caption이나 segment description 생성은 비교적 성공적이지만, 비디오의 전체적인 내용과 핵심 이벤트를 포괄해야 하는 video summary 생성은 여전히 도전적인 과제임.
- 실제 생성된 요약 예시(Figure 7(c))에서 일부 중요 이벤트가 누락되거나, 같은 단어/구가 반복되는 등 개선의 여지가 있음을 인정함.
Future Work:
- 연구의 성공을 바탕으로 다음과 같은 유망한 방향을 제시함:
  - Real-time caption generation: 실시간으로 비디오 캡션을 생성하는 기술.
  - Interactive video understanding: 사용자와 상호작용하며 비디오를 이해하는 시스템.
  - Video-based dialoguing: 비디오 콘텐츠에 기반한 대화 시스템 구축.

Overall Summary

Video ReCap 논문은 기존의 짧은 비디오 클립 처리의 한계를 넘어, 수 시간 길이의 장시간 비디오를 이해하기 위한 hierarchical and recursive captioning이라는 새로운 프레임워크를 제안한다. 낮은 계층의 캡션을 높은 계층의 입력으로 재활용하는 독창적인 재귀 구조와 curriculum learning을 통해 비디오의 복잡한 계층 구조를 효과적으로 학습했다. 새로 구축한 Ego4D-HCap 데이터셋에서 SOTA 성능을 달성했을 뿐만 아니라, 생성된 캡션이 VideoQA와 같은 downstream task에서도 뛰어난 성능을 보여줌으로써, 장시간 비디오 이해 연구 분야에 중요한 기여를 한 논문이다.

Abstract

대부분의 video captioning models은 몇 초 분량의 짧은 video clips을 process하도록 설계되었으며, low-level visual concepts(예: 사물, 장면, atomic actions)을 설명하는 text를 output합니다.

하지만 대부분의 실제 영상은 몇 분에서 몇 시간 동안 지속되며, 다양한 temporal granularities에 걸친 복잡한 hierarchical structure를 가집니다.

우리는 1초에서 2시간에 이르는 매우 다양한 길이의 video inputs을 process하고, 여러 hierarchy levels에서 video captions을 output할 수 있는 recursive video captioning model인 Video ReCap을 제안합니다.

이 recursive video-language architecture는 서로 다른 video hierarchies 간의 synergy를 활용하여 한 시간 길이의 영상도 효율적으로 process할 수 있습니다.

우리는 atomic actions을 설명하는 clip-level captions에서 시작하여 segment-level descriptions에 초점을 맞추고, 마지막으로 한 시간 길이의 영상에 대한 summaries를 생성하는 방식으로 영상의 hierarchical structure를 학습하기 위해 curriculum learning training scheme을 활용합니다.

또한, 8,267개의 수동으로 수집된 long-range video summaries로 Ego4D를 보강하여 Ego4D-HCap dataset을 소개합니다.

우리의 recursive model은 다양한 hierarchy levels에서 유연하게 captions을 generate할 수 있으며, EgoSchema에 대한 VideoQA와 같은 다른 복잡한 video understanding tasks에도 유용합니다.

Data, code, models은 https://sites.google.com/view/vidrecap 에서 공개적으로 이용할 수 있습니다.

1. Introduction

현실 세계의 많은 영상은 다양한 temporal granularities(예: atomic actions, 중간 활동 단계, 장기 목표 등)에 걸쳐 있는 인간 행동을 포괄하는 hierarchical information structure를 보입니다. 그러나 대부분의 최신 video captioning models은 hierarchical video structure를 무시하고, 일반적으로 5-15초로 제한되는 짧은 video inputs에 특화되어 있습니다. 이러한 단기 captioning 방법들은 atomic actions과 객체 및 장면과 같은 low-level visual details을 포착합니다. 더욱이, 이러한 models은 긴 영상에 적용할 때 엄청난 자원을 소모하는 경우가 많아, 장기간(예: 몇 시간)에 걸쳐 발생하는 인간 활동을 이해하는 데는 부적합합니다.

이 논문에서 우리는 긴 video input(예: 몇 분에서 몇 시간)이 주어졌을 때 여러 hierarchy levels에서 captions을 generating해야 하는 hierarchical video captioning task를 연구합니다. 심리학 연구와 사회 인지 이론들은 인간 행동이 가장 낮은 수준의 atomic actions, 중간 수준의 중간 단계, 그리고 hierarchy의 가장 높은 수준에 있는 전반적인 목표/의도로 구성된 고유한 hierarchical structures를 가지고 있음을 보여주었습니다. 이러한 선행 연구에서 영감을 받아, 우리도 video captioning task를 위해 세 가지 수준의 hierarchies를 가정합니다. 가장 세분화된 수준에서, video captions은 개별 프레임이나 몇 초 분량의 짧은 video clips을 묘사하며, 객체, 장면, atomic actions과 같은 low-level visual elements에 초점을 맞춥니다. hierarchy를 올라갈수록, 단기 captions은 더 넓은 활동 내의 중간 단계(예: 요리 레시피의 한 단계)나 더 긴 스토리라인 내의 짧은 세그먼트 또는 시퀀스(예: 영화 속 몇 분 길이의 장면)와 같이 짧은 순간을 넘어서는 활동들을 포괄하는 중간 길이의 video segment descriptions으로 합쳐집니다. 마지막으로, hierarchy의 최상위 수준은 영상 속의 장기적인 인간 목표, 사건과 인물 간의 복잡한 관계, 그리고 영상의 전반적인 목적을 포함하며, 이는 long-range video summaries를 통해 포착될 수 있습니다(그림 1 참조).

Hierarchical video captioning의 task는 몇 가지 기술적 과제를 제기합니다. 첫째, 몇 초에서 몇 시간에 이르는 매우 다른 input 길이를 처리할 수 있는 models이 필요합니다. 이는 최대 몇 분의 고정된 영상 길이를 위해 설계된 대부분의 기존 방법들과 대조됩니다. 둘째, 장편 영상은 매우 중복적이어서, model이 중요하지 않은 visual cues는 버리고 필수적인 정보만을 집계해야 합니다. 셋째, 또 다른 중요한 과제는 긴 영상의 hierarchical structure를 이해하고 서로 다른 hierarchies 간의 synergy를 활용하는 것입니다.

이러한 기술적 과제를 해결하기 위해, 우리는 input 시간 범위가 최대 1,000배까지 차이 날 수 있는(몇 초에서 몇 시간까지) 매우 다른 길이의 영상을 processing하고 여러 hierarchy levels에서 captions을 generating할 수 있는 model인 Video ReCap을 제안합니다. 우리 model은 hierarchical video captioning 능력을 강화하는 세 가지 핵심 속성을 포함합니다. 첫째, Video ReCap은 recursive video-language architecture를 채택하여, 서로 다른 hierarchical tiers에 걸쳐 captions을 generate할 수 있습니다. 첫 번째 수준에서 model은 일반적으로 몇 초 길이의 짧은 video clips에서 추출된 features로부터 captions을 generate합니다. hierarchy를 올라갈수록, model은 드문드문 샘플링된 video features와 이전 hierarchy level에서 generated된 captions을 inputs으로 사용하여 현재 hierarchy level의 video captions을 생성합니다. 이러한 recursive design은 서로 다른 video hierarchies 간의 synergy를 효과적으로 활용하고, 매우 긴 video inputs(예: 최대 2시간)을 효율적으로 처리할 수 있게 합니다. 또한, 이는 우리 model이 최신 LLMs의 강력한 reasoning 능력을 활용하도록 돕습니다. 둘째, 우리는 짧은 video clip captions에 대한 training으로 시작하여 점진적으로 더 높은 수준의 hierarchies로부터의 데이터, 즉 중간 길이의 segment descriptions과 long-range video summaries를 통합하는 curriculum learning scheme을 구현합니다. 이러한 hierarchical curriculum learning 전략은 model이 짧은 low-level captions에서 긴 high-level video summaries에 이르기까지 영상의 hierarchical structure를 점진적으로 학습할 수 있게 합니다. 셋째, 수동으로 주석이 달린 hierarchical captioning 데이터의 제한이라는 과제를 완화하기 위해, 우리는 LLMs을 사용하여 다양한 시간 길이에 걸친 pseudo-summary data를 generate하고, 이 pseudo-annotations을 추가 데이터로 사용하여 우리 model을 train합니다.

Video ReCap을 평가하기 위해, 우리는 여러 hierarchical levels에서 수동으로 주석이 달린 captions을 포함하며 최대 몇 시간까지 지속되는 장편 자기중심적 영상이 포함된 새로운 hierarchical video captioning benchmark인 Ego4D-HCap dataset을 소개합니다. Ego4D-HCap benchmark를 구축하기 위해, 우리는 공개적으로 이용 가능한 가장 큰 장편 자기중심적 영상 dataset인 Ego4D를 활용합니다. 이는 타임스탬프가 있는 captions과 최대 5분까지의 video-segment summaries를 제공합니다. 그런 다음 우리는 Ego4D 영상의 일부를 수동으로 주석 처리한 8,267개의 long-range video summaries로 보강했으며, 각 영상은 최대 2시간에 이릅니다. 결과적으로, Ego4D-HCap은 짧은 clips에 대한 captions, 몇 분 길이의 video segments에 대한 중간 descriptions, 그리고 긴 video sequences에 대한 video-level summaries를 포함하여, 편집되지 않은 긴 자기중심적 영상에 대한 세 가지 수준의 hierarchical captions을 갖춘 풍부한 자원이 됩니다.

우리의 결과는 Video ReCap이 세 가지 temporal hierarchies 모두에서 강력한 이전 video captioning baselines을 큰 차이로 능가함을 보여줍니다. 우리는 또한 Video ReCap이 EgoSchema에서의 long-form video question-answering과 같은 다른 복잡한 video understanding tasks에도 효과적으로 사용될 수 있음을 보여주며, 우리의 접근 방식은 이전 최고 방법을 상당한 차이(+18.13%)로 능가합니다.

Introduction Section 정리노트 (For AI Researchers)

1. 문제 제기 (Problem & Motivation)

기존 video captioning models은 5-15초 내외의 짧은 영상에만 특화되어 있으며, atomic actions과 같은 low-level visual concepts 분석에 머물러 있음.
실제 세계의 영상들은 몇 분에서 몇 시간에 이르며, 명확한 hierarchical structure (atomic action → intermediate step → long-term goal)를 가지지만, 기존 models은 이를 처리하지 못하고 긴 영상에 적용 시 리소스 소모가 극심함.

2. 제안 Task: Hierarchical Video Captioning

본 논문은 긴 영상(long video input)에 대해 다층적 hierarchy의 caption을 생성하는 새로운 task를 제안함.
Hierarchy는 3단계로 구성됨:
- Level 1 (Clips): 가장 세분화된 단계로, 짧은 video clip의 low-level visual elements (객체, 장면, atomic actions)를 묘사.
- Level 2 (Segments): 중간 단계로, 요리 과정의 한 단계나 영화의 한 장면처럼 단기 captions들을 묶어 중간 길이 segment의 활동을 설명.
- Level 3 (Summaries): 최상위 단계로, 영상 전체의 장기적 목표, 인물 관계, 전체 줄거리 등 high-level 정보를 요약.

3. 핵심 제안 모델: Video ReCap

위 task를 해결하기 위해 제안된 model로, 세 가지 핵심 속성을 가짐.
(1) Recursive Video-Language Architecture:
- Video ReCap의 핵심 architecture. 하위 hierarchy에서 생성된 caption과 희소하게 샘플링된 video features를 상위 hierarchy의 input으로 재귀적으로 활용함.
- 이를 통해 hierarchies 간의 synergy를 극대화하고, 최대 2시간 길이의 영상도 효율적으로 처리하며, LLM의 reasoning 능력을 활용함.
(2) Hierarchical Curriculum Learning:
- Training 전략으로, 가장 학습하기 쉬운 clip-level captions부터 시작하여 segment-level descriptions, 최종적으로 long-range video summaries 순으로 점진적으로 학습 범위를 확장함.
- Model이 영상의 hierarchical structure를 bottom-up 방식으로 자연스럽게 학습하도록 유도.
(3) LLM 기반 데이터 증강 (Data Augmentation):
- 수동으로 제작된 hierarchical captioning data의 부족 문제를 해결하기 위해, LLM을 사용하여 다양한 길이의 pseudo-summary data를 생성하고 이를 추가 training 데이터로 활용함.

4. 검증 및 기여 (Validation & Contributions)

신규 Benchmark 제안: Ego4D-HCap Dataset
- 장편 자기중심(egocentric) 영상 dataset인 Ego4D에 8,267개의 long-range video summaries를 수동으로 추가하여, 3단계 hierarchy를 갖춘 새로운 benchmark를 구축함.
성능 검증:
- 제안된 benchmark의 모든 hierarchy에서 기존의 강력한 video captioning baselines을 큰 차이로 능가함을 보임.
- Hierarchical video captioning 외에 EgoSchema에서의 long-form video question-answering task에서도 기존 최고 성능을 +18.13%라는 큰 폭으로 경신하며, model의 높은 video understanding 능력을 입증함.

쉬운 설명 :

이 논문은 AI가 긴 동영상을 "요약"하는 방식을 한 단계 발전시키려는 연구입니다.

기존 AI의 문제점은 5~10초짜리 짧은 영상(움짤, Shorts)을 보고 "사람이 걷고 있다"고 말하는 건 잘하지만, 1시간짜리 영화를 보고 "주인공이 왜 그런 행동을 했고, 전체 줄거리가 무엇인지"를 파악하는 것은 매우 어려워한다는 점입니다. 마치 책의 한 문장은 읽을 수 있지만, 전체 단락이나 챕터의 의미는 파악하지 못하는 것과 같습니다.

이 논문의 목표는 AI가 동영상을 사람처럼 다층적으로 이해하게 만드는 것입니다.

순간적인 행동 (문장 읽기): 영상 속 짧은 순간의 행동을 파악합니다. (예: "칼로 당근을 썬다.")
중간 길이의 장면 (단락 이해): 여러 행동이 모인 한 장면의 의미를 파악합니다. (예: "요리를 위해 재료를 손질하고 있다.")
영상 전체의 줄거리 (챕터 요약): 영상 전체의 큰 그림과 목적을 요약합니다. (예: "저녁 식사를 만들기 위해 카레라이스를 요리하는 과정이다.")

**핵심 아이디어(어떻게 해결했나?)**는 "재귀적인 요약" 방식입니다. AI가 먼저 짧은 영상들에 대한 설명을 만듭니다. 그 다음, 자기가 만든 그 짧은 설명들을 참고해서 더 긴 장면에 대한 요약을 만듭니다. 마지막으로, 그 중간 길이 요약들을 모두 참고해서 영상 전체의 최종 요약을 완성하는, 마치 계단을 하나씩 밟고 올라가는 듯한 방식을 사용합니다.

결론적으로 연구팀은 이 새로운 AI 모델(Video ReCap)을 만들었고, 직접 제작한 테스트 데이터(Ego4D-HCap)에서 기존 AI들보다 훨씬 뛰어난 성능을 보였습니다. 심지어 이 능력 덕분에 긴 영상에 대해 복잡한 질문에 답하는 다른 어려운 시험에서도 최고 점수를 기록했습니다.

2. Related Works

Video Captioning Methods. Video captioning의 초기 연구들은 template-based approaches를 사용했습니다. 이후, 이러한 방법들은 CNN-RNN encoder-decoder architectures를 사용하여 구축된 deep learning 방법들로 대체되었습니다. 최근 Transformer의 도입은 수많은 transformer-based video captioning 방법들을 이끌어냈습니다. 이러한 접근 방식들이 short clip captioning에서 큰 성공을 거두었지만, 대부분은 몇 초 분량의 짧은 영상에 제한되며, 한 시간 길이의 영상에 대해 여러 temporal hierarchies에 걸친 captions을 generate하지 못합니다.

Video Captioning Datasets. 대부분의 기존 video captioning datasets은 짧은 video clip inputs(5-30초)을 포함합니다. 1-5분 길이의 더 긴 영상을 가진 여러 datasets도 존재하지만, 이 datasets의 captions은 여전히 short-term visual concepts(예: atomic actions, 객체의 존재 등)에 초점을 맞추고 있습니다. 대신, 우리 연구는 short clip captions에서 long-range video summaries에 이르는 여러 temporal granularity levels에 걸친 hierarchical video captioning을 위한 models과 datasets을 개발하는 것을 목표로 합니다. 이를 위해 우리는 Ego4D에 한 시간 길이 영상의 long-range video summaries를 추가하여 Ego4D-HCap dataset을 소개합니다. 이는 short clip captions, 중간 범위의 segment descriptions, 그리고 long-range video summaries로 구성된 hierarchical video captioning dataset으로 이어집니다.

Hierarchical Video Understanding. 최근 몇몇 datasets은 procedural videos에 대한 hierarchical activity annotations을 포함합니다. 그러나 이러한 datasets은 각 hierarchy의 활동 레이블에 대해 고정된 taxonomy를 정의하고 procedural activity recognition에 중점을 둡니다. 이와 대조적으로, 우리는 (교육용 영상에만 국한되지 않는) 실제 영상의 내재된 hierarchical structure를 포착하기 위해 여러 수준에 대해 자유 형식의 natural language descriptions을 가정합니다. 이러한 datasets 외에도, 몇몇 방법들은 몇 분 길이의 영상(예: 5분)에 대한 hierarchical feature embeddings를 학습합니다. 반면, 우리 연구는 여러 temporal scales에서 한 시간 길이의 영상에 대한 자유 형식의 hierarchical captions을 generating하는 데 중점을 둡니다.

Related Works Section 정리노트 (For AI Researchers)

이 섹션은 본 논문의 연구가 기존 연구들과 어떻게 차별화되는지를 세 가지 측면에서 명확히 설명하여 독창성을 강조합니다.

1. Video Captioning Methods 와의 차별점

기존 연구: Transformer 기반 models이 주류를 이루며 SOTA를 달성했지만, 거의 모든 연구가 수 초(few seconds) 단위의 short clip captioning에만 집중되어 있습니다.
본 논문의 접근: 기존 연구들이 다루지 못한 핵심 문제, 즉 수 시간(hour-long)에 달하는 긴 영상에 대해 다층적 temporal hierarchies (클립, 세그먼트, 전체 요약)를 포괄하는 caption을 generate하는 것에 초점을 맞춥니다.

2. Video Captioning Datasets 와의 차별점

기존 데이터셋: 대부분이 5-30초의 짧은 클립으로 구성되어 있거나, 1-5분 길이의 영상이라도 caption은 atomic actions과 같은 단기적이고 low-level 정보에 국한됩니다. Hierarchical captioning을 위한 dataset이 부재합니다.
본 논문의 기여: 이 문제를 해결하기 위해 Ego4D에 장편 영상 요약(long-range video summaries)을 직접 추가하여 Ego4D-HCap이라는 새로운 benchmark dataset을 구축했습니다. 이는 short clip captions, medium-range segment descriptions, long-range video summaries의 3단계 hierarchy를 모두 갖춘 사실상 최초의 데이터셋입니다.

3. Hierarchical Video Understanding 와의 차별점

기존 연구 (유형 A - 절차적 영상 분석): 요리나 조립 같은 procedural videos의 계층 구조를 분석하는 연구는 있었으나, 이는 미리 정의된 taxonomy(고정된 레이블 목록) 내에서 활동을 인식(activity recognition)하는 데 그칩니다.
기존 연구 (유형 B - 임베딩 학습): 5분 내외 영상의 hierarchical feature embeddings를 학습하는 연구도 있었지만, 이는 텍스트 caption을 생성하는 것이 아니라 내부적인 representation을 학습하는 데 목적이 있습니다.
본 논문의 독창성:
- 고정된 taxonomy가 아닌, 자유로운 형식의 natural language descriptions을 생성합니다.
- 절차적 영상에 국한되지 않고, 모든 종류의 일반적인 실제 영상(real-world videos)을 대상으로 합니다.
- Feature 학습을 넘어, 수 시간 길이의 영상에 대해 여러 temporal scales에 걸친 hierarchical captions을 generate하는 것을 최종 목표로 합니다.

쉬운 설명 :

이 부분은 "우리가 하려는 연구가 왜 새롭고 중요한지"를 다른 기존 연구들과 비교하며 설명하는 부분입니다. 한 마디로 "기존 연구들은 이런 것들만 했는데, 우리는 이런 점에서 다릅니다"라고 선을 긋는 것입니다.

1. 기존 '영상 설명' AI와 우리의 차이점

기존 AI: 5초짜리 짧은 영상(움짤)을 보고 "한 남자가 공을 던진다"라고 설명하는 것은 잘합니다. 하지만 2시간짜리 영화를 보고 전체 줄거리를 요약하지는 못합니다.
우리 연구: 우리는 바로 그 2시간짜리 영화를 보고 줄거리를 요약할 수 있는 AI를 만들려고 합니다. 짧은 순간뿐만 아니라 전체 흐름을 이해하는 것이 목표입니다.

2. 기존 '학습 데이터'와 우리의 차이점

기존 데이터: AI를 학습시키는 데이터 자체가 대부분 5초짜리 영상 모음집입니다. 데이터가 이러니 AI가 긴 영상을 학습할 기회가 없었습니다.
우리 연구: 이런 데이터로는 우리가 원하는 AI를 만들 수 없어서, 직접 긴 영상과 그에 맞는 다층적 요약(짧은 장면 설명, 중간 길이 장면 요약, 전체 줄거리 요약)이 포함된 새로운 학습 데이터 세트를 만들었습니다.

3. '계층 구조'를 연구한 다른 AI와 우리의 차이점

기존 AI: 비슷한 연구가 있긴 했지만 제한적이었습니다. 예를 들어, 요리 영상의 순서("1. 양파 썰기", "2. 고기 볶기")를 정해진 목록에서 고르게 하는 수준이거나, AI가 내부적으로만 정보를 정리할 뿐 사람에게 글로 요약해주지는 못했습니다.
우리 연구: 우리는 요리 영상뿐만 아니라 어떤 종류의 긴 영상이든 다룰 수 있습니다. 정해진 답 중에서 고르는 게 아니라, AI가 직접 자유롭게 문장을 만들어서 짧은 설명부터 긴 줄거리까지 모두 요약해주는 것을 목표로 합니다.

3. Technical Approach

3.1. Problem Overview

편집되지 않은 긴 video input이 주어졌을 때, 우리는 영상의 여러 hierarchy levels에서 텍스트 captions을 generate하는 것을 목표로 합니다. 공식적으로, 우리의 inputs으로는 개의 RGB frames으로 구성된 장편 video sequence $V_i = [I_i^{(t)}]_{t=1,...,T}$를 고려하며, 각 **frame**은 $I_i^{(t)}$로 표기됩니다. 우리의 목표는 세 가지의 뚜렷한 **hierarchical levels**에서 **captions**을 **generate**하는 것입니다: $\ell = 1, 2, 3$에 대해 $Y_i^{(\ell)} = [y_{i,j}^{(\ell)}]_{j=1,...,|Y_i^{(\ell)}|}$. 여기서 $y_{i,j}^{(\ell)}$는 hierarchy level 에 대한 caption 의 번째 단어를 나타냅니다. 각 hierarchy의 captions은 단기 video clip captions인 $Y_i^{(1)}$부터 순차적으로 generated됩니다. 이 captions은 영상 전체에 걸쳐 몇 초 간격으로 발생하는 세밀한 행동과 객체를 설명합니다(예: 그림 1에서 사람이 사과를 집는 모습). 그 후, model은 영상의 몇 분에 걸쳐 전개되는 중간 단계나 요약을 포착하는 중간 길이의 segment descriptions $Y_i^{(2)}$를 outputs합니다(예: 그림 1에서 사람이 차를 운전하고 주차하는 모습). 마지막으로, model은 전체 video input에 대한 영상 콘텐츠를 나타내는 장편 video summaries $Y_i^{(3)}$를 generation하며 마무리합니다.

3.2. Recursive Video-Language Model

이제 Video ReCap model에 대해 설명하겠습니다. 이 model은 Video Encoder, Video-Language Alignment, 그리고 Recursive Text Decoder라는 세 가지 high-level 구성 요소를 포함합니다. 우리의 접근 방식은 그림 2에 설명되어 있으며, 각 구성 요소는 아래에서 설명합니다.

Video Encoder. 먼저, 우리는 장편 영상에서 features를 추출하기 위해 기성품(off-the-shelf) video encoder(예: TimeSformer)를 활용합니다. 짧은 video clip이 주어지면, video encoder는 dense spacetime features를 output합니다. 우리는 전체 영상을 균일하게 나누고 features sequence $X_i = [x_{i,j}]_{j=1,...,|C|}$를 추출합니다. 여기서 $|C|$는 video clips의 수이고, $x \in R^{F \times H \times W \times D}$는 특정 clip의 시공간 features이며, 는 frames의 수, 는 높이, 는 너비, 는 feature 차원입니다. 우리는 model이 low-level visual cues(즉, 객체와 atomic actions)를 식별할 수 있도록 짧은 clip captions에 대해 dense spacetime features를 사용합니다. 더 높은 수준의 captions(예: segment descriptions 및 video summaries)에 대해서는 계산 비용을 줄이고 긴 video inputs의 전역적 속성을 포착하기 위해 global features(예: CLS features)를 사용합니다.

Video-Language Alignment. 다음으로, 우리는 video features 와 이전 hierarchy에서 generated된 captions $Y_i^{(\ell-1)}$를 input으로 받아 고정된 수의 embeddings $Z_i = [z_{i,j}]_{j=1,...,|Z|}$를 output하는 Video-Language (VL) Alignment module을 활용합니다. 여기서 $z \in R^{D_z}$이고, $|Z|$는 embeddings의 수이며, 는 hidden dimension입니다. 이 alignment module의 목표는 video와 text features를 joint feature space로 매핑하여, 후속 text decoder가 두 features를 함께 process할 수 있도록 하는 것입니다. 또한, 이 방식은 많은 수의 video 및 text features(예: 수천 개)를 적은 수의 embeddings(예: 256개)으로 압축하여 계산 비용을 극적으로 줄일 수 있게 합니다. 구체적으로, 우리는 LM의 각 transformer block 내부에 trainable cross-attention layer를 주입하여 video features 로부터 고정된 수의 video embeddings를 학습하기 위해 frozen pre-trained language model(예: DistilBERT)을 사용합니다. 또한, 유사한 frozen LM과 trainable cross-attention layers를 사용하여 이전 hierarchy $Y_i^{(\ell-1)}$에서 generated된 captions으로부터 고정된 수의 text embeddings를 학습합니다. 마지막으로, video와 text embeddings를 연결하여 joint embeddings 를 얻으며, 이는 후속 text decoder가 captions $Y_i^{(\ell)}$를 generating하는 데 사용됩니다. 첫 번째 hierarchy level(즉, clip caption)은 text features가 없으며 로 video embeddings만 사용합니다.

Recursive Text Decoder. 우리는 여러 hierarchy levels에서 captions을 generating하기 위해 pretrained language model(예: GPT2)을 우리의 recursive text decoder로 사용합니다. 이 decoder는 video-language alignment module(위에서 설명)에 의해 생성된 video-text embeddings 를 받아 hierarchy 에 대한 captions $Y_i^{\ell}$를 generates합니다. 우리는 이전 hierarchy level에서 generated된 captions $Y_i^{\ell-1}$을 (video features 와 함께) inputs 중 하나로 사용하며, 이는 recursive caption generation pipeline을 가능하게 합니다. 단기 caption generation(즉, )의 경우, textual feature 집합은 비어 있는 상태로 초기화됩니다(즉, 우리 model의 recursion의 기본 사례). 이전 연구들을 따라, 우리는 textual decoder의 각 transformer layer 내부에 trainable cross-attention blocks를 삽입하고 나머지 layers는 동결합니다. Cross-attention layer는 alignment module의 video-text embeddings에 주의를 기울입니다. 따라서, 제안된 Video ReCap은 다음의 training 목표를 사용하여 video 와 더 낮은 수준의 hierarchy에서 generated된 captions $Y^{(\ell-1)}$가 주어졌을 때 caption $Y^{(\ell)}$의 likelihood를 models합니다:

여기서 $y_k^{(\ell)}$는 caption의 language token을 나타내고, $y_{<k}^{(\ell)}$는 선행 tokens의 집합이며, 입니다.

3.3. Hierarchical Curriculum Learning

Recursive video-language model을 training하는 것은 여러 가지 이유로 어렵습니다. 첫째, model은 매우 다른 input 길이의 영상(즉, 몇 초에서 몇 시간까지)을 process해야 합니다. 둘째, 단기 clip captions의 수가 video segment descriptions 및 long-range summaries의 수보다 훨씬 많아 심각한 data imbalance가 존재합니다. 마지막으로, 의미 있고 맥락적으로 관련된 captions을 generating하기 위해서는 서로 다른 hierarchy levels 간의 synergy를 활용하는 것이 중요합니다. 이러한 어려움을 극복하기 위해, 우리는 인간의 행동 인식에 대한 hierarchical organization을 보여주는 고전 심리학 연구에서 동기를 얻었습니다. 인간이 중간 수준의 행동을 파악하기 전에 먼저 atomic actions을 인식하고, 그 다음 중간 수준의 활동에서 목표를 추론하는 것처럼, 우리의 training 전략도 유사한 hierarchical 방식으로 전개됩니다. 구체적으로, 우리의 training은 가장 낮은 hierarchy level인 clip captions의 샘플로 시작합니다. 그 후, 우리는 더 높은 수준의 captions, 예를 들어 중간 길이의 segment descriptions과 long-range video summaries로 model을 train합니다. 이러한 전략적 진행은 model이 영상에 내재된 복잡한 hierarchical structure를 점진적으로 이해하고 모든 hierarchies 간의 synergy를 극대화할 수 있도록 합니다. 또한, 이 전략은 서로 다른 hierarchies에 걸쳐 매우 불균형한 training data를 효과적으로 처리합니다. 그림 3은 제안된 curriculum learning strategy의 개요를 보여줍니다.

3.4. Additional Supervision using Language Models

한 시간 길이의 영상에 대한 captioning annotations을 수집하는 것은 시간과 비용이 많이 듭니다. 따라서, hierarchical video captioning과 관련된 또 다른 중요한 과제는 수동으로 주석 처리된 hierarchical captioning data, 특히 중간 길이의 segment descriptions과 long-range video summaries의 부족입니다. 우리는 이 문제를 완화하기 위해 **Large Language Models (LLMs)**를 활용합니다. LLMs은 다양한 길이의 text inputs으로부터 정보를 효과적으로 통합할 수 있으며, 이는 여러 hierarchies에 걸쳐 captions을 generate하도록 video model을 안내하려는 우리의 목표와 완벽하게 일치합니다. 이러한 통찰력에 동기를 부여받아, 우리는 LLMs을 사용하여 중간 길이 및 장편 영상(즉, 우리의 마지막 두 hierarchies)에 대한 다수의 pseudo-caption annotations을 generate합니다. 이 과정은 두 가지 주요 단계로 이루어집니다. 첫째, 수동으로 주석 처리된 hierarchical captions이 주어지면, 우리는 다양한 시간 길이에 걸쳐 연결된 단기 clip captions으로부터 중간 길이의 segment descriptions과 long-range video summaries를 generate하도록 LLM teacher를 fine-tune합니다. 그 후, 우리는 이렇게 LLM이 generated한 pseudo ground truth caption data를 추가 training samples로 사용하여 Video ReCap을 train합니다(그림 4 참조). 우리의 실험은 LLMs에 의해 generated된 이러한 pseudo ground truth data가 수동으로 주석 처리된 데이터를 효과적으로 보완하고 우리 model의 captioning 능력을 크게 향상시킨다는 것을 나타냅니다.

3.5. Implementation Details

우리는 224 × 224 크기의 4개 RGB frames의 input clip을 받는 features를 추출하기 위해 TimeSformer를 우리의 video encoder로 사용합니다. 우리는 hidden dimension이 768이고 12개의 transformer blocks를 가진 GPT2를 우리의 기본 text-decoder로 사용합니다. 우리는 learning rate가 3e-5이고 weight decay가 0.01인 Adam optimizer를 사용합니다. 우리의 training pipeline은 또한 cosine scheduling strategy를 활용했습니다. 추가적인 implementation details는 보충 자료를 참조하십시오.

4. Ego4D-HCap Dataset

이제 우리가 소개하는 Ego4D-HCap dataset에 대해 설명하겠습니다. 이것은 short clip-level captions, 중간 길이의 video segment descriptions, 그리고 장편의 video-level summaries라는 3계층 hierarchy의 captions으로 구성된 hierarchical video captioning dataset입니다. Ego4D-HCap을 구축하기 위해, 우리는 공개적으로 이용 가능한 가장 큰 egocentric video dataset인 Ego4D를 활용합니다. Ego4D 영상은 몇 가지 독특한 features를 가지고 있어, hierarchical video captioning task에 이상적입니다. 첫째, Ego4D의 대부분 영상은 전통적인 video captioning datasets보다 훨씬 깁니다(예: 몇 시간). 둘째, egocentric videos는 일반적으로 다양한 hierarchy levels에서 goal-driven 인간 활동을 포함합니다. 셋째, Ego4D 영상은 요리, 정원 가꾸기, 조립 등 다양한 시나리오의 인간 행동을 포착합니다.

Ego4D는 타임스탬프가 있는 atomic captions과 최대 5분까지의 video-segment descriptions을 제공하지만, 더 긴 영상 길이에 대한 video-level summaries는 부족합니다. 이 문제를 해결하기 위해, 우리는 8,267개의 Ego4D 영상 일부에 각각 최대 2시간에 이르는 long-range video summaries를 annotate했습니다. 이 개선은 3단계 hierarchy의 captions을 제공하여, hierarchical video captioning task에서 우리 model의 효과를 검증하기 위한 완벽한 자원이 됩니다. 표 1에서, 우리는 우리가 소개하는 Ego4D-HCap 서브셋의 상세한 요약을 제공합니다. Ego4D-HCap dataset에 대한 더 자세한 분석은 우리의 보충 자료를 참조하십시오.

우리가 제안하는 Ego4D-HCap dataset은 가정 환경, 야외 환경, 직장, 여가 활동 등 다양한 맥락의 다양한 시나리오를 포착하는 영상을 포함하며, 총 127개의 뚜렷한 시나리오가 있습니다. 가장 흔한 50개 시나리오의 분포는 그림 5에 설명되어 있습니다. Ego4D-HCap dataset에서 세 가지 hierarchy levels의 caption 길이 분포는 그림 6에 설명되어 있습니다. 특히, clip captions은 일반적으로 더 짧아서 caption당 평균 7.74 단어입니다. 이에 비해, segment descriptions은 중간 길이를 보이며 평균 15.79 단어이고, video summaries가 가장 길어 평균 25.59 단어입니다. 추가적으로, clip caption의 최대 길이는 43 단어인 반면, segment descriptions과 video summaries는 각각 73 단어와 172 단어까지 확장될 수 있음을 관찰했습니다. 우리의 보충 자료에는 dataset과 우리의 annotation 수집 과정에 대한 더 자세한 내용이 포함되어 있습니다.

Technical Approach & Dataset (Sec 3, 4) 정리노트 (For AI Researchers)

1. 제안 모델: Video ReCap Architecture (Sec 3.2)

전체 구조: Video Encoder → Video-Language Alignment (핵심 모듈) → Recursive Text Decoder의 3단계 파이프라인.
핵심 아이디어 - Recursive Generation: 상위 hierarchy()의 caption을 생성할 때, video features와 함께 하위 hierarchy()에서 이미 생성된 caption을 input으로 재귀적으로 활용합니다. 이는 hierarchy 간의 synergy를 극대화하고 문맥적 일관성을 높이는 핵심 메커니즘입니다 ($Y^{(\ell-1)}$과 를 이용해 생성).
Video Encoder 효율화 전략:
- Clip-level () 묘사 시: dense spacetime features를 사용하여 low-level visual cues(객체, 행동)를 포착합니다.
- Segment/Summary-level () 묘사 시: global features(CLS)를 사용하여 계산 복잡도를 줄이고 영상의 전역적 속성을 포착합니다.
Video-Language Alignment Module:
- 목적: 가변적이고 방대한 video/text features를 고정된 개수(예: 256개)의 joint embeddings으로 압축하여 후속 decoder의 연산 부담을 극적으로 줄입니다.
- 구현 방식: Frozen pre-trained Language Model(DistilBERT 등)에 trainable cross-attention layer들을 삽입하여, video features와 text features를 각각의 embedding으로 효율적으로 매핑한 후 연결(concatenate)합니다.

2. 핵심 학습 및 데이터 전략 (Sec 3.3 & 3.4)

(1) Hierarchical Curriculum Learning:
- 인간이 atomic actions을 먼저 인식하고 점차 high-level 목표를 추론하는 인지 과정에 착안한 Bottom-up 학습 전략입니다.
- 가장 데이터가 많고 태스크가 쉬운 clip captions부터 학습을 시작하고, 점진적으로 segment descriptions, video summaries로 학습 대상을 확장합니다.
- 이를 통해 model이 hierarchical structure를 자연스럽게 학습하고, 심각한 data imbalance 문제를 효과적으로 완화합니다.
(2) LLM을 활용한 데이터 증강 (Pseudo-Labeling):
- 장편 영상에 대한 수동 annotation의 높은 비용과 데이터 부족 문제를 해결하기 위한 실용적인 접근법입니다.
- 소량의 고품질 수동 annotation data로 LLM teacher model을 fine-tuning합니다.
- 이 teacher model을 사용하여 대량의 pseudo-caption annotations을 생성하고, 이를 Video ReCap의 추가적인 training data로 활용하여 성능을 향상시킵니다.

3. 신규 데이터셋: Ego4D-HCap (Sec 4)

핵심 기여: 장편, 자기중심적(egocentric) 영상 dataset인 Ego4D를 hierarchical video captioning task를 위해 확장하여 새로운 benchmark를 구축했습니다.
주요 작업: 기존 Ego4D에 누락되어 있던 long-range video summaries(최대 2시간 길이 영상) 8,267개를 수동으로 annotate하여 추가했습니다.
결과물: short clip-level captions, medium-length segment descriptions, long-range video-level summaries의 3단계 caption hierarchy를 완벽하게 갖춘 최초의 대규모 dataset을 제공합니다. 이는 제안된 task와 model의 표준화된 평가 기반을 마련했다는 점에서 중요합니다.

쉬운 설명 :

이 부분은 AI 모델을 구체적으로 어떻게 설계하고, 어떻게 학습시켰으며, 어떤 데이터를 사용했는지에 대한 설명입니다.

AI 모델은 어떻게 작동하나요? (레시피) 이 AI 모델(Video ReCap)은 3단계로 작동합니다.

1단계 - "눈"으로 영상 훑어보기 (Video Encoder): AI가 먼저 영상을 봅니다. 짧은 순간의 행동("사과를 집는다")을 포착할 때는 아주 자세히 보고, 긴 장면을 요약할 때는 전체적인 흐름을 파악하기 위해 살짝 멀리서 봅니다. (효율적인 정보 수집)
2단계 - "믹서기"로 정보 갈기 (Video-Language Alignment): 영상 정보와 이전에 쓴 글(요약)을 하나의 믹서기에 넣고 갈아서 몇 개의 아주 진한 "핵심 정보 캡슐"(embeddings)로 만듭니다. 이렇게 하면 AI가 처리해야 할 정보의 양이 크게 줄어듭니다.
3단계 - "작가"가 글쓰기 (Recursive Text Decoder): 이 부분이 핵심입니다.
- AI가 5분짜리 장면에 대한 요약을 쓸 때, 그냥 영상만 보는 게 아니라 자신이 방금 썼던 짧은 행동 묘사들을 다시 읽어보고 참고해서 씁니다.
- 마지막으로 2시간짜리 영상 전체 줄거리를 쓸 때는, 자신이 썼던 모든 5분짜리 장면 요약들을 전부 다 읽어보고 종합해서 최종 요약을 작성합니다.

이렇게 "자기가 쓴 노트를 다시 참고해서 더 좋은 글을 쓰는" 방식이 이 AI의 핵심적인 "재귀적(Recursive)" 아이디어입니다.

AI는 어떻게 학습했나요? (학습 프로그램)

쉬운 것부터 차근차근 (Hierarchical Curriculum Learning): 아이에게 덧셈을 가르치고 곱셈을 가르치듯, AI도 가장 쉬운 과제인 '5초짜리 짧은 영상 설명하기'부터 학습시킵니다. 이걸 잘하게 되면 '5분짜리 장면 요약하기'를 배우고, 마지막으로 가장 어려운 '2시간짜리 영상 전체 줄거리 요약하기'를 학습합니다.
"족집게 과외 선생님" 활용하기 (LLM Supervision): 수천 시간 분량의 영상에 대한 정답 요약을 사람이 일일이 만드는 건 너무 비싸고 힘듭니다. 그래서 똑똑한 "과외 선생님 AI"(LLM)를 데려와 좋은 정답지 몇 개를 보여주며 훈련시켰습니다. 그러자 이 선생님 AI가 수많은 연습 문제(pseudo-captions)를 만들어줬고, 본 AI는 이 문제들을 풀면서 실력을 키웠습니다.

AI는 어떤 "교과서"로 공부했나요? (Ego4D-HCap Dataset) 이런 똑똑한 AI를 만들려면 그에 맞는 특별한 교과서가 필요했습니다. 그래서 연구팀은 직접 교과서를 만들었습니다.

기존에 있던 방대한 양의 1인칭 시점 영상 라이브러리(Ego4D)를 가져와, 영상의 전체 줄거리에 해당하는 8,000개 이상의 긴 글 요약을 사람이 직접 작성해서 추가했습니다.
그 결과, 짧은 설명, 중간 요약, 긴 줄거리를 모두 갖춘 완벽한 3단계 "교과서"가 탄생했고, 이 AI를 훈련하고 시험하는 데 사용되었습니다.

주인장 이해

클립별로 디스크립션 만들고 그거랑 중간길이 비디오 넣고 클립별 디스크립션을 참고해서 중간길이 디스크립션 뽑게하는 그런방식

Stage 1: Clip Caption 생성 (가장 낮은 단계)

Input: 짧은 비디오 클립 (e.g., 4초)의 모든 프레임 정보(dense features)
Process: 모델이 이 짧은 비디오만 보고 무슨 일이 일어나는지 파악합니다.
Output: 아주 구체적인 행동 설명 (Clip Caption)
- 예: "C가 사과를 집는다."

이 단계에서는 참고할 이전 텍스트가 없습니다. 오직 비디오만 보고 캡션을 만듭니다.

Stage 2: Segment Description 생성 (중간 단계)

Input:
- Input (Vision): 중간 길이 비디오 (e.g., 3분). 중요한 점은, 비디오의 모든 프레임을 다 넣는 것이 아니라, 계산 효율성을 위해 **희소하게 샘플링된 대표 프레임 정보(sparse features)**만 넣습니다.
- Input (Text): 1단계에서 미리 만들어 둔, 이 3분 구간에 해당하는 모든 Clip Caption들의 묶음.
Process: 모델은 **희소한 비디오 정보(대략적인 시각적 흐름)**와 **촘촘한 텍스트 정보(구체적인 행동들)**를 함께 입력받습니다. 그리고 이 둘을 종합적으로 **'참고'**해서 더 높은 수준의 요약을 생성합니다.
Output: 중간 길이의 활동 요약 (Segment Description)
- 예: "C가 마트 과일 코너에서 여러 과일을 고른다."

Stage 3: Video Summary 생성 (가장 높은 단계)

이 방식은 똑같이 한 번 더 반복됩니다.

Input:
- Input (Vision): 비디오 전체 (e.g., 1시간)에서 더욱 희소하게 샘플링된 대표 프레임 정보.
- Input (Text): 2단계에서 만들어 둔 모든 Segment Description들의 묶음.
Process: 모델은 비디오 전체의 매우 개략적인 시각 정보와, 중간 요약본(Segment Description)들을 함께 참고하여 최종 결론을 도출합니다.
Output: 전체 비디오의 최종 요약 (Video Summary)
- 예: "C가 마트에서 장을 보고 집으로 돌아온다."

핵심 요약

, **"클립별 디스크립션을 만들고, 그 디스크립션 묶음과 (희소한) 중간 길이 비디오를 함께 넣어서, 클립별 디스크립션을 참고해 중간 길이 디스크립션을 뽑는 방식"**이 정확합니다.

이러한 재귀적(Recursive) 구조가 이 모델의 가장 큰 특징이며, 이를 통해 다음과 같은 장점을 얻습니다.

효율성: 긴 비디오의 모든 프레임을 처리할 필요 없이, 중요한 시각 정보와 이미 요약된 텍스트 정보를 활용해 빠르고 효율적으로 처리합니다.
정확성: 하위 단계의 구체적인 캡션 정보가 상위 단계 요약의 근거가 되어주므로, 중요한 디테일을 놓치지 않고 더 정확한 요약을 만들 수 있습니다.