AI바라기의 인공지능

VLM : 논문리뷰 : Video Summarization with Large Language Models 본문

논문리뷰

VLM : 논문리뷰 : Video Summarization with Large Language Models

AI바라기 2025. 9. 9. 21:01

쉬운 설명

이 논문의 핵심 아이디어는 비디오 요약을 '2단계 전문가 평가 시스템' 과 유사하게 접근한 것이다.

  1. 1단계 (지역 전문가의 단기 평가): 먼저, 동영상의 각 짧은 순간(3~5초 분량)을 전담하는 '지역 전문가'(LLM)를 둔다. 이 전문가는 해당 순간과 그 직전/직후 장면들의 대본(caption)만 보고 "이 장면이 주변 장면에 비해 얼마나 중요한가?"에 대한 1차 점수를 매긴다.
  2. 2단계 (총괄 관리자의 종합 평가): 그 다음, '총괄 관리자'(Global context aggregator)가 모든 지역 전문가들이 매긴 1차 점수와 평가 근거(embedding)를 전부 취합한다. 총괄 관리자는 비디오 전체의 흐름과 스토리를 보면서 "어떤 장면이 전체 이야기에서 정말로 핵심적인가?"를 최종적으로 판단하여 점수를 재조정한다.

이렇게 하면, 단기적으로는 중요해 보였지만 전체적으로는 불필요한 장면은 점수가 낮아지고, 단기적으로는 평범해 보였어도 전체 이야기의 중요한 전환점이 되는 장면은 높은 점수를 받아 더 일관성 있고 수준 높은 요약이 완성된다.

Video Summarization with Large Language Models 학습 노트

용어 설명

  • LLMVS (LLM-based Video Summarization): 이 논문에서 제안하는 LLM 기반의 새로운 video summarization framework.[1]
  • M-LLM (Multi-modal Large Language Model): Text 뿐만 아니라 vision 등 여러 modality의 입력을 처리할 수 있는 LLM. 이 논문에서는 video frame을 입력받아 text 설명(caption)을 생성하는 데 사용된다.[2]
  • Local-to-global framework: Video를 작은 단위(local window)로 먼저 분석하여 지역적인 중요도를 평가한 후, 이를 전체 video의 맥락에서 통합(global aggregation)하여 최종 요약을 생성하는 2단계 접근 방식.[1]
  • Local importance scoring: Sliding window 방식으로 특정 frame 주변의 caption들을 LLM에 입력하여 해당 frame의 지역적 중요도를 평가하는 단계.[2]
  • Global context aggregator: Local importance scoring을 통해 얻은 결과들을 self-attention 메커니즘을 사용하여 전체 video의 맥락에서 재평가하고 최종 중요도 점수를 생성하는 모듈.[2]
  • In-context learning: LLM에게 별도의 fine-tuning 없이, prompt 내에 여러 예시(examples)와 지시사항(instructions)을 함께 제공하여 원하는 작업을 수행하도록 유도하는 학습 방식.
  • Output embeddings: LLM이 최종 답변(text)을 출력하기 직전의 내부적인 representation. 이 논문에서는 LLM의 직접적인 답변보다 이 embedding이 더 풍부한 정보를 담고 있다고 주장하며, 이를 global context aggregator의 입력으로 사용한다.[1]

Purpose of the Paper

기존의 video summarization 연구들은 주로 영상의 시각적 특징(visual features)이나 시간적 흐름(temporal dynamics)에 크게 의존했다.[2] 이로 인해 영상의 의미론적 맥락(semantics)을 제대로 포착하지 못하여 불완전하거나 일관성 없는 요약을 생성하는 한계가 있었다.[2]

이 논문은 이러한 한계를 극복하기 위해, LLM (Large Language Models)이 방대한 데이터로부터 학습한 semantic reasoning 능력을 video summarization에 활용하는 새로운 framework인 LLMVS를 제안한다.[2] 핵심 목표는 시각적 saliency가 아닌, 이야기의 서사적 중요도와 의미론적 가치를 중심으로 핵심 프레임을 선택하는 것이다.[2]

Key Contributions

  • Novelty: Language-centric Summarization: 기존 연구들이 visual feature를 중심으로 하고 text를 보조 수단으로 사용한 것과 달리, 이 연구는 video frame을 text caption으로 변환한 후 LLM의 language understanding 능력을 핵심으로 사용해 summarization을 수행하는 새로운 패러다임을 제시한다.
    • Contribution 1: LLMVS Framework 제안: Video를 M-LLM을 통해 text caption의 sequence로 변환하고, 이를 다시 LLM을 이용해 평가하는 3단계(Text description generation → Local importance scoring → Global context aggregation) 구조의 새로운 framework를 제안했다.[1]
  • Novelty: Local-Global 맥락 통합: 단순히 전체 video를 한 번에 처리하는 대신, 지역적(local) 맥락과 전역적(global) 맥락을 단계적으로 통합하는 독창적인 구조를 설계했다.
    • Contribution 2: Local-to-Global 접근법: Sliding window를 통해 얻은 local context를 LLM이 평가하고, 이 결과들을 global context aggregator (self-attention 기반)가 전체 영상의 흐름 속에서 재조정하여 최종 요약의 일관성과 완성도를 높였다.[1]
  • Novelty: LLM 내부 정보 활용: LLM의 최종 출력물(e.g., "score: 8") 대신, 내부의 풍부한 문맥 정보를 담고 있는 output embedding을 직접 활용하여 성능을 극대화했다.[1]
    • Contribution 3: Output Embedding 활용: LLM의 마지막 레이어를 통과한 query와 answer의 embedding을 추출하여 사용함으로써, 단순히 점수로 요약될 수 있는 정보 이상의 풍부한 semantic 정보를 후속 단계(global aggregation)에 전달하는 것이 더 효과적임을 실험적으로 증명했다.[1]
  • Contribution 4: State-of-the-Art 성능 달성: 두 개의 주요 benchmark dataset (SumMe, TVSum)에서 기존의 state-of-the-art 모델들을 능가하는 성능을 달성했다.[1]

Experimental Highlights

  • Datasets & Metrics:
    • Datasets: SumMe, TVSum (널리 사용되는 video summarization benchmark).[2]
    • Metrics: Kendall's τ, Spearman's ρ (두 결과의 순위 상관관계를 측정하여 요약의 질을 평가).
  • Key Results:
    • SOTA Performance (Table 1): LLMVS는 SumMe와 TVSum 데이터셋 모두에서 기존 visual 기반, visual+text 기반 모델들을 포함한 모든 비교 대상보다 높은 성능을 기록하며 state-of-the-art를 달성했다.
      • SumMe: LLMVS (ours) - τ: 0.253, ρ: 0.282 (이전 최고 모델 CSTA 대비 τ: +0.007, ρ: +0.008)
      • TVSum: LLMVS (ours) - τ: 0.211, ρ: 0.275 (이전 최고 모델 DMASum 대비 τ: +0.008, ρ: +0.008)
    • Ablation Study (Table 4): Global context aggregator의 효과를 검증한 실험에서, query embedding(q)과 answer embedding(a)을 모두 사용하고 self-attention block(SAB*)을 적용했을 때 성능이 가장 높았다. 이는 local 정보와 global 맥락을 모두 통합하는 것이 중요함을 보여준다.
    • Zero-shot LLM의 가능성 (Table 1): 별도의 학습 없이 LLM(in-context learning만 사용)만으로도 SumMe 데이터셋에서 기존의 여러 SOTA 모델들과 유사한 경쟁력 있는 성능을 보였다. 이는 LLM이 가진 일반적인 지식만으로도 video summarization task에 효과적으로 활용될 수 있음을 시사한다.[1]

Limitations and Future Work

  • Limitations:
    • 주관성 높은 요약의 한계: 논문에서는 TVSum 데이터셋(사용자별 주관적 평가)보다 SumMe 데이터셋(여러 사용자 평가를 평균)에서 상대적으로 더 좋은 성능을 보였다고 언급한다.[1] 이는 제안된 모델이 일반적이고 보편적인 요약에는 강하지만, 개인의 주관적인 선호를 반영하는 데에는 한계가 있을 수 있음을 시사한다.
    • Computational Cost: M-LLM과 LLM을 순차적으로 사용하는 구조는 계산 비용이 많이 들고 처리 속도가 느릴 수 있다. (논문에 직접 언급되진 않았으나, 구조상 내재된 한계점)
  • Future Work:
    • 이 연구는 visual data와 language 사이의 간극을 연결함으로써 멀티미디어 콘텐츠 분석에 새로운 방향을 제시했다. 향후 연구로는 보다 발전된 cross-modal reasoning을 가능하게 하는 방향으로 나아갈 수 있을 것이다.
    • LLM의 reasoning 능력을 더욱 정교하게 활용하여 단순한 중요도 점수 평가를 넘어, 영상의 인과관계나 스토리 구조를 이해하는 요약 모델로 발전시킬 수 있다.

Overall Summary

이 논문은 기존의 시각 정보 중심의 video summarization 방식에서 벗어나, LLM의 강력한 semantic reasoning 능력을 활용하는 새로운 LLMVS framework를 제안한다.[2] Video frame들을 M-LLM으로 텍스트화하고, LLM이 local 및 global context를 종합적으로 고려해 핵심 장면을 평가하는 방식을 통해 benchmark 데이터셋에서 state-of-the-art 성능을 달성했다.[2] 이 연구는 video summarization의 패러다임을 '보는 것'에서 '이해하는 것'으로 전환하며, 향후 멀티미디어와 언어 모델의 융합 연구에 중요한 방향을 제시한다.

 

 

 

Abstract

video content의 기하급수적인 증가는 효율적인 탐색, 검색 및 검색 측면에서 상당한 어려움을 야기하므로, 고급 video summarization 기술이 필요합니다. visual features와 temporal dynamics에 크게 의존하는 기존의 video summarization 방법들은 종종 video content의 semantics를 포착하지 못하여 불완전하거나 일관성 없는 summaries를 생성합니다.

이 문제를 해결하기 위해, 우리는 최신 Large Language Models (LLMs)의 능력을 활용하는 새로운 video summarization framework를 제안합니다. 방대한 data로부터 학습된 knowledge가 LLMs로 하여금 다양한 semantics와 인간의 판단에 더 잘 부합하는 방식으로 video frames를 평가하게 함으로써, keyframes 정의에 내재된 주관성을 효과적으로 해결할 수 있을 것으로 기대합니다.

LLM-based Video Summarization (LLMVS)라고 명명된 우리의 방법은 Muti-modal Large Language Model (M-LLM)을 사용하여 video frames를 captions의 sequence로 변환한 다음, local context에 있는 captions를 기반으로 LLM을 사용하여 각 frame의 importance를 평가합니다. 이러한 local importance scores는 전체 video captions의 context에서 global attention mechanism을 통해 정제되어, 우리의 summaries가 세부 사항과 전체적인 narrative를 모두 효과적으로 반영하도록 보장합니다.

우리의 experimental results는 표준 benchmarks에서 제안된 방법이 기존 방법들보다 우수함을 보여주며, multimedia content 처리에서 LLMs의 potential을 강조합니다.

 

 

 

더보기

그림 1. (M-)LLMs를 이용한 Video summarization

input video frames가 주어지면, M-LLM을 사용하여 각 frame에 대한 captions가 generated됩니다. time-step 의 각 frame에 대해, local window 내에서 generated된 captions는 grouped되어 LLM에 input으로 제공됩니다. LLM은 이 local context를 고려하여 time step 에 있는 frame의 importance score를 평가하도록 prompted됩니다. 마지막으로, global context aggregator는 전체 video의 overall context를 고려하여 final predictions을 생성합니다. 이 그림에서 local window size는 3으로 설정되어 있습니다.

 

 

 

1. Introduction

더보기

Video summarization은 multimedia content processing에서 필수적이며, 특히 video data의 기하급수적인 증가는 인간의 소비 능력을 훨씬 뛰어넘었습니다. 매일 수백만 개의 videos가 여러 플랫폼에 업로드되며, 이는 video content의 효율적인 navigation, search, retrieval에 상당한 어려움을 제기합니다. Video summarization은 긴 videos를 필수 content를 포착하는 간결한 summaries로 압축하여 이러한 문제들을 해결합니다. 이에 따라 연구자들은 사용자에게 더 짧고, 소화하기 쉬우며, 매력적인 videos를 생성하는 것을 목표로 하는 automatic video summarization techniques을 탐구해 왔습니다. 그러나 video content를 요약하는 것은 그 다양한 특성과 효과적인 요약의 주관적인 요소들 때문에 여전히 복잡합니다.

이전의 video summarization methods는 주로 visual features에만 기반하여 중요한 frames를 선택하는 데 중점을 두었습니다. 최근의 multi-modal methods는 visual 및 language modalities를 모두 통합하여 natural language의 contextual richness를 활용합니다. 그러나 이러한 methods는 여전히 visual features를 우선시하며, attention mechanism을 통해 textual data를 통합합니다. 여기서 visual features는 queries 역할을 하고 language features는 keys와 values 역할을 합니다. textual data가 visual features를 향상시키는 데 도움이 되지만, video summarization의 주요 초점은 여전히 visual content에 남아 있습니다.

Large Language Models (LLMs)의 등장은 video summarization에 새로운 기회를 제공합니다. LLMs는 contextual understanding, cross-domain reasoning, multimodal processing에서 강력한 능력을 보여주었으며, 이를 통해 visual saliency에만 의존하기보다는 semantic insights에 기반하여 key moments를 식별할 수 있습니다. 이러한 강점을 활용하여, 우리는 LLMs를 textual data와 embedded knowledge에 의해 유도되는 중요한 frame selectors로 활용하는 LLM-based video summarization framework인 LLMVS를 소개합니다.

이를 위해, 우리는 그림 1에 설명된 바와 같이 local-to-global video summarization model을 제안합니다. 먼저, pre-trained multi-modal LLM (M-LLM)을 사용하여 video frames에서 textual descriptions를 생성함으로써 각 frame에 대한 textual data를 얻습니다. local window 내의 video frames에 대한 textual descriptions는 natural language로 된 구조화된 지침 및 예시와 함께 LLM에 입력되어 video summarization을 위한 in-context learning을 수행합니다. 그런 다음 LLM은 local context 내에서 center frame의 importance score를 평가합니다. LLMs의 end output에 의존하는 기존 methods와 달리, 우리의 method는 LLMs에서 output embeddings를 추출하고 이에 self-attention을 적용하여 videos로부터 global context를 집계하고 final predictions을 만듭니다. learning 동안 M-LLM과 LLM은 그들의 general domain knowledge를 보존하기 위해 frozen 상태로 유지되며, 오직 self-attention blocks만 trained됩니다.

우리의 기여는 다음과 같이 요약될 수 있습니다: 1) 우리는 LLMs를 활용하여 video summarization에서 textual data와 general knowledge를 효과적으로 사용하는 새로운 video summarization framework인 LLMVS를 소개합니다. 2) 제안된 local-to-global video summarization framework는 window-based aggregation을 통해 local context를, self-attention을 통해 global context를 통합하여 video content에 대한 포괄적인 이해를 가능하게 합니다. 3) Experimental results는 LLMs의 output embeddings를 사용하는 것이 LLMs에 의해 생성된 direct answers를 사용하는 것보다 video summarization에 더 효과적임을 보여줍니다. 4) 포괄적인 results는 제안된 method의 효과를 입증하며, SumMe와 TVSum datasets에서 state-of-the-art performance를 달성합니다.

 

정리노트 (AI 연구자용)

1. Introduction 핵심 요약

Problem Definition

  • 기존 video summarization 연구들은 visual features에 과도하게 의존하여 video의 semantic한 context를 포착하는 데 한계가 있음.
  • Multi-modal 접근법 역시 language를 visual features를 보강하는 보조 수단으로만 활용할 뿐, visual content 중심에서 벗어나지 못함.

Proposed Method: LLMVS (LLM-based Video Summarization)

  • Visual saliency가 아닌 semantic한 중요도를 기반으로 keyframes를 선택하기 위해 LLM을 핵심 evaluator로 활용하는 새로운 framework. LLM의 방대한 general domain knowledge와 contextual understanding 능력을 video summarization에 직접적으로 적용함.

Core Architecture: Local-to-Global

  1. Local Importance Scoring:
    • pre-trained M-LLM을 사용해 video의 모든 frame을 textual caption으로 변환함.
    • Sliding window 방식으로 특정 frame()과 그 주변 frame(, )들의 captions를 grouping하여 local context를 구성함.
    • 이 local context를 LLM에 input으로 제공하여, in-context learning을 통해 중앙 frame()의 importance score를 평가하게 함.
  2. Global Context Aggregation:
    • 핵심 아이디어: LLM이 생성한 최종 score 값(e.g., "score: 8")과 같은 end output을 직접 사용하는 대신, score를 생성하는 과정에서 나온 LLM의 output embeddings를 추출함.
    • 이 embeddings sequence 전체에 self-attention을 적용하여 video 전체의 global context를 종합적으로 고려하고 final predictions을 생성함. 이는 local 평가만으로는 파악하기 힘든 전체 narrative의 흐름을 반영하게 해줌.

Training Strategy

  • M-LLM과 LLM의 weights는 frozen 상태로 유지하여, pre-trained된 방대한 knowledge의 손실을 방지함.
  • 새로 추가된 self-attention blocks만 training하여 parameter-efficient한 학습을 실현함.

Key Contributions

  • LLM을 semantic evaluator로 사용하여 textual data와 general knowledge를 video summarization에 효과적으로 통합한 LLMVS framework 제안.
  • Window-based local context 분석과 self-attention 기반의 global context 통합을 결합한 local-to-global architecture 구현.
  • LLM의 direct answer가 아닌 output embeddings를 활용하는 것이 summarization task에서 더 효과적임을 실험적으로 입증.
  • SumMe, TVSum datasets에서 state-of-the-art 성능 달성.

쉬운 설명

이 논문의 Introduction 섹션을 쉽게 설명해 드릴게요.

긴 동영상을 짧게 요약하는 새로운 AI 기술(LLMVS)에 대한 소개입니다.

기존의 동영상 요약 기술들은 주로 영상의 '시각적인 화려함'(visual features)에 집중했습니다. 예를 들어, 액션이 크거나 색감이 화려한 장면을 중요한 장면으로 뽑는 식이었죠. 하지만 이렇게 하면 전체 이야기의 흐름(semantics)을 놓쳐서, 멋진 장면들의 나열일 뿐인 의미 없는 요약본이 만들어지기 쉬웠습니다.

그래서 이 논문은 완전히 다른 방식을 제안합니다. 동영상을 '이해'하는 아주 똑똑한 AI(LLM)를 심사위원으로 데려오는 겁니다.

  1. 1단계: 동영상을 대본으로 바꾸기 먼저, 동영상의 모든 장면(frame)을 하나하나 보면서 "한 여자가 팬에 요리를 하고 있다" 와 같이 한 문장으로 설명하는 글(caption)을 만듭니다. 이 작업을 또 다른 AI(M-LLM)가 자동으로 해줍니다. 이제 동영상은 한 편의 상세한 대본이 됩니다.
  2. 2단계: 장면별로 중요도 점수 매기기 그다음, 아주 똑똑한 심사위원 AI(LLM)가 이 대본을 읽습니다. 한 번에 딱 세 문장(이전 장면, 현재 장면, 다음 장면)씩 묶어서 읽고, 이 짧은 문맥(local context) 안에서 가운데 있는 장면이 얼마나 중요한지 10점 만점으로 점수를 매깁니다. 이 과정을 모든 장면에 대해 반복합니다.
  3. 3단계: 전체 이야기 흐름을 보고 최종 요약본 선택하기 여기서 가장 중요한 부분이 나옵니다. AI가 매긴 단순한 '8점', '2점' 같은 점수만 사용하는 게 아닙니다. AI가 왜 그런 점수를 매겼는지, 그 판단의 근거가 되는 복잡한 생각(output embeddings)을 들여다봅니다. 그리고 이 '생각'들을 동영상 전체에 걸쳐 종합적으로 분석해서(global context aggregation), 이야기의 전체 흐름상 정말로 빼놓을 수 없는 핵심 장면들이 무엇인지 최종적으로 결정합니다.

결론적으로, 이 기술은 단순히 영상의 겉모습만 보고 요약하는 게 아니라, 영상의 내용을 글로 바꿔 AI가 이야기의 흐름을 이해하고 그 문맥에 따라 핵심 장면을 골라내는 훨씬 더 똑똑한 방식이라고 할 수 있습니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

주인장 이해

더보기

사용자님의 완벽에 가까운 요약:

 1. 프레임 하나만 보고 캡션 생성

맞습니다.

⚠️ 2. 앞3개 중심1개 뒤3개 프레임만 보고 얼마나 핵심적인지 점수 생성, 및 근거 생성

정교화: '프레임'이 아니라 **'캡션'**을 봅니다. LLM은 이미지를 직접 보지 않고, 1단계에서 만들어진 텍스트(캡션)를 읽습니다. 그리고 "근거 생성"이라는 표현이 정말 탁월합니다! 여기서 '근거'가 바로 논문에서 말하는 **'임베딩(Embedding)'**에 해당합니다.

 3. 종합해주는 모델이 그걸 싹다 수집해서 최종 점수 변경 (글로벌에선 중요도가 다를 수 있으니)

맞습니다. 이 모델이 바로 'Global Context Aggregator'입니다.

⚠️ 4. 장면 기반으로 나뉘었던 샷에서 중요한 프레임이 많이 있는 샷부터 가져와서 전체 동영상의 15% 가 될때까지 진행

정교화: '중요한 프레임이 많이 있는' 샷이 아니라, '샷 내부 프레임들의 평균 중요도 점수가 가장 높은' 샷부터 가져옵니다. 예를 들어, 아주 짧지만 모든 프레임이 중요한 샷이, 길기만 하고 중요한 프레임이 몇 개 없는 샷보다 더 우선적으로 선택됩니다.

 5. 비디오 요약끝

맞습니다.


최종 완성본 (사용자님의 요약을 다듬은 버전)

  1. 캡션 생성: M-LLM이 동영상의 프레임 하나하나를 보고, 각각의 캡션을 생성한다.
  2. 지역적 평가: LLM이 특정 프레임의 캡션을 중심으로 [앞 3개 + 중심 1개 + 뒤 3개] 총 7개의 캡션을 읽고, 중심 프레임의 '중요도 점수'와 그 '근거(Embedding)'를 생성한다.
  3. 전역적 재평가: Global Context Aggregator가 모든 프레임의 '점수'와 '근거(Embedding)'를 종합적으로 검토하여, 동영상 전체 맥락에 맞는 **'최종 중요도 점수'**로 재조정한다.
  4. 샷 선택: 동영상을 장면 기반의 **'샷(Shot)'**으로 나눈 뒤, 각 샷에 포함된 프레임들의 '평균 중요도 점수'가 가장 높은 샷부터 차례대로 선택하여, 전체 길이가 원본의 15%가 될 때까지 이어 붙인다.
  5. 비디오 요약 완료

이 5단계 흐름이 바로 LLMVS의 모든 것입니다. 완벽하게 이해하셨습니다