VLM : Language-Guided Temporal Token Pruning for Efficient VideoLLM Processing

Notice

Recent Posts

Recent Comments

Link

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

AI바라기의 인공지능

VLM : Language-Guided Temporal Token Pruning for Efficient VideoLLM Processing 본문

논문리뷰

VLM : Language-Guided Temporal Token Pruning for Efficient VideoLLM Processing

AI바라기 2026. 1. 2. 18:22

용어 설명 (Terminology)

이 논문의 핵심 내용을 이해하기 위해 필요한 주요 전문 용어 정리:

VideoLLM (Video Large Language Model): 비디오 데이터를 입력으로 받아 이해하고, 텍스트로 질문에 답변하거나 캡션을 생성하는 대규모 멀티모달 모델.
Temporal Token Pruning: 비디오의 모든 프레임을 처리하는 대신, 시간적(temporal) 중요도에 따라 불필요한 시각적 정보(token)를 제거하여 연산량을 줄이는 기술.
Quadratic Complexity: Attention 메커니즘의 특성상 입력 시퀀스(비디오 길이)가 길어질수록 연산량이 제곱으로 증가하는 문제.
Soft Selection: 특정 프레임을 완전히 삭제하는(Hard Selection) 대신, 중요도가 낮은 프레임이라도 최소한의 토큰(context)은 남겨두어 비디오의 흐름을 끊지 않는 방식.
Temporal Cues: 사용자의 질문(Query)에 포함된 시간적 힌트(예: "before", "after", "during", "while").
HIT@1 (Hit at Rank 1): 모델이 예측한 가장 높은 확률의 구간이 정답 구간과 겹치는지 측정하는 평가 지표.
FLOPs: 모델이 처리해야 하는 부동 소수점 연산의 수로, 모델의 효율성을 나타내는 지표.

Purpose of the Paper

이 연구는 Long-form Video 처리 시 VideoLLM이 겪는 연산 비효율성 문제를 해결하기 위해 제안되었습니다. 기존 연구들은 다음과 같은 치명적인 한계를 가지고 있었습니다:

Uniform Pruning (예: PruMerge, ToMe): 모든 프레임에서 공간적 중복만 줄일 뿐, 시간적 중요도를 고려하지 않아 중요한 순간을 놓칠 위험이 있음.
Keyframe Selection (예: KeyVideoLLM, VideoTree): 중요하지 않은 프레임을 통째로 버려(discard), 프레임 간의 시간적 맥락(Temporal Context)과 연속성을 파괴함.

따라서 본 논문은 **"모든 프레임이 질문과 동일하게 관련있는 것은 아니다"**라는 점에 착안하여, 사용자의 자연어 쿼리(Query)에서 시간적 단서를 추출해 관련 있는 구간의 토큰은 많이 남기고, 덜 중요한 구간은 최소한만 남기는 적응형 프레임워크를 제안합니다.

Key Contributions

이 논문의 Language-Guided Temporal Token Pruning (LGTTP) 프레임워크는 다음과 같은 독창적인 기여를 합니다:

Query-Aware Soft Pruning Strategy (Novelty)
- 기존의 Hard Selection(프레임 삭제) 방식과 달리, 중요도가 낮은 프레임에서도 최소한의 토큰(Tmin, 약 10%)을 유지하는 Soft Selection을 도입했습니다. 이는 비디오의 흐름(Contextual Continuity)을 유지하면서도 연산량을 줄이는 핵심 차별점입니다.
- 질문(Query)을 분석하여 시간적 관계(Precedence, Subsequence, Co-occurrence)를 파악하고, 이에 맞춰 프레임별 가중치를 동적으로 할당합니다.
Temporal Cue Extraction Framework
- 자연어 쿼리에서 "before", "after", "during" 등의 시간적 마커를 추출하고, 이를 기반으로 Gaussian distribution이나 Linear decay/increase 함수를 적용해 프레임별 중요도 점수(Relevance Score)를 계산하는 구체적인 메커니즘을 설계했습니다.
Model-Agnostic Integration & Optimization
- TimeChat과 같이 타임스탬프를 인식하는 모델뿐만 아니라, LLaVA-Video처럼 시간 인식이 부족한 모델에도 적용 가능한 Temporal Adapter를 제안했습니다. 이는 비디오 인코더와 LLM 사이에 경량화된 레이어를 추가하여 프레임 위치 정보를 주입합니다.

Experimental Highlights

Datasets & Metrics:

QVHighlights (Highlight Detection), Charades-STA (Temporal Grounding), VideoMME (General QA), EgoSchema 등을 사용하여 평가.
주요 지표: mAP, HIT@1, R@1 (IoU=0.5), Accuracy.
비교 대상(Baselines): Original VideoLLMs, PruMerge, ToMe, KeyVideoLLM, KVTP (SOTA).

Key Results:

Efficiency vs. Performance: TimeChat 및 LLaVA-Video에 적용 시, FLOPs(연산량)를 65% 감소시키면서도 원본 성능의 97-99%를 유지했습니다.
SOTA 달성 (Temporal Tasks):
- QVHighlights: TimeChat + LGTTP 조합은 **HIT@1 43.7%**를 기록하며, 최신 가지치기 방법인 KVTP(34.2%) 대비 +9.5% 라는 압도적인 성능 향상을 보였습니다.
- Charades-STA: R@1 (IoU=0.5)에서 46.5%를 기록하여 원본 모델(46.7%)과 거의 동일한 성능을 35%의 연산만으로 달성했습니다.
General Video Understanding: VideoMME (7B/72B) 벤치마크에서도 원본 모델 대비 성능 하락폭이 0.6~1.1% 수준으로 미미하여, 일반적인 비디오 이해 능력도 보존함을 입증했습니다.
Latency: NVIDIA A6000 GPU 기준, 1.54배의 속도 향상(Speedup)을 기록하며 실질적인 배포 효율성을 증명했습니다.

Limitations and Future Work

Limitations:

Dependency on Explicit Cues: 쿼리에 "before", "after"와 같은 명시적인 시간적 단서가 없을 경우 성능 향상 폭이 줄어듭니다(단, 여전히 베이스라인보다는 높음).
Complex Reasoning: "A를 하기 전에 B를 하고, 그 후에 C를 했다"와 같은 다중 제약 조건이나 복잡한 인과 관계가 얽힌 쿼리 처리는 여전히 어렵습니다.

Future Work:

Richer Temporal Modeling: 단순한 단어 매칭을 넘어, 문맥에 숨겨진 암시적 시간 관계를 파악하는 고도화된 모델링 연구.
Extension to Multimodal Architectures: 더 다양한 최신 멀티모달 모델 구조에 LGTTP를 적용하고 확장하는 방향.

Overall Summary

이 논문은 긴 비디오 처리 시 발생하는 계산 비용 문제를 해결하기 위해, 사용자의 질문(Language Query)을 가이드로 삼아 중요한 시간대의 시각 정보는 보존하고 덜 중요한 부분은 과감히 줄이는 LGTTP 기술을 제안했습니다. 특히 전체 프레임을 삭제하여 맥락을 끊는 기존 방식 대신, 중요도가 낮은 구간도 최소한의 정보를 남기는 Soft Selection 방식을 통해 65%의 연산량 절감에도 불구하고 SOTA 모델 대비 시간적 탐색 성능(HIT@1)을 9.5%나 향상시키는 성과를 거두었습니다. 이는 VideoLLM이 제한된 자원으로도 긴 비디오를 효율적이고 정확하게 이해할 수 있는 실용적인 길을 열었다는 점에서 중요한 의의를 가집니다.

쉬운 설명 (Easy Explanation)

이 논문의 핵심 아이디어:

우리가 긴 영화를 볼 때, 친구가 **"주인공이 악당을 만나기 전 상황을 알려줘"**라고 물었다고 가정해 봅시다.

기존 방식 1 (Uniform Pruning): 영화의 모든 장면을 듬성듬성 대충 봅니다. 중요한 장면도 대충 넘길 수 있습니다.
기존 방식 2 (Keyframe Selection): '악당 만남' 장면만 딱 골라보고 나머지는 아예 필름을 잘라버립니다. 이러면 앞뒤 문맥이 끊겨서 왜 만났는지 이해가 안 될 수 있습니다.
이 논문의 방식 (LGTTP): 질문에 "전(before)"이라는 단어가 있으니, 악당을 만나기 이전 부분은 꼼꼼하게(토큰 많이) 보고, 만난 이후 부분은 아주 빠르게 훑어(토큰 조금, 하지만 아예 안 보지는 않음) 봅니다.

즉, **"질문이 가리키는 시간대는 자세히 보고, 나머지는 흐름만 파악할 정도로 대충 보자"**는 전략으로, 컴퓨터가 비디오를 처리하는 '에너지(계산량)'는 크게 아끼면서도 '정답'은 정확하게 맞추게 만든 기술입니다.

1. Input (입력)
사용자가 비디오 파일과 시간적 단서(예: "before", "during")가 포함된 **자연어 질문(Query)**을 입력합니다.

2. Visual Encoding (시각 정보 변환)
비디오의 모든 프레임을 Vision Encoder에 통과시켜, 컴퓨터가 처리할 수 있는 **기초 시각 토큰(Visual Embeddings)**들로 변환합니다.

3. Temporal Cue Extraction (시간 단서 추출 & 분류)
동시에 **학습된 분류기(Classifier)**가 질문을 분석하여, 이 질문이 전(Before) / 후(After) / 동시(During) 중 어떤 시간 관계인지 유형을 판별합니다.

4. Weight Generation (시간 가중치 곡선 생성)
판별된 유형에 따라 프레임별 중요도를 조절할 수학적 곡선(예: 우하향 직선, 종 모양 곡선 등)을 생성합니다.

5. Temporal Adaptation (시간 정보 주입)
시각 토큰들이 순서를 알 수 있도록, 학습된 Temporal Adapter가 각 프레임 토큰에 **시간 위치 정보(Positional Embedding)**를 더해줍니다.

6. Relevance Scoring (최종 중요도 계산)
[질문과 이미지의 유사도]에 [4번에서 만든 시간 가중치]를 반영하여, 각 프레임이 몇 개의 토큰을 가질 자격이 있는지 최종 점수를 매깁니다.

7. Adaptive Token Pruning (적응형 가지치기)
점수에 비례해 토큰 개수를 할당하되, 점수가 낮은 프레임도 최소한(약 10%)은 남기는 Soft Selection 방식으로 **실제 토큰을 감축(Pruning)**합니다.

8. LLM Processing (거대 언어 모델 입력)
가지치기를 통해 용량은 65% 줄었지만 시간 맥락은 보존된 토큰들만 **LLM(Large Language Model)**에 입력합니다.

9. Output (출력)
LLM이 효율적으로 압축된 비디오 정보를 바탕으로, 사용자의 질문에 맞는 정확한 답변을 생성합니다.

'논문리뷰' 카테고리의 다른 글

VLM : 빠른 논문 리뷰 : TIMESEARCH-R: ADAPTIVE TEMPORAL SEARCH FOR LONG-FORM VIDEO UNDERSTANDING VIA SELF VERIFICATION REINFORCEMENT LEARNING (0)	2026.01.02
VLM : 빠른 논문 리뷰 : Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models (0)	2026.01.02
Diffusion : 논문 리뷰 : SELECTIVE UNDERFITTING IN DIFFUSION MODELS (0)	2025.12.29
VLM : 빠른 논문 리뷰 : Recursive Inference Scaling: A Winning Path to Scalable Inference in Language and Multimodal Systems (0)	2025.12.29
Diffusion : 빠른 논문 리뷰 : Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models (0)	2025.12.24

'논문리뷰' Related Articles

AI바라기의 인공지능

VLM : Language-Guided Temporal Token Pruning for Efficient VideoLLM Processing 본문

VLM : Language-Guided Temporal Token Pruning for Efficient VideoLLM Processing

용어 설명 (Terminology)

Purpose of the Paper

Key Contributions

Experimental Highlights

Limitations and Future Work

Overall Summary

쉬운 설명 (Easy Explanation)

'논문리뷰' 카테고리의 다른 글

티스토리툴바