AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models 본문
VLM : 빠른 논문 리뷰 : Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models
AI바라기 2026. 1. 2. 17:23용어 설명 (Terminology)
- QTSplus (Query-aware Token Selector Plus): 이 논문에서 제안하는 핵심 모듈로, Vision Encoder와 LLM 사이에 위치합니다. 사용자의 텍스트 질문(Query)에 따라 비디오의 시각적 토큰 중 가장 중요한 정보만을 동적으로 선별하는 역할을 수행합니다.
- Token Bottleneck: 긴 비디오를 처리할 때 Vision Encoder가 생성하는 토큰 수가 너무 많아져 LLM의 연산량과 메모리 사용량이 급증하는 현상입니다.
- Adaptive Budget Estimation: 고정된 수의 토큰만 남기는 것이 아니라, 질문의 난이도나 정보의 분산 정도에 따라 남길 토큰의 비율(retention fraction rho)을 모델이 스스로 결정하는 메커니즘입니다.
- Visual Token: 비디오의 각 프레임을 패치(patch) 단위로 쪼개어 Vision Transformer 등을 통해 벡터화한 데이터입니다. 긴 비디오일수록 이 개수가 선형적으로 증가합니다.
- Gumbel-Softmax: 학습 과정에서 미분 불가능한 discrete한 선택(토큰을 버릴지 말지 결정) 과정을 미분 가능하게 만들어주기 위해 사용하는 확률적 테크닉입니다.
- Teacher Distillation: 이미 학습된 큰 모델(Teacher, 여기서는 원본 Qwen2.5-VL)의 지식을 작은 모델이나 효율적인 구조(Student, 여기서는 QTSplus가 적용된 모델)에 전달하여 학습시키는 방법론입니다.
Purpose of the Paper
- Linear Growth Problem 해결: 기존 MLLMs는 비디오 길이가 길어질수록 Vision Token 수가 선형적으로 증가하여 Attention cost와 메모리가 폭발하는 문제가 있었습니다. 이를 해결하기 위해 입력 프레임을 단순히 줄이거나(pre-truncate) 과도하게 다운샘플링하면, "세 번째 나사가 조여진 순간"과 같은 미세한 시간적 단서(fine-grained temporal cues)를 잃게 되는 한계를 극복하고자 했습니다.
- Static Compression의 한계 극복: Q-Former나 Perceiver Resampler와 같은 기존 방식은 고정된 개수의 쿼리나 정적인 압축률을 사용하여, 질문에 따라 정보량이 달라져야 하는 상황(좁은 구간 탐색 vs 전체 요약)에 유연하게 대처하지 못했습니다. 이 논문은 Query에 따라 필요한 정보량과 위치가 다르다는 점에 착안하여 동적 토큰 선택 방식을 제안했습니다.
Key Contributions & Novelty
Key Contributions
- QTSplus Module: 기존 MLLM(Qwen2.5-VL)에 플러그인 형태로 삽입 가능한 경량화 모듈을 제안했습니다. 이는 Cross-attention을 통해 토큰의 중요도를 채점(scoring)하고, 쿼리의 복잡도에 따라 예산(budget)을 예측하여 토큰을 선별합니다.
- Adaptive Budgeting: 단순히 Top-k개를 뽑는 것이 아니라, 쿼리 임베딩, 전체 토큰 수, 중요도 점수의 엔트로피(entropy), 최대 중요도(peak relevance) 등 4가지 요소를 고려하여 인스턴스별로 최적의 토큰 유지 비율을 예측합니다.
- Absolute Time Re-encoding: 선별된 토큰들이 시간적 순서를 잃지 않도록 절대 시간 정보를 포함한 작은 Re-encoder를 통과시켜, LLM이 비디오의 시간적 흐름(temporal consistency)을 이해할 수 있도록 했습니다.
- Efficient Distillation Pipeline: Qwen3-235B(Text)와 Qwen2.5-VL(Vision)을 활용해 자동화된 QTS-VSCQ(객관식), QTS-VQA(주관식) 데이터셋을 구축하고, 이를 통해 원본 모델의 성능을 효율적인 모델로 증류(Distillation)했습니다.
Novelty
- 기존의 Token Merging이나 Token Pruning이 비디오 내용이나 텍스트 쿼리와 무관하게 혹은 단순히 시각적 유사도만으로 압축했던 것과 달리, Text Query와의 Cross-attention을 기반으로 '지금 질문에 필요한 시각 정보'만을 남기는 점이 독창적입니다.
- 고정된 개수(Fixed budget)가 아닌, 정보의 밀도와 질문의 성격에 따라 토큰 개수를 동적으로 조절하는 Budget Head를 도입한 점이 차별화됩니다. (예: 특정 시점을 묻는 질문은 적은 토큰, 전체 요약은 많은 토큰 할당)
Experimental Highlights
- Experimental Setup:
- Base Model: Qwen2.5-VL (3B, 7B)
- Benchmarks: Video-MME, LVBench, MLVU (Long video tasks), TempCompass (Temporal aspect tasks)
- Metric: Accuracy, End-to-End Latency, Vision Embedding Count
- Key Results:
- Efficiency: 긴 비디오에서 Vision Stream을 최대 89% 압축하고, End-to-End Latency를 28% 감소시켰습니다. (NVIDIA A100 기준)
- Performance: 원본 모델(Teacher)과 비교했을 때 대부분의 벤치마크에서 대등하거나 소폭 향상된 성능을 보였습니다.
- Temporal Reasoning: 특히 시간적 순서 파악이 중요한 TempCompass 벤치마크에서 Direction 정확도 +20.5점, Order 정확도 +5.6점이라는 압도적인 성능 향상을 달성했습니다. 이는 불필요한 노이즈 토큰을 제거하여 모델이 핵심 사건에 집중하게 만든 결과입니다.
- Scaling: 비디오 프레임 수가 증가해도 실제 LLM에 입력되는 토큰 수는 매우 완만하게 증가하여, 긴 비디오 처리에 특화됨을 입증했습니다.
Limitations and Future Work
- Limitations:
- Dense-evidence Tasks: Video-MME나 MLVU와 같이 비디오 전체에 걸쳐 정보가 흩어져 있는(dense-evidence) 작업에서는 약간의 성능 저하(3점 이내)가 관찰되었습니다. 이는 과도한 압축이 전역적인 맥락을 일부 놓칠 수 있음을 시사합니다.
- Future Work:
- Curriculum & Budget Scheduling: 더 넓은 범위의 커버리지가 필요한 작업을 위해, 학습 과정에서 budget을 스케줄링하거나 커리큘럼 학습을 도입하는 방향을 제시했습니다.
- Streaming & Continual Inference: 시간이 지남에 따라 예산(budget)이 진화하는 스트리밍 방식이나 연속적인 추론 환경으로의 확장을 계획하고 있습니다.
- Multi-query Interaction: 현재는 단일 쿼리에 최적화되어 있으나, 다중 쿼리 상호작용 및 멀티 카메라 입력으로 QTSplus를 확장할 예정입니다.
Overall Summary
이 논문은 긴 비디오 이해를 위해 QTSplus라는 쿼리 인식형 토큰 선택 모듈을 제안하여, MLLM의 고질적인 문제인 Vision Token 폭증 문제를 해결했습니다. 텍스트 질문에 따라 필요한 시각 정보만을 동적으로 선별하고 압축함으로써 연산 효율성을 획기적으로 높이면서도, 원본 모델의 성능을 유지하거나 시간적 추론 능력(TempCompass)을 대폭 향상시켰습니다. 이 연구는 제한된 컴퓨팅 자원으로도 시간 단위의 긴 비디오를 정밀하게 분석할 수 있는 현실적인 길을 열어주었으며, 향후 Real-world Long-video Understanding 분야에 큰 영향을 미칠 것으로 기대됩니다.
쉬운 설명 (Easy Explanation)
이 논문의 핵심 아이디어는 **"오픈북 시험을 칠 때 책의 모든 페이지를 다 읽는 것이 아니라, 질문과 관련된 페이지만 골라서 읽는 것"**과 비슷합니다.
- 기존 방식 (Standard MLLMs): 1시간짜리 비디오가 있으면, 처음부터 끝까지 모든 장면을 다 비전 토큰으로 바꿔서 LLM에게 던져줍니다. 이건 마치 시험 문제와 상관없이 교과서 전체를 달달 외우고 들어가는 것과 같아서 머리(메모리)가 아프고 시간(연산량)도 오래 걸립니다.
- 제안 방식 (QTSplus): 사용자가 "주인공이 빨간 차를 타는 순간이 언제야?"라고 물으면(Query), 이 모듈이 비디오 전체에서 '빨간 차'와 관련된 장면만 쏙쏙 뽑아냅니다(Scoring & Selection). 그리고 질문이 얼마나 어려운지에 따라 몇 장의 장면을 뽑을지도 스스로 결정합니다(Adaptive Budget). 결과적으로 LLM은 압축된 핵심 장면만 보고도 빠르고 정확하게 정답을 맞힐 수 있게 됩니다.
주인장 이해
1. 입력 (Input)
수만 장의 프레임으로 이루어진 긴 비디오와 사용자의 텍스트 질문이 들어옵니다.
2. 비전 인코더 (Vision Encoder)
비디오 프레임을 ViT(Vision Transformer)에 통과시켜 수십만 개의 **비전 토큰(의미를 가진 벡터들)**으로 변환합니다.
3. 텍스트 임베딩 (Text Embedding)
사용자의 질문 텍스트를 토크나이징하고 임베딩하여 텍스트 쿼리 벡터로 만듭니다.
4. 크로스 어텐션 채점 (Scoring)
**텍스트(질문)**와 **비전 토큰(영상)**을 교차 어텐션하여, 각 비디오 토큰이 질문과 얼마나 관련 있는지 중요도 점수를 매깁니다.
5. 예산 예측 (Adaptive Budgeting)
별도의 작은 신경망이 질문의 난이도를 보고 몇 개의 토큰(n개)을 남길지 결정합니다. (사용자님 통찰대로 학습 구색 맞추기용일 가능성이 높습니다.)
6. 토큰 선별 (Token Selection)
계산된 점수를 바탕으로 상위 n개의 핵심 토큰만 남기고 나머지는 버립니다. (추론 시에는 점수 높은 순서대로 자르는 Top-k 사용)
7. 재인코딩 (Re-encoding)
살아남은 토큰들이 시간 순서를 잊지 않도록 절대 시간 정보를 더해주고, 가벼운 레이어로 한 번 더 다듬습니다.
8. 결합 (Concatenation)
압축된 비전 토큰들과 아까 만들어둔 텍스트 쿼리 벡터를 하나의 긴 줄로 이어 붙입니다.
9. LLM 처리 (LLM Processing)
LLM이 이 이어진 데이터를 읽고, 압축된 시각 정보와 텍스트 질문을 통합해 추론을 시작합니다.
10. 최종 출력 (Final Output)
LLM이 답변을 생성하여 최종 텍스트 답변을 내놓습니다.
