AI바라기의 인공지능
VLM : 논문리뷰 : An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models 본문
VLM : 논문리뷰 : An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models
AI바라기 2025. 1. 19. 19:32An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models
Purpose of the Paper
기존 Large Vision-Language Models (LVLMs)는 이미지 처리에 있어 비효율적인 attention 연산으로 인해 inference 속도가 느리다는 문제점이 있었다. 특히, LLaVA-1.5, QwenVL-Chat, Video-LLaVA와 같은 모델에서 이미지 토큰에 대한 attention 연산이 deep layers에서 매우 비효율적임을 발견했다. 본 논문은 이러한 문제를 해결하기 위해 FastV라는 새로운 plug-and-play 방식의 inference 가속화 기법을 제안한다. FastV는 early layers에서 adaptive attention patterns을 학습하고 이후 layers에서 visual tokens을 pruning 함으로써 계산 효율성을 최적화하는 것을 목표로 한다.
Key Contributions
- Inefficient Visual Attention Phenomena 규명: Prevailing LVLMs에서 발생하는 비효율적인 visual attention 현상을 식별하고 분석했다. Deep layers에서 image tokens이 system prompts 대비 현저히 낮은 attention scores를 받는다는 사실을 실험적으로 확인했다.
- FastV 제안: Visual attention 현상에 대한 관찰을 바탕으로 LVLMs의 inference cost를 크게 줄이는 plug-and-play 방식의 FastV를 제안했다. FastV는 특정 layer (K) 이후부터 attention scores가 낮은 image tokens을 동적으로 pruning 하여, 성능 저하 없이 inference 속도를 향상시킨다.
- 다양한 LVLMs 및 Task에 대한 검증: FastV의 효과를 LLaVA, Qwen-VL-Chat 등 다양한 LVLMs와 image captioning, VQA, multimodal reasoning, video QA 등 여러 vision-language tasks에 대해 철저한 실험을 통해 입증했다.
Novelty
- LLM 기반 Visual Token Pruning: LVLMs에서 LLM의 signal을 기반으로 visual tokens을 pruning 하는 최초의 연구이다. 기존 Vision-Language Models (VLMs) 연구는 주로 Vision Transformers (ViTs)에 대한 token reduction에 집중했던 반면, FastV는 다양한 vision-language tasks에 대한 interface로 language를 사용하는 LVLMs에 대한 visual token reduction을 탐구한다.
- Plug-and-Play 방식: 모델 retraining 없이 모든 LVLM에 적용 가능한 plug-and-play 방식을 제안한다. 이는 FastV의 실용성과 범용성을 크게 향상시킨다.
- Video-QA 및 LVLM Benchmarks에서의 Token Reduction 효과 입증: Video-QA 및 다양한 LVLM benchmarks에서 token reduction의 효과를 최초로 입증했다.
Experimental Highlights
- FLOPs 감소: LLaVA-1.5-13B 모델에 FastV를 적용하여 Nocaps, Flickr30k, A-OKVQA, MMMU tasks 평균 성능 저하 없이 45%의 FLOPs 감소를 달성했다.
- Latency 감소: A-OKVQA task에서 LLaVA-1.5-13B 모델에 FastV를 적용하여 LLaVA-1.5-7B 모델보다 낮은 latency를 달성하면서도 더 우수한 성능을 보였다.
- 높은 Customizable 및 Pareto-Efficient: FastV는 filtering layer (K)와 filtering ratio (R) 조정을 통해 computational efficiency와 performance trade-off를 정밀하게 제어할 수 있으며, Pareto-efficient를 달성한다.
- 다양한 Fine-grained Benchmarks 및 Models 적용: InstructBLIP, SciQA-IMG, SeedBench, MMVet, MME 등 다양한 benchmarks와 models에 FastV를 적용하여 그 효과를 검증했다. 특히, MME benchmark의 fine-grained score 분석을 통해 FastV가 perception, cognition, action, OCR 등 다양한 능력에 미치는 영향을 심층적으로 분석했다.
- Video Understanding 성능 향상: TGIF, MSVD, MSRVTT 등 video understanding tasks에서 FastV를 통해 성능 향상과 함께 40% 이상의 FLOPs 감소를 달성했다. 이는 video understanding에서 발생하는 심각한 redundancy information 문제를 FastV가 효과적으로 완화할 수 있음을 보여준다.
- Ablation Studies: K와 R 값에 따른 성능 및 FLOPs 변화, visual token pruning vs. less visual tokens training, token pruning strategy 등에 대한 ablation studies를 통해 FastV의 작동 원리와 효과를 다각도로 분석했다.
Limitations
- Q-Former 기반 모델: Q-Former를 사용하는 InstructBLIP과 같은 모델에서는 FastV 적용 시 LLaVA 대비 약간의 성능 저하가 발생할 수 있다. 이는 Q-Former가 image tokens을 초기에 줄이기 때문에 정보 손실이 발생하기 때문이다.
- Attention-based Pruning: FastV는 attention scores 기반 pruning을 사용하기 때문에 attention mechanism에 의존적이다.
Future Work
- 다양한 Attention Mechanism에 대한 연구: Attention scores 외에 다른 기준을 사용한 pruning 기법 연구가 필요하다.
- Hardware-aware Optimization: FastV의 hardware-level optimization을 통해 inference 속도를 더욱 향상시킬 수 있을 것이다.
- Training 단계 적용: FastV를 training 단계에 적용하여 모델의 효율성을 더욱 개선할 수 있을 것이다.
- 더 넓은 범위의 LVLMs 및 Tasks에 대한 검증: 더 다양한 LVLMs 및 tasks에 FastV를 적용하여 그 효과를 검증할 필요가 있다.
- Visual Token 중요도에 대한 심층 분석: Visual tokens의 중요도를 더 정확하게 파악하기 위한 추가적인 연구가 필요하다.
Abstract.
본 연구에서는 LLaVA-1.5, QwenVL-Chat, Video-LLaVA와 같은 저명한 models을 포함한 Large Vision-Language Models (LVLMs)에서 비효율적인 attention 현상을 확인했습니다. 우리는 인기 있는 LVLMs의 깊은 layers에서 visual tokens에 대한 attention 계산이 극도로 비효율적이라는 것을 발견했으며, 이는 텍스트 데이터 처리에 비해 더 sparser한 접근 방식이 필요함을 시사합니다. 이를 위해, 우리는 초기 layers에서 적응형 attention patterns을 학습하고 후속 layers에서 visual tokens을 pruning하여 계산 효율성을 최적화하도록 설계된 다재다능한 plug-and-play method인 FastV를 소개합니다. 우리의 평가는 FastV가 광범위한 이미지 및 비디오 이해 tasks에서 성능 저하 없이 계산 비용을 획기적으로 줄일 수 있는 능력(예: LLaVA-1.5-13B의 경우 FLOPs에서 45% 감소)을 입증합니다. FastV의 계산 효율성과 성능 trade-off는 고도로 customizable하고 Pareto-efficient 합니다. 13B-parameter model의 FLOPs를 압축하여 7B-parameter model보다 낮은 비용을 달성하면서도 우수한 성능을 유지할 수 있습니다. 우리는 FastV가 edge devices 및 commercial models에 LVLMs를 deployment하는데 실질적인 가치가 있다고 믿습니다.
Keywords: Large Vision-Language Model · Inference Acceleration
1 Introduction
Large Vision-Language Models (LVLMs)은 computer vision과 natural language processing 연구 모두에서 인기를 얻고 있습니다. 우리는 강력한 LVLMs를 기반으로 구축된 엄청난 창의적인 연구와 applications을 목격했습니다. 주어진 이미지를 설명하는 것부터 인터넷 탐색, 스마트폰 사용, 그리고 현실 세계에서의 의사 결정에 이르기까지, vision 능력을 갖춘 large language models은 우리가 AI systems과 상호 작용하는 방식을 재구성하고 있으며, 이는 language 또는 vision uni-modal models만으로는 달성할 수 없습니다.
현재 인기 있는 LVLMs의 대다수는 sequential visual representation에 의존하며, 이미지는 language prompts와 함께 LLM에 공급될 때 수백 또는 수천 개의 tokens으로 변환됩니다. LVLMs는 language 구성 요소에 내재된 진보된 창발적 능력을 활용하는 동시에 비용 증가와 관련된 계산 복잡성의 급증에 직면합니다. 이러한 복잡성은 Large Language Models (LLMs)의 숙련도가 주로 그 규모에 의해 영향을 받는다는 원칙에서 비롯됩니다. 이 맥락에서 아직 탐구되지 않은 두 가지 중요한 영역이 있습니다. 1) language models은 어떻게 이미지를 처리하고 해석하는가? 2) LLMs의 효율적인 training과 inference가 상당한 주목을 받았지만, LVLMs 내의 이러한 차원은 아직 철저히 검토되고 이해되지 않았습니다.

Fig. 1: FastV의 Efficiency/Performance trade-off 곡선. x축은 서로 다른 FastV configurations에서의 이론적 FLOPs 감소 비율을 나타냅니다. y축은 서로 다른 설정에서의 성능을 나타내며, {Nocaps (Cider), Flickr30k (Cider), A-OKVQA (Acc), MMMU (Acc)}의 평균 scores를 보고합니다. 우리는 FastV가 서로 다른 models에 대해 거의 성능 손실 없이 45%의 FLOPs 감소를 달성할 수 있음을 알 수 있습니다.
본 논문에서, 우리는 현재의 LVLMs가 실제로 이미지 정보를 처리하는 동안 비효율적인 방식을 적용한다는 사실을 밝힙니다. 구체적으로, 이미지 tokens은 LLaVA와 같은 token-based LVLMs 내에서 텍스트 상대방에 비해 현저히 낮은 attention scores를 받습니다. 불균형의 정도는 얕은 layers와 깊은 layers 사이에서도 다릅니다. 이미지 captioning tasks에서, 우리는 LLaVA 1.5와 같은 유명한 LVLMs의 깊은 layers(layer 2 이후) 내에서 이미지 tokens이 시스템 prompts에 귀속된 score의 0.21%에 불과한 평균 attention score를 얻는다는 것을 관찰했습니다. 대조적으로, 이 수치는 처음 두 layers에서 50%에 도달합니다. 이러한 관찰은 LVLMs 내에서 visual information의 최적 활용에 대한 의문을 제기합니다.
이 문제를 해결하기 위해, 우리는 그럴듯한 설명으로 visual signals의 높은 redundancy가 얕은 layers의 self-attention mechanism을 통해 이미지 관련, instruction-specific features를 특정 "anchor" tokens에 집계한다는 가정을 합니다. 특히, 이러한 anchor tokens은 이미지 tokens이 아닙니다. 깊은 layers에서 attentions은 이러한 anchor tokens에 집중되어 이미지 tokens 자체에 대한 attention이 크게 감소합니다.
이 현상은 LVLMs의 inference 비용을 줄이기 위한 dynamic image tokens pruning method인 FastV를 제안하도록 영감을 줍니다. 우리의 발견은 흥미로운 가능성을 시사합니다. 깊은 layers에서 이미지 tokens이 감소된 attention으로 인해 output generation에 최소한으로 기여한다는 점을 감안할 때, 이러한 단계에서 제거하는 것을 고려하지 않겠습니까? FastV는 LLM의 특정 layer에서 image token pruning strategy를 구현합니다. 이 layer 이전에는 계산이 평소와 같이 진행됩니다. 이 선택된 layer를 넘어서면, 이미지 tokens은 평균적으로 수신된 attention scores를 기반으로 재평가됩니다. 미리 정의된 attention score threshold보다 낮은 tokens은 후속 layers에서 선택적으로 폐기되어 가장 영향력 있는 tokens에 집중함으로써 프로세스를 간소화합니다.
sparse attention과 같은 inference를 가속화하기 위한 다른 attention-based methods와 비교할 때, FastV의 가장 두드러진 차이점은 tokens을 직접 제거한다는 것입니다. 이 접근 방식은 self-attention module의 계산 요구를 우회할 뿐만 아니라 깊은 layers의 Feed-Forward Network (FFN) module도 우회합니다. 결과적으로, FastV는 LLaVA 및 Qwen-VL-Chat models에 대한 Figure 1의 실험에서 볼 수 있듯이, 비교적 높은 성능을 유지하면서 FLOPs에서 큰 이론적 감소를 달성합니다.
LLaVA-1.5-13B model에 대한 우리의 실험은 Nocaps, Flickr30K와 같은 captioning tasks, A-OKVQA, MMMU와 같은 multiple choice tasks, PCABench와 같은 복잡한 embodied reasoning task, OCR-VQA와 같은 detailed OCR ablitily를 요구하는 tasks, 더 challenging한 video understanding tasks, 그리고 MME, MMVet, SeedBench와 같은 더 fine-grained evaluation을 포함한 Vision-Language tasks의 조합에서 평균 성능을 희생하지 않고 layer 2 이후에 50%의 이미지 tokens을 필터링할 수 있음을 보여줍니다. A-OKVQA에 대한 우리의 latency 테스트 실험은 FastV를 사용한 LLaVA-13B model이 LLaVA-7B model보다 우수한 성능을 유지하면서 더 낮은 latency를 달성할 수 있음을 보여주었습니다. 이 결과는 LVLMs에서 속도와 정확성 간의 trade-off를 균형있게 조정하는 FastV의 효과를 강조합니다.
Researches는 LVLMs의 성능을 위해 image resolution을 향상시키는 것의 중요성을 강조합니다. 그러나 증가된 resolution은 더 긴 image token sequence 및 inference latency와 같은 계산 비용 증가를 포함한 자체적인 문제를 수반한다는 점에 주목하는 것도 중요합니다. 우리는 또한 서로 다른 strides의 pooling layer를 설정하여 다양한 image feature resolution에서 LVLM을 training하는 실험을 수행합니다. 구체적으로, 동일한 수의 image tokens을 사용하면 FastV가 장착된 models이 더 높은 resolution의 이미지를 처리할 수 있어 더 낮은 resolution features로 제한된 models보다 더 나은 성능을 보입니다. 이 발견은 추가적인 inference 비용을 발생시키지 않고 image resolution을 높여 downstream 성능을 향상시킬 수 있는 잠재력을 강조합니다.
요약하면, 이 연구의 기여는 세 가지입니다.
- 널리 사용되는 LVLMs에서 비효율적인 visual attention 현상을 식별하고 분석합니다.
- 우리의 관찰에서 영감을 받아 성능 저하 없이 LVLMs의 inference 비용을 크게 줄이는 plug-and-play method인 FastV를 제안합니다.
- 철저한 ablations을 통해 다양한 LVLMs 전반에 걸쳐 광범위한 vision-language tasks에 대한 FastV의 효과를 검증합니다.
핵심 문제의식:
- 기존 Large Vision-Language Models (LVLMs)은 비효율적인 visual attention 방식을 사용하고 있다.
- 특히, deep layers에서 image tokens에 대한 attention scores가 text tokens에 비해 현저히 낮다. (예: LLaVA 1.5에서 image tokens의 attention score는 system prompts의 0.21%에 불과, 초기 layers에서는 50%)
- 이는 visual information의 최적 활용에 대한 의문을 제기한다.
FastV의 핵심 아이디어:
- 가설: visual signals의 높은 redundancy로 인해, shallow layers의 self-attention이 image-related, instruction-specific features를 특정 "anchor" tokens (image tokens 아님)에 집중시킨다.
- Deep layers에서는 attention이 이 "anchor" tokens에 집중되어 image tokens에 대한 attention은 감소한다.
- 따라서, deep layers에서는 image tokens이 output generation에 최소한으로 기여하므로, 이들을 제거(pruning) 해도 성능에 큰 영향이 없을 것이다.
- FastV: 특정 layer부터 image token pruning을 수행하는 dynamic pruning method
- 해당 layer 이전에는 일반적인 계산 수행
- 이후에는 평균 attention scores 기반으로 image tokens 재평가
- Threshold 이하의 tokens은 후속 layers에서 제거
- Self-attention 및 FFN 계산량 모두 감소
FastV의 차별점:
- 직접적인 token 제거: 다른 attention-based acceleration methods (e.g., sparse attention)와 달리, 계산 자체를 생략하여 FLOPs를 크게 감소시킨다.
- High performance 유지: 실험 결과, LLaVA-1.5-13B에서 50%의 image tokens을 layer 2 이후에 제거해도 다양한 vision-language tasks (captioning, VQA, etc.)에서 평균 성능 유지
- Latency 감소: A-OKVQA에서 FastV를 적용한 LLaVA-13B가 LLaVA-7B보다 낮은 latency와 우수한 성능 달성
- Resolution 증가: 동일한 수의 image tokens에서 FastV는 더 높은 resolution의 이미지 처리를 가능하게 하여, 추가 inference 비용 없이 downstream 성능 향상 가능
주요 기여:
- LVLMs의 비효율적인 visual attention 현상을 최초로 식별 및 분석
- Plug-and-play 방식의 FastV 제안: 성능 저하 없이 inference cost를 획기적으로 감소
- 다양한 vision-language tasks와 LVLMs에서 FastV의 효과 검증 및 ablations 제공
결론:
FastV는 LVLMs의 근본적인 비효율성을 해결하는 새로운 관점을 제시하며, 실질적인 성능 향상과 비용 절감을 동시에 제공하는 획기적인 방법론으로 평가될 수 있다. 특히 edge devices 및 commercial models deployment에 큰 가치를 지닐 것으로 기대된다.
2 Related Work
Large Vision-Language Model. LLM의 발전으로부터 이점을 얻고 visual information을 LLM에 통합하기 위해, Large Vision-Language Models은 Visual Prompt Generator를 활용하여 visual embeddings을 language model이 이해할 수 있는 prompts로 변환하며, 이는 필요한 tokens의 상당한 증가를 초래합니다. 더 높은 resolution의 이미지를 처리하려면 필연적으로 필요한 tokens 수의 2차 증가가 필요합니다. 예를 들어, LLAVA는 336x336 이미지를 576 tokens으로 처리하고 더 큰 resolution의 672x672 이미지를 2304 tokens으로 처리합니다. Fuyu는 유사하게 1080x1080의 pixel-level 이미지를 1296 tokens으로 변환합니다. 여러 이미지 또는 비디오를 이해하고 생성하는 것 또한 본질적으로 vision information에 대한 tokens 수의 증가를 요구합니다. Video-Poet과 Unified-IO2는 모두 여러 이미지 또는 비디오의 이해와 생성을 용이하게 하기 위해 context 내에 수천 개의 tokens을 예약해야 합니다. Gemini 및 LWM과 같은 Large multimodal models은 강력한 world model 이해를 개발하고 context 요구 사항 증가 문제를 해결하기 위해 context 길이를 1M으로 확장하는 데 있어 긴 context의 중요성을 강조합니다.

Fig. 2: LVLM의 Classic network architecture. Image tokens과 다양한 유형의 text tokens이 LLM에 input으로 전송됩니다. LLM은 auto-regressive 방식으로 input tokens과 이전 output을 조건으로 output tokens을 생성합니다.
Inference Optimization for LLM. LLMs에서 효율적인 inference는 각 token 예측이 이전 context에 의존하는 autoregressive generation으로 인해 어려움을 겪습니다. 따라서 training 중 계산 attention의 2차 복잡도를 고려할 때 context 길이가 증가함에 따라 generation이 점진적으로 느려집니다. 이러한 문제를 해결하기 위해 선구적인 연구는 두 가지 범주로 나뉩니다. FlashAttention, vLLM 및 RingAttention과 같이 attention module의 memory consumption을 최적화하는 methods는 결과에 급격한 변화가 없음을 보장하고, StreamingLLM 및 FastGen과 같이 중복 attention 계산을 pruning하여 계산을 단순화하는 methods입니다. 우리는 LLM의 inference에서 관찰된 뚜렷한 attention patterns에서 영감을 받아 제안되었기 때문에 두 번째 종류의 methods에 관심이 있습니다. 이러한 methods가 LLMs의 inference 효율성을 향상시켰지만 text-only language models을 위해 설계되었으며 LVLMs로 그 효과가 이전될 수 있는지 여부는 아직 탐구되지 않았습니다. LVLMs에서 long-context를 효율적으로 처리하려는 이전 작업(예: LLaMA-VID)이 있으며, 이는 cross-attention을 활용하여 각 video frame을 두 개의 주요 tokens으로 효과적으로 represent하지만 추가적인 fine-tuning 단계의 필요성은 다양한 LVLMs에 대한 광범위한 적용 가능성을 방해합니다.
Token Reduction for VLMs. Large Vision-Language Models 시대 이전에 Vision-Language Models (VLMs)의 효율성을 향상시키는 것에 대한 연구가 있었습니다. 그들 중 대다수는 Vision Transformers (ViTs)에 대한 token reduction에 중점을 둡니다. EViT, SPViT 및 Pumer와 같은 다양한 methods가 ViTs를 위해 제안되었습니다. 더 최근에는 PYRA가 specialized token merging technique을 통해 ViTs의 training과 inference를 향상시켰습니다. FastV는 다양한 vision-language tasks를 위한 interface로 language를 사용하는 Large Vision-Language Models (LVLMs)에 대한 visual token reduction을 탐구한 최초의 시도입니다. FastV는 visual tokens의 pruning을 안내하기 위해 LLM의 signal을 활용하며, 이는 이전에 탐구되지 않은 strategy입니다. 우리는 video-QA 및 다양한 포괄적인 LVLM benchmarks에서 token reduction의 효과를 입증한 최초의 사례입니다. FastV가 이전 methods에 비해 갖는 또 다른 중요한 이점은 단순성입니다. model retraining 없이 모든 LVLM에 적용할 수 있습니다.
기존 연구 동향:
- Large Vision-Language Models (LVLMs)의 등장:
- Visual information을 LLM에 통합하기 위해 Visual Prompt Generator 사용
- 고해상도 이미지, 다중 이미지/비디오 처리는 필연적으로 token 수 증가 야기 (e.g., LLAVA, Fuyu, Video-Poet, Unified-IO2)
- Long context의 중요성 대두 (e.g., Gemini, LWM)
- LLM Inference 최적화:
- Autoregressive generation으로 인한 계산 복잡도 문제
- Memory 최적화: FlashAttention, vLLM, RingAttention
- 계산 단순화: StreamingLLM, FastGen (중복 attention 계산 제거)
- 본 논문은 계산 단순화에 초점
- 기존 방법들은 text-only LLMs에 초점: LVLMs에 대한 적용 가능성 미지수
- Vision-Language Models (VLMs)를 위한 Token Reduction:
- 주로 Vision Transformers (ViTs) 에 대한 연구 (e.g., EViT, SPViT, Pumer, PYRA)
- LVLMs에 대한 연구는 전무
FastV 논문만의 차별점:
- 최초로 LVLMs에서 visual token reduction 탐구
- LLM의 signal을 활용하여 visual token pruning 유도: 이전에 시도되지 않은 새로운 전략
- Video-QA 및 다양한 LVLM benchmarks에서 token reduction 효과 입증
- Model retraining 없이 모든 LVLM에 적용 가능한 단순하고 효과적인 방법
핵심:
- FastV는 기존의 ViT 중심 token reduction 연구와 차별화되며, LVLMs에 특화된 최초의 token reduction 방법론을 제시한다.
- LLM의 signal을 활용하는 새로운 pruning 전략은 FastV의 핵심적인 기여이며, 단순함과 효과성을 동시에 제공한다.
- FastV는 LVLMs의 inference 효율성을 개선하는 새로운 방향을 제시하며, long context 및 고해상도 이미지/비디오 처리 문제 해결에 기여할 수 있다.
결론:
FastV는 LVLMs의 효율성 문제를 해결하기 위한 독창적이고 실용적인 접근 방식을 제시하며, 기존 연구의 한계를 극복하고 새로운 연구 방향을 제시한다는 점에서 의의가 있다.
3 Inefficient Visual Attention in LVLMs
3.1 Preliminaries
이 섹션에서는 self-attention module의 관점에서 output generation 중에 LVLMs가 visual tokens을 처리하는 방법을 자세히 살펴봅니다. image-question pair (d, t)에 대해 주어진 LVLM M은 일반적으로 transformer decoder 구조에서 auto-regressive 방식으로 answer yˆ = M(d, t)를 예측합니다.
(1)
이미지와 텍스트를 모두 포함하는 Multimodal information은 transformer model에서 처리되기 전에 sequential embeddings으로 변환됩니다. 이미지의 경우, 일반적으로 사용되는 접근 방식은 CLIP-VIT와 같은 pre-trained encoder를 사용하여 visual features를 추출하는 것입니다. 그런 다음 이러한 features는 spatial dimension을 제거하여 linearized 됩니다. 추가적인 linear transformations 또는 cross-attention modules은 visual features의 크기를 Large Language Model (LLM)의 embedding 크기와 일치시키고 semantic alignment를 달성하는 데 사용됩니다. 텍스트와 관련하여 tokenizer는 natural language를 개별 tokens으로 분해한 다음 embedding 조회를 수행하여 text embeddings을 형성합니다. 이 문서의 나머지 부분에서 우리는 'visual tokens'과 'text tokens'을 단순한 visual 및 텍스트 데이터의 개별 단위가 아니라 이러한 단위에서 파생된 embeddings으로 지칭합니다.
그림 2에서 볼 수 있듯이 이미지와 text token을 통합된 embedding 공간으로 전처리한 후 transformer decoder에 공급하여 output tokens을 생성합니다. 각 decoding 단계의 input tokens은 system prompt (sys), image tokens (img), user instruction (ins), output tokens (out)의 네 가지 유형으로 분류할 수 있습니다. LVLMs에 대한 system prompts는 일반적으로 backbone LLM을 상속하며, LLM의 동작을 제어하는 일반적인 메시지로 사용되며, 이는 LLM의 instruction tuning 단계에서 결정됩니다. Image tokens은 pre-trained vision encoder에 의해 변환된 linearized image features입니다. User instruction은 주어진 이미지에 대한 query question을 지정합니다. Output tokens은 이전 tokens을 조건으로 단계별로 생성됩니다.
3.2 Experiment Settings
LVLMs가 image tokens을 처리하는 방법을 탐구하기 위해 먼저 image caption (Flickr30K), embodied reasoning (PCABench), visual question answering (A-OKVQA), multimodal understanding and reasoning (MMMU)을 포함한 vision language tasks의 조합에서 N개의 image-text pairs D = {(d1, t1), ..., (dN, tN)}를 무작위로 샘플링한 다음 LVLM에 N개의 responses Yˆ = {yˆ1, ..., yˆN}을 생성하도록 prompt합니다.
하나의 response의 decoding 과정에서 서로 다른 layers에 있는 각 output tokens의 attention score distribution α를 수집하고 서로 다른 유형의 input tokens에 대해 합산합니다. 즉, i번째 token의 j번째 layer에서 αi,jsys, αi,jimg, αi,jins, αi,jout을 계산하여 현재 token이 system prompt, image tokens, user instruction 및 output tokens에 부여하는 총 attention score를 나타냅니다.
(2)
한 가지 유형의 tokens이 한 layer에서 받은 총 attention score를 나타내기 위해 총 attention 할당 λ를 계산합니다. 예를 들어, layer j에서 system prompt의 총 attention은 다음과 같습니다.
(3)
여기서 n은 response의 tokens 수입니다. 최종 attention 할당은 샘플링한 N개의 image-text pairs의 모든 attention heads에 대해 평균화됩니다.
다음으로, 하나의 response의 decoding 과정에서 한 layer에서 받은 유형별 token당 평균 attention score를 나타내기 위해 metric attention efficiency ϵ을 정의합니다. 예를 들어, layer j에서 image tokens의 attention efficiency는 다음과 같습니다.
(4)
여기서 |img|는 image tokens의 수이고, n은 response의 tokens 수입니다. 최종 attention efficiency는 샘플링한 N개의 image-text pairs의 모든 attention heads에 대해 평균화됩니다.
실험에서 N은 1000으로 설정하고 LVLM으로 LLaVA1.5-7B를 사용합니다. 원래 논문과 동일한 generation 구성을 따릅니다.

Fig. 3: 비효율적인 visual attention 현상을 보여주는 그림. 왼쪽 부분은 서로 다른 유형의 input tokens의 상대적 위치와 평균 개수를 보여줍니다. tokens은 self-attention module에서 이전 tokens에만 attend할 수 있습니다. 평균적으로 image tokens은 input tokens의 대부분(64%)을 차지합니다. 가운데와 오른쪽 부분은 shallow 및 deep layers에서의 평균 attention allocation λ와 attention efficiency ϵ을 보여줍니다. Image tokens은 deep layers에서 그 수에 비해 훨씬 적은 attention을 받습니다.
3.3 Results
다양한 유형의 input tokens에 대한 attention allocation λ 및 attention efficiency ϵ에 관한 attention pattern 통계에서 두 가지 주요 findings이 있습니다. 처음 2개의 layers를 shallow layer로 정의하고 나머지 30개의 layers를 deep layers로 정의합니다.
- Attention allocation과 attention efficiency는 모두 layer 깊이와 관련된 다양한 불균형 정도를 보입니다. 서로 다른 layer에서의 평균 attention allocation 및 efficiency는 그림 3에 나와 있습니다. Shallow layer에서는 attention allocation이 deep layers보다 상대적으로 더 균형 잡혀 있습니다. Shallow layer에서 output tokens은 이전 output tokens에 attend하는 경향이 있는 반면, deep layers에서는 system prompt에 attend하는 경향이 있습니다.
- Image tokens은 shallow 및 deep layers 모두에서 가장 낮은 attention efficiency를 보입니다. System prompt는 deep layers에서 매우 높은 attention efficiency를 가지며, 이는 image tokens의 472배이며 총 attention scores의 85%를 차지합니다.
3.4 Insights

Fig. 4: LLaVA1.5-7B의 한 model response에 대한 decoding 과정 중의 attention maps. 하단 layer에서는 attention이 서로 다른 유형의 tokens에 걸쳐 비교적 부드럽게 분포되어 있음을 알 수 있습니다. Deep layers에서는 local attention 외에도 attention scores가 system prompt, instruction 및 output tokens에 집중되고 image tokens에 대한 attention은 다소 sparse합니다.
이 통계는 LVLMs의 decoding 과정에서 놀라운 경향을 보여줍니다. image tokens은 input에서 대다수의 tokens을 차지함에도 불구하고 상당히 적은 attention을 받습니다. 반대로 최소한의 semantic information을 제공하는 system prompts가 가장 많은 attention scores를 끌어들입니다. 이 현상을 더 깊이 파고들기 위해 그림 4와 같이 model response의 decoding 과정에서 첫 번째, 중간 및 마지막 layers의 attention maps를 분석합니다. 모든 layers에 대한 attention maps는 보충 자료의 그림 7에 제공됩니다.
Attention visualization 결과에서 shallow layer에서는 attention scores가 서로 다른 tokens에 걸쳐 더 부드럽게 분포되어 있음을 알 수 있습니다. 반면 deep layer에는 전체 attention scores의 대부분을 차지하는 수직 강한 선(system prompt에 있음)이 있습니다. 수직 강한 선의 존재는 전체 decoding 과정에서 지속적으로 높은 attention을 받은 일부 input tokens이 있음을 보여줍니다. 이는 또한 통계에서 매우 불균형한 attention efficiencies를 설명합니다. 소수의 anchor tokens이 모든 input tokens의 정보를 집계하고 model은 deep layers에서 이러한 anchor tokens에 attend하는 것을 훨씬 선호합니다. 우리의 findings는 또한 에서 발견된 Large Language Model의 information flow와 일치합니다.
핵심 관찰:
- LVLMs에서 비효율적인 visual attention 현상 발견:
- Deep layers에서 image tokens에 대한 attention이 매우 낮음
- System prompt가 대부분의 attention을 차지 (image tokens 대비 472배, 85% 점유)
- Attention allocation과 efficiency 모두 layer 깊이에 따라 불균형 심화 (Fig. 3)
실험 설계:
- 다양한 vision-language tasks (captioning, VQA, reasoning)에서 1000개의 image-text pairs 샘플링 (LLaVA1.5-7B 사용)
- Decoding 과정에서 각 output token의 attention score distribution 수집 (Fig. 2)
- Input token type별 (sys, img, ins, out) attention score 합산
- Attention allocation (λ): token type별 총 attention score
- Attention efficiency (ϵ): token type별 평균 attention score (Fig. 3)
- Attention map 시각화를 통해 attention pattern 분석 (Fig. 4)
핵심 결론:
- Image tokens은 input의 대부분(64%)을 차지하지만 deep layers에서 매우 낮은 attention을 받음 (Fig. 3)
- Shallow layers에서는 attention이 비교적 고르게 분포 (Fig. 4, bottom)
- Deep layers에서는 system prompt, instruction, output tokens에 attention 집중 (Fig. 4, top)
- 소수의 "anchor" tokens (특히 system prompt)이 모든 input tokens의 정보를 집계하고, deep layers에서는 이 anchor tokens에 집중적으로 attend함
- 이 현상은 Large Language Model의 information flow와 일치
이 논문만의 핵심:
- LVLMs에서 비효율적인 visual attention 현상을 체계적으로 분석하고 정량화
- Attention map 시각화를 통해 deep layers에서의 attention 집중 현상을 직관적으로 제시
- "Anchor" tokens의 역할에 대한 새로운 관점 제시
- 실험 결과를 통해 기존 LLMs 연구와 연결
결론:
본 섹션은 LVLMs의 visual attention에 대한 심층적인 분석을 제공하며, deep layers에서 image tokens이 비효율적으로 처리되고 있음을 보여준다. 이는 FastV의 핵심 동기를 제공하며, 후속 연구를 위한 기반을 마련한다. 특히 "anchor" tokens의 역할은 추가 연구가 필요한 흥미로운 주제이다.
4 FastV
검증된 현상과 설명에서 얻은 insights를 바탕으로, 우리는 성능 저하 없이 LVLMs의 inference 비용을 줄이기 위한 솔루션으로 FastV를 제안합니다.

Fig. 5: FastV의 Illustration. 이미지 또는 비디오 입력(여러 이미지 frames)의 경우, 먼저 CLIP-VIT와 같은 pre-trained image encoder를 사용하여 visual tokens으로 변환된 다음 LLM decoder에 의해 처리됩니다. FastV는 input tokens의 forward process에서 K번째 layer 이후에 R%의 image tokens을 동적으로 prunes합니다. 우리는 출력에서 FastV가 정확성에 영향을 미치지 않으면서 상당한 FLOPs를 감소시킨다는 것을 알 수 있습니다. 출력에서 정확한 facts는 녹색으로 표시됩니다. 처음 세 개의 출력은 완전히 동일합니다.
4.1 Dynamically Prune Vision Tokens
그림 5는 FastV의 일반적인 idea를 보여줍니다. 핵심은 image token re-rank 및 filtering module입니다. 이는 하나의 ranking function fϕ와 두 개의 parameters(filtering layer K 및 filtering ratio R%)로 구성됩니다. LVLM의 K번째 layer에서 ranking function f는 input tokens의 sequence를 취하고 특정 중요도 기준 ϕ에 따라 순위를 매깁니다. 순위 지정 후 마지막 R% tokens은 이후 layers에서 pruned 됩니다. 우리는 실험에서 한 token이 다른 모든 tokens으로부터 받은 평균 attention-score를 기준 ϕattn으로 간단히 계산합니다. 극단적인 조건에서 K는 0으로 설정될 수도 있으며, image tokens은 language model로 전송되기 전에 pruned 되고, 우리는 image tokens이 무작위로 삭제되는 기준 ϕrand로 무작위 순위를 사용합니다.
FastV는 model을 training할 필요 없이 다양한 vision language tasks를 위해 서로 다른 token-based LVLMs에 plug-and-play 방식으로 적용 가능합니다. 그림 5와 같이 VideoLLaVA를 사용한 video understanding tasks를 예로 들어 보겠습니다.
4.2 Computing Cost Estimation
우리는 FLOPs 추정에서 multi-head attention (MHA) 및 feed-forward network (FFN) module의 계산을 고려합니다. 하나의 transformer layer에 대해 n을 token 수, d를 hidden state 크기, m을 FFN의 중간 크기라고 가정하면 총 FLOPs는 4nd^2 + 2n^2d + 2ndm으로 추정할 수 있습니다. 전체 model에 대해 FastV가 K번째 layer 이후에 tokens을 n에서 nˆ = (1−R%)·n으로 prune한다고 가정하고 전체 T개의 layers가 있다고 가정합니다. image tokens과 관련된 이론적 FLOPs 감소 비율은 다음과 같이 계산됩니다.
보충 자료의 그림 8에서 FastV의 parameter K와 R에 따라 FLOPs 감소 비율이 어떻게 변하는지 보여주는 3D 그래프를 그립니다.
4.3 Comparison: Training With Less Visual Tokens
FastV는 inference 단계에서 중복 visual tokens을 제거하여 계산 감소를 달성합니다. visual tokens을 줄이는 대안적인 방법은 더 적은 visual tokens으로 직접 training하는 것입니다. 이는 LVLM의 training 과정에서 visual encoder의 출력에 pooling을 수행하여 간단히 수행할 수 있습니다. 우리는 ablation studies(sec. 5.4)에서 FastV와 이 방법을 비교합니다.
FastV의 핵심 아이디어:
- 3 Inefficient Visual Attention in LVLMs 섹션에서 관찰된 비효율적인 visual attention 현상을 해결하기 위한 방법론
- Deep layers에서 image tokens에 대한 낮은 attention을 활용하여, inference 비용을 줄이면서 성능을 유지
- Image token re-rank 및 filtering module (Fig. 5)
- Ranking function (f): input tokens sequence를 중요도 기준 (ϕ) 에 따라 순위 매김
- Filtering layer (K): pruning을 시작할 layer 지정
- Filtering ratio (R%): pruning할 tokens 비율
- 실험에서는 평균 attention score를 중요도 기준(ϕattn)으로 사용
- 극단적인 경우 (K=0): language model에 전달되기 전에 image tokens pruning (ϕrand: 무작위 순위 사용)
FastV의 특징:
- Plug-and-play: 다양한 token-based LVLMs 및 vision-language tasks에 training 없이 적용 가능 (Fig. 5 예시: Video understanding with VideoLLaVA)
- 계산 비용 감소:
- FLOPs 감소: MHA 및 FFN module 계산량 감소
- 이론적 FLOPs 감소 비율:(n: token 수, d: hidden state 크기, m: FFN 중간 크기, K: filtering layer, R: filtering ratio, T: 전체 layer 수)
- (T - K) / T * (2n + d) / (2n + d + 2m / n) * R%
- K와 R에 따른 FLOPs 감소 비율 변화: 보충 자료 Fig. 8 참고
- 성능 유지: 정확성을 유지하면서 FLOPs 감소 (Fig. 5 출력 예시 참고, 녹색 표시 부분)
기존 Token Reduction 방법과의 비교:
- 대안: training 단계에서 더 적은 visual tokens 사용 (visual encoder 출력에 pooling 적용)
- FastV: inference 단계에서 중복 visual tokens 제거
- Ablation studies (sec. 5.4) 에서 두 방법 비교 예정
핵심:
- FastV는 deep layers에서 image tokens의 낮은 attention을 활용하는 새로운 pruning 방법론
- Plug-and-play 방식으로 다양한 LVLMs에 쉽게 적용 가능
- 성능 저하 없이 inference 비용을 크게 감소시키는 효과적인 방법
결론:
FastV는 LVLMs의 inference 효율성을 개선하는 실용적이고 효과적인 솔루션을 제공한다. 특히 edge devices 및 commercial models deployment에 유용할 것으로 기대된다. Ablation studies를 통해 기존 방법과의 비교 및 FastV의 효과를 더욱 명확히 검증할 예정이다.
