AI바라기의 인공지능
VLM : 논문리뷰 : LLAVA-MINI: EFFICIENT IMAGE AND VIDEO LARGE MULTIMODAL MODELS WITH ONE VISION TOKEN 본문
VLM : 논문리뷰 : LLAVA-MINI: EFFICIENT IMAGE AND VIDEO LARGE MULTIMODAL MODELS WITH ONE VISION TOKEN
AI바라기 2025. 1. 18. 19:30LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token 논문 정리
Purpose of the Paper
기존 large multimodal models (LMMs)은 visual inputs을 vision tokens으로 encoding하고 이를 large language models (LLMs)에 통합하는 방식을 사용합니다. 이 때, large-scale parameters와 특히 vision tokens의 수가 많아 상당한 computational overhead가 발생합니다. 기존의 efficient LMMs에 대한 연구는 주로 LLM backbone을 더 작은 models로 교체하는 데 중점을 두었지만, token quantity라는 중요한 문제를 간과했습니다.
이 논문의 특별한 목적은 vision tokens의 수를 최소화하면서도 visual information을 효과적으로 보존하는 efficient LMM인 LLaVA-Mini를 개발하는 것입니다. 이를 위해 LMMs가 vision tokens을 어떻게 이해하는지 분석하고, modality pre-fusion을 도입하여 vision tokens을 LLM backbone에 공급하기 전에 text tokens에 미리 융합함으로써, vision tokens을 단 one token으로 압축하는 방법을 제안합니다.
Key Contributions
- Modality Pre-fusion: LLaVA-Mini는 vision tokens과 text tokens 간의 상호 작용을 layer-wise analysis를 통해 분석합니다. 이를 바탕으로, early layers에서 vision tokens이 중요한 역할을 한다는 점에 착안하여, modality pre-fusion module을 도입합니다. 이 module은 visual information을 instruction text에 미리 융합하여, LLM backbone에 입력되는 vision tokens의 수를 크게 줄일 수 있습니다.
- Extreme Compression of Vision Tokens: Modality pre-fusion을 통해 visual information을 text tokens에 효과적으로 융합함으로써, LLaVA-Mini는 vision tokens을 단 one token으로 압축할 수 있습니다. 이는 기존 LLaVA-v1.5의 576개의 vision tokens과 비교했을 때 획기적인 압축률(0.17%)을 보여줍니다.
- Unified Multimodal Model: LLaVA-Mini는 images, high-resolution images, videos를 모두 효율적으로 처리할 수 있는 unified large multimodal model입니다.
- Significant Efficiency Improvements: LLaVA-Mini는 11개의 image-based benchmarks와 7개의 video-based benchmarks에서 LLaVA-v1.5와 comparable한 성능을 보이면서도, FLOPs를 77% 감소시키고, low-latency responses를 40ms 이내로 달성하며, 24GB memory의 GPU에서 10,000 frames 이상의 video를 처리할 수 있습니다.
Novelty
- Modality Pre-fusion for Token Reduction: 기존 연구들이 vision encoder의 output tokens 수를 줄이는 데 집중한 반면, LLaVA-Mini는 LLM backbone 내에서 vision tokens과 text tokens의 interaction을 분석하여 modality pre-fusion이라는 새로운 접근 방식을 제안합니다. 이를 통해 visual information 손실을 최소화하면서 vision tokens의 수를 획기적으로 줄일 수 있습니다.
- One Vision Token for Efficient Processing: LLaVA-Mini는 modality pre-fusion을 통해 visual information을 text tokens에 효과적으로 융합함으로써, 각 image를 단 one vision token으로 표현할 수 있습니다. 이는 LMMs의 efficiency를 극대화하는 새로운 패러다임을 제시합니다.
- Unified and Efficient Multimodal Understanding: LLaVA-Mini는 images, high-resolution images, videos를 모두 효율적으로 처리할 수 있는 unified model로서, 다양한 multimodal tasks에 적용될 수 있는 범용성과 효율성을 동시에 갖춘 최초의 model입니다.
Experimental Highlights
- Comparable Performance with Minimal Vision Tokens: LLaVA-Mini는 11개의 image-based benchmarks와 7개의 video-based benchmarks에서 단 one vision token만으로도 LLaVA-v1.5 (576 vision tokens)와 comparable한 성능을 달성했습니다. 이는 modality pre-fusion의 effectiveness를 입증합니다.
- Significant Efficiency Gains: LLaVA-Mini는 LLaVA-v1.5 대비 FLOPs를 77% 감소시켰고, inference latency를 100ms에서 40ms로 단축했습니다. 또한, GPU memory usage를 image 당 360MB에서 0.6MB로 줄여, 24GB memory의 GPU에서 10,000 frames 이상의 video를 처리할 수 있음을 보여주었습니다.
- High-Resolution Image and Long Video Processing: LLaVA-Mini는 minimal vision tokens을 사용하기 때문에 high-resolution images와 long videos를 효율적으로 처리할 수 있습니다. LLaVA-Mini-HD는 high-resolution images에서 LLaVA-v1.5보다 2.4% 향상된 성능을 보였고, long-form video benchmarks (MLVU, EgoSchema)에서도 우수한 성능을 보였습니다.
- Ablation Studies: Modality pre-fusion layers의 수와 vision tokens 수에 따른 성능 변화를 분석하여, modality pre-fusion의 중요성과 optimal configuration을 확인했습니다.
Limitations
- Dependence on Pre-trained Vision Encoder: LLaVA-Mini는 pre-trained CLIP vision encoder에 의존합니다. Vision encoder의 성능이 LLaVA-Mini의 성능에 영향을 미칠 수 있습니다.
- Limited Exploration of Compression Module: Query-based compression module의 hyperparameters (e.g., number of queries)에 대한 심층적인 분석이 부족합니다.
Future Work
- End-to-End Training: Vision encoder를 포함한 end-to-end training을 통해 LLaVA-Mini의 성능을 더욱 향상시킬 수 있습니다.
- Advanced Compression Techniques: More sophisticated compression techniques를 탐구하여 visual information loss를 더욱 최소화하고, compression rate를 높일 수 있습니다.
- Exploration of Different Modality Pre-fusion Architectures: Transformer blocks 외에도 다양한 modality pre-fusion architectures를 탐구하여 optimal design을 찾을 수 있습니다.
- Application to Other Multimodal Tasks: LLaVA-Mini를 visual question answering, image captioning, video summarization 등 다양한 multimodal tasks에 적용하여 그 effectiveness를 검증할 수 있습니다.
- Real-time Multimodal Interaction: LLaVA-Mini의 low-latency responses를 활용하여 real-time multimodal interaction systems을 개발할 수 있습니다.
ABSTRACT
GPT-4o와 같은 실시간 large multimodal models (LMMs)의 등장은 효율적인 LMMs에 대한 상당한 관심을 불러일으켰습니다. LMM frameworks는 일반적으로 visual inputs을 vision tokens (continuous representations)으로 encode하고 이를 textual instructions와 함께 large language models (LLMs)의 context에 통합합니다. 이 때, 대규모 parameters와 수많은 context tokens (주로 vision tokens)은 상당한 계산 overhead를 초래합니다. 효율적인 LMMs를 위한 이전의 노력들은 항상 LLM backbone을 더 작은 models로 대체하는 데 중점을 두었지만, token quantity라는 중요한 문제를 간과했습니다. 본 논문에서는 minimal vision tokens을 가진 효율적인 LMM인 LLaVA-Mini를 소개합니다. visual information을 보존하면서 vision tokens의 높은 compression ratio를 달성하기 위해, 먼저 LMMs가 vision tokens을 어떻게 이해하는지 분석합니다. 그 결과, 대부분의 vision tokens은 LLM backbone의 초기 layers에서만 중요한 역할을 하며, 주로 visual information을 text tokens에 융합하는 데 기여한다는 사실을 발견했습니다. 이러한 발견을 바탕으로, LLaVA-Mini는 modality pre-fusion을 도입하여 visual information을 사전에 text tokens에 융합함으로써 LLM backbone에 공급되는 vision tokens을 1개의 token으로 극단적으로 압축합니다. LLaVA-Mini는 images, high-resolution images, videos의 이해를 효율적으로 지원할 수 있는 unified large multimodal model입니다. 11개의 image-based benchmarks와 7개의 video-based benchmarks에 대한 실험은 LLaVA-Mini가 576개가 아닌 단 1개의 vision token으로 LLaVA-v1.5를 능가한다는 것을 보여줍니다. 효율성 분석에 따르면 LLaVA-Mini는 FLOPs를 77% 감소시키고, 40 milliseconds 이내의 low-latency responses를 제공하며, 24GB memory를 가진 GPU hardware에서 10,000 frames 이상의 video를 처리할 수 있습니다.
1 INTRODUCTION
GPT-4o (OpenAI, 2024)와 같은 Large multimodal models (LMMs)는 large language models (LLMs) (OpenAI, 2022; 2023)에 visual information을 이해하는 능력을 부여하여, real-time multimodal interactions을 가능하게 하는 low-latency responses를 향한 공통된 트렌드를 보여줍니다. 최근 가장 널리 채택된 LMMs (Liu et al., 2023b; 2024a; Zhu et al., 2024)는 LLaVA series (Liu et al., 2023b)로 대표되며, vision encoder (Radford et al., 2021)를 통해 image patches를 vision tokens으로 embedding하고 이를 LLM의 context에 통합하여 visual information 이해를 촉진함으로써 image와 video 이해에서 강력한 성능을 보입니다.
그러나 LMMs의 상당한 계산 비용은 여전히 과제로 남아 있습니다. textual inputs만 처리하는 LLMs (Touvron et al., 2023a;b; Dubey et al., 2024)와 달리, LMMs는 visual information (Liu et al., 2023b)을 나타내기 위해 많은 수의 추가적인 vision tokens을 LLM의 context에 통합해야 하므로 계산 복잡성이 크게 증가합니다. 예를 들어, 널리 사용되는 vision encoder CLIP ViT-L/336px에서 단일 image는 24 × 24 = 576개의 vision tokens (Radford et al., 2021)으로 encode되며, 이렇게 많은 수의 vision tokens을 parameter가 많은 LLM의 context에 통합하면 상당한 계산 overhead와 더 높은 inference latency가 발생합니다. 이 문제는 high-resolution image modeling (image 당 더 많은 vision tokens이 필요함) (Liu et al., 2024b) 또는 video processing (더 많은 images를 처리해야 함) (Maaz et al., 2024; Lin et al., 2023a)에서 더욱 두드러집니다. 따라서 효율적인 LLMs를 개발하는 것은 GPT-4o와 같은 low-latency multimodal interactions을 달성하는 데 필수적입니다.
LMMs의 계산 요구는 주로 model scale과 input context의 token 수에 의해 좌우됩니다. LMM 효율성을 개선하기 위한 기존 접근 방식은 일반적으로 model downsizing (Chu et al., 2023; 2024; Yuan et al., 2024a; Zhou et al., 2024a) 또는 quantization techniques (Yuan et al., 2024b)에 중점을 두지만, input context를 단축하기 위해 vision token 수를 줄이는 또 다른 중요한 방법은 간과하는 경우가 많습니다. 일부 token reduction methods는 vision encoder (Bolya et al., 2023; Shang et al., 2024; Li et al., 2024e; Ye et al., 2024c; Hu et al., 2024)에서 출력되는 token 수를 줄이기 위해 predefined rules에 의존하는데, 이는 visual information의 손실을 초래하고 필연적으로 성능 저하를 초래합니다 (Wang et al., 2024; Fan et al., 2024).
본 논문에서는 comparable performance를 유지하면서 vision token 수를 최소화하여 효율적인 LMMs를 개발하는 것을 목표로 합니다. 이를 위해 먼저 LMM (특히 LLaVA architecture)이 vision tokens을 어떻게 이해하는지에 대한 근본적인 질문을 탐구합니다. layer-wise analysis (Sec.3 참조)를 통해 vision tokens의 중요도가 LLM의 different layers에 따라 변한다는 것을 관찰했습니다. 초기 layers에서 vision tokens은 중요한 역할을 하며 following text tokens (예: user input instructions 및 responses)로부터 상당한 attention을 받습니다. 그러나 layers가 깊어짐에 따라 vision tokens에 대한 attention은 급격히 감소하고 대부분의 attention은 input instructions로 이동합니다. 특히, 일부 later layers에서 vision tokens을 완전히 제거하더라도 LMM은 특정 visual understanding capabilities를 유지합니다. 이 결과는 vision tokens이 초기 layers에서 더 중요하며, 여기서 text tokens은 vision tokens에서 visual information을 융합한다는 것을 시사합니다. 이러한 발견을 바탕으로, fusion process를 LLM의 초기 layers에서 LLM 이전으로 이동하여 수행할 수 있다면, 성능 저하 없이 LLM에 공급되는 vision tokens의 수를 크게 줄일 수 있습니다.
이러한 idea에 따라, minimal vision tokens을 가진 효율적이고 high-quality LMM인 LLaVA-Mini를 제안합니다. LLaVA-Mini는 LLM 이전에 modality pre-fusion module을 도입하여 visual information을 instruction text에 미리 융합하고, compression module을 사용하여 vision tokens을 LLM에 입력하기 전에 크게 압축하여 high-quality visual understanding을 유지하면서 효율성을 향상시킵니다. 극단적인 설정에서 LLaVA-Mini는 LLM backbone에 입력되는 image 당 단 하나의 vision token만 필요로 하므로 high-resolution image 및 long video processing에 대한 inference time 및 memory consumption 측면에서 상당한 이점을 제공합니다.
11개의 image-based 및 7개의 video-based understanding benchmarks에 대한 광범위한 실험을 통해 LLaVA-Mini는 576개가 아닌 단 1개의 vision token (compression rate 0.17%)을 사용하면서도 LLaVA-v1.5 (Liu et al., 2023b)와 comparable performance를 달성한다는 것을 보여줍니다. minimal vision tokens을 통해 LLaVA-Mini는 Figure 1에서 볼 수 있듯이 계산 효율성 (77% FLOPs reduction) 및 GPU memory 사용량 감소 (image 당 360 MB → 0.6 MB) 측면에서 상당한 이점을 제공합니다. 결과적으로 LLaVA-Mini는 image understanding의 inference latency를 100 ms에서 40 ms로 줄이고 24GB memory를 가진 NVIDIA RTX 3090에서 10,000 frames (3시간 이상)을 초과하는 long videos 처리를 가능하게 하여 low-latency multimodal interactions을 위한 길을 열었습니다.
핵심: Vision Token 최소화로 LMM 효율성 극대화
기존 LMM의 문제점:
- 높은 계산 비용: Large parameter와 수많은 vision token으로 인해 상당한 계산 overhead 발생
- 긴 추론 시간 (High Inference Latency): 특히 high-resolution image나 video 처리 시 더욱 심화됨
- 효율성 개선 연구의 한계: 대부분 model 크기 축소에만 집중, vision token 수 감소는 간과
LLaVA-Mini의 핵심 아이디어:
- LMM (특히 LLaVA)의 Vision Token 이해 방식 분석:
- 초기 layers: Vision token 중요, text token과의 visual information 융합
- 후기 layers: Vision token 중요도 급감, attention은 주로 instruction으로 집중
- 핵심 발견: 후기 layers에서 vision token 제거해도 어느 정도 visual understanding 능력 유지 -> 초기 융합이 핵심!
- Modality Pre-fusion: LLM 이전에 visual information을 instruction text에 미리 융합
- Compression Module: Vision token을 LLM 입력 전에 크게 압축
- 결과: 단 1개의 vision token만으로 LLaVA-v1.5와 유사한 성능 달성 (compression rate 0.17%)
LLaVA-Mini의 강점:
- 극단적 효율성:
- FLOPs 77% 감소
- GPU memory 사용량 대폭 감소 (image 당 360MB -> 0.6MB)
- Inference latency 감소 (100ms -> 40ms)
- High-resolution image 및 Long video 처리에 유리:
- 24GB GPU로 10,000 frames 이상 video 처리 가능
이 논문이 특별한 이유 (AI 연구자 관점):
- Vision Token 수 최소화에 집중: 기존 연구와 차별화된 접근 방식
- Layer-wise Analysis를 통한 인사이트 도출: LMM의 vision token 이해 방식에 대한 새로운 관점 제시
- Modality Pre-fusion이라는 새로운 기법 제안: 효율적인 LMM 설계를 위한 실질적인 솔루션 제공
- 실험적 검증: 11개 image-based, 7개 video-based benchmarks를 통한 성능 및 효율성 입증
- Low-latency Multimodal Interactions 실현 가능성 제시: 실시간 multimodal application 개발에 기여
결론: LLaVA-Mini는 vision token 최소화라는 새로운 접근 방식을 통해 LMM의 효율성 문제를 해결하고, low-latency multimodal interactions의 실현 가능성을 보여주는 혁신적인 연구입니다. LMM의 효율성 개선과 실시간 multimodal application 개발에 관심 있는 AI 연구자들에게 유용한 인사이트를 제공할 것입니다.
2 RELATED WORK
Large multimodal models (LMMs)가 real-time applications (OpenAI, 2024)에 점점 더 많이 deploy됨에 따라 효율성 향상이 중요한 관심사가 되었습니다. 최근의 노력은 LMM에 공급되는 model size 또는 token 수를 줄이는 데 중점을 두고 있습니다. LMM의 model size를 줄이기 위해 이전 methods는 LLM backbone을 더 작은 것으로 직접 교체하는 반면 (Chu et al., 2023; 2024; Yuan et al., 2024a; Zhou et al., 2024a), parameter scale을 직접 줄이면 LLM backbone의 capabilities에 영향을 미쳐 visual tasks (Shang et al., 2024)에서 성능 저하를 초래할 수 있습니다.
LMMs의 또 다른 효율성 결정 요인은 LLM backbone에 제공되는 context length이며, 여기에는 vision 및 text tokens이 포함됩니다. 실제로 vision token의 수는 특히 high-resolution images 및 videos를 처리할 때 상당할 수 있습니다. image-based LMMs의 경우, token merging (Bolya et al., 2023), PruMerge (Shang et al., 2024), TokenPacker (Li et al., 2024e)는 similarity에 따라 vision tokens을 집계합니다. Qwen-VL (Bai et al., 2023) 및 MQT-LLaVA (Hu et al., 2024)는 Q-former (Li et al., 2023a)를 활용하여 vision tokens을 fixed length로 압축합니다. 그러나 vision tokens을 직접 줄이면 필연적으로 visual information의 손실이 발생합니다 (Fan et al., 2024).
video-based LMMs의 경우, Video-ChatGPT (Maaz et al., 2024), VideoChat (Li et al., 2024c), Video-LLaVA (Lin et al., 2023a), Video-LLaMA (Zhang et al., 2023)는 다양한 길이의 videos에서 fixed number의 frames을 선택합니다. MovieChat (Song et al., 2024a)은 memory techniques를 적용하여 videos를 fixed-length representation으로 압축합니다. 이러한 frame selection 또는 merging methods는 일부 key frames을 잃거나 video의 temporal information을 잘못 이해할 수 있습니다 (Zhou et al., 2024b).
이전 methods는 주로 vision encoder에서의 token reduction에 중점을 두었습니다. LLaVA-Mini는 한 단계 더 나아가 LLM backbone 내에서 vision tokens과 text tokens이 어떻게 상호 작용하는지 탐구하고, 이에 따라 modality pre-fusion module을 도입하여 comparable performance를 달성하면서 vision tokens의 극단적인 압축(LLM에 공급되는 1개의 vision token)을 가능하게 합니다.
핵심: 기존 LMM 효율성 개선 연구의 한계 지적 및 LLaVA-Mini의 차별성 부각
기존 LMM 효율성 개선 연구 동향:
- Model Size 축소:
- LLM backbone을 더 작은 model로 대체 (e.g., Chu et al., 2023; Yuan et al., 2024a)
- 한계: LLM capabilities 저하, visual tasks 성능 하락 가능성 (e.g., Shang et al., 2024)
- Token 수 감소:
- Image-based LMMs:
- Token Merging, PruMerge, TokenPacker: Similarity 기반 vision token 집계
- Qwen-VL, MQT-LLaVA: Q-former로 vision token을 fixed length로 압축
- 한계: Visual information 손실 불가피 (e.g., Fan et al., 2024)
- Video-based LMMs:
- Video-ChatGPT, VideoChat, Video-LLaVA, Video-LLaMA: 다양한 길이의 video에서 fixed number의 frame 선택
- MovieChat: Memory techniques로 video를 fixed-length representation으로 압축
- 한계: Key frame 누락 또는 temporal information 이해 부족 가능성 (e.g., Zhou et al., 2024b)
- Image-based LMMs:
LLaVA-Mini의 차별점:
- 기존 연구의 한계 극복: 단순히 vision encoder의 output token을 줄이는 것을 넘어, LLM backbone 내에서 vision token과 text token의 상호작용까지 고려
- Modality Pre-fusion 도입: LLM 이전에 visual information을 text에 융합하여, 극단적인 vision token 압축(LLM에 공급되는 단 1개의 vision token) 을 가능하게 함
- 성능 유지: Comparable performance 유지하며 효율성 극대화
이 논문이 강조하는 차별화 포인트 (AI 연구자 관점):
- LLM backbone 내부 interaction 탐구: Vision token과 text token 간의 관계에 대한 새로운 관점 제시 (기존 연구와 차별화)
- Modality Pre-fusion: 효율적인 LMM 설계를 위한 새로운 방법론 제시
- 극단적인 Vision Token 압축: 단 1개의 vision token만으로 comparable performance 달성
결론: LLaVA-Mini는 기존 LMM 효율성 개선 연구의 한계를 극복하고, LLM backbone 내부 interaction에 대한 심층적인 이해를 바탕으로 modality pre-fusion이라는 새로운 기법을 제안합니다. 이를 통해 극단적인 vision token 압축을 실현하고, 성능 저하 없이 효율성을 극대화한 LMM을 제시합니다. 이는 LMM의 효율성과 관련된 기존 연구에서 한 단계 더 나아간 중요한 연구라고 할 수 있습니다.
3 HOW DOES LLAVA UNDERSTAND VISION TOKENS?
visual understanding을 유지하면서 visual tokens을 압축하기 위해, 우리는 LMMs가 visual tokens을 어떻게 이해하는지 파악하고자 했습니다. 이 문제의 복잡성을 고려하여, 우리의 preliminary analysis는 LLaVA architecture (Liu et al., 2023b)에 집중하고, attention-based perspective (Xiao et al., 2024)에서 LMMs에서 visual tokens의 역할 (특히 그 quantity)에 중점을 두었습니다.
3.1 LLAVA ARCHITECTURE
LLaVA (Large Language and Vision Assistant) (Liu et al., 2023b)는 vision과 language processing capabilities를 통합한 advanced multimodal architecture입니다. visual inputs을 위한 vision Transformers (ViT) (Dosovitskiy et al., 2021)와 text를 위한 LLMs를 기반으로 구축된 LLaVA는 주어진 language instruction Xq와 visual inputs Xv에 기반하여 language response Xa를 생성할 수 있습니다.
일반적으로, pre-trained CLIP ViT-L/14 (Radford et al., 2021)와 projection layer는 visual inputs Xv를 vision tokens (즉, continuous representations) Hv로 encode하는 데 사용됩니다. 그런 다음, vision tokens Hv와 language instruction의 embedding Hq는 Vicuna (Chiang et al., 2023) 또는 Mistral과 같은 LLM에 공급되어 response Xa를 생성합니다. 실제로 vision tokens은 종종 language instruction의 중간에 삽입되므로 LLM의 inputs은 다음과 같이 공식적으로 표현될 수 있습니다.
[Hq1, · · · , Hqk, Hv1, · · · , Hvlv, Hqk+1, · · · , Hqlq] (1)
여기서 lv와 lq는 각각 vision tokens과 language instruction의 길이를 나타냅니다. 예를 들어, LLaVA-v1.5에서 system prompts는 image 앞에 배치되고 (즉, Hq1, · · · , Hqk), user inputs은 image 뒤에 배치됩니다 (즉, Hqk+1, · · · , Hqlq) (Liu et al., 2023b).
3.2 PRELIMINARY ANALYSES
우리는 vision tokens 압축 전략을 안내하기 위해 LMMs에서 visual tokens의 중요성을 분석하는 것부터 시작합니다. 구체적으로, 우리는 attention-based perspective에서 LMMs의 각 layer에서 visual tokens의 중요도를 평가합니다. 우리의 분석은 LLaVA-v1.5-Vicuna-7B, LLaVA-v1.5-Vicuna-13B, LLaVA-v1.6-Mistral-7B, LLaVA-NeXT-Vicuna-7B (Liu et al., 2023b; 2024b)를 포함한 여러 LMMs를 포괄하여 다양한 크기와 training datasets의 models에서 공통적인 특성을 식별합니다. Appendix A는 preliminary analyses의 formal expression을 제공합니다.
Vision Tokens are More Important in Early Layers
LMM의 어떤 layers에서 vision tokens이 더 중요한 역할을 하는지 알아보기 위해, 각 layer에서 different token types (instruction, vision, response 포함)에 할당된 attention weights를 측정합니다. Figure 2에서 볼 수 있듯이, vision tokens에 할당된 attention은 layers에 따라 크게 다릅니다. Visual tokens은 earlier layers에서 더 많은 attention을 받지만, deeper layers에서는 이 attention이 급격히 감소하여 80% 이상의 attention이 instruction tokens으로 향합니다. 이러한 attention의 변화는 vision tokens이 early layers에서 중심적인 역할을 하며, instruction tokens이 attention mechanisms을 통해 vision tokens에서 관련 visual information을 찾는다는 것을 시사합니다. later layers에서 model은 visual data를 이미 융합한 instructions에 더 의존하여 responses를 생성합니다.
Most Vision Tokens are Focused in Early Layers
개별 visual tokens의 중요도를 추가로 평가하기 위해 각 layer에서 attention distribution의 entropy를 계산합니다. Figure 3에서 볼 수 있듯이, visual tokens에 대한 attention의 entropy는 earlier layers에서 훨씬 더 높으며, 이는 대부분의 visual tokens이 early layers에서 고르게 주목받는다는 것을 나타냅니다.
visual tokens의 중요도에 대한 layer-wise variations을 직관적으로 설명하기 위해, Figure 4는 LLaVA-v1.5의 각 layer에 걸친 attention distribution을 시각화합니다. 거의 모든 visual tokens은 early layers에서 더 넓은 attention을 받는 반면, later layers에서는 일부 visual tokens만 집중됩니다. 이러한 관찰 결과는 모든 visual tokens이 early layers에서 crucial하며, 그 quantity를 줄이면 필연적으로 visual information의 손실이 발생한다는 것을 시사합니다. 이는 직접적인 token reduction의 이전 methods가 visual understanding capabilities (Shang et al., 2024; Ye et al., 2024c; Hu et al., 2024)를 손상시키는 이유를 설명합니다.
visual tokens이 특히 early layers에서 중요하다는 우리의 findings을 추가로 입증하기 위해, different layers에서 visual tokens이 drop되었을 때 LMMs의 visual understanding ability를 평가했습니다. 구체적으로, LLaVA-v1.5의 성능을 GQA (Hudson & Manning, 2019) 및 MMBench (Liu et al., 2024c)에서 측정했으며, visual tokens은 layers 1-4, 5-8, ... , 29-32에서 각각 drop되었습니다. Figure 5에서 볼 수 있듯이, early layers에서 visual tokens을 제거하면 visual understanding ability가 완전히 상실되는 반면, higher layers에서 tokens을 제거하면 minimal effect만 나타나며 model은 원래 성능의 대부분을 유지합니다. 결론적으로, 우리의 analyses와 ablation study는 vision tokens이 LLaVA의 early layers에서 crucial role을 하며, 이 단계에서 text tokens이 vision tokens에서 visual information을 융합한다는 것을 보여줍니다. 이 insight는 vision tokens 압축 전략에 정보를 제공할 수 있습니다.
핵심: Layer-wise Analysis를 통해 LLaVA의 Vision Token 이해 방식 분석 및 효율적인 Token 압축 전략 제시
이 논문이 던지는 질문:
- LMM, 특히 LLaVA architecture는 visual tokens을 어떻게 이해하고 활용하는가?
- Visual understanding 성능 저하 없이 vision token 수를 효과적으로 줄일 수 있는 방법은 무엇인가?
접근 방법:
- Attention-based Perspective: LLaVA-v1.5-Vicuna-7B, LLaVA-v1.5-Vicuna-13B, LLaVA-v1.6-Mistral-7B, LLaVA-NeXT-Vicuna-7B 등 다양한 LMM 모델에 대해 layer-wise attention analysis 수행
- 주요 분석 대상:
- Layer별 Attention Weight 변화: Instruction, vision, response tokens 간 attention weight 변화
- Layer별 Attention Entropy 변화: Attention distribution의 균일성 변화
핵심 발견:
- Vision Token 중요도의 Layer별 변화:
- 초기 Layers: Vision tokens 중요 (Figure 2, Figure 4)
- Instruction & response tokens → Vision tokens: 높은 attention
- 다양한 vision tokens에 고르게 attention 분산 (높은 entropy) (Figure 3)
- Text tokens이 vision tokens에서 visual information 융합
- 후기 Layers: Vision tokens 중요도 급감 (Figure 2, Figure 4)
- Instruction & response tokens → Vision tokens: 낮은 attention
- 여전히 여러 vision tokens에 attention 분산 (높은 entropy) (Figure 3)
- 이미 융합된 visual information을 바탕으로 instruction tokens에 집중하여 응답 생성
- 초기 Layers: Vision tokens 중요 (Figure 2, Figure 4)
- Vision Token 제거 실험 (Ablation Study):
- 초기 layers 제거: Visual understanding 능력 완전 상실 (Figure 5)
- 후기 layers 제거: 성능에 minimal effect (Figure 5)
- 결론: 초기 layers에서 vision tokens이 visual information 융합에 crucial role
이 논문만의 차별성:
- Layer-wise Attention Analysis: LMM 내부의 token 간 상호작용을 layer별로 분석하여 vision token의 역할 변화에 대한 심층적인 이해 제공
- 정량적 분석 (Attention Weight & Entropy): Attention-based perspective를 정량적으로 분석하여 핵심 발견에 대한 근거 제시
- Ablation Study: Vision token 제거 실험을 통해 layer별 중요도 검증
시사점:
- 효율적인 Vision Token 압축 가능성: 후기 layers에서는 vision token 수를 줄여도 성능에 큰 영향이 없음
- Modality Pre-fusion: 초기 layers에서 visual information 융합을 LLM 이전 단계로 옮기면, LLM에 입력되는 vision token 수를 더욱 줄일 수 있음 (LLaVA-Mini의 핵심 아이디어)
결론: 본 논문은 LLaVA가 visual tokens을 이해하는 방식에 대한 새로운 인사이트를 제공하며, 이를 바탕으로 효율적인 LMM 설계를 위한 구체적인 방향을 제시합니다. 특히, layer-wise analysis와 ablation study를 통해 vision token의 중요도가 layer에 따라 변화한다는 핵심 발견은 향후 LMM 효율성 개선 연구에 중요한 기반이 될 것입니다.
4 LLAVA-MINI
minimal vision tokens을 가진 효율적인 large multimodal model인 LLaVA-Mini를 소개합니다. 이전 연구와 마찬가지로 LLaVA-Mini는 vision encoder를 사용하여 image를 여러 개의 vision tokens으로 encode합니다. 효율성을 높이기 위해 LLaVA-Mini는 compression module을 통해 LLM backbone에 공급되는 vision token의 수를 크게 줄입니다. 압축 중 visual information을 유지하기 위해, visual information을 융합하는 데 있어 초기 layers에서 vision tokens이 중요한 역할을 한다는 이전 findings을 바탕으로, LLaVA-Mini는 LLM backbone 이전에 modality pre-fusion module을 도입하여 visual information을 text tokens에 융합합니다. LLaVA-Mini의 details는 다음과 같습니다.
4.1 ARCHITECTURE
LLaVA-Mini의 architecture는 Figure 6에 나와 있습니다. visual inputs Xv의 경우, pre-trained CLIP vision encoder (Radford et al., 2021)가 각 image에서 visual features를 추출하는 데 사용됩니다. 그런 다음 이러한 features는 projection layer를 통해 word embedding space로 mapping되어 vision tokens Hv ∈ R^(N^2 × dh)를 생성합니다. 여기서 N^2은 vision token의 수이고 dh는 LLM의 embedding dimension입니다. language instruction Xq의 경우, LLM의 embedding layer는 text token representations Hq ∈ R^(lq × dh)를 생성하는 데 사용됩니다. 여기서 lq는 text token의 수입니다.
Vision Token Compression
LMMs의 효율성을 높이기 위해 LLaVA-Mini는 query-based compression module을 활용하여 LLM backbone에 공급되는 vision token의 수를 줄입니다. vision token의 압축을 학습하기 위해 LLaVA-Mini는 C × C개의 learnable compression queries Qv를 도입합니다. 이 queries는 cross-attention (Li et al., 2023a)을 통해 모든 vision tokens Hv와 상호 작용하여 중요한 visual information을 선택적으로 추출하여 C × C개의 compressed vision tokens Ĥv ∈ R^(C^2 × dh)를 생성합니다. 압축 중 image의 spatial information을 보존하기 위해 learnable queries와 original vision tokens에 2D sinusoidal positional encoding PE(·) (He et al., 2021)를 도입합니다. 공식적으로 압축은 다음과 같이 표현될 수 있습니다.
Ĥv = A · Hv, 여기서 A = Softmax((Qv + PE(Qv)) · (Hv + PE(Hv))^T) (2)
여기서 A ∈ R^(C^2 × N^2)는 similarity이고 Ĥv는 C × C개의 compressed vision tokens입니다.
Modality Pre-fusion
vision tokens의 압축은 필연적으로 visual information의 일부 손실을 초래합니다. 압축 중 가능한 한 많은 visual information을 유지하기 위해 LLaVA-Mini는 LLM backbone 이전에 modality pre-fusion을 도입하여 text tokens이 모든 vision tokens에서 관련 visual information을 미리 융합할 수 있도록 합니다. 이전 observations에 따르면 이 융합 단계는 LLM의 early layers 내에서 암시적으로 발생하므로 modality pre-fusion module f(·)는 Nfusion개의 Transformer blocks (Vaswani et al., 2017)로 구성되며, 각 Transformer block은 LLM backbone과 동일한 structure와 hyperparameters를 공유합니다. vision tokens Hv와 text tokens Hq는 concatenate되어 pre-fusion module에 공급되고, text tokens에 해당하는 outputs은 fusion tokens으로 추출되어 다음과 같이 표현됩니다.
Ĥq = f(Concat(Hv, Hq))[-lq:] (3)
여기서 Ĥq ∈ R^(lq × dh)는 관련 visual information이 있는 text representations의 fusion tokens입니다.
마지막으로 compressed vision tokens Ĥv와 관련 visual information이 있는 text representations의 fusion tokens Ĥq (총 C^2 + lq tokens)가 함께 LLM에 공급되어 response를 생성합니다.
4.2 HIGH-RESOLUTION IMAGE AND VIDEO MODELING
LLaVA-Mini는 minimal vision tokens을 사용하여 visual information을 나타내므로 high-resolution images와 videos를 훨씬 더 효율적으로 처리할 수 있습니다.
High-Resolution Image
LMM의 resolution은 일반적으로 336x336 pixels로 encode하는 CLIP의 ViT-L과 같은 vision encoder에 의해 결정됩니다. 더 높은 resolution의 images를 인식하기 위해 각 image를 가로 및 세로로 두 부분으로 분할하여 네 개의 sub-images로 나눕니다(Liu et al., 2024b). 이러한 각 sub-images는 vision encoder와 projection에 의해 개별적으로 처리되어 672x672 pixels의 high resolution을 가진 N^2 × 4개의 vision tokens을 생성합니다. 그런 다음 제안된 compression module은 이러한 N^2 × 4개의 vision tokens을 C^2개의 compressed vision tokens Ĥv로 줄이는 데 사용됩니다. modality pre-fusion module은 4개의 sub-images (N^2 × 4개의 vision tokens), original image (N^2개의 vision tokens) 및 language instruction (lq개의 text tokens)을 inputs으로 사용한 다음 더 풍부한 global 및 local visual information을 가진 lq개의 fusion tokens Ĥq를 생성합니다. 마지막으로 LLM에 입력되는 token의 수는 C^2 + lq입니다. high-resolution images를 처리할 때 더 많은 details를 보존하기 위해 C가 standard-resolution settings보다 약간 더 높게 설정됩니다.
Video
videos를 처리할 때 LMMs는 종종 video (Li et al., 2023b)에서 multiple frames을 추출하는데, 이는 상당한 계산 비용이 발생합니다. 예를 들어, LLaVA-v1.5의 경우 8초 video에서 초당 1 frame (fps)의 속도로 frames을 추출하면 576 × 8 = 4608개의 vision tokens이 생성되어 상당한 VRAM 사용으로 이어집니다. LLaVA-Mini는 minimal vision tokens으로 각 image를 나타낼 수 있으므로 long videos 처리에 상당한 이점을 제공합니다. M frames으로 구성된 video의 경우 LLaVA-Mini는 각 frame을 개별적으로 처리하여 frame 당 C^2개의 vision tokens과 lq개의 fusion tokens을 생성합니다. M frames 각각의 C^2개의 vision tokens은 순차적으로 concatenate되어 총 M × C^2개의 vision tokens, 즉 Ĥv를 생성합니다. 그런 다음 M frames에 해당하는 lq개의 fusion tokens은 pooling operation을 통해 집계되어 video의 fusion tokens Ĥq를 생성합니다. 결과적으로 LLM에 공급되는 token의 수는 M frames의 video에 대해 MN^2 + lq에서 MC^2 + lq로 감소합니다.
4.3 TRAINING
LLaVA-Mini는 LLaVA와 동일한 training process를 따르며 두 단계로 구성됩니다.
Stage 1: Vision-Language Pretraining
이 단계에서는 compression 및 modality pre-fusion modules가 아직 적용되지 않습니다(즉, N^2개의 vision tokens은 변경되지 않음). LLaVA-Mini는 visual caption data를 사용하여 vision 및 language representations을 정렬하는 방법을 배웁니다. training은 projection module에만 중점을 두는 반면 vision encoder와 LLM은 frozen 상태로 유지됩니다(Liu et al., 2023b).
Stage 2: Instruction Tuning
이 단계에서 LLaVA-Mini는 instruction data를 사용하여 minimal vision tokens을 기반으로 다양한 visual tasks를 수행하도록 trained됩니다. compression 및 modality pre-fusion이 LLaVA-Mini에 도입되고 frozen vision encoder를 제외한 모든 modules(즉, projection, compression, modality pre-fusion, LLM backbone)은 end-to-end 방식으로 trained됩니다.
핵심: Minimal Vision Token으로 Efficiency 극대화한 LMM
LLaVA-Mini의 핵심 아이디어:
- Vision Token Compression: Query-based compression module로 LLM에 입력되는 vision token 수 최소화 (C x C개로 압축)
- Modality Pre-fusion: LLM 이전에 visual information을 text tokens에 융합하여 압축으로 인한 정보 손실 최소화
4.1 ARCHITECTURE
- 기본 구조 (Figure 6):
- Vision Encoder (e.g., pre-trained CLIP ViT)로 image에서 visual features 추출
- Projection Layer를 통해 visual features를 word embedding space로 mapping (N^2 x dh 크기의 vision tokens Hv 생성)
- LLM의 embedding layer를 사용하여 language instruction을 text token representations (lq x dh 크기의 Hq)로 변환
- Vision Token Compression:
- 핵심: C x C개의 learnable compression queries Qv 사용
- Cross-attention을 통해 Qv와 모든 vision tokens Hv 간의 interaction 수행
- 2D sinusoidal positional encoding (PE) 적용하여 spatial information 보존
- 결과: C x C개의 compressed vision tokens Ĥv 생성 (C^2 x dh 크기)
- 수식: Ĥv = A · Hv, where A = Softmax((Qv + PE(Qv)) · (Hv + PE(Hv))^T)
- Modality Pre-fusion:
- 목적: 압축 과정에서 손실되는 visual information 보완
- 방법: LLM 이전에 Nfusion개의 Transformer blocks로 구성된 modality pre-fusion module f(·) 사용 (LLM backbone과 동일한 structure 및 hyperparameters 공유)
- Hv와 Hq를 concatenate하여 pre-fusion module에 입력
- Text tokens에 해당하는 outputs을 fusion tokens Ĥq (lq x dh 크기)로 추출
- 수식: Ĥq = f(Concat(Hv, Hq))[-lq:]
- 최종 입력: Compressed vision tokens Ĥv와 fusion tokens Ĥq (총 C^2 + lq tokens)를 LLM에 입력하여 response 생성
4.2 HIGH-RESOLUTION IMAGE AND VIDEO MODELING
- 핵심: Minimal vision tokens 사용으로 high-resolution image 및 video 처리에 유리
- High-Resolution Image:
- Image를 4개의 sub-images (horizontal & vertical split)로 분할
- 각 sub-image를 vision encoder와 projection으로 처리 (4 x N^2 vision tokens 생성, 672x672 resolution)
- Compression module로 4 x N^2 vision tokens을 C^2 tokens (Ĥv)로 압축
- Modality pre-fusion module은 4개의 sub-images (4 x N^2 tokens), original image (N^2 tokens), language instruction (lq tokens)을 입력으로 받아 lq fusion tokens (Ĥq) 생성
- 최종 LLM 입력: C^2 + lq tokens (C는 standard-resolution보다 약간 크게 설정)
- Video:
- M frames의 video에서 각 frame을 개별 처리 (frame 당 C^2 vision tokens 및 lq fusion tokens 생성)
- M frames의 C^2 vision tokens을 concatenate (M x C^2 vision tokens, Ĥv)
- M frames의 lq fusion tokens을 pooling (video fusion tokens Ĥq)
- 최종 LLM 입력: M x C^2 + lq tokens (기존 MN^2 + lq tokens에서 크게 감소)
4.3 TRAINING
- LLaVA와 동일한 2단계 training process:
- Vision-Language Pretraining:
- Compression & modality pre-fusion module 미사용
- Visual caption data로 vision & language representations 정렬
- Projection module만 training, vision encoder와 LLM은 frozen
- Instruction Tuning:
- Compression & modality pre-fusion module 도입
- Instruction data로 minimal vision tokens 기반 visual tasks 수행 학습
- Frozen vision encoder를 제외한 모든 modules (projection, compression, modality pre-fusion, LLM backbone) end-to-end training
- Vision-Language Pretraining:
이 논문이 LLaVA-Mini에서 강조하는 차별성 (AI 연구자 관점):
- Minimal Vision Tokens: LLM에 입력되는 vision token 수를 극단적으로 줄여 efficiency 극대화 (compression module)
- Modality Pre-fusion: 압축으로 인한 visual information 손실 최소화 및 성능 보존
- High-resolution Image 및 Long Video 처리에 대한 효율성: Minimal vision tokens 덕분에 GPU memory 사용량 감소 및 처리 속도 향상
결론: LLaVA-Mini는 vision token compression과 modality pre-fusion을 통해 LMM의 효율성을 크게 개선한 모델입니다. 특히, high-resolution image와 long video 처리에 탁월한 성능을 보이며, minimal vision tokens 기반으로 visual understanding을 수행하는 새로운 방식을 제시합니다. 이는 LMM의 실시간 application 적용 및 downstream task 성능 향상에 기여할 것으로 기대됩니다.