AI바라기의 인공지능
VLM : 간단 논문 리뷰 : DYMU: Dynamic Merging and Virtual Unmerging for Efficient VLM 본문
논문리뷰
VLM : 간단 논문 리뷰 : DYMU: Dynamic Merging and Virtual Unmerging for Efficient VLM
AI바라기 2025. 4. 25. 18:36
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs 학습 노트
용어 설명 (Glossary)
- DyMU (Dynamic Merging and Virtual Unmerging): 본 논문에서 제안하는 training-free VLM 효율화 프레임워크. DToMe와 VTU 두 가지 핵심 요소로 구성됨.
- DToMe (Dynamic Token Merging): 이미지 복잡도(complexity)에 기반하여 visual token 수를 동적으로 줄이는 방법. 유사한 token들을 병합(merge)함. ToMe [3]을 확장하여 고정된 개수가 아닌, threshold 기반으로 동적 병합 수행.
- VTU (Virtual Token Unmerging): 줄어든 token 시퀀스를 처리하면서도 원래 길이의 token 시퀀스에 대한 attention dynamics를 효율적으로 재구성(reconstruct)하여 LLM의 성능 저하를 막는 방법. RoPE 기반 LLM에 적용 가능.
- RoPE (Rotary Position Embedding): Transformer 모델에서 토큰의 상대적 위치 정보를 인코딩하는 방식. VTU는 RoPE의 선형성(linearity)을 활용함.
- AnyRes (Any-Resolution): 임의 해상도의 이미지를 처리할 수 있는 VLM 아키텍처 (e.g., LLaVA-OneVision [19]). 이미지를 작은 영역으로 나누어 인코딩함. DyMU는 AnyRes 모델과도 호환됨.
- Token Merging: Vision Transformer 등에서 연산 효율성을 높이기 위해 유사하거나 덜 중요한 token들을 합치는 기법.
- Size-Weighted Self-attention: Token 병합 시, 각 token이 몇 개의 원본 token을 대표하는지를 가중치로 사용하여 self-attention을 계산하는 방식 (ToMe [3]에서 제안).
- Visual Token: 이미지를 처리하기 위해 Vision Transformer 등이 생성하는 벡터 임베딩 시퀀스.
- Training-free: 추가적인 fine-tuning이나 학습 과정 없이 기존 pre-trained 모델에 바로 적용할 수 있는 방식.
- Image Complexity: 이미지가 담고 있는 정보의 양이나 시각적 복잡성. 논문에서는 JPEG 압축률 등으로 측정 가능함을 보임 (Fig 3).
Purpose of the Paper
- 기존 Vision-Language Models (VLMs)는 입력 이미지의 내용 복잡도와 관계없이 항상 고정된 길이의 visual token을 생성하여 처리하는 비효율성 문제를 해결하고자 함.
- 기존 token reduction 방법들은 종종 VLM 재학습(retraining)이 필요하거나, 고정된 압축 비율(fixed compression ratio)을 사용하여 이미지 내용에 따른 적응성(adaptability)이 부족했음.
- 이 논문은 추가 학습 없이 (training-free), 이미지 복잡도에 따라 동적으로 (dynamically) visual token 수를 조절하고, RoPE 기반 LLM의 성능 저하를 최소화하는 새로운 프레임워크 (DyMU)를 제안함.
Key Contributions & Novelty
- Dynamic Token Merging (DToMe):
- Contribution: 이미지 복잡도에 기반하여 유사한 visual token들을 동적으로 병합하는 threshold 기반 알고리즘 제안. Batch 내 통계량을 활용하여 layer-wise threshold (τi) 결정 (Eq 4).
- Novelty: 기존 ToMe [3] 등 고정된 수의 token을 병합하는 방식과 달리, 이미지 내용에 따라 병합되는 token 수가 가변적임. 이는 training-free 방식으로 구현됨.
- Virtual Token Unmerging (VTU):
- Contribution: 줄어든 token 수를 가지고 RoPE 기반 LLM을 처리하면서도, 원래 길이 token 시퀀스의 attention matrix를 효율적으로 근사하는 방법 제안 (Eq 10). Token 위치 정보(M)와 RoPE의 특성을 활용.
- Novelty: Token 시퀀스를 실제로 복원하지 않고 attention 계산 과정에서 '가상으로' unmerging하여, 추가 학습 없이 LLM의 성능 저하를 크게 완화함. RoPE 구조에 특화된 training-free 솔루션.
- DyMU Framework:
- Contribution: DToMe와 VTU를 결합하여 training-free, plug-and-play 방식으로 VLM의 연산 효율성을 높이는 통합 프레임워크 제공.
- Novelty: Encoder 단에서부터 token 수를 동적으로 조절하고, LLM 단에서 성능 저하를 방지하는 두 요소를 학습 없이 결합한 최초의 시도.
Experimental Highlights
- 성능 유지 및 효율성: DyMU-low 설정은 원본 LLaVA-1.5 baseline 대비 평균 ~15%의 visual token 만 사용하면서도 97.7% 수준의 평균 성능 달성 (Table 2). LLaVA-OneVision (AnyRes) 모델에서도 유사한 경향 확인 (Table 4).
- 다양한 모델 호환성: CLIP, SigLIP 등 다양한 visual encoder와 RoPE 기반 LLM (Vicuna-7B, Qwen2) 아키텍처에서 일관된 효과 확인 (Table 2, 3, 4).
- VTU의 효과 검증: VTU를 적용했을 때, 단순히 token 수를 줄여 입력하는 것 (DToMe w/o VTU, ToMe w/o VTU) 보다 대부분의 benchmark에서 성능이 크게 향상됨을 입증 (Figure 4, Table 6).
- 동적 토큰 할당 검증: 이미지 복잡도(JPEG 압축률)와 DToMe가 할당하는 token 수 사이에 강한 양의 상관관계 확인. 복잡한 이미지에 더 많은 token을 할당하여 ToMe 대비 성능 우위 확보 (Figure 3).
- Threshold 추정의 Robustness: Threshold 계산에 사용되는 이미지 데이터셋(LLaVA Instruct vs. Pixmo-Cap)이 달라져도 최종 성능에 미치는 영향이 미미함을 보여줌 (Figure 5, Table 7).
- Controllability 시연: DyMU를 Background Removal, OCR 등 외부 도구와 결합하여 특정 task에 필요한 token 수를 더욱 줄일 수 있는 유연성(flexibility)과 제어 가능성(controllability) 시연 (Figure 6).
Limitations and Future Work
- Limitations:
- Token merging 과정에서 미세한 공간 정보가 손실될 수 있어, TextVQA와 같이 높은 공간적 정확도(spatial precision)를 요구하는 task에서는 성능이 저하될 수 있음.
- Future Work:
- 공간적 추론(spatial reasoning) 성능을 보존하면서 효율성을 높이는 방향으로 DyMU 개선.
- DyMU를 비디오 데이터에 적용하여 **시간적 중복성(temporal redundancy)**을 줄이는 방향으로 확장 연구.
Overall Summary
- 이 논문은 VLM의 고정된 visual token 길이 비효율성을 해결하기 위해 training-free 방식인 DyMU를 제안함.
- DyMU는 이미지 복잡도에 따라 token 수를 동적으로 조절하는 DToMe와, 줄어든 token으로 LLM 성능을 유지하는 VTU로 구성됨.
- 실험 결과, DyMU는 평균 token 수를 32%-85%까지 크게 줄이면서도 원본 모델과 비교 가능한 성능을 다양한 VLM 아키텍처에서 달성함을 보여줌.
- 이는 추가 학습 없이 기존 VLM의 효율성을 크게 개선할 수 있는 실용적인 방법을 제시하며, 특히 자원이 제한된 환경에서 VLM 활용 가능성을 높이는 데 기여할 수 있음.
쉬운 설명 (Easy Explanation)
- 기존 VLM은 사진이 단순하든 복잡하든 똑같은 양의 "돋보기(visual token)"를 사용해서 그림을 봤어요. 이건 비효율적이죠.
- DyMU는 사진의 복잡함에 맞춰 돋보기 개수를 조절해요. 단순한 그림은 돋보기를 적게 쓰고, 복잡한 그림은 많이 쓰는 거죠 (이게 DToMe).
- 그런데 돋보기를 적게 쓰면 VLM(LLM 부분)이 그림을 잘 이해 못 할 수 있어요. 그래서 DyMU는 **원래 돋보기를 다 썼을 때처럼 VLM이 생각하도록 '힌트'를 주는 똑똑한 방법(VTU)**을 사용해요. 실제 돋보기를 다 보여주진 않으면서도 말이죠.
- 결과적으로 더 적은 계산으로도 원래만큼 그림을 잘 이해하게 되는, 학습 없이 바로 쓸 수 있는 효율적인 VLM을 만드는 기술이에요.