VLM : 간단 논문 리뷰 : DYMU: Dynamic Merging and Virtual Unmerging for Efficient VLM

Notice

Recent Posts

Recent Comments

Link

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

AI바라기의 인공지능

VLM : 간단 논문 리뷰 : DYMU: Dynamic Merging and Virtual Unmerging for Efficient VLM 본문

논문리뷰

VLM : 간단 논문 리뷰 : DYMU: Dynamic Merging and Virtual Unmerging for Efficient VLM

AI바라기 2025. 4. 25. 18:36

DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs 학습 노트

용어 설명 (Glossary)

DyMU (Dynamic Merging and Virtual Unmerging): 본 논문에서 제안하는 training-free VLM 효율화 프레임워크. DToMe와 VTU 두 가지 핵심 요소로 구성됨.
DToMe (Dynamic Token Merging): 이미지 복잡도(complexity)에 기반하여 visual token 수를 동적으로 줄이는 방법. 유사한 token들을 병합(merge)함. ToMe [3]을 확장하여 고정된 개수가 아닌, threshold 기반으로 동적 병합 수행.
VTU (Virtual Token Unmerging): 줄어든 token 시퀀스를 처리하면서도 원래 길이의 token 시퀀스에 대한 attention dynamics를 효율적으로 재구성(reconstruct)하여 LLM의 성능 저하를 막는 방법. RoPE 기반 LLM에 적용 가능.
RoPE (Rotary Position Embedding): Transformer 모델에서 토큰의 상대적 위치 정보를 인코딩하는 방식. VTU는 RoPE의 선형성(linearity)을 활용함.
AnyRes (Any-Resolution): 임의 해상도의 이미지를 처리할 수 있는 VLM 아키텍처 (e.g., LLaVA-OneVision [19]). 이미지를 작은 영역으로 나누어 인코딩함. DyMU는 AnyRes 모델과도 호환됨.
Token Merging: Vision Transformer 등에서 연산 효율성을 높이기 위해 유사하거나 덜 중요한 token들을 합치는 기법.
Size-Weighted Self-attention: Token 병합 시, 각 token이 몇 개의 원본 token을 대표하는지를 가중치로 사용하여 self-attention을 계산하는 방식 (ToMe [3]에서 제안).
Visual Token: 이미지를 처리하기 위해 Vision Transformer 등이 생성하는 벡터 임베딩 시퀀스.
Training-free: 추가적인 fine-tuning이나 학습 과정 없이 기존 pre-trained 모델에 바로 적용할 수 있는 방식.
Image Complexity: 이미지가 담고 있는 정보의 양이나 시각적 복잡성. 논문에서는 JPEG 압축률 등으로 측정 가능함을 보임 (Fig 3).

Purpose of the Paper

기존 Vision-Language Models (VLMs)는 입력 이미지의 내용 복잡도와 관계없이 항상 고정된 길이의 visual token을 생성하여 처리하는 비효율성 문제를 해결하고자 함.
기존 token reduction 방법들은 종종 VLM 재학습(retraining)이 필요하거나, 고정된 압축 비율(fixed compression ratio)을 사용하여 이미지 내용에 따른 적응성(adaptability)이 부족했음.
이 논문은 추가 학습 없이 (training-free), 이미지 복잡도에 따라 동적으로 (dynamically) visual token 수를 조절하고, RoPE 기반 LLM의 성능 저하를 최소화하는 새로운 프레임워크 (DyMU)를 제안함.

Key Contributions & Novelty

Dynamic Token Merging (DToMe):
- Contribution: 이미지 복잡도에 기반하여 유사한 visual token들을 동적으로 병합하는 threshold 기반 알고리즘 제안. Batch 내 통계량을 활용하여 layer-wise threshold (τi) 결정 (Eq 4).
- Novelty: 기존 ToMe [3] 등 고정된 수의 token을 병합하는 방식과 달리, 이미지 내용에 따라 병합되는 token 수가 가변적임. 이는 training-free 방식으로 구현됨.
Virtual Token Unmerging (VTU):
- Contribution: 줄어든 token 수를 가지고 RoPE 기반 LLM을 처리하면서도, 원래 길이 token 시퀀스의 attention matrix를 효율적으로 근사하는 방법 제안 (Eq 10). Token 위치 정보(M)와 RoPE의 특성을 활용.
- Novelty: Token 시퀀스를 실제로 복원하지 않고 attention 계산 과정에서 '가상으로' unmerging하여, 추가 학습 없이 LLM의 성능 저하를 크게 완화함. RoPE 구조에 특화된 training-free 솔루션.
DyMU Framework:
- Contribution: DToMe와 VTU를 결합하여 training-free, plug-and-play 방식으로 VLM의 연산 효율성을 높이는 통합 프레임워크 제공.
- Novelty: Encoder 단에서부터 token 수를 동적으로 조절하고, LLM 단에서 성능 저하를 방지하는 두 요소를 학습 없이 결합한 최초의 시도.

Experimental Highlights

성능 유지 및 효율성: DyMU-low 설정은 원본 LLaVA-1.5 baseline 대비 평균 ~15%의 visual token 만 사용하면서도 97.7% 수준의 평균 성능 달성 (Table 2). LLaVA-OneVision (AnyRes) 모델에서도 유사한 경향 확인 (Table 4).
다양한 모델 호환성: CLIP, SigLIP 등 다양한 visual encoder와 RoPE 기반 LLM (Vicuna-7B, Qwen2) 아키텍처에서 일관된 효과 확인 (Table 2, 3, 4).
VTU의 효과 검증: VTU를 적용했을 때, 단순히 token 수를 줄여 입력하는 것 (DToMe w/o VTU, ToMe w/o VTU) 보다 대부분의 benchmark에서 성능이 크게 향상됨을 입증 (Figure 4, Table 6).
동적 토큰 할당 검증: 이미지 복잡도(JPEG 압축률)와 DToMe가 할당하는 token 수 사이에 강한 양의 상관관계 확인. 복잡한 이미지에 더 많은 token을 할당하여 ToMe 대비 성능 우위 확보 (Figure 3).
Threshold 추정의 Robustness: Threshold 계산에 사용되는 이미지 데이터셋(LLaVA Instruct vs. Pixmo-Cap)이 달라져도 최종 성능에 미치는 영향이 미미함을 보여줌 (Figure 5, Table 7).
Controllability 시연: DyMU를 Background Removal, OCR 등 외부 도구와 결합하여 특정 task에 필요한 token 수를 더욱 줄일 수 있는 유연성(flexibility)과 제어 가능성(controllability) 시연 (Figure 6).

Limitations and Future Work

Limitations:
- Token merging 과정에서 미세한 공간 정보가 손실될 수 있어, TextVQA와 같이 높은 공간적 정확도(spatial precision)를 요구하는 task에서는 성능이 저하될 수 있음.
Future Work:
- 공간적 추론(spatial reasoning) 성능을 보존하면서 효율성을 높이는 방향으로 DyMU 개선.
- DyMU를 비디오 데이터에 적용하여 **시간적 중복성(temporal redundancy)**을 줄이는 방향으로 확장 연구.

Overall Summary

이 논문은 VLM의 고정된 visual token 길이 비효율성을 해결하기 위해 training-free 방식인 DyMU를 제안함.
DyMU는 이미지 복잡도에 따라 token 수를 동적으로 조절하는 DToMe와, 줄어든 token으로 LLM 성능을 유지하는 VTU로 구성됨.
실험 결과, DyMU는 평균 token 수를 32%-85%까지 크게 줄이면서도 원본 모델과 비교 가능한 성능을 다양한 VLM 아키텍처에서 달성함을 보여줌.
이는 추가 학습 없이 기존 VLM의 효율성을 크게 개선할 수 있는 실용적인 방법을 제시하며, 특히 자원이 제한된 환경에서 VLM 활용 가능성을 높이는 데 기여할 수 있음.

쉬운 설명 (Easy Explanation)

기존 VLM은 사진이 단순하든 복잡하든 똑같은 양의 "돋보기(visual token)"를 사용해서 그림을 봤어요. 이건 비효율적이죠.
DyMU는 사진의 복잡함에 맞춰 돋보기 개수를 조절해요. 단순한 그림은 돋보기를 적게 쓰고, 복잡한 그림은 많이 쓰는 거죠 (이게 DToMe).
그런데 돋보기를 적게 쓰면 VLM(LLM 부분)이 그림을 잘 이해 못 할 수 있어요. 그래서 DyMU는 **원래 돋보기를 다 썼을 때처럼 VLM이 생각하도록 '힌트'를 주는 똑똑한 방법(VTU)**을 사용해요. 실제 돋보기를 다 보여주진 않으면서도 말이죠.
결과적으로 더 적은 계산으로도 원래만큼 그림을 잘 이해하게 되는, 학습 없이 바로 쓸 수 있는 효율적인 VLM을 만드는 기술이에요.

'논문리뷰' 카테고리의 다른 글

VLM : 논문리뷰 : Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning (1)	2025.04.29
VLM : 논문리뷰 : VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model (3)	2025.04.28
RL : 간단 논문 리뷰 : Proximal Policy Optimization Algorithms (1)	2025.04.25
VLM : 논문 리뷰 : InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models (0)	2025.04.24
VLM : 논문 리뷰 : TTRL: Test-Time Reinforcement Learning (0)	2025.04.24

'논문리뷰' Related Articles

AI바라기의 인공지능

VLM : 간단 논문 리뷰 : DYMU: Dynamic Merging and Virtual Unmerging for Efficient VLM 본문

VLM : 간단 논문 리뷰 : DYMU: Dynamic Merging and Virtual Unmerging for Efficient VLM

DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs 학습 노트

'논문리뷰' 카테고리의 다른 글

티스토리툴바