VLM : 빠른 논문 리뷰 : Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

논문리뷰

VLM : 빠른 논문 리뷰 : Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

AI바라기 2026. 1. 7. 14:22

용어 설명 (Terminology)

Visual Token Pruning: 멀티모달 모델(MLLM)의 연산 속도를 높이기 위해, 입력 이미지 토큰 중 중요하지 않은 것을 제거하고 핵심 토큰만 남기는 기술입니다.
Prompt Alignment (PA): 사용자의 질문(프롬프트)과 직접적으로 관련된 이미지 토큰을 찾아내는 목표입니다. (예: "사진 속 글자가 뭐야?" 질문 시 글자 부분 토큰 선택)
Visual Preservation (VP): 이미지 전체의 시각적 정보를 최대한 잃지 않도록 대표 토큰을 남기는 목표입니다. (이미지 전체 맥락 유지)
Hausdorff Distance (하우스도르프 거리): 두 집합 사이의 거리를 측정하는 기하학적 지표입니다. 이 논문에서는 원본 토큰 집합과 가지치기된 토큰 집합 사이의 정보 손실을 수학적으로 정의하는 데 사용되었습니다.
Prompt-Visual Coupling (프롬프트-비주얼 커플링, eta): 프롬프트와 이미지 데이터가 의미 공간상에서 얼마나 가깝게 연관되어 있는지를 나타내는 척도입니다. 이 값에 따라 최적의 가지치기 전략이 달라집니다.
Multi-Objective Balanced Covering (MoB): 이 논문에서 제안하는 알고리즘으로, 가지치기 문제를 기하학적인 영역 덮기(Covering) 문제로 변환하여 예산을 최적으로 분배하는 방식입니다.

Purpose of the Paper

기존 '단순 결합'의 실패 원인 규명: 기존 연구들은 Visual Preservation(VP)과 Prompt Alignment(PA)를 단순히 섞으면 성능이 오를 것이라 기대했지만, 실제로는 단일 목적 방식보다 성능이 떨어지는 1 + 1 < 1 현상이 발생했습니다. 저자들은 이 현상의 원인이 각 태스크마다 달라지는 **프롬프트와 비주얼 데이터 간의 결합도(Coupling)**를 무시하고 고정된 전략을 썼기 때문임을 밝혀냈습니다.
이론적 기반의 새로운 프레임워크 제안: 단순히 경험적인 점수(Attention Score)에 의존하던 기존 방식에서 벗어나, Hausdorff Distance를 기반으로 에러 한계(Error Bound)를 수학적으로 유도하고, 이를 통해 태스크 특성에 맞춰 두 가지 목표(VP, PA)의 균형을 동적으로 맞추는 새로운 접근법을 제시합니다.

Key Contributions

최초의 Closed-Form Error Bound 유도:
- Visual Token Pruning의 에러를 Hausdorff Distance를 이용해 수식화하고, 에러의 상한선(Bound)이 Visual Preservation, Prompt Alignment, 그리고 Prompt-Visual Coupling(eta) 세 가지 요소에 의해 결정됨을 이론적으로 증명했습니다.
내재적 트레이드오프(Intrinsic Trade-off) 발견:
- 고정된 토큰 예산(K) 안에서 두 가지 목표(VP, PA)를 동시에 완벽하게 달성하는 것은 불가능하며, 입실론-커버링 이론(epsilon-covering theory)을 통해 두 목표 사이에 필연적인 거래 관계(Trade-off)가 있음을 정량화했습니다.
MoB (Multi-Objective Balanced Covering) 알고리즘 제안:
- 가지치기 문제를 두 가지 반지름(VP 반경, PA 반경)을 조절하는 예산 할당 문제로 재정의했습니다.
- Greedy Radius Trading 전략을 통해, 훈련 과정 없이(Training-free) 전체 토큰 예산을 **프롬프트 중심 집합(Sp)**과 **비주얼 중심 집합(Sv)**에 최적으로 나눠주는 알고리즘을 개발했습니다.
참신성 (Novelty):
- 기존 방법들이 토큰별 중요도 점수를 매겨 줄 세우기를 했던 것과 달리, 이 연구는 토큰들을 기하학적 공간상의 점으로 보고 영역을 가장 잘 덮는(Covering) 대표점을 찾는 방식으로 접근했다는 점이 매우 독창적입니다.

Experimental Highlights

압도적인 토큰 압축률과 성능 보존:
- LLaVA-1.5-7B 모델 실험에서 원본 비주얼 토큰의 11.1% (약 9분의 1) 만 남기고도, 원본 성능의 **96.4%**를 유지했습니다. 이는 기존 2위 방법론(MustDrop 등)보다 2.7% 포인트 더 높은 성능입니다.
- Video-LLaVA-7B 비디오 모델에서는 토큰을 93.4%나 줄였음에도 성능을 97.9% 유지하며 최고 성능(State-of-the-art)을 달성했습니다.
추론 속도 가속:
- 고해상도 모델인 LLaVA-Next-7B의 추론 속도를 성능 저하 없이 1.3배에서 1.5배 빠르게 만들었습니다.
결합도(Coupling)에 따른 적응성 검증:
- 실험 결과, 텍스트 읽기(TextVQA)처럼 프롬프트와 이미지가 멀리 떨어진 약한 결합(Weak Coupling) 상황에서는 MoB가 프롬프트 정렬(PA)에 예산을 더 할당하고, 일반적인 이미지 묘사 같은 강한 결합(Strong Coupling) 상황에서는 시각적 보존(VP)에 더 할당하는 등 이론적 예측대로 작동함을 확인했습니다.

Limitations and Future Work

파라미터 탐색의 수동성 (Limitation):
- MoB 알고리즘에서 프롬프트용 예산(Kp)을 결정하기 위해 사전 탐색이나 휴리스틱한 비율 설정이 필요합니다. 이는 완전 자동화된 파이프라인 구축에 한계가 됩니다.
가정 의존성 (Limitation):
- 제안된 이론적 보장은 모델의 임베딩 공간이 특정 조건(립시츠 연속성 등)을 만족한다고 가정합니다. 매우 불규칙한 공간을 가진 미래 모델에서는 이 이론이 딱 맞지 않을 수 있습니다.
향후 연구 방향 (Future Work):
- 입력 데이터가 들어올 때 실시간으로 **프롬프트-비주얼 결합도(eta)**를 추정하고, 이에 맞춰 **Kp(프롬프트 예산)를 스스로 조절하는 적응형 메커니즘(Adaptive Mechanism)**을 개발하여 수동 탐색 과정을 없애는 방향을 제시했습니다.

Overall Summary

이 논문은 Visual Token Pruning 분야에서 단순히 여러 목표를 결합하는 것이 오히려 성능을 해칠 수 있다는 1 + 1 < 1 문제를 제기하고, 이를 Hausdorff Distance와 Prompt-Visual Coupling 개념으로 이론적으로 규명했습니다. 이를 해결하기 위해 토큰 선별을 기하학적인 영역 덮기 문제로 치환하고 예산을 최적으로 배분하는 MoB 알고리즘을 제안했습니다. 결과적으로 MoB는 극도로 적은 토큰(약 11%)만으로도 최신 MLLM(LLaVA-Next, Qwen2-VL)의 성능을 완벽에 가깝게 유지하며, 효율적인 MLLM 추론을 위한 새로운 이론적, 실용적 기준을 세웠습니다.

쉬운 설명 (Easy Explanation)

상황: 여행 가방(토큰 예산)이 아주 작아서 짐을 최소한으로 줄여야 합니다. 챙겨야 할 짐은 "업무 서류(Prompt 관련)"와 "생필품(Visual 정보)" 두 종류입니다.
기존 방식의 문제: 여행 목적이 무엇이든 무조건 "서류 반, 생필품 반"씩 챙깁니다. 그래서 출장 갈 때 생필품만 많거나, 휴가 갈 때 서류만 많은 상황이 생겨 여행(모델 성능)을 망칩니다.
이 논문의 해결책 (MoB):
1. 목적 파악: 이번 여행이 "업무가 중요한 출장(Weak Coupling)"인지 "놀러 가는 휴가(Strong Coupling)"인지 먼저 잽니다.
2. 예산 배분: 출장이면 서류부터 챙기고 남는 공간에 생필품을 넣고, 휴가면 생필품부터 챙깁니다.
3. 결과: 상황에 딱 맞춰 짐을 쌌기 때문에, 아주 작은 가방으로도 문제없이 여행을 마칠 수 있습니다. 이것이 바로 MoB가 토큰을 기하학적으로 배치하여 예산을 나누는 원리입니다.

[Phase 1. 준비 및 예산 설정]

Input: 원본 **이미지 토큰 전체(V)**와 사용자의 **질문 토큰(P)**을 입력받습니다.
Budget Setting: 사용자가 남기고 싶은 **최종 토큰 개수(K)**를 설정합니다.
L2 Normalization: 모든 토큰 벡터를 정규화하여 길이를 1로 맞춥니다. (내적 계산이 곧 유사도/거리가 되도록 함)
Allocation: 데이터 특성(Coupling)에 맞춰 미리 정해진 비율대로 **질문용 개수(Kp)**와 **배경용 개수(Kv)**를 확정합니다.

[Phase 2. 질문 관련 토큰 선발 (Sp)]

Similarity Calc: 질문(P)과 이미지(V) 전체를 행렬 내적하여 모든 쌍의 유사도를 구합니다.
Candidate Selection: 질문의 각 단어마다 가장 유사한 상위 k개의 토큰을 후보로 등록합니다. (질문 의도 전체 커버 목적)
Final Pick: 후보들 중 유사도 점수가 가장 높은 순서대로 Kp개를 확정하여 **질문용 선발팀(Sp)**을 꾸립니다.

[Phase 3. 배경 토큰 선발 (Sv) - 핵심 반복 구간]

Init Distance: 전체 이미지 토큰 각각에 대해, 현재 선발팀(Sp) 멤버 중 가장 가까운 놈과의 거리를 계산해 메모장(거리 벡터)에 적어둡니다.
Loop Start: 배경용 개수 Kv개를 채울 때까지 아래 과정을 반복합니다.
ArgMax Selection: 메모장을 보고 거리 값이 가장 큰(선발팀과 제일 안 비슷한) 토큰 1개를 뽑아 선발팀에 추가합니다.
Distance Update: 방금 뽑힌 그 놈과 나머지 토큰들 간의 거리를 계산합니다.
Min Update: 기존 메모장에 적힌 거리보다 방금 잰 거리가 더 가깝다면(비슷하다면), 더 작은 값으로 메모장을 고쳐 씁니다. (가까운 놈이 생겼으니 거리 갱신)
Loop End: 목표한 Kv개를 다 채우면 반복을 멈춥니다.

[Phase 4. 최종 출력]

Merge: 질문용(Sp)과 배경용(Sv)을 합쳐 최종 K개의 정예 토큰을 완성합니다.
Inference: 선별된 K개의 이미지 토큰과 원본 질문 토큰을 MLLM에 입력합니다.
Output: MLLM이 연산을 수행하여 최종 답변을 내놓습니다.