AI바라기의 인공지능
LLM / VLM : 논문리뷰 : Matryoshka Multimodal Models 본문
Abstract
LLaVA와 같은 LMM은 시각-언어 추론에서 강력한 성능을 보여주었습니다. 이 모델들은 먼저 이미지를 고정된 다수의 visual token으로 임베딩한 다음, LLM에 입력합니다.
그러나 이러한 설계는 고해상도 이미지 및 비디오와 같은 밀집된 시각 시나리오에서 과도한 수의 token을 발생시켜 비효율성을 초래합니다.
token pruning 및 merging 방법이 존재하지만, 각 이미지에 대해 단일 길이 출력을 생성하며 정보 밀도와 효율성 사이의 균형을 유연하게 조절할 수 없습니다.
Matryoshka Dolls의 개념에서 영감을 받아, M3: Matryoshka Multimodal Models를 제안합니다.
이는 시각적 콘텐츠를 여러 coarse-to-fine granularities에 걸쳐 정보를 캡처하는 중첩된 visual token 집합으로 나타내는 방법을 학습합니다.
M3는 LMM에 몇 가지 독특한 이점을 제공합니다.
- 추론 중 테스트 인스턴스별로 visual granularity를 명시적으로 제어할 수 있습니다. 예를 들어 예상되는 콘텐츠의 복잡성 또는 단순성에 따라 이미지를 나타내는 데 사용되는 token 수를 조정할 수 있습니다.
- M3는 기존 데이터 세트에 필요한 granularity를 분석하기 위한 프레임워크를 제공합니다. COCO 스타일 벤치마크는 모든 token을 사용하는 것과 유사한 정확도를 얻기 위해 약 9개의 visual token만 필요하다는 것을 발견했습니다.
- M3는 샘플 수준에서 성능과 visual token 길이 사이의 최상의 균형을 탐색할 수 있는 기반을 제공합니다. 조사 결과 oracle upper bound와 현재 고정 규모 표현 사이에 큰 차이가 있음을 밝혀냈습니다.
Introduction
LMM은 visual-linguistic understanding 및 reasoning에서 강력한 성능을 보여주었습니다. LLaVA와 같은 모델들은 입력 이미지를 고정된 수의 visual token으로 임베딩한 후, 이를 LLM에 prefix token으로 입력하여 이미지에 대한 추론을 수행합니다. 비디오 LMM에서도 유사한 모델 디자인이 사용되며, 각 프레임은 고정된 수의 token을 제공하여 최종 비디오 표현을 형성합니다.
실제로 고해상도 이미지의 경우 visual token 수가 엄청나게 많을 수 있으며, 긴 비디오의 경우에는 더욱 그렇습니다. 기존 연구들은 주로 input context length를 늘리고 결과적으로 LLM에 많은 수의 visual token(예: 3-8k)을 입력하여 이 문제를 해결했습니다.
이 접근 방식에는 몇 가지 단점이 있습니다.
(1) 극도로 긴 context는 training 및 inference를 비효율적으로 만듭니다.
(2) 과도한 수의 visual token은 실제로 LMM의 성능을 저해할 수 있으며, 관련 정보에 대한 attention을 방해할 수 있습니다(Sec. 4.3 참조).
몇몇 최근 연구들은 휴리스틱을 사용하여 visual token을 pruning하고 merge하여 sequence length를 줄입니다. 그러나 이들은 단일 길이 출력을 생성하며 최종 sequence length에 대한 제어를 제공하지 않습니다.
이는 deployment 단계에서 resource constraint를 고려하면서 정보 밀도와 효율성 사이의 균형을 맞추는 데 유용할 수 있습니다.
이미지와 비디오는 자연스럽게 coarse에서 fine detail까지의 hierarchical structure를 나타내며, 인간의 시각 시스템은 수십 년 전 생물학자와 심리학자들이 보여준 것처럼 이러한 coarse-to-fine 방식으로 시각 정보를 인식하도록 진화했습니다. 하나의 모델 weight suite 내에서 visual content token이 서로 다른 granularities scale로 구성되는 LMM에 대해 유사한 구조를 만들 수 있을까요?
개념적으로, 우리의 목표는 Matryoshka Doll과 유사하게 visual token이 nested structure를 갖도록 학습하는 것입니다. Matryoshka Representation Learning (MRL)은 neural network의 representation vector 위에 Matryoshka 메커니즘을 구축하며, 다양한 feature dimension을 가진 각 segment는 classification 또는 retrieval과 같은 task를 처리할 수 있습니다. 그러나 LMM의 경우 비효율성은 주로 token 수에서 비롯됩니다. 따라서 MRL에서 영감을 받았지만 MRL과는 다르게, 우리의 연구는 token length dimension에 Matryoshka Multimodal Models를 구축하여 유연하게 조정할 수 있도록 하는 데 동기를 부여받았습니다.
- 사람은 이미지를 볼 때 전체적인 모습부터 세부적인 부분까지 단계적으로 인식
- 이와 비슷하게, LMM도 이미지를 여러 단계의 세부 정보(coarse-to-fine details)로 표현하는 방법을 학습
- 이를 통해 필요에 따라 token 수를 유연하게 조절하여 효율성을 높이고 성능을 향상
구체적으로, 우리는 M3: Matryoshka Multimodal Models를 제안합니다.
이는 MRL에서와 같이 feature dimension level이 아닌 token sequence level에서 LMM이 visual representation granularities의 hierarchy를 학습하도록 합니다.
이러한 representation을 통해 inference 시, 입력 이미지의 information density 및 efficiency constraints를 고려하여 visual granularity를 유연하게 제어할 수 있습니다.
우리의 training process는 간단하고 straightforward합니다. training 중에 이미지를 coarse에서 fine까지 M 세트의 visual token으로 인코딩합니다. 여기서 visual token 수는 점진적으로 증가합니다.
즉, |XSi−1| < |XSi| 입니다. 중요한 것은, 더 coarse level의 visual token은 더 fine level의 visual token에서 파생됩니다.
즉, XSi−1 ⊂ XSi, ∀i 입니다. 이러한 방식으로, [XS1, XS2, · · · , XSM]의 visual information은 점차 더 fine-grained detail을 포함하게 됩니다. 예를 들어, 그림 1과 같은 자연 이미지가 주어지면, XS1은 레스토랑 및 소녀와 같은 high-level semantics를 포함하는 반면, XSM은 펩시 컵 및 흰색 종이 봉투와 같은 더 자세한 내용을 포함합니다. loss function 및 model architecture와 같은 다른 모든 training 설정은 LLaVA와 동일하게 유지됩니다.

- 더 coarse한 visual token 세트 XSi−1이 더 fine한 visual token 레벨 XSi에서 파생되도록 합니다.
- 결과적으로, Matryoshka visual token의 granularity는 제어 가능한 방식으로 점진적으로 변화합니다.
- 이미지는 MSCOCO validation set에서 가져왔습니다.
M3 접근 방식은 LMM에 몇 가지 새로운 특성과 이점을 제공합니다. 첫째, 우리의 접근 방식은 시각적 콘텐츠를 적응적으로 효율적으로 나타낼 수 있습니다. 하나의 weight suite 하에서, 다양한 information density granularities를 가진 여러 개의 중첩된 visual token 세트를 생성합니다.
이를 통해 inference 중 모든 이미지에 사용되는 visual token 수를 유연하게 조정하여 이미지 또는 비디오 콘텐츠에 따라 cost와 performance 간의 최상의 tradeoff를 제어할 수 있습니다. 예를 들어, detail이 많은 이미지에는 모든 visual token을 사용하고, 더 단순한 이미지에는 몇 개의 token만 사용할 수 있습니다. 이러한 유연성은 비디오와 같이 매우 긴 visual sequence를 처리할 때 특히 중요할 수 있습니다. 예를 들어, 2880 visual token의 고정된 budget이 주어지면 사용자는 2880 프레임의 비디오를 각각 하나의 token으로 나타내거나 동일한 비디오를 5개의 프레임을 각각 576 token으로 샘플링하여 나타낼 수 있습니다.
둘째, 우리의 접근 방식은 vision-language 데이터 세트 또는 벤치마크의 visual complexity를 평가하는 general framework로 사용될 수 있습니다. 즉, 주어진 task를 올바르게 수행하기 위해 어떤 level의 granularity가 필요한지 평가할 수 있습니다. 놀랍게도, 대부분의 벤치마크, 특히 자연 장면(예: COCO)에서 주로 만들어진 벤치마크는 이미지당 약 9개의 token만으로도 잘 처리될 수 있음을 발견했습니다. 반면, document understanding 또는 OCR과 같은 dense visual perception task는 task를 잘 처리하기 위해 이미지당 더 많은 token(144-576 token)이 필요합니다. 자세한 내용은 4.2절에 나와 있습니다.
마지막으로, 우리의 접근 방식은 LMM의 중요한 task를 해결하기 위한 기반을 제공합니다: visual question에 올바르게 답변하면서 최소한의 visual token을 사용하는 방법은 무엇일까요? test set에 대한 모델의 예측을 기반으로, full visual token과 비교하여 oracle은 훨씬 더 적은 token을 사용하면서 훨씬 더 나은 성능을 낼 수 있음을 발견했습니다. 예를 들어, LLaVA-NeXT에서 사용되는 6가지 일반적인 LMM 벤치마크에서, trained M3 model을 사용하는 oracle은 이미지 grid당 576 token을 사용하는 LLaVA-NeXT보다 8% 포인트 더 나은 성능을 달성하기 위해 평균적으로 8.9개의 visual token만 사용할 수 있습니다.
이는 4.2절에서 보여주는 것처럼 oracle upper bound에 비해 개선의 여지가 크다는 것을 나타냅니다.
다양한 information granularities를 학습하는 adaptive LMM에 대한 추가 연구를 가능하게 하기 위해 코드와 모델을 공개합니다.
Related Work
Large Multimodal Models.
ChatGPT, GPT-4, LLaMA와 같은 LLMs는 텍스트에 대한 인상적인 추론 및 일반화 능력을 보여주었습니다. 최근 GPT-4V(ision)와 같은 시각 정보를 통합하는 모델의 도입으로 LLM의 landscape는 크게 변화했습니다. open-source LLMs를 기반으로 LLaVA 및 MiniGPT-4와 같은 모델들이 multimodal model의 발전을 이끌었습니다. 이 모델들은 LLaMA의 언어 능력과 CLIP 기반 image encoder를 결합합니다. 최근에는 region level LMMs, 3D LMMs 및 video LMMs와 같은 더 많은 task 및 modality에 대한 LMM이 등장했습니다.
그러나 기존 LMM은 일반적으로 시각적 콘텐츠를 크고 고정된 수의 token으로 나타내므로 고해상도 이미지 또는 긴 형식의 비디오와 같은 매우 긴 visual sequence로 확장하기 어렵습니다. 이 연구에서는 여러 개의 중첩된 visual token 세트를 학습하여 시각적 콘텐츠를 적응적으로 효율적으로 나타내고 inference 중 모든 이미지에 사용되는 visual token 수를 유연하게 조정할 수 있도록 제안합니다.
Matryoshka Representation Learning.
Matryoshka Representation Learning (MRL)은 다양한 downstream task에 다양한 computational resource로 적응할 수 있는 flexible representation의 필요성을 해결합니다. Matryoshka dolls의 nested nature에서 영감을 받은 이 접근 방식은 neural network에서 생성된 동일한 고차원 feature vector 내에 서로 다른 granularities의 정보를 인코딩합니다.
MRL의 adaptability는 vision (ResNet, ViT), vision + language (ALIGN) 및 language (BERT)를 포함한 다양한 modality에 걸쳐 확장되어 다용성과 효율성을 보여줍니다. 최근 연구는 MRL을 text embedding space 및 Transformer layers space 모두로 확장합니다. 우리의 접근 방식은 MRL에서 영감을 받았지만, 고차원 feature vector에 대해 여러 개의 중첩된 embedding을 학습하는 대신, visual input에 대해 token length dimension을 따라 nested visual token을 학습합니다. 우리는 Matryosha learning의 아이디어가 LMM이 처리하는 시각적 콘텐츠의 visual granularity에 대한 명시적인 제어를 가능하게 함을 처음으로 보여줍니다.
Token Reduction.
최근 LMM의 비효율성의 주요 원인 중 하나는 LLM에 입력되는 많은 수의 prefix visual token입니다. Transformer의 quadratic complexity는 Transformer의 input sequence length를 scaling하는 데 있어 핵심 문제입니다. Token reduction은 Transformer의 computational cost를 줄이는 효과적인 기술입니다. Linformer 및 ReFormer와 같은 Sparse attention method는 전체 context가 아닌 local window 내에서 attention operation을 수행하여 vanilla attention operation의 quadratic complexity를 줄입니다. 또 다른 주목할 만한 방법은 Token Merging (ToMe)입니다.
이는 full attention을 활용하지만 ViT에 대한 bipartite matching을 통해 가장 representative token을 선택하여 각 transformer block의 token 수를 점진적으로 줄입니다. 최근 연구는 ViT에 대한 다양한 token reduction method를 추가로 연구합니다. 그러나 이전 접근 방식은 입력 이미지당 단일 길이 출력을 생성하며 reduced token sequence에 대해 여러 granularities를 제공하지 않습니다.
우리의 M3 접근 방식은 대신 동일한 model architecture 및 weight 내에서 multi-granularity, coarse-to-fine token representation을 학습하여 다양한 computational 또는 memory constraints에 쉽게 조정할 수 있도록 합니다.
동시 진행 중인 연구는 우리의 접근 방식과 유사한 spirit을 공유하며, 단일 model weight 세트를 사용하여 다양한 수의 visual token으로 이미지를 나타냅니다. 그들의 방법은 transformation layer를 통해 visual token을 sequential list로 재구성하는 반면, 우리는 average pooling을 사용하여 visual token의 spatial structure를 보존하며 실험에서 효과를 입증합니다.

Figure 3: Architecture of our proposed Matryoshka Multimodal Models.
- CLIP의 visual feature는 coarse-to-fine visual token의 여러 그룹으로 표현됩니다.
- test 시, 사용자는 visual feature의 granularity를 명시적으로 제어할 수 있습니다.
M3 : Matryoshka Multimodal Models
우리의 목표는 visual content를 여러 coarse-to-fine granularities에 걸쳐 정보를 캡처하는 중첩된 visual token 세트로 나타내는 LMM을 학습하여, 추론 중 테스트 인스턴스별로 visual granularity를 명시적으로 제어할 수 있도록 하는 것입니다. 여기서는 Matryoshka doll과 유사한 token sequence를 학습하는 방법을 소개합니다.
LLaVA와 같은 LMM은 일반적으로 visual-linguistic reasoning을 위해 visual token sequence를 LLM에 prefix token으로 입력합니다. CLIP 및 SigLIP와 같은 pretrained vision-language model의 visual encoder는 일반적으로 이미지를 visual token 세트로 projection하는 데 사용됩니다. 특히, CLIP visual encoder는 입력 이미지 I를 H × W grid의 visual token XH×W로 나타내며, 여기서 각 Xi ∈ RC는 C dimensional feature vector입니다. 우리의 목표는 visual information을 coarse-to-fine 방식으로 인코딩하는 중첩된 visual token 세트 [XS1, XS2, · · · , XSM]를 학습하는 것입니다.
이를 위해 XSi ⊂ XSi+1, ∀i를 적용합니다. 중요한 것은 LMM에 새로운 learnable parameter를 도입하지 않는다는 것입니다. 대신 CLIP visual encoder를 최적화하여 nested visual representation을 직접 학습하고, 이어지는 LLM을 학습된 nested token 세트에 적응하도록 training합니다.
설명을 쉽게 하기 위해 CLIP-ViT-L-336을 visual encoder로 간주합니다.
여기서 이미지는 24×24 visual token(총 576개)으로 인코딩됩니다.
우리는 M 세트의 token(예: |Si| ∈ {1, 9, 36, 144, 576})을 생성하며, 여기서 더 coarse level의 visual token은 더 fine level의 visual token에서 직접 파생됩니다.
구체적으로, 초기 24 × 24 visual token이 주어지면, stride 2로 2 × 2 pooling을 순차적으로 적용하여 12 × 12, 6 × 6 및 3 × 3 visual token을 생성합니다.
마지막으로 3 × 3 pooling을 적용하여 가장 condensed된 single visual token을 얻습니다. 이러한 방식으로 Matryoshka visual token 세트는 coarse-to-fine nested representation을 형성하는 동시에 원본 token의 spatial information을 점진적으로 보존할 수 있습니다.
