AI바라기의 인공지능
VLM : 논문리뷰 : Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion 본문
VLM : 논문리뷰 : Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion
AI바라기 2024. 12. 13. 15:29Abstract
본 논문에서는 generative vision foundation model인 Florence-2 [45]에 의해 생성된 풍부한 visual representation을 가진 새로운 multimodal large language models (MLLMs) 제품군인 Florence-VL을 제시합니다. contrastive learning으로 학습된 널리 사용되는 CLIP-style vision transformer [35]와 달리, Florence-2는 다양한 downstream task에 더 쉽게 적용할 수 있는 다양한 수준과 측면의 visual features를 포착할 수 있습니다. 우리는 Florence-2의 visual features를 Phi 3.5 및 LLama 3와 같은 pretrained LLMs에 효과적으로 통합하는 새로운 feature-fusion architecture와 혁신적인 training recipe를 제안합니다. 특히, 우리는 다양한 깊이와 여러 prompt에서 추출된 visual features를 융합하기 위해 “depth-breath fusion (DBFusion)”을 제안합니다. 우리 모델의 training은 고품질 이미지 캡션과 instruction-tuning 쌍을 포함하는 다양하고 엄선된 open-source datasets의 recipe에 따라 전체 모델의 end-to-end pretraining과 projection layer 및 LLM의 finetuning으로 구성됩니다. Florence-VL의 visual features에 대한 우리의 정량적 분석 및 시각화는 풍부한 depth와 breath가 중요한 역할을 하는 vision-language alignment에서 널리 사용되는 vision encoders에 비해 장점을 보여줍니다. Florence-VL은 일반 VQA, perception, hallucination, OCR, Chart, knowledge-intensive understanding 등을 포함하는 다양한 multi-modal 및 vision-centric benchmarks에서 기존의 state-of-the-art MLLMs에 비해 상당한 개선을 달성합니다.
Florence-VL (새로운 Multimodal LLM 제품군)
- 핵심: Florence-2의 강력한 시각적 표현을 활용하는 새로운 multimodal large language models (MLLMs) 제품군.
- Florence-2의 장점:
- Contrastive learning 기반의 CLIP-style vision transformer와 달리, 다양한 수준과 측면의 visual features 포착 가능.
- 다양한 downstream task에 유연하게 적용 가능.
- Florence-VL의 특징:
- 새로운 Feature-Fusion Architecture: Florence-2의 visual features를 pretrained LLMs (Phi 3.5, LLama 3 등)에 효과적으로 통합.
- DBFusion (Depth-Breath Fusion): 다양한 깊이와 여러 prompt에서 추출된 visual features를 융합하는 혁신적인 방법.
- 학습 방식:
- 전체 모델의 End-to-End Pretraining.
- 엄선된 open-source datasets (고품질 이미지 캡션, instruction-tuning 쌍 포함) 기반.
- Projection layer와 LLM의 Finetuning.
- 성능:
- Vision-language alignment에서 기존 vision encoders 대비 우수한 성능. (Depth와 Breath가 중요한 역할).
- General VQA, perception, hallucination, OCR, Chart, knowledge-intensive understanding 등 다양한 multi-modal 및 vision-centric benchmarks에서 state-of-the-art MLLMs 대비 상당한 성능 향상.
핵심 키워드:
- Multimodal Large Language Models (MLLMs)
- Florence-2 (Generative Vision Foundation Model)
- Visual Representation
- Visual Features
- CLIP-style Vision Transformer
- Downstream Tasks
- Feature-Fusion Architecture
- DBFusion (Depth-Breath Fusion)
- Pretrained LLMs (Phi 3.5, LLama 3)
- End-to-End Pretraining
- Finetuning
- Open-source Datasets
- Vision-Language Alignment
- Vision Encoders
- Depth and Breath
- Multi-modal Benchmarks
- Vision-centric Benchmarks

그림 1. LLaVA 스타일 MLLM과 Florence-VL 비교. LLaVA 스타일 모델은 contrastive learning으로 pretrained된 CLIP을 사용하여 단일 high-level image feature를 생성합니다. 반면, Florence-VL은 이미지 캡셔닝, OCR 및 grounding과 같은 다양한 vision task에서 generative modeling으로 pretrained된 Florence-2를 활용합니다. 이를 통해 Florence-VL은 Florence-2를 image encoder로 사용하여 여러 task-specific image features를 유연하게 추출할 수 있습니다.
1. Introduction
multimodal large language models (MLLMs)의 최근 발전은 large language models의 발전 [26, 49]에 크게 힘입은 바가 큽니다. 하지만 visual encoders의 경우, CLIP 또는 SigLIP과 같은 transformer 기반 모델이 여전히 가장 일반적으로 사용되는 선택지입니다. CLIP과 SigLIP의 효과성에도 불구하고, 이들은 한계를 가지고 있습니다. 예를 들어, 이들의 마지막 레이어 features는 일반적으로 전체 장면과 맥락을 포착하는 image-level semantic representation을 제공하지만, 다양한 downstream tasks에 중요한 pixel 또는 region-level의 세부 사항과 low-level features를 간과하는 경우가 많습니다. self-supervised DINOv2 모델 [34], diffusion model [37], segmentation [20], [41]과 같은 훨씬 더 광범위한 visual representation이 존재하며, 이러한 다양한 visual encoders는 특정 작업에서 큰 이점을 얻을 수 있음을 보여줍니다.
여러 vision encoders의 고유한 representations를 활용하기 위해, [38, 41]과 같은 일부 최근 연구에서는 다양한 feature 측면 또는 기술을 전문으로 하는 vision encoders의 혼합을 채택합니다. 그러나 여러 vision encoders를 통합하면 모델 training과 배포 모두에 대한 계산 비용이 증가합니다. 단일 vision model이 입력 이미지에서 서로 다른 perceptual information을 강조하는 고유한 visual features를 생성하도록 설계될 수 있을까요? 본 논문에서는 generative vision foundation model인 Florence-2 [45]를 vision encoder로 활용하는 Florence-VL을 제안합니다. Florence-2는 캡셔닝, 객체 감지, grounding 및 OCR을 포함한 다양한 computer vision 작업에 prompt 기반 representation을 제공합니다. 다재다능한 visual representations는 다양한 유형의 downstream tasks에 도움이 될 수 있습니다. 예를 들어, OCR 기반 representations는 이미지에서 텍스트 정보를 추출해야 하는 작업에 유리하고, grounding 기반 representation은 객체와 해당 공간적 맥락 간의 관계가 필요한 작업에 도움이 될 수 있습니다. 그러나 더 나은 MLLM을 구축하기 위해 이러한 다양한 features를 추출하고 pretrained LLM과 정렬하는 방법은 아직 충분히 연구되지 않았습니다.
이를 해결하기 위해, 우리는 다양한 visual features를 효과적으로 선택하고 활용하기 위한 Depth-Breadth Fusion (DBFusion)을 제안합니다. 서로 다른 레이어의 Visual features는 다양한 수준의 개념을 포착하며, 마지막 레이어는 일반적으로 high-level 개념을 나타냅니다. 따라서 low-level features를 통합하면 이러한 high-level representations를 보완할 수 있으며, 이를 visual features의 "Depth"라고 합니다. 또한, 서로 다른 downstream tasks는 이미지 내에서 서로 다른 perceptual information을 필요로 하기 때문에, 단일 image feature로는 모든 관련 정보를 포착하기에 부족한 경우가 많습니다. 따라서 우리는 각 feature가 서로 다른 visual representations를 포착하는 여러 image features를 활용합니다. 이를 visual features의 "Breadth"라고 합니다. 이러한 다양한 visual features를 활용하기 위해, 우리는 간단하면서도 효과적인 fusion 전략으로 간단한 channel concatenation이 효과적임을 발견했습니다. 특히, 우리는 channel 차원을 따라 여러 features를 연결하고, 다양한 depth와 breadth에 걸쳐 있는 이러한 결합된 features는 LLMs에 대한 입력 embedding으로 투영됩니다.
우리는 대규모의 상세한 캡셔닝 데이터 세트와 전체 모델 pretraining 및 부분 모델 finetuning을 위한 instruction tuning 데이터 세트의 혼합으로 구성된 새로운 open-sourced training data의 recipe를 사용하여 Florence-VL을 training합니다. 결과적으로 Florence-VL은 vision-centric, knowledge-based, OCR & Chart 작업을 포함하는 25개의 benchmarks에서 Cambrian [41]과 같은 다른 고급 MLLMs보다 뛰어난 상당한 이점을 달성합니다. 또한, 우리는 Florence-VL의 visual representation이 CLIP 및 SigLIP [26]과 같이 널리 채택된 vision encoders보다 LLMs에 더 나은 정렬을 달성함을 보여주는 정량적 분석 및 시각화를 제공합니다.
핵심 내용:
- 기존 LLM의 한계: 기존의 Large Language Model (LLM)은 주로 텍스트 데이터에 초점을 맞추고 있어, 시각적 정보를 효과적으로 처리하지 못함. 이로 인해 현실 세계의 복잡한 정보를 온전히 이해하는 데 제약이 있음.
- Multimodal 접근 방식의 필요성: 인간은 시각과 언어를 통합적으로 사용하여 세상을 이해함. 따라서 AI 모델 역시 시각 정보를 함께 처리할 수 있는 multimodal 능력이 중요해짐.
- Vision Task의 중요성: 이미지 캡셔닝, 객체 탐지, grounding, segmentation 등의 Vision Task는 이미지의 다양한 측면을 이해하는 데 필수적인 요소임.
- Florence-2 모델 소개: Florence-2는 이러한 필요성을 충족시키기 위해 개발된 vision foundation model임.
- Prompt 기반 접근 방식을 사용하여 다양한 vision task를 통합적으로 처리할 수 있음.
- DaViT vision encoder와 표준 encoder-decoder transformer architecture를 사용함.
- Visual 및 language token embedding을 효과적으로 결합하여 multimodal 정보를 처리함.
- Florence-2의 장점:
- 다양한 vision task를 하나의 모델로 처리하여 효율성을 높임.
- Prompt를 통해 사용자가 원하는 작업을 쉽게 지정할 수 있음.
- 연구의 방향 (일반적인 Introduction에 포함되는 내용): 본 연구에서는 Florence-2 모델을 활용하여 multimodal LLM의 성능을 향상시키는 새로운 방법을 제시하고자 함. (구체적인 내용은 원문에 따라 달라질 수 있음)

그림 2. Florence-VL의 개요. Florence-VL은 Florence-2에서 서로 다른 depth (feature 개념 수준)와 breadth (prompts)의 visual features를 추출하고, DBFusion을 사용하여 결합한 후, 융합된 features를 LLM의 입력 공간으로 투영합니다. Florence-VL은 이미지 캡셔닝 데이터에 대해 완전히 pretrained된 후, instruction-tuning 데이터에 대해 부분적으로 finetuned됩니다.
2. Preliminary: Florence-2
Florence-2 [45]는 캡션, 객체 탐지, grounding 및 segmentation과 같은 다양한 vision task를 간단한 instruction으로 처리하기 위해 통합된 prompt 기반 접근 방식을 활용하는 vision foundation model입니다. architecture는 vision encoder DaViT [9] 및 표준 encoder-decoder 모델로 구성됩니다. 입력 이미지 I ∈ R<sup>H×W×3</sup> (여기서 H와 W는 각각 높이와 너비를 나타냄)를 평평하게 펼친 visual token embedding으로 처리합니다. 그런 다음 모델은 표준 encoder-decoder transformer architecture를 적용하여 visual 및 language token embedding을 모두 처리합니다. 먼저 language tokenizer 및 word embedding layer를 사용하여 prompt text embedding T ∈ R<sup>Nt×D</sup>를 생성하며, Nt 및 D는 각각 prompt token의 수와 차원을 나타냅니다. 그런 다음 vision token embedding을 prompt embedding과 연결하여 multi-modality encoder 모듈의 입력 X = [V, T]를 생성하며, 여기서 V ∈ R<sup>Nv×D</sup>는 DaViT의 visual embedding에 선형 projection 및 LayerNorm 레이어를 적용하여 생성되며, Nv 및 D는 각각 vision token의 수와 차원을 나타냅니다. 선형 projection 및 LayerNorm 레이어는 T와의 차원 정렬을 보장하기 위해 사용됩니다. Encoder-decoder 모델은 X를 처리하고 캡션, 객체 탐지, 텍스트 형식의 grounding과 같은 원하는 결과를 생성합니다.
핵심 내용:
- Florence-2는 vision foundation model임:
- 다양한 vision task (캡셔닝, 객체 탐지, grounding, segmentation 등)를 처리하기 위한 통합된 prompt 기반 접근 방식을 사용함. 즉, 텍스트 prompt를 통해 원하는 작업을 지정할 수 있다는 의미입니다.
- Architecture 구성 요소:
- Vision encoder: DaViT [9] 사용. DaViT는 이미지에서 시각적 특징을 추출하는 역할을 합니다.
- 표준 encoder-decoder 모델 사용. 이 부분은 입력된 정보를 처리하고 원하는 결과 (예: 캡션, 객체 정보 등)를 생성하는 역할을 합니다.
- 입력 이미지 처리 과정:
- 입력 이미지 I ∈ R<sup>H×W×3</sup> (H: 높이, W: 너비)를 받음.
- 이미지를 평평하게 펼쳐서 visual token embedding으로 변환. 즉, 이미지를 작은 조각으로 나누어 각 조각을 벡터 형태로 표현하는 것입니다.
- Multimodal 정보 처리:
- Language tokenizer와 word embedding layer를 사용하여 prompt text embedding T ∈ R<sup>Nt×D</sup> 생성 (Nt: prompt token 수, D: 차원). 즉, 입력된 텍스트 prompt를 벡터 형태로 변환합니다.
- DaViT에서 생성된 visual token embedding V ∈ R<sup>Nv×D</sup> (Nv: vision token 수, D: 차원)에 선형 projection 및 LayerNorm layer를 적용하여 T와 차원을 맞춤. 즉, 이미지와 텍스트 정보를 같은 공간에 표현하기 위한 전처리 과정입니다.
- Visual token embedding (V)과 prompt embedding (T)를 연결 (Concatenation)하여 multi-modality encoder 모듈의 입력 X = [V, T]를 생성. 즉, 이미지 정보와 텍스트 정보를 하나로 합치는 과정입니다.
- 결과 생성:
- Encoder-decoder 모델이 X를 입력받아 처리하고, 캡션, 객체 탐지 결과, 텍스트 형식의 grounding 결과 등 원하는 결과를 생성. 즉, 합쳐진 정보(X)를 이용하여 최종적인 결과물을 만들어냅니다.

Figure 3. 첫 세 개의 PCA 구성 요소의 시각화:
첫 번째 PCA 구성 요소에 임계값을 설정하여 배경을 제외하고, Detailed Caption, OCR 및 Grounding 프롬프트에서 생성된 이미지 피처에 PCA를 적용합니다. Detailed Caption 프롬프트에서 파생된 이미지 피처(두 번째 열)는 이미지의 일반적인 맥락을 포착하고, OCR 프롬프트에서 파생된 피처(세 번째 열)는 주로 텍스트 정보에 초점을 맞추며, Grounding 프롬프트에서 파생된 피처(네 번째 열)는 객체 간의 공간적 관계를 강조합니다. 또한, 마지막 열에서 OpenAI CLIP (ViT-L/14@336)의 최종 레이어 피처를 시각화하며, CLIP 피처는 많은 경우 텍스트 정보와 같은 특정 영역 수준의 세부 정보를 놓치는 경우가 있음을 보여줍니다.
3. Method
3.1. Using Florence-2 as Vision Backbone
기존 MLLMs에서 사용되는 vision backbone의 한계를 해결하기 위해, 즉 마지막 레이어 피처가 일반적으로 전체 장면과 맥락을 포착하는 이미지 수준의 표현을 제공하지만 픽셀 또는 영역 수준의 세부 정보를 종종 놓치는 문제를 해결하기 위해, vision foundation model인 Florence-2를 visual encoder로 활용합니다. contrastive learning으로 사전 학습된 CLIP vision transformers가 단일, 보편적인 이미지 피처를 제공하는 것과 달리, Florence-2는 다양한 task prompt를 사용하여 서로 다른 스케일에서 공간적 세부 정보를 식별할 수 있습니다. MLLMs에서 효과적인 이미지 이해는 전역 의미론에서 지역 세부 정보에 이르기까지 다양한 세분화 수준을 포착하고, 해당 의미론적 맥락 내에서 객체와 엔티티 간의 공간적 관계를 이해하는 것을 요구합니다. 다양한 세분화 수준을 관리할 수 있는 Florence-2는 이미지 이해의 이러한 핵심 측면을 해결하기에 이상적인 vision encoder입니다. 다음 섹션에서는 Florence-2의 강점을 활용하여 MLLMs에 통합하는 방법을 탐색합니다.
3.2. Depth and Breadth를 포괄하는 Visual Features
Breadth. 서로 다른 downstream task는 이미지에서 다양한 지각 정보를 요구하기 때문에, visual representation의 폭을 확장하는 것을 고려합니다. 입력 이미지 I ∈ R<sup>H×W×3</sup> 및 "이미지에 표시된 텍스트를 제공하십시오"와 같은 task-specific prompt가 주어지면, Florence-2는 이미지 피처와 프롬프트 피처를 X = [V, T]로 처리한 다음 encoder-decoder transformer architecture에 공급합니다. encoder는 X를 처리하기 위해 어텐션 메커니즘을 사용하여 출력 X′ = [V′, T′]를 생성합니다. V와 T 간의 cross-attention으로 인해 업데이트된 이미지 피처 V′는 "이미지에 표시된 텍스트를 제공하십시오"라는 프롬프트에 더욱 집중하게 되며, 특히 이미지에서 더 많은 텍스트 정보를 추출합니다.
이미지 이해에 기여하는 세 가지 고유한 task에 초점을 맞추어 세 가지 다른 이미지 임베딩 [V′<sub>t1</sub>, V′<sub>t2</sub>, V′<sub>t3</sub>]를 생성합니다. 각각은 특정 task에 맞게 조정됩니다.
- Detailed Image Caption: 이미지에 표시된 내용을 단락으로 설명합니다. 모델이 이미지의 전체적인 맥락을 제공할 수 있도록 합니다.
- OCR: 이미지에 표시된 텍스트를 제공합니다. 이미지에서 더 많은 텍스트 정보를 추출합니다.
- Dense Region Caption: 이미지 내의 객체를 위치와 함께 설명합니다. 객체 간의 공간적 관계를 포착합니다.
다양한 task prompt를 사용하여 이미지 피처를 시각화하고, visual embedding에 PCA를 적용하고 시각화를 위해 임계값을 설정합니다. 그림 3에서 볼 수 있듯이, 서로 다른 이미지 임베딩은 이미지 내에서 고유한 개념적 정보를 강조합니다. 또한, 그림 3에서 OpenAI CLIP의 최종 레이어 이미지 피처를 시각화하여, 대부분의 경우 특정 영역 수준의 세부 정보가 부족한 경우가 있음을 보여줍니다.
Depth. DaViT에서 추출한 V와 세 가지 프롬프트에서 파생된 고수준 피처 [V′<sub>t1</sub>, V′<sub>t2</sub>, V′<sub>t3</sub>]를 결합하여 저수준 피처를 통합하여 다양한 수준의 개념적 세부 정보를 포착합니다.
3.3. Depth-Breadth Fusion
다양한 세분화 수준을 가진 이미지 피처가 있으므로, 피처 융합이 일반적으로 사용됩니다. [V, V′<sub>t1</sub>, V′<sub>t2</sub>, V′<sub>t3</sub>]와 같은 여러 피처 임베딩을 다룰 때, 다음 질문은 이러한 피처를 융합하고 언어 모델 공간과 정렬하는 방법이 됩니다. 이러한 모든 네 가지 피처를 활용하기 위해, 이 융합 프로세스에 대해 여러 가지 접근 방식을 고려할 수 있습니다.
- Token Integration: 이 접근 방식은 모든 피처를 토큰 차원을 따라 연결하는 것을 포함합니다. 그러나 이는 visual token을 지나치게 길게 만들고 모델 학습을 복잡하게 만들 수 있습니다.
- Average Pooling: 대안으로, 모든 피처에 대한 평균 풀링을 사용할 수 있지만, 이 방법은 정보 손실을 초래할 수 있습니다.
- Channel Integration: 보다 효과적인 방법은 채널 차원을 따라 피처를 연결하는 것입니다. 이는 시퀀스 길이를 증가시키지 않습니다.
LLaVA-1.5 [26]의 데이터 세트를 사용하여 어떤 피처 융합 방법이 전반적으로 가장 좋은 성능을 제공하는지 빠르게 평가합니다. 이 데이터 세트에는 사전 학습을 위한 558K 개의 이미지 캡션과 instruction tuning을 위한 665K 개의 항목이 포함됩니다. 표 1에서 채널 통합 전략은 다른 두 가지 융합 방법에 비해 더 나은 성능과 학습 효율성을 보여줍니다. 따라서 우리는 채널 통합이 간단하면서도 효과적인 융합 전략으로 선택합니다.

Table 1. 서로 다른 융합 전략에 대한 실험.
토큰 통합의 경우 vision token 수가 1728개로, 학습 및 추론 시간이 길어집니다. 채널 통합 전략은 다른 두 가지 융합 방법에 비해 더 나은 성능과 학습 효율성을 보여줍니다.
3.4. Florence-VL
그림 2에서 볼 수 있듯이 Florence-VL은 vision foundation model인 Florence-2와 large language model로 구성됩니다. 여러 개의 이미지 피처를 추출한 후, MLP를 사용하여 이러한 피처를 언어 모델 공간으로 투영합니다. 사전 학습 단계에서 이미지 세부 캡션 데이터를 사용하여 Florence-2를 언어 모델과 정렬합니다. instruction tuning 단계에서는 다양하고 고품질의 instruction-tuning 데이터 세트를 사용하여 모델을 downstream task에 효과적으로 적응시킵니다.
3. Method 정리 노트
주제: Florence-VL 모델의 이미지 피처 추출 및 언어 모델과의 통합 방법
핵심 내용:
Florence-VL은 vision foundation model인 Florence-2와 large language model로 구성되어 있으며, 이미지 이해 능력을 향상시키기 위해 여러 단계를 거쳐 이미지를 처리하고 언어 모델과 연결합니다. 핵심은 이미지의 다양한 측면(전체 맥락, 텍스트 정보, 객체 간의 관계 등)을 포착하는 것입니다.
- 3.1. Using Florence-2 as Vision Backbone:
- 기존 MLLMs의 vision backbone은 이미지의 전체적인 맥락은 잘 포착하지만 픽셀 또는 영역 수준의 세부 정보는 놓치는 경향이 있습니다. 이를 해결하기 위해 Florence-2를 visual encoder로 사용합니다.
- CLIP pretrained vision transformers와 달리, Florence-2는 다양한 task prompt를 사용하여 여러 스케일에서 공간적 세부 정보를 식별할 수 있습니다.
- Florence-2는 전역 의미론에서 지역 세부 정보까지 다양한 수준의 세분화 수준을 포착하고, 객체 간의 공간적 관계를 이해하는 데 효과적입니다.
- 3.2. Visual Features spanning Depth and Breadth:
- Breadth (폭): 다양한 downstream task는 이미지에서 서로 다른 정보를 요구하기 때문에, visual representation의 폭을 확장합니다.
- 입력 이미지 I와 task-specific prompt (예: "이미지에 표시된 텍스트를 제공하십시오")가 주어지면, Florence-2는 이미지 피처와 prompt 피처를 X = [V, T]로 처리합니다.
- Encoder-decoder transformer architecture를 사용하여 X를 처리하고, cross-attention을 통해 업데이트된 이미지 피처 V′는 주어진 prompt에 더욱 집중하게 됩니다.
- 세 가지 task (Detailed Image Caption, OCR, Dense Region Caption)에 초점을 맞추어 세 가지 다른 이미지 임베딩 [V′<sub>t1</sub>, V′<sub>t2</sub>, V′<sub>t3</sub>]를 생성합니다. 각 임베딩은 특정 task에 맞게 조정됩니다.
- 각기 다른 prompt를 사용하여 생성된 이미지 임베딩은 이미지 내의 서로 다른 정보를 강조합니다. CLIP의 최종 레이어 피처와 비교했을 때, Florence-2는 영역 수준의 세부 정보를 더 잘 포착합니다.
- Depth (깊이): DaViT에서 추출한 저수준 피처 V와 세 가지 프롬프트에서 파생된 고수준 피처 [V′<sub>t1</sub>, V′<sub>t2</sub>, V′<sub>t3</sub>]를 결합하여 다양한 수준의 개념적 세부 정보를 포착합니다.
- Breadth (폭): 다양한 downstream task는 이미지에서 서로 다른 정보를 요구하기 때문에, visual representation의 폭을 확장합니다.
- 3.3. Depth-Breadth Fusion:
- 다양한 수준의 세분화 수준을 가진 이미지 피처들을 융합하는 방법을 다룹니다.
- [V, V′<sub>t1</sub>, V′<sub>t2</sub>, V′<sub>t3</sub>]와 같은 여러 피처 임베딩을 융합하는 세 가지 방법 (Token Integration, Average Pooling, Channel Integration)을 비교합니다.
- Token Integration: 모든 피처를 토큰 차원을 따라 연결하지만, visual token이 지나치게 길어져 학습이 복잡해질 수 있습니다.
- Average Pooling: 모든 피처에 대한 평균을 계산하지만, 정보 손실이 발생할 수 있습니다.
- Channel Integration: 채널 차원을 따라 피처를 연결하며, 시퀀스 길이를 증가시키지 않아 효율적입니다.
- LLaVA-1.5 데이터 세트를 사용하여 실험한 결과, Channel Integration이 가장 좋은 성능과 학습 효율성을 보였습니다. 따라서 채널 통합 방식을 채택합니다.
- 3.4. Florence-VL:
- Florence-VL은 Florence-2와 large language model로 구성됩니다.
- 추출된 여러 이미지 피처는 MLP를 통해 언어 모델 공간으로 투영됩니다.
- 사전 학습 단계에서는 이미지 세부 캡션 데이터를 사용하여 Florence-2를 언어 모델과 정렬합니다.
- Instruction tuning 단계에서는 고품질의 instruction-tuning 데이터 세트를 사용하여 모델을 downstream task에 효과적으로 적응시킵니다.
핵심 용어 정리 (이전 답변에서 확장):
- Downstream task: 특정 목적을 가진 하위 작업 (예: 이미지 캡셔닝, 객체 탐지)
- Cross-attention: 두 입력 시퀀스 간의 관계를 학습하는 어텐션 메커니즘
- PCA (Principal Component Analysis): 데이터의 차원을 축소하는 방법 중 하나
- MLP (Multilayer Perceptron): 여러 층의 뉴런으로 이루어진 신경망
