AI바라기의 인공지능

VLM : 논문 리뷰 : Multimodal Autoregressive Pre-training of Large Vision Encoders 본문

논문리뷰

VLM : 논문 리뷰 : Multimodal Autoregressive Pre-training of Large Vision Encoders

AI바라기 2025. 1. 13. 16:41

Multimodal Autoregressive Pre-training of Large Vision Encoders 논문 리뷰

Purpose of the Paper

기존 vision model pre-training은 discriminative approach가 주를 이루었지만, parameter efficiency는 높았지만 scalability와 학습 안정성이 떨어지는 단점이 있었어. 반면, generative pre-training은 language modeling에서 scalability와 성능 면에서 우수함을 보였지만, vision 분야에서는 discriminative methods에 비해 뒤처지는 모습을 보였지. 특히, El-Nouby et al. (2024)의 연구는 LLMs pre-training을 연상시키는 formulation을 제안하며 고무적인 scaling properties를 보였지만, discriminative counterpart에 비해 성능을 맞추기 위해 훨씬 더 큰 capacity의 model이 필요했어.

이 논문은 generative pre-training의 simplicity와 scalability를 유지하면서도 discriminative approach의 parameter efficiency를 결합한 새로운 vision encoder pre-training 방법을 제시하는 것을 목적으로 해. 이를 통해 vision model의 pre-training 패러다임을 전환하고, LLMs와 vision model을 결합한 multimodal application에 적합한 vision encoder를 개발하고자 했지.

Key Contributions

  • Multimodal Autoregressive Pre-training of Large Vision Encoders (AIMv2): Images와 text를 autoregressively 생성하도록 pre-trained된 open vision models, AIMv2를 소개했어. AIMv2는 causal multimodal decoder를 사용하여 image patches를 먼저 regress하고, 그 후에 text tokens를 autoregressive하게 decode해.
  • Denser Supervision with Autoregressive Objective: Discriminative objective와 비교했을 때, 모든 image patch와 text token에서 training signal을 추출하여 더 dense한 supervision을 제공해.
  • Seamless Integration with LLM-powered Multimodal Applications: AIMv2의 architecture와 pre-training objectives는 LLM-powered multimodal application과 잘 alignment되어 seamless integration이 가능해.
  • Strong Generalist Vision Encoders: AIMv2는 다양한 vision 및 multimodal tasks에서 뛰어난 성능을 보이는 strong generalist로, 특히 multimodal understanding benchmarks에서 state-of-the-art vision-language pre-trained methods를 능가해.
  • Scalability: AIMv2는 data 또는 parameters를 scaling할 때 성능이 지속적으로 향상되는 strong scalability를 보여줘. 이는 language-only 및 vision-only counterparts와 유사한 특징이야.
  • Native Image Resolution Support: AIMv2는 별도의 fine-tuning 없이 native image resolution을 지원하여 다양한 downstream tasks에 유연하게 적용될 수 있어.

Novelty

  • Multimodal Autoregressive Framework: Vision encoder pre-training에 image patches와 text tokens를 모두 autoregressively 생성하는 multimodal autoregressive framework를 도입했어.
  • Prefix Vision Encoder: Vision encoder는 prefix attention을 사용하여 image patches를 처리하고, 이를 통해 inference 시 bidirectional attention을 추가 튜닝 없이 사용할 수 있어.
  • Combined Loss Function: Image domain에는 l2 pixel-level regression loss를, text domain에는 standard cross-entropy loss를 결합하여 사용했어.
  • Unified Multimodal Decoder: Image와 text modalities 모두에 대해 autoregressive generation을 수행하는 통합된 multimodal decoder를 사용했어.

Experimental Highlights

  • Image Recognition: Frozen trunk를 사용한 ImageNet-1k에서 89.5%의 accuracy를 달성했고, 이는 state-of-the-art contrastive models (e.g., CLIP, SigLIP)를 능가하는 결과야.
  • Multimodal Understanding: DINOv2를 open-vocabulary object detection 및 referring expression comprehension에서 능가하고, frozen trunk로 강력한 recognition 성능을 달성했어.
  • Scaling Properties: Model capacity와 data size를 scaling함에 따라 성능이 지속적으로 향상됨을 확인했고, 특히 captioning-only baseline과 비교했을 때 data scaling에 따른 saturation 징후가 적었어.
  • Zero-shot Recognition: LiT를 사용한 zero-shot setting에서 AIMv2가 captioning-only baseline에 비해 modest한 성능 향상을 보였고, CapPa에 비해 우수한 성능을 보였어.
  • Native Resolution: Native resolution으로 fine-tuning된 AIMv2-L 모델은 다양한 resolution에서 off-the-shelf로 강력한 성능을 보였고, dedicated model에 비해 약간의 성능 저하만 있었어.
  • Object Detection and Grounding: AIMv2는 DINOv2 및 다른 vision-language pre-trained models를 대부분의 benchmarks에서 능가했고, 특히 LVIS에서 강력한 성능을 보였어.
  • Multimodal Instruction Tuning: AIMv2는 다양한 multimodal benchmarks에서 OAI CLIP 및 SigLIP를 능가하거나 그에 상응하는 성능을 보였고, 특히 decoder capacity가 제한된 경우에도 우수한 성능을 보였어.
  • High-Resolution via Tiling: AIMv2는 tiling strategy를 통해 고해상도 image에서도 우수한 성능을 보였고, 특히 TextVQA에서 큰 성능 향상을 보였어.
  • Ablation Study: Pre-training objective, multi-task balancing, decoder architecture 등 다양한 design choices에 대한 ablation study를 수행하여 각 choices의 trade-off를 분석하고 최적의 설정을 제시했어.

Limitations

  • Computational Cost: Autoregressive pre-training은 여전히 discriminative approach에 비해 계산 비용이 많이 들어.
  • Decoder Capacity Sensitivity: Decoder capacity를 scaling할 때, 특정 threshold를 넘어서면 성능이 저하되는 현상이 나타났어.
  • Data Dependency: AIMv2의 성능은 pre-training data의 quality와 diversity에 크게 의존해.
  • Fine-tuning Required for Optimal Performance: 일부 downstream tasks에서는 최적의 성능을 위해 fine-tuning이 여전히 필요해.

Future Work

  • Further Investigate the Role of Prefix Attention: Vision encoder에서 prefix attention이 maximally informative contexts를 encoding하는 데 어떻게 기여하는지, 그리고 이것이 visual and textual tokens에 어떻게 활용되는지에 대한 추가적인 연구가 필요해.
  • Explore More Efficient Architectures: Autoregressive pre-training의 계산 비용을 줄이기 위한 more efficient architectures를 탐색해.
  • Improve Decoder Scaling: Decoder capacity scaling에 따른 성능 저하 현상을 해결하고, 더 큰 decoder에서도 안정적인 성능을 얻을 수 있는 방법을 연구해.
  • Leverage Larger and More Diverse Datasets: 더 크고 다양한 datasets를 활용하여 AIMv2의 성능을 향상시키고, generalizability를 높여.
  • Develop More Sophisticated Evaluation Metrics: Multimodal understanding 능력을 더 정확하게 평가할 수 있는 sophisticated evaluation metrics를 개발해.
  • Integrate with Other Modalities: AIMv2를 audio, video 등 other modalities와 통합하여 multimodal understanding 능력을 확장해.
  • Explore Applications in Specific Domains: AIMv2를 medical imaging, robotics 등 specific domains에 적용하여 그 효용성을 검증하고, domain-specific challenges를 해결해.

 

 

 

 

Abstract

우리는 대규모 비전 인코더의 사전 훈련을 위한 새로운 방법을 소개합니다. 최근 자기 회귀 방식으로 비전 모델을 사전 훈련하는 분야의 발전을 토대로, 이 프레임워크를 이미지와 텍스트를 포함하는 multimodal 환경으로 확장합니다. 본 논문에서는 간단한 사전 훈련 프로세스, 확장성, 그리고 다양한 다운스트림 작업에서 뛰어난 성능을 특징으로 하는 범용 비전 인코더 제품군인 AIMV2를 제시합니다. 이는 비전 인코더를 multimodal 디코더와 결합하여 원시 이미지 패치와 텍스트 토큰을 자기 회귀 방식으로 생성함으로써 달성됩니다. 우리의 인코더는 multimodal 평가뿐만 아니라 localization, grounding, classification과 같은 비전 벤치마크에서도 뛰어납니다. 특히, AIMV2-3B 인코더는 고정된 trunk를 사용하여 ImageNet-1k에서 89.5%의 정확도를 달성합니다. 또한 AIMV2는 다양한 환경에서 multimodal 이미지 이해에 있어 최첨단 contrastive 모델(예: CLIP, SigLIP)을 지속적으로 능가합니다.

 

 

 

 

 

 

 

1. Introduction

비전 모델의 사전 훈련에 대한 연구는 시간이 지남에 따라 크게 발전했습니다. 처음에는 특정 작업 [14, 36, 45, 46, 56, 114]에서 성능을 극대화하도록 설계된 전문가 모델이 있었습니다. 점차 최소한의 적응으로 미리 정의된 여러 다운스트림 작업에 배포할 수 있는 범용 모델 [54, 87, 94, 133]이 등장했습니다. 그러나 Large Language Models (LLM) [1, 5, 96, 116]의 놀라운 성공으로 비전 모델을 활용하는 새로운 패러다임 [3, 73, 85, 115]이 도입되었습니다. 이전에 비전 모델이 사용되었던 엄격하게 미리 정의된 설정과 달리 LLM을 사용하면 사전 훈련된 모델 기능을 보다 효과적으로 탐색할 수 있습니다. 이러한 변화는 비전 모델의 사전 훈련 방법을 재고해야 할 필요성을 제기합니다.

Generative pre-training은 언어 모델링 [23, 92, 93]의 지배적인 패러다임이며 놀라운 성능과 확장성 [50, 55]을 보여주었습니다. Generative pre-training은 컴퓨터 비전 [8, 29, 33, 48, 118]에서 광범위하게 연구되었지만 그 성능은 여전히 discriminative 방법 [87, 94, 133, 137]에 뒤쳐져 있습니다. 예를 들어, LLM 사전 훈련을 매우 연상시키는 공식이 El-Nouby et al. [33]에 의해 제안되었으며 고무적인 스케일링 속성을 보여주었습니다. 그러나 discriminative 모델의 성능과 일치하려면 훨씬 더 높은 용량의 모델이 필요합니다. 반대로 contrastive 기술은 종종 매개변수 효율성이 더 높지만 훈련하고 확장하기가 매우 어렵습니다. 이러한 문제를 완화하기 위해 상당한 진전이 있었지만 generative pre-training의 단순성과 확장성을 discriminative 접근 방식의 매개변수 효율성과 결합한 방법을 개발하는 데에는 여전히 차이가 있습니다.

본 논문에서는 이미지 패치와 텍스트 토큰을 모두 자기 회귀 방식으로 생성하도록 사전 훈련된 open 비전 모델 제품군인 AIMV2를 소개합니다.

 

(왼쪽) 이미지 패치는 prefix attention [33, 95]으로 훈련된 비전 인코더에 의해 처리됩니다. 결과 visual representation은 해당 캡션의 텍스트 임베딩과 연결됩니다. 이렇게 결합된 multimodal 시퀀스는 joint 디코더에 의해 처리됩니다. 모델은 shifted된 입력을 자기 회귀 방식으로 재구성하도록 사전 훈련됩니다.

(오른쪽) AIMV2 사전 훈련 중 순방향 패스에 대한 의사 코드입니다. AIMV2의 사전 훈련 프로세스는 간단한 자기 회귀 목표에만 의존하기 때문에 AIM 및 LLM의 사전 훈련 프로세스와 유사하게 구현하기 간단합니다.

 

 

사전 훈련 중에 AIMV2는 그림 1과 같이 먼저 이미지 패치를 회귀 분석한 다음 자기 회귀 방식으로 텍스트 토큰을 디코딩하는 인과 multimodal 디코더를 사용합니다. 이러한 간단한 접근 방식은 몇 가지 이점을 제공합니다. 첫째, AIMV2는 지나치게 큰 배치 크기 [35, 94] 또는 특수한 배치 간 통신 방법 [133] 없이도 구현하고 훈련하기가 간단합니다. 둘째, AIMV2의 아키텍처와 사전 훈련 목표는 LLM 기반 multimodal 애플리케이션과 잘 일치하여 원활한 통합이 가능합니다. 마지막으로 AIMV2는 모든 이미지 패치와 텍스트 토큰에서 훈련 신호를 추출하여 discriminative 목표에 비해 더 밀도 높은 supervision을 제공합니다.

우리의 AIMV2 모델은 다양한 비전 및 multimodal 작업에서 놀라운 성능을 보이는 강력한 범용 모델입니다. 특히 AIMV2는 최첨단 vision-language 사전 훈련 방법 [35, 133]과 비교하여 multimodal 이해 벤치마크에서 뛰어난 성능을 보입니다. open-vocabulary object detection 및 referring expression comprehension에서 DINOv2 [87]를 능가하고 고정된 trunk를 사용하여 강력한 인식 성능을 달성하여 여러 강력한 기준선을 능가합니다. 또한 AIMV2는 language-only 및 vision-only 모델과 유사하게 강력한 확장성을 누리고 데이터 또는 매개변수를 확장할 때 지속적으로 개선됩니다. 또한 기본 이미지 해상도 지원 및 zero-shot 인식 [132]에 대한 적응을 포함하여 여러 최신 도구와 AIMV2의 호환성을 보여줍니다. 6절에서 관련 연구에 대해 자세히 설명합니다.

 

 

주요 목표:

  • 대규모 비전 인코더의 사전 훈련을 위한 새로운 방법 제시
  • 간단한 사전 훈련 프로세스, 확장성, 뛰어난 성능을 가진 범용 비전 인코더(AIMV2) 개발

핵심 아이디어:

  • 자기 회귀 방식의 multimodal 사전 훈련: 이미지 패치와 텍스트 토큰을 모두 자기 회귀적으로 생성하여 훈련.
  • LLM과의 연계: LLM 기반 multimodal 애플리케이션과의 원활한 통합을 목표로 함.
  • 효율적인 훈련 신호 활용: 모든 이미지 패치와 텍스트 토큰에서 훈련 신호 추출, discriminative 목표보다 풍부한 supervision 제공.

AIMV2의 장점:

  • 구현 및 훈련의 용이성: 큰 배치 크기나 특수한 통신 방법 불필요.
  • LLM과의 높은 호환성: LLM 기반 multimodal 애플리케이션에 효과적으로 활용 가능.
  • 뛰어난 성능: 다양한 비전 및 multimodal 작업에서 최첨단 모델을 능가하는 성능.
  • 강력한 확장성: 데이터 및 매개변수 규모에 따라 성능 향상.
  • 최신 도구와의 호환성: 기본 이미지 해상도 지원, zero-shot 인식 적용 가능.

기존 연구와의 차별성:

  • Generative pre-training과 discriminative 접근 방식의 장점 결합: generative pre-training의 단순성 및 확장성과 discriminative 방법의 매개변수 효율성을 동시에 확보.
  • Contrastive 방법의 한계 극복: contrastive 기술의 훈련 및 확장의 어려움 해결.

향후 연구 방향:

  • AIMV2의 성능 및 효율성 개선: 더욱 다양한 작업 및 환경에서 뛰어난 성능을 발휘하도록 모델 개선.
  • LLM과의 통합 연구: LLM 기반 multimodal 애플리케이션에서 AIMV2의 활용 가능성 탐색.

 

 

 

 

 

 

 

2. Approach

2.1. Pre-training

우리의 모델은 표준 unimodal 자기 회귀 프레임워크를 이미지와 텍스트를 통합된 시퀀스로 통합하는 multimodal 설정으로 확장합니다. 특히, 이미지 x는 I개의 겹치지 않는 패치 xi, i ∈ [1, I]로 분할되어 토큰 시퀀스를 형성합니다. 마찬가지로 텍스트 시퀀스는 서브워드 xt, t ∈ [I, I + T]로 분해됩니다. 그런 다음 이러한 시퀀스를 연결하여 텍스트 토큰이 이미지 토큰에 주의를 기울일 수 있도록 합니다. 두 연결 방향(이미지 → 텍스트 및 텍스트 → 이미지) 모두 가능하지만, 항상 이미지를 먼저 추가하여 visual feature에 대한 더 강력한 조건화를 가능하게 함으로써 강력한 비전 인코더를 훈련하는 데 중점을 둡니다. 이는 통합 multimodal 자기 회귀 모델링 프로세스를 생성하며, 여기서 시퀀스는 다음과 같이 인수 분해됩니다.

P(S1, S2, ..., SI+T) = Π_{j=1}^{I+T} P(Sj | S<j)

여기서 Sj는 이미지 패치와 텍스트 토큰의 연결된 시퀀스에서 j번째 토큰을 나타내고 S<j는 이전의 모든 토큰을 포함합니다. 이 통합 인수 분해를 통해 모델은 현재 처리 중인 modality에 관계없이 시퀀스에서 다음 토큰을 자기 회귀 방식으로 예측할 수 있습니다. 우리의 사전 훈련 설정은 그림 1과 같이 원시 이미지 패치를 처리하는 전용 비전 인코더로 구성되며, 그런 다음 임베드된 텍스트 토큰과 함께 multimodal 디코더로 전달됩니다. 그런 다음 디코더는 위의 인수 분해에 따라 결합된 시퀀스에서 다음 토큰 예측을 수행합니다. 자기 회귀 생성 프로세스를 지원하기 위해 비전 인코더와 multimodal 디코더는 각각 prefix 및 causal self-attention 연산을 사용합니다.

목적 함수. 이미지 및 텍스트 도메인에 대해 별도의 손실 함수를 다음과 같이 정의합니다.

L = λimg * Limg + λtxt * Ltxt

전반적인 목표는 모델 매개변수 θ에 대해 L을 최소화하는 것입니다. 텍스트 도메인의 경우 Ltxt는 각 단계에서 ground truth 토큰의 음의 로그 가능도를 측정하는 표준 cross-entropy 손실입니다. 이미지 도메인의 경우 Limg는 모델의 예측 패치 X^i 를 실제 패치 Xi 와 비교하는 픽셀 수준 회귀 손실입니다. He et al. [48]에 따라 이미지 패치를 정규화합니다. 실제로는 별도의 선형 레이어를 사용하여 multimodal 디코더의 최종 hidden state를 이미지 패치의 적절한 출력 차원과 비전 및 언어의 어휘 크기에 각각 매핑합니다.

2.2. Architecture

AIMV2의 비전 인코더의 경우 Vision Transformer (ViT) 아키텍처 [30]를 채택합니다. 300M에서 3B 매개변수 사이의 일련의 비전 인코더를 훈련합니다. 자세한 모델 사양은 표 1에 나와 있습니다.

Prefix Attention. El-Nouby et al. [33]에 따라 prefix attention 마스크 [95]를 적용하여 비전 인코더 내에서 self-attention 메커니즘을 제한합니다. 이 전략을 사용하면 추가 조정 없이 추론 중에 양방향 attention을 사용할 수 있습니다. 특히, prefix 길이 l을 l ~ U(0, I)로 무작위로 샘플링합니다. 픽셀 손실은 x^i, i > l로 정의된 비prefix 패치에 대해서만 계산됩니다.

SwiGLU 및 RMSNorm. 우리의 비전 인코더와 multimodal 디코더는 SwiGLU [102]를 feedforward network (FFN)으로 통합하고 모든 정규화 레이어를 RMSNorm [134]으로 대체합니다. 이러한 수정은 언어 모델링 [116, 117]에서 SwiGLU 및 RMSNorm의 최근 성공을 활용합니다.

Multimodal Decoder. 이미지 및 텍스트 modality 모두에 대해 동시에 자기 회귀 생성을 수행하는 통합 multimodal 디코더를 채택합니다. 이미지 feature와 원시 텍스트 토큰은 각각 선형으로 투영되고 dmodel에 임베드됩니다. 디코더는 이미지와 텍스트 feature의 연결된 시퀀스를 입력으로 받고 self-attention 연산에서 causal attention을 사용합니다. 디코더의 출력은 두 개의 개별 선형 헤드(하나는 이미지 토큰용이고 다른 하나는 텍스트 토큰용)를 통해 처리되어 각 modality에서 다음 토큰을 각각 예측합니다. 모든 AIMV2 변형에 대해 동일한 디코더 용량을 사용합니다.

모든 AIMV2 모델의 사전 훈련 중에 사용된 최적화 하이퍼 매개변수는 표 A1에 요약되어 있습니다.

2.3. Data

쌍을 이루는 이미지와 텍스트가 포함된 공용 및 개인 데이터 세트의 조합을 사용하여 AIMV2 모델을 사전 훈련합니다. 공개적으로 사용 가능한 DFN-2B [35] 및 COYO [13] 데이터 세트와 독점적인 High Quality Image-Text Pairs (HQITP) 데이터 세트를 사용합니다. alt-text 외에도 Lai et al. [63]의 접근 방식에 따라 합성 캡션을 사용합니다. 크기 및 각 데이터 세트에 사용된 샘플링 확률을 포함한 데이터 세트에 대한 자세한 내용은 표 2에 나와 있습니다. 달리 언급하지 않는 한 모든 AIMV2 모델은 120억 개의 이미지-텍스트 샘플을 사용하여 사전 훈련되었습니다.

2.4. Post-Training

AIMV2의 초기 사전 훈련 단계에서 고성능 모델이 생성되지만 다양한 사후 훈련 전략을 통해 기능을 더욱 향상시키는 방법을 모색합니다.

High-resolution Adaptation. 초기 사전 훈련 단계에서는 224px의 고정 해상도로 이미지 데이터를 사용합니다. 그러나 detection, segmentation, multimodal LLM과 같은 많은 다운스트림 작업은 더 높은 해상도의 이미지를 처리하도록 조정된 모델의 이점을 누리고 있습니다. 따라서 336 및 448 픽셀 해상도에 맞게 AIMV2 모델을 미세 조정합니다. 고해상도 적응 단계에서는 사전 훈련 단계와 동일한 풀에서 샘플링된 20억 개의 이미지-텍스트 쌍을 활용하지만 이 단계에서는 합성 캡션을 사용하지 않습니다. Zhai et al. [133]의 관찰과 일치하여 가중치 감쇠가 0인 것이 안정적인 최적화를 유지하는 데 중요하다는 것을 알았습니다.

Native Resolution Fine-tuning. 전용 해상도 및 종횡비에 맞게 모델을 훈련하는 것은 원래 모양의 이미지를 처리해야 하는 많은 애플리케이션에 대해 유연하지 않을 수 있습니다. FlexiViT [9] 및 NaViT [26]와 같은 이전 연구에서는 이러한 제한 사항을 해결했습니다. 가변 종횡비와 해상도로 훈련하기 위해 다른 접근 방식을 채택합니다. 특히 Bi를 미니 배치의 이미지 수, Ai를 이미지당 패치 수, C를 미니 배치의 이미지 패치 총 수로 정의합니다. 미니 배치 i의 경우 면적 A를 무작위로 샘플링하고 종횡비를 유지하면서 이 면적에 맞게 이미지 크기를 조정합니다.1 그런 다음 C = Ai × Bi가 되도록 미니 배치 크기 Bi를 조정합니다. 이 전략은 가변 컨텍스트 길이로 LLM을 훈련하기 위해 Pouransari et al. [91]에서 제안한 접근 방식과 유사합니다. 우리의 구현에는 시퀀스 패킹, attention 마스킹 또는 사용자 지정 풀링 작업에 대한 휴리스틱이 필요하지 않습니다. A = 2n을 선택합니다. 여기서 n은 잘린 정규 분포 N(0, 1)에서 [−3, 3] 범위 내에서 샘플링되고 [142, 4482]에 선형적으로 매핑됩니다.

 

 

핵심: 이미지와 텍스트를 통합된 시퀀스로 처리하는 multimodal 자기 회귀 모델(AIMV2)을 제시하여 강력한 비전 인코더를 사전 훈련하는 방법을 제안합니다.

사전 훈련:

  • Multimodal 시퀀스 생성: 이미지 패치와 텍스트 토큰을 연결하여 하나의 시퀀스로 구성합니다. (이미지 → 텍스트 순서)
  • 자기 회귀적 예측: 모델은 이 multimodal 시퀀스에서 다음 토큰을 예측하도록 훈련됩니다.
  • Prefix 및 Causal Attention: 비전 인코더에는 prefix attention을, multimodal 디코더에는 causal attention을 적용하여 자기 회귀적 생성을 지원합니다.
  • 손실 함수: 이미지 도메인에는 픽셀 수준 회귀 손실, 텍스트 도메인에는 cross-entropy 손실을 사용합니다.

아키텍처:

  • Vision Encoder: ViT 아키텍처를 기반으로 하며, 300M부터 3B까지 다양한 크기의 모델을 사용합니다.
  • Prefix Attention: 추론 시 양방향 attention을 사용할 수 있도록 비전 인코더에 prefix attention을 적용합니다.
  • SwiGLU 및 RMSNorm: FFN으로 SwiGLU를 사용하고, 모든 정규화 레이어를 RMSNorm으로 대체하여 언어 모델링의 최근 발전을 활용합니다.
  • Multimodal Decoder: 이미지와 텍스트 modality 모두에 대해 자기 회귀적 생성을 수행하는 통합 디코더를 사용합니다.

데이터:

  • 공개 및 개인 데이터셋: DFN-2B, COYO, 그리고 자체 제작한 HQITP 데이터셋을 사용합니다.
  • 합성 캡션: alt-text 외에도 합성 캡션을 사용하여 데이터를 확장합니다.
  • 대규모 데이터: 120억 개의 이미지-텍스트 샘플을 사용하여 사전 훈련합니다.

사후 훈련:

  • 고해상도 적응: 224px 해상도로 사전 훈련된 모델을 336px, 448px 해상도에 맞게 fine-tuning 합니다.
  • Native Resolution Fine-tuning: 다양한 종횡비와 해상도의 이미지를 처리할 수 있도록 fine-tuning 합니다.

주요 특징:

  • 간단한 구현: 복잡한 훈련 과정이나 특수한 하드웨어 없이도 쉽게 구현 및 훈련할 수 있습니다.
  • LLM과의 연계: LLM 기반 multimodal 애플리케이션과의 통합을 고려하여 설계되었습니다.
  • 효율적인 훈련: 모든 이미지 패치와 텍스트 토큰에서 훈련 신호를 추출하여 효율적인 학습을 가능하게 합니다.