AI바라기의 인공지능
VLM : 논문리뷰 : Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities 본문
VLM : 논문리뷰 : Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
AI바라기 2025. 5. 9. 14:39Unified Multimodal Understanding and Generation Models: 학습 노트
용어 설명 (Terminology)
- Unified Multimodal Models: Text, image 등 다양한 modality의 입력을 이해하고 (understanding), 동시에 다양한 modality의 출력을 생성 (generation)할 수 있는 단일 모델. 이 논문의 핵심 주제.
- Architectural Paradigms for Unification:
- Diffusion-based Unified Models: Diffusion model을 기반으로 multimodal understanding과 generation을 통합하려는 접근 방식. (예: Dual Diffusion)
- Autoregressive-based Unified Models (AR Models): LLM과 유사한 autoregressive 방식을 사용하여 multimodal 입력을 순차적으로 처리하고, 텍스트와 이미지 토큰을 함께 생성하는 모델.
- Pixel-based Encoding: 이미지를 VQGAN 등 autoencoder를 통해 얻은 pixel-level의 discrete/continuous token으로 변환하여 AR 모델에 입력하는 방식. (예: LWM, Chameleon)
- Semantic-based Encoding: CLIP, SigLIP 등 pretrained text-aligned vision encoder를 사용하여 이미지에서 semantic feature를 추출하고, 이를 AR 모델에 입력하는 방식. (예: Emu, DreamLLM)
- Learnable Query Encoding: 고정된 visual tokenizer 대신, 학습 가능한 query token을 사용하여 이미지 feature에서 동적으로 정보를 추출하는 방식. (예: SEED, MetaQueries)
- Hybrid Encoding: Pixel-based와 semantic-based encoding의 장점을 결합하려는 시도. (예: Janus, MUSE-VL)
- Fused AR + Diffusion Models (Hybrid Models): Autoregressive 모델로 텍스트나 high-level visual representation을 생성하고, 이를 condition으로 diffusion model이 이미지를 생성하는 하이브리드 방식.
- Pixel-based Encoding (Fused): 이미지를 pixel-level의 discrete/continuous token으로 표현하고, 이를 diffusion process의 target으로 사용. (예: Transfusion, Show-o)
- Hybrid Encoding (Fused): Semantic feature와 pixel-level latent를 함께 사용하여 diffusion model을 conditioning하는 방식. (예: Janus-Flow)
- Any-to-Any Multimodal Models: Text, image뿐만 아니라 audio, video, speech 등 더 넓은 범위의 modality 간 변환을 단일 모델에서 지원하려는 접근 방식. (예: Next-GPT, M2-omni)
- Tokenization Strategy: 다양한 modality의 데이터를 모델이 처리할 수 있는 token 형태로 변환하는 전략. 특히 visual data의 효과적인 tokenization이 주요 과제.
- Cross-modal Attention: 서로 다른 modality의 token 간의 관계를 학습하는 attention mechanism. Unified model에서 modality 간 alignment에 중요.
- Interleaved Image-Text Data: 텍스트와 이미지가 번갈아 나타나는 문서나 시퀀스 형태의 데이터. Multimodal content의 자연스러운 흐름을 학습하는 데 중요.
Purpose of the Paper
- Multimodal understanding 모델 (주로 autoregressive 기반)과 image generation 모델 (주로 diffusion 기반)이 각자의 영역에서 성공을 거두었으나, 이 두 영역이 독립적으로 발전하면서 서로 다른 architectural paradigm을 가지게 된 한계를 지적.
- 최근 GPT-4o와 같이 understanding과 generation을 통합하려는 시도가 늘고 있으나, 두 패러다임의 구조적 차이로 인해 통합에 어려움이 있음을 인지.
- 이 논문은 이러한 unified multimodal model 연구의 초기 단계 (nascent field) 에서 현재까지의 노력을 포괄적으로 조사하고, 향후 연구 방향을 제시하는 것을 목표로 함.
- 단순히 모델을 나열하는 것이 아니라, 구조적 설계 (structural designs)와 혁신 (innovations) 을 분석하고, 핵심 과제 (key challenges) 와 기회 (opportunities) 를 논의하여 커뮤니티에 가치 있는 레퍼런스를 제공하고자 함.
Key Contributions & Novelty
- Contribution 1: Unified multimodal model 연구 분야에 대한 최초의 포괄적인 survey 중 하나로, understanding과 generation을 통합하는 모델들에 초점을 맞춤.
- Novelty: 기존 VLM survey나 generation model survey와 달리, '통합 (unification)' 이라는 특정 관점에서 최신 연구 동향을 집대성함.
- Contribution 2: Unified model들을 세 가지 주요 architectural paradigm (diffusion-based, autoregressive-based, hybrid) 으로 체계적으로 분류하고, 각 AR 및 Hybrid 모델을 modality encoding 방식에 따라 세분화하여 제시함 (Fig. 5).
- Novelty: Unified model에 대한 새롭고 구체적인 분류 체계를 제안하여 복잡한 연구 지형을 명확하게 정리함. 특히 AR 모델의 encoding 방식을 네 가지(pixel, semantic, learnable query, hybrid)로 나눈 점이 독창적임.
- Contribution 3: Unified model 학습 및 평가에 적합한 datasets와 benchmarks를 컴파일하고, 각 자원의 특성을 설명함 (Table 3, 4).
- Novelty: Understanding과 generation 모두를 수행하는 unified model을 위한 자원을 선별적으로 제공하여 연구자들의 탐색 비용을 줄임.
- Contribution 4: Unified model 분야의 핵심 과제 (tokenization strategy, cross-modal attention, data 등)와 기회를 심도 있게 논의함.
- Novelty: 이러한 과제들을 '통합'의 관점에서 재조명하고, 해결을 위한 잠재적 방향을 제시함.
- Contribution 5: 시간에 따른 unified model의 발전 과정을 시각화한 타임라인 (Fig. 1) 을 제공함.
- Novelty: 이 분야의 빠른 성장과 주요 모델들의 등장 시점을 한눈에 파악할 수 있도록 함.
Experimental Highlights
- 이 논문은 survey 논문이므로 자체적인 실험 결과를 제시하지 않음. 대신, 리뷰한 모델들의 주요 특징과 접근 방식을 요약함.
- Architectural Diversity:
- Diffusion-based: Dual Diffusion [132] - joint text/image generation을 위한 dual-branch diffusion.
- Autoregressive-based:
- Pixel-based Encoding: LWM [29], Chameleon [30] - VQGAN 계열 tokenizer 사용.
- Semantic-based Encoding: Emu [150], DreamLLM [34] - EVA-CLIP, OpenAI-CLIP 등 semantic encoder 사용 후 diffusion decoder로 이미지 생성. ILLUME [156] - UNIT tokenizer 사용.
- Learnable Query Encoding: SEED [161], MetaQueries [165] - 학습 가능한 query token으로 visual feature 추출.
- Hybrid Encoding: Janus [168], MUSE-VL [172] - pixel과 semantic 정보를 함께 활용.
- Fused AR + Diffusion: Transfusion [38], Show-o [39] - AR로 텍스트 생성, diffusion으로 이미지 생성. Janus-Flow [179] - semantic과 pixel 정보를 모두 활용하는 dual-encoder 구조.
- Any-to-Any Multimodal Models: M2-omni [167], Next-GPT [182], Spider [188] 등 - 이미지/텍스트를 넘어 오디오, 비디오 등 다양한 modality를 통합하려는 시도들을 소개함.
- Key Resources Compiled:
- Table 1: 주요 Unified Multimodal Model들의 backbone, encoder/decoder, mask, 출시일 등을 정리.
- Table 3: Multimodal Understanding, Text-to-Image, Image Editing, Interleaved Image-Text 등 다양한 태스크를 위한 데이터셋 목록 및 샘플 크기, 출시일 제공.
- Table 4: Understanding, Image Generation, Interleaved Generation 태스크별 주요 벤치마크들의 크기, 설명, 입출력 타입, 발표 장소 등을 정리.
Limitations and Future Work (of the Field, as identified by the paper)
- Limitations of the Field:
- Tokenization Strategy: 특히 AR 모델에서 고해상도 visual data를 효율적으로 tokenizing하고 압축하는 것이 여전히 어려움. Pixel-level token은 시퀀스 길이가 길어지고, semantic token은 low-level detail 손실 가능성이 있음.
- Cross-modal Attention: 이미지 해상도와 context 길이가 증가함에 따라 attention 연산의 computational cost가 급증하는 scalability 문제.
- Data: Unified model 학습을 위한 고품질의 대규모 multimodal dataset 부족. 특히 interleaved image-text data나 subject-driven generation을 위한 데이터가 부족하며, 기존 데이터의 noise 및 bias 문제도 존재.
- Architectural Differences: Understanding에 강한 AR 모델과 generation 품질이 우수한 diffusion 모델 간의 구조적 차이를 극복하고 장점을 통합하는 것이 도전 과제.
- Evaluation: Unified model의 understanding과 generation 능력을 통합적으로, 그리고 정교하게 평가할 수 있는 comprehensive benchmark 부재. 특히 image editing, interleaved generation과 같은 복잡한 태스크에 대한 평가 방법론이 미흡.
- Future Work / Opportunities:
- Efficient Tokenization & Compression: Visual data를 위한 더 효율적인 tokenization 및 압축 기술 개발.
- Scalable Cross-modal Attention: Sparse 또는 hierarchical attention 등 확장 가능한 cross-modal interaction 메커니즘 연구.
- Data Curation & Synthesis: 고품질 데이터셋 구축, debiasing, 그리고 부족한 데이터를 보충하기 위한 synthetic data generation 파이프라인 발전.
- Novel Hybrid Architectures: AR과 diffusion의 장점을 효과적으로 결합하는 새로운 하이브리드 아키텍처 탐구.
- Integrated Evaluation Protocols: Understanding과 generation을 포괄적으로 평가할 수 있는 새로운 벤치마크 및 메트릭 개발.
- Advanced Capabilities: Image editing, spatially controlled generation, subject(s)-driven generation, interleaved image-text generation 등 현재 초기 단계인 기능들을 unified framework 내에서 고도화.
- Any-to-Any Expansion: Text, image를 넘어 audio, video, speech 등 더 다양한 modality를 지원하는 범용 multimodal model로의 확장.
Overall Summary
이 논문은 multimodal understanding과 image generation 능력을 단일 프레임워크로 통합하려는 unified multimodal model 분야의 최신 연구 동향을 포괄적으로 조사하고 분석한 survey이다. 주요 모델들을 diffusion-based, autoregressive-based, hybrid 접근 방식으로 분류하고, 각 아키텍처의 설계 특징과 혁신을 상세히 설명하며, 관련 데이터셋과 벤치마크를 체계적으로 정리했다. 또한, tokenization, cross-modal attention, data 부족 등 현재 unified model 연구가 직면한 주요 과제들을 지적하고 향후 발전 가능성이 높은 연구 기회들을 제시한다. 이 논문은 빠르게 발전하는 unified multimodal AI 분야의 연구자들에게 현재까지의 성과를 조망하고 미래 연구 방향을 설정하는 데 유용한 가이드라인을 제공한다는 점에서 중요한 의의를 가진다.
쉬운 설명 (Easy Explanation)
이 논문은 AI가 글과 그림을 이해하는 능력 (예: 그림 보고 설명하기)과 만들어내는 능력 (예: 글 설명 듣고 그림 그리기)을 하나의 똑똑한 뇌 (single model) 에서 모두 잘하게 만들려는 연구들을 모아서 정리한 보고서라고 볼 수 있습니다. 예전에는 AI가 이해하는 뇌 따로, 만드는 뇌 따로 개발되었는데, 요즘은 이 둘을 합치려는 시도가 많아지고 있습니다. 이 논문은 이런 "만능 뇌"를 만들려는 다양한 방법들(엔진 종류처럼, diffusion 방식, autoregressive 방식, 둘을 섞은 방식)을 소개하고, 어떤 데이터를 먹여서 학습시키고 어떻게 평가하는지, 그리고 아직 해결해야 할 어려운 문제들(예: 그림을 AI가 알아듣기 쉬운 '단어'로 바꾸는 방법)은 무엇인지 알려주면서, 앞으로 이 분야가 어떻게 더 발전할 수 있을지 방향을 제시해줍니다.
Abstract
최근 몇 년 동안 multimodal understanding models과 image generation models 분야 모두에서 주목할 만한 발전이 있었습니다. 각자의 성공에도 불구하고, 이 두 domain은 독립적으로 발전해 왔으며, 이는 서로 다른 architectural 패러다임으로 이어졌습니다. Autoregressive-based architectures가 multimodal understanding을 지배한 반면, diffusion-based models은 image generation의 초석이 되었습니다. 최근에는 이러한 task들을 통합하는 unified frameworks 개발에 대한 관심이 증가하고 있습니다. GPT-4o의 새로운 capabilities 등장은 이러한 trend를 예시하며, unification의 잠재력을 강조합니다. 그러나 두 domain 간의 architectural 차이는 상당한 challenges를 제기합니다. Unification을 향한 현재 노력에 대한 명확한 개요를 제공하기 위해, 우리는 향후 research를 안내하기 위한 포괄적인 survey를 제시합니다. 첫째, multimodal understanding 및 text-to-image generation models의 foundational concepts과 최근 advancements를 소개합니다. 다음으로, 기존 unified models을 검토하고 이를 diffusion-based, autoregressive-based, 그리고 autoregressive와 diffusion mechanisms을 결합한 hybrid approaches의 세 가지 주요 architectural 패러다임으로 분류합니다. 각 category에 대해, related works에서 소개된 structural designs과 innovations을 분석합니다. 또한, unified models에 맞춰진 datasets과 benchmarks를 컴파일하여 향후 탐구를 위한 resources를 제공합니다. 마지막으로, tokenization strategy, cross-modal attention, data 등 이 nascent field가 직면한 주요 challenges에 대해 논의합니다. 이 분야는 아직 초기 단계이므로, 빠른 advancements를 예상하며 이 survey를 정기적으로 업데이트할 것입니다. 우리의 목표는 추가 research를 고무하고 community에 귀중한 reference를 제공하는 것입니다. 이 survey와 관련된 references는 GitHub에서 확인할 수 있습니다.
Index Terms
Unified multimodal models, Multimodal understanding, Image generation, Autoregressive model, Diffusion model
1 INTRODUCTION
최근 몇 년 동안 LLaMa, PanGu, Qwen, GPT와 같은 large language models (LLMs)의 급속한 advancement는 artificial intelligence에 혁명을 일으켰습니다. 이러한 models은 크기와 capability 모두에서 확장되어 다양한 applications에서 breakthroughs를 가능하게 했습니다. 이러한 발전과 함께 LLMs는 multimodal domains으로 확장되어 LLaVa, Qwen-VL, InternVL, Ovis, GPT4와 같은 강력한 multimodal understanding models의 등장을 이끌었습니다. 이러한 models은 단순한 image captioning을 넘어 user instructions에 기반한 복잡한 reasoning tasks를 수행하도록 capabilities를 확장했습니다. 다른 한편으로, image generation technology 또한 SD series 및 FLUX와 같은 models이 이제 user prompts에 밀접하게 부합하는 high-quality images를 생성할 수 있게 되면서 급속한 발전을 경험했습니다.
LLMs와 multimodal understanding models의 주된 architectural paradigm은 autoregressive generation으로, 이는 decoder-only structures와 sequential text generation을 위한 nexttoken prediction에 의존합니다. 반면, text-to-image generation 분야는 다른 궤적을 따라 발전해 왔습니다. 처음에는 Generative Adversarial Networks (GANs)가 지배했지만, image generation은 이후 UNet 및 DiT와 같은 architectures와 CLIP 및 T5와 같은 advanced text encoders를 활용하는 diffusion-based models로 전환되었습니다. Image generation에 LLM-inspired architectures를 사용하려는 일부 탐구가 있었음에도 불구하고, diffusionbased approaches는 현재 performance 측면에서 state-of-the-art를 유지하고 있습니다.
Autoregressive models이 image generation quality에서 diffusion-based methods에 뒤처지지만, LLMs와의 structural consistency는 unified multimodal systems 개발에 특히 매력적입니다. Multimodal content를 understanding하고 generating할 수 있는 unified model은 엄청난 잠재력을 가지고 있습니다. 복잡한 instructions에 따라 images를 generate하고, visual data에 대해 reason하며, generated outputs를 통해 multimodal analyses를 visualize할 수 있습니다. 2025년 3월 GPT-4o의 향상된 capabilities 공개는 이러한 잠재력을 더욱 강조하며 unification에 대한 광범위한 관심을 불러일으켰습니다.
그러나 이러한 unified framework를 designing하는 것은 상당한 challenges를 제시합니다. Reasoning과 text generation을 위한 autoregressive models의 강점과 highquality image synthesis를 위한 diffusion-based models의 견고함을 integrating해야 합니다. Autoregressive generation을 위해 images를 효과적으로 tokenize하는 방법을 포함하여 주요 질문들이 아직 해결되지 않았습니다. 일부 approaches는 diffusionbased pipelines에서 일반적으로 사용되는 VAE 또는 VQ-GAN 또는 관련 variants를 사용하는 반면, 다른 approaches는 EVA-CLIP 및 OpenAI-CLIP과 같은 semantic encoders를 활용합니다. 또한, discrete tokens이 autoregressive models에서 text의 표준인 반면, emerging research에서 제안된 바와 같이 continuous representations이 image tokens에 더 적합할 수 있습니다. Tokenization 외에도, parallel diffusion strategies와 sequential autoregressive generation을 결합한 hybrid architectures는 naive autoregressive architecture 외에 또 다른 유망한 approach를 제공합니다. 따라서, image tokenization techniques와 architectural designs 모두 unified multimodal models에 대해 nascent stages에 머물러 있습니다.
Unified multimodal models의 현재 상태에 대한 포괄적인 개요(Fig. 1에 설명된 대로)를 제공하여 향후 research 노력에 기여하고자 이 survey를 제시합니다. 먼저 multimodal understanding과 image generation 모두에서 autoregressive 및 diffusion-based paradigms를 포괄하는 foundational concepts과 최근 advancements를 소개합니다. 다음으로, 기존 unified models을 검토하고 이를 diffusion-based, autoregressive-based, 그리고 autoregressive와 diffusion mechanisms을 결합한 hybrid approaches의 세 가지 주요 architectural paradigms로 분류합니다. Autoregressive 및 hybrid categories 내에서, 이 분야의 approaches의 다양성을 반영하여 image tokenization strategies를 기반으로 models을 추가로 분류합니다.
Architecture 외에도, unified multimodal models의 training 및 evaluating에 맞춰진 datasets과 benchmarks를 수집합니다. 이러한 resources는 multimodal understanding, text-to-image generation, image editing 및 기타 관련 tasks에 걸쳐 있으며, 향후 탐구를 위한 foundation을 제공합니다. 마지막으로, efficient tokenization strategy, data construction, model evaluation 등 이 nascent field가 직면한 주요 challenges에 대해 논의합니다. 이러한 challenges를 해결하는 것은 unified multimodal models의 capabilities와 scalability를 발전시키는 데 중요할 것입니다.
Community에는 large language models, multimodal understanding, image generation에 대한 훌륭한 surveys가 있지만, 우리의 작업은 understanding과 generation tasks의 integration에 구체적으로 초점을 맞춥니다. 독자들은 관련 topics에 대한 더 넓은 관점을 위해 이러한 보완적인 surveys를 참조하는 것이 좋습니다. 우리는 이 빠르게 발전하는 분야에서 추가 research를 고무하고 community에 귀중한 reference를 제공하는 것을 목표로 합니다. 이 survey와 관련된 relevant references, datasets, benchmarks를 포함한 자료는 GitHub에서 사용할 수 있으며 진행 중인 advancements를 반영하기 위해 정기적으로 업데이트될 것입니다.
정리노트: 1 INTRODUCTION (AI 연구자용)
이 논문의 INTRODUCTION 섹션은 multimodal understanding과 image generation이라는 두 가지 독립적으로 발전해 온 AI domain을 통합하려는 최근 연구 동향과 그 필요성을 강조하며 시작합니다.
핵심 배경 및 문제 제기:
- LLMs의 발전과 Multimodal 확장: LLaMa, GPT 등 LLMs의 성공이 LLaVa, GPT-4와 같은 multimodal understanding models로 이어져 복잡한 reasoning까지 가능해졌습니다. 동시에 SD series, FLUX 등 image generation models도 SOTA급 quality를 달성했습니다.
- Architectural Divergence:
- Multimodal Understanding: 주로 autoregressive generation (decoder-only, next-token prediction) 방식.
- Image Generation: GANs에서 시작해 현재는 diffusion-based models (UNet, DiT + text encoders like CLIP, T5)이 주류이며 image quality에서 우수합니다. Autoregressive 방식은 image generation quality는 떨어지나 LLMs와의 구조적 일관성으로 unified model에 유리합니다.
- Unification의 필요성 및 잠재력: GPT-4o의 등장은 understanding과 generation을 통합한 unified model의 가능성을 시사합니다. 이러한 model은 복잡한 지시 기반 image generation, visual data reasoning, multimodal analyses의 시각화 등 광범위한 응용이 기대됩니다.
Unified Model 구현의 핵심 Challenges:
- Architectural Integration: Autoregressive models의 reasoning/text generation 능력과 diffusion-based models의 high-quality image synthesis 능력을 효과적으로 결합하는 것이 관건입니다.
- Image Tokenization for Autoregressive Generation: 가장 중요한 미해결 과제 중 하나입니다.
- 접근 방식: Diffusion pipeline에서 사용되는 VAE/VQ-GAN 계열 vs. EVA-CLIP, OpenAI-CLIP 등 semantic encoders 활용.
- Representation: Text의 discrete tokens과 달리, image tokens에 대해서는 continuous representations이 더 적합할 수 있다는 연구가 등장하고 있습니다.
- Architectural Designs: Naive autoregressive architecture 외에, parallel diffusion과 sequential autoregressive generation을 결합한 hybrid architectures가 유망한 대안으로 제시됩니다. Image tokenization과 architectural design 모두 아직 초기 단계입니다.
본 Survey의 주요 기여 및 목적:
- Unified Multimodal Models 현황 종합: Multimodal understanding과 image generation의 통합에 초점을 맞춘 최초의 포괄적 survey를 목표로 합니다 (Fig. 1 참조).
- 분류 체계 제시: 기존 unified models을 다음 세 가지 architectural paradigms로 분류합니다:
- Diffusion-based
- Autoregressive-based
- Hybrid (autoregressive + diffusion mechanisms)
- 특히, autoregressive 및 hybrid categories 내에서는 다양한 image tokenization strategies에 따라 models을 세분화하여 분석합니다.
- Foundational Concepts 및 Advancements 소개: Multimodal understanding 및 image generation (autoregressive 및 diffusion-based paradigms 포함)의 기본 개념과 최신 동향을 다룹니다.
- 관련 Resources 제공: Unified multimodal models 학습 및 평가를 위한 datasets 및 benchmarks를 취합하여 제공합니다.
- 주요 Challenges 논의: Efficient tokenization strategy, data construction, model evaluation 등 nascent field의 핵심 과제들을 심도 있게 논의하여 향후 연구 방향을 제시합니다.
- 차별점: 기존 LLMs, multimodal understanding, image generation 관련 surveys와 달리, 본 논문은 이들의 'integration'에 명확히 초점을 맞춥니다.
- Community 기여: GitHub를 통해 관련 references, datasets, benchmarks를 공개하고 지속적으로 업데이트하여 연구 커뮤니티에 실질적인 도움을 주고자 합니다.
쉬운 설명 : 1 INTRODUCTION
최근 인공지능(AI)은 글을 이해하고 그림도 이해하는 능력(multimodal understanding)과 글 설명을 듣고 그림을 척척 그려내는 능력(image generation) 두 분야에서 눈부시게 발전했어요. 예를 들어, AI가 사진을 보고 설명을 달거나, 복잡한 질문에 답하는 것이 전자에 해당하고, "노을 지는 바닷가에서 뛰어노는 강아지"라고 말하면 멋진 그림을 짠하고 만들어내는 것이 후자에 해당하죠.
그런데 지금까지 이 두 가지 능력은 서로 다른 방식으로 연구되고 발전해 왔어요. 글과 그림을 '이해하는' AI는 주로 autoregressive라는 방식을 썼고, 그림을 '만들어내는' AI는 주로 diffusion이라는 좀 더 복잡하지만 그림 품질이 좋은 방식을 사용했죠. 마치 두 명의 전문가가 각자 자기 분야에서 최고가 된 것과 같아요.
이 논문의 INTRODUCTION 섹션에서는 "이 두 전문가의 능력을 하나로 합치면 어떨까?"라는 아이디어에서 출발합니다. 즉, 하나의 AI가 사람처럼 글과 그림을 깊이 있게 '이해'하고, 그 이해를 바탕으로 새로운 그림을 '창조'까지 할 수 있는 "unified model"을 만들자는 거죠. 최근에 나온 GPT-4o 같은 AI가 이런 가능성을 살짝 보여주면서 이 분야에 대한 관심이 뜨거워지고 있어요.
하지만 이게 말처럼 쉽지는 않아요. 서로 다르게 만들어진 AI를 합치려니 여러 가지 어려운 문제들이 생깁니다. 예를 들어, AI가 그림을 '이해'하고 '만들기' 좋게 그림 정보를 어떤 식으로 바꿔줘야 할지(image tokenization), 또 어떤 구조로 AI를 설계해야 두 가지 능력을 모두 잘 발휘할 수 있을지(architectural design) 등이 큰 숙제입니다. 어떤 연구팀은 이런 방법(VAE, VQ-GAN)을, 다른 팀은 저런 방법(semantic encoders)을 쓰고 있고, 그림 정보를 글자처럼 다룰지(discrete tokens) 아니면 좀 더 부드러운 신호(continuous representations)처럼 다룰지도 아직 연구 중이에요.
그래서 이 논문은 마치 탐험 지도처럼, 현재 이 "unified multimodal model"을 만들기 위한 여러 연구들이 어디까지 와 있고, 어떤 방법들을 쓰고 있으며, 어떤 어려움들이 있는지를 총정리해서 보여줍니다. 크게 세 가지 접근법(diffusion-based, autoregressive-based, hybrid)으로 나누어 설명하고, 특히 그림 정보를 어떻게 처리하는지에 따라 더 자세히 분류하기도 해요. 또한, 이런 AI를 만들고 테스트하는 데 필요한 데이터(datasets)나 시험 문제(benchmarks)들도 모아서 제공하고, 앞으로 해결해야 할 숙제들(efficient tokenization, data, evaluation)에 대해서도 이야기합니다.
결국 이 논문은 AI 연구자들이 이 흥미진진한 새 분야에서 길을 잃지 않고 더 멋진 "이해하고 창조하는 AI"를 만들 수 있도록 돕는 안내서 역할을 하고자 합니다.