AI바라기의 인공지능

diffusion : 논문 리뷰 : High-Resolution Image Synthesis with Latent Diffusion Models 본문

논문리뷰

diffusion : 논문 리뷰 : High-Resolution Image Synthesis with Latent Diffusion Models

AI바라기 2026. 3. 1. 15:35

 

Abstract

이미지 형성 과정을 denoising autoencoders의 sequential한 적용으로 분해함으로써, diffusion models (DMs)는 image data 및 그 외의 분야에서 state-of-the-art synthesis 결과를 달성합니다. 추가적으로, 이들의 formulation은 retraining 없이 image generation 과정을 제어할 수 있는 guiding mechanism을 허용합니다.

하지만, 이러한 models는 일반적으로 pixel space에서 직접 작동하기 때문에, 강력한 DMs의 optimization은 종종 수백 GPU days를 소모하며 sequential evaluations로 인해 inference 비용이 비쌉니다. 제한된 컴퓨팅 리소스 환경에서도 품질과 유연성을 유지하며 DM training을 가능하게 하기 위해, 우리는 강력한 pretrained autoencoders의 latent space에 이를 적용합니다.

이전 연구와 대조적으로, 이러한 representation에서 diffusion models를 training하는 것은 처음으로 complexity reduction과 detail preservation 사이의 거의 최적점에 도달할 수 있게 하여, visual fidelity를 크게 향상시킵니다.

model architecture에 cross-attention layers를 도입함으로써, 우리는 diffusion models를 text나 bounding boxes와 같은 일반적인 conditioning inputs를 위한 강력하고 유연한 generators로 변환하며, convolutional 방식으로 high-resolution synthesis가 가능해집니다.

우리의 latent diffusion models (LDMs)는 pixel-based DMs와 비교하여 컴퓨팅 요구 사항을 크게 줄이면서도, image inpainting 및 class-conditional image synthesis에 대해 새로운 state-of-the-art 점수를 달성하고 text-to-image synthesis, unconditional image generation, 그리고 super-resolution을 포함한 다양한 작업에서 매우 경쟁력 있는 성능을 달성합니다.

 

 

Introduction

더보기

Image synthesis는 최근 가장 눈부신 발전을 이룬 computer vision 분야 중 하나이지만, 동시에 가장 큰 컴퓨팅 요구를 가진 분야 중 하나이기도 합니다. 특히 복잡하고 자연스러운 장면의 high-resolution synthesis는 현재 autoregressive (AR) transformers 내에 수십억 개의 parameters를 잠재적으로 포함하는 likelihood-based models를 scaling up 함으로써 지배되고 있습니다. 대조적으로, GANs의 유망한 결과는 그들의 adversarial learning 절차가 복잡한 multi-modal distributions를 modeling하는 데 쉽게 scale되지 않기 때문에 비교적 제한된 variability를 가진 data에 주로 국한되는 것으로 밝혀졌습니다. 최근, denoising autoencoders의 계층 구조로 구축된 diffusion models는 image synthesis 및 그 이상에서 인상적인 결과를 달성하는 것을 보여주었으며, class-conditional image synthesis 및 super-resolution에서 state-of-the-art를 정의합니다. 더욱이, unconditional DMs조차도 다른 유형의 generative models와 대조적으로 inpainting 및 colorization이나 stroke-based synthesis와 같은 작업에 쉽게 적용될 수 있습니다. Likelihood-based models이므로, 이들은 GANs처럼 mode-collapse 및 training 불안정성을 보이지 않으며, parameter sharing을 적극적으로 활용함으로써 AR models에서처럼 수십억 개의 parameters를 포함하지 않고도 자연 이미지의 고도로 복잡한 distributions를 model할 수 있습니다.

Democratizing High-Resolution Image Synthesis

DMs는 likelihood-based models의 class에 속하며, 이들의 mode-covering 동작은 data의 감지할 수 없는 세부 사항을 modeling하는 데 과도한 양의 capacity(그리고 그에 따른 컴퓨팅 리소스)를 소비하는 경향이 있게 만듭니다. 비록 reweighted variational objective가 초기 denoising steps를 undersampling하여 이 문제를 해결하려고 하지만, 이러한 model을 training 및 evaluating하는 것은 RGB images의 high-dimensional space에서 반복적인 function evaluations (그리고 gradient computations)를 요구하기 때문에 DMs는 여전히 계산적으로 부담이 큽니다. 예를 들어, 가장 강력한 DMs를 training하는 데는 종종 수백 GPU days(예: 150 - 1000 V100 days)가 소요되며, input space의 noisy 버전에 대한 반복적인 evaluations는 inference 비용 또한 비싸게 만들어, 단일 A100 GPU에서 50k개의 samples를 생성하는 데 약 5일이 걸립니다. 이는 연구 커뮤니티와 일반 사용자들에게 두 가지 결과를 초래합니다: 첫째, 이러한 model을 training하는 것은 해당 분야의 소수만이 사용할 수 있는 막대한 컴퓨팅 리소스를 요구하며, 거대한 탄소 발자국을 남깁니다. 둘째, 동일한 model architecture가 많은 수의 steps(예: 25 - 1000 steps)에 대해 sequential하게 실행되어야 하므로 이미 trained model을 evaluating하는 것 또한 시간과 메모리 측면에서 비용이 많이 듭니다. 이 강력한 model class의 접근성을 높이는 동시에 상당한 리소스 소비를 줄이기 위해서는 training과 sampling 모두에서 computational complexity를 줄이는 방법이 필요합니다. 따라서 DMs의 성능을 손상시키지 않으면서 컴퓨팅 요구 사항을 줄이는 것이 이들의 접근성을 향상시키는 핵심입니다.

Departure to Latent Space

우리의 접근 방식은 pixel space에서 이미 trained diffusion models를 분석하는 것으로 시작합니다: Fig. 2는 trained model의 rate-distortion trade-off를 보여줍니다. 모든 likelihood-based model과 마찬가지로, learning은 크게 두 단계로 나눌 수 있습니다: 첫 번째는 high-frequency details를 제거하지만 여전히 semantic variation을 거의 학습하지 않는 perceptual compression 단계입니다. 두 번째 단계에서는 실제 generative model이 data의 semantic 및 conceptual composition을 학습합니다 (semantic compression). 따라서 우리는 먼저 perceptually 동등하지만 계산적으로 더 적합한 space를 찾는 것을 목표로 하며, 그곳에서 high-resolution image synthesis를 위한 diffusion models를 train할 것입니다.

일반적인 관행에 따라, 우리는 training을 두 개의 뚜렷한 단계로 분리합니다: 첫째, 우리는 data space와 perceptually 동등한 lower-dimensional (그리고 그에 따라 효율적인) representational space를 제공하는 autoencoder를 train합니다. 중요하게도, 이전 연구와 달리, 우리는 학습된 latent space에서 DMs를 train하므로 과도한 spatial compression에 의존할 필요가 없으며, 이는 spatial dimensionality와 관련하여 더 나은 scaling 특성을 보여줍니다. 줄어든 complexity는 또한 단일 network pass로 latent space에서 효율적인 image generation을 제공합니다. 우리는 그 결과물인 model class를 Latent Diffusion Models (LDMs)라고 명명합니다.

이 접근 방식의 주목할 만한 장점은 보편적인 autoencoding 단계를 한 번만 train하면 되므로, 이를 여러 DM trainings에 재사용하거나 잠재적으로 완전히 다른 작업을 탐색할 수 있다는 것입니다. 이는 다양한 image-to-image 및 text-to-image 작업을 위한 수많은 diffusion models의 효율적인 탐색을 가능하게 합니다. 후자의 경우, 우리는 transformers를 DM의 UNet backbone에 연결하고 임의의 유형의 token-based conditioning mechanisms를 가능하게 하는 architecture를 설계합니다 (Sec. 3.3 참조).

요약하자면, 우리의 연구는 다음과 같은 contributions를 제공합니다:

(i) 순수하게 transformer-based 접근 방식과 달리, 우리의 방법은 더 높은 dimensional data로 더 우아하게 scale되며, 따라서 (a) 이전 연구보다 더 충실하고 상세한 reconstructions를 제공하는 compression 수준에서 작동할 수 있고 (Fig. 1 참조) (b) megapixel images의 high-resolution synthesis에 효율적으로 적용될 수 있습니다.

(ii) 우리는 컴퓨팅 비용을 크게 낮추면서 여러 작업(unconditional image synthesis, inpainting, stochastic super-resolution) 및 datasets에서 경쟁력 있는 성능을 달성합니다. Pixel-based diffusion 접근 방식과 비교하여, 우리는 또한 inference 비용을 크게 줄입니다.

(iii) 우리는 encoder/decoder architecture와 score-based prior를 동시에 학습하는 이전 연구와 대조적으로, 우리의 접근 방식은 reconstruction과 generative 능력 사이의 섬세한 가중치 조정(weighting)을 요구하지 않음을 보여줍니다. 이는 매우 충실한 reconstructions를 보장하고 latent space의 regularization을 거의 요구하지 않습니다.

(iv) 우리는 super-resolution, inpainting 및 semantic synthesis와 같이 densely conditioned 작업의 경우, 우리의 model이 convolutional 방식으로 적용될 수 있으며 약 $\sim 1024^2$ px의 크고 일관된 images를 render할 수 있음을 발견했습니다.

(v) 더욱이, 우리는 cross-attention을 기반으로 하는 범용 conditioning mechanism을 설계하여 multi-modal training을 가능하게 합니다. 우리는 이를 사용하여 class-conditional, text-to-image 및 layout-to-image models를 train합니다.

(vi) 마지막으로, 우리는 DMs의 training 외에도 다양한 작업에 재사용될 수 있는 pretrained latent diffusion 및 autoencoding models를 https://github.com/CompVis/latent-diffusion 에 공개합니다.

 

 

더보기

Figure 1. 덜 공격적인 다운샘플링을 통한 품질 상한선 향상

이 이미지는 원본 이미지(Input)를 각기 다른 모델로 압축했다가 다시 복원했을 때의 화질 차이를 비교하여 보여줍니다.

  • 핵심 내용: 논문에서 제안하는 방식(ours)은 공간적 압축 비율을 나타내는 다운샘플링 팩터를 $f=4$로 비교적 낮게 설정했습니다. 반면, 기존의 유명한 모델인 DALL-E는 $f=8$, VQGAN은 $f=16$으로 데이터를 훨씬 더 작고 무리하게 압축합니다.
  • 결과 비교: 확대된 박스를 보면 차이가 명확합니다. DALL-E나 VQGAN은 접시의 윤곽선이 뭉개지거나 사람의 눈동자 디테일이 흐릿해지는 반면, 제안된 방식은 원본에 가까운 아주 선명한 디테일을 유지합니다.
  • 정량적 지표: 화질의 우수성은 이미지 상단의 수치로도 증명됩니다. 제안된 방식은 화질 손실 정도를 나타내는 PSNR(높을수록 좋음)이 27.4로 가장 높고, 생성 이미지의 품질을 평가하는 R-FID(낮을수록 좋음) 역시 0.58로 가장 우수합니다.
  • 의의: diffusion models는 공간 데이터에 대한 우수한 inductive bias(귀납 편향)를 제공하기 때문에, 기존 모델들처럼 latent space에서 픽셀 정보를 과도하게 깎아낼 필요 없이 적절한 autoencoder만으로도 차원을 줄이면서 높은 품질을 보존할 수 있음을 증명합니다.

 

 

 

 

더보기

Figure 2. Perceptual Compression과 Semantic Compression의 분리

이 그래프는 데이터를 압축할 때 발생하는 정보량(Rate, x축)과 왜곡(Distortion, y축) 사이의 관계를 시각화하여, 논문이 제안하는 두 단계의 분리된 학습 과정을 명확히 보여줍니다.

  • 배경 문제: 디지털 이미지 데이터의 대부분은 사람이 눈으로 구별조차 하지 못하는 미세한 디테일(노이즈 등)로 채워져 있습니다. 기존의 diffusion models는 이런 무의미한 정보까지 픽셀 단위로 전부 계산하느라 막대한 연산량을 낭비했습니다.
  • 1단계: Perceptual Compression (시각적 압축)
    • 그래프의 완만한 오른쪽 꼬리 부분에 해당합니다.
    • Autoencoder+GAN 모델이 이 역할을 맡아, 사람이 인식할 수 없는 불필요한 디테일만 부드럽게 제거합니다. 그래프를 보면 정보량(Rate)을 크게 줄여도 왜곡(Distortion)은 거의 발생하지 않는 것을 알 수 있습니다.
  • 2단계: Semantic Compression (의미적 압축)
    • 그래프의 가파르게 솟아오르는 왼쪽 부분에 해당합니다.
    • 이 구간에서는 데이터를 조금만 더 압축해도 이미지의 핵심 구조와 의미가 망가져 왜곡이 급증합니다. 바로 이 중요한 의미적 영역의 학습과 생성을 제안하는 *Latent Diffusion Model (LDM)*이 전담하게 됩니다.
  • 의의: 복잡한 연산이 필요한 DMs를 가파른 곡선 부분(의미 생성)에만 집중시키고, 불필요한 픽셀 정보는 앞선 압축 단계에서 미리 덜어냄으로써 연산 효율을 극대화한다는 논문의 핵심 아이디어를 대변합니다.

 

Gemini의 응답

1. Introduction 핵심 정리 노트 (AI 연구자용)

📌 연구 배경 및 문제 정의

  • 기존 diffusion models (DMs)는 pixel space에서 작동하여 사람이 감지할 수 없는 고주파 세부 사항을 모델링하는 데 과도한 컴퓨팅 자원을 낭비함.
  • 가장 강력한 DMs는 수백 일의 GPU 학습 시간과 막대한 inference 비용을 요구하여 연구 접근성을 떨어뜨리고 탄소 발자국을 증가시킴.

💡 핵심 제안 방식 (Departure to Latent Space)

  • 생성 과정을 perceptual compression (시각적 세부 사항 압축)과 semantic compression (의미적 구조 학습) 두 단계로 완전히 분리.
  • 사전 학습된 범용 autoencoder를 사용해 원본 데이터와 시각적으로 동일한 저차원의 latent space를 구축.
  • 이후 축소된 latent space 내에서 diffusion models (LDMs)를 학습 및 샘플링하여 연산 복잡도를 획기적으로 감소시킴.

🚀 논문만의 주요 기여 (Contributions)

  • Decoupled Training (학습의 분리): autoencoder와 생성 모델을 동시에 학습하던 기존 방식과 달리, 두 과정을 분리하여 복원력과 생성 능력 사이의 까다로운 가중치 조절(weighting) 문제를 해결하고 높은 시각적 충실도(visual fidelity)를 보장함.
  • Universal Reusability: 한 번 학습된 autoencoder는 다양한 생성 작업(image-to-image, text-to-image)에 재사용 가능함.
  • High-Resolution Scaling: 메가픽셀 단위의 고해상도 이미지 합성에 매우 효율적이며, super-resolution이나 inpainting 작업 시 convolutional 방식으로 적용하여 픽셀의 크고 일관된 이미지를 렌더링할 수 있음.
  • Flexible Conditioning: UNet 백본에 cross-attention 메커니즘을 도입하여 텍스트, 레이아웃 등 임의의 토큰 기반 입력에 대한 강력한 멀티모달 제어 기능을 제공함.

📖 쉬운 설명 : 픽셀 공간에서 잠재 공간으로의 도약

이 논문의 Introduction은 **"왜 이미지 생성 AI가 이렇게 느리고 무거울까?"**라는 질문에서 출발합니다.

기존의 뛰어난 diffusion models는 이미지를 픽셀 단위로 하나하나 처리했습니다. 비유하자면, 거대한 벽화를 그릴 때 모래알만 한 붓으로 캔버스 전체를 처음부터 끝까지 칠하는 것과 같습니다. 이 방식은 사람 눈에는 띄지도 않는 미세한 픽셀의 변화까지 전부 계산해야 하므로 엄청난 컴퓨터 자원과 시간이 필요했습니다.

이 논문은 이를 해결하기 위해 **'압축(Compression)'**이라는 아이디어를 냅니다.

  1. 먼저, 사람 눈에 보기에 원본과 똑같아 보이면서도 용량은 훨씬 작은 핵심만 남긴 요약본을 만듭니다. (이것이 autoencoder가 만드는 latent space입니다.)
  2. 그런 다음, 무거운 생성 모델(diffusion model)을 거대한 원본 픽셀 위가 아니라, 이 작고 가벼운 요약본 공간에서만 작동하게 만듭니다.

결과적으로, 벽화의 핵심 스케치와 색감(의미적 압축)을 먼저 빠르게 완성한 뒤 나중에 디테일을 살리는 방식을 취하게 됩니다. 이 덕분에 컴퓨터가 계산해야 할 양이 획기적으로 줄어들어, 훨씬 적은 자원으로도 매우 고해상도의 이미지를 만들어내고 텍스트를 입력해 이미지를 생성하는 작업까지 빠르고 정교하게 해낼 수 있게 된 것입니다.

 

 

2. Related Work

더보기

Generative Models for Image Synthesis images의 high dimensional 특성은 generative modeling에 뚜렷한 도전 과제를 제시합니다. Generative Adversarial Networks (GAN)은 좋은 perceptual quality를 가진 high resolution images의 효율적인 sampling을 허용하지만, optimize하기 어렵고 전체 data distribution을 포착하는 데 어려움을 겪습니다. 대조적으로, likelihood-based methods는 optimization을 더 잘 작동하게 만드는 좋은 density estimation을 강조합니다. Variational autoencoders (VAE)와 flow-based models는 high resolution images의 효율적인 synthesis를 가능하게 하지만, sample quality는 GANs와 동등하지 않습니다. autoregressive models (ARM)이 density estimation에서 강력한 performance를 달성하는 반면, 계산적으로 요구가 많은 architectures와 sequential sampling process는 이들을 low resolution images로 제한합니다. images의 pixel based representations는 거의 감지할 수 없는 high-frequency details를 포함하기 때문에, maximum-likelihood training은 이를 modeling하는 데 불균형적으로 많은 capacity를 소비하여 긴 training times를 초래합니다. 더 높은 resolutions로 scale하기 위해, 몇몇 two-stage approaches는 raw pixels 대신 compressed latent image space를 model하기 위해 ARMs를 사용합니다.

최근, Diffusion Probabilistic Models (DM)은 sample quality뿐만 아니라 density estimation에서도 state-of-the-art 결과를 달성했습니다. 이러한 models의 generative power는 그들의 근본적인 neural backbone이 UNet으로 구현될 때 image-like data의 inductive biases에 자연스럽게 부합하는 데서 비롯됩니다. 가장 좋은 synthesis quality는 일반적으로 training을 위해 reweighted objective가 사용될 때 달성됩니다. 이 경우, DM은 lossy compressor에 해당하며 compression capabilities를 위해 image quality를 trade할 수 있게 해줍니다. 하지만, pixel space에서 이러한 models를 evaluating하고 optimizing하는 것은 낮은 inference speed와 매우 높은 training costs라는 단점을 가지고 있습니다. 전자는 advanced sampling strategies와 hierarchical approaches에 의해 부분적으로 해결될 수 있지만, high-resolution image data에 대한 training은 항상 비싼 gradients를 계산하는 것을 요구합니다. 우리는 더 낮은 dimensionality의 compressed latent space에서 작동하는 제안된 LDMs를 통해 이 두 가지 단점을 모두 해결합니다. 이는 training을 계산적으로 더 저렴하게 만들고 synthesis quality의 감소를 거의 일으키지 않으면서 inference를 speed up합니다 (Fig. 1 참조).

Two-Stage Image Synthesis 개별 generative approaches의 단점을 완화하기 위해, 많은 연구가 two stage approach를 통해 다양한 방법들의 강점을 결합하여 더 효율적이고 performant models를 만드는 방향으로 진행되었습니다. VQ-VAEs는 discretized latent space에 대한 expressive prior를 학습하기 위해 autoregressive models를 사용합니다. 이 접근 방식을 discretized image 및 text representations에 대한 joint distribution을 학습함으로써 text-to-image generation으로 확장한 연구도 있습니다. 더 일반적으로는, conditionally invertible networks를 사용하여 다양한 domains의 latent spaces 사이의 generic transfer를 제공하기도 합니다. VQ-VAEs와 다르게, VQGANs는 autoregressive transformers를 더 큰 images로 scale하기 위해 adversarial 및 perceptual objective를 가진 first stage를 사용합니다.

그러나, 수십억 개의 trainable parameters를 도입하는 실행 가능한 ARM training을 위해 요구되는 높은 compression rates는 이러한 approaches의 전반적인 performance를 제한하며, 더 적은 compression은 높은 computational cost를 대가로 치러야 합니다. 우리의 연구는 이러한 tradeoffs를 방지하는데, 제안된 LDMs는 그들의 convolutional backbone으로 인해 더 높은 dimensional latent spaces로 더 부드럽게 scale하기 때문입니다. 따라서, 우리는 high-fidelity reconstructions를 보장하면서 너무 많은 perceptual compression을 generative diffusion model에 맡기지 않고 강력한 first stage를 학습하는 것 사이에서 최적으로 중재하는 compression 수준을 자유롭게 선택할 수 있습니다 (Fig. 1 참조).

encoding/decoding model을 score-based prior와 함께 jointly 또는 separately 학습하는 approaches가 존재하지만, 전자는 여전히 reconstruction과 generative capabilities 사이의 어려운 weighting을 요구하며 우리의 approach에 의해 능가되고 (Sec. 4 참조), 후자는 사람 얼굴과 같은 고도로 구조화된 images에만 집중한다는 한계가 있습니다.

2. Related Work 핵심 정리 노트 (AI 연구자용)

📌 Generative Models for Image Synthesis 분석 및 한계

  • 기존 생성 모델들의 Trade-off: * GAN: 뛰어난 perceptual quality를 보이나, optimize가 어렵고 전체 data distribution을 포착하는 데 한계가 있음(Mode Collapse).
    • VAE & Flow-based models: 안정적인 density estimation이 가능하지만 sample quality가 GAN에 미치지 못함.
    • ARM (Autoregressive Models): Density estimation 성능은 좋으나 sequential sampling과 무거운 architecture로 인해 low resolution images에 국한됨.
  • 기존 DM (Diffusion Models)의 딜레마: State-of-the-art 품질을 달성하고 UNet 구조를 통해 image data의 inductive biases를 잘 활용하지만, pixel space에서 작동한다는 치명적인 단점이 있음. 사람이 인식 불가능한 high-frequency details를 계산하느라 막대한 연산량(capacity)을 낭비하며, 이로 인해 training cost가 극도로 높고 inference 속도가 느림.
  • 💡 LDM의 해결책: Lower dimensionality를 가진 compressed latent space에서 작동하게 함으로써, synthesis quality의 손상 거의 없이 training 비용을 획기적으로 낮추고 inference 속도를 대폭 향상시킴.

📌 Two-Stage Image Synthesis의 한계 극복

  • 기존 Two-Stage 방식 (VQ-VAE, VQGAN 등)의 한계: ARM을 활용하여 discretized latent space를 학습하는 방식을 취함. 그러나 ARM의 연산량 문제 때문에 매우 높은 compression rates(과도한 압축)가 강제됨. 압축률을 낮추면 수십억 개의 trainable parameters가 필요해져 연산 비용이 폭증하는 딜레마에 빠짐.
  • 💡 LDM의 차별점 (자유로운 Compression 설계): * LDM은 convolutional backbone을 사용하기 때문에 higher dimensional latent spaces에도 훨씬 부드럽게 scale 됨.
    • 결과적으로 ARM 기반 모델들처럼 무리하게 압축할 필요가 없음. High-fidelity reconstructions를 보장하면서도, generative diffusion model에 부담을 주지 않는 최적의 compression 수준을 자유롭게 선택할 수 있음.
  • 학습 구조의 우위: Encoder/decoder와 score-based prior를 동시에(jointly) 학습하려는 기존 시도들은 reconstruction과 generative capabilities 사이에서 까다로운 weighting(가중치 조절)을 요구했으나, LDM은 이를 분리하여 훨씬 뛰어난 성능을 달성함.

📖 쉬운 설명 : 기존 기술들은 무엇이 아쉬웠고, LDM은 어떻게 극복했을까?

이 섹션은 **"왜 다른 똑똑한 AI 모델들을 놔두고 굳이 잠재 공간(Latent Space) + 확산 모델(Diffusion)을 결합했는가?"**에 대한 논리적 배경을 설명합니다.

1. 기존 이미지 생성 AI들의 단점

  • GAN: 그림은 기가 막히게 잘 그리는데, 학습시키기가 너무 까다롭고 가끔 자기가 잘 그리는 그림만 편식해서 그립니다.
  • ARM (자동회귀 모델): 픽셀을 하나하나 순서대로 찍어내듯 꼼꼼하게 그리지만, 너무 느려서 작은 이미지밖에 못 그립니다.
  • 기존 Diffusion: 최근 가장 결과물이 좋지만, 캔버스의 모든 픽셀 단위에서 노이즈를 지웠다 그렸다를 반복합니다. 사람 눈에는 보이지도 않는 아주 미세한 픽셀의 잡음까지 신경 쓰느라 컴퓨터가 너무 과로하게 됩니다.

2. 기존 '2단계 압축 방식(VQGAN 등)'의 한계 그래서 학자들은 "그럼 이미지를 확 압축해서 작게 만든 다음(1단계), 그 작은 공간에서 그림을 그리게 하자(2단계)!"라는 아이디어를 냈습니다. 하지만 여기서 쓰인 모델(ARM)은 용량이 조금만 커져도 뻗어버리는 약점이 있었습니다. 컴퓨터가 뻗지 않게 하려면 원본 이미지를 너무 심하게 압축해야 했고, 그 결과 디테일이 뭉개지거나 화질이 떨어지는 문제가 생겼습니다.

3. LDM(이 논문)의 통쾌한 해결책 LDM은 2단계 생성 모델로 ARM 대신 **컨볼루션(Convolution) 기반의 확산 모델(Diffusion)**을 투입합니다. 이 모델은 차원이 조금 커져도 능숙하게 처리할 수 있는 튼튼한 체력을 가지고 있습니다. 덕분에 LDM은 원본 이미지를 억지로 심하게 압축할 필요가 없습니다. 원본의 디테일을 선명하게 살릴 수 있는 **'적당하고 예쁜 수준의 압축'**을 유지하면서도, 확산 모델의 강력한 생성 능력을 빠르고 가볍게 뽑아낼 수 있게 된 것입니다.

 

 

3. Method

더보기

high-resolution image synthesis를 향한 diffusion models의 training의 computational demands를 낮추기 위해, 우리는 diffusion models가 해당하는 loss terms를 undersampling함으로써 perceptually irrelevant details를 무시하도록 허용하지만, 그들은 여전히 pixel space에서 비용이 많이 드는 function evaluations를 필요로 하며, 이는 computation time과 에너지 자원에 막대한 demands를 야기한다는 것을 관찰했습니다.

우리는 generative learning phase로부터 compressive phase의 explicit separation을 도입함으로써 이러한 단점을 우회할 것을 제안합니다 (Fig. 2 참조). 이를 달성하기 위해, 우리는 image space와 perceptually equivalent하지만 computational complexity를 상당히 줄여주는 space를 학습하는 autoencoding model을 활용합니다.

이러한 approach는 몇 가지 장점을 제공합니다: (i) high-dimensional image space를 떠남으로써, 우리는 sampling이 low-dimensional space에서 수행되기 때문에 계산적으로 훨씬 더 efficient한 DMs를 얻습니다. (ii) 우리는 UNet architecture로부터 물려받은 DMs의 inductive bias를 exploit하며, 이는 spatial structure를 가진 data에 특히 효과적으로 만들고 따라서 이전 approaches에서 요구되는 공격적이고 quality-reducing compression levels에 대한 필요성을 완화합니다. (iii) 마지막으로, 우리는 그 latent space가 다수의 generative models를 train하는 데 사용될 수 있고 single-image CLIP-guided synthesis와 같은 다른 downstream applications에도 활용될 수 있는 general-purpose compression models를 얻습니다.

3.1. Perceptual Image Compression

우리의 perceptual compression model은 이전 연구에 기반을 두고 있으며 perceptual loss와 patch-based adversarial objective의 조합에 의해 trained된 autoencoder로 구성됩니다. 이는 local realism을 강제함으로써 reconstructions가 image manifold에 국한되도록 보장하고 L2 또는 L1 objectives와 같은 pixel-space losses에만 의존함으로써 도입되는 bluriness를 방지합니다.

더 정확하게는, RGB space에서 image $x \in \mathbb{R}^{H \times W \times 3}$가 주어지면, encoder $E$ $x$를 latent representation $z = E(x)$로 encodes하고, decoder $D$는 latent로부터 image를 reconstructs하여 $\tilde{x} = D(z) = D(E(x))$를 제공하며, 여기서 $z \in \mathbb{R}^{h \times w \times c}$입니다. 중요하게도, encoder는 factor $f = H/h = W/w$로 image를 downsamples하며, 우리는 $m \in \mathbb{N}$에 대해 다양한 downsampling factors $f = 2^m$을 조사합니다.

임의로 높은 variance의 latent spaces를 피하기 위해, 우리는 두 가지 다른 종류의 regularizations를 실험합니다. 첫 번째 변형인 KL-reg.는 VAE와 유사하게 learned latent에 대해 standard normal을 향한 약간의 KL-penalty를 부과하는 반면, VQ-reg.는 decoder 내에서 vector quantization layer를 사용합니다. 이 model은 VQGAN으로 해석될 수 있지만 quantization layer가 decoder에 흡수된 형태입니다. 우리의 후속 DM은 learned latent space $z = E(x)$의 two-dimensional structure와 함께 작동하도록 설계되었기 때문에, 우리는 상대적으로 mild한 compression rates를 사용하고 매우 좋은 reconstructions를 달성할 수 있습니다.

이는 그 distribution을 autoregressively model하기 위해 learned space $z$의 임의의 1D ordering에 의존하여 $z$의 inherent structure의 대부분을 무시했던 이전 연구들과 대조됩니다. 따라서, 우리의 compression model은 $x$의 details를 더 잘 preserves합니다 (Tab. 8 참조). 전체 objective와 training details는 supplement에서 찾을 수 있습니다.

3.2. Latent Diffusion Models

Diffusion Models는 normally distributed variable을 점진적으로 denoising함으로써 data distribution $p(x)$를 learn하도록 설계된 probabilistic models이며, 이는 길이 $T$의 fixed Markov Chain의 reverse process를 learning하는 것에 해당합니다. Image synthesis의 경우, 가장 성공적인 models는 denoising score-matching을 반영하는 $p(x)$에 대한 variational lower bound의 reweighted variant에 의존합니다.

이러한 models는 denoising autoencoders $\epsilon_\theta(x_t, t)$; $t = 1 \dots T$의 equally weighted sequence로 해석될 수 있으며, 여기서 $x_t$는 input $x$의 noisy version일 때, 그들의 input $x_t$의 denoised variant를 predict하도록 trained됩니다. 해당하는 objective는 다음과 같이 단순화될 수 있으며 (Sec. B),

$$L_{DM} = \mathbb{E}_{x, \epsilon \sim \mathcal{N}(0,1), t} \left[ \|\epsilon - \epsilon_\theta(x_t, t)\|_2^2 \right]$$

여기서 $t$는 ${1, \dots, T}$에서 uniformly sampled됩니다.

Generative Modeling of Latent Representations

$E$ $D$로 구성된 우리의 trained perceptual compression models를 통해, 우리는 이제 high-frequency, imperceptible details가 추상화된 efficient하고 low-dimensional한 latent space에 access할 수 있습니다. High-dimensional pixel space와 비교하여, 이 space는 likelihood-based generative models에 더 적합한데, 왜냐하면 그들이 이제 (i) data의 중요한 semantic bits에 초점을 맞출 수 있고 (ii) lower dimensional하고 계산적으로 훨씬 더 efficient한 space에서 train할 수 있기 때문입니다.

고도로 compressed된 discrete latent space에서 autoregressive, attention-based transformer models에 의존했던 이전 연구와 달리, 우리는 우리의 model이 제공하는 image-specific inductive biases의 이점을 취할 수 있습니다. 이는 주로 2D convolutional layers로부터 underlying UNet을 build하는 능력을 포함하며, 나아가 다음과 같이 작성되는 reweighted bound를 사용하여 perceptually 가장 relevant한 bits에 objective를 집중시킵니다.

$$L_{LDM} := \mathbb{E}_{E(x), \epsilon \sim \mathcal{N}(0,1), t} \left[ \|\epsilon - \epsilon_\theta(z_t, t)\|_2^2 \right]$$

우리 model의 neural backbone $\epsilon_\theta(\circ, t)$는 time-conditional UNet으로 실현됩니다. Forward process가 고정되어 있기 때문에, $z_t$는 training 중에 $E$로부터 efficient하게 얻어질 수 있으며, $p(z)$로부터의 samples는 $D$를 통한 단일 pass로 image space로 decoded될 수 있습니다.

3.3. Conditioning Mechanisms

다른 유형의 generative models와 유사하게, diffusion models는 원칙적으로 $p(z|y)$ 형태의 conditional distributions를 modeling할 수 있습니다. 이는 conditional denoising autoencoder $\epsilon_\theta(z_t, t, y)$로 구현될 수 있으며 text, semantic maps 또는 다른 image-to-image translation tasks와 같은 inputs $y$를 통해 synthesis process를 제어하는 길을 열어줍니다.

그러나 image synthesis의 context에서, class-labels나 input image의 blurred variants를 넘어서 다른 유형의 conditionings와 DMs의 generative power를 결합하는 것은 지금까지 덜 탐구된 연구 영역입니다. 우리는 다양한 input modalities의 attention-based models를 learning하는 데 효과적인 cross-attention mechanism으로 underlying UNet backbone을 augmenting함으로써 DMs를 더 유연한 conditional image generators로 바꿉니다.

다양한 modalities (예: language prompts)로부터 $y$를 pre-process하기 위해, 우리는 $y$를 intermediate representation $\tau_\theta(y) \in \mathbb{R}^{M \times d_\tau}$로 projects하는 domain specific encoder $\tau_\theta$를 도입하며, 이는 다음을 구현하는 cross-attention layer를 통해 UNet의 intermediate layers로 mapped됩니다.

$$Attention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d}}\right) \cdot V$$

여기서 $Q = W_Q^{(i)} \cdot \phi_i(z_t)$, $K = W_K^{(i)} \cdot \tau_\theta(y)$, $V = W_V^{(i)} \cdot \tau_\theta(y)$ 입니다. 여기서 $\phi_i(z_t) \in \mathbb{R}^{N \times d_\epsilon^i}$는 $\epsilon_\theta$를 구현하는 UNet의 (flattened) intermediate representation을 나타내며, $W_V^{(i)} \in \mathbb{R}^{d \times d_\epsilon^i}$, $W_Q^{(i)} \in \mathbb{R}^{d \times d_\tau}$ 및 $W_K^{(i)} \in \mathbb{R}^{d \times d_\tau}$는 learnable projection matrices입니다. 시각적인 묘사는 Fig. 3을 참조하십시오.

Image-conditioning pairs를 기반으로, 우리는 그런 다음 다음을 통해 conditional LDM을 learn합니다.

$$L_{LDM} := \mathbb{E}_{E(x), y, \epsilon \sim \mathcal{N}(0,1), t} \left[ \|\epsilon - \epsilon_\theta(z_t, t, \tau_\theta(y))\|_2^2 \right]$$

여기서 $\tau_\theta$ $\epsilon_\theta$는 모두 식 3을 통해 jointly optimized됩니다. 이 conditioning mechanism은 $y$가 text prompts일 때 $\tau_\theta$가 domain-specific experts, 예컨대 (unmasked) transformers로 parameterized될 수 있으므로 유연합니다 (Sec. 4.3.1 참조).

 

 

 

 

3. Method 핵심 정리 노트 (AI 연구자용)

📌 핵심 접근법: 생성 과정의 명시적 분리

Pixel space에서의 과도한 연산량을 줄이기 위해 전체 생성 과정을 **1) Compressive phase (압축 단계)**와 **2) Generative phase (생성 단계)**로 완전히 분리함.

1️⃣ Perceptual Image Compression (Autoencoder 단계)

  • 목적: 시각적 디테일을 유지하면서 연산 복잡도를 대폭 줄인 Latent space 구축.
  • Loss 구성: $L1$이나 $L2$ loss만 쓸 때 발생하는 blurriness를 막기 위해 Perceptual lossPatch-based adversarial objective를 결합하여 local realism을 강제함.
  • 구조: Encoder $E$가 원본 이미지 $x$를 다운샘플링 팩터 $f=2^m$으로 압축하여 2D 구조를 유지한 Latent representation $z \in \mathbb{R}^{h \times w \times c}$를 생성.
  • Regularization: 고분산(high-variance) latent space를 방지하기 위해 두 가지 방식 실험.
    • KL-reg.: VAE와 유사하게 standard normal을 향한 얕은 KL-penalty 부여.
    • VQ-reg.: Decoder 내부에 vector quantization layer 삽입.
  • 💡 기존 연구(VQGAN, DALL-E)와의 결정적 차이: Latent space를 1D sequence로 납작하게 펴서(flatten) autoregressive하게 모델링하지 않음. 대신 2D spatial structure를 그대로 유지하므로, 극단적인 압축(aggressive compression) 없이 mild한 압축만으로도 원본 복원력이 매우 뛰어남.

2️⃣ Latent Diffusion Models (LDM 생성 단계)

  • 작동 방식: 고주파 노이즈(사람 눈에 띄지 않는 디테일)가 이미 제거된 효율적인 저차원 Latent space에서 Diffusion 모델을 학습함.
  • 장점: UNet의 2D convolutional layer가 가진 image-specific inductive bias를 최대한 활용할 수 있음 (1D Transformer 구조 대비 효율적).
  • 목적 함수 (Objective):
  •  
  • $$L_{LDM} := \mathbb{E}_{E(x), \epsilon \sim \mathcal{N}(0,1), t} \left[ \|\epsilon - \epsilon_\theta(z_t, t)\|_2^2 \right]$$

3️⃣ Conditioning Mechanisms (Cross-Attention 도입)

  • 목적: 텍스트, 의미론적 지도(semantic maps) 등 다양한 모달리티 $y$를 통해 이미지 생성 과정을 제어($p(z|y)$).
  • 구조: UNet backbone의 중간 레이어에 Cross-attention mechanism을 추가하여 유연한 조건부 생성기로 변환.
  • 동작 과정:
    1. Domain specific encoder ($\tau_\theta$): 입력 조건 $y$를 중간 표현 $\tau_\theta(y)$로 매핑 (예: 텍스트 프롬프트를 처리하는 Transformer).
    2. Cross-Attention ($Q, K, V$):
      • $Q$ (Query): UNet의 중간 피처 맵 ($\phi_i(z_t)$)
      • $K$ (Key), $V$ (Value): 조건부 입력의 인코딩 결과 ($\tau_\theta(y)$)
      • 즉, 이미지를 생성하는 UNet이 텍스트(조건) 정보에 계속 Attention을 주면서 노이즈를 제거함.
  • 최적화: 조건부 인코더 $\tau_\theta$와 UNet $\epsilon_\theta$는 다음 목적 함수를 통해 Jointly optimized 됨.
  • $$L_{LDM} := \mathbb{E}_{E(x), y, \epsilon \sim \mathcal{N}(0,1), t} \left[ \|\epsilon - \epsilon_\theta(z_t, t, \tau_\theta(y))\|_2^2 \right]$$

📖 쉬운 설명 : LDM은 어떻게 빠르고 정확하게 조건부 그림을 그릴까?

이 섹션은 LDM이 "압축된 도화지" 위에서 **"지시어(텍스트)를 보며 그림을 그리는 방법"**을 설명합니다.

1. 똑똑한 압축 (Perceptual Compression)

기존 방식들은 이미지를 압축할 때 데이터를 1줄로 길게 늘어뜨려(1D) 처리했습니다. 이 방식은 순서를 외우긴 좋지만 "위, 아래, 양옆"이라는 이미지 고유의 2차원적인 공간 감각을 잃어버리게 됩니다.

LDM은 가로세로(2D) 격자 형태를 그대로 유지하면서 크기만 줄이는 방식을 택했습니다. 비유하자면, 거대한 지도를 1줄짜리 텍스트로 풀어쓰는 대신, 비율이 완벽하게 맞는 '미니맵'으로 축소한 것입니다. 덕분에 훨씬 적게 압축하고도 원본의 형태를 선명하게 기억할 수 있습니다.

2. 미니맵 위에서 노이즈 지우기 (Latent Diffusion)

이제 확산 모델(Diffusion)은 거대한 원본 지도가 아니라, 핵심만 남은 이 '미니맵(Latent space)' 위에서 훈련을 받습니다. 도화지가 작고 다루기 쉬우니 학습 속도도 빠르고 컴퓨터 자원도 훨씬 적게 듭니다.

3. 지시어 알아듣기 (Cross-Attention 조건부 생성)

"우주복을 입은 고양이"라는 텍스트를 입력하면 모델은 이를 어떻게 알아들을까요?

  • 먼저 **'번역기($\tau_\theta$)'**가 텍스트를 AI가 이해할 수 있는 수학적 정보로 변환합니다.
  • 그리고 **'크로스 어텐션(Cross-Attention)'**이라는 기술을 씁니다. 확산 모델이 미니맵 위에서 노이즈를 지우며 붓질을 할 때(Query), 지속적으로 번역된 텍스트 정보(Key, Value)를 곁눈질하며 "내가 지금 우주복 느낌을 잘 살리고 있나? 고양이 귀를 그릴 차례인가?"를 확인하는 겁니다. 이 두 과정이 동시에 맞물려 훈련되면서, 텍스트와 찰떡같이 맞아떨어지는 이미지가 만들어집니다.