AI바라기의 인공지능

Diffusion : 논문 리뷰 : An analytic theory of creativity in convolutional diffusion models 본문

논문리뷰

Diffusion : 논문 리뷰 : An analytic theory of creativity in convolutional diffusion models

AI바라기 2026. 2. 10. 19:43

용어 설명 (Terminology)

  • Score-matching: Diffusion model 학습의 핵심 원리로, 데이터 분포의 로그 확률 밀도 함수의 기울기(gradient)인 'score'를 추정하도록 모델을 학습시키는 과정.
  • Ideal Score Function: 무한한 데이터나 용량 제약이 없을 때 완벽하게 학습된 score 함수. 이론적으로 이는 학습 데이터를 단순히 memorization(암기)하여 재생성하는 결과만 낳음.
  • Inductive Bias: 모델이 학습하지 않은 데이터에 대해 예측할 때 사용하는 가정이나 제약 조건. 이 논문에서는 LocalityEquivariance가 핵심 bias임.
  • Locality (지역성): CNN의 특성상, 특정 픽셀의 연산이 전체 이미지가 아닌 주변 이웃 픽셀들(local neighborhood)에만 의존하는 성질.
  • Equivariance (동변성): 입력이 변형(예: 이동)되면 출력도 그에 맞춰 동일하게 변형되는 성질. CNN의 weight sharing으로 인해 발생하는 translation equivariance가 대표적.
  • ELS Machine (Equivariant Local Score Machine): 저자들이 제안한 분석적 모델. 학습 과정 없이 Locality와 Equivariance 제약 조건만을 적용하여 수학적으로 유도된 optimal score estimator.
  • Patch Mosaic: 이 논문에서 제안하는 diffusion model의 창의성(creativity) 메커니즘. 모델이 훈련 데이터의 local patch들을 섞고 연결하여 새로운 이미지를 만들어내는 방식.

Purpose of the Paper

  • 기존 이론의 모순 해결 (The Memorization Paradox): 이론적으로 완벽한 Ideal Score-matching은 Gaussian noise를 단순히 학습 데이터 중 하나로 매핑(memorization)해야 함. 하지만 실제 diffusion model은 학습 데이터에 없는 **새롭고 창의적인 이미지(Novelty)**를 생성함. 이 괴리를 설명하고자 함.
  • Black-box 해석의 한계 극복: 기존 연구들은 학습된 neural network 내부를 복잡하게 분석하려 했으나, 이 논문은 네트워크 구조 자체의 Inductive Bias(Locality, Equivariance) 만으로 생성 과정을 설명하는 **Analytic Theory(분석적 이론)**를 제시함.
  • '어떻게'가 아닌 '왜' 창의적인가: Diffusion model이 단순히 훈련 데이터를 외우지 않고, 어떻게 새로운 조합을 만들어내는지에 대한 수학적이고 기계적인 메커니즘(mechanism)을 규명하는 것이 목표.

Key Contributions

  • Analytic Derivation of Constrained Score Machines:
    • 학습된 네트워크 없이도 작동하는 LS (Local Score)ELS (Equivariant Local Score) Machine을 수학적으로 유도함.
    • 이들은 훈련 데이터의 local patch들을 이용해 score를 계산하는 closed-form solution을 가짐.
  • Mechanism of Creativity: "Patch Mosaic":
    • Diffusion model의 창의성은 "Locally Consistent Patch Mosaic" 과정에서 나온다는 것을 밝힘.
    • 즉, 모델은 훈련 데이터 전체를 기억하는 것이 아니라, 작은 patch 단위로 데이터를 기억하고, 이를 새로운 위치에 재조합(mix and match) 하여 새로운 이미지를 생성함.
  • Predictive Power:
    • 제안된 ELS Machine이 실제 학습된 ResNetUNet의 출력을 Case-by-case로 매우 정확하게 예측함을 증명함. (단순한 경향성이 아니라, 특정 노이즈 입력에 대해 거의 동일한 이미지를 생성)

Novelty

  • No Training Required: 복잡한 딥러닝 모델을 학습시키지 않고, 수식(Analytic Formula) 만으로 학습된 모델의 동작을 90% 이상 설명해낸 점이 매우 독창적임.
  • First Principles Approach: 사후 분석(post-hoc analysis)이 아니라, Locality와 Equivariance라는 First Principles(기본 원리) 로부터 모델의 동작을 예측하고 검증함.
  • Explanation of Artifacts: 생성된 이미지에서 팔다리 개수가 틀리거나(spatial inconsistency) 하는 고질적인 문제의 원인을 Late-time Locality(생성 후반부의 시야각이 너무 좁음)로 명확히 설명함.

Experimental Highlights

  • High Correlation with Trained Models:
    • Metrics: Pixelwise R^2 (결정 계수).
    • Result: 제안된 ELS Machine은 실제 학습된 ResNetUNet의 출력과 R^2 ~ 0.95 (Median 값) 수준의 놀라운 일치율을 보임. (Datasets: MNIST, FashionMNIST, CIFAR10, CelebA)
    • 반면, 단순히 훈련 데이터를 암기하는 IS (Ideal Score) Machine은 훨씬 낮은 상관관계를 보임.
  • Coarse-to-Fine Locality:
    • 실제 학습된 모델을 분석한 결과, Reverse Process (노이즈 제거 과정) 초기에는 Receptive Field가 크지만(global structure), 시간이 지날수록(t -> 0) Receptive Field가 급격히 작아짐을 발견.
    • ELS Machine의 Locality Scale(P) 을 시간에 따라 동적으로 조절하여(calibrating) 이를 완벽히 모사함.
  • Zero-padding Effect:
    • CNN에서 흔히 쓰이는 Zero-paddingEquivariance를 깨뜨려(breaking equivariance), 모델이 이미지의 Boundary(가장자리) 정보를 이용해 위치를 파악하게 돕는다는 사실을 입증. (Boundary-broken ELS가 Zero-padded CNN을 가장 잘 설명함)

Limitations and Future Work

  • Limits of Convolution-only Theory:
    • 이 이론은 CNN 기반 모델(ResNet, UNet)에 최적화되어 있음. Self-Attention (Non-local 연산)이 포함된 모델에 대해서는 설명력이 다소 떨어짐 (R^2 ~ 0.77).
  • Simplicity of Datasets:
    • 실험이 32x32 해상도의 비교적 단순한 데이터셋에 집중됨. 고해상도, 대규모 데이터셋(LAION 등)에 대한 검증이 필요함.
  • Future Work:
    • Attention Mechanism의 역할을 정량적으로 분석하는 이론으로 확장 필요. (초기 결과에 따르면 Attention은 Patch Mosaic에서 의미 있는 객체(object)를 "조각해내는(carving out)" 역할을 하는 것으로 보임)
    • Latent Diffusion Model 등 더 복잡한 아키텍처에 대한 적용.

Overall Summary

이 논문은 Diffusion Model이 훈련 데이터를 단순히 암기하지 않고 어떻게 새로운 이미지를 생성하는지에 대한 해답을 LocalityEquivariance라는 구조적 제약에서 찾았습니다. 저자들은 수학적으로 유도된 ELS Machine을 통해, Diffusion Model이 훈련 데이터의 작은 조각(Patch)들을 재조합하여 Patch Mosaic를 만드는 방식으로 작동함을 증명했습니다. 이 연구는 딥러닝 모델의 '창의성'이 마법 같은 추론이 아니라, 데이터의 국소적 재구성(Local recombination) 이라는 기계적 메커니즘에 기인함을 명확히 보여주며, 생성형 AI의 해석 가능성(Interpretability) 분야에 중요한 기여를 했습니다.


쉬운 설명 (Easy Explanation)

이 논문의 핵심 아이디어를 "잡지 오려 붙이기(Collage)" 에 비유할 수 있습니다.

  • 기존 생각 (Ideal Score): 우리는 AI가 훈련할 때 본 명화(데이터)를 통째로 외워서, 백지(노이즈)에서부터 그 그림을 완벽하게 다시 그려낸다고 생각했습니다.
  • 이 논문의 발견 (ELS Machine): 하지만 실제 AI(특히 CNN 기반)는 시야가 좁습니다. AI는 전체 그림을 한 번에 보는 대신, 손톱만한 작은 조각(Patch) 들만 볼 수 있습니다.
  • 작동 원리 (Patch Mosaic): AI는 "이런 색깔 옆에는 보통 이런 선이 오더라"라는 규칙(Locality)만 알고 있습니다. 그래서 훈련 데이터에 있던 수만 개의 작은 조각들을 가져와서, 그 규칙에 맞게 이리저리 짜깁기(Mix and Match) 합니다.
  • 결과: 이렇게 조각들을 이어 붙이다 보니, 전체적으로 보면 그럴듯하지만 훈련 데이터에는 없었던 새로운 그림이 탄생합니다. 하지만 가끔 조각들을 잘못 연결해서 다리가 3개인 바지 같은 엉뚱한 그림(Spatial Inconsistency)이 나오는 이유도 바로 AI가 전체를 보지 못하고 조각만 보고 맞췄기 때문입니다.

 

 

Abstract

우리는 convolutional diffusion modelscreativity에 대한 분석적이고, interpretable하며 예측 가능한 이론을 확보했습니다. 실제로, score-matching diffusion modelstraining data와 거리가 먼 매우 독창적인 이미지를 generate할 수 있습니다. 그러나 optimal score-matching theory는 이러한 models가 암기된 training examples만을 생성할 수 있어야 함을 시사합니다.

이러한 이론과 실험 사이의 격차를 해소하기 위해, 우리는 두 가지 단순한 inductive biaseslocalityequivariance를 확인했습니다. 이들은 다음과 같은 역할을 합니다:

  1. optimal score-matching을 방지하여 일종의 combinatorial creativity를 유도합니다.
  2. 완전히 분석적이고 완벽하게 mechanistically interpretablelocal score (LS)equivariant local score (ELS) machines라는 결과를 낳습니다.
  3. 단일 time-dependent hyperparameter를 보정한 후, trained convolution only diffusion models(ResNetsUNets 등)의 outputs를 높은 정확도로 정량적 예측이 가능하게 합니다 (우리의 상위 model의 경우 CIFAR10, FashionMNIST, MNIST, CelebA에서 $r^2$ 중앙값이 각각 0.95, 0.94, 0.94, 0.96).

우리의 modelcreativitylocally consistent patch mosaic mechanism을 밝혀냅니다. 여기서 diffusion models는 다양한 scales와 이미지 위치에서 서로 다른 local training set patches를 혼합하고 매칭(mixing and matching)함으로써 기하급수적으로 많은 새로운 이미지를 생성합니다. 또한 우리의 이론은 pre-trained self-attention enabled UNetsoutputs를 부분적으로 예측하며(CIFAR10에서 $r^2 \sim 0.77$의 중앙값), local patch mosaics로부터 semantic coherence를 만들어내는 데 있어 attention의 흥미로운 역할을 밝혀냅니다.

 

 

 

 

1. Introduction and related work

더보기

Generative AI의 깊은 수수께끼는 그것이 어떻게 겉보기에 창의적인 output을 만들어내는지 이해하는 데 있습니다. 즉, training data와 의미 있는 관계를 가지면서도, 서로 다른 training examples에 나타난 속성들의 새로운 조합을 보여주는 명백히 독창적인 outputs를 말입니다. 이러한 creativity의 본질과 기원은 무엇이며, 유한한 training set으로부터 정확히 어떻게 generated되는 것일까요?

우리는 이미지에 대한 소규모 convolutional diffusion models에 대해 이 질문들에 답합니다. 이를 위해 사례별로 outputs를 정확하게 예측할 수 있는 분석적이고 interpretable한 행동 이론을 도출하고(Fig. 1), training data locally consistent patch mosaics로부터 어떻게 생성되는지 설명합니다.

**Denoising probabilistic diffusion models (DDPMs)**는 Sohl-Dickstein et al. (2015)과 Ho et al. (2020)에서 확립되었으며, 이후 score-matching (Song & Ermon, 2019; Song et al., 2020b)과 통합되었습니다. 본 논문에서 주로 사용하는 대안적인 결정론적 파라미터화(deterministic parameterization)인 **Denoising diffusion implicit models (DDIMs)**는 Song et al. (2020a)에서 확립되었습니다. Diffusion models는 이제 이미지 생성(Dhariwal & Nichol, 2021; Rombach et al., 2022; Ramesh et al., 2022)뿐만 아니라 비디오 생성(Ho et al., 2022a;b; Blattmann et al., 2023), 약물 설계(Alakhdar et al., 2024), 단백질 접힘(Watson et al., 2023), 텍스트 생성(Li et al., 2023; 2022)에서도 중요한 역할을 하고 있습니다.

이러한 models는 유한한 training set distribution(training points에 대한 -functions의 합)을 등방성 가우시안 노이즈 분포(isotropic Gaussian noise distribution)로 변환하는 forward diffusion process를 역수행하도록 trained됩니다. 이 과정은 데이터 포인트가 축소되는 중심을 가진 가우시안 혼합(mixtures of Gaussians)의 time-dependent family를 통해 이루어집니다. Diffusion models는 증가하는 확률의 기울기 방향을 가리키는 score function을 학습하고 따름으로써 이 과정을 역수행하도록 trained됩니다. 그러나 여기에 diffusion models creativity에 대한 수수께끼가 있습니다. 만약 네트워크가 이 이상적인 score function을 정확하게 학습할 수 있다면, forward process의 완벽한 역과정을 구현하게 될 것입니다. 이는 결과적으로 가우시안 노이즈를 암기된 training examples로만 되돌릴 수 있게 됩니다. 따라서 diffusion models outputs에 있는 어떠한 독창성이든, 그것은 trained된 바로 그 목표, 즉 이상적인 score function 학습을 달성하는 데 실패한 것에서 비롯되어야 합니다. 그렇다면 어떻게 지능적인 방식으로 실패하여 training set과 거리가 먼 다수의 합리적인 새로운 예시들을 이끌어낼 수 있는 것일까요?

여러 이론적 및 실증적 연구들이 diffusion models의 속성을 연구합니다. 일부 연구들은 해결 가능한 장난감 클래스 분포(solvable toy class of distributions)에 대해 이상적인 score function을 정확하게 학습한다고 가정하거나(Biroli et al., 2024; De Bortoli, 2022; Wang & Vastola, 2023), 작은 경계 오류(bounded error)까지만 학습한다고 가정하고(Benton et al., 2024) 이러한 models의 샘플링 속성을 연구합니다. 다른 연구들은 데이터 분포와 함수 가설 클래스(hypothesis class of functions)에 대한 다양한 가정 하에 이상적인 score function 학습에 대한 정확도 보장을 확립합니다(Lee et al., 2022; Chen et al., 2023; Oko et al., 2023; Ventura et al., 2024; Cui & Zdeborova´, 2023; Cui et al., 2023).

앞서 언급했듯이, diffusion models가 이상적인 score function을 (거의) 학습한다고 가정하고 연구하는 것의 핵심 한계는 그러한 models가 암기된 training examples만 생성할 수 있다는 점입니다. trained diffusion models에서 암기 행동이 관찰되기도 했지만(Gu et al., 2023; Somepalli et al., 2023), 이상적인 score function은 모델이 항상 암기된 예시를 생성할 것이라고 예측하며, 이는 실제 diffusion models creativity와 상충됩니다.

예를 들어, 이들은 training data의 측면들을 조합적으로 많은 새로운 방식으로 구성할 수 있습니다(Sclocchi et al., 2024; Okawa et al., 2024). 이러한 관찰은 score-matching 목표에 underfit diffusion models의 일반화 이면에 있는 메커니즘 연구에 동기를 부여했습니다(Kadkhodaie et al., 2023b; Zhang et al., 2023; Wang et al., 2024; Scarvelis et al., 2023). 다른 연구들은 diffusion models creativity를 현대 Hopfield networks에서의 암기 붕괴와 연결합니다(Ambrogioni, 2023; Hoover et al., 2023; Pham et al., 2024). 그러나 이러한 연구들이 trained diffusion model의 개별 샘플을 사례별로 정량적으로 예측할 수 있는 범위는 제한적입니다.

암기 영역을 넘어선 이론을 개발하기 위해, 우리는 Ho et al. (2020)에서 소개된 self-attention 레이어 없이, 완전한 convolutional backbone을 가진 diffusion models에 초점을 맞춥니다. 우리는 이러한 models가 이상적인 score-function을 학습하지 못하게 하는 두 가지 근본적인 inductive biases를 확인했습니다: convolutional layers의 파라미터 공유로 인한 translational equivariance, 그리고 모델의 유한한 수용 영역 크기(receptive field size)로 인한 locality입니다. 놀랍게도, 우리는 단일 time-dependent hyperparameter(locality scale)를 보정한 후, 이 두 가지 단순한 편향만으로도 convolutional diffusion models의 창의적인 outputs를 정량적으로 설명하기에 충분하다는 것을 보여줍니다.

관련하여, Kadkhodaie et al. (2023a) 또한 CNN-based diffusion models에서 locality를 제한 조건으로 확인했지만, 구체적인 outputs를 예측하려 시도하지는 않았습니다. 우리 연구와 동시에, Niedoba et al. (2024)는 우리와 유사한 diffusion models의 (비-equivariant) patch-based local score approximation model을 개발했으나, 가장 강력한 locality biases를 가진 CNNs를 연구하지 않았기 때문에 그들이 연구한 신경망의 outputs를 예측하는 데 있어 정량적 성공은 더 제한적이었습니다. 또 다른 동시 연구(Wang & Vastola, 2024) 또한 사례별로 샘플을 예측하기 위해 역과정에 대한 Gaussian mixture-based approximation을 연구했습니다. 마지막으로, 우리 분석의 결과는 Efros & Leung (1999)과 같은 매우 초기 patch-based texture synthesis 방법들과 일부 유사성을 보입니다. 우리의 기여와 개요는 다음과 같습니다:

  1. 우리는 왜 이상적인 score function을 학습한 diffusion models가 암기만 할 수 있는지 검토합니다 (Sec. 2).
  2. 우리는 locality, equivariance, 그리고/또는 이미지 경계로 인해 부분적으로 깨진 equivariance 조건 하에서 이상적인 score function에 대한 minimum mean squared error (MMSE) 근사를 도출합니다. 놀랍게도, 모든 경우에서 단순한 분석적 해를 발견했습니다 (Sec. 3).
  3. 이러한 해답들은 local score (LS) machine boundary-broken equivariant local score (ELS) machine으로 이어지며, 이는 명시적인 training process 없이도 노이즈를 창의적이고 구조화된 이미지로 변환할 수 있는 완전히 분석적이고, mechanistically interpretable한 이론을 구성합니다. (Sec. 3).
  4. 우리는 ELS machine에 의해 generated된 샘플들을 이론적으로 특성화하고, 이것이 각 새로운 샘플의 서로 다른 위치에 있는 서로 다른 local training set image patches로 구성된 locally consistent patch mosaics를 통해 어떻게 기하급수적인 creativity를 달성하는지 보여줍니다 (Sec. 4).
  5. 우리는 우리의 boundary-broken ELS machine이 분석적이고 interpretable할 뿐만 아니라 예측 가능하다는 것을 보여줍니다: 이는 trained UNets ResNets outputs를 사례별로 예측할 수 있으며, 각 데이터셋의 최고 아키텍처에 대해 MNIST, FashionMNIST, CIFAR10, CelebA에서 의 이론-실험 일치도 중앙값을 달성합니다 (Sec. 5). 우리는 CelebA32x32에서 ResNets ELS machine에 의해 가장 잘 예측되지만(중앙값 ), UNet의 행동은 완전한 로컬 LS machine에 의해 더 잘 예측된다는 것을 보여줍니다(중앙값 ).
  6. 이론과 실험 간의 비교는 trained diffusion models가 시간에 따라 공간 구조의 coarse-to-fine generation을 보여주며, 이미지 생성을 고정하기 위해 이미지 경계를 사용한다는 것을 밝혀냅니다 (Sec. 5).
  7. 우리의 이론은 미세한 공간 scales에서 공간적으로 일관되지 않은 이미지(예: 잘못된 팔다리 개수)를 생성하는 diffusion models의 악명 높은 행동을 재현하며, 그 기원을 역 생성 과정 후반부의 과도한 locality 관점에서 설명합니다. (Sec. 5).
  8. 우리는 우리의 순수 로컬 ELS machine 이론을 non-local self-attention (SA) 레이어를 가진 더 강력한 trained UNet architectures와 비교합니다. 우리의 로컬 이론은 여전히 그들의 non-local outputs를 부분적으로 예측할 수 있지만(CIFAR10에서 중앙값  0.77), ELS machine local patch mosaics로부터 의미적으로 일관된 객체(semantically coherent objects)를 만들어내는 데 있어 attention의 흥미로운 역할을 밝혀냅니다 (Sec. 6).

전반적으로 우리 연구는 convolutional diffusion models creativity 메커니즘을 조명하며, 더 강력한 attention-enabled 대응 모델들을 연구하기 위한 기초를 형성합니다.

더보기

 

Figure 1 이미지 설명

이 이미지는 논문의 핵심 주장을 시각적으로 증명하는 가장 중요한 결과물로, 저자들이 제안한 Analytic Theory(분석적 이론)가 실제로 학습된 Deep Learning Model의 결과를 얼마나 정확하게 예측하는지를 보여줍니다.

1. 구성 요소 이미지는 총 4개의 데이터셋에 대한 실험 결과를 보여줍니다 (왼쪽부터 순서대로):

  • MNIST (손글씨 숫자)
  • CIFAR10 (일반 사물/동물)
  • FashionMNIST (의류)
  • CelebA (사람 얼굴)

2. 비교 방식 (각 데이터셋 별 두 개의 열) 각 데이터셋은 두 개의 열(Column)로 짝지어져 비교되고 있습니다:

  • Theory (왼쪽 열): 논문에서 제안한 수학적 모델(LS 또는 ELS machine)을 통해 도출된 이미지입니다. 이는 신경망 학습(Training) 없이, 오직 이론적 수식과 Inductive biases(Locality, Equivariance)만으로 예측한 결과입니다.
  • CNN (오른쪽 열): 실제로 해당 데이터셋으로 학습된 Convolutional Diffusion Model(UNet 또는 ResNet)이 생성한 이미지입니다.

3. 핵심 결과 및 의미

  • 놀라운 일치도: Theory 열의 이미지와 CNN 열의 이미지가 육안으로 구분이 어려울 정도로 거의 완벽하게 일치합니다. 이는 단순한 '스타일'의 유사성이 아니라, 픽셀 단위의 구조와 형태까지 예측해냈음을 의미합니다.
  • Case-by-Case 예측: 캡션에서 강조하듯, 이 이론은 단순히 "고양이 사진을 만들 것이다"라는 수준이 아니라, "특정 노이즈가 주어졌을 때 정확히 이런 모양의 고양이가 나올 것이다"를 개별 사례별(case-by-case basis)로 예측하고 있습니다.
  • 이론의 입증: 결과적으로 이 그림은 Diffusion Model의 창의성이 알 수 없는 '블랙박스' 마법이 아니라, 저자들이 밝혀낸 Locally consistent patch mosaics(부분적 패치 짜깁기) 메커니즘에 의해 작동한다는 강력한 증거입니다.

 

 

 

 

1. Introduction & Related Work 핵심 요약 (AI 연구자용)

이 섹션은 Diffusion modelsCreativity(새로운 이미지 생성 능력)와 Optimal Score-matching theory(이론상 암기로 귀결됨) 사이의 괴리를 해결하기 위해, Convolutional Diffusion Models에 대한 분석적(analytic)이고 해석 가능(interpretable)한 이론을 제안합니다.

  • The Memorization Paradox (이론 vs 실제)
    • Theory: Optimal score-matching을 완벽히 수행하면 Forward process를 완벽히 역수행하게 되므로, 가우시안 노이즈를 암기된 Training examples로 매핑해야 함. 즉, 이상적인 모델은 '암기'만 해야 함.
    • Reality: 실제 Diffusion modelsTraining data와 거리가 먼 독창적인 이미지를 생성함.
    • Conclusion: Creativity는 모델이 Ideal score function을 학습하는 데 '실패'했기 때문에 발생함.
  • Proposed Approach: Inductive Biases 활용
    • 기존 연구들은 Ideal score function을 가정하거나 근사 오류를 다뤘으나 개별 샘플을 예측하지 못함.
    • 본 연구는 Self-attention이 없는 Convolutional Diffusion Models에 집중하여 두 가지 핵심 Inductive biases를 식별함:
      1. Translational Equivariance (파라미터 공유)
      2. Locality (유한한 Receptive field)
    • 이 두 가지 편향이 모델이 Ideal score-matching을 달성하는 것을 방해하여 Combinatorial creativity를 유발함.
  • Key Contributions: LS & ELS Machines
    • 별도의 Training 없이 MMSE 근사를 통해 도출된 Local Score (LS)Equivariant Local Score (ELS) machines를 제안.
    • Predictive Power: 단 하나의 Hyperparameter(Locality scale)만으로 Trained UNets/ResNetsOutputs를 사례별(Case-by-case)로 정확히 예측 가능.
      • ResNets: ELS machine이 가장 잘 예측 (Median $r^2 \sim$ 0.96 on CelebA)
      • UNets: Fully-local LS machine이 더 잘 예측하는 경향.
  • Mechanism of Creativity: Patch Mosaics
    • Diffusion models의 생성 원리를 Locally consistent patch mosaics로 규명.
    • 모델은 Training set의 서로 다른 이미지 패치들을 서로 다른 위치와 스케일에서 혼합(Mix and Match)하여 기하급수적으로 많은 새로운 이미지를 생성함.
  • Additional Insights
    • Coarse-to-fine generation: 시간 흐름에 따라 공간 구조가 형성됨.
    • Spatial Inconsistency: Diffusion models 특유의 공간적 오류(예: 팔다리 개수 오류)는 Reverse process 후반부의 과도한 Locality 때문임.
    • Role of Attention: Self-attentionLocal patch mosaics에서 의미적 일관성(Semantic coherence)을 조각해내는 역할을 수행함.

쉬운 설명 : AI는 어떻게 '창의성'을 가질까요?

이 논문의 서론은 "AI가 완벽하다면 베끼기만 해야 하는데, 왜 새로운 그림을 그릴 수 있을까?" 라는 의문에서 시작합니다.

  1. 미스터리 (The Puzzle):
  2. 이론적으로 Diffusion model이 수학적으로 완벽하게 학습되면, 노이즈를 제거해서 원래 학습했던 데이터(사진)를 그대로 복원해야 합니다. 즉, '암기'만 해야 하죠. 그런데 실제 AI는 학습 데이터에 없는 아주 새로운 그림을 그려냅니다. 왜 그럴까요?
  3. 원인 (The Failure):
    • Locality (근시안): 한 번에 이미지 전체를 보지 못하고, 작은 구역(Patch)만 봅니다.
    • Equivariance (동일 적용): 이미지의 왼쪽 위에서 배운 규칙을 오른쪽 아래에도 똑같이 적용하려 합니다.
  4. 저자들은 AI가 완벽하지 않기 때문에 창의적이라고 말합니다. 특히 CNN 기반의 모델은 태생적으로 두 가지 한계(편견)를 가집니다.
  5. 해결책 (The Mosaic):
    • 이 논문은 이 '짜깁기 원리'를 수학적으로 증명했고, AI가 실제로 어떤 그림을 그릴지 예측하는 **공식(ELS machine)**을 만들어냈습니다.
  6. 이 한계 때문에 AI는 학습 데이터 전체를 통째로 기억하는 대신, 작은 조각(Patch)들을 기억합니다. 그리고 그림을 그릴 때, A 사진의 눈, B 사진의 코, C 사진의 배경 질감을 가져와서 **짜깁기(Mosaic)**를 합니다.
  7. 결론:
  8. AI의 창의성은 마법이 아니라, 학습 데이터를 작은 조각으로 쪼개서 다시 조립하는 '패치 모자이크' 과정입니다. (마치 잡지를 오려 붙여 새로운 콜라주를 만드는 것과 같습니다.)

 

 

 

2. The ideal score machine only memorizes

더보기

우리는 먼저 유한한 dataset에서 ideal score function을 학습하는 모든 diffusion model이 왜 암기만 할 수 있는지 논의합니다. Diffusion models 배후의 핵심 아이디어는 data distribution $\pi_0(\phi)$(여기서 $\phi \in \mathbb{R}^N$는 임의의 데이터 포인트)를 시간 $t$에 걸쳐 일련의 분포 $\pi_t(\phi)$로 반복적으로 변환하여, 시간 $T$에서의 최종 분포 $\pi_T (\phi)$가 isotropic Gaussian $N (0, I)$가 되도록 하는 stochastic forward diffusion process를 역수행하는 것입니다. Forward diffusion process는 보통 데이터 포인트들을 원점 쪽으로 축소시키면서 Gaussian noise를 추가하므로, 개별 데이터 포인트 $\varphi \sim \pi_0$에 대한 조건부 확률 $\pi_t(\phi|\varphi)$는 Gaussian $N (\phi|\sqrt{\bar{\alpha}_t}\varphi,(1 - \bar{\alpha}_t)I)$가 됩니다. Noise schedule $\bar{\alpha}_t$ $t = 0$일 때 1에서 $t = T$일 때 0으로 감소하여, $\pi_t(\phi|\varphi)$의 평균 $\sqrt{\bar{\alpha}_t}\varphi$는 시간이 지남에 따라 줄어들고 분산은 증가하며, 결국 모든 초기 포인트 $\varphi$에 대해 $\pi_t(\phi|\varphi) \sim N (0, I)$가 됩니다 (figure 8 참조).

 forward process의 단순한 시간 역전은 $\phi_T \sim N (0, I)$를 샘플링한 다음, 이를 다음의 결정론적 흐름(deterministic flow) 하에서 시간 $T$에서 0으로 역방향으로 흐르게 함으로써 얻을 수 있습니다.

$-\dot{\phi}_t = \gamma_t(\phi_t + s_t(\phi_t)), (1)$

여기서 $s_t(\phi) \equiv \nabla_\phi \log \pi_t(\phi)$는 forward process 하에서 분포 $\pi_t(\phi)$의 score function이며, $\gamma_t$는 전체 noise schedule $\bar{\alpha}_t$에 의존합니다 (상세 내용은 App. A 참조). 식 (1)의 흐름은 모든 $t \in [0, T]$에 대해 $\pi^R_t(\phi) = \pi_t(\phi)$라는 의미에서 forward process를 정확히 역수행하는 일련의 역방향 분포 $\pi^R_t(\phi)$를 유도합니다. 직관적으로, 이러한 역전이 발생하는 이유는 임의의 유한한 dataset $D$에 대해, $\pi_t(\phi)$가 축소된 데이터 포인트들을 중심으로 하는 mixture of Gaussians이기 때문입니다.

$\pi_t(\phi) = \frac{1}{|D|} \sum_{\varphi \in D} N (\phi|\sqrt{\bar{\alpha}_t}\varphi,(1 - \bar{\alpha}_t)I), (2)$

그리고 score $s_t(\phi)$는 이 혼합 분포에서 오르막 방향을 가리킵니다. 따라서 식 (1)의 두 번째 항은 $t$가 감소함에 따라 $\phi_t$를 축소된 데이터 포인트들 쪽으로 흐르게 하고, 첫 번째 항은 그 축소를 되돌립니다.

이 이론에 동기를 부여받아, score-based diffusion models score function $s_t(\phi)$의 추정치 $\hat{s}_t(\phi)$를 형성한 다음, 이 추정치와 초기 noise $\phi_T \sim N (0, I)$를 식 (1)의 역방향 흐름에 대입하여 샘플 $\phi_0$를 얻음으로써 data distribution $\pi_0(\phi)$를 샘플링하려고 시도합니다. 우리는 추정치가 ideal score function과 일치하여 임의의 유한한 dataset $D$에서 $\hat{s}_t(\phi) = s_t(\phi)$가 될 때 어떤 일이 일어나는지 고려합니다. 그러면 식 (2)의 Gaussian mixture $\pi_t(\phi)$의 score는 다음과 같습니다 (App. A):

$s_t(\phi) = \frac{1}{1 - \bar{\alpha}_t} \sum_{\varphi \in D} (\sqrt{\bar{\alpha}_t}\varphi - \phi)W_t(\varphi|\phi), (3)$

$W_t(\varphi|\phi) = \frac{N (\phi|\sqrt{\bar{\alpha}_t}\varphi,(1 - \bar{\alpha}_t)I)}{\sum_{\varphi' \in D} N (\phi|\sqrt{\bar{\alpha}_t}\varphi',(1 - \bar{\alpha}_t)I)}. (4)$

식 (3)의 $s_t$가 식 (1)에 대입될 때, 식 (3)의 각 항은 $t$가 감소함에 따라 샘플 $\phi$를 축소된 데이터 포인트 $\sqrt{\bar{\alpha}_t}\varphi$ 쪽으로 당기는 힘으로 작용하며, 이는 forward diffusion 하에서 시간 $t$ $\phi$가 시간 0의 데이터 포인트 $\varphi$에서 유래했을 사후 확률(posterior probability) $W_t(\varphi|\phi)$에 의해 가중치가 부여됩니다.

식 (1), (3), (4)의 결합된 역방향 동역학(reverse dynamics)은 우리가 ideal score machine이라고 부르는 것으로, 매력적인 Bayesian 추측 게임 해석을 가집니다. 시간 $t$의 현재 샘플 $\phi$ forward process에서 어떤 데이터 포인트 $\varphi$로부터 유래했는지 최적으로 추측하여 posterior 믿음 분포 $W_t(\varphi|\phi)$를 형성하고, 이 믿음에 따라 가중치가 부여된 각 데이터 포인트(의 축소된 버전)로 흘러갑니다.

중요하게도, 역방향 흐름은 forward diffusion을 증명 가능하게 역수행하므로, $\pi^R_0$ training set에 대한 델타 함수들의 합인 경험적 data distribution $\pi_0$와 같습니다. 따라서, ideal score machine은 암기합니다. 암기 이면의 메커니즘은 역방향 흐름에서의 양성 피드백 불안정성(positive feedback instabilities)으로 설명할 수 있습니다. 특히, 샘플 $\phi$가 데이터 포인트 $\varphi$의 축소된 버전에 가까울수록 $\phi$ $\varphi$에서 유래했다는 믿음 $W_t(\varphi|\phi)$가 높아지고, 식 (3)에서 $\phi$를 축소된 $\varphi$로 더 가까이 당기는 힘 항 $(\sqrt{\bar{\alpha}_t}\varphi-\phi)W_t(\varphi|\phi)$이 더 강해지며, 이는 다시 더 이른 시간 $t$에서의 믿음 $W_t(\varphi|\phi)$를 높입니다. 믿음과 힘 사이의 이러한 양성 피드백은 posterior 믿음 분포 $W_t(\varphi|\phi)$가 단일 데이터 포인트 $\varphi$로 급격히 집중되게 만들고, 그 결과 $\phi_t$는 역방향 흐름 하에서 이 동일한 포인트 $\varphi$로 흘러갑니다 (Fig.2 a.). 따라서 유한한 dataset $D$에서 true score $s_t$를 학습하는 모든 diffusion model은 반드시 training data를 암기해야 하며, training data에서 멀리 떨어진 새로운 샘플을 창의적으로 generate할 수 없습니다. 우리는 이 암기 현상을 ideal score machine을 사용하여 직관적으로 설명했지만, 이는 이전 연구(예: Biroli et al. (2024))에서 잘 확립되어 있습니다.

 

 

 

더보기

Figure 2 이미지 설명

이 이미지는 논문에서 다루는 세 가지 Score Machine 모델이 Training set의 데이터를 어떻게 참조하여 이미지를 생성(역방향 흐름)하는지를 도식화하여 비교한 것입니다. Memorization(암기)에서 Creativity(창의성)로 나아가는 과정을 시각적으로 보여줍니다.

1. (a) IS Machine (Ideal Score Machine)

  • 작동 방식: 그림 하단의 **전체 이미지(Entire image)**가 화살표를 따라 상단의 Training set단 하나의 특정 이미지로 연결됩니다.
  • 의미: 앞선 섹션 2에서 설명한 Ideal Score Machine입니다. 모델이 이미지 전체를 한 번에 보고 판단하기 때문에, 학습 데이터를 완벽하게 **암기(Memorization)**하여 그대로 복원하는 방식을 보여줍니다.

2. (b) LS Machine (Local Score Machine)

  • 작동 방식: 이미지를 작은 패치(Patch) 단위로 쪼개서 처리합니다.
    • 왼쪽 파란색 패치는 학습 데이터 A의 동일한 왼쪽 위치에 있는 패치를 참조합니다.
    • 오른쪽 파란색 패치는 학습 데이터 B의 동일한 오른쪽 위치에 있는 패치를 참조합니다.
  • 의미: Locality(국소성) 편향이 적용된 모델입니다. 서로 다른 학습 데이터에서 부분들을 가져와 조합할 수 있지만, 반드시 **같은 위치(Same location)**에 있는 패치만 가져와야 한다는 제약이 있습니다.

3. (c) ELS Machine (Equivariant Local Score Machine)

  • 작동 방식: (b)와 마찬가지로 패치 단위로 처리하지만, 화살표가 **교차(Cross)**하는 것을 볼 수 있습니다.
    • 하단 이미지의 왼쪽 패치가 학습 데이터의 오른쪽 부분에서 발견될 수도 있고, 그 반대일 수도 있습니다.
  • 의미: LocalityEquivariance(위치 등가성) 편향이 더해진 모델입니다. 패치를 가져올 때 위치에 구애받지 않고 **어느 위치(Any location)**에서든 가져올 수 있습니다.
  • 핵심: 이것이 바로 저자들이 주장하는 **"Creativity"**의 원천입니다. AI는 학습 데이터의 여러 이미지에서 눈, 코, 입, 질감 등을 위치에 상관없이 자유롭게 떼어와서 재조립(Mixing and Matching)하는 Patch Mosaic 방식으로 새로운 이미지를 만들어냅니다.

 

 

2. The ideal score machine only memorizes 핵심 요약 (AI 연구자용)

이 섹션은 유한한 Finite Dataset에서 Ideal score function을 완벽히 학습한 Diffusion Model이 이론적으로 왜 '암기(Memorization)'밖에 할 수 없는지를 수학적 메커니즘(Dynamics) 관점에서 규명합니다.

  • Finite Dataset as Mixture of Gaussians
    • Finite Dataset $D$에 대한 Forward process의 주변 분포 $\pi_t(\phi)$는 축소된 데이터 포인트들($\sqrt{\bar{\alpha}_t}\varphi$)을 중심으로 하는 Mixture of Gaussians로 정의됨 (Eq. 2).
    • 따라서 Ideal score function $s_t(\phi)$는 각 데이터 포인트를 향하는 벡터들의 가중 합으로 표현됨 (Eq. 3).
  • Mechanism: Bayesian Guessing Game
    • Ideal score는 현재 샘플 $\phi$Forward process 상에서 어떤 데이터 포인트 $\varphi$로부터 유래했는지에 대한 Posterior belief $W_t(\varphi|\phi)$를 계산함.
    • Reverse flow는 이 Posterior 확률에 따라 가중치 부여된 데이터 포인트들의 방향으로 샘플을 이동시키는 힘(Force)으로 작용함.
  • The Cause of Memorization: Positive Feedback Instability
    • MemorizationReverse flow 내의 '양성 피드백 불안정성(Positive feedback instabilities)' 때문에 발생함.
    • Feedback Loop:
      1. 샘플 $\phi$가 특정 데이터 포인트 $\varphi$의 축소된 버전에 가까워짐.
      2. 해당 포인트에 대한 Belief $W_t(\varphi|\phi)$가 상승함.
      3. 해당 포인트로 당기는 힘(Force term)이 더욱 강력해짐.
      4. 샘플이 더 빠르게 해당 포인트로 접근함 (1번으로 복귀).
    • 이 루프로 인해 Posterior belief는 급격하게 단일 데이터 포인트(Nearest Neighbor)로 Concentrate 되며, 결과적으로 생성된 분포 $\pi^R_0$Training set 위의 Delta functions 합과 동일해짐.
  • Conclusion
    • 따라서 수학적으로 완벽한 Score-matching은 필연적으로 Memorization을 초래함.
    • 역설적으로, Diffusion modelsCreativity는 모델이 이 Ideal objective를 달성하는 데 '실패'했거나, 근사(Approximation)하는 과정에서 발생함을 시사함.

쉬운 설명 : 왜 완벽한 AI는 '표절'만 할까요?

이 섹션은 **"AI가 수학적으로 완벽하다면, 창의성은 사라진다"**는 역설을 설명합니다.

  1. AI의 목표 (이상적 상황):
  2. AI가 노이즈(무작위 점)에서 시작해 그림을 그릴 때, 수학적으로 가장 완벽한 행동은 **"이 노이즈가 원래 어떤 사진에서 왔을까?"**를 역추적하는 것입니다.
  3. 베이지안 추측 게임 (범인 찾기):
  4. AI는 학습한 데이터(사진 앨범)를 샅샅이 뒤지며 현재 노이즈 상태와 가장 비슷한 사진을 찾습니다. 이를 **"Bayesian guessing game"**이라고 합니다. 예를 들어, "이 노이즈는 90% 확률로 고양이 사진 A에서 왔고, 10% 확률로 강아지 사진 B에서 왔다"라고 계산하는 것이죠.
  5. 암기의 늪 (양성 피드백):
    • 처음엔 "고양이 사진 A일 거야"라고 살짝 추측해서 그쪽으로 그림을 조금 고칩니다.
    • 고치고 나니 그림이 고양이 사진 A와 더 비슷해집니다.
    • 그러면 AI는 "역시 고양이 사진 A가 맞았어!"라고 확신하며 더 강력하게 그 사진과 똑같이 만듭니다.
    • 이 과정이 반복되면 결국 고양이 사진 A를 픽셀 하나 안 틀리고 그대로 복사하게 됩니다.
  6. 문제는 AI가 완벽할수록 이 확신이 너무 빨라진다는 점입니다.
  7. 결론:
  8. 이론적으로 완벽한 AI는 학습 데이터를 그대로 베끼는(암기하는) 기계일 뿐입니다. 우리가 보는 AI의 창의적인 그림들은, 역설적으로 AI가 이 완벽한 추적에 실패했거나, 멍청하게(근시안적으로) 작동했기 때문에 탄생한 '실수'의 결과물일 수 있다는 것입니다.

 

3. Equivariant and local score machines

더보기

Ideal score machine creativity 실패는 암기 영역을 넘어서는 실제 diffusion models의 행동에 대해 그것이 좋은 모델이 될 수 없음을 의미합니다. 따라서 우리는 유한한 dataset 에서 식 (3)의 ideal score function 를 학습하는 것을 방지하는 단순한 inductive biases를 찾습니다. 이러한 inductive biases를 식별함으로써, 우리는 diffusion models training data와 거리가 먼 새로운 샘플을 창의적으로 generate할 때 무엇을 하는지에 대한 새로운 이론을 얻기를 희망합니다.

핵심 관찰은 많은 diffusion models score function의 추정치 $\hat{s}(\phi)$를 형성하기 위해 **convolutional neural networks (CNNs)**를 사용한다는 점입니다. 이러한 CNNs는 두 가지 두드러진 inductive biases를 가집니다. 첫 번째는 가중치 공유(weight sharing)로 인한 translational equivariance입니다: 입력 이미지를 평행 이동하면 CNN outputs도 그에 상응하여 평행 이동합니다. 더 일반적으로, 네트워크는 임의의 대칭 그룹에 대해 equivariant할 수 있습니다 (예: (Cohen & Welling, 2016), (Hoogeboom et al., 2022)). 두 번째는 locality입니다: convolutional filters는 좁은 지지(support)를 가지므로, CNN의 전형적인 outputs는 인접한 입력 픽셀들의 작은 receptive field를 통해서만 입력에 의존합니다. 따라서 우리는 locality equivariance 제약 조건 하에서 식 (3)의 ideal score에 대한 최적의 추정치 $\hat{s}(\phi)$를 구하고자 합니다.

먼저 equivariance locality에 대한 공식적인 정의부터 시작합니다. $M_t[\phi]$를 입력 이미지 를 받아 추정된 score $\hat{s}_t(\phi) = M_t[\phi]$를 출력하는 model score function이라고 합시다.

Definition 3.1. 어떤 에 대해 가 $M_t[U\phi] = UM_t[\phi]$를 만족하면, 모델 는 데이터에 대한 그룹 의 작용에 관해 G-equivariant하다고 정의됩니다.

우리의 이미지 경우, 는 2차원 공간 평행 이동 그룹(spatial translation group)이고, 는 평행 이동된 이미지이며, $UM_t[\phi]$는 평행 이동된 score function입니다. 즉, 입력을 평행 이동하면 equivariant model outputs도 같은 방식으로 평행 이동됩니다. 픽셀에 주기적 경계 조건(periodic boundary conditions)을 부과하면(예: 가장 왼쪽 픽셀의 왼쪽 평행 이동이 가장 오른쪽 픽셀로 이동하는 원형 패딩(circular padding)), CNNs translation equivariant합니다. 그러나 경계에서 이미지를 zero-padding하는 일반적인 관행은 translation-equivariance를 깨뜨립니다; 우리는 Sec. 3.4에서 이론을 이 경우로 확장합니다.

다음으로 locality로 넘어갑니다. 이미지 데이터의 경우, 를 픽셀 위치, 를 위치 에서의 이미지 의 픽셀 값(는 색상 채널 수), 를 픽셀 위치 에서 평가된 model score function이라고 합시다. 이는 픽셀 값 $\phi(x)$가 역방향 흐름(reverse flow) 하에서 어떻게 움직여야 하는지 알려줍니다. 또한 각 픽셀 위치 에서,   근처의 픽셀 부분 집합으로 구성된  local neighborhood라고 하고, $\phi_{\Omega_x} \in \mathbb{R}^{|\Omega_x| \times C}$를 전체 이미지 의 픽셀 값들을 이웃  내의  픽셀들로 제한한 것이라고 합시다. 우리는 locality를 다음과 같이 정의합니다:

Definition 3.2. 모든 이미지 와 모든 픽셀 위치 에 대해, $M_t\phi$가 오직 $\phi_{\Omega_x}$를 통해서만 에 의존한다면, 즉 $M_t = M_t$라면, M_t[\phi]$는 **$\Omega-local**하다고 정의됩니다.

따라서 만약 -local model $M_t[\phi]$가 식 (1)의  대신 사용된다면, 위치 와 시간 에서의 픽셀 값 $\phi(x)$의 순간적인 역방향 흐름은 local neighborhood  외부의 어떤 위치에 있는 픽셀 값에도 의존하지 않을 것입니다; 그것은 오직 이웃  내의 이미지에만 의존합니다. 특히, 겹치지 않는 이웃  를 가진 먼 위치  의 두 픽셀은 역방향 흐름의 방향을 결정할 때 완전히 독립적인 결정을 내릴 것입니다; 의 이웃 에 있는 이미지 부분 $\phi_{\Omega_y}$는 픽셀 값 $\phi(x)$의 흐름 방향에 순간적으로 영향을 줄 수 없으며, 그 반대도 마찬가지입니다.

다음으로, 우리는 locality 및/또는 equivariance 제약 조건 하에서 식 (3)의 ideal score function $s_t(\phi)$에 대한 최적의 minimum mean squared error (MMSE) 근사를 고려합니다. 전체 유도 과정은 App. B에 제공되지만, 아래에 기술할 최종 답들은 단순하고 직관적입니다.

3.1. The equivariant score (ES) machine

먼저 locality 없이 equivariance만 부과합니다. 식 (3)-(4)의 $s(t)$에 대한 MMSE equivariant approximation ideal score와 형태가 동일하지만, dataset  equivariance group  하에서의 의 궤도(orbit), 즉 $G(D)$로 확장된다는 점만 다릅니다. 예를 들어, 우리의 이미지 경우에서 $G(D)$는  내 모든 이미지의 모든 가능한 공간적 평행 이동에 해당합니다. 명시적으로, MMSE equivariant score는 다음과 같이 주어집니다 (증명은 App. B.3 참조):

식 (1)의 ideal score $s(t)$를 식 (5)로 대체하면 equivariant score (ES) machine이 됩니다. ideal score machine training data를 암기하는 반면(Sec. 2 참조), 이미지에 대한 ES machine은 제한된 creativity만을 달성합니다: 이것은 오직 모든 training image의 모든 평행 이동(translate)만을 generate할 수 있습니다.

3.2. The local score (LS) machine

다음으로 equivariance 없이 locality만 부과합니다. 식 (3)-(4)의 $s(t)$에 대한 MMSE -local approximation은 다음과 같이 주어집니다:

식 (7)의 로컬 $M_t$의 각 항은 식 (3)의 $s(t)$의 각 항과 동일하며, 이전과 같이 픽셀 값 $\phi(x)$를 축소된 training set 픽셀 값 

 쪽으로 당기는 힘을 생성합니다. 단, 중요한 변화는 식 (3)-(4)에서 모든 픽셀 에 대해 동일했던 전역(global) posterior belief $W_t(\varphi|\phi)$가 이제 식 (7)-(8)에서는 로컬 -의존적 믿음 $W_t(\varphi_{\Omega_x}|\phi_{\Omega_x})$로 대체된다는 점입니다. $W_t(\varphi_{\Omega_x}|\phi_{\Omega_x})$는 시간 에서의 forward process 하의 샘플 이미지 가 시간 0의 training image 로부터 유래했을 사후 확률(posterior probability)입니다. 이때 조건은 모델 $M_t$가 의존할 수 있는 유일한 정보, 즉 위치 에서의 local neighborhood 로 제한된 이미지 의 부분인 $\phi_{\Omega_x}$입니다. local image patch $\phi_{\Omega_x}$가 같은 위치의 training image patch $\varphi_{\Omega_x}$에 가까울수록 식 (8)의 posterior $W_t(\varphi_{\Omega_x}|\phi_{\Omega_x})$는 커집니다.

식 (1)의 ideal score $s(t)$를 식 (7)로 대체하면 local score (LS) machine이 됩니다. LS machine은 서로 다른 픽셀 와 $x'$의 local image neighborhoods $\phi_{\Omega_x}$와 $\phi_{\Omega_{x'}}$가 서로 다른 training images 와 $\varphi'$로부터 온 training image patches $\varphi_{\Omega_x}$와  근처로 역방향 흐름하도록 허용함으로써 상당한 combinatorial creativity를 달성할 수 있습니다 (Fig.2b). 실제로 전역 수준에서 IS machine에 적용되던 믿음과 힘 사이의 동일한 양성 피드백(Sec. 2)이 LS machine에서는 로컬 수준에서 적용되어, 모든 픽셀  posterior beliefs $W_t(\varphi|\phi_{\Omega_x})$가 단일 training image에 집중되게 합니다. 그러나 이 training image는 서로 멀리 떨어진 픽셀들에 대해서는 다를 수 있습니다.   local image patches의 이러한 흐름 비동조화(flow decoupling)가 기하급수적인 creativity를 가능하게 합니다.

하지만 LS machine에는 여전히 중요한 한계가 남아 있습니다: 픽셀 위치  local image patch $\phi_{\Omega_x}$는 반드시 동일한 위치 에서 추출된 어떤 local training image patch  근처로 역방향 흐름해야 합니다; 다른 위치 $x'$에서 추출된 training image patch $\varphi_{\Omega_{x'}}$로는 흐를 수 없습니다. 우리는 다음으로 equivariance를 추가하면 이 한계가 제거됨을 봅니다.

3.3. The equivariant local score (ELS) machine

LS machine equivariance로 추가 제약하면 ELS machine이 되는데, 여기서는 임의의 픽셀 위치 에 있는 어떤 local image patch라도 이제 LS machine과 달리 반드시 와 같지 않아도 되는 임의의 위치 $x'$에서 추출된 어떤 local training set image patch를 향해 흐를 수 있습니다. 이것은 IS machine training set images만 생성할 수 있는 반면, equivariance 제약된 ES machine은 다른 어떤 위치로 전역 평행 이동된 training set images를 생성할 수 있다는 것의 로컬 아날로그(local analog)입니다.

이 결과를 공식적으로 표현하기 위해, 서로 다른 에 대한 모든 local neighborhoods 가 동일한 모양 를 갖는다고 가정합시다. 구체적으로,  가 홀수인  정사각형 픽셀 패치로 생각할 수 있으며, 는 위치 를 중심으로 합니다. 그리고 $P_\Omega(D)$를 임의의 위치를 중심으로 하는 임의의 training image에서 추출된 모든 가능한  모양의 local training image patches 집합이라고 합시다. $P_\Omega(D)$의 원소 는 이제 $\mathbb{R}^{P \times P \times C}$에 존재하며, 어떤 위치를 중심으로 하는 어떤 로컬  모양 training image patch의 픽셀 값들을 나타냅니다. 이제 equivariance locality 제약 조건 모두 하에서 식 (3)의 ideal score에 대한 최적의 MMSE 근사는 다음과 같습니다 (App. B):

우리는 ELS machine에 대한 (9)-(10)이 LS machine에 대한 (7)-(8)과 동일하지만 다음 두 가지가 다름을 주목합니다: (1) 픽셀 $\phi(x)$에 대한 흐름 $M_t$를 결정할 때 식 (9)-(10)의 local training set patches에 대한 합이 더 이상 와 동일한 위치를 중심으로 하는 training patches로 제한되지 않습니다; 그리고 (2) 각 픽셀 는 이제 $\phi_{\Omega_x}$의 기원이 $\phi_{\Omega_x}$와 동일한 위치 에 있는 어떤 local training set patch였는지에 대한 식 (8)의 더 작은 belief state $W_t(\varphi_{\Omega_x}|\phi_{\Omega_x})$와 달리, 임의의 위치 $x'$에 있는 어떤 local training set patch가 $\phi_{\Omega_x}$의 기원이었는지에 대해 식 (10)의 더 큰 posterior belief state $W_t(\varphi|\phi, x)$를 추적해야 합니다. 본질적으로, Bayesian 추측 게임 해석에서, equivariance는 각 픽셀의 위치 에 대한 지식을 제거하므로, 자신의 local image patch $\phi_{\Omega_x}$의 기원을 추측하기 위해, forward process 하에서 그것이 training image training image 내의 위치 모두를 추측해야 합니다. 이 추측이 역방향 흐름에 정보를 제공합니다. 종합하면, ELS machine local training set patches를 혼합하고 매칭(mixing and matching)하여 생성된 이미지의 아무 위치에나 배치함으로써 기하급수적으로 많은 새로운 이미지를 창의적으로 generate할 수 있습니다. 우리는 이것을 creativity patch mosaic model이라고 부릅니다.

3.4. Breaking equivariance through boundaries

경계에서 이미지를 zero padding하는 일반적인 관행으로 인해, CNNs는 실제로 정확한 translational equivariance를 깨뜨립니다. 우리는 이 깨진 equivariance를 처리하도록 ELS machine을 수정할 수 있습니다 (상세 내용은 App. B.2 참조). 핵심 아이디어는 translation equivariance를 깨는 것이 각 픽셀에게 이미지 내에서의 위치에 대한 지식을 일부 복원시킨다는 것입니다. 예를 들어, 픽셀 위치  주변의 local image patch $\phi_{\Omega_x}$가 많은 0 값을 포함한다면, 픽셀은 이를 사용하여 경계에 대한 자신의 위치를 추론하고, 역방향 흐름을 결정하는 Bayesian 추측 게임에서 이 지식을 사용할 수 있습니다. 본질적으로, 경계와의 관계에 대한 추가적인 조건화(conditioning)와 함께, $\phi_{\Omega_x}$는 관찰된 zero-padding의 양 및 위치와 일치하는 training image patches로만 흘러야 합니다. 예를 들어, 내부, 가장자리, 코너 image patches는 동일한 경계 중첩(boundary overlap)을 가진 내부, 가장자리, 코너 training image patches로만 흐릅니다 (Fig. 9). 이것은 픽셀들이 자신의 정확한 위치 를 알고 local image patch $\phi_{\Omega_x}$가 동일한 위치 에 있는 training image patches로만 흐르는 LS machine의 완전한 equivariance breaking의 부분적인 경우입니다 (Fig.2b).

 

더보기

 

Figure 3 이미지 설명

이 이미지는 LS/ELS Machine이 아주 단순한 학습 데이터만 가지고도 어떻게 복잡하고 새로운 이미지를 생성해낼 수 있는지 보여주는 "Patch Mosaic(패치 모자이크)" 이론의 개념 증명(Toy Example)입니다.

1. (a) Training Data (학습 데이터)

  • 모델은 딱 두 장의 이미지만 학습합니다:
    1. 완전한 검은색 이미지
    2. 완전한 흰색 이미지
  • 일반적인 암기(Memorization) 모델이라면, 결과물로 검은색 아니면 흰색 이미지만 내놓아야 합니다.

2. (b) Valid Samples (유효한 샘플들 - 창의성의 발현)

  • 모델이 실제로 생성한 이미지들입니다. 놀랍게도 검은색과 흰색이 뒤섞인 복잡한 얼룩무늬 패턴이 나타났습니다.
  • 원리 (Locally Consistent Patch Mosaics):
    • 이 모델은 $3 \times 3$ 크기의 작은 창문(Locality)으로만 세상을 봅니다.
    • 모델의 규칙은 단순합니다. "내 주변($3 \times 3$)이 학습 데이터(검은색 덩어리 or 흰색 덩어리)와 비슷하기만 하면 된다."
    • 이 '국소적인 규칙'만 지키면, 전체적으로는 검은색 영역과 흰색 영역을 자유롭게 이어 붙여서 학습 데이터에 없던 새로운 모양을 만들어낼 수 있습니다. 이것이 저자들이 주장하는 **"Exponential Creativity(기하급수적 창의성)"**의 시각적 예시입니다.

3. (c) Invalid Samples (유효하지 않은 샘플들)

  • 생성 과정에서 오류가 발생한 경우입니다. (빨간색 하이라이트 부분)
  • 수학적으로 이미지를 생성하는 과정(수치 적분)에서 계산 단계를 너무 건너뛰면(Step size가 너무 크면), 국소적인 규칙조차 지키지 못해 노이즈처럼 깨진 픽셀들이 발생함을 보여줍니다.

요약:

이 그림은 AI가 "검은색"과 "흰색"이라는 개념만 배운 상태에서, "작은 조각들을 조립(Mosaic)"하는 능력을 통해 '얼룩말 무늬' 같은 완전히 새로운 이미지를 창조해내는 과정을 보여줍니다.

 

3. Equivariant and local score machines 핵심 요약 (AI 연구자용)

이 섹션은 Diffusion ModelCreativity가 발생하는 메커니즘을 규명하기 위해, CNN 고유의 Inductive Biases(Equivariance, Locality)를 제약 조건으로 하는 MMSE Approximation을 유도합니다. 이를 통해 Ideal ScoreMemorization 문제를 해결하는 세 가지 기계(ES, LS, ELS)를 정의합니다.

  • Motivation: Inductive Biases as Constraints
    • Ideal Score Function은 암기(Memorization)로 귀결됨.
    • 실제 CNN-based Diffusion은 두 가지 제약을 가짐:
      1. Translational Equivariance: Weight sharing ($M_t[U\phi] = UM_t[\phi]$).
      2. Locality: Finite receptive field ($M_t[\phi](x)$ depends only on $\phi_{\Omega_x}$).
    • 이 제약 하에서의 Optimal MMSE Score를 유도하여 모델의 동작을 설명함.
  • 1. The Equivariant Score (ES) Machine (Equivariance Only)
    • Dataset $D$$G(D)$(모든 가능한 Translation의 집합)로 확장하여 Ideal Score를 근사.
    • Result: Creativity가 제한적임. 학습 데이터를 공간적으로 이동(Translation)시킨 이미지만 생성 가능.
  • 2. The Local Score (LS) Machine (Locality Only)
    • Key Concept: Global Posterior $W_t(\varphi|\phi)$를 Local Posterior $W_t(\varphi_{\Omega_x}|\phi_{\Omega_x})$로 대체.
    • Mechanism (Flow Decoupling): 서로 먼 픽셀($x, x'$)은 서로 독립적으로 다른 Training Image($\varphi, \varphi'$)를 참조하여 역전파(Reverse Flow)함. $\rightarrow$ Combinatorial Creativity 발생.
    • Limitation: 픽셀 $x$의 패치는 반드시 학습 데이터의 **동일한 위치($x$)**에 있던 패치로만 매핑됨. (위치 고정)
  • 3. The Equivariant Local Score (ELS) Machine (Locality + Equivariance) $\rightarrow$ [Main Contribution]
    • Key Concept: LS MachineEquivariance를 추가하여 "위치 제약"을 제거.
    • Mechanism (Patch Mosaic Model):
      • 생성된 이미지의 패치 $\phi_{\Omega_x}$는 학습 데이터의 **어떤 위치($x'$)**에 있던 패치 $\varphi$로도 매핑 가능.
      • Bayesian Guessing Game: 각 픽셀은 자신의 위치($x$)를 모르므로, 패치의 '내용'만으로 원본 패치를 추측하여 가져옴.
    • Result: 학습 데이터의 패치들을 자유롭게 Mixing and Matching하여 기하급수적인(Exponential) Creativity 달성.
  • 4. Handling Boundaries (Partial Equivariance Breaking)
    • Zero-padding은 엄밀한 Translational Equivariance를 깨뜨림.
    • Effect: 픽셀들이 패딩(0값)을 통해 자신의 "상대적 위치(예: Corner, Edge, Interior)"를 인지함.
    • Constraint Refinement: 패치는 아무 곳이나 가는 것이 아니라, Boundary Condition(패딩 형태)이 일치하는 학습 패치로만 이동함 (예: Corner $\to$ Corner).

쉬운 설명 : AI의 창의성은 '위치 감각 상실'에서 온다?

이 섹션은 AI가 구체적으로 어떻게 새로운 이미지를 조립하는지 3단계로 설명합니다.

  1. ES Machine (단순 이동):
  2. AI에게 "위치만 신경 쓰지 마"라고 가르치면, AI는 고양이 사진을 캔버스 중앙에서 오른쪽 구석으로 옮길 수는 있지만, 새로운 고양이를 만들지는 못합니다. (창의성 부족)
  3. LS Machine (제약된 짜깁기):
    • 왼쪽 위는 A 사진의 하늘, 오른쪽 아래는 B 사진의 땅을 가져와 합칠 수 있습니다.
    • 단점: "왼쪽 위" 조각은 무조건 학습 데이터의 "왼쪽 위"에서만 가져와야 합니다. 융통성이 없죠.
  4. AI에게 "좁은 구역만 봐(Locality)"라고 하면, AI는 사진을 조각조각 봅니다.
  5. ELS Machine (진정한 짜깁기 = 창의성):
    • 이제 AI는 학습 데이터의 오른쪽 아래에 있던 '예쁜 꽃' 패치를 가져와서, 새로 그리는 그림의 왼쪽 위에 붙일 수 있습니다.
    • 위치에 구애받지 않고 모든 조각을 자유롭게 섞어서(Mixing and Matching) 완전히 새로운 **모자이크(Mosaic)**를 만들어냅니다. 이것이 논문이 밝힌 창의성의 핵심입니다.
  6. AI에게 "좁은 구역만 보되, 그게 어디 있었는지는 신경 쓰지 마(Equivariance)"라고 하면 마법이 일어납니다.
  7. 현실적인 수정 (테두리 규칙):
  8. 실제로는 이미지 테두리에 '0(검은색)'을 채워 넣기 때문에, AI가 눈치는 챙깁니다. "아, 내가 지금 구석탱이에 있구나." 그래서 구석 조각은 다른 사진의 구석 조각하고만 바꿉니다.

 

 

4. A theory of creativity after convergence

더보기

Ideal score machine에서 Gaussian noise $\phi_T$로부터 final sample $\phi_0$로의 reverse flow가 단일 training set image로 수렴한다는 것은 분명합니다. 그러나 만약 LS, ELS 또는 boundary broken ELS machines training data와 거리가 먼 새로운 samples를 창의적으로 generate한다면, reverse process의 끝에서 무엇으로 수렴할까요? 우리는 reverse process의 끝에서 converged samples $\phi = \phi_0$를 특성화하는 정리를 증명함으로써 이 질문에 답합니다 (App. B.4).

Theorem 4.1. LS, ELS, 및 boundary broken ELS machines에 대해, $\lim_{t\to 0} \phi_t$  $\lim_{t\to 0} \partial_t\phi_t$가 존재한다고 가정할 때, 모든 pixel $x$에 대해, $\phi_{\Omega_x}$가 다른 local training set patch $\varphi' \in P^x_\Omega(D)$보다 L2 distance (in $\mathbb{R}^{|\Omega_x|\times C}$)에서 더 가까운 유일한 patch $\varphi \in P^x_\Omega(D)$에 대하여 $\phi_0(x) = \varphi(0)$이다.

직관적으로, 이러한 machines로부터 generated samples는 다음 3가지 local conditions를 따른다는 의미에서 locally consistent합니다: (1) 모든 pixel $x$ local training set patch $\varphi$에 유일하게 할당될 수 있습니다; (2) pixel value $\phi_0(x)$는 $\varphi$ central pixel $\varphi(0)$와 정확히 같습니다; (3) local generated patch $\phi_{\Omega_x}$의 나머지는 다른 어떤 가능한 training patch보다 local training patch $\varphi$를 더 닮았습니다. 이 결과는 locally constrained machines의 창의적 결과물을 locally consistent patch mosaics를 생성하는 것으로 특성화합니다. 여기서 sample 내 모든 local patch의 모든 pixel training set에서 L2로 가장 가까운 local patch central pixel과 일치합니다.

4.1. The simplest example of patch mosaic creativity

LS  ELS machines에 대한 creativity locally consistent patch mosaic model을 설명하는 가장 간단한 예시로, 오직 두 개의 이미지(완전한 검은색 이미지와 완전한 흰색 이미지)로 구성된 training set을 고려해 봅시다 (Fig.3a). 이 두 이미지에 대해서만 trained된 고도로 표현력이 풍부한 diffusion model은 오직 이 두 이미지만 generate할 것입니다. 그러나 로컬 $3 \times 3$ neighborhoods를 가진 LS 또는 ELS machine locally consistent patch mosaics인 기하급수적으로 많은 새로운 samples generate합니다 (Fig.3b): 모든 pixel은 검은색 아니면 흰색이며, 이는 그것이 완전한 검은색 또는 완전한 흰색 $3 \times 3$ local training set patch 중 하나에 할당되었음을 나타냅니다. 그리고 중앙이 검은색(흰색) pixel generated sample의 어떤 $3 \times 3$ local patch라도 다른 training set patch보다 완전한 검은색(흰색) training set patch에 더 가깝습니다. 따라서 이 특수한 경우에 local consistency는 어떤 $3 \times 3$ locally generated patch의 다수결 색상이 그 central pixel의 색상과 같아야 한다는 단순한 조건으로 축소됩니다. 독자는 Fig.3b의 모든 pixel에서 이 local consistency가 (적절한 원형 래퍼라운드(circular wraparound)와 함께) 성립함을 확인할 수 있습니다.

 

 

4. A theory of creativity after convergence 핵심 요약 (AI 연구자용)

이 섹션은 Reverse process가 수렴한 최종 상태($t=0$)에서 LS/ELS Machine이 생성한 샘플($\phi_0$)이 수학적으로 어떤 특성을 갖는지 Theorem 4.1을 통해 규명합니다.

  • Problem Statement: Convergence State
    • Ideal score machineReverse flow 끝에 단일 Training set image로 수렴함(Memorization).
    • 그렇다면, Training set과 멀리 떨어진 새로운 샘플을 생성하는 LS/ELS machine은 과연 무엇으로 수렴하는가?
  • Theorem 4.1: Characterization of Converged Samples
    • LS, ELS, boundary broken ELS machines에 대해 $t \to 0$ 극한이 존재한다고 가정할 때, 생성된 이미지의 모든 픽셀 $x$는 다음 조건을 만족함:
      • $\phi_0(x) = \varphi(0)$
    • 여기서 $\varphi$는 해당 픽셀의 Local neighborhood $\phi_{\Omega_x}$와 L2 distance가 가장 가까운(Nearest Neighbor) 유일한 Local training set patch임.
  • Interpretation: Locally Consistent Patch Mosaics
    • 생성된 샘플은 Locally Consistent한 상태로 정의됨. 즉, 다음 3가지 조건이 충족됨:
      1. 모든 픽셀 $x$는 특정 Training set patch $\varphi$에 유일하게 매핑됨.
      2. 생성된 픽셀 값은 그 매핑된 패치의 Central pixel과 정확히 일치함.
      3. 생성된 패치 주변부는 다른 어떤 패치보다 해당 Training patch와 가장 유사함.
    • 결론적으로, Diffusion의 창의적 결과물은 L2 distance 기반으로 가장 유사한 Training patch들의 중심 픽셀들을 이어 붙인 Patch Mosaic임.
  • Toy Example: Exponential Creativity (Black & White Images)
    • Setup: Training set이 {All Black image, All White image} 단 두 장뿐인 경우.
    • Standard Model: 두 이미지 중 하나만 생성 가능.
    • LS/ELS Machine ($3 \times 3$ locality):
      • 기하급수적으로 많은 새로운 패턴(예: 체크무늬, 노이즈 패턴 등)을 생성.
      • Condition: 생성된 모든 $3 \times 3$ 패치 내에서 다수결 색상(Majority color)이 중심 픽셀 색상과 일치하기만 하면 됨.
      • 이 국소적 규칙(Local consistency)만 만족하면 전체적으로는 학습 데이터에 없는 완전히 새로운 이미지가 됨.

쉬운 설명 : AI가 그림을 완성하는 순간

이 섹션은 AI가 그림 그리기를 멈추는 순간(수렴), 그 그림이 수학적으로 어떤 상태인지를 설명합니다.

  1. AI의 마침표 (수렴):
  2. 보통의 완벽한 AI라면, 그리기를 마쳤을 때 훈련받은 사진(예: 모나리자) 중 하나와 똑같아야 합니다. 하지만 창의적인 AI(LS/ELS)는 훈련받지 않은 새로운 그림을 내놓고 멈춥니다. 도대체 이 그림의 정체는 무엇일까요?
  3. 모자이크 이론 (Theorem 4.1):
    • 완성된 그림의 모든 픽셀 하나하나가 이렇게 외칩니다.
    • "내 주변($3 \times 3$ 패치)을 둘러봐. 이 모양은 학습 데이터 앨범의 134번째 페이지에 있는 그 부분이랑 제일 똑같지? 그러니까 나는 그 부분의 가운데 점을 그대로 가져온 거야."
    • 즉, 전체 그림은 처음 보는 것이지만, 돋보기로 들여다본 모든 부분은 학습 데이터의 어딘가에서 오려온 것과 가장 닮아있는 상태입니다.
  4. 연구진이 수학적으로 증명해보니, AI가 완성한 그림은 '완벽한 짜깁기(Mosaic)' 상태였습니다.
  5. 검은색/흰색 예시:
    • 융통성이 없다면 검은색 아니면 흰색 종이만 내놓겠죠.
    • 하지만 이 논문의 AI(LS/ELS)는 **"주변이랑 비슷하기만 하면 돼"**라는 규칙을 이용해, 얼룩말 무늬나 체크무늬를 만들어냅니다.
    • 체크무늬의 어떤 점을 찍어도, 그 주변은 "검은색 종이의 일부"나 "흰색 종이의 일부"와 닮았다고 우길 수 있기 때문입니다. 이것이 바로 **기하급수적인 창의성(Exponential Creativity)**의 비밀입니다.
  6. 세상에 '완전 검은 종이'와 '완전 흰 종이'만 있다고 배운 AI가 있습니다.

 

 

5. Tests of the theory on trained models

더보기

우리는 다음으로 우리의 이론을 4개의 datasets, MNIST, FashionMNIST, CIFAR10, CelebA에서 trained된 두 가지 CNN-based architectures인 표준 UNet ResNet에서 테스트합니다 (architectures  training에 대한 자세한 내용은 App. C.1 참조). 우리는 이러한 간단한 datasets에만 주의를 기울이는데, 왜냐하면 우리의 이론은 CNN-based diffusion models만을 위한 것이며, 더 복잡한 datasets를 모델링하려면 attention latent spaces가 있는 더 복잡한 diffusion models가 필요하기 때문입니다.

5.1. Coarse-to-fine time dependent spatial locality scales

ELS  LS machines에 대한 우리의 이론을 실험과 비교하기 위해, 우리는 먼저 $P \times P$ local patch의 크기에 대한 locality scale을 선택해야 합니다. 우리는 trained UNet ResNet에서 이를 측정하고, 중요하게도 reverse flow에서 시간이 초기(큰 $t$)에서 후기(작은 $t$)로 흐름에 따라 이것이 큰 scales에서 작은 scales로 변한다는 것을 발견했습니다 (Fig. 4a). 따라서 우리는 ELS  LS machines $P \times P$ locality window의 공간적 크기를 UNet ResNet에 보정하는 dynamic variable로 승격시킵니다 (Fig. 4bc). App. C.2를 참조하세요.

5.2. Theory predicts trained outputs case-by-case

우리는 먼저 이론과 ResNet 또는 UNet 모두에 동일한 초기 noise samples $\phi_T$에 대해 scale-calibrated boundary broken-ELS machine outputs ResNet UNet outputs와 사례별(case-by-case basis)로 비교하고, 훌륭한 일치를 발견했습니다 (Fig. 5ab). 실제로 우리는 CNN outputs ELS machine outputs 사이의 놀랍고 균일한 정량적 일치를 발견했습니다. ResNets의 경우, 이론과 실험 간의 $r^2$ 중앙값이 MNIST에서 0.94, FashionMNIST에서 0.90, CIFAR10에서 0.90, CelebA32x32에서 0.96임을 발견했습니다. UNets의 경우, $r^2$ 중앙값이 MNIST에서 0.89, FashionMNIST에서 0.93, CIFAR10에서 0.90임을 발견했습니다 ($r^2$ 값의 전체 분포는 Fig. 10 참조). 다른 datasets와 달리 CelebA32x32에서는 UNet 행동이 ELS machine보다는 local score machine에 의해 더 정확하게 설명되며, 후자는 $r^2 \sim 0.90$의 중앙값을 달성한다는 것을 발견했습니다; 우리는 이 관찰을 섹션 5.4에서 더 자세히 설명합니다. 우리가 아는 한, 분석적 이론이 trained deep neural network-based generative model의 창의적인 outputs를 이 정도 수준의 정확도로 설명한 것은 이번이 처음입니다. 중요하게도, (E)LS machine IS machine보다 모든 trained outputs를 훨씬 더 잘 설명합니다 (Fig. 10 및 Table 2). 2개의 nets와 3개의 datasets에 대한 더 많은 성공적인 사례별 이론-실험 비교는 App. D, Fig. 13에서 Fig. 22를 참조하세요.

우리는 또한 MNIST CIFAR10에서 원형 패딩된(circularly padded) ResNets trained시켰고, non-boundary broken ELS machine과 실험 사이의 좋은 일치를 발견했습니다 (Figs. 11, 21 및 22). 흥미롭게도, MNIST에 대한 이론과 실험 모두에서, 원형 패딩은 더 texture-like outputs를 생성하고 덜 국소화된 숫자 같은 outputs를 생성하는데, 이는 적어도 MNIST에 대해서는 diffusion models를 고정하는 데 있어 경계의 근본적인 중요성을 나타냅니다 (Fig. 21과 Fig. 13 비교).

5.3. Spatial inconsistencies from excess late-time locality

Diffusion models는 미세한 공간 scales에서 공간적으로 일관되지 않은 이미지, 예를 들어 손가락이나 팔다리의 개수가 틀린 이미지를 generate하는 것으로 악명이 높습니다. 실제로 이러한 불일치는 AI-generated images의 확실한 신호로 간주됩니다. FashionMNIST에서 trained된 우리의 models 또한 그러한 불일치를 generate합니다. 예를 들어 다리가 너무 많거나 적은 바지, 발가락 영역이 하나 이상인 신발, 팔 개수가 잘못된 셔츠 등입니다. 놀랍게도, 우리의 이론은 사례별로 trained model outputs와 일치하기 때문에 이러한 불일치 또한 재현합니다 (Fig. 5c). 우리의 이론은 완벽하게 mechanistically interpretable하기 때문에, reverse flow의 후기 단계에서의 과도한 locality 관점에서 이러한 불일치의 기원에 대한 명확한 설명을 제공합니다. 모든 models에 대한 후기 시간($t < 0.3$) locality는 약 5 픽셀 미만입니다 (Fig. 4b). 그렇게 작은 locality scale로는, 몇 픽셀 이상 떨어진 이미지의 다른 부분들이 이미지 내 팔다리의 전체 개수를 알지 못한 채 팔이 될지 바지 다리가 될지 결정해야 합니다; 이 과정은 빈번하게 전체 팔다리 개수의 오류를 초래합니다.

5.4. UNets can fully break equivariance

우리는 세 가지 datasets, MNIST, FashionMNIST, CIFAR10에 대해, zero-padded CNNs(ResNets UNets 모두)의 outputs를 설명하는 가장 잘 일치하는 이론은 boundary-broken ELS machine이라는 점에 주목합니다 (Table 2 및 Fig. 5 참조). 그러나 흥미롭게도 CelebA의 경우, equivariance를 완전히 깨뜨리는 LS machine boundary broken ELS와 비교했을 때 ResNet이 아닌 UNet outputs를 더 잘 설명합니다 (Table 2). 실제로 UNet ResNet보다 더 구조화된 얼굴을 생성합니다 (Fig. 7의 2행과 4행 비교). ResNet의 덜 구조화된 얼굴은 boundary-broken ELS machine에 의해 더 잘 설명되는 반면 (Fig. 7의 1행과 2행 비교), UNet의 더 구조화된 얼굴은 완전히 깨진 equivariance를 가진 LS machine에 의해 더 잘 설명됩니다 (Fig. 7의 3행과 4행 비교).

원칙적으로 ResNet은 불가능한 반면 UNet equivariance를 완전히 깨뜨릴 수 있는 이유에 대한 설명은, 이미지가 32x32인 반면 ResNet의 최대 가능 receptive field (RF) 크기는 17x17이기 때문입니다. 따라서 어떤 순간 $t$에서도, 이미지 중심 근처 픽셀에서의 ResNet score 계산은 이 RF 외부의 이미지 데이터에 의존할 수 없습니다. 그러나 UNet의 최대 가능 RF 크기는 전체 이미지를 커버합니다. 따라서 UNet은 원칙적으로 전체 이미지에 걸친 정보(경계 포함)를 사용하여 해당 픽셀에서 score를 계산할 때 각 픽셀의 절대 위치를 추론할 수 있습니다. 실제로 CelebA에 대해 이를 수행하는데, 아마도 CelebA의 경우 이미지 이웃(neighborhoods)과 픽셀 위치 사이에 강한 상관관계가 있기 때문일 것입니다 (예: 눈, 귀, 입, 코는 모두 데이터셋 전반에 걸쳐 비슷한 위치에 나타납니다). 그러나 다른 datasets의 경우, UNet은 매 순간 score를 계산할 때 경계에서 멀리 떨어진 절대 픽셀 위치를 추론하지 않는 것으로 보이며, 따라서 완전히 깨진 equivariance를 가진 LS machine보다는 boundary-broken ELS machine에 의해 더 잘 설명됩니다.

 

더보기

Figure 4 이미지 설명

이 이미지는 Diffusion ModelReverse Flow(이미지 생성 과정)에서 Spatial Locality(참조하는 영역의 크기)가 시간에 따라 어떻게 변하는지를 실증적으로 분석하고 시각화한 것입니다. 핵심은 "Coarse-to-Fine (거시적에서 미세적으로)" 진행입니다.

1. (a) Heatmaps of Receptive Field (수용 영역 히트맵)

  • 분석 대상: UNet (위쪽 행)과 ResNet (아래쪽 행)의 Jacobian 절대값 평균 히트맵입니다.
  • 의미: 중앙 픽셀($x=0$)을 생성하기 위해 모델이 주변의 어떤 영역을 참조하는지를 보여줍니다.
  • 변화:
    • $T=1.00$ (생성 초기): 밝은 영역이 넓고 흐릿합니다. 즉, 생성 초기에는 넓은 영역(Large Receptive Field)을 참조하여 전체적인 구조를 잡습니다.
    • $T=0.05$ (생성 후기): 밝은 영역이 중앙 점으로 매우 작게 집중됩니다. 즉, 생성이 끝날 즈음에는 아주 좁은 영역(Small Receptive Field)만 참조하여 디테일을 다듬습니다.

2. (b) Calibrated Locality Scale $P$ (보정된 국소성 크기)

  • 그래프: (E)LS machine이 실제 신경망(UNet, ResNet)의 동작을 예측하기 위해 설정해야 할 최적의 Locality Scale $P$ 값을 시간($t$)에 따라 나타낸 것입니다.
  • 결과: $X$축(Forward Process Time)이 0에서 1로 갈수록(즉, 생성 과정인 Reverse Process에서는 1에서 0으로 갈수록), Receptive Field의 크기가 줄어드는 경향을 정량적으로 보여줍니다.

3. (c) Schematic View (도식화)

  • 개념도: 위에서 분석한 내용을 바탕으로 LS/ELS Machine이 작동하는 방식을 시각화했습니다.
  • 작동 원리: 위에서 아래로(시간이 흐름에 따라) 내려갈수록, 파란색으로 표시된 Locality Neighborhood(참조 창)의 크기가 점점 작아지는 것을 볼 수 있습니다. 이는 모델이 처음에는 큰 패치를 보며 생성하다가, 나중에는 작은 패치를 보며 생성한다는 것을 의미합니다.

쉬운 설명 : AI의 붓 크기는 변한다

이 그림은 AI가 그림을 그릴 때 '시야(또는 붓)'의 크기를 조절한다는 사실을 증명합니다.

  1. 처음 (밑그림 단계):
  2. AI는 **왕붓(큰 시야)**을 듭니다. 캔버스를 넓게 보고 "대충 여기는 하늘, 여기는 사람"하고 큰 구조를 잡습니다. 이때는 주변을 넓게 참조합니다. ($T=1.00$)
  3. 마지막 (마무리 단계):
  4. AI는 **세필붓(작은 시야)**으로 바꿉니다. 이제 전체 그림은 신경 쓰지 않고, "눈동자의 반짝임"이나 "옷깃의 주름" 같은 아주 작은 부분만 집중해서 수정합니다. ($T=0.05$)
  5. 결론:
  6. 이 논문의 이론(ELS Machine)이 정확한 이유 중 하나는, 단순히 고정된 틀을 쓰는 게 아니라 AI의 이런 **'붓 크기 변화(Dynamic Locality)'**까지 계산에 넣었기 때문입니다.

 

5. Tests of the theory on trained models 핵심 요약 (AI 연구자용)

이 섹션은 제안된 Analytic Theory(특히 ELS Machine)가 실제 Trained CNN-based Diffusion Models(UNet, ResNet)의 동작을 얼마나 정밀하게 예측하고 설명하는지 검증합니다.

  • 1. Dynamic Locality Scale ($P \times P$)
    • Observation: Trained ModelLocality는 고정되어 있지 않음.
    • Coarse-to-fine: Reverse process가 진행됨에 따라(시간 $t$가 큼 $\to$ 작음), 참조하는 영역 크기($P$)가 큰 Scale에서 작은 Scale로 축소됨.
    • Calibration: 이론 적용 시, 이 $P$ 값을 시간에 따라 변하는 Dynamic variable로 설정하여 모델에 보정(Calibrate)함.
  • 2. Case-by-Case Prediction Power ($r^2 \approx 0.95$)
    • Result: 동일한 초기 Noise $\phi_T$를 주었을 때, 이론적 모델(Boundary-Broken ELS)이 생성한 결과와 실제 Trained Network가 생성한 결과가 픽셀 단위로 거의 일치함.
    • Quantitative metrics:
      • ResNet: CelebA에서 Median $r^2 \sim 0.96$. (다른 데이터셋도 0.90 이상)
      • UNet: FashionMNIST에서 Median $r^2 \sim 0.93$.
    • Significance: 딥러닝 생성 모델의 결과물을 Black box가 아닌, 해석 가능한 수식으로 개별 사례까지 정확히 예측한 최초의 사례.
  • 3. Explanation of Spatial Inconsistencies (The "Extra Fingers" Problem)
    • Phenomenon: Diffusion Model이 손가락 개수나 팔다리 개수를 틀리는 고질적인 문제 발생.
    • Mechanism: 이론적으로 이는 **Late-time ($t < 0.3$)**에서의 Excessive Locality 때문임.
    • Reasoning: 생성 후반부에 Locality scale이 5 픽셀 미만으로 줄어듦. 서로 멀리 떨어진 픽셀들이 전체적인 개수(Global context)를 모른 채 각자 독립적으로 "여기에 다리를 만들자"라고 결정하기 때문에 팔다리가 3개가 되는 등의 불일치가 발생.
  • 4. Architecture Comparison: ResNet vs. UNet (Equivariance Breaking)
    • General Case: 대부분의 데이터셋에서 Boundary-Broken ELS가 두 모델 모두를 잘 설명함.
    • Exception (CelebA): UNetELS보다 LS Machine(완전한 위치 인식)에 더 가까운 동작을 보임.
    • Why? (Receptive Field):
      • ResNet: Max RF($17 \times 17$) < Image($32 \times 32$). 이미지 전체를 한 번에 볼 수 없으므로 위치를 완전히 특정하지 못함.
      • UNet: RF가 이미지 전체를 커버함. 따라서 경계(Boundary) 정보를 통해 각 픽셀의 절대 좌표(Absolute location)를 추론하여 Fully Break Equivariance가 가능함. (얼굴처럼 구조화된 데이터에서 두드러짐)
  • 5. Role of Boundaries
    • Circular Padding Experiment: MNIST에서 Circular padding을 적용하면 숫자의 형태가 무너지고 텍스처(Texture) 같은 이미지가 생성됨.
    • Insight: 이미지의 Boundary(테두리)가 Diffusion process에서 이미지 생성의 위치를 잡아주는(Anchoring) 핵심적인 역할을 수행함을 증명.

쉬운 설명 : 이론이 현실을 증명하다

이 섹션은 연구진이 만든 '수학 공식'이 실제로 AI가 그린 그림과 얼마나 똑같은지 테스트한 성적표입니다.

  1. AI의 붓질 스타일 (Coarse-to-fine):
  2. AI는 처음엔 큰 붓으로 전체적인 윤곽을 잡고(Coarse), 시간이 지날수록 점점 얇은 붓으로 디테일(Fine)을 그립니다. 연구진은 이 '붓 크기 변화'까지 공식에 적용했습니다.
  3. 소름 돋는 예측 능력:
  4. "이 노이즈를 주면 AI가 어떤 그림을 그릴까?"라고 물었을 때, 연구진의 공식은 AI가 그릴 그림을 95% 이상의 정확도로 미리 맞췄습니다. AI가 그리는 그림은 더 이상 알 수 없는 마법이 아니라, 예측 가능한 수학의 결과물임이 증명된 것입니다.
  5. 손가락이 6개인 이유:
    • 왼쪽을 그리는 AI: "어? 여기 다리가 필요하네." (쓱싹)
    • 오른쪽을 그리는 AI: "어? 여기도 다리가 필요하네." (쓱싹)
    • 서로 소통을 못 해서 결국 다리가 많아집니다.
  6. AI가 종종 손가락을 6개 그리거나 다리를 3개 그리는 이유도 밝혀졌습니다. 그림을 완성해가는 마지막 단계에서 AI의 시야(Locality)가 너무 좁아지기 때문입니다.
  7. 똑똑한 UNet vs 근시안적 ResNet:
    • ResNet: 시야가 좁아서 자기가 캔버스의 어디를 칠하는지 정확히 모릅니다. 그래서 대충 주변 분위기에 맞춰 그립니다(ELS).
    • UNet: 시야가 넓어서 캔버스 끝(테두리)을 보고 자기 위치를 정확히 압니다. "나는 지금 왼쪽 눈을 그리고 있어"라고 인지하며 그립니다(LS). 그래서 사람 얼굴처럼 정교한 위치가 중요한 그림을 더 잘 그립니다.

 

 

6. The relation between theory and attention & 7. Discussion 핵심 요약 (AI 연구자용)

이 섹션은 **Local Theory(ELS Machine)**가 Non-local Self-Attention (SA) 레이어가 포함된 모델(UNet+SA)에서도 유효한지 검증하고, 본 연구의 의의를 종합합니다.

6. The relation between theory and attention

  • The Challenge: Non-locality of Self-Attention
    • 기존 이론은 Locality를 전제로 하지만, 최신 모델(예: DDPM의 UNet)은 Global context를 보는 **Self-Attention(SA)**을 포함함.
    • 과연 Local theoryNon-local model의 결과도 예측할 수 있는가?
  • Quantitative Findings ($r^2 \sim 0.77$)
    • Experiment: CIFAR10에서 사전 학습된 UNet+SA 모델과 비교.
    • Result: 수정 없는 ELS Machine만으로도 Median $r^2 \approx 0.77$ 달성.
    • 순수 CNN($\sim 0.90$)보다는 낮지만, Baseline IS Machine($\sim 0.48$)보다는 훨씬 높은 예측력을 보임. 이는 Local Patch Mosaic가 여전히 생성의 핵심 기반임을 시사함.
  • Qualitative Insight: "Carving Out" Mechanism
    • UNet+SA의 출력은 ELS MachinePatch Mosaic 패턴을 기반으로 하되, **Semantic Coherence(의미적 일관성)**를 부여하는 형태로 나타남.
    • Role of Attention: Attention은 ELS가 만든 거친 Mosaic에서 전경(Foreground) 객체를 **"Carving out(조각해냄/잘라냄)"**하고 배경을 부드럽게(Smoothing) 만드는 역할을 수행함.
    • 즉, Creativity의 원천 재료는 Local Mosaic가 제공하고, Attention은 이를 다듬어 Objectness를 강화함.

7. Discussion

  • Mechanistic Interpretability from First Principles
    • 기존의 기계적 해석학(Mechanistic Interpretability)이 학습된 가중치나 뉴런을 분석하는 미시적 접근이었다면, 본 연구는 First Principles(제1원리) 접근법을 취함.
    • 복잡한 네트워크 분석 없이, 단 두 가지 Inductive Biases (Locality, Equivariance)만으로 Optimal Score를 유도하여 학습된 모델의 행동을 예측함.
  • Conclusion: Sufficiency of Biases
    • 높은 실험적 일치도($r^2 > 0.9$)는 CNN-based Diffusion ModelCreativity를 설명하는 데 있어 LocalityEquivariance 두 가지 제약 조건만으로도 **충분함(Sufficient)**을 입증함.
    • 이 연구는 향후 더 복잡한 데이터셋과 강력한 Attention-based Model의 창의성을 이해하기 위한 수학적 토대를 마련함.

쉬운 설명 : 어텐션(Attention)은 '다듬기 장인'

이 섹션은 "시야가 좁은 줄 알았던 AI에게 '전체를 보는 눈(Attention)'을 달아주면 어떻게 될까?"에 대한 실험 결과와 논문의 결론입니다.

1. 어텐션(Attention)의 역할: "거친 모자이크를 조각하다"

  • 우리가 만든 공식(ELS)은 AI가 조각들을 덕지덕지 붙여서 만든 '모자이크(Mosaic)' 상태를 예측합니다.
  • 여기에 Self-Attention(자아 주의) 기능을 추가하면, AI는 이 모자이크를 다듬기 시작합니다.
  • 발견: 어텐션 기능은 ELS가 만든 거친 모자이크 그림을 보고, "아, 이건 강아지 모양이네?"라고 인식한 뒤, 강아지 부분은 뚜렷하게 남기고 지저분한 배경은 부드럽게 문질러서 없애버립니다.
  • 즉, **창의적인 아이디어(모자이크)**는 **국소적 규칙(Locality)**에서 나오고, 그럴듯한 완성도는 **어텐션(Attention)**이 담당합니다.

2. 논문의 결론: "AI의 창의성은 '편견'에서 나온다"

  • 이 연구의 가장 큰 성과는 복잡한 AI의 뇌(뉴런)를 하나하나 뜯어보지 않고도, AI가 뭘 그릴지 맞췄다는 것입니다.
  • 비결은 딱 두 가지, **"AI는 시야가 좁다(Locality)"**와 **"AI는 위치 감각이 없다(Equivariance)"**라는 **단점(Bias)**을 이용한 것입니다.
  • 역설적으로, 이 두 가지 단점이 AI가 단순히 사진을 베끼지 않고 새로운 그림을 창조하게 만드는 핵심 원동력이었습니다.

 

 

 

더보기

국소적인 cnn 대신 patch 기반의 transformer 인코더를 쓰면?
DiT 기반의 모델은 훈련 데이터를 통째로 암기해야하지만 
DiT 기반의 모델도 창의적인 이미지를 곧 잘 생성함.

즉 로컬리티의 제약이 없는 모델도 창의적이라는 사실을 설명하지 않았음
로컬리티가 충분 조건일수는 있어도 필요 조건은 아닐 가능성이 높음. 

Attention 헤드 개수를 늘리거나 레이어를 깊게 쌓아서 'Global 정보'를 완벽하게 보게 했을 때 암기율이 올라가는지 실험했어야 함.
단순히 attention도 커널 스무딩의 일종이다로 퉁치고 넘어가면 너무 부실함.

Equivariance때문에 데이터가 뻥튀기 된다고는 그건 모든 위치 이동이 자연스럽다는 가정이 필요함. 가령 하늘은 하늘에만 있을 수 있음. 즉 논문의 주장과는 다르게 무한대로 늘어날 수 없음.

이 논문은 패치 단위의 짜깁기만 설명하고 있음.
모델이 어떻게 "빛의 방향을 이해하고 그림자를 그리는지", 어떻게 "3차원 공간감을 이해하는지" 같은 Semantic Level의 창의성은 'Locality'와 'Equivariance'로는 절대 설명할 수 없음.

이 논문은 AI가 '질감(Texture)'을 어떻게 섞는지(Patch Mixing)는 기가 막히게 증명했지만, AI가 어떻게 '구조(Structure)'와 '의미(Semantics)'를 이해하고 그려내는지는 Locality라는 핑계 뒤에 숨어버림.

이론(ELS)대로라면 "괴물"이 나와야 정상
이론의 예측: 눈, 코, 입 패치를 아무 데서나 가져와서 섞음. 눈이 턱에 있고, 입이 이마에 있는 '피카소 그림' 같은 괴물이 나와야 함. 현실의 AI: 눈은 위에, 입은 아래에 있는 멀쩡한 얼굴이 나옴.


논문은 모델이 "이미지 테두리(Zero-padding)"를 보고 자신의 위치를 파악(Anchoring)한다고 주장
그렇다면 고해상도 이미지(예: 4K)의 정중앙은 어떻게 설명? 테두리에서 수천 픽셀 떨어진 중앙 부분은 테두리 정보(Padding)가 전혀 도달하지 않습니다(Locality 때문에). 논문의 이론대로라면 테두리에서 먼 중앙 부분은 위치 정보를 잃고 무너져야 정상

 

 

Locality(국소성)는 '고정된 제약'이 아니라 '학습된 결과일수 있음.

논문은 CNN이 구조적으로 좁은 영역만 본다고 가정했습니다. 하지만 실제 실험(Fig 4)을 보면, 초기 단계(t=1.0)에서 모델은 이미지를 넓게 봄. 그러다 생성 막바지(t=0)에 갈수록 시야가 좁아지는데 이는 만약 Locality가 모델의 고유한 특성(Inductive Bias)이라면, 처음부터 끝까지 똑같이 좁게 봐야 함. 하지만 시야가 줄어든다는 건, 모델이 학습 과정(Optimization)에서 "마지막엔 좁게 보는 게 유리하다"고 스스로 판단했기 때문

 

저자들은 'CNN 구조 때문에' AI가 패치를 짜깁기한다고 주장하지만, 사실은 데이터의 특성과 학습 과정의 최적화(Optimization)가 만들어낸 결과 현상을 모델 탓으로 돌리고 있다. 즉, 원인 분석이 잘못되었을 가능성 높음.

 

 

 

 

별점 2점 / 5점
화려한 수식으로 포장된 '짜깁기(Copy-Paste)' 이론, AI의 진정한 지능(의미 이해)은 설명하지 못했다.