AI바라기의 인공지능
Diffusion : 논문 리뷰 : GENERALIZATION IN DIFFUSION MODELS ARISES FROM GEOMETRY-ADAPTIVE HARMONIC REPRESENTATIONS 본문
Diffusion : 논문 리뷰 : GENERALIZATION IN DIFFUSION MODELS ARISES FROM GEOMETRY-ADAPTIVE HARMONIC REPRESENTATIONS
AI바라기 2026. 1. 15. 17:42용어 설명 (Terminology)
- Inductive Bias (귀납적 편향): 모델이 학습하지 않은 데이터에 대해 예측할 때 사용하는 일종의 가정이나 선호도입니다. 이 논문에서는 Neural Network가 무한히 많은 해 중에서 특정 형태(GAHB)의 함수를 선호하도록 설계되어 있다는 의미로 사용됩니다.
- Geometry-Adaptive Harmonic Basis (GAHB): 이 논문에서 핵심적으로 제안하는 용어입니다. 이미지의 기하학적 구조(윤곽선, 질감 등)에 맞춰 형태가 변형되는 진동 함수(Harmonic function)들로 구성된 기저(Basis)를 뜻합니다.
- Score Function: 데이터 분포의 로그 밀도 함수에 대한 기울기(Gradient of log density)입니다. Diffusion model은 노이즈를 제거(denoising)하는 과정을 통해 이 Score를 학습합니다.
- Shrinkage Operation: 노이즈가 섞인 데이터에서 신호와 노이즈를 분리하기 위해, 특정 기저(Basis) 상에서 계수(coefficient)의 크기를 줄이는 연산입니다.
- Jacobian Eigendecomposition: 입력에 대한 출력의 변화율(Jacobian)을 고유값 분해하여, 모델이 어떤 방향의 변화에 민감하고 둔감한지 분석하는 기법입니다.
- $C^{\alpha}$ Class Images: 수학적으로 정의된 이미지 클래스로, $\alpha$ 만큼의 규칙성(regularity)을 가진 곡선(edge)과 부드러운 영역으로 구성된 이미지를 말합니다.
Purpose of the Paper
- 기존 연구의 한계와 의문점: 최근 Diffusion model들이 놀라운 고화질 이미지를 생성해내지만, 이것이 단순히 방대한 Training set을 암기(Memorization) 해서 짜집기하는 것인지, 아니면 정말로 고차원 데이터의 연속적인 밀도(Continuous density)를 학습한 것인지 불분명했습니다. 특히 "차원의 저주(Curse of dimensionality)"를 어떻게 극복했는지에 대한 설명이 부족했습니다.
- 새로운 접근 방식: 이 논문은 Diffusion model(Denoiser)이 충분한 데이터로 학습될 때 암기에서 벗어나 강력한 일반화(Generalization) 단계로 전이됨을 실증적으로 보여줍니다. 더 나아가, 이러한 일반화가 가능한 이유를 Inductive Bias 관점에서 분석하여, 모델이 데이터를 "Geometry-Adaptive Harmonic Basis (GAHB)" 라는 특정 기저 위에서 처리하기 때문임을 규명하고자 했습니다.
Key Contributions
- Memorization에서 Generalization으로의 전이 증명:
- Training set의 크기($N$)가 커짐에 따라 모델이 단순히 데이터를 외우는 단계에서 벗어나, 데이터셋에 독립적인 고유한 함수로 수렴함을 보였습니다.
- 핵심 발견: 서로 겹치지 않는(non-overlapping) 데이터셋으로 훈련된 두 개의 별도 모델이, $N$이 임계점을 넘으면 거의 완벽하게 동일한 Score Function(벡터 필드)을 학습한다는 것을 증명했습니다. (Model Variance $\rightarrow$ 0)
- Denoising 메커니즘의 해석 (Inductive Bias 규명):
- 학습된 Deep Neural Network(DNN) Denoiser의 Jacobian을 분석한 결과, 이들이 지역적 기하학적 구조(Contour 등)에 적응하는 진동 함수(GAHB) 를 기저로 사용하여 Shrinkage(노이즈 축소) 를 수행함을 밝혀냈습니다.
- 이 GAHB는 기존의 Wavelet이나 Fourier와 달리 이미지 내용에 따라 모양이 유동적으로 변하는 특징이 있습니다.
- GAHB 편향의 보편성 확인:
- Natural images(사진)뿐만 아니라, Manifold 데이터나 Synthetic 데이터에서도 모델이 강제로 GAHB 형태의 기저를 형성하려는 경향(Inductive bias)이 있음을 발견했습니다.
Experimental Highlights
- Face Dataset (CelebA) 실험:
- 설정: $N=1$부터 $10^5$까지 데이터 양을 늘려가며 학습. 두 개의 서로 다른 데이터셋($S_1, S_2$) 사용.
- 결과: $N=10^5$일 때, 두 모델이 생성한 이미지는 서로 99% 이상 유사하며, Training set에 있는 가장 가까운 이미지와는 다릅니다. 이는 모델이 데이터를 '기억'해서 뱉는 것이 아니라 '분포'를 배웠음을 의미합니다.
- Denoiser Jacobian 분석:
- 학습된 Denoiser의 고유벡터(Eigenvector)를 시각화한 결과, 얼굴 윤곽선(Contours)을 따라 흐르거나 평평한 영역에서 진동하는 Harmonic 패턴이 관찰되었습니다. 이는 GAHB의 존재를 시각적으로 입증합니다.
- $C^{\alpha}$ Images (Bandlet 기저와의 비교):
- 설정: 수학적으로 최적 기저가 'Bandlet'임이 알려진 $C^{\alpha}$ 합성 이미지를 대상으로 실험.
- 결과: DNN Denoiser의 성능(PSNR slope)이 이론적 한계치인 $\alpha/(\alpha+1)$에 거의 근접했습니다. 즉, DNN이 스스로 Bandlet과 유사한 GAHB를 학습하여 최적에 가까운 성능을 낸다는 것을 증명했습니다.
- Low-dimensional Manifold (Disks) 실험:
- 결과: 단순한 디스크 이미지(Manifold)의 경우, 최적의 방법은 Tangent space로의 투영(Projection)입니다. 하지만 DNN은 여기서도 GAHB 특성을 유지하려다가 불필요한 진동 성분을 남겨, 오히려 Suboptimal(최적보다 낮은) 성능을 보였습니다. 이는 모델이 GAHB라는 강력한 Inductive Bias를 가지고 있다는 반증입니다.
Limitations and Future Work
- GAHB의 수학적 정의 부재:
- 한계: 논문에서는 GAHB를 경험적으로 관찰하고 정의했지만, Neural Network의 구조(Convolution + ReLU)로부터 GAHB가 생성되는 정확한 수학적 메커니즘이나 함수 클래스를 엄밀하게 정의하지는 못했습니다.
- Future Work: ReLU와 Convolution의 상호작용이 어떻게 이러한 기하학적 적응성을 만들어내는지에 대한 이론적 규명이 필요합니다.
- Manifold 데이터에서의 한계:
- 한계: GAHB Inductive Bias는 자연 이미지에는 적합하지만, 단순한 저차원 Manifold 데이터에 대해서는 오히려 성능 저하를 일으킬 수 있음이 확인되었습니다.
- Future Work: 데이터의 특성에 따라 Inductive Bias가 긍정적 혹은 부정적으로 작용하는 조건을 더 명확히 하고, 이를 제어할 수 있는 아키텍처 연구가 필요합니다.
Overall Summary
이 논문은 Diffusion Model이 대규모 데이터 학습 시 단순 암기를 넘어 강력한 일반화(Generalization) 를 달성하며, 서로 다른 데이터로 학습해도 동일한 밀도 함수로 수렴한다는 것을 입증했습니다. 이러한 일반화 능력은 모델이 이미지의 기하학적 구조에 맞춰 변형되는 진동 함수인 Geometry-Adaptive Harmonic Basis (GAHB) 를 사용하여 노이즈를 제거하도록 설계된 Inductive Bias에서 기인함을 밝혔습니다. 결론적으로 DNN Denoiser는 자연 이미지와 같이 구조적 규칙성이 있는 데이터($C^{\alpha}$ class)에 대해서는 최적에 가까운 성능을 보이지만, 이 강력한 편향으로 인해 단순 Manifold 데이터에서는 오히려 비효율적일 수 있다는 양면성을 보여줍니다.
쉬운 설명 (Easy Explanation)
- Diffusion Model의 학습: AI가 그림 그리는 법을 배우는 것을 상상해 보세요. 데이터가 적을 때는(Training set이 작을 때) AI는 마치 미술관의 그림을 그대로 '베껴 그리기(Tracing)' 만 합니다. (Memorization)
- 깨달음의 순간: 하지만 수십만 장의 그림을 보고 나면(Training set이 클 때), AI는 특정 그림을 외우는 것을 그만두고 '그리는 기법' 자체를 터득합니다. (Generalization)
- 그리는 기법의 정체 (GAHB): 이 논문은 AI가 터득한 '기법'이 무엇인지 분석했습니다. 그 결과, AI는 "물체의 윤곽선(Geometry)을 따라 붓질을 부드럽게 진동(Harmonic)시키는 방법" 을 사용한다는 것을 알아냈습니다.
- 예를 들어, 얼굴을 그릴 때 캔버스 전체에 똑같은 격자를 그리는 게 아니라, 턱선이나 눈매의 곡선을 따라서 유연하게 휘어지는 파동 무늬를 기본 틀로 잡고 그림을 그립니다.
- 결론: 이 '곡선을 따라 휘어지는 파동(GAHB)' 기법이 사진 같은 자연스러운 이미지를 그리는 데는 최고의 도구(Near-optimal) 이지만, 동그라미 같이 너무 단순한 도형을 그릴 때는 오히려 불필요하게 복잡한 터치가 들어가서 손해를 볼 수도 있다는 것입니다.
ABSTRACT
Image denoising을 위해 trained된 Deep neural networks (DNNs)는 score-based reverse diffusion algorithms를 사용하여 high-quality samples를 generate할 수 있습니다. 이러한 인상적인 capabilities는 curse of dimensionality로부터의 탈출을 암시하는 것처럼 보이지만, training set의 memorization에 대한 recent reports는 이 networks가 data의 "true" continuous density를 learning하고 있는지에 대한 의문을 제기합니다.
여기서 우리는 training images의 수가 충분히 많을 때, dataset의 non-overlapping subsets에서 trained된 두 개의 DNNs가 거의 동일한 score function을 learn하며, 따라서 동일한 density를 학습한다는 것을 보여줍니다. 이러한 strong generalization의 regime에서, diffusion-generated images는 training set과 구별되며 high visual quality를 가지는데, 이는 DNNs의 inductive biases가 data density와 잘 aligned되어 있음을 시사합니다.
우리는 learned denoising functions를 analyze하고 inductive biases가 underlying image에 adapted된 basis에서의 shrinkage operation을 유발한다는 것을 보여줍니다. 이러한 bases를 examination하면 contours와 homogeneous regions를 따라 oscillating harmonic structures가 드러납니다.
우리는 trained denoisers가 이러한 geometry-adaptive harmonic bases 쪽으로 inductively biased되어 있음을 demonstrate합니다. 왜냐하면 이것들은 network가 photographic images에서 trained될 때뿐만 아니라, harmonic basis가 suboptimal인 low-dimensional manifolds에서 supported되는 image classes에서 trained될 때에도 발생하기 때문입니다.
마지막으로, 우리는 optimal basis가 geometry-adaptive하고 harmonic하다고 알려진 regular image classes에서 trained될 때, networks의 denoising performance가 near-optimal임을 보여줍니다.
1 INTRODUCTION
Deep neural networks (DNNs)는 high-dimensional image densities로부터 sampling하는 데 있어 점점 더 인상적인 capabilities를 보여주었으며, 가장 최근에는 diffusion methods의 개발을 통해 이루어졌습니다. 이러한 methods는 denoiser를 training함으로써 operate하며, 이는 score(noisy image distribution의 log의 gradient)의 estimate를 제공합니다. 그 후 score는 iterative reverse diffusion procedure를 사용하여 corresponding estimated density로부터 sample하는 데 사용됩니다. 그러나 high-dimensional space에서 continuous density를 approximating하는 것은 악명 높게 어렵습니다: 과연 이 networks가 비교적 작은 training set으로부터 learning하여 high-quality samples를 generate함으로써, curse of dimensionality에 명백히 저항하며 실제로 이 위업을 달성하는 것일까요? 만약 그렇다면, 이는 inductive biases, 즉 architecture와 optimization이 learned denoising function에 부여하는 restrictions 때문일 것입니다. 그러나 이 models와 관련된 approximation class는 잘 이해되지 않고 있습니다. 여기서, 우리는 이 미스터리를 밝히기 위해 몇 가지 단계를 밟습니다.
최근 보고된 여러 결과들은 training set이 network capacity에 비해 작을 때, diffusion generative models가 continuous density를 approximate하는 것이 아니라 오히려 training set의 samples를 memorize한다는 것을 보여줍니다. 이들은 new samples를 generating할 때 reproduced(또는 recombined) 됩니다. 이것은 overfitting(high model variance)의 한 형태입니다. 여기서 우리는 small data sets에서 trained된 DNNs에 대해 이러한 behavior를 confirm하지만, 이 동일한 models가 충분히 큰 sets에서 trained될 때는 memorize하지 않는다는 것을 demonstrate합니다. 구체적으로, 우리는 충분히 큰 non-overlapping sets에서 trained된 두 개의 denoisers가 본질적으로 동일한 denoising function으로 converge함을 보여줍니다. 즉, learned model은 training set과 independent하게 됩니다(즉, model variance가 0으로 떨어집니다). 결과적으로, image generation에 사용될 때, 이 networks는 거의 동일한 samples를 produce합니다. 이러한 결과들은 train 및 test sets에서의 average performance에 대한 standard comparisons보다 generalization에 대한 더 강력하고 직접적인 evidence를 제공합니다. 이러한 generalization은 크지만 realizable training sets(우리의 예시에서는 대략 $10^5$개의 images로 충분함)로 달성될 수 있으며, 이는 이 networks의 강력한 inductive biases를 반영합니다. 게다가, 이 models로부터의 sampling은 high visual quality의 images를 produce하며, 이는 이러한 inductive biases가 photographic images의 underlying distribution과 잘 matched됨을 의미합니다.
이러한 inductive biases를 study하기 위해, 우리는 denoising과 density estimation 사이의 관계를 develop하고 exploit합니다. 우리는 photographic images에서 trained된 DNN denoisers가 underlying image의 features의 geometry에 adapted된 harmonic functions로 구성된 orthonormal basis에서 shrinkage operation을 perform한다는 것을 발견했습니다. 우리는 이것들을 geometry-adaptive harmonic bases (GAHBs)라고 부릅니다. 이 observation은 DNN denoisers의 generalization performance와 종합해 볼 때, photographic images를 denoising하기 위한 optimal bases가 GAHBs이며, 또한 DNN denoisers의 inductive biases가 그러한 bases를 encourage한다는 것을 시사합니다. 이를 더 직접적으로 test하기 위해, 우리는 intensity variations가 regular contours에 의해 분리된 regions에 걸쳐 regular한 특정 class of images를 examine합니다. "bandlets"라고 알려진 특정 유형의 GAHB는 이러한 images를 denoising하는 데 near-optimal인 것으로 나타났습니다. 우리는 DNN denoiser가 bandlet basis와 유사한 GAHB 내에서 operate하며, 또한 near-optimal performance를 달성함을 observe합니다. 따라서 inductive bias는 network가 이러한 경우에 score를 적절하게 estimate할 수 있게 해줍니다.
만약 DNN denoisers가 GAHB approximation class에 대한 biases를 induce한다면, optimal bases가 GAHBs가 아닌 distributions에 대해서는 sub-optimally perform해야 합니다. 이를 investigate하기 위해, 우리는 optimal denoising basis가 부분적으로만 constrained된, low-dimensional manifolds에서 supported되는 image classes에 대해 DNN denoisers를 train합니다. 구체적으로, optimal denoiser(small noise에 대해)는 noisy image를 manifold의 tangent space에 project해야 합니다. 우리는 DNN denoiser가 이 projection을 closely approximates하지만, 또한 추가적인 GAHB vectors 세트에 의해 spanned되는 subspace 내에 있는 content를 부분적으로 retains함을 observe합니다. 이러한 suboptimal components는 GAHB inductive bias를 reflect합니다.
1 INTRODUCTION 핵심 요약 노트
이 논문은 Diffusion 기반의 **Deep neural networks (DNNs)**가 High-dimensional space에서 어떻게 Curse of dimensionality를 극복하고 Generalization을 달성하는지, 그리고 그 과정에서 작용하는 핵심적인 Inductive bias가 무엇인지 규명함.
1. Generalization vs Memorization 검증
- 기존의 의문: Diffusion models가 단순히 Training set을 Memorize 하는 것인지(Overfitting), 아니면 실제 Continuous density를 학습하는 것인지 논란이 있었음.
- 실험적 증명: 충분한 데이터(약 $10^5$장)가 주어졌을 때, 서로 겹치지 않는(Non-overlapping) Training sets로 학습된 두 개의 Denoisers가 사실상 동일한 Denoising function으로 수렴함을 확인.
- 의의: Model variance가 0으로 떨어지며, Training set과 독립적인 모델이 형성됨을 증명. 이는 단순한 Test set 성능 지표보다 훨씬 강력한 Generalization의 증거임.
2. 핵심 발견 : Geometry-Adaptive Harmonic Bases (GAHBs)
- Denoising 메커니즘 분석: Photographic images에 대해 학습된 DNN denoisers는 내부적으로 Shrinkage operation을 수행하는데, 이때 사용되는 기저(Basis)가 특정한 형태를 띰.
- GAHBs 정의: 이미지의 Underlying geometry(features)에 적응(Adaptive)하는 Harmonic functions로 구성된 Orthonormal basis.
- Inductive Bias의 실체: DNN denoisers는 태생적으로 GAHB를 사용하여 이미지를 근사하려는 강력한 Inductive bias를 가짐.
3. GAHB Inductive Bias의 검증 (Positive & Negative)
- Positive Case (Bandlets): Regular contours를 가진 이미지 클래스(Optimal basis가 "Bandlets"로 알려짐)에 대해 학습시켰을 때, DNN은 스스로 Bandlet basis와 유사한 GAHB를 형성하여 Near-optimal performance를 달성함.
- Negative Case (Low-dimensional Manifolds): Optimal basis가 GAHB가 아닌(단순히 Tangent space로의 Projection이어야 하는) 데이터셋에서도, DNN은 여전히 GAHB 성분을 포함하여 학습하려는 경향을 보임. 이는 DNN이 데이터 특성과 무관하게 GAHB에 대한 강력한 Bias를 내재하고 있음을 역설적으로 증명함.
쉬운 설명 : 이 섹션이 말하고자 하는 것
"AI가 그림을 외워서 그리는 걸까, 원리를 이해한 걸까?"
- 진짜 학습했다는 증거: AI에게 그림 공부를 시킬 때, 교과서 A로 공부한 학생과 교과서 B로 공부한 학생이 완전히 똑같은 스타일과 원리로 그림을 그리게 된다면, 이들은 특정 그림을 베낀 게 아니라 "그림 그리는 법" 그 자체를 깨우친 것이겠죠? 이 논문은 데이터가 충분히 많으면 Diffusion 모델이 바로 이런 상태(완벽한 Generalization)에 도달한다는 것을 증명했습니다.
- AI가 세상을 보는 필터 (GAHB): 연구진이 뜯어보니, AI는 이미지를 처리할 때 GAHB라는 특수한 안경(필터)을 쓰고 있었습니다. 이 안경은 이미지의 윤곽선이나 지형(Geometry)에 맞춰서 부드럽게 진동(Harmonic)하는 패턴을 감지합니다.
- 얼마나 이 필터를 좋아하냐면:
- 이 필터가 딱 맞는 이미지(규칙적인 무늬 등)를 주면, AI는 누가 가르쳐주지 않아도 알아서 이 필터를 최적으로 활용합니다.
- 심지어 이 필터가 굳이 필요 없는(더 단순한 수학적 구조의) 데이터를 줘도, AI는 굳이 이 GAHB 방식을 고집하며 처리하려 합니다. 즉, 이 모델 자체가 태생적으로 이런 방식으로 세상을 해석하도록 설계되어 있다는 뜻입니다.
2 DIFFUSION MODEL VARIANCE AND DENOISING GENERALIZATION
알려지지 않은 image probability density $p(x)$를 고려해 봅시다. 이 density를 직접 approximating하기보다는, diffusion models는 noise-corrupted images의 distributions의 scores를 learn합니다. 여기서, 우리는 denoising error가 density modeling error에 대한 bound를 제공한다는 것을 보여주고, 이를 사용하여 density model의 convergence를 analyze합니다.
2.1 DIFFUSION MODELS AND DENOISING
$y = x + z$라고 합시다. 여기서 $z \sim N(0, \sigma^2 I_d)$입니다. Noisy images의 density $p_\sigma(y)$는 $x$에 대한 marginalization을 통해 $p(x)$와 관련됩니다:
여기서 $g_\sigma(z)$는 $z$의 density입니다. 따라서, $p_\sigma(y)$는 $p(x)$를 standard deviation $\sigma$를 가진 Gaussian과 convolving하여 얻어집니다. Densities의 family ${p_\sigma(y); \sigma \ge 0}$는 diffusion process의 temporal evolution과 유사한 $p(x)$의 scale-space representation을 형성합니다.
Diffusion models는 모든 noise levels $\sigma$에서 blurred densities $p_\sigma(y)$의 scores $\nabla \log p_\sigma(y)$에 대한 approximation $s_\theta(y)$(편의상 $\sigma$ 의존성 생략)를 learn합니다. 이러한 score models의 집합은 reverse diffusion process를 통해 clean images $p(x)$의 density에 대한 model $p_\theta(x)$를 암시적으로 defines합니다. $p(x)$와 $p_\theta(x)$ 사이의 KL divergence로 측정되는 generative model의 error는 모든 noise levels에 걸친 integrated score error에 의해 controlled됩니다:
Scores를 learning하는 열쇠는 Robbins와 Miyasawa에 기인한 equation(완전성을 위해 Appendix D.1에서 증명됨)이며, 이는 scores를 corresponding posteriors의 mean과 연관시킵니다:
Score는 mean squared error (MSE)를 minimize하기 위해 denoiser $f_\theta(y)$를 training하여 learned됩니다:
따라서 $f_\theta(y) \approx E_x[x | y]$가 됩니다. 이 estimated conditional mean은 식 (3)을 사용하여 estimated score를 recover하는 데 사용됩니다: $s_\theta(y) = (f_\theta(y) - y)/\sigma^2$. 우리가 Appendix D.2에서 보여주듯이, density $p(x)$를 estimating하는 데 있어서의 error는 noise levels에 걸친 denoiser의 integrated optimality gap에 의해 bounded됩니다:
여기서 $f^\star(y) = E_x[x | y]$는 optimal denoiser입니다. 따라서, true density model을 learning하는 것은 모든 noise levels에서 optimal denoising을 performing하는 것과 equivalent합니다. 반대로, suboptimal denoiser는 score approximation error를 introduces하며, 이는 결과적으로 modeled density에 error를 초래할 수 있습니다.
일반적으로, optimal denoising function $f^\star$("true" distribution $p(x)$ 뿐만 아니라)는 photographic images에 대해 unknown이며, 이는 sub-optimality의 numerical evaluation을 어렵게 만듭니다. 그러나 우리는 model bias와 model variance로부터 발생하는 optimality로부터의 deviations를 분리할 수 있습니다. Model variance는 approximation class의 size를 measures하며, 따라서 inductive biases의 strength(또는 restrictiveness)를 나타냅니다. 이것은 $f^\star$에 대한 지식 없이도 evaluated될 수 있습니다. 여기서, 우리는 generalization을 near-zero model variance(즉, overfitting의 부재)로 define하며, 이는 model bias와는 무관합니다(agnostic). 이것이 Section 2.2의 주제입니다. Model bias는 approximation class에 대한 true score의 distance를 measures하며, 따라서 inductive biases와 data distribution 사이의 alignment를 나타냅니다. Photographic images의 context에서, generated samples의 visual quality는 model bias의 qualitative indicator가 될 수 있지만, high visual quality가 반드시 low model bias를 guarantee하는 것은 아닙니다. 우리는 $f^\star$가 대략적으로 known인 synthetic image classes를 considering함으로써 Section 3.2에서 model bias를 evaluate합니다.
2.2 TRANSITION FROM MEMORIZATION TO GENERALIZATION
DNNs는 model capacity에 비해 training examples의 수가 일반적으로 작기 때문에 overfitting에 취약합니다. 특히 density estimation은 curse of dimensionality를 겪기 때문에, overfitting은 generative models의 context에서 더 큰 우려 사항입니다. Overfitted denoiser는 training images에서는 잘 perform하지만 test images에 대해서는 generalize하는 데 실패하여, low-diversity generated images를 초래합니다. 이와 일관되게, 여러 논문들은 diffusion models가 그들의 training data를 memorize할 수 있다고 보고했습니다. 이를 직접적으로 assess하기 위해, 우리는 서로 다른 training set sizes $N$에 대해 training 및 test data에서의 denoising performance를 비교했습니다. 우리는 $N = 100, 10^1, 10^2, 10^3, 10^4, 10^5$ 크기의 (downsampled) CelebA dataset의 subsets에서 denoisers를 trained했습니다. 우리는 rectifying non-linearities를 가진 3개의 convolutional encoder 및 decoder blocks로 구성된 UNet architecture를 사용했습니다. 이 denoisers는 universal하고 blind합니다: 이들은 noise level을 input으로 가지지 않고 모든 noise levels에서 operate합니다. Networks는 mean squared error (4)를 minimize하도록 trained됩니다. Architecture와 training details는 Appendix A를 참조하십시오.
결과는 Figure 1에 나와 있습니다. $N = 1$일 때, denoiser는 본질적으로 단일 training image를 memorize하여 high test error를 초래합니다. $N$을 증가시키면 network가 memorization에서 generalization으로 transitions함에 따라 test set에서의 performance는 상당히 increases하는 반면 training set에서의 performance는 worsening됩니다. $N = 10^5$에서, empirical test 및 train error는 모든 noise levels에 대해 matched됩니다.
이 generalization을 더 investigate하기 위해, 우리는 다양한 크기 $N$의 CelebA의 non-overlapping subsets에서 denoisers를 train합니다. 그 후 우리는 각 denoiser에 의해 learned된 scores를 사용하여 reverse diffusion algorithm을 통해 samples를 generate합니다—details는 Appendix A를 참조하십시오. Figure 2는 동일한 noise sample에서 initialized된, 이 denoisers에 의해 generated된 samples를 보여줍니다. 작은 $N$에 대해, networks는 그들 각각의 training images를 memorize합니다. 그러나 큰 $N$에 대해, networks는 동일한 score function으로 converge하고(따라서 동일한 model density로부터 sample하며), 거의 identical samples를 generating합니다. 이 놀라운 behavior는 average train 및 test performance의 comparison보다 훨씬 더 강력한 convergence의 demonstration을 제공합니다.
2 DIFFUSION MODEL VARIANCE AND DENOISING GENERALIZATION 핵심 요약 노트
이 섹션은 Diffusion Model의 학습 목표인 Denoising이 실제 데이터의 Density Estimation과 어떻게 수학적으로 연결되는지 규명하고, 데이터 크기에 따른 Generalization 현상을 실험적으로 증명함.
1. Denoising Error와 Density Estimation의 관계 (Theoretical Bound)
- 핵심 이론: Score matching을 통해 학습하는 Diffusion Model에서, Generative model의 오차($D_{KL}(p \parallel p_\theta)$)는 모든 Noise levels에 걸친 Denoiser의 Optimality gap의 적분값으로 Bound됨 (Eq. 5).
- $D_{KL}(p(x) \parallel p_\theta(x)) \le \int_0^\infty ( \text{MSE}(f_\theta, \sigma^2) - \text{MSE}(f^\star, \sigma^2) ) \sigma^{-3} d\sigma$
- 의미: 즉, True density model을 학습하는 것은 모든 Noise level에서 Optimal denoiser ($f^\star(y) = E_x[x | y]$)를 근사하는 것과 수학적으로 동치임.
- 오차의 분해: Suboptimal denoiser의 성능 저하 원인을 두 가지로 분리하여 접근.
- Model Variance: Approximation class의 크기 (Inductive bias의 강도). $f^\star$를 몰라도 평가 가능.
- Model Bias: True score와 Approximation class 사이의 거리. $f^\star$를 알아야 하므로 Photographic image에서는 평가가 어려움 (Section 3에서 다룸).
2. Memorization에서 Generalization으로의 전이 (Empirical Evidence)
- 실험 설정: CelebA dataset의 크기($N$)를 $100$에서 $10^5$까지 늘려가며 UNet 기반 Denoiser 학습.
- Generalization의 정의: 단순한 Test set 성능 향상을 넘어, Model variance가 0으로 수렴하는 상태.
- 핵심 실험 결과 (Stronger Evidence):
- 서로 겹치지 않는(Non-overlapping) 데이터셋으로 두 개의 별도 Network를 학습시킴.
- $N$이 작을 때는 각자의 Training set을 Memorize하여 서로 다른 샘플을 생성.
- $N=10^5$에 도달하자, 두 Network는 동일한 Noise 입력에 대해 **거의 완벽하게 동일한 이미지(Identical samples)**를 생성함.
- 결론: 충분한 데이터 규모에서 Diffusion Model은 Training set에 의존하지 않는 고유한 Score function으로 수렴하며, 이는 Inductive bias가 데이터의 Density 구조와 잘 정렬(Align)되어 있음을 시사함.
쉬운 설명 : 이 섹션이 말하고자 하는 것
1. 노이즈를 지우는 능력 = 그림의 본질을 아는 능력
- 수학적으로 증명해보니, AI가 "노이즈를 얼마나 완벽하게 제거하느냐(MSE 최소화)"는 "그림의 확률 분포를 얼마나 정확하게 아느냐(Density Estimation)"와 똑같은 말이었습니다.
- 즉, 흐릿한 그림을 보고 원본을 완벽하게 추론할 수 있다는 건, 그 그림이 어떻게 생겨야 하는지에 대한 완벽한 지식을 가지고 있다는 뜻입니다.
2. '쌍둥이 실험'을 통한 진짜 학습의 증명
- AI가 그림을 그냥 외운 건지(Memorization), 진짜로 그리는 법을 배운 건지(Generalization) 확인하기 위해 재미있는 실험을 했습니다.
- 실험: 철수와 영희에게 서로 겹치지 않는 **완전히 다른 교과서(데이터셋)**로 공부를 시켰습니다.
- 결과: 공부량이 적을 때는 둘이 딴소리를 했지만, 공부량이 충분히 많아지자($10^5$장 이상), 놀랍게도 철수와 영희가 **똑같은 질문(노이즈)에 대해 토씨 하나 안 틀리고 똑같은 정답(이미지)**을 내놓았습니다.
- 의미: 이는 두 AI가 각자 본 그림을 외운 게 아니라, 그림 뒤에 숨겨진 **공통된 법칙(Score function)**을 완벽하게 깨우쳤다는 강력한 증거입니다.
3 INDUCTIVE BIASES
3 INDUCTIVE BIASES
임의의 probability density estimation에 필요한 samples의 수는 dimensionality에 따라 exponentially하게 증가합니다("curse of dimensionality"). 결과적으로, high-dimensional distributions를 estimating하는 것은 hypothesis space에 strong constraints 또는 priors를 imposes할 때만 feasible합니다. Diffusion model에서, 이것들은 network architecture와 optimization algorithm으로부터 발생하며, network의 inductive biases라고 불립니다. Section 2.2에서, 우리는 DNN denoisers가 비교적 작은 training sets로부터 scores(따라서 density)를 learn할 수 있음을 demonstrated했습니다. High quality의 sampled images와 결합된 이 generalization result는 inductive biases가 "true" distribution of images에 well-matched되어 model이 learning을 통해 good solution으로 rapidly converge할 수 있게 한다는 evidence입니다. 반대로, inductive biases가 true distribution과 aligned되지 않을 때, model은 high model bias를 가진 poor solution에 도달할 것입니다.
Diffusion methods의 경우, 올바른 density model을 learning하는 것은 모든 noise levels에서 optimal denoising을 performing하는 것과 equivalent합니다(Section 2.1 참조). 따라서 density model에 대한 inductive biases는 denoiser의 inductive biases로부터 직접 발생합니다. 이 connection은 high-dimensions에서 일반적으로 어려운 learned probability models의 accuracy를 evaluating하는 수단을 제공합니다.
3.1 DENOISING AS SHRINKAGE IN AN ADAPTIVE BASIS
DNN denoiser의 inductive biases는 Jacobian의 eigendecomposition을 통해 studied될 수 있습니다. 우리는 optimal denoiser에 대해 expected되는 general properties를 describe하고, optimal solution이 부분적으로 known인 몇 가지 specific cases를 examine합니다.
Jacobian eigenvectors as an adaptive basis. Inductive biases를 analyze하기 위해, 우리는 Jacobian $\nabla f(y)$를 살펴봄으로써 denoising estimator $\hat{x}(y) = f(y)$의 local analysis를 perform합니다. 단순함을 위해, 우리는 Jacobian이 symmetric하고 non-negative라고 assume합니다(우리는 이것이 optimal denoiser에 대해 성립함을 아래에서 보여주며, network Jacobian에 대해서도 approximately true입니다). 그 후 우리는 이것을 diagonalize하여 eigenvalues $(\lambda_k(y)){1 \le k \le d}$와 eigenvectors $(e_k(y)){1 \le k \le d}$를 얻을 수 있습니다.
만약 $f(y)$가 additive "bias" parameters가 없는 DNN denoiser로 computed된다면, input-output mapping은 piecewise affine이 아니라 piecewise linear입니다. 따라서 denoiser mapping은 Jacobian eigendecomposition의 관점에서 다음과 같이 rewritten될 수 있습니다:
따라서 denoiser는 $e_k(y)$에 의해 specified된 basis의 axes를 따라 shrinkage factors $\lambda_k(y)$로 shrinkage를 performing하는 것으로 interpreted될 수 있습니다. Eigenvalues와 eigenvectors 모두 noisy image 에 depend한다는 점에 유의하십시오(즉, basis와 shrinkage factors 모두 adaptive입니다).
Denoiser가 bias-free가 아니더라도, 작은 eigenvalues $\lambda_k(y)$는 denoising function의 local invariances를 reveal합니다: corresponding eigenvectors $e_k(y)$를 따른 noisy input의 작은 perturbations는 denoised output에 affect를 주지 않습니다. 직관적으로, 그러한 invariances는 denoiser에게 desirable property이며, 이것들은 Stein's unbiased risk estimate (SURE, 완전성을 위해 Appendix D.3에서 증명됨)로 expressed된 mean squared error (MSE)를 minimizing함으로써 naturally enforced됩니다:
MSE를 minimize하기 위해, denoiser는 Jacobian의 approximate "rank"(trace는 eigenvalues의 합입니다)와 denoising error의 estimate: 사이의 trade off를 해야 합니다. 따라서 denoiser는 locally하게 Jacobian의 rank에 corresponds하는 dimensionality를 가진 subspace에 대한 (soft) projection으로 behaves합니다. 우리가 지금 설명하듯이, 이 subspace는 posterior distribution $p(x|y)$의 support를 approximates하며, 따라서 $p(x)$의 support의 local approximation을 제공합니다.
Appendix D.1에서 optimal minimum MSE denoiser와 그 Jacobian은 다음과 같이 주어진다는 것이 shown됩니다:
즉, optimal denoiser의 Jacobian은 posterior covariance matrix에 proportional하며, 이는 symmetric하고 non-negative입니다. 이것은 noisy observation 가 주어졌을 때 unknown clean image 의 optimal approximation을 제공하는 것으로서 adaptive eigenvector basis에 대한 또 다른 interpretation을 제공합니다. 게다가, optimal denoising error는 다음과 같이 주어집니다(첫 번째 등식은 Appendix D.1 참조):
따라서 작은 denoising error는 approximately low-rank Jacobian(많은 작은 eigenvalues를 가짐)을 implies하며, 따라서 가 주어졌을 때 의 efficient approximation을 의미합니다.
대부분의 경우, optimal adaptive basis $(e^\star_k(y)){1 \le k \le d}$는 known이 아닙니다. Exact optimality를 aiming하는 대신, classical analyses는 multiplicative constants까지 noise level 가 falls함에 따른 denoising error의 asymptotic decay에 focus를 맞춥니다. 이것은 Figure 1의 PSNR plots의 asymptotic slope를 captures하지만 반드시 intercept는 아닌 basis $(e_k(y)){1 \le k \le d}$를 finding하는 것에 corresponds합니다. Optimality의 이 weaker notion은 denoising error의 asymptotic behavior에 대한 matching upper 및 lower bounds를 showing함으로써 obtained됩니다. Intuition을 제공하기 위해, 우리는 먼저 fixed orthonormal basis 를 consider하고, 그 후 fixed dictionary에서 selected된 best bases의 더 general case를 consider합니다.
Denoising in a fixed basis. Fixed basis 에서 operate하도록 restricted되지만 shrinkage factors $\lambda_k(y)$를 adapt할 수 있는 denoising algorithm을 consider해 봅시다. Denoising error에 대한 unreachable lower-bound—따라서 PSNR slope에 대한 upper-bound—는 shrinkage factors 가 noisy observation 대신 unknown clean image 에 depend하는 "oracle" denoiser의 performance를 evaluating함으로써 obtained됩니다. Appendix D.4는 이 oracle의 denoising error가 다음과 같음을 보여줍니다:
이는 $\lambda_k(x) = \frac{\langle x, e_k \rangle^2}{\langle x, e_k \rangle^2 + \sigma^2}$일 때 minimized됩니다. 따라서 coefficient $\lambda_k(x)$는 soft threshold로 acts합니다: signal이 noise를 dominates할 때 이고 signal이 noise보다 weaker할 때 입니다. Appendix D.4는 그 후 oracle denoising error가 다음 식의 expected value임을 보여줍니다:
여기서 는 noise level 위의 basis coefficients 를 가진 의 M-term approximation이고, 는 두 terms가 multiplicative constants(여기서는 2보다 작음)까지 same order임을 의미합니다. 가 basis에서 sparse representation을 가진다면, 즉 과 approximation error 가 모두 작다면, denoising error는 작습니다. 예를 들어, coefficients가 (reordering까지)로 decay한다면, Appendix D.4는 다음을 보여줍니다:
이는 basis 에서의 모든 denoising algorithm의 MSE에 대한 lower bound입니다. 역으로, 이 oracle denoising error는 ( 대신)를 에 proportional한 threshold와 comparing하여 shrinkage factors $\lambda_k(y)$를 computes하는 soft-thresholding estimator로 거의 reached되며, logarithmic factor까지 decay (13)을 achieves합니다. Decreasing 에 따른 MSE의 decay (13)은 input PSNR이 increases할 때 PSNR curve에서의 $\alpha/(\alpha + 1)$의 asymptotic slope에 corresponds합니다. 따라서, basis $(e_k)_{1 \le k \le d}$에서 의 작은 coefficients의 더 빠른 decay에 corresponds하는 더 큰 sparsity/regularity exponent 는 improved denoising performance로 이어집니다.
Best adaptive bases. Noisy image 에 basis $(e_k)_{1 \le k \le d}$를 adapting하는 것은 더 빠른 decay를 가진 unknown clean image 의 sparser representations, 따라서 더 큰 PSNR slope를 obtaining할 수 있게 합니다. Optimal adaptive basis를 calculate하기 위해, 우리는 non-oracle denoiser와 동일한 asymptotic MSE를 가지는 oracle denoiser를 찾아야 하며, 이는 asymptotic MSE에 대한 matching lower 및 upper bounds를 yields합니다. Unknown clean image 에 depends하는 oracle basis $(e_k(x))$에서 thresholding을 performs하는 oracle denoiser를 consider해 봅시다. 위의 analysis는 여전히 applies되며, coefficients 가 $k^{-(\alpha+1)}$로 decay한다면, asymptotic PSNR slope는 다시 $\alpha/(\alpha + 1)$입니다. Best oracle basis는 $e_1(x) = x/|x|$를 satisfies하지만, 이것은 noisy image 만으로는 estimated될 수 없기 때문에 loose lower bound를 yields합니다. 따라서 우리는 oracle denoiser가 fixed dictionary 내에서 basis $(e_k(x))$를 choose하도록 restrict합니다.
더 큰 dictionary는 adaptivity를 increases하지만, 만으로 를 가장 잘 represents하는 basis를 estimate하는 것이 더 어려워집니다. Bases의 dictionary가 dimension 에 polynomial인 수의 vectors 로부터 constructed된다면(bases의 수는 에 exponential일 수 있음), noisy image 를 가장 잘 approximates하는 basis $(e_k(y))$에서의 thresholding은 oracle denoiser와 동일한 slope를 achieves합니다. Noise의 presence에도 불구하고 이 near-optimality는 dictionary 내의 possible basis vectors 의 limited choice로부터 오며, 이는 best-basis estimation의 variance를 limits합니다. 예를 들어 $e_1(y) = y/|y|$를 preventing함으로써 말이죠. 그러면 main difficulty는 optimal PSNR slope를 achieve하기 위해 data distribution으로부터 images의 optimal representations를 제공하는 small-enough dictionary를 design하는 것입니다.
우리는 이제 이 lens를 통해 DNN denoisers의 inductive biases를 evaluate합니다. Section 2에서, 우리는 DNN denoisers가 curse of dimensionality를 극복함을 보여주었습니다: 그들의 variance는 generalization regime에서 zero로 decays합니다. 다음 섹션에서, 우리는 그들이 특정 class의 adaptive bases 쪽으로 inductively biased되어 있음을 demonstrating함으로써 이 observation을 explain합니다.
3.2 GEOMETRY-ADAPTIVE HARMONIC BASES IN DNNS
Figure 3은 개의 face images에서 trained된 DNN denoiser의 shrinkage factors , adaptive basis vectors , 그리고 signal coefficients $(\langle x, e_k(y) \rangle)$를 보여줍니다. Eigenvectors는 contours를 따라서 그리고 uniformly regular regions에서 oscillating patterns를 가지며, 따라서 input image의 geometry에 adapts합니다. 우리는 이것을 geometry-adaptive harmonic basis (GAHB)라고 부릅니다. Coefficients는 이 basis에서 sparse하며, eigenvalues의 fast rate of decay는 이 sparsity를 exploits합니다. Generated images의 high quality와 Section 2의 strong generalization results는 DNN denoisers가 photographic image distributions에 well-aligned된 inductive biases에 relies함을 보여줍니다. 이 모든 것은 DNN denoisers가 GAHBs 쪽으로 inductively biased되어 있을 수 있음을 suggests합니다. 다음에서, 우리는 optimal solution이 (approximately) known인 synthetic datasets에서 trained된 networks를 analyzing함으로써 이 conjecture를 supporting하는 evidence를 제공합니다.
images and bandlet bases. 만약 DNNs가 GAHBs 쪽으로 inductively biased되어 있다면, 우리는 그러한 bases가 optimal일 때 그들이 generalize하고 optimal denoising performance로 converge할 것이라고 expect합니다. 우리는 geometric class of images를 consider하는데, 이는 regular backgrounds 위의 regular contours로 구성되며, regularity의 정도는 에 의해 controlled됩니다. 이 images의 예시는 Figure 4와 Appendix C.1에 나와 있습니다. Mathematical definition과 synthesis를 위한 algorithm은 Appendix E에 presented되어 있습니다.
images의 optimal sparse representations는 "bandlet" bases로 obtained됩니다. Bandlets는 서로 다른 frequencies에서 oscillating하는 harmonic functions로, 그들의 geometry는 contours를 따른 images의 directional regularity에 adapted됩니다. Geometric images는 regular regions와 contours를 따라서는 low-frequency oscillations를 가지지만 contours를 가로질러서는 sharp variations를 가지는 소수의 bandlets로 represented될 수 있습니다. Best bandlet basis에서의 k-th coefficient는 $k^{-(\alpha+1)}$로 decays합니다. 따라서 optimal denoiser는 input PSNR의 function으로서 $\alpha/(\alpha + 1)$의 slope로 asymptotically increases하는 PSNR을 가집니다.
Figure 4는 images에서 trained된 DNN denoisers 또한 이 optimal rate를 achieve하고, bandlets와 유사하지만 더 flexible geometry를 가진 GAHBs를 learns함을 보여줍니다. 이 generalization performance는 DNNs의 inductive biases가 GAHBs를 favor함을 confirms합니다.
Low-dimensional manifolds. 만약 DNNs가 GAHBs 쪽으로 inductively biased되어 있다면, 우리는 이 bases가 suboptimal인 cases에서도 emerge할 것이라고 expect합니다. 이 prediction을 test하기 위해, 우리는 varying positions, sizes, foreground/background intensities를 가진 disk images의 dataset을 consider합니다. 이것은 five-dimensional curved manifold를 defines하며, disk image 에서 evaluated된 tangent space는 이 five dimensions를 따른 의 deformations에 의해 spanned됩니다. Noise level 가 manifold의 radius of curvature보다 훨씬 작을 때, posterior distribution $p(x|y)$는 manifold의 approximately flat region에서 supported되며, optimal denoiser는 approximately tangent space 위로의 projection입니다. 따라서, optimal Jacobian은 오직 5개의 non-negligible eigenvalues를 가져야 하며, 그들의 corresponding eigenvectors는 tangent space를 span합니다. 나머지 eigenvectors는 의 shrinkage factors를 가져야 하지만, 그 외에는 unconstrained됩니다. Optimal MSE는 asymptotically 와 equal하며, 이는 1의 PSNR slope에 corresponds합니다.
Figure 5는 개의 80 x 80 size의 disk images에서 trained된 denoiser의 analysis를 보여줍니다. 우리는 GAHB structure를 가지며, background region과 disk의 contour를 따라 oscillations를 가지는 non-negligible eigenvalues를 가진 추가적인 basis vectors를 observe합니다. 우리는 또한 non-zero eigenvalues의 수가 noise level이 decreases함에 따라 increases하여, 1.0보다 작은 suboptimal PSNR slope를 leading함을 발견합니다. 이러한 results는 DNN의 inductive biases가 low-dimensional manifolds와 perfectly aligned되지 않으며, curvature의 presence에서, noise level이 decreases함에 따라 이 suboptimality가 increases함을 reveal합니다. 우리는 Appendix C.2에 주어진 low-dimensional manifold에서 supported되는 distribution의 두 가지 추가 examples에서 similar results를 obtain합니다.
Shuffled faces. 우리는 또한 Appendix C.3에서 각 face image의 pixels에 common permutation을 applying하여 obtained된 shuffled faces의 dataset을 consider합니다. 이 permutation은 neighboring pixels 사이의 locality를 preserve하지 않으며, 따라서 optimal basis는 harmonic structure를 가지지 않습니다. DNN inductive biases와 data distribution 사이의 resulting mismatch는 original (unscrambled) faces에 비해 substantially worse performance를 초래합니다.
3 INDUCTIVE BIASES 핵심 요약 노트
이 섹션은 DNN Denoiser가 고차원 데이터에서 어떻게 효율적으로 작동하는지, 그 근본적인 메커니즘인 Inductive Bias의 실체를 수학적 분석과 실험을 통해 규명함.
1. Denoising의 수학적 메커니즘 : Adaptive Basis에서의 Shrinkage
- 분석 방법: Denoiser $f(y)$의 Jacobian $\nabla f(y)$에 대한 Eigendecomposition을 수행하여 Local analysis 진행.
- 핵심 수식: $f(y) = \sum_k \lambda_k(y) \langle y, e_k(y) \rangle e_k(y)$
- Denoiser는 입력 이미지 $y$에 따라 변하는 Adaptive Basis $e_k(y)$ 위에서, 각 성분의 크기를 Shrinkage factors $\lambda_k(y)$만큼 줄이는(Shrinkage) 연산을 수행함.
- Posterior와의 관계: Optimal denoiser의 Jacobian은 Posterior covariance $\text{Cov}[x|y]$와 비례함.
- 따라서, 학습된 Basis $e_k(y)$는 노이즈 낀 $y$가 주어졌을 때 원본 $x$를 가장 잘 표현하는 Principal components 역할을 수행함.
2. 발견된 Bias의 정체 : Geometry-Adaptive Harmonic Bases (GAHBs)
- 현상 관측: 실제 Photographic images(CelebA 등)로 학습된 DNN의 Jacobian eigenvector를 분석한 결과, Contours(윤곽선)와 Homogeneous regions(균일 영역)을 따라 진동하는 Harmonic structure가 발견됨.
- GAHBs 정의: 이미지의 Geometry에 적응(Adaptive)하여 형태가 변하는 Harmonic basis.
- 결론: DNN Denoiser는 데이터를 단순히 압축하는 것이 아니라, GAHB라는 특정한 형태의 기저를 사용하여 이미지를 표현하려는 강력한 Inductive Bias를 가짐.
3. GAHB Inductive Bias의 검증 실험 (Optimal vs Suboptimal)
- Case 1: Bias가 유리한 경우 ($C^\alpha$ Images)
- 데이터: Regular contours를 가진 이미지. 이론적으로 Bandlet (GAHB의 일종)이 Optimal basis임.
- 결과: DNN은 Bandlet과 유사한 GAHB를 스스로 학습하며, 이론적 한계인 Optimal PSNR slope $\alpha/(\alpha+1)$를 달성함.
- 해석: 데이터의 구조와 DNN의 Inductive Bias가 완벽하게 Aligned 됨.
- Case 2: Bias가 불리한/불필요한 경우 (Low-dimensional Manifolds)
- 데이터: 단순한 5D Manifold (위치, 크기 등이 변하는 원). 이론적으로 Tangent space projection이 Optimal (Eigenvalue 5개만 1, 나머지는 0).
- 결과: DNN은 Tangent space를 찾긴 하지만, 불필요한 추가적인 GAHB 성분을 포함시킴 (Suboptimal PSNR slope < 1.0).
- 해석: Optimal basis가 단순한 Projection임에도 불구하고, DNN은 굳이 GAHB 구조를 강요하여 학습함. 이는 DNN이 데이터와 무관하게 GAHB에 대한 강력한 고유의 Bias를 가지고 있음을 방증함.
- Case 3: 구조가 파괴된 경우 (Shuffled faces)
- 픽셀을 섞어 기하학적 구조를 없애자 성능이 급락함. 이는 DNN이 Local geometry와 Harmonic structure에 의존한다는 증거.
쉬운 설명 : 이 섹션이 말하고자 하는 것
1. AI가 이미지를 수정하는 도구 : '요술 렌치'
- AI(Denoiser)가 노이즈를 제거하는 방식을 뜯어보니, 고정된 도구를 쓰는 게 아니라 이미지마다 모양이 바뀌는 **'요술 렌치(Adaptive Basis)'**를 쓰고 있었습니다.
- 이 렌치는 이미지의 결을 따라서 작동하며, 노이즈라고 생각되는 부분만 나사를 조여서(Shrinkage) 없애버립니다.
2. AI의 고집 : "나는 물결무늬(Harmonic)가 좋아"
- 연구자들이 이 '요술 렌치'의 모양을 자세히 보니, 항상 **물결 치는 모양(Harmonic)**을 하고 있었습니다.
- 이미지의 윤곽선이나 평평한 면을 따라서 부드럽게 진동하는 파동 형태를 띠는데, 이를 GAHB라고 부릅니다. AI는 세상을 이 '진동하는 파동'의 합으로 이해하려고 합니다.
3. 이 고집(Bias)이 득이 될 때와 독이 될 때
- 득이 될 때 (대부분의 사진): 세상의 많은 이미지(얼굴, 풍경 등)는 실제로 이런 윤곽선과 파동으로 설명이 잘 됩니다. 그래서 AI가 기가 막히게 잘 그립니다. (Bandlet 실험)
- 독이 될 때 (너무 단순한 도형): 그냥 "동그라미 하나"처럼 매우 단순한 수학적 도형을 줬더니, AI가 오히려 헤맸습니다. 그냥 "평면 투영"만 하면 되는데, 굳이 거기서도 "물결무늬"를 찾아내려고 애를 쓰다가 성능 손해를 봅니다.
- 결론: "AI는 백지상태에서 배우는 게 아니다. '세상은 파동과 윤곽선으로 이루어져 있다'라는 강력한 선입견(Inductive Bias)을 가지고 태어나며, 그 덕분에 복잡한 사진도 잘 처리하는 것이다."
노이즈 낀 얼굴 이미지를 모델에 넣고
y -> ai -> x
이를 트릭으로
x = J y 로 바꾸고 J를 건드림
J의 고유벡터 분해를 통해 나온 고유값이 1인 패턴을 파악했더니 물결 무늬
디스크도 물결 부터 그린다.
테두리 부터 학습하니까 암기가 아닌 일반화다.
Critical Review: "GAHB라는 이름의 과대 포장과 구조적 한계의 미화"
이 논문은 흥미로운 시각화 결과(Jacobian Eigendecomposition)를 제시하지만, 그 현상을 해석하는 과정에서 인과 관계의 오류와 **과도한 의미 부여(Over-interpretation)**를 범하고 있습니다. 주요 비판점은 다음과 같습니다.
1. 모델의 '무능력'을 '고집'으로 미화 (Anthropomorphism of Model Limitations)
- 저자의 주장: 단순한 원반(Disk) 데이터셋에서 모델이 수학적 최적해(접평면 투영)보다 낮은 성능을 보이는 이유는, 모델이 GAHB라는 자신의 기하학적 본능을 유지하기 위해 손해를 감수하기 때문이다.
- 비판: 이는 전형적인 의인화의 오류입니다.
- CNN(U-Net) 구조는 **Locality(지역성)**와 **Translation Invariance(이동 불변성)**에 기반하기 때문에, 태생적으로 전역적인(Global) 수학적 투영을 완벽하게 수행할 능력이 없습니다.
- 즉, 이는 모델이 어떤 "철학"을 가지고 있어서 성능 손해를 감수한 것이 아니라, 단순히 **그 구조가 가진 한계(Limitation) 때문에 최적해를 찾지 못한 실패 사례(Failure Mode)**일 뿐입니다.
- 논문은 이를 "Inductive Bias가 강력하다"고 포장했지만, 냉정하게 보면 **"모델 구조가 데이터 분포와 맞지 않을 때 발생하는 성능 저하(Mismatch Error)"**에 불과합니다.
2. GAHB: 새로운 발견인가, "Bandlet"의 재확인인가? (Novelty vs. Rebranding)
- 저자의 주장: Diffusion Model 내부에서 **Geometry-Adaptive Harmonic Bases (GAHB)**라는 새로운 형태의 기저가 발견되었다.
- 비판: **GAHB는 사실상 새로운 발견이라기보다 기존 개념의 재확인(Rebranding)**에 가깝습니다.
- CNN이 Edge(윤곽선)와 Texture(질감)에 반응하는 필터를 학습한다는 것은 딥러닝 초기부터 알려진 상식입니다.
- 특히 저자 중 한 명인 Stéphane Mallat이 과거에 제안했던 Bandlets 이론을 딥러닝 모델에서 다시 찾아낸 것에 불과해 보입니다. (본인들이 보고 싶은 것을 본 것일 수 있음).
- 가장 큰 약점은 **"왜 ReLU와 Convolution이 결합되면 하필 GAHB가 튀어나오는가?"**에 대한 수학적 유도나 증명이 전무하다는 점입니다. 현상만 있고 원리 증명은 빠진, "뜯어보니 그렇더라(Empirical Observation)" 수준의 주장에 머물러 있습니다.
3. 일반화(Generalization)인가, 편향으로 인한 수렴(Collapse)인가?
- 저자의 주장: 서로 다른 데이터로 학습된 두 모델이 동일한 함수로 수렴하는 것은, 모델이 데이터의 진정한 밀도(Density)를 학습했음을 증명하는 강력한 일반화의 증거다.
- 비판: 이것은 **"일반화(Generalization)"가 아니라 "해 공간의 제약(Constrained Solution Space)"**으로 해석해야 타당합니다.
- U-Net이라는 아키텍처는 표현할 수 있는 함수의 범위가 매우 제한적입니다. (강력한 Inductive Bias).
- 따라서 어떤 데이터를 넣든, 모델은 결국 U-Net이 만들어낼 수 있는 결과물 중 하나로 수렴할 수밖에 없습니다.
- 두 모델이 같아진 것은 그들이 "진리"를 깨달아서가 아니라, **"U-Net이라는 틀 안에서 나올 수 있는 답이 그것밖에 없었기 때문"**일 가능성이 큽니다. 이를 두고 데이터의 True Density를 배웠다고 주장하는 것은 논리적 비약입니다.
4. 인과 관계의 혼동: "테두리 본능" vs "노이즈 스케줄링"
- 저자의 주장: 인퍼런스 초기에 테두리가 먼저 나타나는 것은 모델의 GAHB 본능 때문이다.
- 비판: 이는 Diffusion Process의 특성(SNR 변화)을 모델의 특성으로 착각한 것입니다.
- Diffusion 과정은 물리적으로 고주파(노이즈)가 먼저 섞이고 저주파(형태)가 나중에 섞입니다. 역과정(Denoising)에서는 당연히 저주파(큰 윤곽선)부터 복원되고 고주파(디테일)가 나중에 채워지는 것이 수학적으로 당연합니다.
- 이를 두고 모델이 "기하학적 구조를 선호해서 테두리부터 그린다"고 해석하는 것은, 현상(Frequency Evolution)을 원인(Model Bias)으로 둔갑시킨 오류입니다.
Reviewer's Final Verdict (한 줄 평)
"이 논문은 CNN 기반 Diffusion Model이 '테두리 중심의 필터'를 갖는다는 훌륭한 시각적 증거를 제시했지만, 그 원인을 설명함에 있어 모델의 '구조적 한계(Limitation)'를 마치 모델의 '의도적인 선택(Preference)'인 것처럼 과대 포장한 결과론적 해석에 의존하고 있다."
별점 2점 / 5점
CNN에서 당연한 정보를 마치 새롭게 발견한 것인마냥 포장함.
그냥 "뜯어보니 신기한 무늬가 있네요" 수준의 관찰 논문(Observational Paper)에 그쳤음
제목부터 문제. "Generalization... Arises From..." (일반화는 ~에서 발생한다)
이 제목은 인과관계(Causality)를 암시하지만, 본문은 상관관계(Correlation)조차 명확히 입증하지 못함.
Bandlet이나 Edge Detection 같은 기존 개념을 GAHB라는 있어 보이는 신조어로 바꿔치기한 것은, 연구의 본질적인 가치를 높이는 게 아니라 포장지만 화려하게 바꾼 행위
사실 기존에 다 있던 정보를 끄집어냈을 뿐.
