AI바라기의 인공지능

Diffusion : 빠른 논문 리뷰 : Implicit Regularisation in Diffusion Models: An Algorithm-Dependent Generalisation Analysis 본문

논문리뷰

Diffusion : 빠른 논문 리뷰 : Implicit Regularisation in Diffusion Models: An Algorithm-Dependent Generalisation Analysis

AI바라기 2026. 2. 13. 19:43

Term Explanations (용어 설명)

  • Score Stability: 이 논문에서 제안하는 핵심 개념입니다. 학습 데이터셋에서 데이터 포인트 하나가 변경되었을 때, 알고리즘이 학습한 Score Function이 얼마나 민감하게 변화하는지를 측정하는 지표입니다. 값이 작을수록 알고리즘이 안정적(stable)이며 일반화(generalization) 성능이 좋음을 의미합니다.
  • Implicit Regularisation: 모델의 목적 함수(objective function)에 명시적인 규제항(예: L2 regularization)을 추가하지 않았음에도, 알고리즘의 절차적 특성(예: 조기 종료, 큰 보폭의 학습 등)으로 인해 자연스럽게 과적합이 방지되는 현상입니다.
  • Denoising Score Matching: Diffusion Model 학습의 표준이 되는 손실 함수입니다. 잡음이 섞인 데이터로부터 원본 데이터의 그라디언트(score)를 추정하도록 학습합니다.
  • Manifold Hypothesis: 고차원 데이터(예: 이미지)가 실제로는 훨씬 낮은 차원의 Manifold(부분 공간) 위에 존재한다는 가설입니다. 이 논문에서는 모델이 이 낮은 차원(d*)에 적응하여 일반화됨을 증명합니다.
  • Ornstein-Uhlenbeck Process: Diffusion Process를 수학적으로 모델링할 때 사용되는 확률 과정으로, 이 논문에서는 이 과정의 contractive(수렴하는) 성질을 이용해 안정성을 증명합니다.

Purpose of the Paper

이 논문은 Diffusion ModelsGeneralisation(일반화) 능력을 이론적으로 규명하기 위해 작성되었습니다.

  • 기존 연구의 한계: 기존 이론들은 모델 구조에만 의존하는 Algorithm-Independent한 접근(Uniform Convergence 등)을 주로 사용했습니다. 하지만 이론적으로 Diffusion Model이 학습 데이터를 완벽하게 학습하고 샘플링도 완벽하게 수행하면, 새로운 데이터를 생성하는 것이 아니라 훈련 데이터를 그대로 암기(Memorization)하게 됩니다. 즉, 기존 이론으로는 Diffusion Model이 왜 '새로운' 이미지를 잘 생성해내는지 설명하지 못합니다.
  • 새로운 접근 방식: 저자들은 Diffusion Model의 성공 요인이 모델 구조가 아닌 Algorithm 자체의 특성에 있다고 봅니다. 이를 증명하기 위해 Score Stability라는 새로운 프레임워크를 도입하여, 학습 및 샘플링 과정에서 발생하는 알고리즘적 요소들이 어떻게 Implicit Regularisation 효과를 만들어내는지 수학적으로 증명합니다.

Key Contributions

이 연구는 Diffusion Model의 일반화 성능을 Algorithm-Dependent 관점에서 해석한 최초의 시도 중 하나이며, 구체적으로 다음 세 가지 Implicit Regularisation의 원천을 규명했습니다.

  • Score Stability Framework 제안:
    • 기존의 Algorithmic Stability 개념을 Score Matching 문제에 맞게 변형한 Score Stability를 정의했습니다.
    • 이 지표를 통해 Generalisation Gap(훈련 오차와 실제 오차의 차이)의 상한선(Bound)을 도출했습니다.
  • Denoising Regularisation (Early Stopping):
    • Diffusion 과정에서 시간 t가 0에 가까워지기 전에 멈추는 Early Stopping(조기 종료)이 일반화에 필수적임을 증명했습니다.
    • 이 과정에서 모델이 데이터의 전체 차원(d)이 아닌, 데이터가 존재하는 Manifold의 차원(d*)에 적응하여 학습한다는 것을 보였습니다. 이는 별도의 규제 없이도 모델이 효율적으로 학습됨을 의미합니다.
  • Sampler Regularisation (Coarse Discretisation):
    • 샘플링 단계에서 시간 간격(step size)을 촘촘하게 하지 않고 듬성듬성하게(Coarse) 설정하는 것이 오히려 일반화 성능을 높인다는 것을 발견했습니다.
    • 이는 샘플링의 정확도(discretisation error)와 일반화 성능 사이에 Trade-off가 있음을 의미하며, 적절히 큰 스텝 사이즈가 과적합을 막는 역할을 합니다.
  • Optimisation Regularisation (SGD Noise):
    • Stochastic Gradient Descent (SGD), 특히 Diffusion 학습 시 발생하는 높은 분산(Variance)의 그라디언트 노이즈가 학습 과정을 안정화시키는 역할을 함을 증명했습니다.
    • 이 노이즈가 학습 궤적을 수렴(contractive)하게 만들어, 반복 횟수(K)가 늘어나도 일반화 성능이 나빠지지 않도록 돕습니다.

Experimental Highlights (Theoretical Results)

이 논문은 실험적 벤치마크보다는 **이론적 증명(Theoretical Analysis)**에 초점을 맞춘 논문입니다. 주요 분석 결과는 다음과 같습니다.

  • Memorization 현상 재현 (Figure 1):
    • CIFAR-10 데이터셋에서 경험적 스코어 함수(Empirical Score Function)를 완벽하게 최적화하고 정밀하게 샘플링할 경우, 생성된 이미지가 훈련 데이터와 픽셀 단위로 거의 일치함을 시각적으로 보였습니다. 이는 Implicit Regularisation 없이는 모델이 데이터를 암기해버린다는 가설을 뒷받침합니다.
  • Generalisation Bounds 도출:
    • ERM (Empirical Risk Minimization) 알고리즘에 대해, 데이터 수 N이 증가함에 따라 일반화 오차가 N^-1 혹은 N^-2 수준으로 감소함을 수학적으로 증명했습니다.
    • 이 Bound는 데이터의 *Manifold Dimension (d)**에 의존하므로, 고차원 데이터에서도 Diffusion Model이 잘 작동하는 이유를 설명합니다.
  • SGD Stability 증명:
    • Gradient Clipping과 Weight Decay가 적용된 SGD에서, 학습률(learning rate)이 적절히 감소할 때 Score Stability가 보장됨을 증명했습니다. 특히 그라디언트 추정의 노이즈가 클수록 더 타이트한 일반화 보장이 가능함을 보였습니다.

Limitations and Future Work

  • Limitations:
    • Smoothness 가정의 미활용: 현재의 Score Stability 분석은 모델 클래스나 데이터 분포의 구체적인 Smoothness(매끄러움) 성질을 충분히 활용하지 못했습니다. 이로 인해 도출된 Bound가 실제 성능보다 다소 보수적(loose)일 수 있습니다.
    • 기댓값(Expected) 기반 분석: 현재 결과는 기댓값에 대한 일반화 오차를 다루고 있으며, High-Probability Bound(높은 확률로 오차를 보장하는 형태)는 아닙니다.
  • Future Work:
    • High Probability Bounds: 기댓값이 아닌 높은 확률로 일반화 성능을 보장하는 이론으로 확장.
    • Privacy & Memorization: Score Stability와 데이터 프라이버시, 암기(Memorization) 현상 간의 관계를 더 깊이 있게 연구.
    • 다양한 Sampler 분석: 본 연구에서 다룬 Euler-Maruyama 외에, Probability Flow ODE 등 다른 샘플링 알고리즘에 대한 안정성 분석으로 확장.

Overall Summary

이 논문은 Diffusion Model이 훈련 데이터를 단순히 암기하지 않고 새로운 데이터를 생성할 수 있는 이유를 Algorithm-Dependent한 관점에서 이론적으로 규명했습니다. 저자들은 Score Stability라는 개념을 도입하여, Early Stopping(Denoising), Coarse Sampling, 그리고 SGD의 Noise가 모델의 과적합을 막고 일반화를 돕는 핵심적인 Implicit Regularisation 요인임을 수학적으로 증명했습니다. 이 연구는 Diffusion Model의 학습 및 샘플링 하이퍼파라미터가 모델 성능에 미치는 영향을 이론적 근거를 통해 설명함으로써, 향후 더 효율적인 알고리즘 설계에 중요한 기반을 제공합니다.


쉬운 설명

이 논문의 핵심 아이디어는 **"너무 완벽하게 공부하면 오히려 창의력이 떨어진다"**는 것과 비슷합니다.

만약 Diffusion Model이 교과서(학습 데이터)를 토씨 하나 안 틀리고 완벽하게 외우고(Perfect Optimization), 시험 칠 때도 교과서 그대로 답을 쓴다면(Perfect Sampling), 그 모델은 훈련 데이터랑 똑같은 그림만 그려낼 것입니다. 이건 '생성'이 아니라 '복사'죠.

이 논문은 Diffusion Model이 창의적인 그림을 그릴 수 있는 이유가 역설적으로 "불완전함" 때문이라고 말합니다.

  1. 학습할 때 끝까지 안 가고 적당히 멈추고 (Early Stopping),
  2. 그림을 그릴 때도 꼼꼼하게 안 그리고 듬성듬성 그리며 (Coarse Sampling),
  3. 학습 과정 자체에 노이즈가 많아서 대략적인 패턴만 익히게 되기 (SGD Noise) 때문입니다.

이러한 **알고리즘적 요령(또는 불완전함)**들이 모델이 데이터를 달달 외우는 것을 방지하고, 데이터의 핵심 특징(패턴)만 배우게 만들어서(Implicit Regularisation) 결국 새로운 이미지를 잘 생성하게 만든다는 것을 수학적으로 증명한 것입니다.

 

 

 

 

 

 

 

 

 

 

 

 

Abstract

Denoising diffusion models의 성공은 특히 high-dimensional 설정에서 generalisation 행동에 관한 중요한 질문들을 제기합니다. 주목할 점은, training과 sampling이 완벽하게 수행될 때 이러한 models는 training data를 memorise한다는 것이 밝혀졌으며, 이는 generalisation을 위해 어떤 형태의 regularisation이 필수적임을 시사합니다. 기존의 이론적 분석들은 주로 uniform convergence와 같은 algorithm-independent 기법들에 의존하며, generalisation bounds를 얻기 위해 model structure를 크게 활용합니다.

본 연구에서는 대신 diffusion models에서 generalisation을 촉진하는 algorithmic 측면을 활용하여, 이 설정에 대한 algorithm-dependent generalisation의 일반 이론을 개발합니다. Algorithmic stability 프레임워크를 차용하여, 우리는 dataset perturbations에 대한 score-matching algorithms의 sensitivity를 정량화하는 score stability 개념을 도입합니다.

우리는 score stability 관점에서 generalisation bounds를 유도하고, 우리의 framework를 몇 가지 기초적인 learning settings에 적용하여 regularisation의 원천을 식별합니다. 특히, 우리는 early stopping을 포함한 denoising score matching(denoising regularisation), sampler-wide coarse discretisation(sampler regularisation), 그리고 SGD를 이용한 optimising(optimisation regularisation)을 고려합니다. 분석의 근거를 model structure가 아닌 algorithmic properties에 둠으로써, 우리는 문헌에서 지금까지 간과되어 왔던 diffusion models 고유의 여러 implicit regularisation 원천들을 식별해 냅니다.