AI바라기의 인공지능

diffusion : 논문 리뷰 : A phase transition in diffusion models reveals the hierarchical nature of data 본문

논문리뷰

diffusion : 논문 리뷰 : A phase transition in diffusion models reveals the hierarchical nature of data

AI바라기 2026. 4. 15. 15:29


용어 설명

  • Forward-backward protocol: 모델에 특정 시간(t) 혹은 노이즈 수준까지 노이즈를 추가(forward)한 뒤, 그 지점에서부터 다시 디노이징 과정(backward)을 거쳐 새로운 이미지를 생성해보는 실험 기법. 모델이 특정 시점에 어떤 정보를 잃고 어떤 정보를 유지하는지 파악하는 데 사용됨.
  • Phase transition (상전이): 확산 과정 중 특정 노이즈 임계점에 도달했을 때, 원본 이미지의 핵심 정체성(class)이 유지될 확률이 갑자기 무작위 수준(random chance)으로 급격히 떨어지는 통계물리학적 현상.
  • Compositional / Hierarchical structure: 데이터가 구성되는 방식. 아주 작은 세부 특징(눈, 코, 질감)들이 모여 중간 수준의 특징(머리, 다리)을 만들고, 이것들이 다시 모여 전체 형태(class, 표범)를 이루는 계층적이고 조합적인 성질.
  • Random Hierarchy Model (RHM): 이 논문에서 데이터의 계층적 구조를 이론적으로 분석하기 위해 고안한 합성 트리 모델. 상위 노드(class)부터 하위 노드(input features)로 특정 규칙을 통해 데이터를 생성함.
  • Belief Propagation (BP): 트리 형태의 그래피컬 모델에서 각 노드들이 자신의 상태에 대한 확률값(message)을 위아래로 주고받으며, 가장 최적화된 상태(Bayes optimal denoising)를 추론해내는 알고리즘.
  • Mean-field approximation (평균장 근사): 복잡한 시스템에서 개별 요소들의 무작위성에 의한 변동을 무시하고, 평균적인 값으로 시스템의 거시적인 흐름(여기서는 상전이 시점)을 수학적으로 예측하는 분석 기법.

Purpose of the Paper

  • 기존 연구의 한계: Deep learning의 놀라운 성능은 자연 데이터(이미지 등)에 내재된 hierarchical 및 compositional 구조를 모델이 잘 포착하기 때문이라고 여겨져 왔음. 하지만 이를 수학적으로 공식화하고, 특히 generative AI가 새로운 이미지를 생성할 때 이 구조를 어떻게 활용하는지 증명하는 것은 미해결 과제였음. 또한 기존 이론 연구들은 단순한 데이터 분포(예: 가우시안 혼합 모델)만을 가정하여, 복잡한 계층 구조를 가진 데이터에서의 diffusion models 작동 원리를 설명하지 못함.
  • 새로운 문제 정의 및 접근 방식: 이 논문은 diffusion models가 시간(노이즈 수준)의 흐름에 따라 데이터의 어떤 계층적 특징(scale)을 다루고 조작하는지 정량적, 통계물리학적으로 규명하고자 함. 이를 위해 실제 데이터의 구조를 본뜬 계층적 생성 모델(RHM)을 제안하고, 특정 노이즈 수준에서 모델의 class 인지 능력이 급변하는 현상을 이론적, 실험적으로 입증하여 생성 모델의 '조합 능력(compositionality)'을 증명함.

Key Contributions

  • 계층적 특징 보존 및 조합 현상의 정량화 (Novelty): Forward-backward 실험을 통해 특정 시간 t를 기점으로 이미지의 class가 급변하는 phase transition 현상을 발견함. 가장 참신한 발견은, 임계점 이후 상위 계층인 class가 완전히 다른 것으로 바뀌더라도 원본 이미지의 low-level features(눈 모양, 무늬 등)는 소멸하지 않고 살아남아 새로운 class의 이미지를 구성(compose)하는 데 재활용된다는 것을 SOTA vision models의 hidden layer 분석을 통해 최초로 수치화한 점임.
  • 실제 데이터를 모방한 이론적 뼈대(RHM) 구축 (Novelty): 단순 분포를 넘어, 데이터가 상위 개념에서 하위 픽셀로 분기하며 생성되는 구조를 본뜬 Random Hierarchy Model을 머신러닝 이론에 도입함. 이는 복잡한 실제 데이터의 구조적 특성을 수학적으로 다룰 수 있는 독창적인 프레임워크임.
  • 최적 디노이징의 수학적 증명 (Key Contribution): Belief Propagation과 Mean-field approximation을 사용하여 RHM의 최적 디노이징 과정을 완벽하게 계산함. 그 결과, 상위 노드(class)의 복원 확률은 특정 노이즈 임계점에서 붕괴(phase transition)하지만 하위 노드의 복원 확률은 부드럽게 변한다는 사실을 수학적으로 유도해 내어, 실험적 관찰(class는 바뀌어도 디테일은 남는 현상)을 완벽한 이론으로 뒷받침함.

Experimental Highlights

  • Real Data Experiment (ImageNet & DDPM):
    • Setups: Class-unconditional DDPM을 이용해 ImageNet 데이터에 노이즈를 주입하고 복원함. 생성된 이미지의 특징 변화를 정량화하기 위해 훈련된 ConvNeXt Base 모델의 각 hidden layer postactivations 간 Cosine similarity를 측정함.
    • Results: 역전파 시간이 전체 확산 시간의 절반(t 약 T/2) 근처에 도달했을 때, 가장 깊은 layer(class 담당)의 similarity가 급강하하는 phase transition이 명확히 관찰됨. 반면 얕은 layer(low-level features 담당)의 그래프는 훨씬 완만하게 떨어짐. 특히 상전이 구간을 지나면서 얕은 layer와 깊은 layer의 similarity 그래프 순서가 뒤집히는 역전 현상(inversion)이 발생함. 이는 모델이 원본의 디테일을 유지한 채 새로운 class를 조합해냈음을 의미함.
  • Synthetic Data Experiment (RHM & CNN):
    • Setups: RHM 모델(알파벳 사이즈 16, 분기 인수 2, 트리 깊이 7)을 생성하고, 이에 맞춘 깊이 7짜리 CNN 구조를 30만 개의 샘플로 훈련시킴.
    • Results: 이론적으로 계산된 노드 계층별 Belief Propagation 복원 확률 그래프와 훈련된 CNN의 layer별 Cosine similarity 그래프가 놀라울 정도로 정확히 일치함. 즉, U-Net 구조의 CNN이 노이즈를 제거하는 과정이 이론적으로 계산된 BP 알고리즘의 메시지 교환(upward/downward) 흐름을 실제로 훌륭하게 근사하고 있음을 입증함.

Limitations and Future Work

  • Limitations: 본 연구에서는 데이터의 계층적 구조 변화를 추적하기 위해 deep networks의 내부 representation(hidden layer 활성화 값)을 proxy(대리 지표)로 사용함. 즉, 실제 이미지의 어떤 픽셀 집합이 정확히 트리의 어떤 하위 노드(latent variable)에 해당하는지 직접적으로 맵핑하여 추출하지는 못했다는 명확한 한계가 존재함.
  • Future Work:
    • 이러한 한계를 극복하기 위해 향후 hierarchical image segmentation 기술을 활용하여 실제 이미지에서 직접 latent variables를 추출하고, 이를 기반으로 forward-backward 예측을 직접 검증할 계획임.
    • 이론의 적용 범위를 확장하여, language나 biological structures(단백질, DNA)처럼 diffusion models가 널리 쓰이는 다른 형태의 데이터 modality에서도 본 이론이 성립하는지 테스트할 예정임.
    • 이 논문에서 확립한 hierarchical generative models를 분석 도구로 사용하여, foundation models가 훈련 데이터를 단순히 암기(memorize)하지 않고 어떻게 일반화(generalize)하며 새로운 기술을 창발(emergence)하는지에 대한 더 깊은 머신러닝의 근본적인 질문을 해결하고자 함.

Overall Summary

이 논문은 diffusion models가 데이터를 생성할 때 시간(노이즈) 스케일에 따라 데이터의 계층적 특징들을 다루는 방식이 다르다는 것을 통계물리학적 모델을 통해 증명했습니다. 특정 노이즈 임계점에서 전체 정체성(class)은 상전이 현상을 겪으며 붕괴하지만, 하위 세부 특징(low-level features)들은 살아남아 새로운 정체성을 조립(compose)하는 데 사용됨을 밝혀냈습니다. 이는 최신 generative AI가 단순히 이미지를 픽셀 단위로 외워서 뱉어내는 것이 아니라, 데이터 내부에 존재하는 조합적이고 계층적인 구조를 파악하고 분해 및 재조립할 수 있음을 이론 및 실험적으로 완벽히 입증한 연구로, 딥러닝의 일반화 능력을 이해하는 데 매우 중요한 수학적 틀을 제공합니다.


쉬운 설명

이 논문의 핵심 발견은 **"레고로 만든 성을 부수고 완전히 다른 모양으로 다시 조립하는 과정"**과 비슷합니다.

완성된 레고 성(원본 이미지)에 흔들림(작은 노이즈)을 주면 겉에 붙은 횃불이나 작은 깃발(low-level features)만 떨어집니다. 이 정도는 금방 원래 위치에 다시 붙일 수 있습니다. 하지만 흔들림을 점점 강하게 주다 보면 어느 순간 뼈대가 와르르 무너지면서 이것이 성이었는지 배였는지 전혀 알 수 없게 되는 **결정적 순간(phase transition)**이 옵니다.

가장 놀라운 점은, 완전히 무너진 잔해 속에서 다시 조립(backward diffusion)을 시작할 때 발생합니다. 모델은 성문이나 창문으로 쓰였던 특유의 격자 모양 레고 조각들(살아남은 하위 특징)을 그대로 재활용하여, 원래의 성이 아닌 우주선(새로운 class)의 날개 패턴이나 엔진 부품으로 새롭게 조립해 냅니다. 즉, AI는 그림을 그릴 때 통째로 덧칠하는 것이 아니라, 미세한 '특징 조각'들을 시간차를 두고 유지하고 변형하며 새로운 그림을 조합해낸다는 것을 이 논문이 수학적으로 증명해낸 것입니다.

 

 

 

더보기

자연 이미지는 hierarchical한 조합 구조를 가지며, diffusion noise는 먼저 low-level/local feature를 흔들지만, 그 작은 불확실성이 계층적으로 누적되면서 어느 임계점에서 class 같은 high-level semantic이 급격히 붕괴한다

 

Abstract

실제 데이터의 구조를 이해하는 것은 현대 deep-learning 방법론을 발전시키는 데 있어 무엇보다 중요합니다. 이미지와 같은 자연 데이터는 계층적이고 combinational 방식으로 조직된 features로 구성되어 있다고 믿어지며, neural networks는 학습 과정에서 이를 포착합니다.

최근의 발전은 diffusion models가 고품질 이미지를 생성할 수 있음을 보여주며, 이는 이러한 근본적인 compositional structure를 포착하는 능력이 있음을 암시합니다. 우리는 데이터의 계층적 generative model에서 이러한 현상을 연구합니다. 우리는 시간 $t$ 이후에 작동하는 backward diffusion process가 특정 임계 시간에서의 phase transition에 의해 지배된다는 것을 발견했습니다. 이 시점에서 이미지의 class와 같은 high-level features를 재구성할 확률이 갑자기 떨어집니다. 반면, 이미지의 구체적인 세부 사항과 같은 low-level features의 재구성은 전체 diffusion process에 걸쳐 부드럽게 진화합니다.

이 결과는 임계 시간을 넘어서면 class가 변경되지만, 생성된 sample은 여전히 초기 이미지의 low-level elements로 구성될 수 있음을 의미합니다. 우리는 class-unconditional ImageNet diffusion models에 대한 수치 실험을 통해 이러한 이론적 통찰을 검증합니다. 우리의 분석은 diffusion models에서 시간과 scale 사이의 관계를 규명하며, generative modelscombinatorial 데이터 특성을 모델링하는 강력한 도구로 제시합니다.

 

 

 

Introduction

더보기

알고리즘에 의해 어떤 데이터가 학습 가능한지 이해하는 것은 machine learning의 핵심입니다. supervised, unsupervised, 또는 self-supervised learning과 같은 기술들은 가장 자주 high-dimensional data와 함께 사용됩니다. 그러나 큰 차원에서, 일반적인 데이터나 tasks의 경우, 학습에는 차원에 따라 기하급수적으로 증가하는 수의 training examples가 필요하며, 이는 실제로는 결코 달성할 수 없습니다.

제한된 training set 크기에서 이러한 방법들의 성공은 이미지나 텍스트와 같은 high-dimensional data가 고도로 구조화되어 있음을 암시합니다. 특히, 이러한 데이터는 계층적이고 compositional 방식으로 조직된 features로 구성되어 있다고 믿어집니다. 틀림없이, generative models는 예제들로부터 학습된 features를 조립하여 완전히 새로운 데이터를 구성할 수 있습니다. 그러나 이러한 아이디어를 공식화하고 테스트하는 것은 미해결 과제입니다.

본 연구에서, 우리는 DALL·E와 StableDiffusion 같은 diffusion models가 전체 diffusion process에 걸쳐 다양한 계층적 수준에서 features를 구성함으로써 이미지를 어떻게 생성하는지 보여줍니다. 구체적으로, 우리는 먼저 이미지의 denoising diffusion에서 compositional 효과에 대한 정량적 증거를 제공합니다. 그런 다음 우리는 계층적이고 compositional 데이터의 합성 모델을 통해 이러한 효과의 이론적 특성을 제공합니다.

Diffusion models는 시간이 지남에 따라 이미지에 noise를 추가하고, 새로운 samples를 생성하기 위해 역방향의 denoising process를 학습합니다. 특히, 이미지에 유한한 양의 noise가 추가된 후 그 과정이 역전되면, 우리는 다음을 관찰합니다: (i) 작은 noise의 경우, 이미지의 low-level features만 변경됩니다. (ii) 임계 noise에서, 같은 class에 남아있을 확률은 무작위 확률에 가깝게 갑자기 떨어집니다. (iii) 그 지점을 넘어서면, low-level features가 지속되어 새로운 class의 요소를 구성할 수 있습니다.

관찰 (i)은 직관적이고 이전에 처음 주목받았지만, 큰 noise에서 low-level features만 변하지 않은 채로 남아있을 수 있다는 사실은 놀랍습니다. 우리는 아래에서 이 속성이 계층적 데이터에 대해 예상된다는 것을 보여줄 것입니다. 이러한 결과는 Figure 1과 같은 예에서 이미 분명하게 나타나며, 우리는 state-of-the-art convolutional neural networks에서 내부 representations의 변화를 고려하여 이를 체계적으로 정량화합니다.

우리는 관찰 (i), (ii), (iii)이 형식 문법 및 통계 물리학 모델에서 영감을 받은, 계층적이고 compositional 구조를 가진 데이터의 generative models를 통해 이론적으로 설명될 수 있음을 보여줍니다. 우리는 이러한 모델에 대해 베이즈 최적 denoising이 tree-like graphs에서 belief propagation을 사용하여 정확하게 설명될 수 있음을 입증합니다. 놀랍게도, 우리의 분석은 class에서의 위상 전이(관찰 (ii))와 이 전이 전후에 새로운 데이터를 생성하기 위해 어떻게 lower-level features가 구성되는지(관찰 (i) 및 (iii))를 모두 예측하고 설명합니다.

전반적으로, 우리의 결과는 diffusion models가 diffusion process 내의 서로 다른 시간 척도에서 데이터의 다양한 계층적 수준에서 작용한다는 것을 밝히고, 계층적 generative models를 machine learning에서 풀리지 않은 여러 질문을 해결하는 귀중한 이론적 도구로 확립합니다.

A. Our contributions.

우리는 ImageNet에 대한 denoising diffusion 역학의 체계적인 연구를 수행합니다. 우리는 특정 시간 $t$에서 noising process를 역전시켜, 새롭고 노이즈가 없는 이미지를 생성합니다. 그런 다음 시간 $t$와 representation의 깊이 모두의 함수로서, 초기 이미지와 새로 생성된 이미지 간에 state-of-the-art convolutional architectures의 representation이 어떻게 변하는지 분석합니다. 이 분석은 주어진 시간이나 noise 수준에서 class에 급격한 전환이 존재함을 밝혀냅니다. 중요하게도, 전환 이후의 시간대, 즉 class가 변경되었을 때, 우리는 생성된 이미지가 여전히 원본 이미지의 low-level features로 구성될 수 있음을 발견했습니다.

이미지의 compositional 구조를 이론적으로 모델링하기 위해, 우리는 latent variables의 구조가 트리 형태인 데이터의 계층적 generative models를 고려합니다. 우리는 이러한 데이터에 대한 최적의 denoising 역학을 연구하기 위해 belief propagation을 사용하고, 다양한 수준의 손상 noise에 대한 latent variables 확률의 진화를 얻습니다. 큰 트리 깊이의 한계에서, 이 분석은 데이터 포인트의 class label을 나타내는 트리의 root node를 재구성할 확률에 대해 특정 noise 임계값에서의 위상 전이를 드러냅니다. 반대로, low-level latent variables를 재구성할 확률은 전체 denoising diffusion process 동안 부드럽게 진화합니다. 따라서 전환 이후에 원본 데이터의 low-level features는 우리가 ImageNet에서 경험적으로 관찰한 바와 같이 새로운 class의 생성된 요소를 구성하는 데 계속 존재할 수 있습니다. 마지막으로, 우리는 latent variables의 역학이 이러한 데이터에 대한 supervised classification task에서 이전에 훈련된 깊은 네트워크의 hidden representation에 반영됨을 수치적으로 보여줍니다.

Organization of the paper

Section 1에서 우리는 denoising diffusion probabilistic models를 소개하고 ImageNet 데이터에 대한 우리의 대규모 실험을 제시합니다. Section 2에서 우리는 이론적으로 연구하는 데이터의 계층적 generative model을 정의합니다. Section 3에서 우리는 message-passing techniques를 사용하여 이러한 데이터에 대한 최적의 denoising을 연구하고, 우리의 모델이 실제 데이터에서의 실험적 관찰을 포착함을 보여줍니다. Section 4에서 우리는 최적의 denoising process에 대한 mean-field analysis를 수행하여, 임계 noise 값에서의 class의 위상 전이와 lower-level features의 재구성 확률에 대한 분석적 예측을 얻습니다.

 

 

■ 논문 핵심 정리 노트 (AI 연구자용)

Introduction 섹션 요약: Diffusion Models의 계층적 데이터 생성 메커니즘과 위상 전이(Phase Transition) 규명

이 논문은 diffusion modelsdiffusion process 과정에서 서로 다른 계층적 수준의 features를 어떻게 구성하여 이미지를 생성하는지 경험적 관찰과 이론적 모델링을 통해 증명합니다.

  • 주요 실험적 관찰 (ImageNet Denoising)
    1. Small Noise: 원본 이미지의 low-level features만 변경됨.
    2. Threshold Noise: 특정 임계점을 넘으면, 원본의 class를 유지할 확률이 무작위 수준으로 급감하는 phase transition이 발생함.
    3. Large Noise (전이 이후): class가 완전히 다른 것으로 바뀌었음에도 불구하고, 원본 이미지의 low-level features가 남아 새로운 class의 요소를 구성함.
  • 이미지에 노이즈를 추가한 후 특정 시간 $t$에서 역방향 denoising을 수행할 때 다음과 같은 현상이 나타납니다.
  • 이론적 기여 및 증명 방식
    • 이러한 경험적 현상을 설명하기 위해 latent variables가 트리 형태인 계층적이고 조합적인 데이터의 generative models를 도입함.
    • 트리 구조 그래프상에서 belief propagation을 사용하여 최적의 denoising 역학을 정확하게 설명함.
    • Mean-field analysis를 통해, 트리의 루트 노드(class label) 재구성 확률에서 나타나는 임계 노이즈에서의 phase transition을 수학적으로 예측함.
    • 반면 하위 계층의 latent variables 재구성 확률은 denoising process 내내 부드럽게 진화함을 증명하여, 전이 이후에도 low-level features가 유지되는 이유를 이론적으로 뒷받침함.
  • 검증
    • 이러한 latent variables의 역학 변화가 실제 Supervised Classification Task로 사전 학습된 State-of-the-art CNN의 내부 representations 변화와 정확히 일치함을 수치상으로 확인.

■ 쉬운 설명

이 논문의 핵심 아이디어를 "레고 블록 조립"에 비유해서 설명해 드릴게요.

디퓨전 모델은 이미지를 만들 때, 한 번에 뚝딱 그려내는 것이 아니라 전체적인 뼈대(주제)부터 자잘한 디테일(색감, 질감)까지 단계별로 조립해 나갑니다. 연구진은 이 모델에 '노이즈(방해물)'를 섞어보면서 모델이 이미지를 어떻게 복구하는지 관찰했습니다.

  • 노이즈를 조금만 넣었을 때: 사진의 전체적인 주제(예: 고양이)는 그대로 둔 채, 털의 색깔이나 배경의 조명 같은 '자잘한 디테일'만 살짝 바뀝니다.
  • 노이즈를 어느 '임계점' 이상 확 넣었을 때 (가장 신기한 발견): 갑자기 사진의 '주제' 자체가 완전히 다른 것으로 바뀌어버립니다 (예: 고양이에서 강아지로). 논문에서는 이를 **위상 전이(Phase Transition)**라고 부릅니다. 얼음이 갑자기 물로 녹아버리는 것처럼 순식간에 일어나는 변화죠.
  • 더욱 놀라운 점: 주제가 강아지로 완전히 바뀌었음에도 불구하고, 원래 고양이 사진이 가지고 있던 특유의 색감이나 털의 질감 같은 '자잘한 디테일'은 그대로 남아서 새로운 강아지를 그리는 데 재활용됩니다.

즉, 이 논문은 **"디퓨전 모델은 노이즈가 클 때는 이미지의 큰 그림(주제)을 결정하고, 노이즈가 작을 때는 세부적인 디테일을 결정한다"**는 사실을 밝혀낸 것입니다. 더 나아가, 이 현상이 단순히 실험에서만 나타나는 우연이 아니라, '트리 구조'와 '통계 물리학' 공식을 통해 수학적으로 반드시 일어날 수밖에 없는 필연적인 현상임을 완벽하게 증명해 냈다는 데에 큰 의의가 있습니다.

 

더보기

Figure 1 설명: Forward-backward 실험의 시각적 예시

이 이미지는 diffusion model에서 이미지에 노이즈를 점진적으로 가했다가 다시 복원하는 과정(forward-backward 실험)에서 시간이 흐름에 따라 이미지가 어떻게 변하는지 직관적으로 보여줍니다.

  • $t=0$ (원본): 왼쪽 상단의 원본 눈표범 이미지입니다.
  • $t=0.5T$ (작은 노이즈): 오른쪽 상단 이미지입니다. 원본의 class(눈표범)는 그대로 유지되고 있습니다. 눈의 형태나 털의 결 같은 low-level features에만 미세한 변화가 생겼습니다.
  • $t=0.6T$$t=0.7T$ (큰 노이즈 & Phase transition): 하단의 두 이미지입니다. 특정 시간(임계점)을 지나면서 이미지의 class가 눈표범에서 늑대, 그리고 나비로 완전히 뒤바뀌는 phase transition이 발생했습니다.
  • 핵심 관찰 포인트: class가 늑대나 나비로 완전히 바뀌었음에도 불구하고, 늑대의 눈코입 위치나 귀 모양, 나비 날개의 회색빛 색상과 검은색 반점 패턴은 원본 '눈표범'의 특징을 그대로 물려받았습니다. 즉, 원본의 low-level attributes가 끈질기게 살아남아 새로운 class의 이미지를 구성(compose)하는 데 재사용되었음을 시각적으로 뚜렷하게 보여줍니다.

 

 

 

더보기

Figure 2 설명: 대규모 샘플 적용 및 내부 표현(Representation)의 정량적 분석

이 이미지는 앞서 Figure 1에서 본 현상이 우연이 아니며, 다양한 데이터와 실제 딥러닝 모델의 내부 수치를 통해서도 동일하게 나타남을 증명합니다.

1. Left panel (왼쪽 이미지 격자)

  • Figure 1의 현상이 개나 노란색 자동차 등 다양한 데이터에서도 똑같이 적용됨을 보여줍니다.
  • 노이즈 복원 시간 $t$가 커짐에 따라, 개가 표범이나 건물로 변하고, 노란색 자동차가 노란색 냄비 요리나 건물로 변합니다. 여기서도 class는 변하지만 원본의 전체적인 형태, 구도, 특히 '노란색'이라는 지배적인 low-level features는 끝까지 유지되는 것을 볼 수 있습니다.

2. Right panel (오른쪽 그래프 - 핵심 증명 자료)

  • 이 그래프는 ConvNeXt 모델을 사용하여 원본 이미지와 생성된 이미지 간의 내부 representations 변화를 cosine similarity(코사인 유사도)로 측정하여 정량화한 결과입니다.
  • 보라색 선 (Logits / High-level): 이미지의 최종 class를 결정하는 가장 깊은 계층입니다. 그래프를 보면 $t \approx 0.5T$ 부근에서 유사도가 절벽처럼 뚝 떨어지는 것을 볼 수 있습니다. 이것이 바로 논문에서 주장하는 class의 급격한 phase transition(위상 전이)을 숫자로 증명한 것입니다.
  • 빨간색/주황색 선 (First layers / Low-level): 이미지의 윤곽, 색상 등 low-level features를 담당하는 얕은 계층들입니다. 보라색 선과 달리, 전체 시간 $t/T$에 걸쳐 유사도가 매우 완만하고 부드럽게 감소합니다.
  • 결론: 이 그래프는 class가 급격히 붕괴되는 임계점(보라색 선의 급락 구간)을 지나더라도, 초기 계층의 정보(붉은색 선들)는 여전히 높게 유지된다는 것을 수학적으로 증명합니다. 즉, "큰 노이즈에서는 디테일이 유지되며 새로운 클래스를 구성한다"는 논문의 핵심 주장을 완벽하게 뒷받침하는 데이터입니다.

 

 

 

 

 

 

 

 

B. Related work.

더보기

Forward-backward protocol in diffusion-based models

diffusion-based models를 탐색하기 위해 "forward-backward" 프로토콜을 도입했으며, 이를 통해 제어된 수준의 noise가 있는 이미지가 reverse-time diffusion process를 사용하여 denoised됩니다. 이는 "noise가 작을 때는 fine details를 제외한 모든 것이 보존되고, 클 때는 large scale features만 보존된다"는 관찰로 이어졌습니다. 비록 우리의 연구가 이 진술의 첫 번째 부분에는 동의하지만, 두 번째 부분에는 동의하지 않습니다. 우리의 연구는 또한 개별 이미지에 기반한 정성적 관찰을 넘어, forward-backward 실험의 효과에 대한 체계적인 정량화를 제공합니다. 구체적으로, 우리는 이미지의 latent features 변화를 특징짓는 정량적 관측값을 도입하고, $10^5$개의 ImageNet samples에 대해 결과를 평균 내어 state-of-the-art models로 광범위한 실험을 수행합니다. 이러한 정량화는 이론과 연결하는 데 핵심적입니다. forward-backward 프로토콜은 이미지의 generation process를 가속화하기 위해 연구되기도 했습니다.

Theory of diffusion models

diffusion models에 대한 대부분의 이론적 연구는 간단한 models of data를 고려합니다. data distribution에 대한 가벼운 가정 하에서, diffusion models data dimension에 따라 기하급수적으로 증가하는 sample complexity를 나타냅니다. 이러한 curse of dimensionality low-dimensional latent subspace, Gaussian mixture models, graphical models 또는 스케일 전반에 걸쳐 분해될 수 있는 data distributions 내에 존재하는 데이터를 고려하는 것과 같은 더 강력한 분포 가정들을 통해 완화될 수 있습니다. Gaussian mixtures와 같은 multimodal distributions의 경우, backward dynamics modes 중 하나로 집중될 때 교차하는 시간을 나타냅니다. 이러한 교차는 이러한 modes classes로 해석된다면 앞서 언급한 우리의 관찰 (ii)와 유사합니다. SI Appendix 5에서 입증되었듯이, 그러한 models of data는 우리의 주요 예측과 관찰을 재현할 수 없습니다. 우리의 연구와 더 유사하게, 한 연구에서는 synthetic compositional data를 고려하여 diffusion models가 다양한 개념을 구성함으로써 어떻게 일반화하는 법을 배우는지 경험적으로 보여줍니다. 대조적으로, 우리는 compositional할 뿐만 아니라 hierarchically structured된 데이터를 연구하고, diffusion models가 어떻게 서로 다른 스케일에서 features를 구성하는지에 대한 정량적인 예측을 합니다.

Hierarchical models of natural data

데이터의 Generative models는 언어와 이미지 데이터의 구조를 설명해 온 긴 역사를 가지고 있습니다. 언어학에서 형식 문법은 hierarchical tree graph를 통해 언어의 구문 구조를 설명합니다. 시각적 장면을 객체, 부분, 그리고 원시 요소로 계층적으로 분해하기 위한 유사한 아이디어들이 탐구되었고, 패턴 이론으로 공식화되었습니다. 이러한 계층적 모델들은 예를 들어 설명된 바와 같이 semantic segmentation과 장면 이해를 위한 실용적인 알고리즘으로 이어졌습니다. 최근 연구들은 이미지를 계층적으로 분해하는 방법을 제안하는데, 여기서 latent variables는 서로 다른 스케일에서의 wavelet coefficients입니다. 이 경우, 그래프는 트리 구조가 아니며, 이는 latent variables의 특정 선택에서 기인할 수 있는 결론입니다.

Hierachical models in machine learning theory

더 최근에는, 데이터의 generative models가 기계 학습 이론의 맥락에서 주목을 받았습니다. supervised learning에서, deep networks shallow networks보다 계층적 작업을 더 효율적으로 표현할 수 있으며 information theory 관점에서 이를 효율적으로 학습할 수 있습니다. 데이터의 계층적 모델의 경우, 입력 데이터와 작업 간의 상관관계가 학습에 중요하며, gradient descent를 통해 neural networks가 학습한 representations Convolutional Neural Networks(CNNs)와 transformers 모두에서 이러한 모델의 숨겨진 latent variables를 반영합니다. 본 연구에서 우리는 diffusion models denoising dynamics를 이론적으로 연구하기 위해 이러한 데이터의 계층적 generative models를 사용합니다.

 

■ 논문 핵심 정리 노트 (AI 연구자용): Related Work

Related work 섹션 요약: 기존 연구의 한계 지적 및 본 논문의 차별적 기여점(대규모 정량화 및 계층적 모델링 도입)

이 섹션은 기존 diffusion models 관련 연구들이 놓쳤던 부분들을 조명하며, 본 논문이 이를 어떻게 정량적, 이론적으로 극복했는지 명확히 합니다.

  • 기존 'Forward-backward' 실험의 정면 반박 및 대규모 정량화
    • 기존 연구의 주장: noise가 클 때는 large scale features만 보존된다고 주장함.
    • 본 논문의 반박: 위 주장에 동의하지 않음. 노이즈가 커서 class가 바뀌더라도 low-level features가 보존되어 새로운 class를 구성함을 증명함.
    • 핵심 기여: 기존의 단일 이미지 기반 정성적 관찰에서 벗어나, $10^5$개의 ImageNet samples에 대해 latent features 변화를 체계적으로 정량화함. 이는 실험을 '이론'과 연결하는 결정적 토대가 됨.
  • 기존 확산 모델 이론(Theory)의 한계 극복
    • 기존 이론의 한계: 주로 단순한 models of data(예: Gaussian mixtures)에 의존하여 분석함. 이러한 단순 모델들은 '클래스는 바뀌어도 디테일은 유지되는' 본 논문의 핵심 관찰을 재현해 내지 못함.
    • 본 논문의 차별점: 데이터를 단순히 compositional(조합적)한 것으로만 보지 않고, hierarchically structured(계층적으로 구조화된) 것으로 모델링함. 이를 통해 서로 다른 스케일에서 features가 어떻게 구성되는지 정량적으로 예측해냄.
  • 계층적 생성 모델(Hierarchical models)의 이론적 도구화
    • 데이터의 계층적 구조(언어의 구문 트리, 시각적 장면의 분해 등)는 기존 기계학습 이론에서도 다뤄져 왔으며, CNN이나 transformersrepresentations가 이를 반영한다는 점은 알려져 있었음.
    • 본 논문의 기여: 이러한 데이터의 계층적 generative models를 바탕으로, diffusion modelsdenoising dynamics를 이론적으로 규명하는 데 성공적으로 차용함.

■ 쉬운 설명

기존 연구자들이 디퓨전 모델을 연구할 때 범했던 '착각'과 '단순화'를 이 논문이 어떻게 바로잡았는지 설명하는 부분입니다.

  • 기존 연구자들의 착각 바로잡기:
  • 기존에도 이미지에 노이즈를 넣었다 빼보는 실험은 있었습니다. 하지만 기존 연구자들은 몇 장의 이미지만 눈대중으로 보고 "노이즈를 많이 넣으면 전체적인 큰 틀만 남는다"라고 잘못된 결론을 내렸습니다. 이 논문은 무려 10만 장의 이미지를 수학적으로 꼼꼼히 분석하여, **"아니다, 노이즈를 많이 넣어서 주제(고양이->강아지)가 완전히 바뀌더라도 털의 질감 같은 자잘한 디테일은 끈질기게 살아남는다"**라며 데이터로 팩트 폭행을 시전한 것입니다.
  • 기존 수학 공식의 한계 뛰어넘기:
  • 기존 수학자들은 디퓨전 모델을 분석할 때 계산하기 편하도록 데이터를 너무 '단순한 덩어리(예: 가우시안 분포)'로만 가정했습니다. 그러다 보니 앞서 말한 '주제는 바뀌는데 디테일은 살아남는' 기묘한 현상을 설명할 수 없었죠. 그래서 이 논문은 데이터를 **'레고 블록처럼 계층적으로 조립된 구조'**로 가정하는 훨씬 정교한 모델을 들고 왔습니다.

결론적으로, 남들이 뭉뚱그려 해석하고 단순하게 계산하던 것을, 이 논문은 압도적인 스케일의 데이터 팩트 체크더 정교한 '계층 조립형' 수학 모델을 통해 디퓨전 모델의 작동 원리를 완벽하게 까발렸다는 것이 이 섹션의 핵심입니다.

 

 

 

 

더보기

Figure 3 설명: 데이터의 계층적 생성 모델

이 이미지는 복잡한 자연 데이터(이미지)가 어떻게 작은 요소들의 결합으로 이루어져 있는지를 직관적인 예시(왼쪽)와 이를 추상화한 수학적 모델(오른쪽)로 나누어 설명합니다.

1. Left panel (왼쪽 그림 - 직관적 예시)

  • 우리가 보는 '눈표범' 이미지는 단순히 픽셀들의 무작위한 나열이 아니라, features의 계층적인 조립품이라는 것을 보여줍니다.
  • 가장 위쪽 (전체): 눈표범 전체의 모습입니다.
  • 중간 단계: 얼굴, 앞발 등 큼직한 부분으로 나뉩니다.
  • 아래쪽 (세부): 얼굴은 다시 눈, 코, 귀 등으로 나뉘고, 눈은 다시 더 작은 곡선이나 명암 조각들로 계속해서 쪼개집니다.
  • 즉, 데이터는 서로 다른 추상화 수준(levels of abstraction)을 가진 features가 반복적으로 결합하여 만들어진다는 것을 직관적으로 묘사합니다.

2. Right panel (오른쪽 그림 - 이론적 모델)

  • 왼쪽의 직관적인 아이디어를 논문에서 수학적으로 증명하기 위해 도입한 트리 형태의 generative hierarchical model입니다. (그림의 예시는 깊이 $L=3$, 분기 계수 $s=2$인 트리 구조입니다.)
  • label (최상위 루트 노드): 이미지의 최종 정체성, 즉 class(예: 눈표범, 늑대)를 의미합니다.
  • high latents (level 2): label 바로 아래에 있으며, 이미지의 큼직한 구도나 형태 등 추상적인 features를 나타냅니다.
  • low latents (level 1): 더 아래 계층으로, 눈동자의 색, 털의 질감 등 국소적이고 구체적인 features를 나타냅니다.
  • input variables (level 0): 우리가 실제로 관찰하는 가장 밑바닥의 데이터, 즉 이미지의 픽셀 값들입니다.

💡 논문 전체 흐름과 연결하기 (핵심 포인트)

앞서 Figure 1과 2에서 "노이즈를 많이 넣으면 class가 바뀌지만, 디테일은 유지된다"는 현상을 보셨을 것입니다. 이 현상을 오른쪽 트리 모델로 완벽하게 설명할 수 있습니다.

  • 디퓨전 모델이 노이즈를 제거해 나가는 과정은 맨 아래(level $0$)에서 시작해서 위로 올라가며 트리를 복원하는 과정과 같습니다.
  • 노이즈가 작을 때: 아래쪽의 low latents를 복원하는 과정입니다. 이때는 세부 디테일만 결정됩니다.
  • 노이즈가 클 때 (임계점 돌파): 맨 위쪽의 label(루트 노드)을 결정하는 순간입니다. 이때 노이즈가 임계치를 넘으면 모델이 원래의 label(눈표범)을 잃어버리고 다른 label(늑대)로 튕겨져 나가는 phase transition(위상 전이)이 발생합니다.
  • 하지만 맨 위 label이 늑대로 바뀌었더라도, 이미 그 아래 계층인 low latents들(눈표범 특유의 눈매, 색감 등)은 트리의 아래쪽에서 독자적으로 잘 복원되어 유지되고 있기 때문에, 결과적으로 **"눈표범의 디테일을 가진 늑대"**가 생성되는 것입니다.

 

Diffusion models and feature hierarchies

더보기

이 섹션에서는 denoising diffusion probabilistic models를 소개하고 class-unconditional ImageNet diffusion models가 어떻게 서로 다른 시간 척도에서 다양한 계층적 수준의 이미지 features에 작동하는지 보여줍니다.

A. Background on denoising diffusion models.

Denoising diffusion probabilistic models(DDPMs)는 단계별 noise 추가 프로세스를 역으로 수행하여 분포에서 샘플링하도록 설계된 generative models입니다. 특히, $q(\cdot)$를 data distribution이라 하고, $x_0$를 이 분포에서 추출한 샘플이라 합시다, 즉 $x_0 \sim q(x_0)$. 먼저, DDPMs는 다음과 같이 분산 스케줄 ${\beta_t}{1\leq t \leq T}$와 함께 각 시간 단계 $t$에서 isotropic Gaussian noise를 도입하여 노이즈가 추가된 데이터 시퀀스 ${x_t}{1\leq t \leq T}$를 생성하는 마르코프 체인인 forward process로 구성됩니다:

$$q(x_1, \ldots , x_T |x_0) = \prod_{t=1}^{T} q(x_t|x_{t-1}) = \prod_{t=1}^{T} \mathcal{N} (x_t; \sqrt{1 - \beta_t}x_{t-1}, \beta_t I)$$

따라서, 각 시간 단계 $t$에서, 우리는 다음을 갖습니다:

$$x_t = \sqrt{\alpha_t}x_0 + \sqrt{1 - \alpha_t}\eta$$

여기서 $\alpha_t = \prod_{t'=1}^{t}(1 - \beta_{t'})$ 이고 $\eta \sim \mathcal{N}(0, I)$ 입니다. $t \to T$ 일 때 $\alpha_t \to 0$ 이 되도록 노이즈 스케줄을 선택함으로써, $x_T$의 분포는 isotropic Gaussian distribution이 됩니다. 이어서, DDPMs는 backward process에서 노이즈를 점진적으로 제거하여 이 과정을 역전시킵니다. 이 과정에서 모델은 파라미터 $\theta$를 가진 neural network를 사용하여 평균과 분산을 파라미터화함으로써 Gaussian transition kernels $q(x_{t-1}|x_t)$를 학습합니다:

$$p_\theta(x_{t-1}|x_t) = \mathcal{N} (x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))$$

training 후, 학습된 $p_\theta$ $x_T \sim \mathcal{N}(0, I)$ 로 프로세스를 시작하고 역으로 실행하여 $q$로부터 샘플을 얻음으로써 새로운 예제를 생성하는 데 사용될 수 있습니다. DDPMs의 공식화 및 neural networks를 이용한 reverse transition kernels 파라미터화의 기술적 측면에 대한 자세한 내용은 기존 문헌을 참고하시기 바랍니다.

B. Forward-backward experiments.

DDPMs에 대한 이전 연구들은 이미지 $x_0$에서 시작하여 서로 다른 시간 $t$에서 diffusion process를 역전시키면 $t$의 선택에 따라 뚜렷한 특징을 가진 샘플 $\hat{x}_0(t) \sim p_\theta(\hat{x}_0|x_t)$ 가 결과로 나온다는 점을 언급했습니다. 구체적으로, CelebA dataset의 이미지를 확산시켜 얻은 노이즈가 있는 샘플 $x_t$를 조건으로 할 때, 작은 $t$ 값에 대해서는 미세한 세부 사항만 변한다는 것을 발견했습니다. 우리는 256x256 해상도의 ImageNet dataset에서 제안된 class-unconditional DDPM을 사용하여 유사한 실험을 수행합니다.

Figure 2의 왼쪽 패널에서 우리는 이 실험으로 인해 생성된 일부 이미지를 제시합니다. 각 행에 대해 초기 이미지 $x_0$ 뒤에는 $x_0$에서 diffusion process를 시작하고 $0 < t \leq T = 1000$ 인 시간 $t$까지 forward dynamics를 실행한 다음, 궁극적으로 샘플 이미지 $\hat{x}_0(t)$를 생성하기 위해 backward dynamics를 실행하여 생성된 이미지가 이어집니다. 이러한 합성 이미지에서 관찰한 내용은 다음과 같습니다:

(i) 이전 발견과 유사하게, 짧은 역전 시간 $t$에서는 local features만 변경됩니다. 더욱이, 샘플링된 이미지의 class는 해당하는 시작 이미지의 class와 일관성을 유지합니다. 즉, 높은 확률로 $\text{class}(\hat{x}_0(t)) = \text{class}(x_0)$ 입니다.

(ii) 샘플링된 이미지의 class가 갑작스러운 전환을 겪는 특징적인 시간 척도 $t^*$가 존재합니다.

(iii) class가 전환된 후에도, 이미지를 구성하는 일부 low-level features는 지속되어 새로 생성된 이미지에 다시 통합됩니다. 예를 들어 Figure 2의 왼쪽 패널을 보면, 두 번째 행에서 재규어는 시작 사진에 있는 개의 발과 귀로 구성되거나, 세 번째 행에서 소파의 팔걸이는 자동차 헤드라이트의 모양을 상속받습니다.

Section 3과 4에서 제시된 우리의 이론은 관찰 (i), (ii), (iii)에 따라 diffusion dynamics의 서로 다른 시간 척도에서 다양한 계층적 수준의 features가 어떻게 변하는지 예측합니다.

C. ImageNet hidden representations.

앞서 언급한 정성적 관찰을 정량화하기 위해, 우리는 deep learning models architecture의 깊이가 깊어짐에 따라 복잡성이 증가하는 데이터의 hierarchical representations를 학습한다는 경험적으로 알려진 사실을 사용하여 실험을 설계합니다. 이 현상은 실제 및 합성 시나리오 모두에서 사실로 유지됩니다. 따라서 우리는 이러한 내부 representations를 데이터의 compositional structure에 대한 대리물로 사용합니다. 우리는 ImageNet에서 96.9%의 top-5 정확도를 달성하는 깊은 ConvNeXt Base 모델의 hidden representations가 역전 시간 $t$ representation의 깊이 $\ell$의 함수로서 어떻게 변하는지 조사합니다. Figure 2의 오른쪽 패널에서 초기 및 생성된 이미지에 대해 ConvNeXt의 모든 hidden layer post-activations 간의 cosine similarity 값을 설명합니다. 우리는 다음을 관찰합니다:

(i) 이미지의 low-level  localized features에 해당하는 네트워크의 초기 계층의 representations는 짧은 diffusion times에서 가장 먼저 변경되고 부드럽게 진화합니다.

(ii) 특정 시간 및 noise scale에서 logits 간의 유사도는 급격히 하락하여 class의 전환을 나타냅니다.

(iii) class 전환 무렵에는 유사도 곡선의 역전이 있습니다. 실제로, 새 이미지와 생성된 이미지에 대한 첫 번째 계층의 hidden representations는 이제 가장 큰 정렬을 보여줍니다. 이는 Figure 2에서 정성적으로 관찰된 바와 같이, 원본 이미지의 low-level features가 샘플링된 이미지를 구성하는 데 재사용될 수 있음을 나타냅니다.

architecture 선택에 대한 우리 결과의 견고성을 연구하기 위해, 우리는 깊이와 너비가 다양한 ResNet architectures를 사용하여 동일한 측정값을 보고합니다. 우리는 Figure 2의 ConvNeXt와 동일한 정성적 행동을 발견했습니다.

이제 이러한 관찰을 예측하는 우리의 이론을 제시합니다.

 

 

 

■ 논문 핵심 정리 노트 (AI 연구자용): Diffusion models and feature hierarchies

섹션 1 요약: Forward-backward 실험을 통한 DDPM의 계층적 특징 조작 및 내부 표현(Representation) 기반 정량적 증명

이 섹션은 DDPMs의 표준 수학적 배경(Markov chain 기반 forward/backward process)을 짚고 넘어간 후, ImageNet 데이터셋에서 노이즈 역전 시간을 조작하는 실험을 통해 diffusion models가 데이터의 계층적 features를 어떻게 다루는지 정성적/정량적으로 증명합니다.

  • 정성적 관찰: Forward-backward 실험 (ImageNet)
    1. Local features의 부드러운 변화: $t$가 작을 때는 원본의 class가 유지되며, 지엽적인 features만 변경됩니다.
    2. Class Phase Transition: 특징적인 시간 척도 $t^*$에서 생성된 이미지의 class가 갑작스럽게 변하는 위상 전이가 발생합니다.
    3. Compositional Persistence: class 전환 이후에도 원본 이미지의 low-level features가 소멸하지 않고 새로 생성된 타 class 이미지의 구성 요소로 재활용(Reincorporated)됩니다. (예: 개의 귀를 가진 재규어)
  • 특정 시간 $t$까지 forward dynamics를 진행한 후 backward dynamics로 이미지를 복원($\hat{x}_0(t)$)할 때 3가지 핵심 현상이 나타납니다.
  • 정량적 증명: Hidden representations 분석
    1. Low-level 유지: 이미지의 국소적 features를 담당하는 네트워크의 초기 계층(Early layers)의 representations$t$에 따라 가장 먼저 변하지만, 붕괴되지 않고 전체 과정에 걸쳐 부드럽게(Smoothly) 진화합니다.
    2. High-level 붕괴: 특정 노이즈 스케일에서, 최종 class를 결정하는 가장 깊은 계층인 logits 간의 유사도가 절벽처럼 급락(Sharp drop)합니다. 이는 class transition을 수학적으로 나타냅니다.
    3. 유사도 곡선 역전 (Inversion): class transition 발생 시점 부근에서 얕은 계층과 깊은 계층의 유사도 양상이 역전됩니다. 새로운 class가 생성되었음에도 첫 번째 계층의 representations는 원본과 가장 큰 정렬(Alignment)을 보이며, 이는 low-level features가 새 이미지를 조립(Compose)하는 데 재사용됨을 수치적으로 확증합니다.
  • 위의 정성적 관찰을 수치화하기 위해, 사전 학습된 ConvNeXt Base(Top-5 정확도 96.9%) 및 ResNet 아키텍처의 계층별 hidden representationscosine similarity를 측정했습니다.

■ 쉬운 설명

이 섹션은 디퓨전 모델에 사진을 넣고 **"얼마나 많이 망가뜨렸다가(노이즈 추가) 다시 복원할 것인가?"**를 실험하고, 그 결과를 AI의 '뇌 속(신경망)'을 들여다보며 확인한 내용입니다.

  • 정성적 관찰 (눈으로 확인하기):
  • 사진을 아주 살짝만 흐릿하게 만들었다가 복원하면(짧은 시간 $t$), 표범의 눈매나 털 방향 같은 **'자잘한 디테일'**만 조금 바뀝니다. 여전히 표범이죠. 하지만 어느 '특정 임계점' 이상으로 확 흐릿하게 만들었다가 복원하면 표범이 갑자기 강아지로 변해버리는 **'정체성(Class) 붕괴 현상'**이 일어납니다. 그런데 진짜 재미있는 건, 새로 만들어진 강아지의 발 모양이나 귀가 원래 표범 사진에 있던 것과 똑같이 생겼다는 겁니다. 즉, 모델이 원래 사진의 '부품(디테일)'을 버리지 않고 가져와서 새로운 동물을 조립해 버린 것입니다.
  • 정량적 증명 (컴퓨터 뇌 속 검사하기):
  • 이 현상이 착각이 아님을 증명하기 위해, 연구진은 이미지를 판별하는 딥러닝 모델(ConvNeXt)의 내부 수치를 검사했습니다. 모델의 가장 깊은 곳(동물의 정체성을 판단하는 곳)의 수치는 어느 순간 뚝 떨어지며 "표범이 아니다!"라고 비명을 지릅니다(위상 전이). 하지만 모델의 가장 얕은 곳(색감, 선, 질감을 보는 곳)의 수치는 정체성이 강아지로 바뀐 후에도 원래 표범 사진일 때의 수치와 아주 높게 일치했습니다.

즉, 이 섹션은 **"디퓨전 모델은 큰 틀(정체성)이 박살 나도, 작은 부품(디테일)은 끝까지 쥐고서 다음 그림을 그리는 데 써먹는다"**는 사실을 실제 AI 모델의 내부 신경망 데이터를 통해 빼도 박도 못하게 수치로 증명해 낸 과정입니다.

 

 

 

 

더보기

Figure 4 설명: 신뢰 전파(Belief Propagation) 알고리즘의 메시지 흐름

이 이미지는 계층적 데이터 모델(Random Hierarchy Model)에서 노이즈가 낀 입력 데이터로부터 원래의 깨끗한 상태를 최적으로 추론(Denoising)하는 수학적 과정을 시각화한 것입니다. 그림은 깊이 $L=2$, 분기 계수 $s=2$인 간단한 예시를 들고 있습니다.

1. 기본 구성 요소 (그래프의 기호)

  • 원 (Circle, $X$): 변수 노드(Variable nodes)를 의미합니다. 맨 아래 $X^{(0)}$ 계층은 실제 관찰되는 데이터(픽셀)이고, 위로 올라갈수록 추상적인 latent variables가 되며, 맨 위 $X^{(2)}$는 최종 class label을 의미합니다.
  • 사각형 (Square, $\psi$): 팩터 노드(Factor nodes)를 의미합니다. 상위 계층의 features가 하위 계층의 features로 어떻게 쪼개지는지(생성되는지)를 결정하는 '생성 규칙(production rules)'을 수학적으로 나타낸 것입니다.

2. Left panel: (Up) 상향식 메시지 전달

  • 왼쪽 그림은 화살표($\nu_\uparrow$)가 아래에서 위로 향하고 있습니다.
  • 이는 맨 아래 노이즈가 낀 픽셀 데이터($X^{(0)}$)들로부터 파악된 로컬 정보들을 모아서 상위 계층으로 올려보내는 과정입니다.
  • 즉, "이 픽셀들을 보니 이런 질감인 것 같고(level 1), 이것들을 합쳐보니 최종적으로 눈표범(level 2)인 것 같다"라고 class를 확률적으로 추론해 올라가는 상향식 정보 수집 과정을 의미합니다.

3. Right panel: (Down) 하향식 메시지 전달

  • 오른쪽 그림은 화살표($\nu_\downarrow$)가 맨 위에서 아래로 향하고 있습니다. (그림의 복잡성을 줄이기 위해 가장 왼쪽 가지에만 화살표를 표시했습니다.)
  • 이것은 위쪽(Up) 과정을 통해 얻어낸 전체적인 문맥 정보(Global context, "전체적으로 이것은 눈표범이다")를 다시 하위 계층으로 내려보내는 과정입니다.
  • 루트 노드에서 내려온 강력한 정보는 하위 계층의 노이즈를 효과적으로 제거하고, 불확실했던 세부 디테일을 명확하게 확정 짓는 데 도움을 줍니다.

💡 논문 전체 흐름과 연결하기 (핵심 포인트)

왜 갑자기 이런 복잡한 그래프 알고리즘이 등장했을까요?

논문은 diffusion models가 이미지를 복원(Denoising)하는 복잡한 신경망의 작동 방식을 이론적으로 완벽하게 분석하기 위해, 이 과정을 **"트리 그래프 위에서의 확률 추론(Belief Propagation) 문제"**로 치환해버린 것입니다.

이 그래프 구조에서 메시지(확률값)가 오르락내리락($\nu_\uparrow$, $\nu_\downarrow$)하는 수학 공식을 풀면, 특정 노이즈 수준에서 맨 위 루트 노드($X^{(2)}$, class)의 확률값이 무작위로 붕괴해버리는 지점을 수학적으로 정확히 계산할 수 있습니다. 이것이 바로 앞서 실험으로 관찰했던 "Phase transition (위상 전이)" 현상을 수식으로 증명해내는 핵심 원리입니다.

 

Hierarchical generative model of data

더보기

이 섹션에서는 분석적으로 추적 가능하면서도 이미지의 구조를 모방하는 데이터의 generative model을 소개합니다. 자연 이미지는 종종 계층적이고 compositional 구조를 표시합니다. 예를 들어 눈표범의 이미지를 생각해 보십시오(Figure 3 참조). 이 이미지는 머리와 발 같은 여러 high-level 구성 요소로 구성되어 있습니다. 이러한 각 구성 요소는 다시 하위 features로 구성됩니다. 예를 들어, 머리는 귀, 눈, 입과 같은 요소로 이루어집니다. 이러한 요소를 더 자세히 분석하면 각 feature의 더 미세한 측면을 정의하는 가장자리와 같이 훨씬 더 세분화된 세부 정보를 찾을 수 있습니다.

이미지의 이러한 계층적이고 compositional 특성을 모델링하기 위해, 우리는 계층적 generative models를 고려합니다. 특히, class labels 집합 $\mathcal{C} \equiv \{1, \ldots, v\}$  $v$개의 features로 이루어진 알파벳 $\mathcal{A} \equiv \{a_1, \ldots, a_v\}$ 를 고려해 봅시다. class label $\gamma$  $\mathcal{C}$ 에서 균일하고 무작위로 선택되면, 각 계층 $\ell$에서 분기 계수(branching factor) $s$를 갖는 일련의 생성 규칙에 따라 데이터가 반복적으로 생성됩니다 (설명은 Figure 3 참조):

$\gamma \mapsto \mu_1^{(L-1)}, \ldots, \mu_s^{(L-1)} \quad \text{for } \gamma \in \mathcal{C} \text{ and } \mu_i^{(L-1)} \in \mathcal{A},$

$\mu^{(\ell)} \mapsto \mu_1^{(\ell-1)}, \ldots, \mu_s^{(\ell-1)} \quad \text{for } \mu^{(\ell)} \in \mathcal{A}, \mu_i^{(\ell-1)} \in \mathcal{A},$

$\ell \in \{L-1, \ldots, 1\}.$

데이터의 총 크기가 각 수준에서 $s$배씩 증가하므로, 입력 데이터는 $d \equiv s^L$ 개의 입력 features $\mu^{(0)}$ 으로 이루어집니다. 우리는 이러한 features에 대해 원-핫 인코딩(one-hot encoding)을 채택하여 최종적으로 데이터 벡터 $X \in \mathbb{R}^{dv}$ 를 얻습니다. $\ell \ge 1$ 에 대해 노드 변수는 latent variables에 해당하며, 인코딩 선택을 지정할 필요가 없습니다.

각 수준 $\ell$에 대해 동일한 high-level feature $\mu^{(\ell)}$ 에서 유래하는 서로 다른 $m$개의 생성 규칙이 있다고 고려합니다. 즉, $\mu^{(\ell)}$ 에 대해 $m$개의 동등한 하위 수준 representations가 존재합니다. 또한, 두 개의 서로 다른 classes 또는 latent variables가 동일한 하위 수준 representation으로 이어질 수 없다고 가정합니다. 이 조건은 예를 들어 두 개의 서로 다른 classes가 결코 동일한 데이터로 이어지지 않음을 보장합니다.

우리는 임의의 latent variable 또는 class $m$개의 생성 규칙이 비복원 추출로 $v^s$개의 가능한 규칙 중에서 무작위로 균일하게 샘플링되는 무작위 계층 모델(Random Hierarchy Model, RHM)의 경우를 고려합니다. 이 경우, class당 생성되는 가능한 데이터의 총 개수는 $m \cdot m^s \cdots m^{s^{L-1}} = m^{\frac{d-1}{s-1}}$ 이며, 이는 차원 $d = s^L$ 에 기하급수적으로 의존합니다. 이하에서는 계층 $\ell$ 및 위치 $i \in \{1, \ldots, s^{L-\ell}\}$ 에 있는 변수를 나타내기 위해 표기법 $X_i^{(\ell)}$ 를 사용합니다.

unsupervised learning의 맥락에서, 이 모델의 핵심 파라미터는 $f = m/v^{s-1}$ 입니다. $f=1$ 일 때, 크기 $s$의 모든 latent variables 문자열은 계층 구조의 어느 수준에서든 생성될 수 있습니다. 이는 가능한 모든 $v^d$ 개의 입력 문자열이 생성되며 data distribution에 구조가 거의 없음을 의미합니다. 그러나 $f<1$ 일 때는 전체 가능한 문자열 중 아주 작은 비율 $\sim f^{\frac{d-1}{s-1}}$ 만이 생성 규칙에 의해 생성됩니다. 이는 데이터를 생성하는 계층 구조를 반영하여 서로 다른 입력 위치들 사이에 공간적 상관관계가 나타남을 의미합니다.

■ 논문 핵심 정리 노트 (AI 연구자용): Hierarchical generative model of data

섹션 2 요약: 복잡한 이미지 데이터를 수학적으로 추적하기 위한 '무작위 계층 모델(Random Hierarchy Model, RHM)'의 설계

이 섹션은 앞서 관찰한 diffusion models의 행동을 이론적으로 증명하기 위해, 실제 이미지의 compositional(조합적) 구조를 모사하면서도 수학적 분석이 가능한 엄밀한 generative model을 정의합니다.

  • 모델의 기본 구조 (하향식 트리 생성)
    • Class label($\gamma \in \mathcal{C}$)을 루트 노드로 하여, 각 계층 $\ell$에서 분기 계수(branching factor) $s$를 따라 하위 features를 반복적으로 생성하는 트리 구조.
    • 트리의 총 깊이는 $L$이며, 최하단($\ell=0$)의 입력 데이터 차원은 $d = s^L$임.
    • 최하단 데이터는 원-핫 인코딩된 $X \in \mathbb{R}^{dv}$ 형태로 정의되며, $\ell \ge 1$ 계층의 중간 노드들은 모두 latent variables로 기능함.
  • 생성 규칙(Production rules)의 핵심 제약 조건
    • 상위 feature $\mu^{(\ell)}$는 $m$개의 동등한 하위 representations를 가질 수 있음.
    • 엄격한 분리 가정(Strict Separation): 서로 다른 classes나 서로 다른 상위 latent variables는 절대로 동일한 하위 representation을 생성할 수 없음. 즉, 클래스가 다르면 최종 생성된 데이터도 무조건 다름을 수학적으로 보장함.
  • 구조적 상관관계를 결정하는 핵심 파라미터 $f$
    • $f = m/v^{s-1}$ 로 정의되며, unsupervised learning 맥락에서 데이터 분포의 '구조적 촘촘함'을 결정함.
    • $f=1$ 일 때: 가능한 모든 하위 문자열 조합이 생성됨. 데이터 내부에 공간적 구조가 형성되지 않아 완전한 무작위 노이즈 분포와 같아짐.
    • $f<1$ 일 때: 전체 가능한 조합 중 극히 일부($\sim f^{\frac{d-1}{s-1}}$)만 제한적으로 생성됨. 이 제약으로 인해 입력 위치 간에 강력한 공간적 상관관계(Spatial correlations)가 발생하며, 이것이 실제 자연 이미지가 가진 '계층적 구조'를 모사하게 됨.

■ 쉬운 설명

이 섹션은 디퓨전 모델이 왜 그렇게 똑똑하게 작동하는지 수학적으로 증명하기 위해, **"가상의 이미지 생성 공장(모델)"**을 설계하는 도면과 같습니다. 진짜 사진은 수학 공식으로 풀기 너무 복잡하니까, 사진의 특성을 그대로 닮은 단순한 레고 조립 규칙을 만든 것입니다.

  • 레고 조립 설명서 (트리 구조):
  • 공장의 사장님(루트 노드, Class)이 "고양이를 만들어라!"라고 지시하면, 그 밑의 부장 2명(분기 계수 $s$)이 각각 "머리"와 "몸통"을 맡고, 그 밑의 과장들이 다시 "눈, 코, 귀"를 맡아서 쪼개 내려가는 완벽한 피라미드 구조입니다. 제일 밑바닥 직원들이 실제 눈에 보이는 '픽셀'을 완성합니다.
  • 철저한 하청 규칙 (중복 금지):
  • 이 공장에는 절대 어겨선 안 되는 룰이 있습니다. "강아지 팀에서 만든 눈깔 블록과 고양이 팀에서 만든 눈깔 블록은 모양이 겹치면 안 된다." 이 규칙 덕분에 고양이와 강아지가 수학적으로 완전히 구분될 수 있습니다.
  • 마법의 퀄리티 컨트롤 비율 $f$:만약 $f=1$ (자유도 100%)이면 아무렇게나 막 조립하게 놔두는 겁니다. 그러면 고양이도 개도 아닌 그냥 지지직거리는 TV 노이즈 같은 쓰레기 데이터가 나옵니다.
  • 하지만 $f$를 1보다 작게 빡빡하게 제한하면, "눈 옆에는 무조건 코가 와야 해" 같은 규칙이 생겨나면서 비로소 우리가 보는 진짜 사진처럼 픽셀들 사이에 '의미 있는 패턴(상관관계)'이 생겨나게 됩니다. 논문은 바로 이 $f<1$인 상태의 깐깐한 공장을 수학적으로 분석하겠다는 것입니다.
  • $f$는 이 공장에서 허용하는 '조합의 자유도'입니다.

 

 

■ 논문 핵심 정리 노트 (AI 연구자용): Optimal denoising of the RHM with message passing

섹션 3 요약: Belief Propagation을 이용한 이론적 Denoising 모델 구축 및 DDPM 경험적 현상의 수학적 증명

이 섹션은 앞서 정의한 RHM(Random Hierarchy Model) 기반의 트리 구조 데이터에서 최적의 denoising process를 수학적으로 구현합니다. 딥러닝 모델의 블랙박스적 특성을 걷어내고, 확률 그래프 모델의 Belief Propagation(BP) 알고리즘을 통해 diffusion models의 위상 전이 현상을 정확하게 증명해냅니다.

  • 이론적 접근 방식: Bayes Optimal Denoising
    • 실제 신경망(Section 1)은 경험적 위험 최소화로 학습되지만, 본 연구는 RHM 트리 그래프 상에서 $p(x(0)|x(t))$를 정확히 계산하는 베이즈 최적(Bayes optimal) 추론을 가정하여 이론적 한계치를 분석합니다.
    • 트리의 잎(Leaves)은 noisy observation 입력 변수, 루트(Root)는 class variable로 매핑됩니다.
  • 수학적 구현: Belief Propagation (메시지 패싱)
    • Upward messages ($\nu_\uparrow$): 잎 노드(픽셀)에 연속 시간 forward diffusion process를 적용하여 베이즈 정리로 산출한 시작 값 확률(Eq. 4)로 초기화됩니다. 하위 계층의 로컬 정보를 취합하여 상위 latent variables로 전달(추론)합니다.
    • Downward messages ($\nu_\downarrow$): 루트 노드에서 가능한 classes에 대한 균일 분포($1/v$)로 초기화되어 아래로 전달됩니다. 전체적인 '문맥(Context)'을 하위 노드에 부여합니다.
    • Marginal Probability 계산: 각 노드에서 상향 및 하향 메시지의 곱을 통해 해당 노드의 상태에 대한 정확한 conditional marginals를 도출합니다.
  • 가장 중요한 결과 (The Breakthrough)
    1. High-level (Class) Phase Transition 증명: 트리의 최상단 계층 $L$(class)에서 정답 확률이 특정 임계 시간에서 급격히 붕괴하는 전환 현상이 수학적으로 도출됨. (트리의 깊이 $L$이 깊어질수록 이 전환은 더욱 가팔라짐)
    2. Low-level Smoothness 증명: 반면 $\ell < L$ 인 하위 계층(low-level features)의 추론 확률은 위상 전이와 무관하게 매우 부드럽게 진화함.
    3. 역전 현상(Inversion) 재현: 클래스가 붕괴되는 임계점 부근에서 최상위 계층과 하위 계층의 확률(메시지) 곡선 순서가 뒤바뀌는 현상이 나타남. 이는 "클래스는 변해도 디테일은 유지된다"는 DDPM 실험 결과(Figure 2)와 완벽히 일치하는 이론적 쾌거임.
  • 수치적으로 BP 알고리즘을 실행한 결과, Section 1에서 ConvNeXt 내부 표현(Representation)으로 관찰했던 현상들이 수학적으로 완벽히 재현(도출)되었습니다.

■ 쉬운 설명

이 섹션은 앞서 실험으로 관찰했던 **"디퓨전 모델은 큰 틀(주제)이 박살 나도 세부 디테일은 유지한다"**는 기묘한 현상이 왜 일어날 수밖에 없는지, 수학 공식으로 마침표를 찍어 증명하는 부분입니다.

이 증명을 위해 연구진은 **메시지 패싱(Belief Propagation)**이라는 정보 전달 알고리즘을 사용했습니다. 회사의 보고 체계를 상상해 보세요.

  • 상향식 보고 (Upward Message): 맨 아래 말단 직원들(픽셀들)이 노이즈가 낀 흐릿한 사진을 보고 "이건 뾰족한 귀 같아요", "이건 점박이 무늬 같아요"라고 자신의 확신(확률)을 위로 계속 보고합니다.
  • 하향식 지시 (Downward Message): 보고를 쭉 취합한 사장님(루트 노드, Class)이 "좋아, 전체적으로 보니 이건 표범이다!"라고 결론을 내리고, 다시 아래로 "이건 표범이니까 너희가 본 건 표범 무늬가 맞다"라고 지시를 내려보냅니다.

증명된 놀라운 사실:

노이즈가 점점 심해져서 말단 직원들의 보고가 너무 부실해지면, 사장님은 특정 시점에 도달하는 순간 "아 모르겠다, 이거 표범 아니고 강아지다!"라고 순식간에 판단을 뒤집어버립니다. (이것이 1차원적인 확률 추락이 아닌, 급격하게 붕괴하는 위상 전이 현상임을 수학적으로 증명했습니다.)

그런데 사장님이 "강아지다!"라고 외쳐도, 말단 직원들(하위 계층)은 여전히 "하지만 내가 맡은 부분은 뾰족하고 점박이인데?"라는 국소적인 증거(확률)를 강하게 쥐고 있습니다. 이 알고리즘을 수식으로 풀어보니, 사장님의 결정이 붕괴하는 순간에도 말단 직원들의 확신(수치)은 서서히 부드럽게만 떨어질 뿐 급격히 무너지지 않는다는 것이 숫자로 완벽하게 도출되었습니다.

즉, 이 논문은 디퓨전 모델이 마법을 부리는 것이 아니라, 트리 구조로 정보를 처리할 때 수학적으로 당연히 발생할 수밖에 없는 '정보의 비대칭성' 때문임을 완벽히 증명해 낸 것입니다.

 

 

Mean-field theory of denoising diffusion

더보기

이 섹션에서는 입력에 작용하는 초기 noise에 대해 단순화 가정을 하고, 위상 전이(phase transition)의 존재를 정당화하기 위해 mean-field approximation을 채택합니다. 놀랍게도 이 근사법은 diffusion dynamics를 설명하는 데 탁월한 품질을 지닌 것으로 밝혀졌습니다. 구체적으로, noisy observation이 주어졌을 때 재구성하고자 하는 잎 변수(leaves variables) $X_i^{(0)} = x_i$의 참조 구성(reference configuration)을 고려해 보겠습니다. 우리는 각 잎 변수에 대해 noise가 다른 기호들 사이에 균일하게 퍼져 있다고 가정합니다. 다시 말해, 올바른 시퀀스에 대한 우리의 belief $\epsilon \in [0, 1]$ 에 의해 손상됩니다:

$$X_i^{(0)} = x_i \text{ with belief } 1 - \epsilon,$$
$$X_i^{(0)} \text{ uniform over alphabet with belief } \epsilon.$$

따라서 잎 노드 $X_i^{(0)}$ 에서의 상향 BP 메시지 초기화 조건은 다음과 같이 됩니다.

$$\nu_{\uparrow}^{(0)}(x_i) = 1 - \epsilon + \epsilon/v,$$
$$\nu_{\uparrow}^{(0)}(x_i \ne \bar{x}_i) = \epsilon/v,$$

여기서 $v$는 알파벳 기수(cardinality)입니다.

이러한 초기 조건이 주어지고 생성 규칙이 알려져 있으므로, $\epsilon=0$ 이면(즉, 노이즈가 없는 경우) BP는 latent variables의 모든 값을 정확하게 재구성할 수 있습니다. 반대로, $\epsilon=1$ 이면(즉, 입력이 완전히 손상되고 잎 변수에 대한 belief가 균일할 때) 재구성은 불가능합니다. 일반적으로 $\epsilon$ 값에 대해, 우리는 각 계층 $\ell$에서 트리의 latent structure를 복구할 확률을 계산하는 데 관심이 있으며, $L \to \infty$ 일 때 입력의 올바른 class를 복구할 확률이 $1/v$ 보다 크게 유지되는지 여부를 결정하는 데 관심이 있습니다.

Upward process

우리는 잎에서부터의 상향 과정(upward process)을 연구하는 것으로 시작합니다. high-level feature $y$와 연관된 진정한 입력 튜플 $x_1, \ldots, x_s$ 를 고려해 봅시다. 생성 규칙의 무작위성을 감안할 때, 메시지는 규칙의 구체적인 실현(realization)에 의존하는 확률 변수입니다. 우리는 무작위 규칙 선택에서 오는 변동(fluctuations)을 무시하는 mean-field 또는 어닐링(annealed) 근사를 채택합니다. 구체적으로, 우리는 상향 메시지를 가능한 $\psi$의 실현들에 대한 해당하는 factor node $\langle \nu_{\uparrow}^{(1)}(y) \rangle_\psi$ 를 빠져나가는 평균 상향 메시지로 근사합니다. SI Appendix 2에서, 우리는 대칭성 고려에 의해 예상되는 바와 같이 $\langle \nu_{\uparrow}^{(1)}(y) \rangle_\psi$ 가 오직 두 가지 값(하나는 $y = \bar{y}$, 다른 하나는 $y \ne \bar{y}$)만을 가질 수 있음을 보여줍니다. 따라서 평균 메시지는 방정식 7과 동일한 구조를 가지며 우리는 새로운 $\epsilon'$ 을 정의할 수 있습니다.

재구성 확률 $p = 1 - \epsilon + \epsilon/v$  $p' = 1 - \epsilon' + \epsilon'/v$ 를 도입하면, 우리는 다음을 얻습니다.

$$p' = \frac{p^s + f \frac{m-1}{mv-1}(1 - p^s)}{p^s + f(1 - p^s)} = \mathcal{F}(p).$$

트리의 모든 계층에 걸쳐 이 절차를 반복하면, 우리는 입력의 올바른 class를 복구할 확률을 계산할 수 있습니다. 특히, 큰 $L$에 대해 우리는 방정식 8에 있는 반복 사상(iteration map)의 고정점 $p^* = \mathcal{F}(p^*)$ 를 연구하는 데 관심이 있습니다. SI Appendix 2.A에서 유도된 바와 같이, $sf>1$ 일 때 이 사상은 $\epsilon=0$ 에 해당하는 척력 고정점(repulsive fixed point) $p^*=1$  $\epsilon=1$ 에 해당하는 인력 고정점(attractive fixed point) $p^*=1/v$ 를 갖습니다. 따라서 이 영역(regime)에서는 입력의 noisy observation으로부터 class를 추론하는 것이 불가능합니다. 대조적으로, $sf<1$ 일 때는 $p^*=1$  $p^*=1/v$ 가 모두 인력 고정점이며, 다른 두 고정점을 분리하는 새로운 척력 고정점 $1/v < p^* < 1$ 이 나타납니다. 따라서 이 두 번째 영역에서는 class를 복구할 수 있는 위상(phase)과 복구할 수 없는 위상 간의 phase transition이 존재합니다. 이러한 이론적 예측은 Figure 6의 phase diagram에서 수치적으로 확인됩니다.

물리적으로 $sf<1$ 은 트리의 하위 계층에서의 오류가 전파되지 않는 영역에 해당합니다: generative model의 생성 규칙과 일치하는 문자열의 작은 비율 덕분에, 이웃 노드에서 오는 정보를 사용하여 오류를 수정할 수 있습니다. 반대로, $sf>1$ 일 때는 작은 손상조차 전체 트리를 거쳐 루트 노드까지 전파되며 BP는 class를 올바르게 추론할 수 없습니다.

Downward process

하향 반복이 상향 메시지와 하향 메시지를 혼합한다는 추가적인 어려움과 함께, 하향 과정(downward process)에 대해서도 동일한 계산을 반복할 수 있습니다. 이론적인 처리에 대해서는 독자에게 SI Appendix 2를 참조하도록 권합니다.

Probabilities of reconstruction

평균 상향 및 하향 메시지를 결합하여, 우리는 각 계층에서 변수의 올바른 값을 재구성하는 확률에 대한 이론적 예측을 얻습니다. 우리는 Figure 7-(a)에서 우리의 이론적 예측을 수치 실험과 비교합니다. 이 실험에서 BP 방정식은 방정식 7의 초기화로 시작하는 주어진 RHM에 대해 정확하게 풀립니다. 우리의 이론은 입력 노드와 class에 대한 재구성 확률을 완벽하게 포착합니다. 또한, SI Appendix 2에서 우리는 우리의 이론이 모든 계층에 있는 latent nodes의 재구성 확률을 예측한다는 것을 보여줍니다.

Experiment on CNN’s activations

Section 1의 ConvNeXt 실험과 유사하게, 우리는 손상 noise $\epsilon$에서 시작하여 입력이 denoised될 때 RHM을 분류하도록 훈련된 모델의 hidden representation이 어떻게 변하는지 조사합니다. 우리는 $L=7$, $s=2$, $v=16$, $m=4$ 인 RHM의 인스턴스를 고려합니다. 먼저 보간법(interpolation)까지 $n=300\text{k}$ 개의 training examples를 사용하여 모델의 트리 구조와 일치하는 $L=7$ 개의 계층을 가진 convolutional neural network를 훈련시킵니다. 결과적인 architecture는 99.2%의 test accuracy를 가집니다. 검증 데이터(held-out data)의 noisy observations에서 새로운 데이터를 샘플링하기 위해, 우리는 먼저 BP로 계산된 marginal probability를 사용하여 루트를 샘플링하는 것으로 시작합니다. 그런 다음, 샘플링된 class를 조건으로 하는 beliefs marginals를 업데이트하고, 계층 $L-1$에서 하나의 latent variable을 샘플링합니다. 가장 아래 계층에서 샘플링된 구성(sampled configuration)을 얻을 때까지 트리를 내려가면서 이 절차를 노드 단위로 반복합니다.

각 손상 noise $\epsilon$ 와 CNN의 각 계층에 대해, 우리는 초기 및 생성된 구성의 post-activations 간의 cosine similarity를 계산합니다. Figure 7의 패널 (b)는 얻어진 곡선을 보여줍니다. 놀랍게도, 우리는 Figure 7의 패널 (a)와 동일한 정성적 거동을 관찰하며, 궁극적으로 Figure 2의 경험적 관찰을 설명합니다.

 

 

■ 논문 핵심 정리 노트 (AI 연구자용): Mean-field theory of denoising diffusion

섹션 4 요약: Mean-field approximation(평균장 근사)을 통한 Phase Transition의 수학적 증명 및 CNN 실험적 검증

이 섹션은 노이즈 제거 과정(Denoising)을 단순화된 수학적 모델로 근사하여, 앞서 관찰한 class의 위상 전이(Phase transition)가 발생하는 정확한 조건과 원인을 해석학적으로 증명합니다.

  • 이론적 근사 (Mean-field Approximation)
    • 잎 변수(Leaves variables)에 가해지는 초기 노이즈가 균일하게 퍼져 있다고 가정함. (손상 확률 $\epsilon$)
    • 생성 규칙의 무작위성으로 인한 요동(fluctuations)을 무시하는 평균장/어닐링 근사를 채택하여 상향 메시지의 반복 사상(iteration map) 함수 $p' = \mathcal{F}(p)$ 를 도출함.
  • 위상 전이를 결정하는 핵심 임계 조건 ($sf$)
    1. $sf > 1$ 영역 (전파 및 붕괴): 하위 계층의 작은 노이즈(오류)가 상위로 갈수록 눈덩이처럼 커져 전체 트리로 전파됨. 최종적으로 class를 추론하는 것이 불가능해짐.
    2. $sf < 1$ 영역 (오류 수정 및 위상 전이 발생): 생성 규칙에 부합하는 문자열의 비율이 적어(강력한 구조적 제약), 이웃 노드의 정보를 통해 하위 계층의 오류가 수정됨. 이 영역에서 올바른 class로 수렴하는 인력 고정점(Attractive fixed point)과 붕괴하는 고정점을 가르는 새로운 척력 고정점이 등장하며, 이것이 바로 **Phase Transition(위상 전이)**의 수학적 실체임.
  • 무한한 깊이($L \to \infty$)에서 반복 사상의 고정점(Fixed points) $p^*$ 를 분석하여 두 가지 물리적 영역(Regime)을 증명함. ($s$: 분기 계수, $f$: 구조적 촘촘함)
  • CNN 교차 검증 (Theory meets Practice)
    • 순수 수학적 트리 모델(RHM)의 데이터로 실제 convolutional neural network(CNN)를 학습시킴.
    • CNN의 각 계층별 내부 활성화(hidden representation) 유사도를 측정한 결과, 앞선 순수 수학적 평균장 이론이 예측한 확률 곡선(Figure 7-a)과 실제 딥러닝 모델의 활성화 곡선(Figure 7-b)이 놀라울 정도로 완벽하게 일치함.
    • 결론: Section 1에서 ConvNeXt로 관찰했던 현상(Figure 2)이 우연이나 특정 모델의 특성이 아니라, 계층적 데이터 구조를 다루는 알고리즘의 보편적이고 근본적인 수학적 특성임을 최종 확증함.

■ 쉬운 설명

이 섹션은 디퓨전 모델이 이미지를 복원할 때 발생하는 '급격한 정체성 붕괴(위상 전이)' 현상의 원인을 **"수학 공식"**으로 완벽하게 풀어낸 하이라이트 부분입니다.

논문은 이 현상을 설명하기 위해 $s$$f$라는 두 가지 변수를 곱한 **$sf$**라는 마법의 공식을 찾아냈습니다. 회사 조직으로 비유해 보겠습니다.

  • $sf > 1$ 일 때 (막장 회사):
  • 밑단 직원(픽셀) 한 명이 "어? 이거 좀 이상한데?" 하고 잘못된 보고(노이즈)를 올립니다. 그런데 회사 시스템이 허술해서 이 작은 실수가 과장, 부장을 거치며 눈덩이처럼 커집니다. 결국 사장님(최종 클래스 판단)은 완전히 헛다리를 짚게 됩니다.
  • $sf < 1$ 일 때 (시스템이 깐깐한 회사 - 실제 자연 이미지의 특성):하지만! 애초에 노이즈(오류)가 너무 심해서 밑단 직원들 대다수가 엉망진창인 보고서를 올린다면? 깐깐한 시스템이라도 어느 '임계점'을 넘는 순간 "아, 도저히 복구 불가! 이건 고양이가 아니라 강아지다!" 하고 사장님의 결론이 순식간에 뒤집혀 버립니다. 이것이 바로 위상 전이입니다.
  • 회사의 결재 규칙(데이터의 구조)이 아주 깐깐합니다. 말단 직원이 잘못된 보고를 올려도, 옆 직원의 보고서와 교차 검증을 통해 "너 이거 틀렸어" 하고 중간에서 오류를 수정해 버립니다.

가장 소름 돋는 결과:

연구진이 이 '깐깐한 회사(트리 모델)'의 규칙으로 가짜 데이터를 만들고, 우리가 실제로 쓰는 AI(CNN)에게 학습시켜 보았습니다. 그랬더니 AI의 뇌 속 신경망 데이터가 수학 공식으로 계산한 그래프와 토씨 하나 틀리지 않고 똑같이 움직였습니다. 즉, 딥러닝이라는 블랙박스 속에서 일어나는 신비한 현상의 수학적 비밀을 완전히 발가벗겨서 증명해 낸 것입니다.