AI바라기의 인공지능

DIFFUSION : 빠른 논문 리뷰 : MASKED COMPLETION VIA STRUCTURED DIFFUSION WITH WHITE-BOX TRANSFORMERS 본문

논문리뷰

DIFFUSION : 빠른 논문 리뷰 : MASKED COMPLETION VIA STRUCTURED DIFFUSION WITH WHITE-BOX TRANSFORMERS

AI바라기 2026. 3. 25. 11:53

용어 설명

  • White-box models: 신경망의 각 layer가 데이터를 어떻게 변환하는지 수학적(해석적)으로 투명하게 설명 가능한 네트워크 설계 방식.
  • CRATE (Coding RAte reduction TransformEr): 정보 이론의 데이터 압축(Compression)과 희소화(Sparsification) 원리를 unrolled optimization을 통해 풀어내어 만든 수학적으로 해석 가능한 transformer 구조.
  • Structured diffusion: 데이터를 단순한 가우시안 노이즈가 아닌, 저차원 부분 공간들의 혼합(Gaussian mixture)이라는 명확한 '구조를 가진' 신호 모델을 향해 점진적으로 복원(denoise)하는 프레임워크.
  • MSSA (Multi-head Subspace Self-Attention): CRATE 모델에서 데이터의 분포를 특정 부분 공간(subspace)으로 프로젝션(압축)하는 역할을 수행하는 연산자.
  • ISTA (Iterative Shrinkage-Thresholding Algorithm): CRATE 모델에서 데이터 표현을 좌표축에 맞춰 회전시켜 희소하게(sparse) 만드는 최적화 연산자.

Purpose of the Paper

  • 한계 극복: 최근 널리 쓰이는 대규모 unsupervised representation learning 모델(특히 Masked Autoencoder, MAE)은 철저히 black-box 형태입니다. 이들은 경험적으로 설계되어 내부가 투명하지 않고(uninterpretable), 데이터 표현이 비구조적이며, 파라미터가 심각하게 중복(redundant)되어 있습니다. 기존의 white-box 모델(CRATE)은 해석 가능하지만, supervised classification처럼 정답 라벨이 있는 환경에서만 작동한다는 한계가 있었습니다.
  • 새로운 접근 방식: 본 연구는 대규모 unsupervised learning에 적용 가능한 최초의 white-box 패러다임을 제안합니다. 이를 위해 전혀 다른 접근법으로 여겨지던 **diffusion(노이즈 제거)**과 compression(데이터 압축) 사이의 근본적인 수학적 연결 고리를 증명하고, 이를 바탕으로 구조가 완전히 해석 가능한 CRATE-MAE 모델을 구축했습니다.

Key Contributions

  • Compression = Denoising의 수학적 증명 (Novelty)
    • 데이터가 low-dimensional 구조를 가질 때, 정보 이론의 sparse rate reduction(압축) 목적 함수를 최적화하는 과정이 사실상 diffusion 모델의 점진적 denoising 과정과 수학적으로 동일한 projection 연산임을 정량적으로 증명했습니다. 두 이질적인 개념을 하나의 프레임워크로 묶은 혁신적인 발견입니다.
  • 해석 가능한 Encoder-Decoder 구조 유도 (Novelty)
    • Encoder: Forward diffusion process(압축 및 희소화)를 이산화(discretization)하여 기존 CRATE의 MSSA와 ISTA 블록을 그대로 유도해냈습니다.
    • Decoder: Encoder의 역할을 단순히 블랙박스로 뒤집는 것이 아니라, forward ODE의 시간 역전(time-reversal ODE) 방정식을 이산화하여 수학적으로 완벽히 설명 가능한 역연산(anti-compression 및 역희소화) 레이어를 최초로 도출해냈습니다.
  • 극대화된 Parameter Efficiency
    • 수학적 제1원리(first principles)에 기반한 설계를 통해, 블랙박스 모델들에 존재하던 구조적 비효율성을 제거하여 파라미터 낭비를 극적으로 줄였습니다.

Experimental Highlights

  • 실험 설정:
    • Datasets: ImageNet-1K (pre-training), CIFAR10/100, Oxford Flowers, Oxford-IIIT-Pets (fine-tuning 및 linear probing).
    • Task: Masked Autoencoding (입력 패치의 일정 비율을 마스킹한 후 원본 복원).
    • Baselines: 널리 사용되는 ViT-MAE (Small, Base 사이즈).
  • 핵심 결과 1 (파라미터 효율성 및 성능):
    • CRATE-MAE-Base 모델은 44.6M 파라미터만으로 학습됩니다. 이는 동일 구성의 ViT-MAE-Base(143.8M 파라미터) 대비 약 30% 미만의 크기입니다.
    • 그럼에도 불구하고 CRATE-MAE-Base는 시각적인 복원(reconstruction) 품질에서 ViT-MAE-Base와 대등한 결과를 보였으며, downstream classification 성능(fine-tuning 및 linear probing)에서도 매우 경쟁력 있는 SOTA급 성능을 달성했습니다.
  • 핵심 결과 2 (Emerging Semantic Properties):
    • 학습된 토큰 representation의 PCA 시각화 및 MSSA 블록의 attention map 시각화 결과, CRATE-MAE는 정답 라벨 없이 스스로 이미지 내 객체의 의미론적 구조(예: 동물의 머리, 다리, 배경 분리)를 명확히 분할(segmentation)하는 능력을 보여주었습니다. 특히, 수학적 white-box 설계 덕분에 ViT-MAE보다 훨씬 선명하고 해석 가능한 attention map을 형성했습니다.

Limitations and Future Work

  • Limitations:
    • 이론적 증명(Theorem 3) 과정에서 분석의 용이성을 위해 데이터 토큰들이 서로 독립적(uncorrelated)이라는 다소 강한 가정을 사용했습니다. 실제 자연 이미지의 복잡한 상관관계를 수식에 완벽히 담아내지는 못했습니다.
    • Decoder 설계 시, Encoder의 ISTA(희소화) 블록은 비선형 연산이므로 완벽한 수학적 역함수를 구하기 어려워 이를 linear layer 곱으로 근사(approximate) 처리한 한계가 있습니다.
  • Future Work:
    • 단순화된 가정을 넘어, 토큰 간의 상관관계(correlated tokens)를 명시적으로 반영하는 현실적인 신호 모델로 수학적 증명을 확장할 필요가 있습니다.
    • 각 layer가 블랙박스가 아닌 '구체적이고 독립적인 수학적 역할'을 가지고 설계되었기 때문에, 전체 네트워크를 한 번에 학습(end-to-end)하는 대신 한 층씩 순차적으로 학습(layer-wise training)하는 효율적인 최적화 기법을 적용해 볼 수 있습니다. 이는 거대 모델 학습의 막대한 컴퓨팅 비용을 극적으로 줄일 잠재력이 있습니다.

Overall Summary

이 논문은 데이터 압축(compression)과 디퓨전(diffusion) 방정식 간의 근본적인 수학적 연결을 밝혀내어, 내부 작동 원리가 투명하게 해석되는 white-box masked autoencoder (CRATE-MAE)를 최초로 유도했습니다. 실험 결과, 이 모델은 기존 블랙박스 기반 MAE 대비 단 30%의 파라미터만으로 대등한 복원 능력과 훨씬 뛰어난 의미론적(semantic) 표현 학습 능력을 달성했습니다. 이는 딥러닝 foundation model을 경험적 튜닝이 아닌 수학적 제1원리(first principles)로 설계하여 해석 가능성과 극도의 파라미터 효율성을 동시에 확보할 수 있음을 증명한 기념비적인 연구입니다.


쉬운 설명

기존의 AI 모델(일반적인 MAE)에게 훼손된 사진 복원을 맡기는 것은 **"어떻게 하는진 안 알려줄 테니, 수억 개의 부품을 다 써가며 수만 번 반복해서 감으로 복원해봐"**라고 지시하는 것과 같습니다. 결과는 좋지만 부품 낭비가 심하고 왜 그 결과가 나왔는지 아무도 모릅니다.

반면 이 논문이 제안한 모델(CRATE-MAE)은 **"먼저 수학 공식에 따라 사진의 핵심 뼈대만 남기고 압축한 다음, 그 공식을 정확히 역순으로 되돌려서 복원해봐"**라고 설계도를 쥐여준 **'정밀한 건축가'**입니다. 모델이 자기가 무슨 일을 하는지 정확히 알고 있기 때문에, 기존 모델이 쓰던 부품의 30%만 가지고도 완벽하게 사진을 복원할 수 있으며, 스스로 이미지 속 '강아지 얼굴'과 '배경'을 구분해 내는 똑똑함을 보여줍니다.

 

 

더보기

SRR 함수를 미분한 압축 기울기 벡터의 반대 방향이 스코어 함수랑 동일한 역할을 한다

 

즉 압축과 디노이징이 같다는 것을 증명했고

 

기존엔 스코어 함수를 더해주는 방향이 원본 이미지로 보내는 방향이다.

 

압축과 디노이징이 왜 같냐면

저차원으로 보내는 느낌이니까 같다.

 

미분 방정식의 가장 큰 장점은 시간의 부호만 뒤집으면 완벽한 역연산이 가능하다 라는건데.. 

 

노이즈 줄땐 플러스

복원은 마이너스 로 R의 기울기텀을 바꿔주면 복원과 노이징을 자유롭게 표현할 수 있다는 것이다.

 


----------일반적으로--------------------------

아주 심플하게 목적 기준으로만 다시 못을 박겠습니다.

  • 압축 기계 (Encoder): 팽창하는 $R$의 기울기를 뺀다 (-)
  • 복원 기계 (Decoder): 팽창하는 $R$의 기울기를 더한다 (+)

 

 

 

발상은 분명 새롭고, white-box unsupervised learning을 실제 아키텍처로 내린 점은 높게 쳐야 한다. 하지만 구조 가정이 강하고, vanilla 설계의 ceiling이 실제로 드러났으며, empirical closure도 raw 성능 기준으로는 압도적이지 않다.