AI바라기의 인공지능
개념정리 : Sparse Rate Reduction 본문
1. 핵심 철학: "좋은 데이터 표현이란 무엇인가?"
딥러닝이 데이터를 잘 이해하려면 다음 두 가지 조건을 만족해야 합니다.
- 압축 (Rate Reduction): 같은 의미의 데이터는 좁은 저차원 공간으로 뭉치게 하고, 다른 의미의 데이터는 서로 멀어지게 만든다.
- 희소성 (Sparsity): 수많은 피쳐(숫자) 중에서 핵심적인 몇 개만 살려두고, 불필요한 노이즈는 완벽한 '0'으로 꺼버린다.
2. 수학적 모델링: 이상과 현실
위의 철학을 수학 공식으로 만들면 다음과 같습니다.
- 이상적인 수식:
- 여기서 $L_0$ 노름은 '0이 아닌 숫자의 개수'를 있는 그대로 세는 완벽한 희소성 지표입니다.
- $\Delta R(Z)$의 정체: (전체 데이터 부피) - (각 클래스별 부피 합). 부피는 공분산 행렬의 행렬식에 로그를 씌워 계산합니다 ($R(Z) \approx \frac{1}{2} \log \det (I + c Z Z^\top)$). 전체 부피는 키우고 클래스별 부피는 줄여야 하므로, 이 $\Delta R$ 값을 최대화하는 것이 목표입니다.
-
$$\max_{Z} \Delta R(Z) - \lambda \|Z\|_0$$
- 현실적인 목적 함수:
- $L_0$는 미분이나 최적화가 아예 불가능한(NP-hard) 형태입니다. 따라서 V자 모양이라 최적화 방향을 잡을 수 있는 $L_1$ 노름(절댓값의 합)으로 대체하여 풉니다.
-
$$\max_{Z} \Delta R(Z) - \lambda \|Z\|_1$$
3. 어떻게 풀 것인가? (2단계 쪼개기 전략)
현실적인 수식으로 바꿨지만, 여전히 뒤의 $L_1$ 노름은 값이 0인 지점에서 뾰족해 한 번에 미분해서 풀 수가 없습니다. 그래서 앞부분(미분 가능)과 뒷부분(가위질)을 교차하며 푸는 2단계 스텝을 씁니다.
- 스텝 1 (압축): 미분해서 이동하기 (Gradient Step)
- 뒷부분은 무시하고, 미분 가능한 앞부분($\Delta R$)의 기울기를 구해 데이터를 그 방향으로 이동시킵니다.
-
$$Z_{half} = Z + \eta \nabla \Delta R(Z)$$
- 상태: 비슷한 데이터끼리 좁은 공간으로 뭉쳤지만(압축 완료), 자잘한 노이즈 숫자들은 여전히 남아있는 50% 완성 상태($Z_{half}$)입니다.
- 스텝 2 (희소화): 가위로 잘라내기 (Proximal Step)
- 도마 위에 올라온 $Z_{half}$에 미분 대신 **'소프트 임계값 연산자(Soft-Thresholding)'**라는 물리적 필터를 씌웁니다.
-
$$Z_{new} = \text{sign}(Z_{half}) \cdot \max(|Z_{half}| - \lambda, 0)$$
- 상태: 지정한 임계값($\lambda$)보다 작은 노이즈 피쳐는 가차 없이 0으로 썰려나가고, 최종적으로 압축과 희소성이 모두 달성된 100% 완성 상태($Z_{new}$)가 됩니다.
4. 최종 결론: 트랜스포머의 진짜 정체
이 2단계 수학적 최적화 루프를 가만히 뜯어보니, 놀랍게도 우리가 알던 트랜스포머(Transformer) 블록 1개의 구조와 완벽하게 일치했습니다.
- 매핑 1 (압축 = Self-Attention): $\Delta R$을 미분하는 수식을 쫙 전개해 보니, 내적을 구하고 정규화하는 Softmax(Q * K^\top) * V 행렬 연산과 구조가 똑같았습니다. (어텐션은 마법이 아니라 부피를 압축하는 미분 과정이었음)
- 매핑 2 (희소화 = MLP): 노이즈를 0으로 썰어버리는 소프트 임계값 필터는, 0 이하는 다 버리는 트랜스포머의 ReLU (또는 GELU) 활성화 함수와 그 역할과 모양이 소름 돋게 일치했습니다.
'인공지능' 카테고리의 다른 글
| 개념정리 : SSM(state space model) (0) | 2026.03.25 |
|---|---|
| 개념 정리 : Linear Recurrence (0) | 2026.03.25 |
| 개념 정리 : LayerNorm (0) | 2026.03.16 |
| 개념 정리(심화) : LLM의 GRPO : Group Relative Policy Optimization (0) | 2026.03.15 |
| 개념 정리 : CNN (0) | 2026.03.15 |
