AI바라기의 인공지능
개념 정리 : LayerNorm 본문
LayerNorm이란
레이어에 들어온 입력 데이터의 스케일을 조정하는 방법이다.
입력 데이터의 평균과 표준편차를 구한 뒤 정규화를 진행한다. 이때
평균: 입력 데이터의 모든 feature들의 평균
표준편차: 입력 데이터의 모든 feature들의 표준편차
이다.
그 후 정규화된 $x$에 학습 가능한 감마($\gamma$)를 곱하고 베타($\beta$)를 더해,
정규화로 너무 빡빡해진 표현을 다시 조절할 수 있게 만든다.
$$\mu=\frac{1}{H}\sum_{i=1}^{H}x_i$$
$$\sigma^2=\frac{1}{H}\sum_{i=1}^{H}(x_i-\mu)^2$$
$$\hat{x}_i=\frac{x_i-\mu}{\sqrt{\sigma^2+\epsilon}}$$
$$y_i=\gamma\hat{x}_i+\beta$$
LayerNorm의 본질은 단순히 값을 “예쁘게” 만드는 것이라기보다,
뒤의 가중치가 입력의 절대 스케일보다는 표준화된 상대적 구조를 보게 만드는 재파라미터화로 이해하는 것이 가깝다.
그러면 “감마와 베타가 없어도 정규화는 되는데 굳이 왜 필요하지?”라는 생각이 들 수 있다.
맞는 말이다. 정규화 자체는 감마와 베타 없이도 가능하다.
하지만 그렇게만 하면 정보력이 다소 약해질 수 있으므로, 감마와 베타를 두어 표현을 다시 재활성화하고 유연하게 조절할 수 있게 한다고 볼 수 있다.
'인공지능' 카테고리의 다른 글
| 개념 정리(심화) : LLM의 GRPO : Group Relative Policy Optimization (0) | 2026.03.15 |
|---|---|
| 개념 정리 : CNN (0) | 2026.03.15 |
| 개념 정리 : PPO (Proximal Policy Optimization) (0) | 2026.03.14 |
| 개념 정리(심화) : LLM의 PPO란 Proximal Policy Optimization (0) | 2026.03.14 |
| 개념 정리(심화) : KV Cache (Key-Value 캐시) 원리 및 존재 이유 (0) | 2026.03.11 |
