AI바라기의 인공지능

개념 정리 : LayerNorm 본문

인공지능

개념 정리 : LayerNorm

AI바라기 2026. 3. 16. 14:04

LayerNorm이란

레이어에 들어온 입력 데이터의 스케일을 조정하는 방법이다.

입력 데이터의 평균과 표준편차를 구한 뒤 정규화를 진행한다. 이때

평균: 입력 데이터의 모든 feature들의 평균

표준편차: 입력 데이터의 모든 feature들의 표준편차

이다.

그 후 정규화된 $x$에 학습 가능한 감마($\gamma$)를 곱하고 베타($\beta$)를 더해,

정규화로 너무 빡빡해진 표현을 다시 조절할 수 있게 만든다.

$$\mu=\frac{1}{H}\sum_{i=1}^{H}x_i$$

$$\sigma^2=\frac{1}{H}\sum_{i=1}^{H}(x_i-\mu)^2$$

$$\hat{x}_i=\frac{x_i-\mu}{\sqrt{\sigma^2+\epsilon}}$$

$$y_i=\gamma\hat{x}_i+\beta$$

LayerNorm의 본질은 단순히 값을 “예쁘게” 만드는 것이라기보다,

뒤의 가중치가 입력의 절대 스케일보다는 표준화된 상대적 구조를 보게 만드는 재파라미터화로 이해하는 것이 가깝다.

그러면 “감마와 베타가 없어도 정규화는 되는데 굳이 왜 필요하지?”라는 생각이 들 수 있다.

맞는 말이다. 정규화 자체는 감마와 베타 없이도 가능하다.

하지만 그렇게만 하면 정보력이 다소 약해질 수 있으므로, 감마와 베타를 두어 표현을 다시 재활성화하고 유연하게 조절할 수 있게 한다고 볼 수 있다.