개념 정리 : LayerNorm

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

AI바라기의 인공지능

개념 정리 : LayerNorm 본문

인공지능

개념 정리 : LayerNorm

AI바라기 2026. 3. 16. 14:04

LayerNorm이란

레이어에 들어온 입력 데이터의 스케일을 조정하는 방법이다.

입력 데이터의 평균과 표준편차를 구한 뒤 정규화를 진행한다. 이때

평균: 입력 데이터의 모든 feature들의 평균

표준편차: 입력 데이터의 모든 feature들의 표준편차

이다.

그 후 정규화된 $x$에 학습 가능한 감마($\gamma$)를 곱하고 베타($\beta$)를 더해,

정규화로 너무 빡빡해진 표현을 다시 조절할 수 있게 만든다.

$$\mu=\frac{1}{H}\sum_{i=1}^{H}x_i$$

$$\sigma^2=\frac{1}{H}\sum_{i=1}^{H}(x_i-\mu)^2$$

$$\hat{x}_i=\frac{x_i-\mu}{\sqrt{\sigma^2+\epsilon}}$$

$$y_i=\gamma\hat{x}_i+\beta$$

LayerNorm의 본질은 단순히 값을 “예쁘게” 만드는 것이라기보다,

뒤의 가중치가 입력의 절대 스케일보다는 표준화된 상대적 구조를 보게 만드는 재파라미터화로 이해하는 것이 가깝다.

그러면 “감마와 베타가 없어도 정규화는 되는데 굳이 왜 필요하지?”라는 생각이 들 수 있다.

맞는 말이다. 정규화 자체는 감마와 베타 없이도 가능하다.

하지만 그렇게만 하면 정보력이 다소 약해질 수 있으므로, 감마와 베타를 두어 표현을 다시 재활성화하고 유연하게 조절할 수 있게 한다고 볼 수 있다.

'인공지능' 카테고리의 다른 글

개념 정리(심화) : LLM의 GRPO : Group Relative Policy Optimization (0)	2026.03.15
개념 정리 : CNN (0)	2026.03.15
개념 정리 : PPO (Proximal Policy Optimization) (0)	2026.03.14
개념 정리(심화) : LLM의 PPO란 Proximal Policy Optimization (0)	2026.03.14
개념 정리(심화) : KV Cache (Key-Value 캐시) 원리 및 존재 이유 (0)	2026.03.11

'인공지능' Related Articles

AI바라기의 인공지능

개념 정리 : LayerNorm 본문

개념 정리 : LayerNorm

'인공지능' 카테고리의 다른 글

티스토리툴바