AI바라기의 인공지능

개념 정리 : Linear Recurrence 본문

인공지능

개념 정리 : Linear Recurrence

AI바라기 2026. 3. 25. 15:40

[핵심 요약] AI에서의 선형 점화식 (Linear Recurrence)

1. 개념 정의

AI에서 '선형 점화식'이란 현재의 상태를 업데이트할 때, 비선형 활성화 함수(Sigmoid, ReLU 등)를 완전히 배제하고 오직 행렬의 곱셈과 덧셈만으로 과거 상태와 현재 입력을 결합하는 구조입니다.

2. 표준 수식과 파라미터

$$h_t = A h_{t-1} + B x_t$$
  • $h_t$: $t$ 시점의 은닉 상태 (Hidden State, 모델의 기억)
  • $A$: 상태 변이 행렬 (과거 상태 $h_{t-1}$을 현재로 어떻게 가져올지 결정)
  • $x_t$: $t$ 시점의 새로운 입력 데이터 (예: 단어 임베딩 벡터)
  • $B$: 입력 투영 행렬 (새 입력을 상태에 어떻게 반영할지 결정)

💡 참고: 여기서 $A$$B$는 사람이 정해두고 끝나는 고정값이 아니라, AI가 데이터를 보며 최적화해 나가는 **학습 가능한 파라미터(Learnable Parameters)**입니다.

3. 왜 이 구조가 필요한가? (병렬화의 마법)

  • 기존 RNN/LSTM의 한계: 다음 상태($h_t$)를 만들기 위해 반드시 이전 스텝($h_{t-1}$)의 계산과 비선형 연산이 끝나기를 기다려야 했습니다. 즉, 구조적으로 병렬화가 불가능합니다.
  • 선형 점화식의 해결책: 수식 내부에 비선형 함수가 없기 때문에, $A$$B$ 행렬의 반복 계산을 수학적 트릭(합성곱 등)으로 전개하여 순차적 기다림 없이 한 번에 병렬 연산을 해낼 수 있습니다.

4. 딜레마 극복: "비선형이 없으면 복잡한 학습을 못 하는 거 아닐까?"

비선형 함수가 빠지면 모델의 성능(표현력)이 떨어질 것이라는 당연한 우려가 생깁니다. 이 치명적인 약점을 메우는 것이 바로 행렬 $A$의 핵심 역할입니다.

  • $A$의 중요성: $A$는 아무렇게나 학습되는 것이 아니라, 과거의 방대한 흐름 속에서 '핵심적인 정보만 손실 없이 쏙 남기도록' 고도로 정교하게 세팅되고 학습되어야만 합니다. 이것이 모델 성능을 좌우합니다.

5. A와 B의 최종 역할 분담 (B의 존재 이유)

결과적으로 모델이 잘 학습되었다면 두 행렬은 다음의 역할을 수행합니다.

  • $A$: 과거 정보에서 무엇을 남길지 결정하는 '기억 보존기'
  • $B$: 현재 입력에서 무엇을 취할지 결정하는 '입력 제어기'

($B$가 필수적인 이유): $B$ 없이 수식에 입력값 $x_t$를 바로 더해도 될 것 같지만, 외부에서 들어온 날것의 데이터를 모델 내부의 거대한 기억 공간(Hidden State) 규격과 문맥에 맞게 변환하고 필터링해 주어야 합니다. 즉, $B$는 일종의 '인코더(Encoder)' 느낌으로 시스템을 제어하는 필수 부품입니다.