AI바라기의 인공지능

개념정리 : S4 : Structured State Space Model 본문

인공지능

개념정리 : S4 : Structured State Space Model

AI바라기 2026. 3. 25. 19:24

$$\bar{K} = (C\bar{B}, C\bar{A}\bar{B}, C\bar{A}^2\bar{B}, \dots, C\bar{A}^L\bar{B})$$이 커널을 미리 계산해 둬야 병렬 처리가 가능한데, 시퀀스 길이($L$)가 길어지면 끔찍한 일이 벌어짐

제곱 하다가 날샘
(정확히는 S4는 A를 low-rank correction이 들어간 structured form으로 parameterize해서 이 계산을 훨씬 다루기 쉽게 만든다.)

"어차피 $\bar{A}$를 수만 번 거듭제곱해야 한다면, A의 뼈대 자체를 곱셈하기 엄청 쉬운 형태로 바꿔버리면 안 될까?"

이 아이디어가 바로 S4입니다.
수학에서 **대각 행렬(Diagonal Matrix)**은 거듭제곱을 할 때 대각선에 있는 숫자들만 각각 곱해주면 끝

S4 연구진은 복잡한 HiPPO 행렬 A를 뜯어고쳐서, **대각 행렬과 비슷한 뼈대(Normal)**에 **아주 작은 오차 덩어리(Low-Rank)**를 더한 NPLR(Normal Plus Low-Rank) 형태로 수학적 마개조
(정확히는 S4 연구진은 HiPPO에서 온 state matrix A를, 안정적으로 diagonalize하고 빠르게 계산할 수 있도록 diagonal plus low-rank(DPLR/NPLR) 구조로 parameterize했다.)

자세한 수식은 생략 ... 조금 어려움

일단 그렇게 해서
$$K(z) = \bar{C}D^{-1}\bar{B} - \frac{z}{1 + zQ^*D^{-1}P} (\bar{C}D^{-1}P)(Q^*D^{-1}\bar{B})$$

이 커널을 쓰면 해결됨.
(정확히는 이런 형태로 바꾸면 원래 어렵던 커널 계산을 훨씬 빠르고 안정적으로 다룰 수 있게 됨.)