AI바라기의 인공지능
개념정리 : SSM 기반 LLM 본문
📌 SSM과 트랜스포머의 핵심 요약
SSM 기반 언어모델은 트랜스포머와 목적은 비슷하지만, Self-Attention 대신 SSM 레이어로 문맥을 처리한다.
어텐션은 모든 토큰이 서로 직접 정보를 주고받으며 문맥을 파악하지만, SSM은 입력 토큰이 순차적으로 들어올 때마다 은닉 상태($h_t$)를 갱신하며 문맥을 차곡차곡 압축한다.
기본적으로 $h_t=Ah_{t-1}+Bx_t$ 및 $y_t=Ch_t$ 형태로 문맥 정보가 상태(state)에 누적되며, 이 압축된 표현이 이후 언어 모델(LM)의 예측에 사용된다.
모델이 학습할 때 업데이트되는 것은 압축된 결과물인 Hidden State($h$) 자체가 아니라, 데이터를 어떻게 담고 거를지 결정하는 규칙인 $A$, $B$, $C$ 같은 SSM 파라미터들이다.
💡 한 줄 요약:
어텐션은 토큰끼리 직접 보고, SSM은 상태(state)에 문맥을 압축해서 들고 간다.
🚨 기존 SSM(LTI)의 치명적인 한계는 무엇인가?
어떤 시점의 데이터를 처리하든 항상 고정된 $A$와 $B$를 사용하기 때문에 언어 모델로서 한계가 발생한다.
문맥상 중요한 토큰이 들어와도 이를 인지하고 상태($h$)에 더 많은 정보를 담아주는(동적 가중치 할당) 유연한 처리가 불가능하기 때문이다.
맘바는 이것을 해결하고자 함.
'인공지능' 카테고리의 다른 글
| 개념 정리 : typical set (0) | 2026.03.27 |
|---|---|
| 개념 정리 AEP(Asymptotic Equipartition Property) (0) | 2026.03.27 |
| 개념정리 : S4 : Structured State Space Model (0) | 2026.03.25 |
| 개념정리 : SSM(state space model) (0) | 2026.03.25 |
| 개념 정리 : Linear Recurrence (0) | 2026.03.25 |
