개념정리 : SSM 기반 LLM

Notice

Recent Posts

Recent Comments

Link

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

AI바라기의 인공지능

개념정리 : SSM 기반 LLM 본문

인공지능

개념정리 : SSM 기반 LLM

AI바라기 2026. 3. 26. 10:35

📌 SSM과 트랜스포머의 핵심 요약

SSM 기반 언어모델은 트랜스포머와 목적은 비슷하지만, Self-Attention 대신 SSM 레이어로 문맥을 처리한다.

어텐션은 모든 토큰이 서로 직접 정보를 주고받으며 문맥을 파악하지만, SSM은 입력 토큰이 순차적으로 들어올 때마다 은닉 상태($h_t$)를 갱신하며 문맥을 차곡차곡 압축한다.

기본적으로 $h_t=Ah_{t-1}+Bx_t$ 및 $y_t=Ch_t$ 형태로 문맥 정보가 상태(state)에 누적되며, 이 압축된 표현이 이후 언어 모델(LM)의 예측에 사용된다.

모델이 학습할 때 업데이트되는 것은 압축된 결과물인 Hidden State($h$) 자체가 아니라, 데이터를 어떻게 담고 거를지 결정하는 규칙인 $A$, $B$, $C$ 같은 SSM 파라미터들이다.

💡 한 줄 요약:

어텐션은 토큰끼리 직접 보고, SSM은 상태(state)에 문맥을 압축해서 들고 간다.

🚨 기존 SSM(LTI)의 치명적인 한계는 무엇인가?

어떤 시점의 데이터를 처리하든 항상 고정된 $A$와 $B$를 사용하기 때문에 언어 모델로서 한계가 발생한다.

문맥상 중요한 토큰이 들어와도 이를 인지하고 상태($h$)에 더 많은 정보를 담아주는(동적 가중치 할당) 유연한 처리가 불가능하기 때문이다.

맘바는 이것을 해결하고자 함.

'인공지능' 카테고리의 다른 글

개념 정리 : typical set (0)	2026.03.27
개념 정리 AEP(Asymptotic Equipartition Property) (0)	2026.03.27
개념정리 : S4 : Structured State Space Model (0)	2026.03.25
개념정리 : SSM(state space model) (0)	2026.03.25
개념 정리 : Linear Recurrence (0)	2026.03.25

'인공지능' Related Articles

AI바라기의 인공지능

개념정리 : SSM 기반 LLM 본문

개념정리 : SSM 기반 LLM

📌 SSM과 트랜스포머의 핵심 요약

🚨 기존 SSM(LTI)의 치명적인 한계는 무엇인가?

'인공지능' 카테고리의 다른 글

티스토리툴바