AI바라기의 인공지능

개념정리 : SSM 기반 LLM 본문

인공지능

개념정리 : SSM 기반 LLM

AI바라기 2026. 3. 26. 10:35

📌 SSM과 트랜스포머의 핵심 요약

SSM 기반 언어모델은 트랜스포머와 목적은 비슷하지만, Self-Attention 대신 SSM 레이어로 문맥을 처리한다.

어텐션은 모든 토큰이 서로 직접 정보를 주고받으며 문맥을 파악하지만, SSM은 입력 토큰이 순차적으로 들어올 때마다 은닉 상태($h_t$)를 갱신하며 문맥을 차곡차곡 압축한다.

기본적으로 $h_t=Ah_{t-1}+Bx_t$$y_t=Ch_t$ 형태로 문맥 정보가 상태(state)에 누적되며, 이 압축된 표현이 이후 언어 모델(LM)의 예측에 사용된다.

모델이 학습할 때 업데이트되는 것은 압축된 결과물인 Hidden State($h$) 자체가 아니라, 데이터를 어떻게 담고 거를지 결정하는 규칙인 $A$, $B$, $C$ 같은 SSM 파라미터들이다.

💡 한 줄 요약:

어텐션은 토큰끼리 직접 보고, SSM은 상태(state)에 문맥을 압축해서 들고 간다.

🚨 기존 SSM(LTI)의 치명적인 한계는 무엇인가?

어떤 시점의 데이터를 처리하든 항상 고정된 $A$$B$를 사용하기 때문에 언어 모델로서 한계가 발생한다.

문맥상 중요한 토큰이 들어와도 이를 인지하고 상태($h$)에 더 많은 정보를 담아주는(동적 가중치 할당) 유연한 처리가 불가능하기 때문이다.

 

 

맘바는 이것을 해결하고자 함.