목록2026/03/11 (3)
AI바라기의 인공지능
[LLM 추론] KV Cache (Key-Value 캐시) 원리 및 존재 이유1. 들어가며: LLM의 순차적 토큰 생성과 Self-AttentionLLM은 텍스트를 생성할 때 토큰을 하나씩 순차적으로 만들어냅니다. 이때 새롭게 들어온 토큰이 '주인공(Query)'이 되고, 이전에 등장했던 토큰들이 '레퍼런스(Key, Value)'가 되어 주인공 자신을 업데이트하는 Self-Attention 과정을 거칩니다. 2. 문제 제기: 매번 처음부터 다시 계산해야 한다고?여기서 치명적인 병목이 발생합니다. 다음 토큰을 생성할 때마다 이전 토큰들의 $K$와 $V$를 계산하고, 그다음 토큰을 생성할 때 또다시 앞선 모든 토큰의 $K$와 $V$를 처음부터 계산해야 합니다.각 토큰을 변환하는 가중치 행렬($W_q, W_k..
딥러닝의 근간: 선형 회귀(Linear Regression) 완벽 정리주어진 데이터와 정답을 통해, 가진 데이터를 잘 설명하는 모델을 만들고 싶다.구조는 아주 단순하다.X (입력) -> 모델 -> Y (출력)여기서 '모델'이라는 건 결국 가중치(Weight)들로 구성되어 있다.즉, $X$와 가중치 $W$의 선형 결합($XW$)을 통해 결과 $Y$가 나오는 것이기에, 적절한 $W$를 찾는 것이 핵심이다.이것이 바로 선형 회귀(Linear Regression)의 본질이다.이 최적의 $W$를 찾는 데는 크게 두 가지 방법이 있다.1. Analytic vs Gradient 방법① 해석적(Analytic) 방법수학적인 행렬식을 이용해 최적의 해를 한 번의 계산으로 딱 떨어지게 구하는 방법이다.② 경사 하강법(Gr..
용어 설명 (Terminology)Context wall & Data wall: 모델이 긴 시퀀스를 처리하지 못하는 구조적 한계(Context wall)와 긴 호흡으로 구성된 3D 학습 데이터 자체가 절대적으로 부족한 현실적 한계(Data wall).Chunk-wise processing: 분 단위의 긴 영상을 한 번에 처리하지 않고, 짧은 프레임 묶음(chunk)으로 쪼개어 순차적으로 연산하는 기법.Hybrid Memory: 이 논문의 핵심 구조. 아래 두 가지 각기 다른 특성의 메모리를 결합하여 Chunk 간의 정보를 연결함.SWA (Sliding Window Attention): 인접한 청크 간의 세밀한 경계선 정렬을 위해, 압축되지 않은 높은 해상도의 원본 특징을 그대로 보존하는 단기 기억 장치(..
