LLM : 빠른 논문 리뷰 : Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

Notice

Recent Posts

Recent Comments

Link

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

AI바라기의 인공지능

LLM : 빠른 논문 리뷰 : Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models 본문

논문리뷰

LLM : 빠른 논문 리뷰 : Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

AI바라기 2026. 1. 21. 20:39

Engram: Conditional Memory via Scalable Lookup 논문 학습 노트

용어 설명 (Terminology)

Engram: 이 논문에서 제안하는 새로운 모듈의 이름. 고전적인 N-gram 통계 모델을 현대적인 신경망에 통합하여, 텍스트의 정적인 패턴(static pattern)을 O(1) 복잡도로 즉시 찾아(lookup)낼 수 있게 하는 메모리 장치.
Conditional Memory: **Mixture-of-Experts (MoE)**가 연산(computation)을 조건부로 활성화하는 Conditional Computation이라면, Engram은 메모리(지식)를 조건부로 검색하는 새로운 축(axis)의 희소성(sparsity) 개념.
Conditional Computation: 입력 토큰에 따라 전체 파라미터 중 일부(expert)만 활성화하여 연산 효율을 높이는 방식 (주로 MoE).
Sparsity Allocation: 제한된 총 파라미터 및 연산 예산(budget) 하에서, MoE Experts (연산 능력)와 Engram Memory (기억 능력) 간에 자원을 어떻게 배분해야 최적의 성능을 내는지 결정하는 문제.
Iso-parameter / Iso-FLOPs: 모델 비교 시 공정성을 위해 총 파라미터 수와 연산량(FLOPs)을 동일하게 맞춘 설정.

Purpose of the Paper

이 논문은 Transformer 기반 LLM이 지식 검색(knowledge retrieval)을 위해 비효율적인 연산을 수행한다는 근본적인 한계를 해결하고자 함.

기존의 문제점: 기존 Transformer는 "단순한 사실"(예: 고유명사, 관용구)을 기억하고 인출하기 위해 깊은 레이어의 Attention과 FFN 연산을 낭비함. 즉, 데이터베이스에서 조회(lookup)하면 될 일을 복잡한 추론(computation)을 통해 시뮬레이션하고 있음.
접근 방식의 전환: MoE가 연산 용량(capacity)을 확장하는 데 성공했지만, 언어 모델링에는 동적인 추론뿐만 아니라 정적인 지식 검색도 필수적임. 따라서 **연산(Computation)**과 **기억(Memory)**을 구조적으로 분리하고, 기억 부분은 값싼 N-gram lookup으로 처리하여, 모델의 깊은 레이어가 고차원적인 추론에 집중하도록 만듦.

Key Contributions

이 논문의 기여는 단순한 N-gram의 부활이 아니라, 이를 MoE와 결합하여 현대적인 LLM의 First-class primitive로 승격시킨 점에 있음.

Engram Architecture 설계:
- Tokenizer Compression: 기존 Tokenizer의 비효율성을 개선하여 의미 밀도를 높인 후 N-gram을 형성.
- Multi-Head Hashing: 거대한 N-gram 공간을 효율적으로 매핑하기 위해 충돌을 최소화하는 해시 함수 도입.
- Context-Aware Gating: 단순히 검색된 정적 임베딩을 더하는 것이 아니라, 현재의 Hidden State를 Query로 사용하여 문맥에 맞게 정보를 필터링하고 통합하는 메커니즘 제안.
Sparsity Allocation Law 발견 (Novelty):
- 제한된 예산에서 MoE (연산)와 Engram (메모리) 비율에 따른 성능 변화를 분석하여 U-shaped curve를 발견함.
- Pure MoE (100% 연산 몰빵)보다, 자원의 약 20~25%를 Engram에 할당할 때 성능이 최적화됨을 입증.
System Efficiency & Scaling:
- Engram은 입력 토큰만으로 주소를 알 수 있는 Deterministic addressing 특성이 있어, GPU 연산 중에 CPU(Host) 메모리에서 비동기로 데이터를 가져오는 Prefetching이 가능함.
- 이를 통해 GPU 메모리 제약 없이 100B 이상의 파라미터 테이블을 최소한의 오버헤드(3% 미만)로 활용 가능.

Experimental Highlights

논문은 Engram이 단순한 암기용 모듈이 아니라, 모델의 전반적인 추론 능력을 향상시킨다는 것을 증명함.

Pre-training Performance (vs MoE-27B):
- 설정: 262B 토큰 학습, MoE-27B와 엄격한 Iso-parameter, Iso-FLOPs 비교.
- 결과: Engram-27B는 지식 집약적 태스크(MMLU +3.4, CMMLU +4.0) 뿐만 아니라, 일반 추론(BBH +5.0, ARC-Challenge +3.7)과 코드/수학(HumanEval +3.0, MATH +2.4)에서도 MoE 베이스라인을 압도함.
Mechanism Analysis (Why works?):
- LogitLens & CKA 분석: Engram이 초기 레이어에서 정적인 패턴 완성을 빠르게 처리해 줌으로써, 모델의 Effective Depth를 깊게 만드는 효과를 냄. 즉, 모델이 앞단에서 힘을 덜 빼고 뒷단에서 복잡한 추론을 할 수 있게 됨.
Long Context Performance:
- RULER & LongPPL: 국소적인 의존성(local dependency)을 Engram이 처리해 주면서 Attention이 글로벌 문맥(global context)에 집중할 수 있는 여유를 줌.
- 그 결과 Multi-Query NIAH에서 84.2점에서 97.0점으로 대폭 향상되는 등 장기 문맥 처리 능력이 크게 개선됨.

Limitations and Future Work

Layer Placement Trade-off:
- 한계: Engram을 얕은 레이어(early layer)에 넣으면 국소 패턴 처리를 일찍 끝내주어 좋지만, Gating을 위한 문맥 정보가 부족해짐. 반대로 깊은 레이어에 넣으면 Prefetching 시간은 벌지만 모델 깊이 증대 효과가 줄어듦.
- 해결책: 현재는 레이어 2와 15에 나누어 배치하는 휴리스틱을 사용하나, 최적의 배치 전략에 대한 추가 연구 필요.
Training-Inference Inconsistency:
- 한계: 분석을 위해 추론 시 Engram을 껐을 때 성능 저하를 측정했지만, 이는 학습 시와의 불일치를 유발함.
Future Work:
- 더 거대한 스케일(trillion parameter scale)에서의 검증.
- 자주 쓰이는 패턴은 GPU에, 드문 패턴은 SSD/RAM에 두는 Hierarchical Memory System의 고도화.

Overall Summary

이 논문은 Transformer 모델이 지식 검색을 위해 비싼 연산 자원을 낭비하고 있음을 지적하며, 이를 해결하기 위해 N-gram 기반의 조건부 메모리 모듈인 Engram을 제안했습니다. 연구진은 Sparsity Allocation 법칙을 통해 연산(MoE)과 기억(Engram)의 최적 배분 비율을 찾아냈으며, 이를 적용한 27B 모델이 지식 태스크뿐만 아니라 추론, 코딩, 수학 등 전반적인 영역에서 기존 MoE 모델을 능가함을 입증했습니다. 이 연구는 LLM의 설계를 단순히 깊고 넓게 만드는 것을 넘어, 연산과 기억을 구조적으로 분리하여 효율성과 성능을 동시에 극대화하는 새로운 아키텍처 패러다임을 제시합니다.

쉬운 설명 (Easy Explanation)

문제: 기존의 똑똑한 AI 모델(LLM)은 "사과(Apple)"라는 단어 뒤에 "파이(Pie)"가 올 확률을 계산하기 위해, 마치 복잡한 미적분 문제를 풀듯이 엄청난 뇌(GPU 연산)를 쓰고 있었습니다. 아주 단순한 단어 조합인데도 말이죠.
아이디어: "자주 나오는 단순한 단어 패턴이나 사실들은 굳이 계산하지 말고, 그냥 **커닝 페이퍼(Engram Memory)**를 보고 바로 베끼자!"
핵심: 이렇게 단순 암기(Memory)를 커닝 페이퍼에 맡겨버리니, AI의 진짜 뇌(MoE/Attention)는 어려운 논리 문제나 긴 글의 맥락을 파악하는 데 온전히 집중할 수 있게 되었습니다.
결과: 결과적으로 AI가 상식도 늘었지만, 뇌를 더 효율적으로 쓰게 되어 수학이나 코딩 같은 복잡한 문제도 훨씬 잘 풀게 되었습니다.

학습 과정에서 자주 나오는 id 패턴을 해시 테이블로 만들어서

lookup으로 가져온 후 그게 앞단 레이어의 유사도와 비교후 유사하다면 그 토큰을 채용하는 방식

그렇게 된다면 토큰을 생성하는데 파라미터가 학습이 되지 않고 토큰을 받고 추론이나 어떤 롱컨텍스트 등 다른 부분이 학습되어 좀 더 강점이 생기는...

별점 3점 / 5점

고전 기법인 N-gram의 핵심 개념을 MoE엔진에 이식한 세련된 하이브리드 튜닝을 선보여서 고정된 파라미터수에 지식이 아닌 지능을 넣을 수 있었던 아이디어. 하지만 확장성과 유연성이 단점처럼 보이며, 자칫 할루시네이션이나, 모델 매너리즘에 빠지기 쉬움.

'논문리뷰' 카테고리의 다른 글

MRI : 빠른 논문 리뷰 : NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI (1)	2026.01.22
VLM : 빠른 논문 리뷰 : Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling (0)	2026.01.22
LLM : 빠른 논문 리뷰 : End-to-End Test-Time Training for Long Context (0)	2026.01.16
LLM : 빠른 논문 리뷰 : WHAT MAKES MATH PROBLEMS HARD FOR REINFORCEMENT LEARNING: A CASE STUDY (0)	2026.01.16
U-net : 논문 리뷰 : nnU-Net Revisited: A Call for Rigorous Validation in 3D Medical Image Segmentation (1)	2026.01.15

'논문리뷰' Related Articles

AI바라기의 인공지능

LLM : 빠른 논문 리뷰 : Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models 본문

LLM : 빠른 논문 리뷰 : Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

용어 설명 (Terminology)

Purpose of the Paper

Key Contributions

Experimental Highlights

Limitations and Future Work

Overall Summary

쉬운 설명 (Easy Explanation)

'논문리뷰' 카테고리의 다른 글

티스토리툴바