AI바라기의 인공지능

LLM : 빠른 논문 리뷰 : Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models 본문

논문리뷰

LLM : 빠른 논문 리뷰 : Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

AI바라기 2026. 1. 21. 20:39

Engram: Conditional Memory via Scalable Lookup 논문 학습 노트

용어 설명 (Terminology)

  • Engram: 이 논문에서 제안하는 새로운 모듈의 이름. 고전적인 N-gram 통계 모델을 현대적인 신경망에 통합하여, 텍스트의 정적인 패턴(static pattern)을 O(1) 복잡도로 즉시 찾아(lookup)낼 수 있게 하는 메모리 장치.
  • Conditional Memory: **Mixture-of-Experts (MoE)**가 연산(computation)을 조건부로 활성화하는 Conditional Computation이라면, Engram은 메모리(지식)를 조건부로 검색하는 새로운 축(axis)의 희소성(sparsity) 개념.
  • Conditional Computation: 입력 토큰에 따라 전체 파라미터 중 일부(expert)만 활성화하여 연산 효율을 높이는 방식 (주로 MoE).
  • Sparsity Allocation: 제한된 총 파라미터 및 연산 예산(budget) 하에서, MoE Experts (연산 능력)와 Engram Memory (기억 능력) 간에 자원을 어떻게 배분해야 최적의 성능을 내는지 결정하는 문제.
  • Iso-parameter / Iso-FLOPs: 모델 비교 시 공정성을 위해 총 파라미터 수와 연산량(FLOPs)을 동일하게 맞춘 설정.

Purpose of the Paper

이 논문은 Transformer 기반 LLM이 지식 검색(knowledge retrieval)을 위해 비효율적인 연산을 수행한다는 근본적인 한계를 해결하고자 함.

  • 기존의 문제점: 기존 Transformer는 "단순한 사실"(예: 고유명사, 관용구)을 기억하고 인출하기 위해 깊은 레이어의 AttentionFFN 연산을 낭비함. 즉, 데이터베이스에서 조회(lookup)하면 될 일을 복잡한 추론(computation)을 통해 시뮬레이션하고 있음.
  • 접근 방식의 전환: MoE가 연산 용량(capacity)을 확장하는 데 성공했지만, 언어 모델링에는 동적인 추론뿐만 아니라 정적인 지식 검색도 필수적임. 따라서 **연산(Computation)**과 **기억(Memory)**을 구조적으로 분리하고, 기억 부분은 값싼 N-gram lookup으로 처리하여, 모델의 깊은 레이어가 고차원적인 추론에 집중하도록 만듦.

Key Contributions

이 논문의 기여는 단순한 N-gram의 부활이 아니라, 이를 MoE와 결합하여 현대적인 LLM의 First-class primitive로 승격시킨 점에 있음.

  • Engram Architecture 설계:
    • Tokenizer Compression: 기존 Tokenizer의 비효율성을 개선하여 의미 밀도를 높인 후 N-gram을 형성.
    • Multi-Head Hashing: 거대한 N-gram 공간을 효율적으로 매핑하기 위해 충돌을 최소화하는 해시 함수 도입.
    • Context-Aware Gating: 단순히 검색된 정적 임베딩을 더하는 것이 아니라, 현재의 Hidden State를 Query로 사용하여 문맥에 맞게 정보를 필터링하고 통합하는 메커니즘 제안.
  • Sparsity Allocation Law 발견 (Novelty):
    • 제한된 예산에서 MoE (연산)와 Engram (메모리) 비율에 따른 성능 변화를 분석하여 U-shaped curve를 발견함.
    • Pure MoE (100% 연산 몰빵)보다, 자원의 약 20~25%를 Engram에 할당할 때 성능이 최적화됨을 입증.
  • System Efficiency & Scaling:
    • Engram은 입력 토큰만으로 주소를 알 수 있는 Deterministic addressing 특성이 있어, GPU 연산 중에 CPU(Host) 메모리에서 비동기로 데이터를 가져오는 Prefetching이 가능함.
    • 이를 통해 GPU 메모리 제약 없이 100B 이상의 파라미터 테이블을 최소한의 오버헤드(3% 미만)로 활용 가능.

Experimental Highlights

논문은 Engram이 단순한 암기용 모듈이 아니라, 모델의 전반적인 추론 능력을 향상시킨다는 것을 증명함.

  • Pre-training Performance (vs MoE-27B):
    • 설정: 262B 토큰 학습, MoE-27B와 엄격한 Iso-parameter, Iso-FLOPs 비교.
    • 결과: Engram-27B는 지식 집약적 태스크(MMLU +3.4, CMMLU +4.0) 뿐만 아니라, 일반 추론(BBH +5.0, ARC-Challenge +3.7)과 코드/수학(HumanEval +3.0, MATH +2.4)에서도 MoE 베이스라인을 압도함.
  • Mechanism Analysis (Why works?):
    • LogitLens & CKA 분석: Engram이 초기 레이어에서 정적인 패턴 완성을 빠르게 처리해 줌으로써, 모델의 Effective Depth를 깊게 만드는 효과를 냄. 즉, 모델이 앞단에서 힘을 덜 빼고 뒷단에서 복잡한 추론을 할 수 있게 됨.
  • Long Context Performance:
    • RULER & LongPPL: 국소적인 의존성(local dependency)을 Engram이 처리해 주면서 Attention이 글로벌 문맥(global context)에 집중할 수 있는 여유를 줌.
    • 그 결과 Multi-Query NIAH에서 84.2점에서 97.0점으로 대폭 향상되는 등 장기 문맥 처리 능력이 크게 개선됨.

Limitations and Future Work

  • Layer Placement Trade-off:
    • 한계: Engram을 얕은 레이어(early layer)에 넣으면 국소 패턴 처리를 일찍 끝내주어 좋지만, Gating을 위한 문맥 정보가 부족해짐. 반대로 깊은 레이어에 넣으면 Prefetching 시간은 벌지만 모델 깊이 증대 효과가 줄어듦.
    • 해결책: 현재는 레이어 2와 15에 나누어 배치하는 휴리스틱을 사용하나, 최적의 배치 전략에 대한 추가 연구 필요.
  • Training-Inference Inconsistency:
    • 한계: 분석을 위해 추론 시 Engram을 껐을 때 성능 저하를 측정했지만, 이는 학습 시와의 불일치를 유발함.
  • Future Work:
    • 더 거대한 스케일(trillion parameter scale)에서의 검증.
    • 자주 쓰이는 패턴은 GPU에, 드문 패턴은 SSD/RAM에 두는 Hierarchical Memory System의 고도화.

Overall Summary

이 논문은 Transformer 모델이 지식 검색을 위해 비싼 연산 자원을 낭비하고 있음을 지적하며, 이를 해결하기 위해 N-gram 기반의 조건부 메모리 모듈인 Engram을 제안했습니다. 연구진은 Sparsity Allocation 법칙을 통해 연산(MoE)과 기억(Engram)의 최적 배분 비율을 찾아냈으며, 이를 적용한 27B 모델이 지식 태스크뿐만 아니라 추론, 코딩, 수학 등 전반적인 영역에서 기존 MoE 모델을 능가함을 입증했습니다. 이 연구는 LLM의 설계를 단순히 깊고 넓게 만드는 것을 넘어, 연산과 기억을 구조적으로 분리하여 효율성과 성능을 동시에 극대화하는 새로운 아키텍처 패러다임을 제시합니다.


쉬운 설명 (Easy Explanation)

  • 문제: 기존의 똑똑한 AI 모델(LLM)은 "사과(Apple)"라는 단어 뒤에 "파이(Pie)"가 올 확률을 계산하기 위해, 마치 복잡한 미적분 문제를 풀듯이 엄청난 뇌(GPU 연산)를 쓰고 있었습니다. 아주 단순한 단어 조합인데도 말이죠.
  • 아이디어: "자주 나오는 단순한 단어 패턴이나 사실들은 굳이 계산하지 말고, 그냥 **커닝 페이퍼(Engram Memory)**를 보고 바로 베끼자!"
  • 핵심: 이렇게 단순 암기(Memory)를 커닝 페이퍼에 맡겨버리니, AI의 진짜 뇌(MoE/Attention)는 어려운 논리 문제나 긴 글의 맥락을 파악하는 데 온전히 집중할 수 있게 되었습니다.
  • 결과: 결과적으로 AI가 상식도 늘었지만, 뇌를 더 효율적으로 쓰게 되어 수학이나 코딩 같은 복잡한 문제도 훨씬 잘 풀게 되었습니다.

 

 

 

더보기

학습 과정에서 자주 나오는 id 패턴을 해시 테이블로 만들어서

lookup으로 가져온 후 그게 앞단 레이어의 유사도와 비교후 유사하다면 그 토큰을 채용하는 방식

그렇게 된다면 토큰을 생성하는데 파라미터가 학습이 되지 않고 토큰을 받고 추론이나 어떤 롱컨텍스트 등 다른 부분이 학습되어 좀 더 강점이 생기는...



 

 

별점 3점 / 5점

고전 기법인 N-gram의 핵심 개념을 MoE엔진에 이식한 세련된 하이브리드 튜닝을 선보여서 고정된 파라미터수에 지식이 아닌 지능을 넣을 수 있었던 아이디어.  하지만 확장성과 유연성이 단점처럼 보이며, 자칫 할루시네이션이나, 모델 매너리즘에 빠지기 쉬움.