AI바라기의 인공지능

LLM : 논문 리뷰 : Learning without training: The implicit dynamics of in-context learning 본문

논문리뷰

LLM : 논문 리뷰 : Learning without training: The implicit dynamics of in-context learning

AI바라기 2026. 3. 2. 17:36

 

용어 설명 (Glossary)

  • In-context learning (ICL): 모델의 weight 업데이트(훈련) 없이 prompt 내의 예시나 정보를 바탕으로 새로운 패턴을 학습하고 적응하는 large language models의 고유한 능력입니다.
  • Contextual block: Self-attention layer와 일반적인 neural network(MLP)가 결합된 구조를 의미하며, transformer block의 핵심 특성을 일반화하여 정의한 본 논문의 고유 개념입니다.
  • Implicit weight update: 실제 학습(training)을 통한 명시적인 weight 변경이 아닌, inference 과정에서 입력된 context가 마치 MLP layer의 weight를 수정한 것과 수학적으로 완벽히 동일하게 작용하는 현상입니다.
  • Rank-1 matrix update: 행렬 업데이트 시 rank가 1인 행렬(column vector와 row vector의 곱 형태)을 더해주는 방식입니다. 이 논문에서는 context가 MLP weight에 가하는 변화량이 바로 이 rank-1 형태임을 증명합니다
  • Steering vectors / Model editing: Inference 시 모델의 output 방향을 조절하거나 특정 사실을 수정하기 위해 모델 내부(hidden state나 weight)에 인위적으로 더해지는 벡터 기법입니다.

Purpose of the Paper

  • 기존 연구들은 LLM의 in-context learning이 일종의 implicit gradient descent 메커니즘을 따른다고 추측했으나, 대부분 linear attention이나 single-head 같은 매우 단순화된(toy) transformer 모델에만 국한되어 증명되었습니다.
  • 본 논문은 구조적 변형이나 단순화 없이, 실제 쓰이는 표준 transformer architecture (self-attention + MLP)에서 ICL이 어떻게 발생하는지 그 근본적인 메커니즘을 수학적으로 밝혀내고자 했습니다.
  • 모델이 단순히 과거의 지식을 '검색(retrieve)'하는 것이 아니라, inference 타임에 주어진 context를 통해 실제로 MLP layer의 weight를 어떻게 암묵적으로(implicitly) 재구성하는지 명확한 공식으로 규명하는 데 초점을 맞췄습니다.

Key Contributions

  • Contextual block 개념 도입 및 일반화: Transformer block을 일반화하여, context가 주어졌을 때 이어지는 neural network의 첫 번째 layer weight를 어떻게 암묵적으로 업데이트하는지 이론적인 틀을 마련했습니다.
  • Exact Rank-1 Weight Update 공식 도출 (참신성): 기존 연구들과 달리 architecture 수정 없이, context가 MLP weight에 가하는 영향을 정확한 rank-1 matrix update 공식(W가 W + delta W 로 변화)으로 완벽하게 유도해 낸 점이 가장 큰 차별점입니다.
  • Implicit Gradient Descent 동력학 증명: Prompt token이 하나씩 순차적으로 입력될 때마다 발생하는 weight update의 흐름이 실제 stochastic gradient descent의 학습 과정과 수학적으로 일치함을 증명하여 ICL의 메커니즘을 투명하게 해석했습니다.
  • Model Editing 기술과의 연결 고리 발견 (참신성): ROME 등에서 널리 쓰이는 rank-1 factual model edit이나 steering vector 기법들이 사실은 transformer가 ICL을 수행하는 자연스러운 메커니즘과 동일한 현상의 발현임을 밝혀냈습니다.

Experimental Highlights

  • 수학적 공식의 완벽한 검증 (핵심 결과): Single-layer 및 multi-layer standard transformer를 linear regression task dataset으로 pre-trained 시킨 후, 전체 prompt (context + query)를 입력했을 때의 output과, context 없이 query만 입력하되 논문에서 도출한 공식(delta W)으로 MLP weight를 수정한 모델의 output을 비교했습니다. 두 방식의 output이 오차 범위 10^-7 수준으로 정확히 일치함을 증명했습니다.
  • 학습 수렴(Convergence) 궤적 확인: Context token 길이가 길어질수록, 새롭게 추가되는 implicit gradient update 값(L2-norm 기준)이 0에 수렴하는 것을 그래프로 증명하여 실제 훈련 과정과 유사함을 보여주었습니다.
  • SGD Fine-tuning과의 비교 분석: 명시적인 gradient descent(SGD) 기반의 실제 fine-tuning 결과와 본 논문의 implicit weight update 방식이 weight space 상에서 매우 유사한 방향성(highly aligned)을 띠며 loss를 최소화함을 입증했습니다.

Limitations and Future Work

  • Dynamic nature의 한계: 본 논문에서 도출된 exact implicit update(delta W)는 입력된 특정 query token에 의존적(token-dependent)이라는 한계가 있습니다. 즉, 모든 input에 범용적으로 적용할 수 있는 단일한 static weight update로 완벽히 고정(compression)하기는 어렵습니다
     
  • Prompt compression 연구 (Future Work): Query에 의존적인 이 동적 업데이트 값을 평균화(averaging) 등의 기법을 통해 정적인(static) 단일 weight update로 근사(approximate)할 수 있다면, 계산 비용을 줄이는 효율적인 context 재사용 및 prompt 압축 기술로 발전할 수 있습니다.
     
  • Mechanistic interpretability 도구 (Future Work): Generation 과정에서 발생하는 이 암묵적인 meta-gradient를 실시간으로 모니터링하여, 모델의 hallucination이나 mode collapse를 조기에 감지하는 강력한 진단 신호(signal)로 활용할 수 있습니다.
     
  • 새로운 아키텍처 설계 지침 (Future Work): RNN이나 Attention 등 다양한 형태의 layer들이 implicit weight update를 얼마나 효율적으로 지원하는지 평가함으로써, 향후 ICL 성능에 최적화된 새로운 아키텍처 개발의 가이드라인으로 활용될 수 있습니다.

Overall Summary

이 논문은 Large language models가 훈련 과정 없이 in-context learning을 수행하는 미스터리를 수학적이고 기계적인 수준(mechanistic level)에서 해독한 기념비적인 연구입니다. 모델 구조의 변형 없이 주어진 context가 내부의 MLP layer에 rank-1 matrix 형태의 implicit weight update를 실시간으로 가한다는 사실을 증명해 내었으며, 이는 ICL이 실제로 암묵적인 gradient descent 최적화 과정임을 확인시켜 줍니다. 이 발견은 단순히 작동 원리를 밝힌 것을 넘어, 현재 유행하는 model editing 기법들의 근본적 원리를 하나의 이론으로 통합하고 향후 prompt engineering의 수학적 기반을 마련하는 등 AI 해석 가능성(interpretability) 분야에 중요한 전환점을 제공합니다.


쉬운 설명 (Analogy)

이 논문은 LLM이 마치 **"단기 기억(Context)을 뇌의 시냅스 구조(Weight)로 순식간에 변환하는 마술"**을 부린다는 것을 수학적으로 증명한 것과 같습니다.

보통 AI가 새로운 패턴을 배우려면 긴 훈련 과정(Training)을 거쳐 뇌의 구조(Weight)를 영구적으로 뜯어고쳐야 합니다. 하지만 LLM은 프롬프트에 예시(Context)만 주어져도 똑똑하게 대답합니다. 기존에는 이것이 어떻게 가능한지 막연하게만 추측했는데, 이 논문은 프롬프트를 읽는 그 짧은 순간(Inference)에, 주어진 예시들이 마치 수학적인 필터(Rank-1 matrix update)로 변환되어 모델의 특정 뇌 부위(MLP layer)에 '임시로 덧씌워지는 현상'을 정확한 공식으로 밝혀낸 것입니다.

결론적으로, LLM은 프롬프트를 처리할 때 가만히 있는 것이 아니라, 글을 읽으면서 빛의 속도로 머릿속의 가중치를 암묵적으로 재조정하며 **"벼락치기 공부(Implicit Gradient Descent)"**를 하고 있다는 것을 명쾌하게 증명한 논문입니다.

 

 

Abstract

Large Language Models(LLMs)의 가장 놀라운 특징 중 하나는 learn in-context 할 수 있는 능력입니다. 즉, inference 시에 LLM은 이러한 패턴이 training 중에 나타나지 않았더라도 prompt에 예시 형태로 제시될 때 추가적인 weight update 없이 새로운 패턴을 학습할 수 있습니다.

이러한 현상이 발생할 수 있는 메커니즘은 여전히 많은 부분이 알려져 있지 않습니다. 본 연구에서는 self-attention layer와 MLP를 쌓아 올리는 구조가 transformer 블록으로 하여금 context에 따라 MLP layer의 weights를 암시적으로 수정할 수 있게 해준다는 것을 보여줍니다.

우리는 이론과 실험을 통해 이 간단한 메커니즘이 LLMs가 단지 training 중일 때만이 아니라 learn in-context 할 수 있는 이유가 될 수 있다고 주장합니다. 구체적으로, 우리는 transformer 블록이 어떻게 암시적으로 context를 해당 MLP layer의 low-rank weight-update로 변환하는지 보여줍니다.

 

 

 

1 Introduction

더보기

transformer architecture를 기반으로 하는 Large language models(LLMs)는 과학, 산업, 예술 분야에서 광범위한 애플리케이션을 통해 현대 machine learning에 혁명을 일으켰습니다. 이러한 영향력에도 불구하고 그들의 인상적인 emergent properties 이면에 있는 mechanisms는 아직 완전히 이해되지 않았습니다. 이러한 properties 중 가장 매력적이고 강력한 것 중 하나는 LLMs가 input prompt에 제공된 정보를 바탕으로 model의 기본 weights에 대한 어떠한 변경이나 수정 없이 적응할 수 있는 in-context learning(ICL)을 수행하는 능력입니다. 우리의 연구는 이러한 이점 있는 동작을 가능하게 하는 mechanisms를 더 잘 이해하는 데 초점을 맞추고 있습니다.

 

역사적으로 machine learning에서 데이터로부터 패턴을 추출하는 능력은 optimization procedure를 통해 model weights가 update되는 동적인 과정으로 이해되어 왔습니다. 하지만 ICL의 경우, model weights는 변하지 않고 유지됩니다. 대신, LLMs는 prompt에 따라 내부 representations를 재구성하거나 재설정하는 것으로 보이며, 이러한 동적인 조정은 그들이 훨씬 더 정확한 predictions를 할 수 있도록 합니다. LLMs의 이 신비롭고 매우 유용한 property는 연구자들로 하여금 prompt가 소비되는 inference time에 발생하는 암시적인 형태의 weight updates를 추측하게 만들었습니다. 그리고 최근 연구들은 linear regression datasets의 toy set ups에서 trained된 단순화된 transformer blocks가 일종의 gradient descent optimization에 해당하는 암시적인 weight updates를 수행함을 보여줌으로써 이러한 직관을 이론적으로 정당화할 수 있었습니다. 종합하면, 이러한 연구들은 ICL을 원래의 pretrained model에 대한 암시적인 finetuning의 한 형태로 이해할 수 있음을 시사합니다. 본 연구에서는 암시적인 weight updates를 부과하는 것으로서의 ICL이라는 이 직관을 따르며, ICL의 근본적인 효과를 이해하는 데 핵심이라고 믿는 contextual information property에 초점을 맞춥니다. 이를 위해 우리는 transformer block의 일반화인 contextual block의 개념을 도입합니다. 우리는 이 contextual property를 가진 layers가 표준 neural networks와 쌓일 때, 암시적으로 context를 후속 neural network의 가장 첫 번째 layer의 weight update로 변환함을 보여줍니다. 분석을 통해 우리는 feedforward layer weights에 대한 이 암시적인 update에 대한 명시적인 formula를 제공할 수 있으며, 이는 놀랍게도 rank-1 matrix로 판명됩니다. 흥미롭게도, 다른 연구들에서는 유사한 rank-1 matrices를 사용한 명시적인 updates가 LLM의 사실적 정보를 수정할 수 있음을 밝혀냈습니다. 이는 이러한 low-rank matrices가 inference time에 LLMs가 정보를 구성하고 처리하는 방식의 중심일 수 있음을 시사합니다.

 

즉, 우리의 연구는 neural network와 결합된 self-attention layers와 같은 contextual blocks가 실제로 context에 미치는 상대적인 효과로부터 직접 계산된 MLP weights의 rank-1 matrix update로 명시적으로 설명될 수 있는 일종의 암시적인 low-rank finetuning을 수행함을 입증합니다. 우리의 주요 contributions는 다음과 같습니다:

  • 우리는 in-context learning을 가능하게 하는 transformer block의 핵심 properties를 일반화하여, neural network와 함께 쌓인 contextual layer로 형성된 contextual block의 개념을 도입합니다.
  • 우리는 contextual blocks에 대해 context가 MLP weights의 암시적인 rank-1 update로 작용함을 보여주고, contextual block에 대한 context의 marginal effect에 해당하는 이 암시적인 weight-update에 대한 명시적인 formula를 도출합니다.
  • 이러한 암시적인 updates를 사용하여, 우리는 inference 중에 prompt tokens가 소비됨에 따라 발생하는 암시적인 gradient descent learning dynamics를 발견합니다.

skip connections가 있는 transformer blocks의 맥락에서 우리의 암시적인 weight update formula는 두 가지 부분, 즉 low-rank weight matrix update와 vector update를 가진다는 점에 유의하십시오(Theorem B.2 참조). 전자는 사실적 지식 편집에서 발견되는 updates를 연상시키는 반면, 후자는 예를 들어 steering vectors와 강한 유사성을 가집니다. 어떤 면에서, 우리의 연구는 steering vectors와 low-rank matrix edits를 transformer architecture의 내부 mechanisms에 연결합니다. 보완적인 관점에서, 우리의 주요 theorems는 최근의 연구 결과들과 연결됩니다. 그들은 linear attention의 경우, model architecture를 수정하지 않고 prompt를 attention layer matrices의 암시적인 weight updates로 정확하게 변환하는 것이 이론적으로 불가능함을 입증합니다. 정확한 압축을 달성하기 위해, 그들은 attention layer biases 형태의 새로운 weights 세트를 도입해야 합니다. 이와 대조적으로, 우리의 연구는 일반적인 transformer blocks의 경우 어떠한 구조적 수정 없이도 context를 MLP layer의 weight updates로 정확하게 변환할 수 있음을 보여줍니다. 우리의 목표는 정적인 context 압축을 엔지니어링하는 것이 아니라 inference의 자연스러운 mechanics를 밝혀내는 것이지만, 이 결과는 attention과 MLP layers 사이의 근본적인 차이점을 강조합니다. 즉, 후자는 자연스럽게 context를 weight updates로 흡수하는 경향이 있습니다. 하지만 절충안은 이러한 정확한 암시적인 updates가 동적이며 input query tokens에 의존한다는 것입니다. related works에 대한 더 자세한 논의와 우리의 contributions가 이전 연구들과 어떻게 관련되어 있는지에 대해서는 Appendix A를 참조하십시오.

 

 

 

 

1 Introduction 요약 정리 노트 (AI 연구자용)

연구 배경 및 핵심 질문

  • LLMs의 강력한 ICL(in-context learning) 능력은 inference 시 model의 weight 변경 없이 발생함.
  • 기존 연구들은 ICL을 일종의 암시적 미세조정(implicit finetuning)이나 gradient descent optimization으로 해석해 왔음. 본 논문은 이러한 암시적인 weight updates가 어떻게 일어나는지, 그 근본적인 메커니즘(contextual information property)을 규명하고자 함.

핵심 제안 및 발견 (Main Contributions)

  • Contextual block 개념 도입: Transformer block의 핵심 특성을 일반화하여, contextual layer와 neural network가 쌓인 형태를 Contextual block으로 정의함.
  • MLP layer의 암시적 가중치 업데이트 증명: Contextual block 내에서 context는 후속 neural network의 첫 번째 layer(즉, MLP layer)에 대한 암시적인 rank-1 matrix 형태의 weight update로 작용함을 수학적으로 증명함.
  • 명시적 수식(Explicit formula) 도출: Context가 contextual block에 미치는 marginal effect를 바탕으로, 이 암시적인 weight-update를 계산할 수 있는 명시적 수식을 제공함.
  • 학습 동역학(Learning dynamics) 발견: Inference 중 prompt tokens가 소비될 때 발생하는 암시적인 gradient descent learning dynamics를 밝혀냄.

구조적 통찰 (Structural Insights)

  • Skip connections의 역할: Skip connections가 포함된 transformer blocks의 경우, 암시적 업데이트는 두 가지로 나뉨.
    1. Low-rank weight matrix update (사실적 지식 편집 연구들과 유사)
    2. Vector update (steering vectors 연구들과 유사)
  • Attention vs. MLP의 근본적 차이:
    • Linear attention은 구조적 수정(예: bias 추가) 없이는 context를 weight update로 완벽히 변환(compression)할 수 없음.
    • 반면, 일반적인 transformer blocks의 MLP layer는 본질적으로 구조 변경 없이 context를 weight update로 자연스럽게 흡수하는 특성이 있음. 단, 이 업데이트는 input query tokens에 따라 동적으로 변함.

쉬운 설명 : Introduction의 핵심

우리가 LLMs에게 프롬프트(예시나 지시사항)를 주면, 모델은 자신의 뇌 구조(가중치)를 물리적으로 바꾸지 않고도 그 프롬프트 안의 규칙을 순식간에 파악하고 정답을 냅니다. 이를 ICL이라고 하죠. 이 논문은 **"도대체 가중치 수정도 없는데 어떻게 새로운 걸 실시간으로 배우는 걸까?"**라는 아주 본질적인 미스터리를 수학적으로 파헤친 연구입니다.

논문의 결론을 아주 쉽게 비유하자면, 모델이 프롬프트를 읽어 내려가는 과정 자체가 모델 내부에서는 **'임시로 뇌의 가중치를 미세조정(finetuning)하는 것'**과 완전히 똑같은 효과를 낸다는 것입니다.

특히 이 논문이 찾아낸 가장 재미있는 점은 두 가지입니다. 첫째, 모델이 프롬프트를 읽고 지식을 흡수할 때 아주 단순한 형태(rank-1 matrix)로 지식을 임시 업데이트한다는 점입니다. 둘째, 흔히 트랜스포머 구조에서 제일 중요하다고 생각하는 어텐션(attention) 층이 아니라, 오히려 그 뒤에 붙어있는 MLP layer가 이 '임시 지식 업데이트'를 스펀지처럼 흡수하는 핵심 역할을 한다는 것을 수학적으로 증명해 냈습니다.

결과적으로, 우리가 프롬프트를 입력할 때마다 모델은 내부적으로 눈에 보이지 않는 실시간 학습(gradient descent)을 하고 있었던 셈입니다.

 

 

2 Contextual Blocks

더보기

이 섹션에서는 transformers의 몇 가지 핵심 properties를 추상화합니다. 특히, transformer blocks의 self-attention layer를 일반화하는 contextual layer의 개념을 도입합니다. 이 설정에서 contextual block은 transformer block의 개념을 일반화하는 표준 neural network와 contextual layer의 구성입니다. 그런 다음 contextual blocks에 대한 context가 neural network weights의 low-rank fine tuning update로 작용함을 보여주는 우리의 주요 theorem을 증명합니다. 단순화를 위해 skip-connection이 없는 neural network의 경우에 대한 우리의 결과를 서술합니다. skip-connection의 경우는 유사하지만 더 복잡하며 Appendix B에서 완전히 해결되었습니다.

우리는 contextual layer를 단일 vector $x$만을 input으로 받아 output $A(x)$를 산출할 수 있는 network layer $A(\cdot)$로 부릅니다. 또는 선택적으로 $A$는 vector $x$와 함께 context $C$ (예: 토큰 sequence, 이미지 등)를 추가로 받아 output을 산출할 수 있습니다.

contextual layer의 전형적이고 지침이 되는 예시로, context $C$가 context tokens의 sequence $C = [c_1, \dots, c_n]$로 구성된 instruction prompt이고 $x$가 LLM이 prediction을 수행할 query token인 transformer block의 self-attention layer를 고려해 보십시오.

함께 $C$ $x$는 context tokens와 query token의 연결인 contextualized input prompt $[C, x] = [c_1, \dots, c_n, x]$를 생성합니다. transformer는 주어진 길이의 sequences를 동일한 길이의 sequence로 매핑한다는 점에 유의하십시오. 따라서 $A(C, x)$를 마지막 토큰 $x$에 해당하는 self-attention layer의 output으로 간주합니다.

이런 식으로 $A(C, x)$와 $A(x)$는 모두 동일한 output vector space를 차지합니다.

Contextual layers는 주어진 input $x$에 대해 context가 있을 때와 없을 때의 layer output 사이의 차이로 계산되는 contextual vectors를 생성합니다.

$$\delta_A^x(C) := A(C, x) - A(x)$$

self-attention layer를 contextual layer로 일반화한 것에 동기를 부여받아, 이제 전체 transformer block의 개념을 일반화하여 contextual block의 개념을 정의합니다:

Definition 2.1. contextual block은 위의 contextual layer $A$와 neural network $M_W$로 구성된 구성 $T_W = M_W \circ A$입니다. 즉, $M_W(z) = f_\theta(W z + b)$이며, 여기서 $W$ $b$는 초기 fully-connected dense layer의 weights이고 $f_\theta(z)$는 weights $\theta$로 매개변수화된 neural network의 나머지 부분입니다.

다음에서 우리는 context $C$의 일부의 효과를 weights $W$에 대한 직접적인 수정으로 대체하는 것이 가능함을 보여줍니다. context $C$와 주어진 input $x \in C \setminus Y$에 대해, contextual block $A$는 본질적으로 $C$의 임의의 부분 $Y \subset C$를 초기 MLP weights의 암시적인 update로 변환하여 $W$가 $W + \Delta_x W(Y)$가 되도록 합니다. 또한, 이 $\Delta_x W(Y)$는 $W$의 low-rank weight update에 해당합니다. 다르게 해석하면, 이는 contextual layers가 $Y$에 포함된 정보가 $\Delta_x W(Y)$를 통해 효과적이고 효율적으로 전달되도록 후속 network weights를 로드함을 시사합니다.

아래의 Theorem 2.2에서 이 관계를 명확히 합니다. 중요한 것은, 거기서 도출된 formula가 정확하므로 전체 context를 가진 contextual block의 output $T_W(C, x)$는 축소된 context와 수정된 weights를 가진 output $T_{W+\Delta_x W(Y)}(C \setminus Y, x)$와 정확히 동일하다는 것입니다. 따라서 low-rank weight update $\Delta_x W(Y)$는 제거된 context 부분 $Y$의 효과를 완벽하게 포착합니다.

Theorem 2.2. 첫 번째 fully-connected layer가 weight matrix $W$를 가지는 neural network $M_W$와 구성된 contextual layer $A$로 형성된 위와 같은 contextual block $T_W = M_W \circ A$를 고려해 보십시오. context $C$와 input $x \in C \setminus Y$가 주어졌을 때, $T_W$의 output에 대한 context의 일부 부분 $Y \subset C$의 효과는 weight update $W + \Delta_x W(Y)$에 해당합니다. 즉, $A(C \setminus Y, x) \neq 0$인 경우, $T_W(C, x) = T_{W+\Delta_x W(Y)}(C \setminus Y, x)$를 가지며 여기서

$$\Delta_x W(Y) = \frac{(W \delta_A^x(Y)) A(C \setminus Y, x)^T}{\|A(C \setminus Y, x)\|^2}, \quad (1)$$

여기서 $\delta_A^x(Y) := A(C, x) - A(C \setminus Y, x)$는 $Y$와 연관된 context vector입니다. 또한, $W \delta_A^x(Y)$는 column vector이고 $A(C \setminus Y, x)^T$는 row vector이므로 $\Delta_x W(Y)$는 rank-1 weight update에 해당한다는 점에 유의하십시오.

Proof. 결과는 직접적인 계산에 의해 따릅니다. $M_W(z) = f_\theta(W z + b)$라 하자. 여기서 $W$ $b$ $M$의 첫 번째 dense layer의 weights이고 $f_\theta$는 network의 나머지 부분을 나타냅니다. 그러면 정의에 의해 우리는 다음을 가집니다.

$$T_{W+\Delta_x W(Y)}(C \setminus Y, x) = M_{W+\Delta_x W(Y)}(A(C \setminus Y, x))$$
$$= f_\theta((W + \Delta_x W(Y))A(C \setminus Y, x) + b)$$
$$= f_\theta(W A(C \setminus Y, x) + \Delta_x W(Y)A(C \setminus Y, x) + b).$$

이제 $\Delta_x W(Y)$를 Eq. 1에 주어진 정의로 대체하고 $\frac{z^T}{\|z\|^2} z = 1$임을 사용하면 다음을 얻습니다.

$$T_{W+\Delta_x W(Y)}(C \setminus Y, x) = f_\theta\left(W A(C \setminus Y, x) + \frac{(W \delta_A^x(Y))A(C \setminus Y, x)^T}{\|A(C \setminus Y, x)\|^2}A(C \setminus Y, x) + b\right)$$
$$= f_\theta(W(A(C \setminus Y, x) + \delta_A^x(Y)) + b).$$

마지막으로, context vector의 정의에 의해 $A(C \setminus Y, x) + \delta_A^x(Y) = A(C, x)$를 가지며, 따라서

$$T_{W+\Delta_x W(Y)}(C \setminus Y, x) = f_\theta(W A(C, x) + b) = M_W(A(C, x)) = T_W(C, x)$$

이로써 증명이 끝납니다.

Remark 2.3. 우리의 theorem은 임의의 contextual layer가 prompt에서 첫 번째 neural network layer로의 암시적인 weight transfer를 생성하여 pretrained neural network의 동작을 암시적으로 수정한다고 명시합니다. 가능한 모든 contextual layers (예: self-attention, RNN 또는 [8]과 같이 local attention을 가진 recurrent layers) 중에서 어떤 것들은 다른 것들보다 유용한 weight modifications를 제공하는 데 더 나을 수 있습니다. 우리의 theorem에 의해 주어지는 암시적인 weight updates의 특정한 형태와 contextual layer에 의해 주어지는 $A$의 특별한 구조 측면에서 contextual-layer의 generative power를 평가하는 것은 흥미로울 수 있습니다. Appendix D에서는 ICL의 관점에서 RNN-based 대 attention-based conceptual layers를 비교합니다.

Remark 2.4. 우리는 암시적인 update $\Delta_x W$가 고유하지 않음을 관찰합니다. 즉, $M A(C \setminus Y, x) = 0$을 만족하는 임의의 matrix $M$에 대해 update $\Delta_x W + M$ 역시 잘 작동할 것입니다. 이것은 deep learning에서의 overparametrization의 발현이며 주어진 function이 단일 network의 다른 configurations에 의해 표현될 수 있다는 사실입니다. 그러나 matrices $\Delta_x W$는 rank 1이라는 의미에서 minimal함을 관찰하십시오.

Remark 2.5. [13]은 transformer block의 MLP layer가 일종의 key-value store로 기능한다는 것을 발견했습니다. 여기서 첫 번째 MLP matrix의 neuron vectors는 keys를 구현하는 반면 두 번째 MLP matrix의 neuron vectors는 values입니다. 이러한 관점에서, context의 효과가 values는 변경하지 않은 채 keys의 변환으로 작용하는 것으로 보인다는 점에 주목하는 것은 흥미롭습니다.

$Y = C$가 전체 context일 때, 위의 theorem은 모든 context 정보를 weight matrix $W$에 넣는 formula를 제공한다는 점에 유의하십시오. Figure 1을 참조하십시오.

Corollary 2.5.1. 위의 표기법에서, 전체 context $C$는 다음 update를 통해 neural network weights로 transfer될 수 있습니다 ($A(x) \neq 0$인 경우):

$$T_W(C, x) = T_{W+\Delta_x W(C)}(x), \quad \text{with} \quad \Delta_x W(C) = \frac{(W \delta_A^x(C)) A(x)^T}{\|A(x)\|^2}, \quad (2)$$

여기서 $\delta_A^x(C) = A(C, x) - A(x)$는 context vector이고, $W \delta_A^x(C)$는 column vector이고 $A(x)^T$는 row vector이므로 $\Delta_x W$는 rank-1입니다.

Remark 2.6. Eq. 1의 weight transfer formula는 $D = C \setminus Y$로 설정하여 context의 union/concatenation을 사용하여 다시 작성할 수도 있습니다. 즉:

$$T_W(D \cup Y, x) = T_{W+\Delta_x W(Y)}(D, x).$$

또 다른 흥미로운 경우는 $Y$가 사용자 input에 해당하고 $C = [Y, x_1, \dots, x_n]$인 경우입니다. 여기서 $x_i$는 generated response tokens입니다. 이 경우, 우리는 Theorem 2.2의 즉각적인 적용을 통해 사용자가 제공한 context $Y$가 response generation에 미치는 효과를 정량화할 수 있습니다:

Corollary 2.6.1. 위의 표기법에서, 우리는 다음을 가집니다.

$$T_W(Y, x_1, \dots, x_i) = T_{W+\Delta_{x_i} W(Y)}(x_1, \dots, x_i) \quad (3)$$

여기서 암시적인 update는 다음과 같이 주어집니다.

$$\Delta_{x_i} W(Y) = \frac{(W \delta_A^{x_i}(Y)) A(x_1, \dots, x_i)^T}{\|A(x_1, \dots, x_i)\|^2} \quad (4)$$

context vector와 함께

$$\delta_A^{x_i}(Y) = A(Y, x_1, \dots, x_i) - A(x_1, \dots, x_i). \quad (5)$$

Appendix B에서는 표준 transformer blocks의 일반적인 경우인 skip-connections를 가진 neural networks에 대해 Theorem 2.2를 일반화합니다. Appendix C에서는 각 블록에 반복적으로 적용함으로써 이 theorem을 transformer blocks의 stack으로 확장하는 방법을 설명합니다. Section 4에서는 실험적으로 우리의 이론적 결과를 표준적인 구체적인 예제에서 검증합니다.

 

 

 

2 Contextual Blocks 요약 정리 노트 (AI 연구자용)

1. 핵심 개념 정의: Contextual Block 구조화

  • Contextual Layer ($A$): Self-attention layer의 일반화. 단일 입력 $x$만 받을 수도 있고($A(x)$), context $C$와 함께 받을 수도 있음($A(C, x)$).
  • Contextual Vector ($\delta_A^x(C)$): Context 유무에 따른 출력의 차이를 나타내는 벡터. $\delta_A^x(C) := A(C, x) - A(x)$.
  • Contextual Block ($T_W$): Contextual layer $A$와 neural network $M_W$의 결합($T_W = M_W \circ A$). 여기서 $M_W$는 첫 번째 fully-connected layer의 가중치가 $W$인 네트워크로, 일반적인 transformer block의 동작을 추상화함.

2. Main Theorem (Theorem 2.2): Context의 암시적 가중치 업데이트 (Exact Mapping)

  • 핵심 발견: Context $C$의 일부 $Y$가 모델 출력에 미치는 영향은, 해당 context $Y$를 제거하는 대신 MLP의 첫 번째 가중치 $W$에 특정한 rank-1 update($\Delta_x W(Y)$)를 더해주는 것과 수학적으로 **완벽히 동일(Exact)**함.
  • 등식: $T_W(C, x) = T_{W+\Delta_x W(Y)}(C \setminus Y, x)$
  • 명시적 수식(Explicit Formula):($W \delta_A^x(Y)$는 column vector, $A(C \setminus Y, x)^T$는 row vector이므로 결과적으로 rank-1 행렬이 됨)
  • $$\Delta_x W(Y) = \frac{(W \delta_A^x(Y)) A(C \setminus Y, x)^T}{\|A(C \setminus Y, x)\|^2}$$

3. 주요 시사점 및 확장 (Remarks & Corollaries)

  • Minimalist Update (Remark 2.4): Overparametrization으로 인해 암시적 업데이트 행렬이 유일하지는 않지만, 도출된 $\Delta_x W$rank-1이라는 점에서 minimal한 형태임.
  • Key-Value Store 관점의 해석 (Remark 2.5): MLP layer를 일종의 key-value store로 볼 때(첫 번째 가중치는 key, 두 번째는 value), context는 value는 그대로 둔 채 key를 변환하는 역할을 수행함.
  • Full Context Transfer (Corollary 2.5.1): $Y=C$인 경우, 프롬프트 전체 정보를 가중치 $W$로 완전히 전이(transfer)시키는 공식을 도출함.
  • Response Generation 적용 (Corollary 2.6.1): 생성 과정에서 사용자 프롬프트 $Y$$i$번째 토큰 $x_i$ 생성에 미치는 영향을 $\Delta_{x_i} W(Y)$라는 가중치 업데이트 수식으로 정량화하여 추적할 수 있음.

쉬운 설명 : 2 Contextual Blocks 섹션의 의미

이 섹션은 **"프롬프트(Context)가 트랜스포머 모델 내부에서 도대체 어떻게 소화되는가?"**를 수학적으로 완벽하게 증명한 논문의 하이라이트입니다.

비유하자면, 모델에게 "A문서를 읽고(Context), B질문에 답해봐(Query)"라고 시키는 상황을 생각해 보세요.

일반적인 상식으로는 모델이 A문서와 B질문을 동시에 쥐고 끙끙대며 답을 찾아낼 것 같지만, 이 논문의 수학적 증명에 따르면 모델은 전혀 다른 효율적인 방식을 씁니다.

1. 프롬프트를 뇌(가중치)에 일시적으로 덧칠하기

모델 내부의 앞단(Contextual Layer, 예: 어텐션)은 A문서의 핵심 정보를 뽑아냅니다. 그리고 이 정보를 뒷단(Neural Network, 예: MLP)으로 넘길 때, 문서의 내용을 데이터 형태로 넘기는 게 아니라 아예 뒷단의 뇌 구조(가중치 $W$)를 일시적으로 아주 살짝 변형(rank-1 update)시켜버립니다.

즉, "A문서를 읽고 B질문에 답하는 것"은 "A문서의 지식이 반영된 새로운 뇌로 B질문만 푸는 것"과 완전히 똑같은 결과를 낸다는 뜻입니다.

2. MLP는 '질문-답변' 사전

트랜스포머의 MLP 층은 종종 '질문(Key)'을 넣으면 '답변(Value)'이 튀어나오는 거대한 사전처럼 작동한다고 알려져 있습니다. 프롬프트(Context)가 주어지면, 모델은 사전의 정답(Value) 내용을 바꾸는 게 아니라, 내가 가진 질문(Key)의 형태를 프롬프트의 문맥에 맞게 깎고 다듬어(Transform) 더 정확한 정답을 찾게 해줍니다.

결론적으로, 우리가 프롬프트를 길게 입력할 때마다 트랜스포머 모델은 그 프롬프트 내용을 단순한 연산(rank-1 행렬)으로 압축해서 자기 자신의 가중치에 실시간으로 업데이트(학습)하고 있었음을 수학적으로 밝혀낸 대목입니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

더보기

별점 3점 / 5점

Standard Transformer architecture에서 어떠한 architecture modification 없이도 prompt의 context가 어떻게 MLP layer에 rank-1 형태의 implicit weight update로 작용하여 in-context learning을 유발하는지 수식으로 완벽하게 증명해 낸 수학적 우아함은 분명 칭찬할 만함.

 

다만 매번 새로운 query token이 주어질 때마다 수식을 다시 계산해야 하는 치명적인 실용적 한계를 안고 있음에도 불구하고 결론부에서 그 활용 가능성을 심하게 과대포장한 점이 아쉬움.