AI바라기의 인공지능

VLM : 논문리뷰 : A Survey on Latent Reasoning 본문

논문리뷰

VLM : 논문리뷰 : A Survey on Latent Reasoning

AI바라기 2025. 9. 8. 13:05

학습 노트: A Survey on Latent Reasoning

쉬운 설명 (Easy Explanation)

이 논문의 핵심 아이디어는 **"생각을 굳이 말로 다 표현할 필요가 없다"**는 것입니다.

  • 기존의 **Explicit Reasoning (CoT)**는 똑똑한 사람이 수학 문제를 풀 때 모든 계산 과정을 종이에 일일이 적는 것과 같습니다. 다른 사람이 이해하기는 쉽지만, 쓰는 데 시간이 걸리고 표현 방식(언어)에 제약을 받습니다.
  • 이 논문이 조망하는 Latent Reasoning은 천재 수학자가 복잡한 문제를 머릿속에서 이미지나 개념을 이리저리 조합하며 '순식간에' 푸는 것과 같습니다. 머릿속 생각의 '언어'는 우리가 쓰는 말보다 훨씬 풍부하고(high-bandwidth) 빠릅니다.

이 논문은 AI가 이렇게 **'말로 표현하지 않는 더 깊고 빠른 머릿속 추론'**을 어떻게 할 수 있는지, 그 방법들을 체계적으로 정리하고 미래에는 마치 무한한 시간 동안 생각할 수 있는 수준까지 발전할 수 있다고 제시합니다

 

용어 설명 (Terminology)

  • Latent Reasoning: 모델이 자연어 token 같은 명시적인 중간 단계를 생성하지 않고, 내부의 연속적인 hidden state 공간에서 다단계 추론을 수행하는 방식.
  • Explicit Reasoning (e.g., Chain-of-Thought, CoT): 모델이 최종 답변에 도달하기 전에 "생각의 사슬"을 자연어 token 형태로 명시적으로 생성하여 추론하는 방식.
  • Bandwidth Gap: Explicit Reasoning이 사용하는 discrete token (약 15 bits)과 Latent Reasoning이 사용하는 full hidden state (e.g., 2560-dim FP16, 약 40,960 bits) 사이의 정보 전송량 차이. 이 논문의 핵심 동기로, Latent Reasoning이 약 2,700배 더 넓은 대역폭을 가짐을 시사.
  • Vertical Recurrence (Activation-based): 동일한 layer들을 반복적으로 통과(looping)하여 계산의 깊이(depth)를 동적으로 확장하는 방식. 정해진 수의 layer를 가진 모델이 더 깊게 생각할 수 있도록 함.
  • Horizontal Recurrence (Hidden state-based): 긴 sequence를 처리하기 위해, 압축된 hidden state를 시간 순서(temporal dimension)에 따라 전달하고 업데이트하는 방식. RNN이나 State Space Models (SSM)과 유사한 원리.
  • Infinite-depth Reasoning: 모델의 architecture에 의해 고정된 계산 깊이를 넘어, 문제 해결을 위해 무한한 계산 단계를 할애하여 점진적으로 해결책을 개선할 수 있는 능력. 주로 Text Diffusion Model을 통해 구현됨.
  • Layer Specialization: Transformer의 각 layer가 특정 기능을 전문적으로 수행한다는 이론. 예를 들어, 초기 layer는 구문 분석, 중간 layer는 논리적 연산, 마지막 layer는 최종 결정을 내리는 역할을 함.

Purpose of the Paper

이 논문은 기존의 Chain-of-Thought (CoT)와 같은 Explicit Reasoning 방식이 가진 근본적인 한계, 즉 자연어의 제한된 표현 대역폭(expressive bandwidth) 문제를 극복하고자 한다. CoT는 해석 가능성과 정확도를 높였지만, 모든 생각을 언어라는 틀에 강제로 맞춰야 하므로 모델의 잠재적 성능을 제한한다.

본 논문의 목적은 이러한 한계를 넘어서기 위해 새롭게 부상하는 Latent Reasoning 분야에 대한 최초의 포괄적인 개요(comprehensive overview)와 체계적인 분류법(taxonomy)을 제시하는 것이다. 다양한 Latent Reasoning 접근법들을 **Vertical Recurrence**와 **Horizontal Recurrence**라는 두 가지 핵심 패러다임으로 정리하여, 혼재되어 있던 연구들의 개념적 지형도를 그리고 향후 연구 방향을 제시하는 데 그 목적이 있다.


Key Contributions & Novelty

  • Contribution 1: Latent Reasoning에 대한 통합된 분류법 (Unified Taxonomy) 제시
    • Novelty: 이전까지 개별적으로 연구되던 다양한 접근법들을 **Vertical Recurrence (계산 깊이 확장)**와 **Horizontal Recurrence (시퀀스 용량 확장)**라는 두 개의 축으로 최초로 체계화했다. 이는 해당 연구 분야에 개념적 틀과 공통 언어를 제공한 핵심적인 기여이다.
  • Contribution 2: 방법론의 세분화 및 체계적 정리
    • Vertical Recurrence Architectural Recurrence(e.g., Universal Transformer)와 Training-induced Recurrence(e.g., filler tokens, Coconut)로 세분화.
    • Horizontal Recurrence Linear-State Recurrence(e.g., RWKV, Mamba)와 Gradient-State Recurrence(e.g., TTT)로 세분화.
    • Novelty: 단순히 연구들을 나열하는 것을 넘어, 각 방법론이 '어떻게' latent 추론을 구현하는지에 따라 구체적으로 분류함으로써, 연구자들이 각 기술의 장단점과 관계를 명확히 이해할 수 있도록 돕는다.
  • Contribution 3: Latent Reasoning Infinite-depth Reasoning의 연결
    • Latent Reasoning의 개념을 Mechanistic Interpretability (Layer Specialization)와 연결하여 내부 작동 원리를 설명하고, 이를 Text Diffusion Models을 통한 **Infinite-depth Reasoning**이라는 미래 지향적 패러다임으로 확장했다.
    • Novelty: LLM 추론, 해석 가능성, 생성 모델이라는 서로 다른 연구 분야를 Latent Reasoning이라는 하나의 큰 틀 안에서 통합적으로 조망하고, AI 인지(cognition)의 궁극적인 목표를 제시했다.

Experimental Highlights

이 논문은 새로운 실험을 제시하는 대신, 기존 연구들을 종합하여 다음과 같은 핵심적인 발견을 강조한다.

  • 핵심 정량 지표: The Bandwidth Gap
    • Explicit Reasoning (token)은 약 15 bits의 정보를 전달하는 반면, Latent Reasoning (hidden state)은 약 40,960 bits를 전달하여, 약 2.7 x 10³ 배의 대역폭 차이가 존재함을 명확히 제시했다 (Figure 1). 이는 Latent Reasoning의 이론적 우월성을 뒷받침하는 강력한 근거이다.
  • 주요 패러다임별 성능 함의 요약
    • Vertical Recurrence: test-time에 반복 횟수를 늘리는 것만으로 더 어려운 문제로 일반화(extrapolation)할 수 있는 능력을 보여준다.
    • Horizontal Recurrence: 시퀀스 처리 과정을 '시간을 통한 최적화(optimization over time)'로 재해석하여, 사실상 무한한 길이의 context를 처리할 잠재력을 가진다.
    • Spatial Infinite Reasoning (Diffusion Models): 전체 출력 시퀀스를 병렬적으로, 반복적으로 개선함으로써 기존 AR 모델이 불가능했던 전역적 계획(global planning)과 논리적 일관성 유지가 가능하다.

Limitations and Future Work

  • Limitations: 표준화된 평가 프레임워크의 부재 (Lack of a Unified Evaluation Framework)
    • 현재 Latent Reasoning 모델들은 각기 다른 조건에서 학습되고, 서로 다른 baseline과 비교되어 직접적인 성능 비교가 매우 어렵다.
    • 중요성: 어떤 접근법이 실제로 더 우수한지 객관적으로 판단하기 어려워, 분야의 발전을 위해선 공통된 benchmark와 평가 방법론 정립이 시급하다.
  • Future Work: Infinite-depth Reasoning으로의 발전
    • 논문이 제시하는 가장 중요한 미래 연구 방향은 고정된 깊이의 architecture를 넘어, 문제 해결에 필요한 만큼의 **무한한 계산 시간(unbounded computational steps)**을 사용할 수 있는 모델을 개발하는 것이다.
    • 구체적 방향: 이를 구현할 핵심 기술로 Text Diffusion Models을 지목한다. 이 모델들은 전체 결과물을 병렬적으로 반복 수정하며 추론의 깊이를 무한히 늘릴 수 있어, AI 인지 능력의 새로운 지평을 열 것으로 기대된다.

Overall Summary

이 논문은 기존 CoT의 '언어 대역폭' 한계를 지적하며, 모델의 연속적인 hidden state 공간에서 추론하는 Latent Reasoning 분야를 최초로 체계화한 포괄적인 survey이다. 핵심 기여는 다양한 접근법을 Vertical Recurrence(깊이 확장)와 Horizontal Recurrence(길이 확장)라는 독창적인 분류법으로 정리하고, 이를 Infinite-depth Reasoning이라는 미래 비전과 연결한 것이다. 이 논문은 빠르게 성장하고 있지만 아직 개념적 정립이 부족했던 분야에 명확한 지도와 방향성을 제시함으로써, 향후 고차원적인 AI 인지 연구를 이끄는 중요한 기반이 될 것이다.


 

Abstract

Large Language Models (LLMs)는 인상적인 reasoning 능력을 보여주었으며, 특히 중간 단계를 언어화하는 명시적인 chain-of-thought (CoT) reasoning에 의해 유도될 때 더욱 그렇습니다. CoT는 해석 가능성과 정확성을 모두 향상시키지만, 자연어 reasoning에 대한 의존성은 model의 표현 대역폭을 제한합니다.

Latent reasoningmodel의 연속적인 hidden state 내에서 전적으로 다단계 추론을 수행하여 token-level supervision을 제거함으로써 이러한 병목 현상을 해결합니다. Latent reasoning 연구를 발전시키기 위해, 이 설문 조사는 새롭게 부상하는 latent reasoning 분야에 대한 포괄적인 개요를 제공합니다.

우리는 reasoning을 위한 계산 기판으로서 신경망 계층의 기초적인 역할을 살펴보는 것으로 시작하여, hierarchical representations가 어떻게 복잡한 변환을 지원하는지 강조합니다. 다음으로, 우리는 activation-based recurrence, hidden state propagation, 그리고 명시적인 reasoning 흔적을 압축하거나 내재화하는 fine-tuning 전략을 포함한 다양한 latent reasoning 방법론을 탐구합니다.

마지막으로, 우리는 전역적으로 일관되고 가역적인 reasoning 과정을 가능하게 하는 masked diffusion models을 통한 무한 깊이의 latent reasoning과 같은 고급 패러다임에 대해 논의합니다. 이러한 관점들을 통합함으로써, 우리는 latent reasoning의 개념적 지형을 명확히 하고 LLM 인지의 최전선에서 연구의 미래 방향을 제시하는 것을 목표로 합니다. 최신 논문과 저장소를 수집하는 관련 GitHub 저장소는 LatentCoT-Horizon에서 확인할 수 있습니다.

 

 

 

 

더보기

## Explicit Reasoning (명시적 추론)

왼쪽에 설명된 Explicit Reasoning은 사람이 생각의 과정을 말로 표현하는 것과 유사합니다.

  • 과정: "Step 1 → Step 2 → Step 3..." 와 같이 추론의 각 단계를 순차적인 token(텍스트 조각)으로 생성하여 진행합니다.
  • 정보량: 이 방식은 개별 token을 통해 정보를 전달하므로, Bandwidth가 약 15 bits로 매우 제한적입니다. 이는 모델이 다음 단계로 넘어갈 때 전달할 수 있는 정보의 양이 적다는 것을 의미합니다.

## Latent Reasoning (잠재적 추론)

오른쪽에 설명된 Latent Reasoning은 중간 단계를 텍스트로 변환하지 않고, 모델의 내부적인 hidden state(숨겨진 상태) 안에서 직접 추론을 수행합니다.

  • 과정: 추론 과정이 모델의 복잡한 hidden state 내에서 직접적인 정보 교환을 통해 이루어집니다. "Horizontal" 방식은 같은 시간대의 여러 Layer 간 상호작용을, "Vertical" 방식은 시간의 흐름에 따른 Layer 간 정보 전파를 나타냅니다.
  • 정보량: 이 방식은 2560차원의 전체 FP16 hidden state를 한 번에 교환하므로, Bandwidth가 약 40,960 bits에 달합니다.

## 핵심 비교

이 그림의 핵심은 두 추론 방식 간의 엄청난 Bandwidth 차이입니다. Latent ReasoningExplicit Reasoning에 비해 약 배 (약 2,700배) 더 넓은 Bandwidth를 가집니다. 이는 Latent Reasoning이 훨씬 더 풍부하고 복잡한 정보를 내부적으로 처리하며 추론을 수행할 수 있는 잠재력을 가지고 있음을 시사합니다.

 

1. Introduction

더보기

Large Language Models (LLMs)는 reasoning 작업을 수행하는 데 있어 놀라운 능력을 보여주었으며, 일부 경우에는 인간 수준의 성능을 뛰어넘기도 했습니다. LLMs는 최종 답변(final answer)에 도달하기 전에 각 중간 단계를 자연어로 상세히 설명하는 Chain-of-Thought (CoT)를 생성할 때 더 효과적으로 reason하는 경우가 많습니다.

처음에는 prompt engineering의 논리적 확장으로 여겨졌던 CoT는, 감독된 instruction tuning model을 많은 주석이 달린 reasoning 흔적에 노출시키면서 주목받기 시작했습니다. 이후 RL이 답변의 정확성을 보상하면서 이것이 표준이 되었고, 이는 model이 스스로 효과적인 chains of thought를 생성하도록 장려했습니다. 그 결과, "답변하기 전에 language로 생각하는" LLMs는 놀라운 성능 향상을 이루었습니다. 이 원칙은 이제 Qwen3 시리즈, DeepSeek-R1, 그리고 Gemini 2.5 시리즈를 포함한 선도적인 reasoning models의 기반이 됩니다.

그러나 인간이 항상 인지 과정을 위해 language에 의존하지 않는 것처럼, LLMs는 처리 예산의 대부분을 latent space에서 사용합니다. CoT가 자연어로 작동하도록 강제하는 것은 model의 표현 범위를 제약할 수 있으며, 중복 계산을 부과할 수도 있습니다. Latent Chain-of-Thought (Latent CoT)는 이러한 한계를 극복할 잠재력을 가지고 있습니다. 불연속적인 tokens에 의존하는 명시적 CoT와 달리, latent CoT는 종종 model 내의 recurrent mechanisms를 통해 연속적인 내부 representations에서 reasoning을 수행합니다. 이는 더 풍부한 표현력과 비언어적 reasoning 경로에 대한 접근을 제공하여, 잠재적으로 model reasoning의 새로운 지평을 열 수 있습니다.

이 설문 조사는 새롭게 부상하는 Latent CoT의 지형과 language 기반 reasoning의 제약을 뛰어넘을 잠재력을 검토합니다. 명시적 CoT가 생각을 tokens의 문자열로 강제하는 반면, Latent CoT는 전체 reasoning 과정을 model의 연속적인 representational space로 이동시킵니다. 목표는 표현력을 확장하고 성능의 상한을 높이는 것입니다. 유한한 vocabulary에서 벗어나, model은 직접적인 언어적 등가물이 없는 reasoning 궤적을 탐색할 수 있습니다. 우리는 이러한 연속적인 representations를 활용하여 더 발전된 reasoning을 달성하는 기술적 접근 방식들을 분류하고 분석합니다.

이 설문 조사의 구조는 Latent CoT와 그 다양한 구현에 대한 포괄적인 이해를 제공하도록 설계되었습니다. 우리의 분류 체계는 그림 2에서 이를 세분화합니다. 우리는 대부분의 Latent CoT 구현을 포착하는 일반적인 공식을 확립한 후, 기술들을 더 구체적인 범주로 분류하는 것으로 시작합니다. 이러한 범주는 크게 두 가지 유형으로 나눌 수 있습니다: 1) 계산 깊이를 확장하기 위한 vertical recurrence와 2) 순차적 용량을 늘리기 위한 horizontal recurrence입니다. Vertical recurrence activation 값에 피드백 루프를 적용하며, 'activation-based' reasoning으로 생각할 수 있습니다. 대안적으로, horizontal recurrence hidden states를 사용하여 긴 reasoning 궤적의 sequence에 걸쳐 컨텍스트를 전파합니다. 그런 다음 명시적인 reasoning 흔적을 압축하거나 내재화하도록 설계된 fine-tuning 전략을 탐구하며, 이것으로 Latent CoT 구현에 대한 검토를 마칩니다.

이는 latent reasoning mechanistic interpretability를 이해하기 위한 무대를 마련하여, 이러한 과정이 neural networks 내에서 어떻게 실현되는지 이해하게 합니다. 이 섹션에서는 reasoning을 위한 주요 계산 기판으로서 네트워크 layers의 기초적인 역할을 검토합니다. 우리는 Layer Specialization 이론을 탐구하는데, 이 이론은 서로 다른 layers가 얕은 layers에서의 feature extraction부터 중간 layers에서의 복잡한 논리 연산, 그리고 깊은 layers에서의 최종 통합에 이르기까지 구별되고 계층적인 기능을 개발한다고 가정합니다. 이는 전체적으로 명시적 CoT와 유사한 암시적 계산 파이프라인을 형성합니다. 명시적 CoT는 사후 해석 가능성을 제공하는 중간 tokens의 이점을 가지며, 우리도 유사하게 latent reasoning을 가능하게 하는 메커니즘을 밝혀내는 것을 목표로 합니다.

마지막으로, 우리는 LLM 인지의 최전선에 있는 고급 패러다임들을 탐구하며, 무한 깊이 reasoning의 추구에 초점을 맞춥니다. 이 개념은 model이 해결책을 정제하기 위해 무한한 계산 단계를 할애할 수 있는 능력을 의미하며, 고정 깊이 architectures를 넘어섭니다. 우리의 논의는 text diffusion models에 의해 실현되는 공간적 무한 reasoning에 중점을 둡니다. 전통적인 autoregressive generation과 달리, 이러한 models은 전체 출력 sequence에 대해 병렬로 작동하여, bidirectional context를 통해 전역적 계획과 반복적인 자가 수정을 가능하게 합니다. 이 접근 방식은 전역적으로 일관되고 가역적인 reasoning 과정을 촉진하며, 더 강력하고 유연한 AI 시스템을 향한 유망한 경로를 제공합니다.

 

더보기

이 이미지는 'Latent Reasoning(잠재적 추론)' 분야의 연구를 체계적으로 분류한 Taxonomy(분류 체계) 다이어그램입니다.

전체적으로 Latent Reasoning이라는 큰 주제를 중심으로, 세부 연구 분야와 기술들을 나무가지처럼 펼쳐서 보여주고 있습니다.

주요 구성은 다음과 같습니다.

  • Latent Reasoning (§3): Latent Reasoning을 구현하는 핵심 기술들을 분류합니다. 여기에는 Activation-based Recurrent Methods(활성화 기반 순환 방식)와 Temporal Hidden-state Methods(시간적 은닉 상태 방식) 같은 구체적인 접근법들이 포함됩니다.
  • Mechanical Interpretability (§4): 모델의 여러 Layer 내부에서 Latent Reasoning이 실제로 어떻게 작동하는지, 그 메커니즘을 해석하고 이해하려는 연구 분야를 다룹니다.
  • Towards Infinite-depth Reasoning (§5): Text Diffusion Models 등을 활용하여 계산 깊이에 한계가 없는, 더 발전된 형태의 추론으로 나아가려는 미래 연구 방향을 보여줍니다.

간단히 말해, 이 다이어그램은 Latent Reasoning 분야의 전체적인 연구 지도를 보여주며, 어떤 기술들이 있고, 이를 어떻게 분석하며, 앞으로 어떤 방향으로 발전해 나가는지를 한눈에 파악할 수 있도록 정리한 것입니다.

Introduction 핵심 정리 노트 (for AI Researchers)

1. 문제 제기: 명시적 CoT(Explicit Chain-of-Thought)의 한계

  • 현재 SOTA reasoning models(Qwen3, Gemini 2.5 등)의 성능은 Chain-of-Thought(CoT)에 크게 의존함.
  • 하지만 CoT는 추론 과정을 자연어 token으로 강제 변환해야 하므로 근본적인 bottleneck이 발생함.
    • 표현력의 제약 (Expressiveness Constraint): 모델의 연속적인 latent space가 가진 풍부한 표현력을 이산적인 token으로 제한함.
    • 계산의 중복성 (Redundant Computation): Token을 생성하고 처리하는 과정에서 불필요한 계산 비용이 발생함.

2. 핵심 제안: Latent CoT (Latent Chain-of-Thought)

  • 이 논문은 CoTbottleneck을 극복할 대안으로 Latent CoT를 제시하고 관련 연구들을 집대성함.
  • Latent CoT는 중간 추론 단계를 token으로 생성하는 대신, 모델의 연속적인 내부 representation(hidden states) 내에서 직접 수행하는 방식임.
  • 이를 통해 언어적 표현에 얽매이지 않는, 더 자유롭고 풍부한 reasoning 경로를 탐색할 수 있음.

3. 연구 분류 및 구조

  • 본 논문은 Latent CoT 관련 기술들을 체계적으로 분류하는 Taxonomy를 제안함.
  • 주요 기술은 두 가지 재귀적 접근 방식으로 나뉨:
    • Vertical Recurrence: Activation-based reasoning. 계산의 깊이(depth)를 확장하여 한 단계에 대한 더 깊은 연산을 수행.
    • Horizontal Recurrence: Hidden state를 통한 context 전파. 순차적(sequential) 처리 용량을 늘려 더 긴 reasoning을 가능하게 함.
  • 이 외에도 명시적 CoT를 압축/내재화하는 fine-tuning 전략도 다룸.

4. 주요 과제 및 탐구 방향

  • Mechanistic Interpretability (메커니즘 해석 가능성): Latent reasoning은 중간 과정이 token으로 드러나지 않아 '블랙박스' 문제가 있음. 논문은 Layer Specialization(네트워크 layer별 기능 분화) 가설 등을 통해 내부 작동 방식을 이해하려는 연구들을 조명함.
  • Infinite-depth Reasoning (무한 깊이 추론): 고정된 계산 단계를 넘어, 필요에 따라 무한히 추론을 정교화하는 패러다임을 탐구함. 특히 autoregressive 방식과 다른 text diffusion models의 잠재력을 조명함. 이 model들은 sequence 전체를 병렬 처리하여 전역적(global) 일관성 확보에 유리함.

쉬운 설명 :

현재 똑똑한 AI들은 어려운 문제를 풀 때 마치 사람이 풀이 과정을 말로 중얼거리듯, 생각의 단계를 글로 써 내려가면서 답을 찾는 방식(Chain-of-Thought)을 사용합니다. 이 방법은 매우 효과적이지만, 모든 생각의 조각을 '언어'라는 좁은 틀에 억지로 맞춰야 한다는 단점이 있습니다.

Latent CoT는 이러한 답답함을 해결하기 위한 아이디어입니다. 사람이 말이나 글 없이 머릿속으로 복잡한 생각을 빠르고 자유롭게 이어가는 것처럼, AI도 중간 과정을 굳이 언어(token)로 바꾸지 않고, 자신의 거대한 내부 신경망(hidden states) 안에서 직접 생각의 흐름을 이어가자는 것입니다.

이렇게 하면 언어의 한계를 벗어나 훨씬 더 풍부하고 복잡한 방식으로 추론할 수 있게 됩니다.

이 논문의 Introduction 섹션은 바로 이 Latent CoT라는 개념을 소개하고, "AI가 머릿속으로 생각하게 만드는" 다양한 기술들을 어떻게 분류하고 분석할 것인지, 그리고 이런 내부적인 생각의 과정을 우리가 어떻게 이해할 수 있을지, 더 나아가 AI가 한 문제에 대해 무한히 깊게 생각하게 만들 수는 없을지에 대한 전체적인 연구 지도를 제시하는 부분입니다.

 

 

2. Preliminary: Latent Chain-of-Thought

더보기

이 섹션에서는 다양한 Latent CoT 접근법을 이해하기 위한 통합된 수학적 프레임워크를 제시합니다. 명시적인 텍스트 중간 단계를 생성하는 전통적인 CoT reasoning과 달리, latent CoT 방법들은 model의 계산 그래프 내에서 연속적인 representations hidden states를 통해 reasoning을 수행합니다. 우리는 이러한 접근법들을 정보가 layer (공간적 차원)와 시간 단계(시간적 차원)를 가로질러 어떻게 전파되는지에 따라 분류합니다.

2.1. General Framework

우리는 transformer 기반 reasoning 시스템에 대한 일반적인 공식을 확립하는 것으로 시작합니다. 시간 단계  layer 에서 정보를 처리하는 transformer model을 고려해 봅시다.  layer 과 시간 에서의 activation이라고 하겠습니다. 우리는 과거 정보를 포착하는 hidden state를 나타내기 위해 을 도입합니다. 의 구조와 차원성은 architecture에 따라 달라지며, 컨텍스트가 어떻게 유지되는지를 정의합니다. 이 상태는 다음과 같은 여러 형태로 나타날 수 있습니다:

  • KV Cache: 표준 Transformers에서 은 Key-Value (KV) cache이며, 한 쌍의 행렬 $(K_t^l, V_t^l)$로 구성됩니다. 여기서 $K^l, V^l \in \mathbb{R}^{n \times d}$이고 은 컨텍스트의 sequence 길이입니다. 가 증가함에 따라 도 증가한다는 점에 유의하십시오.
  • Linear Attention State: Linear attention을 사용하는 model에서는 hidden state가 고정된 크기의 상태 행렬 $S_t^l \in \mathbb{R}^{d \times d}$로 압축될 수 있으며, 이는 효율적인 순환 스타일의 업데이트를 가능하게 합니다.
  • Recurrent State: RNN과 유사한 메커니즘의 경우, 은 단일 상태 벡터 이며, 모든 과거 정보를 고정된 크기의 representation으로 요약합니다.

이러한 일반화된 관점을 통해, latent reasoning의 기본 연산은 공간적 변환과 시간적 변환으로 분해될 수 있습니다.

공간적 변환은 고정된 시간 단계에서 layers를 통해 수직으로 정보를 전파합니다:

여기서  layer별 변환 함수(예: transformer block)를 나타내며, 이는 의 과거 컨텍스트를 사용하여 다음 layer activation을 계산합니다; 는 과거 정보가 어떻게 유지되고 업데이트되는지를 포착합니다. 의 구현은 의 형태(예: KV cache에 추가하거나 행렬/벡터 업데이트 수행)에 따라 달라집니다.

Activation-Based Methods

Activation-based 방법들은 단일 시간 단계 내에서 activations를 반복적으로 정제함으로써 계산 그래프를 심화시키는 데 중점을 둡니다. 이러한 접근법들은 동일한 변환이 여러 번 적용되는 일종의 재귀적 계산을 구현하여 representations의 점진적인 정제를 가능하게 합니다.

공식적으로, activation-based 방법들은 다음을 계산합니다:

이러한 재귀적 적용은 forward pass 내에서 계산 루프를 생성하는 것으로 이해할 수 있습니다. 각 반복 $i \in {1, \dots, n}$에서, model은 잠재적으로 다른 hidden states $S_t^{l+i-1}$에 접근하면서 변환 함수 를 적용하여 representation을 정제합니다. 여기서 은 시작 layer 인덱스를 나타내며, 에 의해 제약을 받습니다. 여기서  model의 총 layer 수입니다. 핵심 통찰은 공유된 파라미터로 동일한 입력을 반복적으로 처리함으로써, model이 인간의 단계별 reasoning과 유사한 반복적 정제를 수행할 수 있다는 것입니다.

Hidden State-Based Methods

Hidden state-based 방법들은 여러 시간적 또는 공간적 컨텍스트의 정보를 동시에 집계함으로써 근본적으로 다른 접근 방식을 취합니다. 반복적 정제보다는, 이러한 방법들은 현재 계산에 정보를 제공하기 위해 풍부한 과거 representations를 활용합니다.

Hidden state-based 방법의 핵심 계산은 다음과 같습니다:

이 연산을 통해 model은 더 넓은 hidden states 컨텍스트에 접근할 수 있으며, 효과적으로 여러 layers나 시간 단계를 아우르는 메모리 뱅크를 생성합니다. 함수 는 종종 특화된 attention 메커니즘이나 학습 가능한 집계 함수를 통해 이 확장된 컨텍스트를 효과적으로 집계하고 활용하도록 설계되어야 합니다.

2.2. Connections to Explicit Chain-of-Thought

이러한 latent 방법들이 명시적 Chain-of-Thought reasoning과 어떻게 관련되는지 이해하는 것은 중요한 통찰을 제공합니다. 전통적인 CoT는 중간 reasoning 단계를 나타내는 tokens sequence 를 생성합니다. Latent 프레임워크에서는 이러한 명시적 tokens이 위에서 설명한 동역학에 따라 진화하는 연속적인 representations로 대체됩니다.

이 대응 관계는 생성 과정을 고려함으로써 공식화될 수 있습니다. 명시적 CoT에서는:

여기서 디코딩 단계는 연속적인 representations를 다시 이산적인 tokens으로 투영합니다.

Latent 방법들은 이 디코딩 단계를 제거하고, 대신 reasoning을 연속적인 공간에서 유지합니다:

여기서 는 단계 에서의 연속적인 "생각"을 나타냅니다.

이 근본적인 차이점은 latent 방법들이 자연스러운 언어적 표현이 없을 수 있는 reasoning 경로를 탐색할 수 있게 하여, token vocabulary에 제약받지 않는 더 효율적이거나 강력한 reasoning 전략을 발견할 잠재력을 제공합니다. 그러나 중간 상태가 더 이상 인간이 읽을 수 있는 설명에 해당하지 않기 때문에 해석 가능성과 훈련에서의 어려움을 야기하기도 합니다.

2.3. Latent Reasoning Updates of Diffusion Models

Latent update 방법들이 diffusion models과 어떻게 관련되는지 이해하면 autoregressive (AR) generation과의 근본적인 차이점이 드러납니다. 전통적인 diffusion models은 명시적인 공간적 변환 없이 순전히 시간적 업데이트를 통해 작동하며, 이는 transformer 기반 reasoning 시스템의 공간-시간 분해와 근본적으로 다릅니다.

Temporal-Only Updates Diffusion Models

고전적인 diffusion models은 반복적인 denoising을 통해 시간적 차원에서만 독점적으로 업데이트를 수행합니다. 이 과정은 두 가지 주요 업데이트 메커니즘을 포함합니다:

이산적 업데이트 (mask-기반): tokens sequence 이 주어졌을 때, model masking 패턴에 기반하여 위치를 선택적으로 업데이트합니다:

여기서 $m_t(i)$는 단계 에서 업데이트할 tokens을 나타내는 mask를 의미합니다.

연속적 업데이트 (노이즈-기반): model은 모든 위치에 걸쳐 전역적인 노이즈 감소를 적용합니다:

여기서 는 모든 token 위치에 걸쳐 균일하게 작동하는 denoising 함수를 나타냅니다.

KV-cache Integrated Diffusion Models

최근의 발전은 양방향 KV cache 메커니즘을 diffusion models에 통합하기 시작하여, 시간적 업데이트와 함께 공간과 유사한 변환을 도입했습니다. 이 하이브리드 접근 방식은 전통적인 diffusion transformer 기반 reasoning 사이의 간극을 메웁니다.

신뢰도 임계값 기반 공간 변환: 모든 token activations는 각 denoising 반복에서 layer별로 업데이트됩니다:

여기서 는 캐시된 상태를 활용하면서 모든 token representation을 정제하는 양방향 Transformer block을 나타냅니다.

선택적 시간적 캐시 업데이트: 신뢰도 점수 $c_t^l(i) = \text{conf}(\boldsymbol{x}t^l(i))$가 임계값 를 충족하거나 초과하는 tokens만이 KV cache를 갱신합니다: $$S{t+1}^l(i) = \begin{cases} g_\tau(\boldsymbol{x}t^l(i), S_t^l(i)), & c_t^l(i) \ge \tau \ S_t^l(i), & \text{otherwise} \end{cases} \quad (9)$$ 완전한 시공간적 진화: 이 프레임워크는 공간적 정제와 선택적 시간적 캐싱을 결합합니다: $$\boldsymbol{x}{t+1}^{l+1} = f_\tau(\boldsymbol{x}{t+1}^l, S{t+1}^l) \quad (10)$$ 이러한 진화는 전통적인 diffusion models에서 크게 벗어나, 시간적 diffusion의 반복적 정제 이점을 유지하면서 transformer 스타일의 공간적 처리를 통합한 것을 나타냅니다. 신뢰도 임계값 메커니즘은 양방향 컨텍스트에서 효율적인 캐시 관리를 가능하게 하여, 전통적인 KV caching diffusion model architectures 간의 근본적인 비호환성 문제를 해결합니다.

결과적으로, diffusion models은 전체 sequence를 스캔하여 가장 신뢰도가 높은 tokens을 병렬로 식별하고 업데이트하며, layers에 걸쳐 지속적으로 representations를 수정합니다. 반면, autoregressive models은 단일 다음 token에 전념해야 하며 이전 출력을 재검토하거나 정제할 수 없습니다. 결과적으로, diffusion의 시공간적 메커니즘은 여러 신뢰할 수 있는 latent states의 지속적이고 양방향적인 정제를 가능하게 하는 반면, AR generation은 엄격하게 순방향으로 진행되어 한 번 생성된 과거 tokens을 고정된 상태로 둡니다.

 

 

Preliminary: Latent Chain-of-Thought 섹션 핵심 정리 노트 (for AI Researchers)

1. 통합 프레임워크 제시

  • 이 섹션의 핵심은 모든 Latent CoT 접근법을 분석하기 위한 통일된 수학적 프레임워크를 제안하는 데 있음.
  • Transformer의 연산을 두 가지 차원으로 분해하여 모델링함:
    • 공간적(Spatial) 차원: 고정된 시간()에서 layer()를 따라 수직으로 정보가 전파되는 과정.
    • 시간적(Temporal) 차원: 시간()이 흐름에 따라 수평적으로 정보가 전파되는 과정.
  • 이를 위해 일반화된 표기법(: activation, : hidden state)을 도입함. 여기서 KV Cache, Linear Attention State 등을 모두 포괄하는 일반화된 개념.

2. Latent CoT의 두 가지 핵심 작동 방식 분류

  • 위 프레임워크를 기반으로 Latent CoT 구현체들을 두 가지 주요 메커니즘으로 명확히 분류함.
    • Activation-Based Methods: '공간적' 차원에 집중. 단일 시간 단계() 내에서 동일한 transformation을 반복 적용하여() 계산 그래프의 깊이를 확장함. 이는 forward pass 내에서 일어나는 재귀적 연산으로, representation의 점진적 정교화를 목표로 함.
    • Hidden State-Based Methods: '시간적' 차원에 집중. 현재 계산()을 위해 여러 과거 시점의 hidden state()를 집계하여 활용함. 이는 풍부한 과거 context를 바탕으로 더 나은 결정을 내리는 방식.

3. 명시적 CoT와의 형식적 관계 정의

  • Latent CoT와 명시적 CoT의 근본적인 차이를 수식으로 정의함.
  • 명시적 CoT는 Transform 이후 연속적인 representation을 이산적인 token으로 변환하는 Decode 과정()이 필수적임.
  • Latent CoT는 이 Decode 과정을 생략하고, 추론(thought) 자체를 연속적인 벡터 공간에서 직접적으로 진화()시킴.

4. Diffusion Model과의 비교 분석

  • Transformer 기반 reasoning 프레임워크를 Diffusion Model과 비교하며 최신 연구 동향을 포착함.
  • 고전적 Diffusion Model: 순수하게 '시간적' 업데이트만 수행함. 전체 sequence를 대상으로 반복적인 denoising을 적용하며, layer를 통한 '공간적' 변환 개념이 없음.
  • 최신 하이브리드 Diffusion Model: KV-cache와 같은 공간적 메커니즘을 통합하여 시공간적(spatio-temporal) 업데이트를 수행함.
    • 공간적 정제: 모든 tokenlayer별로 정제함.
    • 시간적 업데이트: 신뢰도 점수(confidence score)가 높은 token만 선택적으로 캐시를 업데이트함.
  • AR 모델과의 근본적 차이점: Autoregressive(AR) 모델은 단방향으로 순차 생성하며 한번 생성된 token은 수정 불가. 반면, Diffusion 모델은 전체 sequencelatent states를 병렬적, 양방향으로 지속해서 수정할 수 있어 전역적 일관성 확보에 유리함.

쉬운 설명 :

이 섹션은 AI가 '머릿속으로 생각하는' 방식(Latent CoT)을 수학적으로 어떻게 분석할 수 있는지에 대한 '설계도'를 제시하는 부분입니다.

AI의 생각을 "시간의 흐름(가로축)"과 "생각의 깊이(세로축)"라는 두 가지 축으로 나누어 설명합니다.

  1. AI의 두 가지 생각법
    • 깊게 파고들기 (Activation-Based): 하나의 주제를 놓고 결론을 바로 내지 않고, '이게 맞나? 저 관점은 어떨까?' 하면서 계속해서 되새김질하며 생각의 깊이를 더하는 방식입니다.
    • 과거 경험 참고하기 (Hidden State-Based): 현재 문제를 풀기 위해 이전에 생각했던 내용이나 과거의 중요한 정보들을 모두 꺼내서 종합적으로 판단하는 방식입니다.
  2. 글로 쓰는 생각 vs 머릿속 생각
    • 기존의 AI는 생각의 중간 과정을 전부 '글'(token)로 써야만 다음 단계로 넘어갈 수 있었습니다.
    • 하지만 Latent CoT는 이 '글로 쓰는' 과정을 생략하고, 모든 생각의 흐름을 머릿속(연속적인 벡터 공간)에서 직접 이어 나갑니다.
  3. 최신 AI 'Diffusion'은 어떻게 생각하는가?
    • 최근 주목받는 Diffusion Model은 일하는 방식이 조금 다릅니다. 이 AI는 마치 화가가 밑그림 전체를 그려놓고, 그림의 모든 부분을 동시에 계속해서 수정하며 전체적인 완성도를 높여나가는 것처럼 작동합니다.
    • 이는 한 문장씩 순서대로 써 내려가며 이전에 쓴 글은 수정할 수 없는 작가(Autoregressive 모델)와는 근본적으로 다른 방식이며, 이 섹션에서는 두 방식의 차이점을 명확하게 설명합니다.

 

 

 

 

3. Latent Reasoning

더보기

Latent CoT reasoning의 발전은 두 가지 근본적인 계산 패러다임을 따릅니다: activation recurrence를 통한 깊이 확장과 hidden state 진화를 통한 시간적 용량 확장입니다. 그림 3에서 볼 수 있듯이, activation-based 방법들은 동일한 layers 집합을 통해 정보를 반복적으로 처리함으로써 더 깊은 계산 그래프를 생성하며, 이는 수직적 확장과 유사합니다. 반면, hidden-state-based 방법들은 model의 메모리를 수평적으로 확장하여 더 긴 sequence에 걸쳐 정보에 접근하고 통합할 수 있게 합니다.

이러한 구분은 중요한 구현 및 이론적 질문을 제기합니다. Activation-based 접근법의 경우, 고정된 수의 layers를 가진 model이 문제에 대해 "더 오래 생각"하도록, 즉 수직적 계산 깊이를 즉석에서 효과적으로 생성하도록 어떻게 architecturally 설계되거나 trained 될 수 있을까요? 이러한 유도된 recurrence를 지배하는 원리는 무엇이며, 이는 어떤 새로운 능력을 발현시킬까요? 반대로, hidden-state 방법의 경우, reasoning chains가 확장됨에 따라 model이 계속해서 확장되는 메모리의 bottleneck에 빠지지 않고 방대한 시간적 sequence에 걸쳐 일관된 "마음의 상태"를 어떻게 유지할 수 있을까요? 이 시간적 진화는 연속적인 온라인 최적화의 한 형태로 재구성될 수 있을까요? 이를 통해 이러한 수평적 확장을 activation-based 방법에서 볼 수 있는 반복적인 수직적 정제와 개념적으로 통합할 수 있을까요?

두 접근법 모두 reasoning 능력을 향상시키지만, 구현 요구 사항과 배포 유연성에서 차이가 있으며, 더 강력한 latent reasoning을 향한 각기 다른 경로를 제공합니다. 본 논문의 다음 섹션들에서는 이러한 부분들을 상세히 설명할 것입니다.


3.1. Vertical Recurrent: Activation-based Methods

Activation-based 접근법들은 architectural 설계나 training-time 조작을 통해 recurrent 계산 흐름을 생성함으로써 latent reasoning을 달성합니다. 이 방법들은 명시적인 reasoning tokens을 생성하지 않고 반복적으로 representations를 정제한다는 공통 원칙을 공유합니다.

3.1.1. Loop/Universal Transformer Recurrence

루프 기반 architectures activation-based latent CoT reasoning에 대한 기초적인 접근법을 대표하며, 명시적인 architectural 수정을 통해 Transformer layers에 걸친 연속적인 activation propagation을 구현합니다. 이 models layer-wise recurrence를 통해 단일 forward pass 내에서 hidden states의 반복적인 정제를 가능하게 한다는 핵심 원칙을 공유합니다. Adaptive Computation Time (ACT) 메커니즘으로 layers에 대한 동적 recurrence를 개척한 Universal Transformer (UT) 에서 시작하여, 이 architectural 패러다임은 깊이 적응형 reasoning을 전통적인 고정 깊이 transformers의 실행 가능한 대안으로 확립했습니다. 핵심 혁신은 네트워크 깊이를 정적인 hyperparameter가 아닌, 과제 복잡성에 따라 할당될 수 있는 동적인 계산 자원으로 취급하는 데 있습니다. Universal/Looped Transformers를 넘어 activation-reuse를 확장하여, Zeng 등은 모든 token 예측 내에서 번의 반복적인 'ponder' 사이클을 수행하는 Pondering LM을 소개합니다. 각 사이클은 model softmax를 연속적인 pondering embedding으로 변환합니다: 모든 vocabulary 벡터의 가중 합으로, 이는 residual path를 통해 피드백되어 hidden state를 정제합니다.

이 중대한 연구 이후, 이 분야는 몇 가지 핵심 차원을 따라 체계적인 진화를 거쳤으며, latent reasoning architectures에 대한 중요한 설계 원칙을 드러냈습니다 (표 1 및 그림 4).

The Rise of Pre/Loop/Coda Structure

Universal Transformer  CoTFormer와 같은 초기 models은 명시적인 단계 분리 없이 단일체(monolithic) recurrent 설계를 채택했습니다. 그러나 Recursive Transformer, AlgoFormer, Recurrent-Depth와 같은 최근 architectures는 3단계 Pre/Loop/Coda 구조로 수렴했습니다. 이 설계는 입력 인코딩(Prelude), 반복적 reasoning(Loop blocks), 출력 디코딩(Coda)을 명시적으로 분리하여, 더 모듈화되고 해석 가능한 계산 흐름을 가능하게 합니다. Architecture의 모듈화는 해석 가능성을 향상시키고, reasoning 과정에 고정 소수점 반복 제약이나 알고리즘 템플릿과 같은 과제별 사전 지식을 주입하는 것을 용이하게 합니다.

Per-iteration Input and Hidden State Management

입력 처리 전략은 models마다 다르며, 이는 recurrence 동안의 정보 흐름에 대한 서로 다른 가설을 반영합니다. Universal Transformer는 이전 layer 출력 $x_t^{l-1}$과 깊이 embedding 를 결합합니다. CoTFormer hidden state $S_t^{l-1}$과 $x_t^{l-1}$을 모두 사용하는 반면, Recursive Transformer AlgoFormer는 $x_t^{l-1}$만으로 단순화합니다. Recurrent-Depth 과 $x_t^{l-1}$을 모두 사용하는 하이브리드 접근법을 채택합니다.

Hidden state 관리의 경우, 대부분의 models KV caches의 표준적인 언롤링(unrolling)을 사용합니다. 주목할 만한 예외로는 Recursive Transformer share/refill 메커니즘과 Recurrent-Depth의 모듈로 기반 재사용()이 있으며, 이는 표 1에서 볼 수 있듯이 주기적인 cache 재활용을 통해 메모리 효율성을 향상시킵니다. 이러한 혁신들은 시간적 일관성을 보존하는 것과 계산 자원을 관리하는 것 사이의 균형을 맞춥니다.

The Decline of Depth Embeddings

Depth embeddings은 명확한 퇴조 추세를 보입니다. Universal Transformer는 사인파형 를 도입했고, CoTFormer는 학습 가능한 embeddings를 실험했습니다. 그러나 Recursive Transformer AlgoFormer 같은 후속 models은 이를 완전히 제외했습니다. Recurrent-Depth depth embeddings을 시도했지만 결국 포기했으며, 이는 초기 열의에도 불구하고 recurrent architectures에서 그 유용성이 제한적임을 시사합니다. 이러한 추세는 architecture가 상태 진화를 통해 반복 횟수를 내재적으로 인코딩할 때, 깊이에 대한 명시적인 위치 인코딩이 중복될 수 있음을 나타냅니다.

Simplification of Dynamic Stopping Mechanisms

동적 중단 메커니즘은 단순화를 향한 명확한 추세를 보입니다. Universal Transformer의 정교한 ACT 메커니즘(누적 확률 )은 CoTFormer MoR router 로 대체되었습니다. 최근 models은 훨씬 더 간단한 전략을 채택합니다: Recursive Transformer는 변화의 크기에 기반한 조기 종료($\\max\_t \\Delta h \< \\epsilon$)를 사용하고, AlgoFormer는 고정된 반복 횟수를 선택하며, Recurrent-Depth는 고정 소수점 기준을 탐구합니다. 이러한 진화는 복잡한 적응형 메커니즘이 실제로는 계산 오버헤드를 정당화하지 못할 수 있음을 시사합니다.

이러한 architectural 추세들은 이 분야의 성숙해가는 이해를 반영합니다: layer-wise recurrence를 통한 reasoning 향상이라는 핵심 이점을 보존하면서, 복잡한 적응형 메커니즘에서 안정적이고 모듈화된 설계로 이동하고 있습니다. 더 간단하고 해석 가능한 설계로의 수렴은 latent reasoning의 핵심이 정교한 제어 메커니즘에 있는 것이 아니라, 효율적인 자원 관리와 함께 충분한 계산 깊이를 제공하는 데 있을 수 있음을 시사합니다.

3.1.2. Activation with Explicit Hidden-State Feedback

루프 기반 architectures가 동일한 layers 집합을 재실행하여 token representations를 정제하는 반면, 별개의 model 계열은 반복 사이에 hidden states를 입력 스트림으로 다시 피드백합니다. 이러한 시스템에서는 hidden activations 자체가 새로운 sequence 요소가 되므로, 각 recurrent 단계는 효과적인 깊이를 확장하는 동시에 내부 계산을 후속 attention에 노출시킵니다.

Coconut

Hao 등이 제안한 Coconut은 이전 디코딩 단계의 마지막 layer hidden state인 연속적인 생각 벡터를 현재 token 앞의 추가 위치로 삽입합니다. 따라서 Pondering은 텍스트 reasoning을 방출하지 않고 latent space에서 발생하며, 동일한 Transformer 파라미터를 재사용하면서 너비 우선 탐색을 가능하게 합니다.

CoTFormer

CoTFormer에서는 모든 forward pass가 먼저 예비 token embeddings를 계산합니다; 이 activations sequence에 다시 끼워넣어지고 공유 블록 스택이 다시 실행됩니다. 따라서 조기 종료된 tokens은 자기 자신 representations의 더 깊은 정제에 attention을 기울이게 되어, 최소한의 파라미터로 적응형 깊이를 실현합니다.

 models 모두 "순수한" activation-based recurrence와 구별되는 세 가지 속성을 공유합니다: 핵심 특징. 명시적 상태 tokens hidden vectors sequence 요소로 다시 주입하여 수직적 recurrence와 수평적 메모리를 연결합니다; architectural 확장이 없습니다—model은 동일한 layers를 재사용하므로 파라미터 수는 일정하게 유지되면서 깊이가 동적으로 증가합니다; 그리고 latent reasoning은 내부적으로 유지되므로 명시적 CoT tokens을 생성하는 지연 시간을 피합니다.

이러한 설계들은 recurrent 홉을 가로질러 hidden states를 전달하는 것이 공유 가중치 루프의 효율성을 보존하면서 더 강력한 reasoning을 발현시킬 수 있음을 보여주며, activation hidden-state 패러다임을 혼합한 후기 하이브리드 모델들을 예고합니다.

3.1.3. Training-induced Recurrence

Architectural recurrence가 명시적인 구조적 수정을 요구하는 반면, 대안적인 경로는 표준 transformer architectures에 대한 특화된 training을 통해 유사한 계산적 이점을 달성합니다. 이 방법들은 model의 기본 구조를 변경하지 않고 근본적으로 recurrent activation 흐름을 생성하며, 반복적 정제라는 핵심 통찰이 training만으로 유도될 수 있음을 보여줍니다. 이 접근법은 기존의 pretrained models architectural 제약 없이 latent reasoning 능력을 개발할 수 있게 하므로 특히 가치가 있습니다.

이 방법들을 통합하는 핵심 원리는 계산 그래프에 암시적인 루프를 생성하는 것입니다: activations model에 다시 피드백하거나(연속적 recurrence), 다단계 reasoning을 반복적으로 처리되는 representations로 압축하거나(압축 상태), 전략적인 token 삽입을 통해 효과적인 계산 깊이를 확장하는 것(확장된 반복)입니다. 이 모든 접근법들은 명시적인 architectural 루프 없이 더 깊은 reasoning을 가능하게 한다는 목표를 공유합니다.

Continuous Activation Recurrence

Training-induced recurrence의 가장 직접적인 형태는 연속적인 activations의 명시적인 루프를 생성하는 것을 포함합니다. Ref. 는 Coconut으로 이 접근법을 개척했는데, 이는 LLM의 마지막 hidden state("연속적인 생각")를 다음 단계를 위한 입력으로 model에 직접 다시 루프시킵니다. 이 메커니즘은 Universal Transformer와 같은 architectural 접근법과 놀랍도록 유사한 recurrence 패턴을 생성하지만, 전적으로 training을 통해 구현됩니다. 연속적인 생각은 여러 reasoning 경로를 동시에 인코딩할 수 있어, latent space에서 너비 우선 탐색과 유사한 탐색을 가능하게 합니다.

이 기초 위에, 후속 연구들은 핵심적인 recurrence 원칙을 유지하면서 training 방법론을 개선했습니다. Shen 등은 CODI를 제안하는데, 이는 self-distillation을 통해 recurrent hidden states를 정렬하는 학습 문제로 이 문제를 구성합니다. 교사(전체 CoT 포함)와 학생(압축된 reasoning 포함) 경로 사이에서 최종 답변 이전의 hidden activation을 정렬함으로써, CODI activation space에서 효과적으로 고정 소수점 반복을 학습합니다. 이 단일 단계 정렬은 Coconut의 커리큘럼 학습보다 더 안정적임이 입증되었으며, latent 방법들 중에서는 처음으로 GSM8K에서 명시적 CoT와 동등한 성능을 달성했습니다.

Cheng과 Van Durme는 CCOT로 다른 접근법을 취하는데, 이는 전체 reasoning 흔적을 근사하는 가변 길이의 연속적인 embeddings sequence를 생성하도록 model training합니다. 이 embeddings recurrent 계산 단계의 압축된 representations로 기능하여, sequence 길이를 줄이면서 반복적인 성격을 유지합니다. 텍스트로 다시 선택적으로 디코딩하는 것은 이러한 latent 반복에서 의미 있는 계산이 발생함을 확인하면서 해석 가능성을 보존합니다. PCCOT은 Jacobi 반복을 사용하여 병렬적인 연속적 생각을 허용합니다.

Hidden-state 계산을 연장하는 pause- 및 filler-token 방법을 기반으로, System-1.5 Reasoning은 수직적 layer 깊이와 수평적 reasoning 단계를 동적으로 할당하는 Depth and Step Shortcuts을 도입하여, chain-of-thought 정확도를 유지하면서 GSM8K에서 20배 이상 빠른 inference를 제공합니다—이 모든 것을 Transformer 백본을 수정하지 않고 달성합니다.

Compressed State Recurrence

연속적인 루프 대신, 다른 전략은 reasoning 단계를 model recurrently 처리하는 이산적이거나 반-이산적인 representations로 압축합니다. Su 등은 초기 CoT 세그먼트를 VQ-VAE를 통해 학습된 이산적인 latent tokens으로 대체하여, 압축된 추상적 단계와 상세한 reasoning이 혼합된 "혼합형" reasoning을 생성합니다. 이 접근법은 추상적인 tokens이 후속 layers에서 확장된 계산을 촉발하는 계층적 recurrence를 효과적으로 생성합니다.

Zhang 등은 hidden space에서 압축 앵커로 "gist tokens"를 사용합니다. 이 tokens 자체는 의미적으로 무의미하지만, model이 계산 상태를 집계하고 재분배하는 recurrence 체크포인트 역할을 합니다. Attention mask 조작은 후속 reasoning이 이러한 압축된 상태에 의존하도록 강제하여, sequence를 통해 암시적인 recurrence 구조를 생성합니다.

이러한 압축 방법들의 핵심 통찰은 수평적(sequence-level) reasoning을 수직적(depth-level) 계산으로 변환하여, 각 논리적 단계에 사용할 수 있는 recurrence 깊이를 효과적으로 증가시킨다는 것입니다.

Iteration Expansion through Strategic Tokens

Training-induced recurrence의 세 번째 범주는 token 삽입을 통해 암시적 반복 횟수를 확장하는 방식으로 작동합니다. 이 접근법은 명시적인 의미 내용이 없는 추가 tokens조차도 내부 계산을 위한 더 많은 recurrence 단계를 제공할 수 있음을 인식합니다.

Pfau 등은 의미 없는 filler tokens(예: "......")조차도 단순히 더 많은 attention 단계를 제공함으로써 reasoning을 향상시킬 수 있음을 보여주며, 이는 model이 수행할 수 있는 recurrent 반복 횟수를 효과적으로 증가시킵니다. Goyal 등은 계산 단계를 명시적으로 신호하는 학습 가능한 ‘<p>’ tokens으로 이를 개선하여, model이 효과적으로 활용하도록 학습하는 훈련 가능한 recurrence 지점을 생성합니다.

더 정교한 접근법들은 recurrence 패턴을 조직화하는 구조화된 tokens을 주입합니다. Wang 등은 계층적 recurrence 구조를 생성하는 planning tokens을 도입하는데, 여기서 각 planning token은 특정 계산 목표를 가진 새로운 reasoning 루프를 시작합니다. Jin 등은 reasoning을 ‘<c>’와 ‘<p>’ tokens으로 더 분해하여, 다른 유형의 인지 작업에 대한 특화된 recurrence 패턴을 생성합니다. 이러한 구조화된 접근법들은 training이 단지 recurrence뿐만 아니라, 조직화되고 해석 가능한 recurrence 패턴을 유도할 수 있음을 보여줍니다.

Implications and Connections

이러한 training-induced 방법들은 근본적인 통찰을 드러냅니다: reasoning을 위한 recurrence는 단지 architectural 속성이 아니라 적절한 training 목표로부터 나타날 수 있다는 것입니다. 이러한 접근법들의 성공은 표준 transformers training을 통해 발현시킬 수 있는 반복적 계산에 대한 잠재적 능력을 가지고 있음을 시사합니다. 더욱이, 연속적, 압축, 그리고 token 기반 방법들이 유사한 성능 결과로 수렴하는 것은 recurrence의 특정 구현이 reasoning 과제를 위한 충분한 계산 깊이를 보장하는 것보다 덜 중요하다는 것을 나타냅니다.

이러한 training-induced 방법들과 architectural recurrence의 관계는 경쟁적이기보다는 보완적입니다. 미래 연구는 architectural 루프와 training-induced recurrence 패턴을 결합한 하이브리드 접근법을 탐구하여, 명시적인 구조와 학습된 최적화의 이점을 모두 달성할 수 있을 것입니다.

3.1.4. Training Strategies for Recurrent Reasoning

Recurrent activation 흐름을 가진 models을 효과적으로 training하는 것은 독특한 과제를 제시합니다. 왜냐하면 이러한 architectures는 순전히 feedforward 깊이에 의존하기보다는 반복적 계산을 활용하는 법을 배워야 하기 때문입니다. 연구자들은 architectural 및 유도된 recurrence 모두를 다루는 특화된 training 전략을 개발했습니다.

Architectural recurrence를 위해, MIDAS는 루프 기반 models training 안정성을 해결하기 위한 점진적 스태킹 프레임워크를 제안합니다. 이는 기본 model 의 중간 layers 배 복제하는 복제 연산자 $M(f, b)$를 정의하여, 점진적인 깊이 확장을 가능하게 합니다. Training model 깊이가 점진적으로 증가하는 단계를 통해 진행되며, 각 더 깊은 model은 이전 단계에서 초기화됩니다. 이 커리큘럼 접근법은 models이 안정적인 반복적 reasoning 패턴을 개발하는 데 도움을 줍니다. 이러한 architectural 초점을 보완하여, Saunshi 등은 손실 함수에 코사인 유사도 항 $R_G(k)$를 추가하여 표준 Transformers조차도 recurrence와 유사한 속성의 이점을 누릴 수 있게 하는 루핑에서 영감을 받은 정규화를 도입합니다. 이 접근법은 recurrent 행동이 적절한 training 목표만으로도 나타날 수 있음을 보여줍니다.

Training-induced recurrence를 위해, Stepwise Internalization reasoning 흔적의 커리큘럼 기반 압축을 개척했습니다. 이 기술은 finetuning 동안 CoT tokens을 점진적으로 제거하여 models reasoning 패턴을 파라미터에 내재화하도록 합니다. 이 커리큘럼 원칙은 널리 채택되었으며, 특히 CoT tokens을 연속적인 생각으로 점진적으로 대체하여 완전한 latent inference 루프를 달성한 Coconut에서 두드러집니다. RELAY는 2단계 과정을 통해 recurrence 단계와 reasoning 단계를 명시적으로 정렬하는 더 직접적인 접근법을 취합니다: 먼저 CoT 정렬 감독을 사용하여 루프 Transformers를 손실 $L = L_{ans} + \lambda L_{iter}$로 training한 다음, 생성된 reasoning chains에 대해 autoregressive models fine-tuning합니다.

이러한 다양한 training 전략들은 점진적인 복잡도 증가, recurrence 깊이와 reasoning 단계 간의 정렬, 그리고 architectural 제약과 학습된 행동 간의 신중한 균형이라는 핵심 원칙으로 수렴합니다. Architectural  training-induced 접근법 모두의 성공은 효과적인 recurrent reasoning이 구조와 최적화의 상호 작용에서 비롯된다는 것을 시사합니다.

3.1.5. Applications and Capabilities

Recurrent reasoning 방법들의 진정한 시험은 구조화된 다단계 계산을 요구하는 복잡한 과제를 해결하는 능력에 있습니다. Architectural  training-induced recurrence 모두 다양한 영역에서 놀라운 능력을 보여주었습니다.

알고리즘 일반화에서, recurrent models은 전례 없는 외삽 능력을 보입니다. Schwarzschild 등과 Giannou 등은 루프 architectures가 테스트 시에 recurrence 단계를 확장함으로써 작은 문제 인스턴스에서 훨씬 더 어려운 인스턴스로 일반화할 수 있음을 보여줍니다—이는 정적 깊이 Transformers에서는 사용할 수 없는 속성입니다. 이 recurrence 제어 스케일링은 인간과 유사한 점진적 문제 해결을 모방하며, 루프 계산 그래프의 이론적 프레임워크를 통해 공식화되었습니다. 유사하게, Coconut과 같은 training-induced 방법들은 연속적인 생각 루프가 latent 너비 우선 탐색을 통해 논리적 reasoning 과제(ProsQA, PrOntoQA)를 해결할 수 있음을 보여주는 반면, 압축 상태 방법들은 수학적 reasoning(GSM8K)에서 명시적 CoT와 동등한 성능을 달성합니다.

상징적 reasoning 및 그래프 알고리즘에서, recurrent models은 신경 계산과 알고리즘 계산을 연결합니다. De Luca와 Fountoulakis는 그래프 특정 attention heads를 가진 루프 Transformers가 제한된 메모리 내에서 고전적인 알고리즘(BFS, DFS, 최단 경로)을 시뮬레이션할 수 있음을 보여줍니다. 이 능력은 training-induced recurrence로 확장됩니다: planning tokens을 가진 models은 계층적 계산 구조를 생성함으로써 다중 홉 reasoning에서 향상된 성능을 보여줍니다. Reasoning을 특화된 tokens(<c>, <p>)로 분해하는 것은 검색과 논리적 inference를 모두 요구하는 과제에서 성능을 더욱 향상시킵니다.

최적화 및 메타 학습에서, 와 같은 연구들은 루프 models이 암시적으로 다단계 경사 하강법을 구현함을 증명하여, recurrence와 최적화 사이의 깊은 연관성을 드러냅니다. 이 이론적 통찰은 왜 architectural 루프와 training-induced 연속적 생각이 유사한 계산 패턴으로 수렴하는지를 설명합니다: 그들은 근본적으로 최적화 알고리즘과 유사한 반복적 정제를 수행하고 있기 때문입니다.

이러한 응용 프로그램들은 recurrence reasoning이—architecture를 통해 달성되든 training을 통해 달성되든—복잡한 계산을 위한 일반적인 프레임워크를 제공함을 보여줍니다. 서로 다른 접근법들이 유사한 능력으로 수렴하는 것은 핵심 통찰이 특정 구현이 아니라 당면 과제에 대한 충분한 반복적 깊이를 보장하는 데 있음을 시사합니다.

 

 

 

 

 

 

 

 

 

 

더보기

## Figure 3: Activation-Based vs Hidden state-Based 비교

이 그림은 Latent Reasoning의 두 가지 핵심 방식인 Activation-BasedHidden state-Based의 정보 처리 흐름을 시각적으로 비교하여 보여줍니다.

  • Activation-Based (왼쪽)
    • 하나의 추론 단계()를 위해 전체 Layer 스택(Layer 1부터 N까지)을 통과합니다.
    • 그 결과가 만족스럽지 않으면, 그 결과를 가지고 똑같은 Layer 스택 전체를 다시 한번 통과합니다().
    • 이처럼 동일한 계산 블록을 여러 번 재사용하여 하나의 생각을 계속해서 정교하게 다듬습니다. 이는 물리적인 Layer를 추가하지 않고도 계산의 깊이를 늘리는 효과를 줍니다.
  • 이 방식은 '깊게 파고드는 생각' 에 비유할 수 있습니다.
  • Hidden state-Based (오른쪽)
    • 정보가 Layer를 따라 위로 올라갈 뿐만 아니라(수직적), 시간의 흐름에 따라서도 옆으로 전달됩니다().
    • Layer는 다음 시간 단계의 동일 Layer에 자신의 처리 결과(hidden state)를 넘겨줍니다.
    • 이를 통해 '첫 번째 생각의 결과가 두 번째 생각에 영향을 미치는' 것처럼, 추론의 연속성이 만들어지며 긴 생각의 사슬(chain-of-thought)을 효과적으로 처리할 수 있습니다.
  • 이 방식은 '이어지는 생각의 흐름' 에 비유할 수 있습니다.

## Table 1 & Figure 4: Activation-Based 아키텍처의 발전 과정

이 자료들은 Activation-Based 방식의 Architecture가 시간이 지나면서 어떻게 발전하고 정형화되었는지를 보여줍니다.

  • Figure 4: Pre/Loop/Coda 구조
    1. Prelude (전처리 단계): 입력 tokens을 받아서 핵심 추론을 준비하는 단계입니다.
    2. Loop blocks (핵심 추론 루프): 모델이 '생각을 반복하는' 가장 중요한 부분입니다. 동일한 Layer들을 번 반복(iterations)하면서 점차 생각을 정교하게 만듭니다. 이때 각 반복의 결과는 KV-cache라는 형태로 저장되어 다음 반복에 참고 자료로 쓰입니다. 루프를 언제 멈출지는 dynamic stop gate() 가 결정합니다.
    3. Coda (후처리 단계): 반복적인 추론이 끝난 최종 결과를 가지고 실제 Output을 생성하는 단계입니다.
  • 최근 Activation-Based 모델들이 수렴하고 있는 표준 구조인 Pre/Loop/Coda를 보여줍니다.
  • Table 1: 주요 아키텍처 비교 및 트렌드
    • 구조의 정형화: 초기 모델인 Universal Transformer는 없었지만, AlgoFormer나 Recurrent-Depth 같은 최신 모델들은 대부분 Pre/Loop/Coda 구조를 채택하고 있습니다.
    • 동적 중단 메커니즘의 단순화: 루프를 언제 멈출지 결정하는 Dynamic stop 기능이 초기에는 ACT()처럼 복잡했지만, 점차 '고정된 횟수(fixed)''변화량이 작으면 중단(early-exit)' 하는 식으로 단순해지는 경향을 보입니다.
    • Depth Embedding의 퇴조: 생각의 반복 횟수(깊이)를 알려주던 Depth-emb 정보가 초기에는 사용되었으나, 최근 모델들은 대부분 사용하지 않는 쪽으로 발전했습니다. 이는 모델이 반복 과정 속에서 스스로 깊이를 파악할 수 있게 되었음을 시사합니다.
  • 이 표는 여러 Activation-Based 모델들을 비교하며 다음과 같은 기술적 진화 방향을 명확하게 보여줍니다.

 

Latent Reasoning (Section 3, 3.1) 핵심 정리 노트 (for AI Researchers)

1. 핵심 패러다임: Vertical Recurrence (Activation-based Methods)

  • 이 섹션은 Latent CoT의 두 축 중 수직적 확장(Vertical Recurrence), 즉 Activation-based 방법에 대해 집중적으로 분석함.
  • 핵심 목표: 고정된 수의 Layer를 가진 model'반복(Recurrence)' 을 통해 동적으로 계산 깊이를 확장하여, 더 깊고 정교한 추론을 수행하게 하는 것.
  • 이는 크게 Architecture를 직접 수정하는 방식과, Training을 통해 Recurrence 행동을 유도하는 방식으로 나뉨.

2. Architectural Approaches: 구조적 재귀

  • Pre/Loop/Coda 구조로의 수렴: 초기 Universal Transformer 같은 단일 구조에서, 입력(Prelude) - 반복 추론(Loop) - 출력(Coda) 으로 역할이 명확히 분리된 모듈형 Architecture로 발전하는 경향이 뚜렷함. 이는 해석 가능성과 제어 용이성을 높임.
  • 주요 설계 트렌드 (Table 1 참고):
    • Dynamic Stop Mechanism의 단순화: 복잡한 ACT 방식에서 fixed iteration이나 early-exit 같은 단순하고 안정적인 방식으로 변화.
    • Depth Embedding의 퇴조: 반복 횟수를 알려주던 depth embedding이 최신 모델에서는 불필요하다고 판단되어 제거되는 추세.
  • 하이브리드 방식 (Coconut, CoTFormer): 반복 연산 후의 hidden statesequence에 새로운 'special token' 처럼 다시 주입하는 독특한 방식. 이는 수직적(Activation) 접근법과 수평적(Hidden-State) 접근법의 교량 역할을 함.

3. Training-induced Recurrence: 훈련으로 유도된 재귀

  • 핵심 통찰: RecurrenceArchitecture의 고유 속성이 아니라, 표준 Transformer에서도 적절한 Training 전략을 통해 유도될 수 있는 '창발적 속성(emergent property)' 임을 증명함.
  • 주요 전략 3가지:
    1. Continuous Activation Recurrence: 마지막 layerhidden state("continuous thought")를 다음 추론 단계의 입력으로 다시 넣어주는 직접적인 루프 생성 (Coconut, CODI).
    2. Compressed State Recurrence: VQ-VAE나 gist token 같은 학습된 latent token을 추론 과정 중간에 삽입. 이 token들이 암시적인 recurrence의 체크포인트 역할을 하여 계산 깊이를 확장함.
    3. Iteration Expansion: 의미 없는 filler token("...")이나 학습 가능한 계산용 token(<p>)을 주입하여, model이 내부적으로 더 많은 계산 단계(attention step)를 수행할 물리적인 "시간"을 벌어줌.

4. 훈련 전략 및 핵심 역량

  • 주요 훈련 원칙: 점진적으로 복잡도를 높이는 커리큘럼 학습(MIDAS, Stepwise Internalization), 그리고 recurrence 단계와 실제 reasoning 단계를 정렬하는 기법(RELAY)이 효과적임.
  • 획득 역량:
    • 알고리즘 일반화(Extrapolation): 훈련 때보다 더 크고 어려운 문제도 테스트 시에 recurrence 횟수를 늘려 해결하는, 기존 Transformer에 없는 강력한 외삽 능력을 보임.
    • 상징 추론: 고전적인 그래프 알고리즘(BFS, DFS 등)을 시뮬레이션하는 능력을 갖춤.
    • 최적화와의 연결: Recurrence 루프가 본질적으로 경사 하강법 같은 반복적 최적화 알고리즘을 암시적으로 수행한다는 이론적 연결고리를 밝혀냄.

쉬운 설명 :

AI에게 아주 어려운 문제를 풀게 한다고 상상해봅시다. 보통 AI는 뇌의 용량(Layer의 수)이 정해져 있어서, 딱 정해진 만큼만 생각하고 답을 내야 합니다. 하지만 어려운 문제는 더 깊은 '고뇌'가 필요하죠.

이 섹션은 "AI가 고정된 뇌 용량으로 더 깊이 고뇌하는 법(Latent Reasoning)" 에 대해 설명합니다. 그 방법은 크게 두 가지입니다.

1. 뇌 구조를 바꾸는 법 (Architectural Approach)

AI의 Architecture 자체에 '생각 반복 회로(Loop)' 를 만들어주는 방법입니다. 요즘엔 이 회로를 만드는 표준 방식이 생겼습니다.

  • 1단계: 문제 준비 (Prelude): 풀 문제를 잘 정리합니다.
  • 2단계: 고뇌 시작 (Loop blocks): 가장 중요한 단계로, 결론이 날 때까지 '생각 회로'를 계속 맴돌면서 아이디어를 정교하게 다듬습니다.
  • 3단계: 답변 제출 (Coda): 고뇌를 마친 최종 생각을 가지고 답을 내놓습니다.

2. 특별한 공부법을 가르치는 법 (Training-Induced Approach)

이게 정말 흥미로운 부분입니다. AI의 뇌 구조는 전혀 건드리지 않고, 특별한 공부법(Training) 만으로 스스로 깊게 생각하도록 만드는 방법입니다.

  • 공부법 A (되새김질 시키기): 첫 번째 생각을 마친 AI에게, 그 생각의 결과물을 '참고 자료' 로 삼아서 다시 한번 생각하게 가르칩니다. 생각을 계속 되새김질하게 만드는 거죠.
  • 공부법 B (숨 쉴 틈 주기): AI에게 문제 중간중간에 "음...", "......" 같은 '생각 토큰' 을 보여줍니다. AI는 이 토큰을 보고 "아, 여기서 잠깐 멈춰서 생각 좀 더 해야겠다"라고 배워서, 더 깊은 계산을 수행할 시간을 법니다.

이렇게 '고뇌하는 법'을 배운 AI는 훨씬 더 어려운 수학 문제나 여러 단계의 계획이 필요한 작업을 잘 해결하게 됩니다. 특히 훈련 때 보지 못했던 더 어려운 문제도, 스스로 '생각 회로'를 더 많이 돌리는 방식으로 풀어내는 놀라운 능력을 보여줍니다.

 

 

 

 

 

 

3.2. Horizontal Recurrent: Hidden state-based Methods

더보기

앞서 언급했듯이, activation-based 접근법은 네트워크의 layer 깊이를 확장하는 데 중점을 둡니다. 그러나 더 깊은 네트워크는 필연적으로 gradient explosion이나 vanishing과 같은 문제에 직면합니다. 반면, 시간적 차원은 수백만 개의 tokens으로 쉽게 확장될 수 있습니다. 이론적 관점에서 시간적 차원은 깊이의 한 형태로 개념화될 수도 있으며, 이는 중요한 연구 질문을 제기합니다: 어떻게 하면 시간적 차원을 따라 latent reasoning 과정을 효과적으로 확장할 수 있을까?

표준 Transformer는 이러한 수평적 확장을 위한 기준선을 제공합니다. 이는 KV cache라고 알려진 것에 모든 이전 token 입력을 key-value 쌍으로 저장하여 시간적 정보를 처리합니다. 이 cache는 효과적으로 model hidden state 역할을 하여, sequence의 풍부한 이력을 보존합니다. 그러나 이 접근법에는 치명적인 bottleneck이 있습니다: KV cache sequence 길이에 따라 선형적으로 증가하여, 매우 긴 sequence를 처리하는 것을 비현실적으로 만드는 무한한 메모리 소비로 이어집니다.

이 문제를 해결하기 위해, 우리는 RNNs와 유사하게 이전 정보를 고정된 크기의 벡터나 행렬로 압축할 수 있습니다. Hidden states를 다룰 때, 그 표현력을 향상시키기 위한 두 가지 주요 접근법이 있습니다: (1) hidden states에 업데이트 및 감쇠 규칙을 적용하는 Linear-State recurrence 접근법과, (2) hidden states online-learning 파라미터로 취급하고 online learning 방법을 사용하여 최적화하는 Gradient-State recurrence 접근법입니다. 주목할 점은, 이러한 방법들이 아직 reasoning 능력 향상을 입증하는 증거를 내놓지는 못했지만, 그 이론적 속성은 이들이 layer stacking과 개념적으로 유사한 반복적 처리의 한 형태를 나타내므로 미래에 중요한 역할을 할 수 있음을 시사합니다.

3.2.1. Linear-State Recurrence

첫 번째 접근법에 대해, Mamba-2, GLA, RWKV-6, HGRN-2와 같은 models은 이 방향의 초기 시도를 대표합니다. 행렬 값 hidden state $\mathbf{S}$가 시간적 차원을 따라 전송되고 업데이트됩니다. 각 시간 단계에서, hidden state는 전역적 감쇠를 겪은 후 현재 시간 단계의 정보를 통합하여 업데이트됩니다.

놀랍게도, 이러한 다양한 linear attention models은 행렬 값 hidden states를 가진 연관 순환 신경망(associative recurrent neural networks)의 일반적인 프레임워크 아래에서 통합될 수 있습니다. 행렬 값 hidden state $\mathbf{S}_t \in \mathbb{R}^{d \times n}$와 현재 입력 가 주어졌을 때, 이 models은 다음과 같은 일반적인 형태를 따릅니다:

여기서 은 연관 연산자(예: Hadamard product, matrix multiplication)를 나타내며, 는 현재 입력 의 함수입니다. 연관 연산자의 사용은 의 병렬 scan calculations을 가능하게 하여 효율적인 training을 용이하게 합니다. 표 2는 다양한 models이 이 프레임워크를 어떻게 구체화하는지 보여줍니다.

그러나 이 상태 진화를 online optimization gradient의 렌즈를 통해 해석할 때 더 심오한 관점이 나타납니다. 핵심적인 통찰은 이 이중성을 완벽하게 예시하는 DeltaNet에서 나옵니다. 그 상태 업데이트 규칙은 닫힌 형태의 대수적 표현을 가지고 있지만(표 2의 linear recurrent attention 부분 참조), 이는 수학적으로 online regression 목표 함수 에 단일 gradient descent 단계를 적용하는 것과 동일합니다.

 gradient-state recurrence 관점은 개념적으로 혁신적입니다. 이는 hidden state 의 시간적 진화를 신경망 layer training하는 것과 유사한 반복적 정제의 한 형태로 재구성합니다. 이런 의미에서, 상태 행렬 $\mathbf{S}$는 지역적 목표에 따라 각 단계에서 업데이트되는 동적인 "fast weight" layer로 효과적으로 취급됩니다. 이 관점은 hidden-state models의 "시간적" recurrence activation-based models의 "깊이" recurrence를 개념적으로 통합하여, latent reasoning을 위한 반복적 처리라는 공유된 기본 원리를 시사합니다.

3.2.2. Gradient-State Recurrence

Linear-state models이 미리 결정된 감쇠-덧셈 규칙에 의존하는 반면, gradient-state 방법들은 hidden matrix를 학습 가능한 optimizer에 의해 업데이트되는 빠르게 적응하는 파라미터 집합으로 취급합니다. 각 token은 상태를 현재 key-value 목표로 이끄는 가벼운 descent step을 촉발하여, model이 즉석에서 과제별 동역학을 내재화하도록 합니다. 이 관점은 설계 공간을 고정된 linear kernels을 선택하는 것에서 최적화 알고리즘(SGD, Adam-like, 2차 등)을 선택하는 것으로 전환시켜, 학습률 스케줄, 모멘텀 항 및 고차 교정에 의해 지배되는 풍부한 메모리 행동의 연속체를 엽니다.

이 통찰은 닫힌 형태의 설명을 완전히 버리고 직접적인 online learning 공식화를 선호하는 두 번째 연구 경로의 길을 열었습니다. 이 연구 라인은 TTT(SGD와 유사한 동역학 구현)에서 시작하여 Titans(Adam과 유사한 행동 통합) 및 ATLAS(Muon 최적화 원리 활용)로 진행되며, 상태 업데이트를 명시적으로 gradient 기반 최적화 단계로 공식화합니다. 이러한 최적화 관점을 확장하여, Ref. 는 policy gradient를 사용하여 latent representations를 직접 최적화함으로써 테스트 시점의 인스턴스 수준 적응을 수행하는 프레임워크인 LATENTSEEK를 소개합니다. 서로 다른 기원에도 불구하고, 이러한 접근법들은 개념적으로 수렴하며 다음과 같은 일반적인 업데이트 규칙을 통해 이해될 수 있습니다:

강력하지만, 이 접근법은 병렬화에 상당한 어려움을 야기합니다. 단일 scan operation으로 효율적으로 병렬화될 수 있는 linear recurrent models과 달리, 단계 에서의 gradient 은 이전 상태 $\mathbf{S}_{t-1}$에 의존합니다. 이 고유한 순차적 의존성은 전체 sequence 길이에 걸친 병렬 계산을 방해합니다. 더욱이, 이러한 recurrent 업데이트는 LayerNorm  residual connections와 같은 표준 구성 요소를 포함하는 복잡한 architectural blocks 내에 내장되어 있어, 계산을 단일의 하드웨어 효율적인 kernel로 융합하기 어렵게 만듭니다.

이러한 한계를 극복하기 위해, chunk-wise parallelization이라는 실용적인 해결책이 널리 채택되었습니다. 이 전략은 표현력과 효율성 사이의 균형을 맞춥니다:

  • Intra-chunk Parallelism: sequence의 작고 고정된 크기의 블록(chunk) 내에서, 모든 tokens에 대한 gradients는 동일한 초기 상태(이전 chunk의 최종 상태)에 대해 병렬로 계산됩니다. 이는 chunk 내의 순차적 의존성을 깨뜨려 효율적인 배치 계산을 가능하게 합니다.
  • Inter-chunk Recurrence: model의 전반적인 순차적 특성은 chunks 사이에서 유지됩니다. 한 chunk의 최종 상태는 recurrently 전달되어 다음 chunk의 초기 상태가 되며, chunk 수준에서 체인을 형성합니다.

내부 상태 업데이트를 넘어 최적화 관점을 확장하여, Zhu 등은 첫 번째 token embedding을 제어 가능한 latent variable로 취급하는 Soft Reasoning을 소개합니다. 가우시안 노이즈를 주입하고 Bayesian optimization을 통해 Expected-Improvement 목표를 최대화함으로써, 이 방법은 reasoning trajectory를 위해 hidden space를 동적으로 탐색합니다.

현재 연구가 아직 이러한 models에서 향상된 reasoning 능력을 보여주는 증거를 제시하지는 못했지만, 그들의 이론적 속성은 특히 입력 tokens이 없는 상태에서 자가 반복을 가능하게 하는 데 상당한 잠재력을 시사합니다.

3.2.3. Training-induced Hidden-State Conversion

Activation-based models을 위한 training-induced recurrence의 성공을 바탕으로, 병렬적인 연구 라인은 고정된 architecture Transformers가 재설계가 아닌, 목표화된 fine-tuning이나 distillation을 통해 hidden-state(RNN/SSM) models로 변환될 수 있음을 보여줍니다. 이러한 방법들은 교사의 파라미터 대부분을 보존하면서 이차적인 self-attention을 단일 recurrent state를 유지하는 하위 이차적인 mixers로 대체하여, 일정한 메모리 inference를 상속받습니다.

Cross-architecture distillation.

초기 "Transformer-to-RNN" (T2R) 변환은 softmax를 학습 가능한 linear kernels로 대체했지만 대규모 재훈련이 필요했습니다. SUPRA는 이 아이디어를 개선합니다: 강력한 Llama-2/Mistral 체크포인트에서 시작하여, attention GroupNorm으로 안정화된 linear kernels로 교체하고 약 20B개의 tokens에 대해 fine-tunes하여, recurrent model을 처음부터 pretraining하는 비용의 단 5%만으로 경쟁력 있는 정확도에 도달합니다. MOHAWK pretrained Transformer를 단 3B개의 tokens만을 사용하여 Mamba-2 state-space model로 이전하는 3단계 절차(matrix–orientation hidden-state alignment knowledge distillation)를 도입하여, 유사한 크기의 모든 이전 open recurrent LMs를 능가하는 "Phi-Mamba"를 산출합니다. 동일한 레시피가 Llamba에서 1-8B models로 확장되어, recurrent 학생 model이 원래 training 계산량의 0.1%만으로 Llama-3 교사 model과 필적하면서 더 큰 배치 크기와 더 높은 처리량을 가능하게 함을 보여줍니다.

Low-rank linearization.

LoLCATs는 높은 충실도의 변환이 전체 model 업데이트를 필요로 하지 않음을 보여줍니다. 먼저 모든 attention head를 슬라이딩 윈도우 linear mixer와 일치시킨 다음(attention transfer), 가중치의 0.2%만 건드리는 LoRA adapters로 잔여 손실을 복원합니다. 이 2단계 "low-rank linearization"은 8B models에 대해 MMLU 격차를 1% 이하로 좁히고, 단 하루의 training 내에 70-405B 파라미터로 확장됩니다.

Gated conversions.

Liger pretrained key matrix를 재활용하여 채널별 forget gates를 구축하여, 원래 token 예산의 0.02%만으로, 그리고 LoRA를 제외한 추가 파라미터 없이 교사 model 성능의 93%를 복구하는 gated recurrent 학생 model을 산출합니다.

 

 

 

 

 

 

더보기

## Table 2: 통합된 Hidden-State 메모리 업데이트 규칙

이 표는 3.2절에서 설명한 Hidden state-based 모델들이 내부적으로 '기억' 또는 '메모리'에 해당하는 hidden state() 를 어떤 수학적 규칙에 따라 업데이트하는지를 한눈에 보여주는 정리 자료입니다.

핵심은 겉보기에는 달라 보이는 여러 모델들(RetNet, Mamba-2, DeltaNet, Titans 등)의 메모리 업데이트 방식이 사실은 몇 가지 통일된 원리로 설명될 수 있다는 것을 보여주는 것입니다.

표는 크게 세 부분으로 나뉩니다.


1. Linear-State Recurrence (선형-상태 순환)

  • 핵심 아이디어: 미리 정해진 고정된 대수적 규칙에 따라 메모리를 업데이트합니다.
  • 설명: 이 모델들의 규칙은 대부분 와 같은 형태를 띱니다. 즉, "어제의 기억()을 조금 잊어버리고(감쇠, decay), 오늘의 새로운 정보()를 더한다"는 간단하고 명확한 규칙을 따릅니다.
  • 비유: 정해진 레시피에 따라 요리하는 것과 같습니다.

2. Linear/Gradient-State duality (선형/그래디언트-상태 이중성)

  • 핵심 아이디어: 고정된 규칙으로 보이는 업데이트 방식이 사실은 최적화(Optimization) 과정과 수학적으로 동일하다는 것을 보여주는 매우 중요한 연결고리입니다.
  • 설명: DeltaNet을 보면, State-update 규칙과 Optimization 규칙 두 가지가 적혀있습니다. 이 두 수식은 완전히 다른 것처럼 보이지만 사실 수학적으로는 동일한 결과를 냅니다. 이는 "기억을 규칙에 따라 업데이트하는 것"이 "현재 정보를 더 잘 반영하도록 기억을 한 걸음(single gradient descent step) 수정하는 것"과 같다는 것을 의미합니다.

3. Gradient-State Recurrence (그래디언트-상태 순환)

  • 핵심 아이디어: 메모리 업데이트를 고정된 규칙이 아닌, 명시적인 최적화 문제로 봅니다.
  • 설명: 이 모델들의 수식에는 모두 그래디언트() 항이 포함되어 있습니다. 이는 "어떻게 업데이트해야 손실()이 가장 줄어들까?"를 매 순간 계산하여, 가장 최적의 방향으로 메모리를 수정한다는 뜻입니다.
  • 비유: 정해진 레시피 없이, 현재 요리의 맛을 보고(손실 계산) 가장 필요한 양념(그래디언트)을 찾아 넣는 전문 요리사와 같습니다. TTT, Titans 같은 모델들이 여기에 해당합니다.

결론적으로, 이 표는 간단한 규칙 기반의 메모리 업데이트 방식(Linear-State)에서 점차 정교한 최적화 기반의 업데이트 방식(Gradient-State)으로 발전해 온 기술의 흐름을 보여주며, 그 중간에 두 방식이 사실은 연결되어 있다는 통찰(duality)을 제공하는 핵심적인 자료입니다.

 

 

 

Horizontal Recurrent (Section 3.2) 핵심 정리 노트 (for AI Researchers)

1. 문제 정의: 수평적 추론의 메모리 병목

  • Activation-based 방법이 gradient 문제로 깊이에 한계가 있는 반면, 수평적(시간적) 확장은 이론적으로 무한함.
  • 하지만 표준 Transformer의 수평적 메모리인 KV cachesequence 길이에 따라 선형적으로 증가()하여, 긴 sequence 처리 시 메모리 및 계산 비용이 폭발하는 근본적인 한계를 가짐.
  • 핵심 목표: RNN처럼 고정된 크기의 hidden state를 사용하여 메모리 문제를 해결하고, 긴 sequence에 대한 효율적인 latent reasoning을 구현하는 것.

2. 두 가지 근본적인 접근법: 상태 업데이트 방식

  1. Linear-State Recurrence:
    • 메커니즘: Mamba, RWKV 등에서 사용. 미리 정의된 대수적 규칙(예: 감쇠 후 더하기)에 따라 hidden state 를 업데이트. 병렬 처리가 가능한 scan 연산으로 효율적인 훈련이 가능.
    • 핵심 통찰 (Duality): 이 논문은 이러한 고정 규칙 기반 업데이트가 사실상 '단일 스텝 온라인 최적화' 와 수학적으로 동일할 수 있음을 DeltaNet을 통해 보임. 이는 수평적(시간적) 반복이 수직적(깊이) 반복과 마찬가지로 '반복적 정제(iterative refinement)' 라는 공통된 원리를 공유함을 시사하는 중요한 개념적 연결고리임.
  2. Gradient-State Recurrence:
    • 메커니즘: TTT, Titans 등에서 사용. Hidden state'fast weight' 로 간주하고, 매 스텝마다 gradient()를 계산하여 명시적으로 최적화 방향으로 업데이트.
    • 과제 및 해결책: 이전 상태()에 의존하는 순차적 특성 때문에 병렬화가 어려움. 이에 대한 실용적 해결책으로 'chunk-wise parallelization' 이 널리 사용됨 (청크 내 병렬 처리, 청크 간 순환 처리).

3. 실용적 접근법: Training-induced Hidden-State Conversion

  • 핵심 아이디어: 강력한 pre-trained Transformer를 처음부터 훈련된 RNN/SSM의 성능과 효율성을 갖도록 '개조' 하는 방식. 사전 훈련된 지식은 계승하면서 inference 효율성은 극대화하는 것이 목표.
  • 주요 변환 전략 3가지:
    1. Cross-architecture distillation: Transformer를 교사 모델로 하여 RNN/SSM 학생 모델을 훈련시키는 방식 (SUPRA, MOHAWK).
    2. Low-rank linearization: 모델 대부분은 고정하고, LoRA 등 일부 파라미터만 튜닝하여 attention 매커니즘을 linear recurrence처럼 작동하도록 근사하는 매우 효율적인 방식 (LoLCATs).
    3. Gated conversions: Transformer의 기존 행렬(예: key matrix)을 재활용하여 RNNgate 같은 부품을 만들어내는 창의적인 방식 (Liger).

4. 현황 및 전망

  • 이론적으로는 매우 유망하지만, 이 섹션에서 다룬 Horizontal 방법들이 아직 reasoning 능력 자체에서 Activation-based 방법을 능가하는 뚜렷한 증거는 보여주지 못함.
  • 하지만 고정된 메모리로 무한한 길이의 context를 처리하고, 자가 반복(self-iteration)을 수행할 수 있는 잠재력 때문에 미래의 핵심 기술로 주목됨.

쉬운 설명 :

문제 상황: 기억력이 너무 좋아서 탈인 AI

보통의 Transformer AI는 대화를 나눌 때, 대화의 모든 단어를 하나도 빠짐없이 완벽하게 기억하려고 합니다(KV cache). 짧은 대화에서는 이게 장점이지만, 책 한 권을 통째로 읽게 하면 모든 단어를 기억하려다 뇌(메모리)가 터져버리는 문제가 생깁니다.

이 섹션은 "AI가 긴 글을 읽어도 지치지 않도록, 효율적으로 기억(요약)하는 법" 에 대해 다룹니다.


해결책: 핵심만 요약하는 스마트한 기억법

AI에게 모든 내용을 기억하게 하는 대신, 인간처럼 핵심 내용만 간추린 '요약본(fixed-size hidden state)' 을 머릿속에 유지하고, 새로운 정보가 들어올 때마다 이 요약본을 계속 업데이트하게 만드는 방식입니다.

요약본을 업데이트하는 방식은 크게 두 가지입니다.

  1. 정해진 규칙대로 요약하기 (Linear-State)
    • AI에게 간단한 메모 규칙을 알려줍니다. 예를 들어, "기존 요약본의 90%는 남기고, 새로 들어온 정보의 10%를 추가해서 새 요약본을 만들어!" 와 같은 방식입니다. 빠르고 단순합니다.
  2. 스스로 최적의 방법을 찾아 요약하기 (Gradient-State)
    • AI가 더 똑똑하게 행동합니다. 새로운 정보가 들어오면, "이 새 정보를 가장 잘 반영하려면 기존 요약본을 어떻게 수정해야 최선일까?"를 스스로 계산해서 가장 이상적인 방향으로 요약본을 수정합니다.

가장 현실적인 방법: '뇌수술' (Training-induced Conversion)

새로운 AI를 처음부터 똑똑하게 가르치는 건 돈과 시간이 너무 많이 듭니다. 그래서 연구자들은 아주 기발한 방법을 씁니다.

  • 이미 세상의 모든 지식을 배워서 아주 똑똑해진 기존 Transformer AI(기억력이 좋지만 비효율적인)를 데려옵니다.
  • 그리고 이 AI의 '기억 시스템' 부분만 효율적인 '요약 시스템' 으로 교체하는 '뇌수술' 을 감행합니다.

이렇게 하면, AI의 방대한 지식은 그대로 유지하면서, 기억력 문제만 해결하여 아주 긴 글도 빠르고 효율적으로 처리할 수 있는 최고의 AI를 만들 수 있습니다. 이것이 요즘 가장 활발히 연구되는 실용적인 접근법입니다.

 

 

 

 

더보기

1. Standard CoT (수평적 확장)

이것은 우리가 흔히 아는, AI가 생각의 과정을 글로 직접 써 내려가는 방식입니다.

  • Operation (연산 단위): "다음 생각은 뭘까?"를 위해 모델 전체를 한번 돌려야 합니다. (Full Model Forward Pass)
  • Storage (저장 방식): 생각이 눈에 보이는 글자(Explicit Tokens) 형태로 저장됩니다.
  • Resource Constraint (자원 한계): AI가 한 번에 기억할 수 있는 글자의 총량(Context Window)이 한계입니다.
  • Optimization Objective (최적화 목표): 최종적으로 주어진 과제(End-to-end Task) 를 성공적으로 해결하는 것이 목표입니다.

2. Layer-based Latent CoT (수직적 확장)

이것은 AI가 겉으로 드러내지 않고, 내부 신경망(Layer)을 거치면서 암묵적으로 생각을 발전시키는 방식입니다.

  • Operation (연산 단위): 생각이 Layer 한 층을 통과하는 것이 하나의 연산 단위입니다. (Single Layer Forward Pass)
  • Storage (저장 방식): 생각이 눈에 보이지 않는 내부적인 신경망의 상태(Hidden States) 로 저장됩니다.
  • Resource Constraint (자원 한계): AI가 가진 총 Layer의 개수(Layer Nums) 가 생각의 깊이를 결정하는 한계입니다.
  • Optimization Objective (최적화 목표): 각 Layer의 미시적인 목표는 그저 다음 단어를 더 잘 예측(Next Token Prediction) 하는 것입니다.

## 요약

간단히 말해, 이 표는 Standard CoT가 '긴 호흡으로 전체 과제를 해결하려는 거시적이고 명시적인 생각'이라면, Layer-based Latent CoT는 '각 단어를 예측하기 위해 일어나는 미시적이고 암묵적인 생각의 흐름'이라는 것을 보여줍니다.

 

4. Mechanistic Interpretability

더보기

 

이 섹션은 Latent CoT의 실현 가능성을 입증하고, Latent CoT의 구현을 용이하게 하기 위해 layers를 지표로 사용하는 것을 정당화합니다. 앞서 논의한 바와 같이, large language modelslatent reasoning 행동의 대부분은 시간적 및 공간적 차원 모두에서 layers를 가로지르는 연산을 통해 나타납니다. 이는 근본적인 질문을 제기합니다: Layersreasoning의 기본 계산 단위인가?

Mechanistic InterpretabilityProbingCircuit Analysis와 같은 도구를 제공하여, reasoning에서 model의 행동을 관찰하는 것에서 그 메커니즘을 이해하는 것으로 전환할 수 있게 합니다. 이는 Transformerlayersreasoning에서 하는 역할을 밝히는 데 중요합니다. 이 섹션에서는 먼저 layer stackingLatent CoT의 한 형태를 나타내는지 여부를 해결하기 위해 해석 가능성 관점에서 기존 연구를 요약합니다. 다음으로, layer specializationinter-layer 정보 흐름과 같은 측면을 검토하여 layerslatent CoT로서 어떻게 기능하는지 분석합니다. 마지막으로, layer representations을 사용하여 CoT를 표현하는 것의 한계를 설명합니다.


4.1. Do Layer Stacks Reflect Latent CoT?

Chain of Thought (CoT) reasoning의 개념은 models이 순차적인 생각 tokens을 생성하여 답변에 도달하기 전에 더 많은 시간과 계산 자원을 갖도록 합니다. 이 아이디어는 OpenAI o1 및 DeepSeek의 R1과 같은 "생각하는" models에서 inference를 확장하는 새로운 패러다임을 형성하는 데 영향을 미쳤습니다. 병행하여, 신경망에서 layersstacking이 유사하게 reasoning 능력에 영향을 미친다는 증거가 증가하고 있으며, 이는 "layer-based hidden CoT"를 시사합니다. Layer 깊이와 latent reasoning 사이의 이러한 관계는 model의 잠재적인 reasoning 능력을 이해하는 데 중요합니다.

거시적 수준에서, 일련의 연구들은 layer 깊이와 modelreasoning 능력 사이에 밀접한 상관관계가 있음을 발견했습니다. Yu는 modelImplicit CoT 능력이 네트워크 layers의 수에 의해 엄격하게 제한된다는 것을 발견했습니다. 5단계 reasoning 과제에 대해, 중간 결과가 일부 layers 내에서 나타나더라도 최종 reasoning 결과는 불충분한 수의 layers 때문에 나타나지 못합니다. Guo 등은 model 내에서 완전한 2단계 reasoning chain을 형성하기 위해 최소 2-3개의 layers가 필요하다는 것을 발견했습니다. 불충분한 layers 또는 후속 layers의 부적절한 깊이는 multi-hop reasoning을 수행하는 능력을 저해할 것입니다. 또한, 일부 연구는 representational 능력의 관점에서 layer 깊이가 가져오는 구조적 이점을 탐구했습니다. Saunshi 등은 -step CoT reasoning을 수행하는 모든 -layer transformer번의 반복적인 forward passes를 통해 layer transformer에 의해 시뮬레이션될 수 있음을 공식적으로 입증합니다. Merrill과 Sabharwal은 Transformer 깊이를 늘리면 reasoning 능력이 크게 향상되어, 고정된 깊이로는 달성할 수 없는 언어 인식 및 그래프 연결성과 같은 복잡한 작업을 가능하게 함을 보여줍니다. 이 정리는 layer 깊이가 latent reasoning 능력의 주요 bottleneck 역할을 하며, 달성 가능한 CoT 단계 길이는 layer 수에 따라 선형적으로 확장된다는 것을 근본적으로 확립합니다.

미시적 수준에서, 연구들은 일반적으로 CoT reasoning 내의 특정 layers와 과제 사이에 명확한 대응 관계를 보여줍니다. CoT의 다양한 단계와 마찬가지로, 다른 layersreasoning 과정에서 각기 다른 역할을 수행하며, 전반적인 reasoning 깊이(layer 수)는 최종 reasoning 성능에 영향을 미칩니다. 일련의 해석 가능성 연구는 reasoning 과제에서 다양한 깊이의 layers에 걸쳐 상당한 기능적 분화를 밝혀냈습니다. Layer 깊이는 reasoning chains의 완전성에 영향을 미치며, 이는 병렬적으로 확장되고 기하급수적으로 증가하며, 중간 정보는 깊이에 걸쳐 통합되고 전송됩니다. 미시적 수준에서의 이러한 관찰들은 layers에 걸친 구조화된 기능적 분화를 강력하게 시사하며, 각 layer는 명시적 CoT의 단계와 유사한 별개의 계산 역할을 수행합니다. 이 latent chainlayer stacks에서 어떻게 나타나는지 더 잘 이해하기 위해서는, layer specializationinter-layer 정보 흐름의 특정 메커니즘을 더 깊이 파고들 필요가 있습니다.


4.2. Mechanisms of Latent CoT in Layer Representation

미시적 수준 분석의 증거에 따라, 우리는 Latent CoT를 해석하기 위한 기초적인 프레임워크로서 Layer Specialization 이론을 공식화합니다. 이 관점은 Transformer models 내의 개별 layers가 체계적으로 특화되어 각기 다른 reasoning 연산을 지원하며, 전체적으로 명시적 CoT와 유사한 암시적 계산 파이프라인을 형성한다고 가정합니다. 다음으로, 각 layer 그룹(얕은, 중간, 깊은)이 이 latent reasoning 구조를 지원하는 데 어떤 역할을 하는지 설명하고, 이어서 정보가 이러한 특화된 layers를 통해 어떻게 전파되는지에 대한 논의를 진행합니다.

Theory of Layer Specilization

Transformer modelself-attentionfeed-forward network (FFN) 모듈이 번갈아 나타나는 구조로 구성됩니다. 자연스러운 가정은 다른 layersreasoning 과제에서 각기 다른 역할을 한다는 것입니다. 일련의 해석 가능성 연구들은 이러한 layers가 어떻게 협력하여 근본적인 CoT 과정을 구축하고 전달하는지를 밝히는 데 초점을 맞추고 있습니다.

얕은 layers에서 깊은 layers로 가면서, model은 명확한 "분업"을 보여줍니다. Reasoning 과정은 얕은 layers의 구체적이고, 지역적이며, 구문적인 정보에서 중간 및 깊은 layers의 풍부한 의미적 통합과 reasoning 경로의 병합으로 전환됩니다. 이러한 차별화된 구조는 우리가 각 layerreasoning 과정에서 가장 작은 기능 단위로 간주하게 만듭니다.

Shallow Layers: Basic representational processor of Latent CoT.

Transformer의 얕은 layers는 초기 텍스트 처리를 수행하여, 더 높은 수준의 의미 분석 및 reasoning을 위한 기반을 마련합니다. 기능적으로, 얕은 layers는 주로 지역적 정보, 구문 구조, 표면 패턴을 처리하고, 초기 데이터 변환을 수행하며, 초기 circuit 기본 요소를 형성합니다. 또한, 연구에 따르면 얕은 layers는 사실적 지식을 저장하고 회상하는 역할을 하며, multi-hop reasoning 과제에서 개체 파싱을 연결하는 역할을 합니다. 요약하자면, 얕은 layers는 기본 정보와 사실적 지식을 처리하는 데 중요하며, 연결 변수를 설정하는 능력은 modelreasoning 성능에 직접적인 영향을 미칩니다.

Intermediate Layers: Core of Latent CoT.

중간 layers는 다음과 같은 이유로 복잡한 다단계 reasoning 과제에서 중추적인 역할을 합니다: (1) 중간 layersreasoning 기능에 특화된 하위 circuits을 형성합니다, (2) 중간 layers는 우수한 representational 능력을 보입니다, 그리고 (3) 중간 layersActivationsreasoning 결과에 결정적인 영향을 미칩니다.

중간 layers는 각기 다른 reasoning 하위 과제에 특화된 구체적이고 식별 가능한 계산 하위 circuits을 포함합니다. 이러한 circuits은 일반적으로 attention headsMLP modules 간의 조정된 상호 작용을 포함합니다. Wang 등은 GPT-2가 문장에서 간접 목적어를 식별하는 내부 알고리즘을 역공학합니다. 그들은 개체 추적 및 대명사 해결을 담당하는 중간 layer attention 하위 circuit을 식별하여, 중간 layers가 필수적인 구조화된 reasoning을 수행함을 보여줍니다. 유사하게, 일련의 연구들은 중간 layers 내에서 잠재적인 reasoning circuits을 식별했습니다. 이러한 circuits의 형성은 창발적이며, model이 대규모 데이터로부터 자발적으로 학습한 효율적인 계산 패턴을 나타냅니다.

중간 layersrepresentation에서 독특한 특성을 보이며, 강력한 표현 능력을 보여줄 뿐만 아니라 지식 저장 및 인코딩에서도 중요한 역할을 합니다. 중간 layer embeddings의 성능은 텍스트 embedding 과제에서 최종 layer embeddings의 성능을 최대 16%까지 능가할 수 있으며, 다른 model architectures 및 스케일에서도 일관성을 보입니다. 일부 연구자들은 이 강력한 representation 능력이 pretraining 동안 사용된 목적 함수에서 비롯된다고 믿습니다. Autoregressive 패러다임은 model의 중간 깊이에서 정보 bottleneck을 유도하여, 가장 필수적이고 두드러진 정보를 추출하도록 강제합니다.

중간 layers는 최종 reasoning 결과에 causal한 영향을 미칩니다. 이 layers의 올바른 activationmodel이 유효한 추론을 생성하는 데 필요합니다. 일련의 연구들은 중간 layers에서 특화된 뉴런을 식별하고 causal interventions을 수행합니다. 그들은 activations을 향상시키면 reasoning 성능이 크게 향상되고, activations을 억제하면 reasoning 능력이 저하된다는 것을 발견했습니다. 연결 개체 역할을 하는 중간 layer representations 또한 다단계 reasoning 결과에서 causally 중요한 역할을 합니다.

중간 layers의 기능적 특화는 최종 reasoning 결과에 대해 그들의 올바른 activation이 비판적으로 결정적이게 만듭니다. 예를 들어, Ref. 는 multi-hop reasoning의 실패를 중간 layers에서 암시적 reasoning 단계를 부적절하게 처리한 특정 Attention modules 탓으로 돌렸습니다. reasoning을 수정하기 위해 이러한 modules을 성공적으로 "패치"함으로써, 그들은 이러한 중간 layer circuits의 기능적 특화에 대한 강력한 causal 증거를 제공했습니다.

Deep Layers: Output Refinement and Decision-making of Latent CoT.

Transformer models의 깊은 layers는 정보 처리 흐름의 끝에 위치하며, 출력 최적화 및 의사 결정에서 중추적인 역할을 합니다. 깊은 layers는 중간 layers로부터 풍부한 representational 정보를 받아 특정 다운스트림 과제에 맞춰진 의미 변환을 수행하고, 더 복잡한 논리적 통합을 수행하며 최종 답변을 결정합니다.

그러나 여러 layer pruning 연구에 따르면, 더 깊은 layers는 훈련 성능이 저조하고, 기능이 제한적이며, representation 학습 능력이 감소하는 등의 특성을 보입니다. 기존 연구는 이러한 성능 저하를 Pre-Layer Normalization의 분산 문제와 attention 행렬의 빈번한 퇴화 탓으로 돌립니다. Sun 등은 Pre-LN에서 출력 분산의 기하급수적인 증가와 더 깊은 layers에서 도함수가 단위 행렬에 가까워지는 것이 layer 성능 저하의 주요 원인이라고 제안합니다. Sanyal 등은 더 깊은 layersattention 행렬이 자주 퇴화하여, 종종 거의 랭크-1인 단일 열 패턴으로 붕괴된다는 것을 발견했습니다. 우리는 pre-training 중에 각 layer의 "유효성"을 유지하는 것이 중요하다고 믿습니다. layers, 특히 깊은 layers의 기능을 향상시키는 것은 modelreasoning 능력을 향상시키기 위한 미래 방향입니다.

Theory of Information Flow

Layer specialization을 고려할 때, 이러한 layers를 가로지르는 정보의 흐름은 reasoning 과정에 중요합니다. Stolfo 등은 산술 과제 동안 LLM 내부 정보 흐름 경로를 명확히 하기 위해 MLPattention modules의 간접적인 기여를 정량화합니다. 결과는 reasoninginter-layer 정보 흐름에서 attention 메커니즘의 중요한 역할을 강조하며, 이는 초기 처리 layers에서 최종 token으로 계산 정보를 전송합니다. Wang 등은 grokking 과정 중에 나타나는 "일반화 circuit"을 발견합니다. 이 circuitcross-layer 정보 흐름을 가능하게 하며, 낮은 layers는 연결 개체를 추출하고 높은 layersreasoning을 수행합니다. Yu 등은 multi-hop 지식 예측 동안 LLMslogits flow에 대한 뉴런 수준의 조사를 제시합니다. "back attention" 메커니즘을 통해, 숨겨진 정보가 높은 layers에서 낮은 layers로 효과적으로 전송되어 modelreasoning 능력을 향상시킬 수 있습니다. 추가 연구는 모든 model layers에 걸친 "embedding trajectory"를 분석함으로써 이를 입증합니다. 이 궤적을 "Chain-of-Embedding"이라고 부르는 한 연구는, 궤적의 기하학적 모양이 정답과 오답을 구별할 수 있어 출력 없는 자가 평가를 가능하게 함을 보여줍니다. 다른 연구는 궤적 "변동성"을 사용하여 분포를 벗어난 수학 문제를 감지하며, models이 익숙한 과제에 대해서는 reasoning 경로에서 "조기 안정화"를 보이지만 익숙하지 않은 과제에 대해서는 그렇지 않다는 것을 발견했습니다. 두 연구 모두 LLMs의 수직적, layer-by-layer 처리가 latent chain of thought와 유사한 풍부하고 해석 가능한 정보 흐름을 포함하고 있음을 확인합니다.


4.3. Turing Completeness of Layer-Based Latent CoT

Turing completeness는 이론 컴퓨터 과학의 기본 개념입니다. 이는 시스템이 보편적인 튜링 기계에 의해 수행될 수 있는 모든 계산을 수행할 수 있는 능력을 설명합니다. 계산 시스템은 모든 튜링 기계의 계산 과정을 시뮬레이션할 수 있을 때 Turing complete하다고 간주됩니다. 이 섹션에서는 먼저 Vanilla TransformerTuring complete한지 여부에 답하려고 시도합니다. 다음으로, TransformerTuring completeness를 달성하기 위해 어떤 수정이 필요한지 요약합니다.

Proof of Turing completeness in model architectures

Transformers가 등장하기 전에, Recurrent Neural Networks (RNN) 는 순차적 데이터를 처리하는 지배적인 architecture였습니다. 고유한 재귀적 특성 덕분에, RNNs은 1996년에 이미 이론적으로 Turing complete함이 증명되었으며, 신경망이 보편적인 계산 능력을 달성하는 선례를 세웠습니다. 이후, RNNsvanishing gradient 문제를 해결하기 위해 LSTMGRU가 제안되어, 긴 sequence에 걸쳐 더 안정적인 메모리 상태를 가능하게 했습니다.

일련의 연구 노력들은 특정 가정된 제약 하에서 TransformersTuring completenessarchitectural 관점에서 증명하려고 시도했습니다. Pérez 등은 Transformer architectureTuring complete하며, 모든 계산 가능한 함수를 실행할 수 있는 보편적인 능력을 가지고 있음을 처음으로 공식적으로 증명했습니다. 그러나 이 증명의 타당성은 세 가지 중요한 이론적 가정에 의존합니다: Arbitrary Precision, Positional Encodings, 그리고 Hard-Max Attention. 이 이상적이고 획기적인 증명 이후, 더 많은 연구자들이 Transformer가 어떤 조건에서 Turing completeness를 달성할 수 있는지 고려하기 시작했습니다.

더 나아가, Li와 Wang은 일정한 수치 정밀도 하에서 Turing completeness가 달성될 수 있음을 처음으로 증명했습니다. 이 연구는 이전 증명의 논란이 많았던 무한 정밀도 가정을 직접적으로 다루며, 이론적 model을 실제 세계의 계산 제약에 더 가깝게 만듭니다.

Proof of Turing completeness with Chain-of-Thought

또한, 다른 연구 경로는 CoT reasoning을 통해 더 보편적인 계산 능력을 달성하는 데 초점을 맞춥니다. 기능적으로, CoTTransformer를 제한된 컨텍스트 창에서 동적인 계산 테이프로 변환합니다. modelautoregressive 접근법을 사용하여, 각 단계의 계산 결과를 메모장에 쓰고 후속 계산에서 중간 결과를 재사용합니다. Qiu 등은 "promptingTuring complete하다"고 제안했습니다. 그들은 단일의 유한한 크기의 Transformer라도 적절하게 구성된 prompt만 주어진다면, 어떤 계산 가능한 함수도 계산할 수 있음을 보여줍니다. 이것은 TransformersTuring completenessprompts의 관점에서 처음으로 밝혀진 것입니다. Li 등은 일정한 깊이의 Transformer-step CoT reasoning을 수행하도록 허용된다면, 크기 Boolean circuit을 시뮬레이션할 수 있음을 발견했습니다.

CoTTuring completeness에 대한 이러한 연구들은 일반 계산의 정의에 변화가 있음을 나타냅니다. 일반성은 반드시 model architecture 내에 내장될 필요는 없으며, 고정 깊이 models을 사용하는 상호 작용 패러다임을 통해서도 달성될 수 있습니다.

Enhancing Transformer for Turing Completeness

이론적 증명을 넘어, 일련의 연구들은 architectural 수정을 통해 Transformers의 표현력을 향상시켜, 그들의 이론적 한계인 Turing completeness에 접근하고자 했습니다. 일련의 연구들은 섹션 3에서 논의한 바와 같이, Transformers의 고정된 깊이 제약을 돌파하기 위해 recurrent 메커니즘을 도입했습니다. 또한, 일부 연구는 Transformers에 외부 메모리를 통합했습니다.

A Unifying View of Implicit and Explicit Reasoning

Transformersreasoning 과정은 두 차원에 걸쳐 "생각이 펼쳐지는" 것으로 볼 수 있습니다. 잘 알려진 CoT는 "수평적" sequence 차원을 따라 펼쳐져, 눈에 보이는 reasoning 단계를 만듭니다. 한편, 네트워크의 layer-by-layer 계산은 "수직적" 깊이 차원을 따라 각 token이 암시적으로 펼쳐지고 정제되는 것으로 볼 수 있습니다. 위에서 논의한 바와 같이, CoT는 질문과 답변 사이의 스크래치패드 역할을 하여, modelauto-regression 모드에서 reasoning을 수행하게 하며, 이론적으로 Turing completeness를 가집니다. 한편, Transformer의 각 layer는 암시적인 reasoning 단계를 나타내며, 다음 token의 예측을 점진적으로 최적화합니다. 따라서, 두 방법 모두 계산적 확장의 한 형태를 나타내며, sequence를 통해 펼쳐지는지 아니면 네트워크의 깊이를 통해 펼쳐지는지에서 근본적으로 다릅니다.

 

Mechanistic Interpretability (Section 4) 핵심 정리 노트 (for AI Researchers)

1. 핵심 주장: Layer는 Latent CoT의 기본 연산 단위이다

  • 이 섹션은 Mechanistic Interpretability (기계적 해석 가능성)의 관점을 빌려, Transformer 의 수직적 Layer 스택이 그 자체로 암묵적인 생각의 연쇄, 즉 Latent CoT 로 기능한다는 것을 논증함.
  • Layer 깊이와 reasoning 능력 사이에는 강한 선형적 비례 관계가 존재하며, 이는 LayerLatent CoT 의 핵심적인 bottleneck임을 시사함.

2. 핵심 이론: Layer Specialization (Layer 전문화)

  • Latent CoT 가 작동하는 메커니즘으로 Layer Specialization 이론을 제시. TransformerLayer 들이 각각 전문화된 역할을 수행하며 하나의 암묵적인 계산 파이프라인을 형성함.
    • Shallow Layers (얕은 층): 기반 작업 수행. 구문 분석, 개체(entity) 연결, 사실 정보 인출 등 reasoning 을 위한 기초 재료를 처리.
    • Intermediate Layers (중간 층): 핵심 reasoning 엔진. 이 주장을 뒷받침하는 3가지 근거를 제시함.
      1. Circuit 형성: 특정 추론 기능(예: 개체 추적)을 수행하는 전문화된 하위 회로(sub-circuits)가 이 층에서 발견됨.
      2. 우수한 표현력: Autoregressive 사전 훈련 과정에서 발생하는 '정보 병목 현상' 때문에, 가장 핵심적인 정보가 중간층에 압축되어 강력한 표현력을 가짐.
      3. 인과적 영향력: 중간층의 activation 을 직접 수정(intervention)했을 때, 최종 추론 결과가 직접적으로 바뀌는 인과 관계가 증명됨.
    • Deep Layers (깊은 층): 최종 결과 정제 및 결정. 중간층의 풍부한 정보를 받아 최종 답변을 생성하지만, Pre-Layer Normalization 의 분산 문제 등으로 인한 'Layer degradation'(성능 저하) 현상이 관찰되기도 함.

3. 핵심 증거: Information Flow 및 Chain-of-Embedding

  • Layer 전문화 이론을 뒷받침하는 증거로 Layer 간 정보 흐름을 분석.
  • Chain-of-Embedding: 입력 임베딩이 Layer 들을 통과하면서 그리는 기하학적 궤적("embedding trajectory") 자체가 해석 가능한 정보를 담고 있음. 이 궤적의 모양이나 안정성을 통해 정답/오답을 구분하거나 문제의 익숙함 정도를 파악하는 등, 보이지 않는 추론 과정을 시각화하고 분석할 수 있음.

4. 이론적 능력: Turing Completeness 및 통합적 관점

  • 핵심 통찰: Transformer 아키텍처 자체의 Turing completeness 증명은 비현실적인 가정을 요구하지만, CoT prompting 을 통해 고정된 깊이의 TransformerTuring complete 해질 수 있음. 이는 sequence 자체가 동적인 계산 테이프 역할을 하기 때문.
  • 통합적 관점 (Unifying View): AI의 '생각'은 두 가지 차원에서 동시에 펼쳐짐.
    • 수평적 확장 (Horizontal): sequence 차원에서 눈에 보이게 펼쳐지는 명시적 생각 (Standard CoT).
    • 수직적 확장 (Vertical): Layer 의 깊이 차원에서 보이지 않게 정교화되는 암묵적 생각 (Layer-based Latent CoT).

쉬운 설명 :

AI의 '뇌'는 어떻게 생각할까? 🧠

이 섹션은 AI의 머릿속을 들여다보는 '뇌 과학'(Mechanistic Interpretability) 과 같습니다. AI가 겉으로 답을 내놓는 것 말고, 내부적으로 정말 '생각'이라는 것을 하는지, 한다면 어떻게 하는지를 파헤칩니다.

1. AI의 생각은 '부서별 결재 라인'과 같다 (Layer Stacks)

조사를 해보니, AI의 생각은 마치 회사의 부서(Layer)들을 차례로 거치는 '결재 라인'과 같다는 사실을 발견했습니다. 부서의 수가 너무 적으면 복잡한 문제를 해결하지 못합니다. 즉, 이 보이지 않는 '내부 결재 라인' 자체가 AI의 숨겨진 생각의 흐름(Latent CoT) 이라는 증거입니다.

2. 부서별 역할 분담 (Layer Specialization)

더 깊이 들여다보니 각 부서가 하는 일이 명확히 나뉘어 있었습니다.

  • 신입사원 팀 (Shallow Layers): 문제의 기본적인 정보를 수집하고, 문법을 확인하고, 관련 사실을 찾아오는 기초 업무를 담당합니다.
  • 핵심 전략 팀 (Intermediate Layers): 여기가 바로 회사의 '브레인' 입니다. 수집된 정보를 바탕으로 진짜 분석과 추론이 일어납니다. 특정 문제를 위한 TF팀(circuits)이 꾸려지기도 하고, 이 팀의 판단이 최종 결과에 가장 큰 영향을 미칩니다.
  • 임원진 (Deep Layers): 전략 팀의 분석 결과를 최종적으로 다듬어서 외부에 발표할 보고서(답변)를 완성하고 최종 결정을 내립니다.

3. 두 가지 생각의 방식

결론적으로 AI는 두 가지 방식으로 동시에 생각합니다.

  • 수평적 생각 (회의록 작성): 생각의 모든 과정을 회의록(Standard CoT) 처럼 글자로 하나하나 기록하며 생각을 펼쳐나가는 방식입니다.
  • 수직적 생각 (내부 결재): 위에서 설명한 것처럼, 신입사원부터 임원까지 내부 결재 라인(Layer-based Latent CoT) 을 거치며 보이지 않게 생각을 점점 더 정교하게 다듬어가는 방식입니다.

이 섹션은 이 두 가지 생각 방식이 어떻게 작동하고 서로 관련되어 있는지를 설명합니다.