AI바라기의 인공지능

LLM : 논문 리뷰 : Parcae: Scaling Laws For Stable Looped Language Models 본문

논문리뷰

LLM : 논문 리뷰 : Parcae: Scaling Laws For Stable Looped Language Models

AI바라기 2026. 4. 19. 20:36

[Parcae: Scaling Laws For Stable Looped Language Models] 학습 노트

💡 용어 설명

  • Looped architectures (Layer-looping): 파라미터 수를 늘리지 않고 (메모리 유지), 동일한 레이어 블록(recurrent unit)에 활성화 값(activations)을 반복적으로 통과시켜 연산량(FLOPs)을 늘리는 모델 구조.
  • LTI (Linear Time-Invariant) dynamical system: 선형 시불변 동적 시스템. 본 논문에서는 looped model의 residual stream이 반복될 때 발생하는 불안정성을 수학적으로 분석하기 위해 이 제어 공학(control theory) 개념을 차용함.
  • Spectral radius (rho(A)): 행렬 A의 고유값(eigenvalues) 중 절대값이 가장 큰 값. LTI 시스템에서는 이 값이 1보다 작아야(rho(A) < 1) 시스템이 폭발하지 않고 안정적(stable)으로 수렴함.
  • Parcae: 본 논문에서 제안하는 안정적인 looped language model의 이름.
  • Prelude / Recurrent / Coda block: Parcae의 구조. 입력을 임베딩하는 Prelude, 반복 연산을 수행하는 Recurrent, 최종 예측을 하는 Coda 블록으로 나뉨.
  • mu_rec / mu_bwd: pre-training 시 설정하는 평균 반복 횟수(mu_rec)와 역전파(backpropagation)가 적용되는 평균 깊이(mu_bwd).
  • IsoFLOP: 학습에 사용된 총 연산량(FLOPs)을 고정해 두고, 모델 설정(예: data 크기 vs looping 횟수)을 비교하는 실험 통제 방식.

🎯 Purpose of the Paper

  • 기존 연구의 한계: LLM의 성능을 높이려면 파라미터를 늘려야 하고 이는 메모리 사용량 폭증으로 이어짐. 대안으로 looped architectures가 주목받았으나, 복잡한 비선형 레이어를 반복하면서 residual state explosion(상태 값 폭발)  loss spikes(학습 중 손실값 급증) 등 치명적인 학습 불안정성 문제를 겪음. 기존에는 이를 해결하기 위해 매우 민감한 하이퍼파라미터 튜닝이나 ad-hoc한 residual normalization에 의존했음.
  • 새로운 문제 정의 및 접근: 논문은 looping 매커니즘을 LTI dynamical system으로 재해석함. 기존 모델들은 상태 전환 행렬(injection parameter) A spectral radius가 제어되지 않아 rho(A) >= 1 상태가 되어 폭발이 일어남을 수학적으로 밝혀냄.
  • 연구 목적: 수학적으로 안정성이 보장된 새로운 looped 구조(Parcae)를 제안하고, 이 안정성을 바탕으로 "파라미터를 고정한 상태에서 연산량(FLOPs)을 looping으로 늘릴 때의 Scaling Law"를 최초로 규명하고자 함.

✨ Key Contributions & Novelty

  • 수학적 안정성이 보장된 아키텍처 제안 (Parcae 구조 설계):
    • Novelty: 기존의 단순한 덧셈이나 concat 기반의 injection 대신, LTI 시스템 기반의 이산화(discretization)를 적용.
    • Contribution: 행렬 A를 negative diagonal parameterization으로 강제하여 항상 rho(A) < 1 이 되도록(안정 상태) 구조적으로 보장. 추가로 입력단에 Prelude Norm을 적용하여 후반부 학습 loss spike를 방지함.
  • 안정적인 학습 알고리즘 도입:
    • Novelty: 가변적인 루프 깊이(variable depths)를 학습할 때 발생하는 분산을 제어.
    • Contribution: 배치(batch) 단위가 아닌 per-sequence 단위로 루프 깊이를 샘플링하여 학습 궤적을 고정점(fixed point)으로 부드럽게 유도, loss spike를 완벽히 제거함.
  • Looping에 대한 독립적인 Scaling Laws 규명:
    • Novelty: 파라미터 크기와 데이터 양 외에 'Looping 횟수'를 제3의 독립적인 scaling 축으로 확립.
    • Contribution:
      1. Training Law: IsoFLOP 환경에서 최적의 모델은 데이터(data)와 반복 횟수(mu_rec)를 특정 power law에 따라 동시에 늘려야 함을 증명.
      2. Test-Time Law: 추론 시 루프를 늘릴수록 성능이 좋아지지만, 특정 하한선(irreducible loss)을 향해 saturating exponential decay (포화형 지수 감소) 형태로 수렴함을 발견.
      3. Unified Law: 위 두 가지를 통합하여, 학습 설정과 추론 반복 횟수만으로 최종 성능을 예측하는 단일 수식 제시.

📊 Experimental Highlights

  • State-of-the-art 효율성 달성 (End-to-End Quality):
    • 1.3B 파라미터 Parcae 모델이 동일 파라미터/데이터의 Transformer 대비 CORE 벤치마크에서 최대 +2.99점 향상.
    • 놀랍게도 1.3B Parcae는 파라미터가 2배 더 큰 2.6B 일반 Transformer와 동등한 성능을 달성함 (parameter efficiency 23.3~87.5% 우위).
    • 기존 SOTA looped 모델인 RDM과 비교해서도 validation PPL을 6.3% 감소시킴.
  • Looping이 Data Scaling을 이긴다는 결과 (IsoFLOP Comparison):
    • 동일한 학습 FLOPs 예산이 주어졌을 때, 단순히 데이터만 많이 보는 fixed-depth (mu_rec = 1) 모델보다, 최적의 mu_rec를 찾아 looping을 적용한 모델의 효율 경계(Pareto Frontier)가 압도적으로 우수함 (CORE 점수 기준 1.2~2.0점 더 높음).
  • Test-Time Saturation 현상 입증:
    • 수학적 공식 L(T) = L_inf + Z * exp(-z * T / mu_rec) 도출.
    • 실험 결과, 추론 시 루프(T)를 무한정 늘린다고 성능이 계속 오르는 것이 아니라, 학습 시 경험한 평균 깊이(mu_rec) 부근에서 성능 향상 폭이 정체(plateau) 됨을 명확히 확인함.

🚧 Limitations and Future Work

  • 규모의 한계 (Scale Limitation):
    • Limitation: 실험이 소규모 아키텍처(최대 1.3B)에 국한됨.
    • Future Work: 대규모 FLOPs 예산과 거대 모델에서도 Parcae의 scaling law와 파라미터 효율성이 그대로 유지되는지 검증이 필요함.
  • 추론 지연 시간 문제 (Inference Latency):
    • Limitation: 높은 성능을 위해 mu_rec를 늘리면, 추론 시 테스트 단계(test-time steps)도 동일하게 늘어나야 하므로 속도가 느려짐.
    • Future Work: 품질은 유지하면서 추론 스텝 수를 줄일 수 있는 기법(예: early exiting 최적화 등) 연구가 필요함.
  • Looping 구조의 디자인 스페이스 미탐색:
    • Limitation: Recurrent unit을 모델의 어느 위치에 둘지, 내부 파라미터 구성을 어떻게 할지 등에 대한 깊은 탐색은 이루어지지 않음.
    • Future Work: Multi-step looping, Extreme looping (극단적으로 깊은 재귀) 환경에서 동적 시스템 프레임워크가 어떻게 적응해야 하는지 후속 연구가 요구됨.

📝 Overall Summary

이 논문은 기존 Looped language models의 고질적인 문제였던 학습 불안정성을 제어 공학의 LTI 시스템(고유값 기반 스펙트럼 반경 제한)으로 완벽하게 진단하고 해결한 Parcae 아키텍처를 제안했습니다. 안정성을 확보한 덕분에, 파라미터를 늘리지 않고 'Looping(반복 연산)' 자체를 모델 성능 확장의 새로운 Scaling 축으로 사용할 수 있음을 증명했습니다. 학습과 추론 시의 컴퓨팅 자원 스케일링 법칙(Scaling Laws)을 수학적으로 통합하여 예측 가능하게 만들었으며, 이는 향후 메모리 제약이 심한 Edge 디바이스 환경에서 파라미터 증가 없이 모델 성능을 극대화하는 핵심 기반 기술이 될 것입니다.


💡 쉬운 설명 (Analogy)

기존의 일반적인 LLM이 "100개의 다른 기계를 한 번씩 거쳐야 완성되는 거대한 공장(메모리 큼)" 이라면, Looped Model은 "10개의 기계만 두고 부품을 10번 반복해서 뺑뺑이 돌리는 소형 공장(메모리 작음)" 입니다.
그런데 기존 Looped Model은 기계가 반복 작업에 맞춰 영점 조절이 안 되어 있어서 부품이 과열되거나 폭발하는 사고(Instability, State Explosion)가 잦았습니다.
이 논문은 "공장 기계에 과열 방지 안전 밸브(Spectral Radius 강제 제한)를 달아서 아무리 반복해도 절대 터지지 않게 만든 것" 입니다. 나아가, "몇 번 뺑뺑이를 돌리는 게 가성비가 제일 좋은지"에 대한 절대 법칙(Scaling Laws)까지 계산해 낸 연구입니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

더보기

트랜스포머에서 레이어의 수를 늘리지 않고
그걸 재사용하는게 다름

다만 그냥 재사용하지 않고 원래의 인풋의 정보를 끝까지 끌고감. 조절파라미터와 함께
A: 이전 hidden state를 얼마나 유지/감쇠할지
B: 원래 input e를 얼마나 주입할지


다만 그냥 하면 터질 위험이 있으므로 정보의 흐름을 조절 파라미터인 A쪽에 트릭이있음. 

학습 가능한 A이긴 한데, A를 아무렇게나 배우게 두지 않고, 각 차원이 감쇠 방향으로 가도록 negative diagonal 형태로 제한해서 반복 시 state가 증폭되지 않게 만든다.

또한

input injection이 첫 step부터 너무 세게 들어오지 않게 A만 안정화한 게 아니라, recurrent block에 들어가는 원래 input e도 normalization해서 injection 폭주를 막았다.

또한 학습법이 약간 다름
각 배치내에서도 시퀀스마다 반복횟수가 다름 다만 반복횟수는 시퀀스 어웨하지 않고 대충 람다 샘플링으로 랜덤


그리고 모든 스텝을 다 역전파 안하고 대충 끝부분 몇개만 loss흘림\