VLM : 빠른 논문 리뷰 : Recursive Inference Scaling: A Winning Path to Scalable Inference in Language and Multimodal Systems

Notice

Recent Posts

Recent Comments

Link

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : Recursive Inference Scaling: A Winning Path to Scalable Inference in Language and Multimodal Systems 본문

논문리뷰

VLM : 빠른 논문 리뷰 : Recursive Inference Scaling: A Winning Path to Scalable Inference in Language and Multimodal Systems

AI바라기 2025. 12. 29. 14:59

Terminology

이 논문을 깊이 있게 이해하기 위해 필요한 핵심 용어 정리입니다.

RINS (Recursive INference Scaling): 저자들이 제안하는 새로운 방법론입니다. 모델 전체를 반복하는 것이 아니라, 모델을 두 부분(Block A와 Block B)으로 나누고, 앞부분인 Block A만 재귀적으로(recursively) 반복 수행한 후 그 출력을 Block B로 넘기는 구조입니다. (Signature: ArB)
RAO (Repeat-All-Over): Mobile LLM 등 기존 연구에서 제안된 방식입니다. 모델 전체 구조를 입력에 대해 반복적으로 적용하는 방식입니다. 이 논문의 주요 비교 대상(baseline) 중 하나입니다.
Signature & Degree: 저자들이 재귀적 아키텍처를 분류하기 위해 정의한 체계입니다. Signature는 블록의 배치 순서(예: AAB, ArB)를 의미하며, Degree는 재귀가 얼마나 중첩(nested)되어 있는지를 나타냅니다. RINS는 Degree 1의 ArB Signature를 가집니다.
Compute-matched Regime: 이 논문의 실험 설정에서 가장 중요한 개념입니다. 단순히 모델 파라미터 수나 학습 토큰 수를 맞추는 것이 아니라, **총 학습 연산량(FLOPs)**을 동일하게 맞추어 비교합니다. RINS는 한 번의 step에 더 많은 연산이 필요하므로, baseline보다 더 적은 수의 토큰을 학습시키더라도 총 연산량은 같게 맞춘 상태에서 성능을 비교합니다.
Fractal Geometry of Language: 언어가 단어 수준에서 문장, 문단 수준에 이르기까지 유사한 구조적 패턴이 반복된다는 성질(Self-similarity)입니다. 저자들은 RINS가 성공적인 이유를 이 성질 때문이라고 가설을 세웁니다.
Stochastic RINS: 학습(training) 중에 재귀(recursion) 횟수를 무작위로 건너뛰거나 조절하는 기법입니다. 이를 통해 추론(inference) 시에 재귀 횟수를 유연하게 조절할 수 있게 합니다.
No-regret Strategy: 추론 시에 재귀를 사용하지 않더라도(기본 모델처럼 사용하더라도), RINS 방식으로 학습된 모델이 일반적인 방식으로 학습된 모델보다 성능이 떨어지지 않거나 오히려 더 좋은 상황을 의미합니다.

Purpose of the Paper

기존 연구의 한계와 새로운 접근:

단순한 추론 연산 증가의 한계: Chain-of-Thought(CoT)와 같이 추론 시 토큰을 추가 생성하여 성능을 높이는 방법이 있지만, 이는 모델 아키텍처 자체를 활용하는 방식은 아닙니다.
기존 재귀 모델(Mobile LLM)의 평가 맹점: Mobile LLM과 같은 기존 연구들은 재귀 구조(RAO)가 파라미터 효율성이 좋다고 주장했으나, 학습 시 증가하는 연산 비용(FLOPs)을 고려하지 않고 단순 '토큰 수' 기준으로만 비교했습니다. 이는 공정한 비교가 아닙니다.
문제 정의: "동일한 모델 크기와 동일한 학습 연산량(FLOPs)이 주어졌을 때, 과연 재귀적 구조가 일반적인 Transformer보다 더 나은 성능을 낼 수 있는가?"를 검증하고자 합니다.
접근 방식: 언어의 자기유사성(Fractal nature)에 착안하여, 모델의 앞단(early portion)만을 재귀적으로 반복하여 입력을 정제하는 RINS 방식을 제안하고, 이를 철저하게 연산량이 통제된 환경에서 검증합니다.

Key Contributions

Novelty (참신성):

Compute-matched 비교: 기존 연구들이 간과했던 '학습 연산량(FLOPs) 통제' 환경에서 재귀 아키텍처의 효율성을 최초로 엄밀하게 입증했습니다.
RINS 아키텍처 제안: 55개 이상의 다양한 파라미터 공유(parameter-sharing) 전략을 탐색한 끝에, 모델 전체 반복(RAO)보다 앞단 블록만 반복하는 ArB 구조(RINS)가 최적임을 발견했습니다.
Linear Adapters를 통한 Trade-off 해결: Stochastic RINS 학습 시 발생할 수 있는 추론 유연성과 성능 간의 트레이드오프를 가벼운 Linear Adapter를 도입하여 해결하고, No-regret 전략을 완성했습니다.

Contributions (기여):

Language Modeling 성능 향상: 300M, 600M, 1B 파라미터 규모의 언어 모델에서 RINS는 동일 연산량 대비 Baseline 및 RAO 모델보다 월등히 낮은 Perplexity를 달성했습니다.
Multimodal 확장성 입증: 언어뿐만 아니라 Vision-Language 모델(SigLIP)에도 RINS를 적용하여 ImageNet 제로샷 정확도 등에서 큰 성능 향상을 기록했습니다.
Data Scaling Laws 개선: RINS는 데이터 스케일링 법칙에서 수렴 속도(scaling exponent)를 가속화할 뿐만 아니라, 최종적으로 도달 가능한 성능의 한계치(asymptotic limit) 자체를 개선함을 수식과 실험으로 증명했습니다.
성공 요인 분석: Vision-only 모델(ViT)에서는 RINS가 효과가 없음을 보여줌으로써, RINS의 성공이 언어 데이터 특유의 자기유사성(fractal nature)에 기인한다는 가설을 뒷받침했습니다.

Experimental Highlights

실험 설정:

Models: Decoder-only Transformer (300M, 600M, 1B params) 및 SigLIP-B/16 (Multimodal).
Datasets: C4, SlimPajama (Language), WebLI (Multimodal), ImageNet (Vision).
Baseline 비교: Non-recursive Baseline (일반 모델), RAO (Mobile LLM 방식), Long-Sequence (문맥 길이를 늘린 모델) 등과 비교하되, 모든 모델의 총 학습 FLOPs를 동일하게 맞춤.

주요 결과:

Language Modeling: 1B 파라미터 모델 기준, RINS는 Baseline 및 RAO 대비 학습 곡선(Learning Curve)에서 일관되게 우위를 점했습니다. 특히 학습이 길어질수록 격차가 벌어지며 더 좋은 최종 성능에 도달했습니다.
Multimodal Performance (State-of-the-art급 향상):
- SigLIP-RINS-B/16 모델은 ImageNet 0-shot 정확도를 77.3%에서 **79.6%**로 약 +2.3% 향상시켰습니다.
- CIFAR100에서도 70.3%에서 **80.7%**로 압도적인 성능 향상을 보였습니다.
Data Scaling Laws: 600M 모델 실험에서 RINS를 적용했을 때 scaling exponent(c)와 asymptotic limit(epsilon infinity)이 모두 개선되었습니다. 이는 단순히 학습을 더 오래 시켜서 얻을 수 있는 이득을 넘어선 구조적 이점임을 시사합니다.
KV Cache Sharing: 재귀 시 KV Cache를 공유하면 메모리 사용량을 줄일 수 있는데, 이 경우 성능 이득이 다소 줄어들긴 하지만 여전히 Baseline보다는 우수한 성능을 유지함을 확인했습니다.

Limitations and Future Work

Limitations:

Inference Latency: 재귀적 구조 특성상 동일한 파라미터 크기의 일반 모델보다 추론 시간이 더 걸립니다(Throughput 감소).
Memory Footprint: KV Cache를 공유하지 않을 경우, 재귀 깊이에 따라 메모리 사용량이 증가할 수 있습니다.
Vision Task 한계: 순수 Vision task (Supervised Image Classification)에서는 성능 향상이 없었습니다. 이는 RINS가 언어적 특성에 의존적임을 보여줍니다.

Future Work:

Adaptive Recursion: 입력의 난이도에 따라 재귀 횟수(r)를 동적으로 조절하는 방법에 대한 연구가 필요합니다.
Large Scale 검증: 본 연구는 1B 이하 모델과 SigLIP-B 사이즈에 집중되었습니다. 거대 언어 모델(LLM) 규모에서의 검증이 필요합니다.
Self-Correction 메커니즘 결합: RINS의 반복적인 처리가 모델의 자가 수정(Self-correction) 능력과 어떻게 결합될 수 있는지 탐구할 가능성이 있습니다.

Overall Summary

이 논문은 언어 데이터의 프랙탈(자기유사) 구조에 착안하여, 모델의 앞부분을 재귀적으로 반복 사용하는 Recursive Inference Scaling (RINS) 기법을 제안합니다. 기존 연구들과 달리 학습 연산량(FLOPs)을 엄격하게 통제한 비교 실험을 통해, RINS가 언어 모델링 및 멀티모달 시스템에서 파라미터 증가 없이도 성능을 비약적으로 향상시킬 수 있음을 입증했습니다. 특히, Stochastic 학습법과 Linear Adapter를 결합하여 추론 비용을 유연하게 조절하면서도 성능 저하가 없는(no-regret) 실용적인 방안을 제시했다는 점에서, 향후 효율적인 LLM 및 Multimodal 모델 아키텍처 설계에 중요한 방향성을 제시합니다.

쉬운 설명 (Easy Explanation)

RINS의 핵심 아이디어:
우리가 어려운 책을 읽을 때를 생각해봅시다. 책 전체를 처음부터 끝까지 여러 번 읽는 것(기존 방식, RAO)은 시간이 너무 오래 걸립니다. 대신, 이해가 잘 안 되는 어려운 문단이나 챕터만 몇 번 다시 읽고(RINS), 그 내용을 바탕으로 뒤로 넘어가는 것이 훨씬 효율적입니다.

이 논문은 AI 모델도 마찬가지라고 말합니다.

언어는 작은 패턴들이 반복되는 성질이 있습니다.
따라서 모델 전체를 반복할 필요 없이, 입력 데이터를 처리하는 초반 부분(Block A)만 3~4번 반복해서 "깊게 생각" 한 뒤에 결과를 내놓으면, 모델 덩치를 키우지 않고도 훨씬 똑똑해진다는 것입니다.
놀랍게도, "공부하는 시간(연산량)"을 똑같이 줘도, 그냥 공부하는 것보다 이 방식(RINS)으로 공부하는 것이 성적이 훨씬 좋았습니다.

'논문리뷰' 카테고리의 다른 글

Diffusion : 논문 리뷰 : SELECTIVE UNDERFITTING IN DIFFUSION MODELS (0)	2025.12.29
Diffusion : 빠른 논문 리뷰 : Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models (0)	2025.12.24
Diffusion : 빠른 논문 리뷰 : Learnable Sampler Distillation for Discrete Diffusion Models (0)	2025.12.24
VLM : 빠른 논문 리뷰 : COLORBENCH: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness (0)	2025.12.19
VLM : 빠른 논문 리뷰 : Interaction-Centric Knowledge Infusion and Transfer for Open-Vocabulary Scene Graph Generation (0)	2025.12.19

'논문리뷰' Related Articles

AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : Recursive Inference Scaling: A Winning Path to Scalable Inference in Language and Multimodal Systems 본문

VLM : 빠른 논문 리뷰 : Recursive Inference Scaling: A Winning Path to Scalable Inference in Language and Multimodal Systems

Terminology

Purpose of the Paper

Key Contributions

Experimental Highlights

Limitations and Future Work

Overall Summary

쉬운 설명 (Easy Explanation)

'논문리뷰' 카테고리의 다른 글

티스토리툴바