AI바라기의 인공지능

LLM : 논문리뷰 : SCALING RELATIONSHIP ON LEARNING MATHEMATICAL REASONING WITH LARGE LANGUAGE MODELS 본문

논문리뷰

LLM : 논문리뷰 : SCALING RELATIONSHIP ON LEARNING MATHEMATICAL REASONING WITH LARGE LANGUAGE MODELS

AI바라기 2025. 1. 20. 18:01

논문 정리 노트: Scaling Relationship on Learning Mathematical Reasoning with Large Language Models

Purpose of the Paper

기존 large language models (LLMs)mathematical reasoning 능력은 모델 크기에 따른 scaling relationship 이 불분명했습니다. 본 논문은 pre-training loss, supervised data amount, augmented data amountsupervised LLMreasoning 성능에 미치는 영향을 분석하여, LLMmathematical reasoning 능력 향상을 위한 효율적인 전략을 제시하는 데 그 목적이 있습니다. 특히, 기존 연구들이 prompt engineering 이나 ensembling/reranking 과 같은 inference 단계에서의 성능 향상에 집중한 반면, 본 논문은 online deployment 에 더 적합한 supervised LLMs 의 성능, 즉 inference 를 한 번만 수행하는 상황에서의 성능에 초점을 맞추어 scaling relationship 을 연구하고자 합니다.

Key Contributions

  • Pre-training lossmodel parameter count 보다 reasoning 성능을 더 잘 예측하는 지표임을 발견했습니다. 즉, pre-training loss 가 낮을수록 (좋은 pre-trained model 일수록) SFT (Supervised Fine-Tuning)ICL (In-Context Learning) 성능이 선형적으로 향상되는 경향을 보였습니다.
  • Supervised data amount 와 모델 성능 간의 log-linear relationship 을 발견했습니다. 즉, supervised data 양이 증가함에 따라 모델 성능이 향상되지만, pre-trained model 이 좋을수록 그 증가 폭이 감소하는 경향을 보였습니다.
  • Rejection sampling Fine-Tuning (RFT) 을 제안하여 human effort 없이 model performance 를 개선했습니다. RFTsupervised models 를 사용하여 reasoning paths 를 생성하고, 정답을 맞힌 reasoning paths 만을 augmented fine-tuning datasets 로 활용하는 방법입니다.
  • RFTless performant LLMs 에 더 효과적이며, multiple models 로부터 생성된 rejection samples 를 결합하면 성능이 더욱 향상됨을 보였습니다. 특히, LLaMA-7B 모델에 RFT 를 적용하여 GSM8K 데이터셋에서 49.3% 의 정확도를 달성했으며, 이는 SFT 정확도 35.9% 를 크게 상회하는 결과입니다.

Novelty

  • Mathematical reasoning 능력에 대한 LLMscaling relationshippre-training loss, supervised data amount, augmented data amount 측면에서 체계적으로 분석했습니다.
  • Model 자체를 활용하여 supervised data 를 생성하고, 이를 통해 reasoning 능력을 강화하는 RFT 방법을 제안했습니다.
  • RFT 의 성능에 영향을 미치는 핵심 요소가 distinct reasoning path amount 임을 밝혔고, multiple models 로부터 samples 를 결합하여 성능을 극대화하는 전략을 제시했습니다.

Experimental Highlights

  • GPT-3, LLaMA, LLaMA2, GPT-4 등 다양한 LLMs 을 사용하여 SFTICL 성능을 분석했습니다.
  • GSM8K 데이터셋을 사용하여 supervised data amount 에 따른 SFT 성능 변화를 측정했습니다.
  • RFT 를 적용하여 LLaMA-7B, LLaMA2-7B, LLaMA-13B, LLaMA2-13B 모델의 성능을 SFT 대비 크게 향상시켰습니다.
  • RFT 로 생성된 reasoning paths 의 다양성을 분석하고, multiple models 로부터 생성된 samples 를 결합하여 성능을 더욱 향상시키는 실험을 진행했습니다.

Limitations

  • 65B70B LLaMA models 에 대한 RFT 실험이 아직 포함되지 않았습니다.
  • Math-related corpus 를 사용한 pre-training 의 영향은 이 논문에서 다루지 않았습니다.
  • 다양한 modelspre-training losses, ICL prompts, SFT settings 이 완전히 동일하지 않을 수 있어, scaling laws 을 정확하게 회귀(regress)하지 않았습니다.

Future Work

  • 65B70B LLaMA models 에 대한 RFT 적용 및 성능 평가를 진행할 계획입니다.
  • Math-related corpus 를 사용한 pre-trainingmathematical reasoning 능력에 미치는 영향을 분석할 계획입니다.
  • 다양한 modelspre-training losses, ICL prompts, SFT settings 을 통제하여 scaling laws 을 더욱 정밀하게 연구할 계획입니다.
  • RFT 를 다른 reasoning tasks 에 적용하여 일반화 가능성을 검증할 계획입니다.
  • Distinct reasoning path 를 더욱 효과적으로 생성하고 선택하는 방법을 연구할 계획입니다.

 

 

ABSTRACT

Mathematical reasoning은 large language models (LLMs)에게 어려운 과제이며, LLM의 능력에 따른 scaling 관계는 아직 충분히 탐구되지 않았습니다. 본 논문에서는 pre-training loss, supervised data 양, 그리고 augmented data 양이 supervised LLM의 reasoning 성능에 어떤 영향을 미치는지 조사합니다. 우리는 pre-training loss가 모델의 파라미터 수보다 모델의 성능을 더 잘 나타내는 지표임을 발견했습니다. 우리는 다양한 양의 supervised data를 사용하여 supervised fine-tuning (SFT)을 적용하였고, data 양과 모델 성능 사이에 로그-선형 관계가 있음을 실험적으로 확인하였으며, 더 나은 모델일수록 supervised datasets를 늘렸을때 성능 향상 폭이 더 작다는 것을 발견했습니다. 인간의 노력 없이 모델 성능을 향상시키기 위해 더 많은 data samples를 augment 하기 위해, 우리는 Rejection sampling Fine-Tuning (RFT)을 제안합니다. RFT는 supervised models를 사용하여 올바른 reasoning paths를 생성하고 수집하여 augmented fine-tuning datasets로 사용합니다. 우리는 더 많은 독특한 reasoning paths를 포함하는 augmented samples를 통해 RFT가 LLMs의 mathematical reasoning 성능을 더 향상시킨다는 것을 발견했습니다. 또한 RFT가 성능이 낮은 LLMs에 더 큰 개선을 가져온다는 것을 발견했습니다. 더 나아가, 우리는 여러 모델의 rejection samples를 결합하여 LLaMA-7B를 GSM8K에서 49.3%의 정확도로 끌어올렸으며, 이는 supervised fine-tuning (SFT)의 정확도인 35.9%를 크게 능가하는 수치입니다.

 

 

 

1 INTRODUCTION

Large language models (LLMs) (Anil et al., 2023; Touvron et al., 2023b; OpenAI, 2023)는 다양한 math reasoning tasks (Saxton et al., 2019; Cobbe et al., 2021; Lightman et al., 2023)에서 상당한 능력을 보여주었습니다. 다양한 pre-trained LLMs와 supervised datasets를 기반으로 LLM의 math reasoning 능력을 이해하고, 예측하고, 향상시키는 것은 흥미로운 일입니다. 이러한 지식을 통해 LLM을 개선하거나 dataset을 augment하는 데 투입할 노력을 더 잘 결정할 수 있습니다. 최근 많은 연구들이 다양한 prompts (Wei et al., 2022b; Yao et al., 2023)를 사용하거나 여러 번의 inferences를 ensembling / reranking (Cobbe et al., 2021; Uesato et al., 2022; Wang et al., 2023; Lightman et al., 2023)하여 models의 reasoning 성능을 향상시키는 데 집중하고 있습니다. in-context learning (ICL)과 multiple inferences 수행은 성능을 향상시킬 수 있지만 계산 비용이 많이 들고 온라인 배포 시나리오에는 적합하지 않습니다. 따라서 우리는 온라인 배포에 더 가까운 설정인 한 번의 inference만으로 supervised LLMs의 성능에 중점을 둡니다.

이를 위해, 우리는 pre-training losses, supervised data의 양, augmented data의 양을 포함하여 supervised LLM의 math reasoning 능력에 영향을 미치는 요소들의 scaling 관계를 실험적으로 조사합니다. 첫째, 우리는 supervised fine-tuning (SFT)과 LLMs의 ICL 성능을 분석합니다. 우리는 pre-training loss가 주어진 구간에서 SFT 및 ICL 정확도와 대략적으로 음의 선형 상관관계가 있다는 것을 관찰했으며, 이는 pre-trained model sizes 또는 pre-trained token counts보다 더 나은 성능 지표입니다. 둘째, 우리는 SFT와 다양한 양의 supervised data 간의 관계를 분석합니다. 우리는 모델 성능이 supervised data 양에 대해 로그-선형 관계를 가지며, 더 나은 pre-trained model일수록 증가가 감소한다는 것을 관찰합니다. 셋째, 우리는 모델 자체를 활용하여 더 많은 supervised data를 generate하여 reasoning 능력을 강화하고 augmented data 양의 scaling 관계를 분석하고자 합니다. 우리는 SFT models에 rejection sampling을 적용하여 올바른 reasoning paths를 sampling하고 선택하여 augmented dataset (Uesato et al., 2022; Zhu et al., 2023)으로 사용합니다. 우리는 이러한 augmented datasets를 사용하여 base LLMs를 fine-tuning하여 SFT에 비해 더 나은 성능을 달성하고 이를 rejection sampling fine-tuning (RFT)으로 표시합니다. 우리는 RFT 성능에 영향을 미치는 핵심 요소가 독특한 reasoning path 양이며, 이는 더 많은 횟수를 sampling하거나 여러 models의 samples를 결합하여 증가시킬 수 있음을 발견했습니다. 우리는 여러 pre-trained LLMs에 RFT를 적용하여 성능이 낮은 models에서 더 큰 개선을 보여줍니다. 우리는 RFT가 작동하는 이유는 multiple reasoning paths를 제공하여 LLMs가 더 나은 reasoning 일반화를 갖도록 하기 때문이라고 논의합니다. 또한 RFT가 계산 자원 측면에서 pre-training보다 훨씬 저렴하지만, 더 낮은 pre-training loss를 가진 LLM을 training하는 것이 근본적인 해결책이라고 논의합니다.

이 논문의 주요 결과는 Figure 1에 나와 있으며 여기에서 요약됩니다.

  • pre-training loss가 작아질수록(즉, pre-trained model이 좋아질수록) 모델의 SFT 및 ICL의 reasoning 성능은 일정 범위 내에서 선형적으로 증가합니다. SFT 성능은 ICL보다 느리게 향상됩니다.
  • SFT는 supervised data 양의 증가에 따라 로그-선형 방식으로 개선됩니다. pre-trained model이 좋아질수록 data 양 증가에 따른 이점은 줄어듭니다.
  • RFT의 모델 성능은 독특한 reasoning path 양이 증가함에 따라 향상됩니다. RFT 성능은 SFT보다 느리게 향상됩니다.
  • 여러 models의 rejection sampling samples를 결합하면 RFT 성능이 더욱 향상되어 LLaMA-7B의 경우 49.3(+13.4 SFT 대비), LLaMA2-7B의 경우 50.3(+8.7 SFT 대비), LLaMA-13B의 경우 52.1(+9.1 SFT 대비), LLaMA2-13B의 경우 55.4(+5.4 SFT 대비)의 정확도를 달성합니다.

 

 

기존 연구와 차별점 및 핵심 아이디어:

  • 대부분의 연구는 prompt engineering, ensembling, reranking 등 inference 단계에서의 개선에 집중했지만, 이 논문은 supervised learning 단계, 즉 한 번의 inference만 사용하는 (single-turn) setting에 집중합니다. 이는 실시간 배포(online deployment)를 고려할 때 연산 효율성 측면에서 중요합니다.
  • pre-training loss가 모델 크기나 pre-trained token 수보다 SFT 및 ICL 성능을 예측하는 더 좋은 지표임을 밝혀냈습니다. 즉, pre-training loss가 낮을수록(좋은 pre-trained model일수록) SFT 및 ICL의 reasoning 성능이 일정 범위 내에서 선형적으로 증가합니다.
  • Supervised data 양과 모델 성능 간의 로그-선형 관계를 실험적으로 규명했습니다. 즉, supervised data가 많을수록 성능이 향상되지만, pre-trained model이 좋을수록 그 효과는 감소합니다.
  • Rejection sampling Fine-Tuning (RFT)를 제안하여 모델 자체에서 생성한 올바른 reasoning paths를 활용하여 data augmentation을 수행합니다. RFT의 핵심은 '독특한 reasoning path'의 양을 늘리는 것이며, 이를 통해 LLM의 reasoning 일반화 능력을 향상시킵니다. 특히 성능이 낮은 LLM에서 RFT의 효과가 더 크게 나타납니다.
  • 여러 모델에서 생성한 rejection samples를 결합하여 RFT 성능을 더욱 향상시켰습니다. LLaMA-7B 모델 기준, SFT 대비 13.4%의 성능 향상을 달성했습니다(49.3% 정확도).

정리하면, 이 논문은 다음 세 가지 핵심 메시지를 전달합니다:

  1. Pre-training loss를 최소화하는 것이 강력한 LLM을 확보하는 근본적인 방법입니다.
  2. Supervised data를 늘리는 것은 여전히 유효하지만, pre-trained model이 좋을수록 그 효과는 줄어듭니다.
  3. RFT는 특히 성능이 낮은 LLM에서 data augmentation을 위한 효과적이고 효율적인 방법입니다.

이 논문은 LLM의 mathematical reasoning 능력 향상을 위한 실질적인 가이드라인을 제공하며, 특히 자원이 제한적인 상황에서 효율적인 학습 전략을 수립하는 데 도움이 될 것으로 기대됩니다.