논문리뷰

LLM : 논문리뷰 : Let’s Verify Step by Step

AI바라기 2024. 12. 23. 15:24

 

Let's Verify Step by Step

Purpose of the Paper

기존 large language models은 complex multi-step reasoning을 수행하는 데 있어 여전히 logical mistakes를 자주 범했습니다. 이러한 문제를 해결하기 위해 본 논문에서는 outcome supervisionprocess supervision을 비교하여 어떤 방식이 더 reliable models을 training 하는 데 효과적인지 연구했습니다. 특히, 기존 연구들이 주로 grade school math 수준의 비교적 단순한 문제들에 집중했던 반면, 본 논문에서는 challenging MATH dataset을 사용하여 더 복잡한 문제 해결 능력을 평가하고자 했습니다. 이를 통해, real-world applications에 적용 가능한 reliable reasoning capabilities를 갖춘 models를 개발하는 데 기여하고자 했습니다.

Key Contributions

  • Process supervisionoutcome supervision보다 훨씬 더 reliable reward models을 training 할 수 있음을 입증했습니다. Specifically, state-of-the-art PRMMATH test set의 representative subset에서 78.2%의 문제를 해결했습니다.
  • Large reward model이 smaller reward models에 대한 human supervision을 reliably approximate 할 수 있음을 보였고, 이를 통해 efficient large-scale data collection ablations를 수행할 수 있음을 확인했습니다.
  • Active learningprocess supervision의 data efficiency를 2.6배 향상 시킬 수 있음을 보였습니다.
  • PRM800K라는 800,000개의 step-level human feedback labels로 구성된 full process supervision dataset을 open-source로 공개하여 related research를 촉진했습니다.

Novelty

  • 기존 연구들이 outcome supervisionprocess supervision의 final performance가 유사하다고 보고한 반면, 본 연구는 process supervision이 significantly outperforms outcome supervision 한다는 것을 challenging MATH dataset을 통해 입증했습니다.
  • Active learningprocess supervision에 적용하여 data efficiency를 크게 향상시켰습니다.
  • Large-scale PRM을 사용하여 smaller models를 supervise 하는 synthetic supervision approach를 제안하여 human feedback collection costs를 절감했습니다.
  • Large-scale human feedback dataset인 PRM800K를 공개하여 관련 연구 발전에 기여했습니다.

Experimental Highlights

  • Large-scale experiments에서는 GPT-4base model로 사용하였고, small-scale experiments에서는 GPT-4보다 약 200배 적은 compute로 pretrained 된 models를 사용했습니다.
  • GeneratorMATH training problems에 대해 few-shot generate 된 solutions 중 correct final answer에 도달한 solutions로 finetune 하였습니다.
  • Process supervision data는 human data-labelers가 large-scale generator에서 sampled 된 step-by-step solutions의 각 step에 positive, negative, neutral labels를 부여하는 방식으로 수집했습니다.
  • Active learning을 위해 convincing wrong-answer solutions를 data-labelers에게 우선적으로 제공했습니다.
  • ORMsgenerator에서 uniformly sampled 된 solutions에 대해 correctness를 predict하도록 trained 되었습니다.
  • PRMs는 각 step의 correctness를 predict하도록 trained 되었습니다.
  • Out-of-distribution generalization을 평가하기 위해 recent AP Physics, AP Calculus, AP Chemistry, AMC10, AMC12 exams로 구성된 held-out set을 사용했습니다.

Limitations

  • Test set contamination의 가능성을 완전히 배제할 수 없습니다.
  • Iterative retraining을 통한 active learning의 효과를 명확하게 검증하지 못했습니다.
  • PRM의 성능이 MATH dataset에 국한되어 있을 수 있으며, 다른 domains로의 generalization 가능성을 추가로 검증해야 합니다.

Future Work

  • Iterative retraining을 통한 active learning의 효과를 더 깊이 있게 연구해야 합니다.
  • Process supervision의 generalization capabilities를 다른 domains에서도 검증해야 합니다.
  • PRM800K dataset을 활용한 후속 연구를 통해 reasoning capabilities를 갖춘 large language models 개발을 가속화해야 합니다.
  • Process supervisionAI alignment에 미치는 영향을 더 깊이 있게 연구해야 합니다.

 

 

 

 

 

Abstract

최근 몇 년 동안, large language models은 복잡한 다단계 reasoning을 수행하는 능력이 크게 향상되었습니다. 그러나 state-of-the-art models조차도 여전히 논리적 실수를 자주 범합니다. 더 신뢰할 수 있는 models을 train 하기 위해, 최종 결과에 대한 feedback을 제공하는 outcome supervision 또는 각 중간 reasoning 단계에 대한 feedback을 제공하는 process supervision을 사용할 수 있습니다. 신뢰할 수 있는 models을 training 하는 것의 중요성과 human feedback의 높은 비용을 고려할 때, 두 방법을 신중하게 비교하는 것이 중요합니다. 최근 연구에서 이미 이러한 비교를 시작했지만 여전히 많은 질문이 남아 있습니다. 우리는 자체 조사를 수행하여 까다로운 MATH dataset의 문제를 해결하기 위한 models을 training 하는데 process supervision이 outcome supervision보다 훨씬 더 우수하다는 것을 발견했습니다. 우리의 process-supervised model은 MATH 테스트 세트의 대표적인 하위 집합에서 78%의 문제를 해결합니다. 또한 active learning이 process supervision의 효율성을 크게 향상시킨다는 것을 보여줍니다. 관련 연구를 지원하기 위해 최고의 reward model을 training 하는 데 사용된 800,000개의 step-level human feedback labels의 전체 dataset인 PRM800K도 공개합니다.

 

 

1 Introduction

Large language models은 step-by-step chain-of-thought 형식으로 solution을 generation 함으로써 복잡한 multi-step reasoning이 필요한 작업을 해결할 수 있습니다. 그러나 state-of-the-art models조차도 거짓을 생성하는 경향이 있습니다. 즉, 불확실한 상황에서 사실을 만들어내는 경향을 보입니다. 이러한 hallucinations은 multi-step reasoning이 필요한 domain에서 특히 문제가 되는데, 이는 단 한 번의 논리적 오류만으로도 훨씬 더 큰 solution을 망가뜨릴 수 있기 때문입니다. hallucinations을 감지하고 완화하는 것은 reasoning 능력을 향상시키는 데 필수적입니다. 한 가지 효과적인 방법은 바람직한 output과 바람직하지 않은 output을 구별하도록 reward models을 training 하는 것입니다. 그런 다음 reward model은 reinforcement learning pipeline에서 사용되거나, rejection sampling을 통한 search를 수행하는 데 사용될 수 있습니다. 이러한 techniques은 유용하지만, 그 결과로 생성된 시스템은 reward model 자체만큼만 신뢰할 수 있습니다. 따라서 신뢰할 수 있는 reward models을 가장 효과적으로 training 하는 방법을 연구하는 것이 중요합니다.

밀접하게 관련된 연구에서, Uesato et al. (2022)은 reward models을 training 하기 위한 두 가지 뚜렷한 방법인 outcome supervision과 process supervision을 설명합니다. Outcome-supervised reward models (ORMs)은 model의 chain-of-thought의 최종 결과만을 사용하여 trained 되는 반면, process-supervised reward models (PRMs)은 chain-of-thought의 각 단계에 대한 feedback을 받습니다. process supervision을 선호해야 할 강력한 이유가 있습니다. process supervision은 발생하는 모든 오류의 정확한 위치를 특정하기 때문에 더 정밀한 feedback을 제공합니다. 또한 AI alignment와 관련된 몇 가지 이점이 있습니다. 인간이 해석하기 더 쉽고, 인간이 보증한 chain-of-thought를 따르는 models에 더 직접적으로 reward를 제공합니다. 논리적 reasoning의 domain 내에서 outcome supervision으로 trained 된 models은 정확한 최종 답에 도달하기 위해 부정확한 reasoning을 정기적으로 사용합니다. process supervision은 이러한 정렬되지 않은 행동을 완화하는 것으로 나타났습니다.

이러한 이점에도 불구하고, Uesato et al. (2022)은 초등 수학 domain에서 outcome supervision과 process supervision이 유사한 최종 성능으로 이어진다는 것을 발견했습니다. 우리는 outcome supervision과 process supervision에 대한 자체적인 상세한 비교를 수행하며, 여기에는 세 가지 주요 차이점이 있습니다. 우리는 더 유능한 base model을 사용하고, 훨씬 더 많은 human feedback을 사용하며, 더 어려운 MATH dataset에서 train 하고 test 합니다.

우리의 주요 기여는 다음과 같습니다.

  1. 우리는 process supervision이 outcome supervision보다 훨씬 더 신뢰할 수 있는 reward models을 training 할 수 있음을 보여줍니다. 우리는 state-of-the-art PRM을 사용하여 MATH 테스트 세트의 대표적인 하위 집합에서 78.2%의 문제를 해결합니다.
  2. 우리는 large reward model이 더 작은 reward models에 대한 human supervision을 신뢰할 수 있게 근사할 수 있으며, 대규모 data collection ablations을 효율적으로 수행하는 데 사용될 수 있음을 보여줍니다.
  3. 우리는 active learning이 process supervision의 data 효율성을 2.6배 향상시킨다는 것을 보여줍니다.
  4. 관련 연구를 촉진하기 위해 전체 process supervision dataset인 PRM800K를 공개합니다.

 

 

논문 핵심 정리 노트: Process vs. Outcome Supervision for Large Language Models

배경 및 문제 제기

  • Large Language Models (LLMs)은 chain-of-thought 방식을 통해 복잡한 추론 문제를 해결할 수 있지만, 여전히 "hallucination" (사실을 지어내는 현상) 문제가 존재함.
  • 특히, multi-step reasoning에서 단 한 번의 논리적 오류가 전체 solution을 망칠 수 있기 때문에, hallucination 문제는 매우 심각함.
  • 기존의 연구들은 outcome supervision과 process supervision을 비교했지만, 초등 수학 수준의 문제에 국한되어 있었고, 두 방식 간의 성능 차이가 크지 않았음.

본 논문의 차별점 및 핵심 기여

  1. 더욱 강력한 모델, 더 많은 데이터, 더 어려운 문제:
    • 기존 연구보다 더 유능한 base model 사용
    • 훨씬 더 많은 (800,000개) human feedback 데이터 (PRM800K) 사용
    • 더욱 도전적인 MATH dataset 사용
  2. Process Supervision의 압도적 우위 입증:
    • Process supervisionoutcome supervision보다 훨씬 더 신뢰할 수 있는 reward model을 학습할 수 있음을 최초로 보임.
    • State-of-the-art PRM은 MATH 테스트 세트의 대표 부분집합에서 **78.2%**의 문제 해결
  3. Active Learning의 효과:
    • Active learning이 process supervision의 데이터 효율성2.6배 향상시킴을 입증
  4. 대규모 데이터셋 공개:
    • 전체 process supervision dataset인 PRM800K를 공개하여 후속 연구를 지원

핵심 시사점

  • 정교한 reasoning을 요구하는 작업에서 process supervisionoutcome supervision보다 훨씬 효과적임.
  • Active learning을 통해 process supervision의 효율성을 극대화할 수 있음.
  • PRM800K dataset은 LLMs의 reasoning 능력 향상을 위한 연구에 valuable resource가 될 것임.

연구자를 위한 추가 참고 사항

  • 이 논문은 MATH dataset에 중점을 두었지만, 제안된 방법론은 다른 reasoning task에도 적용될 가능성이 높음.
  • PRM800K는 step-level feedback을 활용하는 다양한 연구(e.g., reward model 학습, error analysis)에 유용하게 사용될 수 있음.

 

 

 

 

2 Methods

Outcome supervision과 process supervision의 비교를 수행하며, Uesato et al. (2022)와 유사한 방법론을 따릅니다. Outcome supervision은 MATH dataset의 모든 문제에 자동으로 확인할 수 있는 답이 있기 때문에 인간 없이 제공될 수 있습니다. 반대로 process supervision을 자동화하는 간단한 방법은 없습니다. 따라서 우리는 process supervision을 제공하기 위해 human data-labelers에게 의존하며, 구체적으로는 model-generated solutions의 각 단계의 정확성에 labeling을 합니다.

우리는 large-scale과 small-scale의 두 가지 별도의 체제에서 실험을 수행합니다. 각각은 고유한 장점이 있으며 상호 보완적인 관점을 제공합니다. Large-scale에서는 모든 models을 GPT-4로부터 finetune 합니다. 우리는 가능한 가장 신뢰할 수 있는 ORM과 PRM을 training 하여 state-of-the-art를 발전시키는 데 중점을 둡니다. 불행히도 이러한 reward models에 대한 training sets는 섹션 3에서 논의할 이유로 직접 비교할 수 없습니다. 따라서 이러한 models은 outcome supervision과 process supervision을 정확히 비교하는 데 이상적이지 않습니다. 이 결함을 해결하기 위해 small-scale에서도 models을 training 하여 보다 직접적인 비교를 수행할 수 있습니다. human feedback에 대한 의존도를 제거하기 위해 large-scale model을 사용하여 small-scale model training을 supervise 합니다. 이 설정을 통해 다른 방법으로는 불가능한 몇 가지 중요한 ablations을 수행할 수 있습니다.

2.1 Scope

각 model scale에서 우리는 모든 solutions을 generation 하기 위해 고정된 단일 model을 사용합니다. 이 model을 generator라고 부릅니다. 우리는 generator를 reinforcement learning (RL)으로 개선하려고 시도하지 않습니다. outcome supervision과 process supervision에 대해 논의할 때, 우리는 reward model에 제공되는 supervision을 구체적으로 언급합니다. 우리는 RL로 trained 된 경우 generator가 reward model로부터 받을 수 있는 어떠한 supervision도 논의하지 않습니다. RL로 generator를 finetuning 하는 것이 자연스러운 다음 단계이지만 의도적으로 이 작업의 초점은 아닙니다.

대신 우리는 가능한 가장 신뢰할 수 있는 reward model을 training 하는 방법에만 집중합니다. 우리는 generator에서 균일하게 sampled 된 solutions에 대한 best-of-N search를 수행하는 능력으로 reward model을 평가합니다. 각 테스트 문제에 대해 reward model이 가장 높게 평가한 solution을 선택하고 최종 답을 기반으로 자동으로 등급을 매기고 정답 비율을 보고합니다. 더 신뢰할 수 있는 reward model은 더 자주 정답 solution을 선택합니다.

2.2 Base Models

모든 large-scale models은 base GPT-4 model에서 finetuned 됩니다. 이 model은 다음 토큰을 예측하기 위해서만 pretrain 되었으며, Reinforcement Learning from Human Feedback (RLHF)로는 pretrain 되지 않았습니다. small-scale base models은 GPT-4와 설계가 유사하지만 대략 200배 적은 compute로 pretrain 되었습니다. 추가적인 pretraining 단계로, 우리는 대략 1.5B의 수학 관련 토큰으로 구성된 dataset인 MathMix에서 모든 models을 finetune 합니다. Lewkowycz et al. (2022)과 유사하게, 우리는 이것이 model의 수학적 reasoning 능력을 향상시킨다는 것을 발견했습니다. 이 dataset이 어떻게 구성되었는지에 대한 자세한 내용은 부록 A에서 찾을 수 있습니다.

2.3 Generator

개별 단계를 더 쉽게 parsing 하기 위해, generator가 newline으로 구분된 step-by-step 형식으로 solutions을 생성하도록 training 합니다. 구체적으로, 우리는 MATH training 문제에 대한 solutions을 few-shot generate 하고, 정답에 도달하는 solutions으로 필터링하고, 이 dataset에서 단일 epoch 동안 base model을 finetune 합니다. 이 단계는 generator에게 새로운 skills을 가르치기 위한 것이 아니라, generator가 원하는 형식으로 solutions을 생성하도록 가르치기 위한 것입니다.

2.4 Data Collection

process supervision data를 수집하기 위해, 우리는 human data-labelers에게 large-scale generator에 의해 sampled 된 MATH 문제에 대한 step-by-step solutions을 제시합니다.

 

 

그들의 임무는 그림 1과 같이 solution의 각 단계에 positive, negative 또는 neutral label을 할당하는 것입니다. positive label은 단계가 정확하고 합리적임을 나타냅니다. negative label은 단계가 부정확하거나 불합리함을 나타냅니다. neutral label은 모호함을 나타냅니다. 실제로, 단계가 미묘하게 오해의 소지가 있거나 기술적으로 여전히 유효하지만 좋지 않은 제안인 경우 중립으로 labeling 될 수 있습니다. 우리는 중립 label을 허용하는데, 이는 모호성을 처리하는 방법에 대한 결정을 연기할 수 있기 때문입니다. 테스트 시 중립 label을 positive 또는 negative로 처리할 수 있습니다. labeling 지침에 대한 더 자세한 설명은 부록 D에 제공됩니다.

우리는 제한된 human-data 리소스의 가치를 극대화하기 위해 large-scale generator에서만 solutions을 labeling 합니다. 수집된 step-level labels의 전체 dataset을 PRM800K라고 합니다. PRM800K training 세트에는 12K 문제에 대한 75K solutions에 걸쳐 800K개의 step-level labels가 포함되어 있습니다. overfitting을 최소화하기 위해 PRM800K training 세트에 4.5K MATH 테스트 문제의 data를 포함하므로 나머지 500개의 MATH 테스트 문제에 대해서만 models을 평가합니다. 이 테스트 세트에 대한 자세한 내용은 부록 C에서 찾을 수 있습니다.

data collection 중에 data-labelers에게 어떤 solutions을 제공할지 결정해야 합니다. 가장 간단한 전략은 generator에서 생성된 solutions을 균일하게 제공하는 것입니다. 그러나 명백한 오류가 있는 solutions을 제공하면 우리가 얻는 human feedback의 가치가 떨어집니다. 우리는 최고의 reward model을 속일 가능성이 더 높은 solutions을 제공하는 것을 선호합니다. 이를 위해 data-labelers에게 보여줄 solutions을 전략적으로 선택하려고 시도합니다. 구체적으로, 우리는 convincing wrong-answer solutions을 제공하기로 선택합니다. convincing이라는 용어는 현재 최고의 PRM에 의해 높게 평가된 solutions을 지칭하는 데 사용하고, wrong-answer는 부정확한 최종 답에 도달하는 solutions을 지칭하는 데 사용합니다. 우리는 이 약간 장황한 표현을 사용하는데, 이는 정확성이 오직 최종 답을 확인하는 것에 의해서만 결정된다는 사실을 강조하기 위함이며, 이 과정은 가끔 잘못된 등급의 solutions으로 이어집니다. 우리는 convincing wrong-answer solutions을 labeling 함으로써 더 많은 정보를 얻을 것으로 예상하는데, 이는 PRM이 각 solution의 적어도 한 단계에서 실수한다는 것을 알고 있기 때문입니다.

이 선택 전략을 사용하는 것 외에도 data collection 과정의 여러 지점에서 최신 data를 사용하여 PRM을 반복적으로 re-train 합니다. 각 반복에서 문제당 N개의 solutions을 생성하고 data-labelers에게 가장 설득력 있는 상위 K개의 wrong-answer solutions만 제공합니다. 우리는 이 top-K 필터링을 문제 수준(문제당 K개의 solutions) 또는 dataset 전체(문제에 불균등하게 분포된 총 K개의 solutions)에 적용하는 실험을 합니다. data collection 과정이 비싸기 때문에 이러한 결정에 대한 at-scale ablations을 수행하는 것은 불가능했습니다. 그러나 섹션 4에서 더 작은 PRM에 대한 labeling oracle로 가장 큰 PRM을 사용하여 몇 가지 대리 ablations을 수행합니다. data collection에 대한 자세한 내용은 부록 B에서 찾을 수 있습니다.

2.5 Outcome-supervised Reward Models (ORMs)

우리는 Cobbe et al. (2021)과 유사한 방법론을 따라 ORM을 training 합니다. 우리는 generator에서 문제당 고정된 수의 solutions을 균일하게 sampling 하고, ORM이 각 solution이 정확한지 또는 부정확한지 예측하도록 training 합니다. 실제로 우리는 일반적으로 최종 답을 자동으로 확인하여 정확성을 결정하지만 원칙적으로 이러한 labels는 인간이 제공할 수 있습니다. 테스트 시에 solution에 대한 전체 점수로 마지막 토큰에서 ORM의 예측을 사용합니다. ORM targets을 결정하는 데 사용되는 자동 채점은 완벽하게 신뢰할 수 있는 것은 아닙니다. 부정확한 reasoning으로 정답에 도달하는 false positives solutions은 잘못 채점될 것입니다. 추가적인 ORM training 세부 사항은 부록 E에서 논의합니다.

2.6 Process-supervised Reward Models (PRMs)

우리는 각 단계의 마지막 토큰 뒤에 각 단계의 정확성을 예측하도록 PRM을 training 합니다. 이 예측은 단일 토큰의 형태를 취하며, training 중에 이러한 target tokens의 log-likelihood를 최대화합니다. 따라서 PRM은 특별한 조정 없이 표준 language model pipeline에서 trained 될 수 있습니다. 테스트 시에 step-level 예측을 결정하려면 전체 solution에 대해 단일 PRM forward pass를 수행하는 것으로 충분합니다. 그림 2에서 두 가지 다른 solutions에 대한 large-scale PRM scores를 시각화합니다. 여러 solutions을 비교하려면 각 solution에 대한 단일 점수를 계산해야 합니다. 이것은 중요하지만 간단한 세부 사항입니다. 우리는 solution에 대한 PRM score를 PRM에서 모든 단계가 정확할 확률로 정의합니다. 우리는 이것을 각 단계의 정확성 확률의 곱으로 구현합니다. 다른 가능한 채점 전략과 추가적인 PRM training 세부 사항은 부록 F에서 설명합니다.

process supervision을 제공할 때 우리는 의도적으로 첫 번째 부정확한 단계까지만 supervise 합니다. 이렇게 하면 outcome supervision과 process supervision의 비교가 더 명확해집니다. 정확한 solutions의 경우 두 방법 모두 모든 단계가 정확하다는 동일한 정보를 제공합니다. 부정확한 solutions의 경우 두 방법 모두 적어도 하나의 실수가 있음을 드러내고, process supervision은 추가로 그 실수의 정확한 위치를 드러냅니다. 첫 번째 실수 이후에 추가적인 process supervision을 제공한다면 process supervision은 더 큰 정보 이점을 가질 것입니다. 이 결정은 또한 인간의 labeling 비용을 유사하게 유지합니다. 확인하기 쉬운 최종 답에 의존하지 않고 solution의 정확성을 결정하는 것은 첫 번째 실수를 식별하는 것과 같습니다. 대부분의 MATH 문제는 확인하기 쉬운 최종 답을 가지고 있지만, 우리는 이것이 더 복잡한 domain에서는 사실이 아닐 것으로 예상합니다.

 

 

 

 

논문 핵심 정리 노트: Methods - Outcome vs. Process Supervision

실험 설계: Large-scale & Small-scale

  • Large-scale:
    • GPT-4를 finetuning하여 최대한 신뢰할 수 있는 ORM과 PRM을 학습시키는 것이 목표
    • State-of-the-art 성능 달성에 초점
    • ORM과 PRM 학습 데이터셋 비교 불가 문제 존재 (3절에서 상세히 다룸)
  • Small-scale:
    • Large-scale 실험의 한계(데이터셋 비교 불가)를 보완하기 위해 수행
    • Large-scale model을 사용하여 small-scale model 학습을 supervise (human feedback 의존도 제거)
    • Direct comparison 및 ablation study 가능

핵심 방법론: Process Supervision을 위한 정교한 전략

  1. Scope:
    • Generator는 고정, Reinforcement Learning 미사용. Reward model 학습에만 집중
    • Reward model 평가는 best-of-N search 능력으로 진행 (generator가 생성한 N개 solution 중 reward model이 가장 높게 평가한 solution의 정확도 측정)
  2. Base Models:
    • Large-scale: GPT-4 (No RLHF)
    • Small-scale: GPT-4와 유사하지만 200배 적은 compute로 pre-trained
    • 모든 모델은 1.5B의 수학 관련 토큰(MathMix)으로 추가 pre-training (수학적 reasoning 능력 향상 목적)
  3. Generator:
    • Newline으로 구분된 step-by-step solution 생성을 위해 few-shot generation 후 정답 solution으로 finetuning (형식 학습 목적, 능력 향상 목적 아님)
  4. Data Collection (PRM800K):
    • Human labeler는 large-scale generator가 생성한 solution의 각 step을 positive, negative, neutral로 labeling (Figure 1)
    • Labeling 효율성 및 가치 극대화를 위한 전략:
      • Large-scale generator에서만 sampling
      • Convincing wrong-answer solutions (현재 PRM이 높게 평가하지만 오답인 solution)에 집중
      • Data collection 과정에서 PRM을 iterative하게 re-training
      • 문제/dataset level에서 top-K filtering 적용
  5. ORM:
    • Cobbe et al. (2021)과 유사한 방법론 사용.
    • Solution의 정/오답 예측 학습 (최종 토큰의 예측값을 solution score로 사용)
    • 자동 채점 사용 (오답 추론으로 정답을 맞히는 false positive 문제 존재)
  6. PRM:
    • 각 step 마지막 토큰 뒤에 step의 정확성(correctness) 예측
    • Solution score는 모든 step이 정확할 확률 (각 step 정확성 확률의 곱)
    • 첫 번째 부정확한 step까지만 supervise (outcome vs. process 비교 명확화 및 labeling 비용 형평성 고려)

핵심 차별점 및 시사점

  • Human feedback의 효율적 활용: Convincing wrong-answer solutions에 집중하고, iterative re-training, top-K filtering을 적용하여 labeling 효율 극대화
  • Large-scale model을 활용한 small-scale model 학습: Human feedback 의존도를 줄이고, direct comparison 및 ablation study를 가능하게 함
  • 첫 번째 부정확한 step까지만 supervise: Outcome supervision과의 비교를 명확하게 하고, labeling 비용을 공평하게 유지하면서도 process supervision의 장점을 유지

연구자를 위한 추가 참고 사항

  • PRM800K dataset의 구체적인 구성, labeling 지침, top-K filtering 전략, ORM/PRM 학습 세부 사항은 부록 A-F에 상세히 기술되어 있음
  • 이 논문에서 제안하는 data collection 및 training 전략은 다른 domain에도 적용 가능할 것으로 예상됨