AI바라기의 인공지능
LLM : 논문리뷰 : Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking 본문
LLM : 논문리뷰 : Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
AI바라기 2025. 1. 26. 19:54Quiet-STaR 논문 정리 노트
Purpose of the Paper:
기존 연구들은 reasoning을 question-answering이나 agentic tasks를 해결하는 방법으로 주로 간주했습니다. 하지만 이 논문에서는 reasoning이 모든 written text에 내재되어 있다는 점에 주목합니다. 예를 들어, 수학 증명 과정의 숨겨진 단계나 대화의 theory of mind처럼 명시되지 않은 reasoning이 텍스트의 의미를 깊이 있게 이해하는 데 필수적입니다. 기존 Self-Taught Reasoner (STaR) 방법은 question-answering task에 특화되어 curated datasets에 의존하는 제한적인 환경에서 reasoning을 학습했습니다. Quiet-STaR 논문의 핵심 목적은 이러한 한계를 극복하고, language model이 arbitrary text에서 unstated rationales를 스스로 추론하고 학습하여, 보다 general하고 scalable한 방식으로 reasoning 능력을 키울 수 있도록 하는 것입니다. 즉, 특정 task에 국한되지 않고, language modeling 자체를 통해 reasoning을 학습하는 새로운 framework를 제시하는 것을 목표로 합니다.
Key Contributions:
- Generalization of STaR to Unstructured Text Data: curated reasoning tasks나 predefined task sets가 아닌, 다양한 unstructured text data로부터 reasoning을 학습하는 일반화된 STaR, 즉 Quiet-STaR을 제시했습니다. 이는 reasoning 학습의 범위를 획기적으로 확장한 첫 번째 시도입니다.
- Parallel Sampling Algorithm: training procedure의 scalability를 높이기 위해 parallel sampling algorithm을 제안하고 구현했습니다. 이는 주어진 string 내 모든 token positions에서 동시에 rationales를 생성하는 효율적인 방법입니다.
- Meta-tokens for Thought Indication: custom meta-tokens <start_thought>와 <end_thought>를 도입하여 language model이 rationale 생성을 시작하고 종료해야 하는 시점을 명확히 학습하도록 했습니다. 이는 thought generation process를 제어하는 중요한 요소입니다.
- Mixing Head for Prediction Integration: mixing head를 도입하여 generated thought로부터 얻은 next-token prediction을 base language model의 prediction과 적절한 비율로 혼합하는 방법을 제시했습니다. 이는 thought의 영향을 점진적으로 통합하고 distribution shift 문제를 완화하는 데 기여합니다.
- Non-myopic Loss: language modeling 시 multiple tokens ahead를 고려하는 non-myopic loss를 적용하여 thinking의 효과를 증대시켰습니다. 이는 future text prediction 성능을 향상시키는 데 중요한 역할을 합니다.
- Empirical Validation on Downstream Tasks: Quiet-STaR 학습을 통해 GSM8K (5.9%→10.9%)와 CommonsenseQA (36.3%→47.2%)에서 zero-shot performance 향상을 입증했습니다. 특히, fine-tuning 없이 이러한 개선을 달성했다는 점이 중요하며, internal thoughts의 token 수를 늘릴수록 성능이 향상되는 것을 확인했습니다.
Novelty:
Quiet-STaR의 novelty는 다음과 같이 요약할 수 있습니다:
- Task-Agnostic Reasoning Learning: 기존 reasoning 학습 방법들이 특정 task나 curated datasets에 의존했던 반면, Quiet-STaR은 language modeling task 자체를 활용하여 general reasoning ability를 학습하는 novel approach를 제시합니다.
- Implicit Reasoning in All Text: reasoning이 모든 text에 implicit하게 존재한다는 아이디어를 바탕으로, curated datasets 없이도 unstructured text data로부터 reasoning을 학습할 수 있다는 점을 실증적으로 보였습니다.
- Parallel Thought Generation: efficient parallel sampling algorithm을 통해 reasoning 학습의 scalability를 크게 향상시켰습니다.
- Meta-tokens and Mixing Head: meta-tokens와 mixing head를 도입하여 thought generation process를 제어하고 prediction integration을 효과적으로 수행하는 novel techniques를 개발했습니다.
Experimental Highlights:
- Zero-shot Performance Improvement: Quiet-STaR pretraining 후 fine-tuning 없이 GSM8K와 CommonsenseQA에서 significant zero-shot performance improvement를 달성했습니다. 특히 CommonsenseQA에서 10.9%p, GSM8K에서 5%p 이상의 성능 향상을 보였습니다.
- Scalability with Thought Tokens: rationales에 사용되는 token 수를 늘릴수록 downstream task 성능이 지속적으로 향상되는 경향을 보였습니다. 이는 더 thorough reasoning이 더 나은 성능으로 이어진다는 것을 시사합니다.
- Perplexity Improvement on Difficult Tokens: natural text에서 difficult-to-predict tokens에 대한 perplexity improvement를 관찰했습니다. 이는 Quiet-STaR이 특히 어려운 token prediction에 효과적임을 보여줍니다.
- Comparison with Pause Tokens: pause tokens (Goyal et al., 2023)를 사용한 fine-tuning과 비교했을 때, Quiet-STaR이 downstream task에서 더 큰 성능 향상을 보였습니다. 이는 multi-token rationales가 single-token "pauses"보다 더 효과적인 reasoning 학습 방법임을 암시합니다.
Limitations:
- Computational Overhead: Quiet-STaR은 rationale generation으로 인해 substantial overhead가 발생합니다. 매 token마다 rationales를 생성해야 하므로 compute adjusted performance 측면에서 효율성이 떨어질 수 있습니다. (Appendix C 참조)
- Static Rationale Generation: 현재 implementation에서는 rationale generation 시점이나 종료 시점을 dynamically predicting하는 것을 지원하지 않습니다. 즉, 모든 token에 대해 고정된 방식으로 rationales를 생성합니다.
- Instability Handling: thought generation의 utility가 thought 자체에 의해 학습되는 mapping에 의존하기 때문에 instability 문제가 발생할 potential이 있습니다. mixing head를 통해 완화하려 했지만, 여전히 exploration-exploitation trade-off 문제가 존재합니다. (Appendix I 참조)
- Human Interpretability of Thoughts: Quiet-STaR은 thoughts의 human interpretability를 explicit하게 regularization하지 않지만, 생성된 thoughts는 language model과 동일한 transformer에서 생성되므로 partially understandable할 가능성이 있습니다. (Appendix E 참조)
Future Work:
- Ensemble of Thoughts: generated thoughts를 ensemble하여 future token prediction 성능을 더욱 향상시키는 연구를 진행할 수 있습니다.
- Dynamic Compute Allocation: language model이 thought가 useful할 시점을 예측하여 mixing head를 prediction 전에 배치하고, predicted mixing weight를 활용하여 generation 중 compute를 dynamically allocate하는 방법을 연구할 수 있습니다.
- Dynamic Rationale Generation: mixing head prediction을 활용하여 필요 없는 thoughts 생성을 방지하는 threshold를 적용하고, rationale generation 시작 및 종료 시점을 dynamically 예측하는 방향으로 확장할 수 있습니다.
- Scratch Training: Quiet-STaR techniques가 model을 scratch부터 training할 때도 효과적인지 연구하고, 더 나은 model에 적용하여 disproportionately better results를 얻을 수 있는지 확인해야 합니다.
Overall Conclusion:
Quiet-STaR은 language model이 general하고 scalable한 방식으로 reasoning을 학습할 수 있는 중요한 step을 제시합니다. 다양한 web text data를 활용하여 reasoning 능력을 향상시키고 downstream task에서 zero-shot performance improvement를 입증함으로써, task-agnostic reasoning learning의 가능성을 보여주었습니다. 향후 연구를 통해 computational efficiency 및 dynamic rationale generation 등의 limitations을 극복하고, human-like reasoning capability에 더욱 가까워질 수 있을 것으로 기대됩니다.
Abstract
사람들은 글을 쓰거나 말할 때, 생각하기 위해 때때로 멈춥니다. reasoning에 초점을 맞춘 연구들은 종종 reasoning을 질문에 답하거나 agentic tasks를 완료하는 방법으로 구성했지만, reasoning은 거의 모든 쓰여진 텍스트에 내재되어 있습니다. 예를 들어, 이것은 증명의 행간에 명시되지 않은 단계나 대화의 기반이 되는 theory of mind에 적용됩니다. Self-Taught Reasoner (STaR, Zelikman et al. 2022)에서, 유용한 사고는 question-answering에서 few-shot 예시로부터 rationale을 추론하고, 정답으로 이어지는 것들로부터 학습함으로써 학습됩니다. 이것은 매우 제약적인 설정입니다. 이상적으로는, language model이 임의의 텍스트에서 명시되지 않은 rationale을 추론하는 것을 대신 학습할 수 있을 것입니다. 우리는 LM이 미래의 텍스트를 설명하기 위해 각 token에서 rationale을 생성하는 것을 학습하여 예측을 향상시키는 STaR의 일반화인 Quiet-STaR을 제시합니다. 우리는 1) continuation 생성의 computational cost, 2) LM이 초기에 내부 생각을 생성하거나 사용하는 방법을 알지 못한다는 사실, 그리고 3) 개별 next token을 넘어서 예측해야 할 필요성을 포함한 주요 과제들을 해결합니다. 이를 해결하기 위해, 우리는 thought의 시작과 끝을 나타내는 학습 가능한 token과 확장된 teacher-forcing 기술을 사용하여 tokenwise parallel sampling algorithm을 제안합니다. 고무적으로, 생성된 rationale은 예측하기 어려운 token model에 불균형적으로 도움이 되며, 어려운 질문에 직접적으로 답하는 LM의 능력을 향상시킵니다. 특히, 인터넷 텍스트 corpus에서 Quiet-STaR로 LM의 continued pretraining 후에, 우리는 GSM8K (5.9%→10.9%) 및 CommonsenseQA (36.3%→47.2%)에서 zero-shot 개선을 발견하고 자연어 텍스트에서 어려운 token의 perplexity 개선을 관찰합니다. 결정적으로, 이러한 개선은 이러한 task에 대한 fine-tuning을 필요로 하지 않습니다. Quiet-STaR은 보다 일반적이고 scalable한 방식으로 reasoning을 학습할 수 있는 LM을 향한 발걸음을 나타냅니다.
1 Introduction
텍스트 의미의 많은 부분은 행간에 숨겨져 있습니다: 문서에 문장이 나타나는 이유를 이해하지 못하면, 독자는 피상적인 이해만 하게 됩니다. 더욱이, 이것은 commonsense reasoning부터 theorem proving, programming에 이르는 tasks의 맥락에서 LMs에게도 마찬가지임이 반복적으로 입증되었습니다. 텍스트의 함축적 의미에 대한 reasoning은 이후 텍스트를 예측하는 데 LM 성능을 향상시키는 것으로 지속적으로 입증되었지만, LMs이 그들의 reasoning으로부터 학습하도록 허용하는 방법(예: Zelikman et al. 2022)은 개별 tasks 또는 미리 정의된 tasks 집합(예: Wei et al. 2021b)을 해결하는 데 초점을 맞추었습니다. 이러한 연구들은 특정 reasoning tasks 또는 경우에 따라 reasoning 자체를 제공하기 위해 신중하게 선별된 datasets에 의존합니다. 대신에 우리는 reasoning이 모든 텍스트에 내재되어 있다면, 왜 language modeling task를 활용하여 reasoning을 가르치지 않아야 할까요?
특히, Self-Taught Reasoner (STaR, Zelikman et al. 2022)는 LMs이 question-answering (QA) datasets에서 질문에 답하기 위해 rationale을 sampling하고, 올바른 final answer로 이어진 rationale에 대해 training하고, 더 어려운 문제를 반복적으로 해결하기 위해 이를 반복함으로써 reasoning 능력을 bootstrap할 수 있음을 보여주었습니다. 그러나 선별된 QA datasets로부터의 training은 rationale의 scale과 generalizability를 제한합니다. QA datasets, 특히 high-quality datasets은 사려 깊은 curation이 필요하며, 본질적으로 reasoning tasks의 하위 집합만을 다룰 수 있습니다. 따라서 우리는 STaR을 확장합니다. 즉, LM이 수학 QA와 같은 특정 tasks에서 reasoning하는 것을 학습하는 대신, LM이 대규모 인터넷 텍스트 corpus에서 future text를 추론하는 데 도움이 되는 reasoning을 생성하도록 training합니다. 결과적으로 우리는 LM이 language에 존재하는 다양한 tasks로부터 학습하도록 허용합니다 (Weber et al., 2021). 이것은 현재 language modeling paradigm에 필수적인 직관, 즉 "language models are unsupervised multitask learners" (Radford et al., 2019)를 기반으로 합니다. 따라서 STaR에서와 같이, 우리는 LM의 기존 reasoning 능력을 활용하여 rationale을 생성하고 REINFORCE 기반 reward (Williams, 1992)로 LM을 training합니다. 우리는 이 기술을 Quiet-STaR이라고 부릅니다. 이는 모델이 말하기 전에 생각하도록 training하는 "조용히" STaR을 적용하는 것으로 이해될 수 있기 때문입니다.
광범위하게, Quiet-STaR은 future text를 설명하기 위해 모든 token 후에 rationale을 생성(think), rationale의 유무에 따른 future-text 예측을 혼합(talk), 그런 다음 REINFORCE를 사용하여 더 나은 rationale을 생성하도록 학습(learn)하는 방식으로 진행됩니다. 우리는 web text datasets인 OpenWebMath (Paster et al., 2023) 및 Colossal Clean Crawled Corpus (C4, Raffel et al. 2020)를 사용하여 Mistral 7B (Jiang et al., 2023)에 Quiet-STaR을 적용합니다. 우리는 dataset-specific fine-tuning 없이도 Quiet-STaR이 CommonsenseQA (36.3%→47.2%) 및 GSM8K (5.9%→10.9%)에서 zero-shot direct-reasoning 능력이 향상되고, 이러한 개선이 LM의 internal thoughts에 사용된 token 수에 따라 지속적으로 증가한다는 것을 발견했습니다. 마지막으로, 우리는 생성된 rationale의 패턴을 질적으로 조사합니다.
이 task를 해결하면서, 우리는 다음과 같은 기여를 합니다:
- 우리는 STaR을 일반화하여 다양한 unstructured text data로부터 reasoning을 학습합니다. 우리가 알기로는, 이것은 curation된 reasoning tasks 또는 reasoning tasks 모음이 아닌, 텍스트로부터 일반적으로 reasoning하도록 LMs을 명시적으로 training하는 최초의 연구입니다.
- 우리는 주어진 문자열의 모든 token 위치에서 rationale을 생성하여 우리의 training 절차를 scalable하게 만드는 parallel sampling algorithm을 제안하고 구현합니다.
- 우리는 LM이 rationale을 생성해야 하는 시점과 해당 rationale을 기반으로 prediction을 해야 하는 시점을 학습하도록 허용하기 위해 각 thought의 시작과 끝에 custom meta-tokens를 도입합니다.
- 우리는 mixing head를 적용하여 주어진 thought로부터의 next-token prediction을 현재 next-token prediction에 얼마나 통합할지 소급하여 결정합니다.
- 우리는 language modeling을 위해 여러 token 앞을 포함하는 non-myopic loss가 thinking의 효과를 향상시킨다는 것을 보여줍니다.
- 여러 tasks에서, 우리는 thinking이 LM이 동일한 web text에서 training된 모델보다 어려운 tokens를 더 잘 예측할 수 있게 하며, 더 긴 thoughts로 개선된다는 것을 입증합니다.
Figure 1: Quiet-STaR. 우리는 알고리즘이 training 동안 단일 thought에 적용되는 것을 시각화합니다. 우리는 텍스트의 모든 tokens를 따라 (think) thoughts를 parallel로 생성합니다. 모델은 thought의 유무에 따른 next-token predictions의 mixture를 생성합니다 (talk). 우리는 STaR에서와 같이, 모델이 future text를 예측하는 데 도움이 되는 thoughts의 likelihood를 높이고 future text를 덜 likely하게 만드는 thoughts를 버리기 위해 REINFORCE를 적용합니다 (learn).
Figure 2: Generalization Results. 우리는 Quiet-STaR로 trained된 모델이 reasoning이 필요한 문제를 직접적으로 answering하는 데 얼마나 generalize되는지 평가합니다. 왼쪽 plot (a)는 fine-tuning 없이 GSM8K에 대한 zero-shot accuracy를 보여주고, 오른쪽 plot (b)는 CommonsenseQA에 대한 zero-shot accuracy를 보여줍니다. 두 plot 모두에서, x-axis는 training steps를 나타내고, 각 line은 Quiet-STaR training 동안 사용된 thinking tokens의 다른 수를 나타냅니다. y-axis는 각각의 datasets에 대한 zero-shot direct accuracy를 측정합니다. 우리는 또한 Figure 6에 이 plot의 inference normalized version을 포함합니다.
정리 노트: Quiet-STaR - 모든 텍스트로부터 Reasoning 학습하기
핵심 문제: 기존 Language Model (LM)들은 텍스트의 행간에 숨겨진 reasoning 능력이 부족하며, 이는 깊이 있는 이해를 저해합니다. Reasoning 능력 향상 연구들은 특정 task나 curation된 dataset에 의존하여 generalizability와 scalability에 한계가 있습니다.
Quiet-STaR의 핵심 아이디어: Reasoning 학습 방식을 task-specific dataset에서 일반적인 Language Modeling 목표로 전환합니다. 즉, LM이 QA dataset 뿐 아니라 모든 텍스트를 language modeling 하면서 reasoning을 학습하도록 합니다. 대규모 인터넷 텍스트 corpus를 통해 future text 예측 능력을 향상시키는 reasoning 생성을 목표로 합니다.
Quiet-STaR 접근 방식:
- Self-Taught Reasoning의 일반화: STaR 방식을 확장하여 QA task 대신 일반 텍스트에서 reasoning을 학습합니다.
- "Think before Speak": LM이 각 token마다 future text를 설명하는 rationale (thought)을 생성하도록 유도합니다.
- 학습 과정:
- Think: 텍스트의 각 token 이후에 parallel하게 rationale 생성.
- Talk: rationale을 활용한 예측과 그렇지 않은 예측을 혼합하여 next token 예측.
- Learn: REINFORCE 기반 reward를 사용하여 future text 예측에 도움이 되는 rationale 생성을 강화 (좋은 thought는 유지, 그렇지 않은 thought는 버림).
- 기술적 요소:
- Parallel Sampling: 모든 token 위치에서 rationale을 생성하여 학습 효율성 및 scalability 확보.
- Meta-tokens: Thought의 시작과 끝을 명시하는 custom token 도입하여 모델이 rationale 생성 시점과 예측 시점을 명확히 학습하도록 유도.
- Mixing Head: Thought를 활용한 예측을 현재 예측에 얼마나 반영할지 동적으로 결정.
- Non-myopic Loss: language modeling loss 계산 시, 여러 token 앞을 고려하여 thinking 효과 증대.
주요 결과:
- Zero-shot Generalization: 별도의 fine-tuning 없이 CommonsenseQA, GSM8K 등 reasoning 능력을 요구하는 task에서 성능 향상 (각각 36.3%→47.2%, 5.9%→10.9%).
- Thought 길이 효과: Thought 길이가 길어질수록 성능 향상.
- 어려운 Token 예측 개선: Quiet-STaR은 특히 예측하기 어려운 token에 대한 예측 성능을 크게 향상시킴.
핵심 기여 (논문 강조점 기반):
- 일반 텍스트 Reasoning 학습: curation된 task dataset이 아닌 일반 텍스트로부터 reasoning을 학습하는 최초의 연구.
- Scalable Parallel Sampling: 효율적인 학습을 위한 parallel rationale 생성 알고리즘 제시.
- Thought Meta-tokens: 명시적인 thought 경계를 위한 meta-token 도입.
- Mixing Head: thought 정보 반영 비율을 조절하는 mixing head 메커니즘.
- Non-myopic Loss: thinking 효과를 극대화하는 non-myopic loss 활용.
- Thinking의 효과 입증: thinking이 어려운 token 예측 능력 향상 및 성능 개선에 기여함을 실증적으로 증명.
연구 의의: Quiet-STaR은 LM이 더욱 general하고 scalable한 방식으로 reasoning 능력을 학습할 수 있는 방향을 제시하며, task-specific fine-tuning 없이도 zero-shot reasoning 능력을 향상시키는 가능성을 보여줍니다. 이는 앞으로 더욱 발전된 reasoning 능력을 갖춘 LM 개발에 중요한 발걸음이 될 수 있습니다.
2 Related Work
2.1 Reasoning in Language Models
language model을 training하고 활용하여 어려운 tasks를 해결하기 위해, 먼저 reasoning을 거치도록 training하는 연구들이 많았습니다. 예를 들어, Rajani et al. (2019)은 multiple-choice commonsense reasoning 질문에 답하기 전에 인간의 reasoning 과정을 output하도록 fine-tuning된 pre-trained language model이 정답에 대해 직접 training된 모델보다 성능이 뛰어나다는 것을 입증했습니다. Shwartz et al. (2020)은 language model이 약간의 scaffolding이 제공될 때, 추가적인 supervision 없이 도움이 되는 chain-of-thought 솔루션을 생성할 수 있음을 입증했습니다. 이후, Nye et al. (2021)은 language model의 능력이 더 뛰어날 때 "scratchpads"가 scaffolding을 덜 필요로 한다는 것을 입증했으며, 이는 Wei et al. (2022b)에 의해 informal tasks를 강조하며 강화되었고, Kojima et al. (2022)에 의해 더욱 강화되어, 이러한 행동이 zero-shot으로 달성될 수 있음을 입증했습니다. 가장 최근에는 Wang & Zhou (2024)가 commonsense-question answering에서 language model이 confident하지 않으면 valid answer tokens를 내보내는 것을 막음으로써 chain-of-thought reasoning을 활용하도록 강제할 수 있음을 보여주었습니다. 그러나 다시 한번, 이러한 접근 방식은 question-answer dataset에서만 작동하며, Wang & Zhou (2024)는 모델이 answer tokens를 output한 시점을 식별하기 위해 heuristics에 의존합니다. TRICE (Phan et al., 2023)와 다소 유사하게, 우리는 rationale에 걸쳐 target text의 log-likelihood의 상대적 개선을 quality의 추정치로 사용하지만, 단순히 평균 reward를 빼고 더 복잡한 control variates를 통합하지는 않습니다.
2.2 Training Language Models to Reason
reasoning하거나 reasoning을 개선하기 위해 language model을 training하기 위해 연구자들이 사용한 한 가지 방향은 mined reasoning traces 또는 reasoning과 유사한 data에 대해 language model을 training하는 것입니다 (Rajani et al., 2019; Wei et al., 2021a; Lewkowycz et al., 2022; Chung et al., 2022; Gunasekar et al., 2023). 이 접근 방식이 효과적인 것으로 입증되었지만, 단점도 있습니다. 수동 annotation이 필요하며, 이는 annotator의 능력에 민감하고 language model에 대해 off-policy입니다 (즉, reasoning의 distribution은 language model이 그렇지 않으면 생성했을 가능성이 있는 text가 아닙니다). 또한 이 접근 방식은 expensive하고, scale하기 어렵고, annotator가 해결할 수 있는 것보다 더 어려운 문제를 해결할 수 있는 명확한 경로를 제공하지 않습니다.
reasoning을 가르치는 또 다른 방향은 language model 자체에서 생성된 reasoning에 의존하며, 이는 self-play에 대한 광범위한 문헌을 기반으로 구축된 것으로 볼 수 있습니다 (Silver et al., 2017; Anthony et al., 2017; Polu & Sutskever, 2020). 여기에는 Self-Taught Reasoner (Zelikman et al., 2022)와 같은 방법이 포함되며, 이는 정답으로 이어진 reasoning에 대해 반복적으로 training된 language model이 점점 더 어려운 문제를 해결할 수 있음을 입증했습니다. 이후 연구는 추가 정보 또는 가정을 활용하는 것을 목표로 했으며, 예를 들어 Huang et al. (2022)은 majority-vote answer가 correct하다고 가정하면 STaR에서 제안된 algorithm이 여전히 작동할 수 있음을 입증했습니다 (비록 ultimate performance는 낮지만). 추가 연구는 Zelikman et al. (2022)의 결과를 일반화했으며, 예를 들어 Uesato et al. (2022)은 incorrect reasoning traces가 filtering된 "process-based" supervision에 추가적인 유용성을 입증했으며, 최근에는 VSTaR (Hosseini et al., 2024)은 generation을 guide하기 위해 verifier를 training하는 것이 performance를 향상시킨다는 것을 입증하고, TRICE (Hoffman et al., 2024)는 문제당 여러 reasoning traces가 주어졌을 때 correct answer의 marginal likelihood를 maximize합니다. 마지막으로, 관련 연구는 model의 intermediate reasoning의 statements가 valid mathematical statements로만 제한될 수 있는 mathematical statements를 만드는 constrained setting에서 intermediate reasoning 학습을 탐구했습니다 (Poesia et al., 2023). Appendix F에서 관련 reasoning 연구에 대한 추가 논의를 포함합니다.
2.3 Meta-tokens
최근에는 neural network의 맥락에서 특정 기능을 수행하도록 optimized된 custom tokens의 유용성을 입증하는 연구가 증가하고 있습니다. 이러한 이유로 "function vectors"라고도 불립니다 (Todd et al., 2023). 이것의 original instantiation 중 하나는 prompt-tuning (Lester et al., 2021) (및 관련 prefix-tuning (Li & Liang, 2021))이었으며, prompt의 tokens에 해당하는 embeddings를 task를 더 잘 수행하도록 optimize할 수 있었습니다. 다른 연구자들은 efficiency를 위해 long prompts를 compress하기 위해 meta-tokens를 적용했습니다 (Li et al., 2023; Jung & Kim, 2023). 이 연구와 가장 관련성이 높은 Mu et al. (2024)은 tokens 이후의 tokens가 tokens 이전의 tokens (즉, context compression token)에 attend할 수 없을 때, future tokens에 충분한 정보를 제공하도록 token을 optimized했습니다. 우리는 compression에 초점을 맞추지는 않지만, attention에 영향을 미치고 complex downstream behavior를 control하는 token을 학습하는 문제를 공유합니다. 한 관련 연구에서 Goyal et al. (2023)은 단일 "pause" token (본질적으로 각 token을 두 개의 tokens로 representation)을 학습하는 것이 LM performance를 향상시킨다는 것을 보여줍니다. 그러나 우리 연구의 thought tokens와 달리, 이 pause token은 thought를 initialize하지 않습니다. 대신, thought 전체로 acting하는 것으로 볼 수 있습니다. 우리는 language에서의 reasoning이 훨씬 더 도움이 된다는 것을 발견했습니다.
정리 노트: Related Work - Quiet-STaR 논문 맥락 이해
Related Work 섹션의 목표: Quiet-STaR 논문의 차별성을 부각하고, 기존 연구의 한계를 극복하는 새로운 접근 방식임을 강조.
핵심 내용 요약:
- Reasoning in Language Models:
- 기존 연구: Chain-of-Thought (CoT) 등 reasoning 과정을 활용하여 LM의 성능 향상 (특히 QA task). Pre-trained LM에 reasoning 과정을 fine-tuning하거나, scaffolding을 제공하여 CoT 유도. Zero-shot CoT 등장.
- 한계: QA datasets에 특화, heuristic 기반 접근 방식 존재. 일반적인 텍스트 reasoning에는 적용 어려움.
- Quiet-STaR과의 차별점: QA task에 국한되지 않고 일반적인 language modeling 과정에서 reasoning 학습. Dataset-specific heuristic 불필요.
- Training Language Models to Reason:
- 두 가지 주요 접근 방식:
- Mined Reasoning Traces 활용: 인간 annotation 또는 mined data 기반 reasoning 과정 학습.
- 한계: 수동 annotation 비용, annotator 능력 의존, annotation bias 문제 (LM이 자연스럽게 생성할 reasoning과 다를 수 있음), scalability 제한, annotator 수준 이상의 reasoning 학습 어려움.
- Self-play/Self-Taught Reasoning (STaR) 및 변형: LM 스스로 생성한 reasoning 활용, iterative 학습 통해 점진적 성능 향상.
- 한계: 여전히 특정 task (주로 QA) 및 dataset에 기반.
- Mined Reasoning Traces 활용: 인간 annotation 또는 mined data 기반 reasoning 과정 학습.
- Quiet-STaR과의 차별점:
- Mined data or annotation 불필요: LM 스스로 생성한 reasoning 활용 (STaR과 유사).
- Task-specific dataset 제한 극복: QA dataset 대신 일반적인 텍스트 corpus에서 reasoning 학습. Reasoning 학습의 generalizability와 scalability 대폭 확장.
- STaR의 iterative 학습 방식 계승 및 일반화.
- 두 가지 주요 접근 방식:
- Meta-tokens:
- Meta-tokens의 활용: Neural Network 내 특정 기능 수행을 위해 최적화된 custom tokens 연구 증가 (Function Vectors). Prompt-tuning, prefix-tuning, compression 등에 활용. Pause token 연구 존재.
- Quiet-STaR과의 연관성 및 차별점:
- Meta-tokens 활용: Quiet-STaR도 thought 시작/종료를 나타내는 custom meta-tokens 사용.
- 차별점: 기존 meta-tokens 연구 (compression, pause 등) 와 달리, Quiet-STaR의 thought tokens는 명시적인 reasoning 과정을 representation하고 학습하는 데 초점. 단순 기능 벡터를 넘어, semantic 의미와 reasoning 능력을 담는 token. Pause token과 달리 thought를 initialize하고 reasoning 과정 전체를 포괄하는 역할.
핵심 메시지: Quiet-STaR은 기존 LM reasoning 연구의 한계를 극복하고, 일반적인 텍스트를 통한 scalable한 reasoning 학습이라는 새로운 방향 제시. 특히, QA task에 국한된 기존 STaR 연구를 일반화하여, 모든 텍스트에서 내재된 reasoning 능력을 LM이 스스로 학습하도록 유도하는 혁신적인 접근 방식. Meta-tokens 활용 역시 단순 기능 확장이 아닌, reasoning 과정 자체를 모델링하기 위한 핵심 요소로 사용됨을 강조.