LLM : 논문리뷰 : Qwen2.5 Technical Report

논문리뷰

LLM : 논문리뷰 : Qwen2.5 Technical Report

AI바라기 2024. 12. 27. 16:05

초록

이 리포트에서는 다양한 요구 사항을 충족하도록 설계된 종합적인 large language models(LLMs) 시리즈인 Qwen2.5를 소개합니다. 이전 모델과 비교하여 Qwen2.5는 pre-training 및 post-training 단계 모두에서 크게 개선되었습니다. pre-training 측면에서 우리는 고품질 pre-training datasets를 이전의 7조 토큰에서 18조 토큰으로 확장했습니다. 이는 일반 상식, 전문 지식 및 reasoning 능력에 대한 강력한 기반을 제공합니다. post-training 측면에서 우리는 100만 개 이상의 샘플로 복잡한 supervised finetuning과 offline learning DPO 및 online learning GRPO를 포함한 다단계 reinforcement learning을 구현합니다. post-training 기술은 인간 선호도를 크게 향상시키고 특히 긴 텍스트 생성, 구조화된 데이터 분석 및 instruction following을 개선합니다.

다양하고 다양한 사용 사례를 효과적으로 처리하기 위해 Qwen2.5 LLM 시리즈를 풍부한 구성으로 제공합니다. 공개 가중치 제공에는 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B 파라미터 크기의 base models 및 instruction-tuned models가 포함됩니다. instruction-tuned models의 quantized 버전도 제공됩니다. Hugging Face Hub, ModelScope 및 Kaggle에서 100개 이상의 models에 액세스할 수 있습니다. 또한 호스팅 솔루션을 위해 현재 독점 models에는 Alibaba Cloud Model Studio에서 제공되는 두 가지 mixture-of-experts(MoE) 변형인 Qwen2.5-Turbo 및 Qwen2.5-Plus가 포함됩니다.

Qwen2.5는 language 이해, reasoning, 수학, 코딩, 인간 선호도 정렬 등을 평가하는 광범위한 벤치마크에서 최상위 성능을 입증했습니다. 특히 공개 가중치 플래그십 Qwen2.5-72B-Instruct는 여러 공개 및 독점 models를 능가하고 약 5배 더 큰 state-of-the-art 공개 가중치 model인 Llama-3-405B-Instruct에 경쟁력 있는 성능을 보여줍니다. Qwen2.5-Turbo 및 Qwen2.5-Plus는 GPT-4o-mini 및 GPT-4o와 각각 경쟁적으로 수행하면서 우수한 비용 효율성을 제공합니다. 또한 기초로서 Qwen2.5 models는 Qwen2.5-Math, Qwen2.5-Coder, QwQ 및 multimodal models와 같은 전문 models를 training하는 데 중요한 역할을 했습니다.

그림 1: Qwen 시리즈의 반복적인 개발 과정에서 data scaling은 중요한 역할을 했습니다. pre-training에 18조 개의 토큰을 활용하는 Qwen 2.5는 Qwen 시리즈 내에서, 특히 전문 분야 지식 측면에서 가장 발전된 능력을 보여주었으며, 이는 model의 능력 향상에 있어 mixture와 함께 scale의 중요성을 강조합니다.

개요

Qwen2.5는 다양한 요구를 충족시키기 위해 설계된 large language models (LLMs) 시리즈입니다.
이전 버전 대비 pre-training과 post-training 단계 모두에서 크게 향상되었습니다.

Pre-training 개선 사항

고품질 pre-training datasets를 7조 토큰에서 18조 토큰으로 확장했습니다.
이를 통해 common sense, 전문 지식, reasoning 능력의 탄탄한 기반을 다졌습니다.

Post-training 개선 사항

100만 개 이상 샘플을 사용한 정교한 supervised finetuning을 진행했습니다.
offline learning DPO와 online learning GRPO를 포함한 다단계 reinforcement learning을 적용했습니다.
이러한 post-training 기술은 인간 선호도를 크게 향상시켰습니다.
특히 긴 텍스트 생성, 구조화된 데이터 분석, instruction following 능력이 향상되었습니다.

모델 구성

다양한 사용 사례를 위해 풍부한 구성을 제공합니다.
공개 가중치(open-weight) 제공:
- base models 및 instruction-tuned models
- 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B 파라미터 크기
- instruction-tuned models의 quantized 버전도 제공
- Hugging Face Hub, ModelScope, Kaggle에서 100개 이상 models에 접근 가능
호스팅 솔루션:
- 독점 models: Qwen2.5-Turbo, Qwen2.5-Plus (두 가지 mixture-of-experts (MoE) 변형)
- Alibaba Cloud Model Studio에서 제공

성능

language 이해, reasoning, 수학, 코딩, 인간 선호도 정렬 등 다양한 벤치마크에서 최상위 성능을 보였습니다.
공개 가중치 플래그십 Qwen2.5-72B-Instruct는 여러 공개 및 독점 models를 능가합니다.
- 5배 더 큰 state-of-the-art 공개 가중치 model인 Llama-3-405B-Instruct와 경쟁할 만한 성능을 보입니다.
Qwen2.5-Turbo와 Qwen2.5-Plus는 GPT-4o-mini, GPT-4o와 경쟁하면서도 뛰어난 비용 효율성을 제공합니다.

활용

Qwen2.5 models는 Qwen2.5-Math, Qwen2.5-Coder, QwQ, multimodal models 등 전문 models training의 기반이 되었습니다.

결론: Qwen2.5는 성능과 효율성 측면에서 크게 개선된 강력한 LLMs 시리즈로, 다양한 분야에 활용될 수 있는 잠재력을 지니고 있습니다.

1 Introduction

인공 일반 지능(artificial general intelligence, AGI)의 불꽃은 large foundation models, 특히 large language models(LLMs)의 빠른 발전을 통해 점점 더 뚜렷해지고 있습니다. model 및 data scaling의 지속적인 발전은 고품질 supervised fine-tuning(SFT) 및 reinforcement learning from human feedback(RLHF)이 뒤따르는 대규모 pre-training 패러다임과 결합되어 large language models(LLMs)가 language 이해, 생성 및 reasoning에서 창발적(emergent) 능력을 개발할 수 있도록 했습니다. 이러한 기반을 바탕으로, 특히 o1 (OpenAI, 2024b)에 의해 입증된 최근 inference 시간 scaling의 획기적인 발전은 단계별 reasoning과 성찰을 통해 LLMs의 심층적 사고 능력을 향상시켰습니다. 이러한 발전은 language models의 잠재력을 높였으며, 이는 더 일반적인 인공 지능을 나타내는 창발적(emergent) 능력을 계속해서 보여줌에 따라 과학적 탐구에서 획기적인 발전을 이룰 수 있음을 시사합니다.

model 기능의 빠른 발전 외에도, 최근 2년 동안 LLM 커뮤니티에서 Llama 시리즈, Mistral 시리즈, 그리고 Qwen 시리즈와 같은 open(open-weight) large language models가 폭발적으로 증가했습니다. open-weight models는 일반 사용자와 개발자에게 large language models에 대한 접근을 민주화하여 광범위한 연구 참여를 가능하게 하고 커뮤니티 협업을 통한 혁신을 촉진하며 다양한 영역에서 AI 애플리케이션 개발을 가속화했습니다.

최근에 우리는 Qwen 시리즈의 최신 버전인 Qwen2.5의 세부 정보를 공개합니다. open-weight 부분과 관련하여, 우리는 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B의 7가지 크기의 pre-trained 및 instruction-tuned models를 공개하며, bfloat16 정밀도의 원본 models뿐만 아니라 다양한 정밀도의 quantized models도 제공합니다. 특히, 플래그십 model Qwen2.5-72B-Instruct는 약 5배 더 큰 state-of-the-art open-weight model인 Llama-3-405B-Instruct에 대해 경쟁력 있는 성능을 보여줍니다. 또한, 우리는 각각 GPT-4o-mini 및 GPT-4o와 경쟁적으로 수행하는 Mixture-of-Experts(MoE)의 독점 models인 Qwen2.5-Turbo 및 Qwen2.5-Plus1도 출시합니다.

이 기술 보고서에서는 더 나은 LLMs를 만들기 위한 우리의 지속적인 노력의 결과인 Qwen2.5를 소개합니다. 아래에서는 Qwen 최신 버전의 주요 기능을 보여줍니다.

크기 개선: Qwen2와 비교하여 0.5B, 1.5B, 7B, 72B models 외에도 Qwen2.5는 3B, 14B, 32B models를 다시 가져왔습니다. 이들은 리소스가 제한된 시나리오에 더 비용 효율적이며 현재 open foundation models 분야에서 과소 대표되고 있습니다. Qwen2.5-Turbo 및 Qwen2.5-Plus는 정확성, 대기 시간 및 비용 간의 훌륭한 균형을 제공합니다.
데이터 개선: pre-training 및 post-training data가 크게 개선되었습니다. pre-training data는 지식, 코딩 및 수학에 중점을 두고 7조 토큰에서 18조 토큰으로 증가했습니다. pre-training은 다양한 mixtures 간의 전환을 허용하도록 단계화됩니다. post-training data는 supervised finetuning(SFT), direct preference optimization(DPO), group relative policy optimization(GRPO) 단계에 걸쳐 100만 개의 예시에 달합니다.
사용성 개선: 사용 중 Qwen2의 몇 가지 주요 제한 사항이 제거되었습니다. 여기에는 더 긴 생성 길이(2K 토큰에서 8K 토큰으로), 구조화된 입력 및 출력(예: 테이블 및 JSON)에 대한 더 나은 지원, 더 쉬운 도구 사용이 포함됩니다. 또한 Qwen2.5-Turbo는 최대 100만 토큰의 context length를 지원합니다.

1. Introduction: Qwen2.5 핵심 정리 노트

들어가며: AGI를 향한 여정

Large foundation models, 특히 large language models (LLMs) 의 빠른 발전으로 artificial general intelligence (AGI) 의 가능성이 점점 더 가시화되고 있습니다.
model & data scaling의 지속적 발전과 대규모 pre-training + 고품질 supervised fine-tuning (SFT) 및 reinforcement learning from human feedback (RLHF) 패러다임의 결합은 LLMs의 language 이해, 생성, reasoning 능력을 크게 향상시켰습니다.
최근 inference 시간 scaling의 발전 (특히 o1의 등장)은 단계별 reasoning과 성찰을 통해 LLMs의 심층 사고 능력을 향상시켜, language models의 잠재력을 한층 더 끌어올렸습니다.
이러한 발전은 LLMs가 과학 탐구 등 여러 분야에서 획기적인 돌파구를 마련할 수 있음을 시사합니다.

Open-weight models의 부상

최근 2년간 LLM 커뮤니티에서 open-weight (공개 가중치) LLMs (예: Llama, Mistral, Qwen 시리즈)가 폭발적으로 증가했습니다.
Open-weight models는 LLMs에 대한 접근성을 민주화하여, 더 많은 사용자와 개발자가 연구에 참여하고, 커뮤니티 협업을 통한 혁신을 촉진하며, 다양한 분야에서 AI 애플리케이션 개발을 가속화하고 있습니다.

Qwen2.5 소개

Qwen 시리즈의 최신 버전인 Qwen2.5를 공개합니다.
Open-weight 부분:
- 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B의 7가지 크기의 pre-trained 및 instruction-tuned models를 제공합니다.
- bfloat16 정밀도의 원본 models뿐만 아니라 다양한 정밀도의 quantized models도 제공합니다.
- 플래그십 model인 Qwen2.5-72B-Instruct는 5배 더 큰 state-of-the-art open-weight model인 Llama-3-405B-Instruct와 경쟁력 있는 성능을 보입니다.
독점 models:
- Mixture-of-Experts (MoE) 방식의 Qwen2.5-Turbo와 Qwen2.5-Plus를 공개합니다.
- 각각 GPT-4o-mini와 GPT-4o에 경쟁력 있는 성능을 제공합니다.

Qwen2.5의 주요 개선 사항

크기(Size) 개선:
- 0.5B, 1.5B, 7B, 72B models 외에도 3B, 14B, 32B models를 다시 도입하여 리소스 제약이 있는 환경에 적합하고 비용 효율성을 높였습니다.
- Qwen2.5-Turbo와 Qwen2.5-Plus는 정확도, 지연 시간, 비용 간의 균형을 최적화했습니다.
데이터(Data) 개선:
- pre-training 및 post-training data를 대폭 개선했습니다.
- pre-training data는 지식, 코딩, 수학에 중점을 두고 7조 토큰에서 18조 토큰으로 증가했습니다.
- 다양한 mixtures 간 전환을 위해 pre-training을 단계별로 진행했습니다.
- post-training data는 SFT, DPO, GRPO 단계에 걸쳐 100만 개의 예시를 포함합니다.
사용성(Use) 개선:
- Qwen2의 주요 제약 사항을 개선했습니다.
  - 생성 길이 확장 (2K 토큰 -> 8K 토큰)
  - 구조화된 입력 및 출력 (테이블, JSON 등) 지원 개선
  - 도구 사용 편의성 향상
- Qwen2.5-Turbo는 최대 100만 토큰의 context length를 지원합니다.

결론: Qwen2.5는 크기, 데이터, 사용성 측면에서 대폭 개선된 LLMs로, AGI를 향한 여정에 중요한 이정표가 될 것입니다.

2 Architecture & Tokenizer

기본적으로 Qwen2.5 시리즈는 open-source를 위한 dense models, 즉 Qwen2.5-0.5B / 1.5B / 3B / 7B / 14B / 32B / 72B와 API 서비스를 위한 MoE models, 즉 Qwen2.5-Turbo 및 Qwen2.5-Plus를 포함합니다. 아래에서는 models의 architecture에 대한 세부 정보를 제공합니다.

dense models의 경우 Qwen2와 동일하게 Transformer 기반 decoder architecture를 유지합니다. 이 architecture는 효율적인 KV 캐시 활용을 위한 Grouped Query Attention(GQA), 비선형 활성화를 위한 SwiGLU activation function, 위치 정보 인코딩을 위한 Rotary Positional Embeddings(RoPE), attention 메커니즘의 QKV bias 및 안정적인 training을 위한 pre-normalization이 포함된 RMSNorm과 같은 몇 가지 주요 구성 요소를 통합합니다.

dense model architectures를 기반으로 이를 MoE model architectures로 확장합니다. 이는 표준 feed-forward network(FFN) 계층을 특수 MoE 계층으로 대체하여 달성되며, 여기서 각 계층은 여러 FFN experts와 토큰을 상위 K experts에 전달하는 라우팅 메커니즘으로 구성됩니다. Qwen1.5-MoE에서 입증된 접근 방식을 따라, fine-grained expert segmentation과 shared experts routing을 구현합니다. 이러한 architectural 혁신은 downstream tasks 전반에 걸쳐 model 성능을 크게 향상시켰습니다.

tokenization을 위해 어휘 크기가 151,643개의 일반 토큰인 byte-level byte-pair encoding(BBPE)을 구현하는 Qwen의 tokenizer를 활용합니다. 이전 Qwen 버전에 비해 제어 토큰 세트를 3개에서 22개로 확장하여 도구 기능을 위한 두 개의 새 토큰을 추가하고 나머지 토큰은 다른 model 기능에 할당했습니다. 이러한 확장은 모든 Qwen2.5 models에서 통일된 어휘를 구축하여 일관성을 높이고 잠재적인 호환성 문제를 줄입니다.

2. Architecture & Tokenizer: Qwen2.5 핵심 정리 노트

모델 종류

Open-source:
- Dense models: Qwen2.5-0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B
API 서비스:
- MoE models: Qwen2.5-Turbo, Qwen2.5-Plus

Dense Model Architecture (Qwen2와 동일)

Transformer 기반 decoder architecture
주요 구성 요소:
- Grouped Query Attention (GQA): 효율적인 KV cache 활용
- SwiGLU activation function: 비선형 활성화
- Rotary Positional Embeddings (RoPE): 위치 정보 인코딩
- QKV bias: attention 메커니즘에 사용
- RMSNorm (pre-normalization 포함): 안정적인 training

MoE Model Architecture

Dense model architecture 기반 확장
표준 feed-forward network (FFN) 계층을 특수 MoE 계층으로 대체
- 각 MoE 계층은 여러 FFN experts와 routing 메커니즘으로 구성
- Routing 메커니즘은 토큰을 상위 K개의 experts에 전달
Qwen1.5-MoE에서 사용된 기법 적용:
- Fine-grained expert segmentation
- Shared experts routing
이러한 architectural 혁신은 downstream tasks에서 model 성능을 크게 향상시킴

Tokenizer

Qwen의 tokenizer 사용
Byte-level Byte-Pair Encoding (BBPE) 구현
어휘 크기: 151,643개의 일반 토큰
제어 토큰:
- 이전 Qwen 버전에 비해 3개에서 22개로 확장
- 도구 기능을 위한 2개의 새로운 토큰 추가
- 나머지는 다른 model 기능을 위해 할당
모든 Qwen2.5 models에 통일된 어휘를 구축하여 일관성을 높이고 호환성 문제 감소

핵심 요약

Qwen2.5는 dense 및 MoE models를 모두 제공합니다.
Dense models는 Qwen2와 동일한 효율적인 transformer 기반 architecture를 사용합니다.
MoE models는 FFN 계층을 MoE 계층으로 대체하고, fine-grained expert segmentation과 shared experts routing을 사용합니다.
Tokenizer는 BBPE를 사용하며, 제어 토큰이 확장되어 모든 Qwen2.5 models에 통일된 어휘를 제공합니다.

결론: Qwen2.5는 효율적이고 강력한 architecture와 tokenizer를 기반으로 다양한 AI 작업에 적합한 models을 제공합니다.

3 Pre-training

우리의 language model pre-training 프로세스는 여러 핵심 요소로 구성됩니다. 첫째, 전략적 data mixture와 결합된 정교한 필터링 및 스코어링 메커니즘을 통해 고품질 training data를 신중하게 선별합니다. 둘째, 다양한 크기에서 models를 효과적으로 train하기 위해 hyperparameter 최적화에 대한 광범위한 연구를 수행합니다. 마지막으로, model이 확장된 sequences를 처리하고 이해하는 능력을 향상시키기 위해 특수 long-context pre-training을 통합합니다. 아래에서는 data 준비, hyperparameter 선택 및 long-context training에 대한 접근 방식을 자세히 설명합니다.

3.1 Pre-training Data

Qwen2.5는 이전 버전인 Qwen2에 비해 pre-training data 품질이 크게 향상되었습니다. 이러한 개선 사항은 다음과 같은 몇 가지 핵심 측면에서 비롯됩니다.

(1) 향상된 data filtering: 고품질 pre-training data는 model 성능에 매우 중요하므로 data 품질 평가 및 filtering은 우리 파이프라인의 중요한 구성 요소입니다. 우리는 training samples를 평가하고 점수를 매기기 위해 포괄적이고 다차원적인 분석을 수행하는 data 품질 filters로서 Qwen2-Instruct models를 활용합니다. 이 filtering 방법은 더 큰 multilingual corpus에 대한 Qwen2의 확장된 pre-training의 이점을 활용하기 때문에 Qwen2에 사용된 이전 접근 방식에 비해 크게 개선되었습니다. 향상된 기능은 보다 미묘한 품질 평가를 가능하게 하여 고품질 training data의 보존을 개선하고 여러 언어에 걸쳐 저품질 samples를 보다 효과적으로 filtering합니다.

(2) 향상된 수학 및 코드 data: Qwen2.5의 pre-training 단계에서 Qwen2.5-Math 및 Qwen2.5-Coder의 training data를 통합합니다. 이 data 통합 전략은 이러한 특수 datasets가 수학 및 코딩 tasks에서 state-of-the-art 성능을 달성하는 데 중요한 역할을 하기 때문에 매우 효과적입니다. pre-training 중에 이러한 고품질 도메인 특정 datasets를 활용함으로써 Qwen2.5는 수학적 reasoning과 코드 생성 모두에서 강력한 능력을 계승합니다.

(3) 향상된 synthetic data: 특히 수학, 코드 및 지식 영역에서 고품질 synthetic data를 생성하기 위해 Qwen2-72B-Instruct 및 Qwen2-Math-72B-Instruct를 활용합니다. 이 합성 data의 품질은 독점적인 general reward model과 특수 Qwen2-Math-RM-72B model을 사용한 엄격한 filtering을 통해 더욱 향상됩니다.

(4) 향상된 data mixture: pre-training data 배포를 최적화하기 위해 Qwen2-Instruct models를 사용하여 다양한 도메인에 걸쳐 콘텐츠를 분류하고 균형을 맞춥니다. 우리의 분석에 따르면 전자 상거래, 소셜 미디어 및 엔터테인먼트와 같은 도메인은 웹 규모 data에서 상당히 과대 대표되는 경우가 많으며 반복적이거나 템플릿 기반이거나 기계 생성 콘텐츠를 포함하는 경우가 많습니다. 반대로 기술, 과학 및 학술 연구와 같은 도메인은 더 높은 품질의 정보를 포함하지만 전통적으로 과소 대표됩니다. 과대 대표된 도메인을 전략적으로 down-sampling하고 가치가 높은 도메인을 up-sampling함으로써 model의 학습 목표에 더 잘 부합하는 보다 균형 잡히고 정보가 풍부한 training dataset을 보장합니다.

이러한 기술을 기반으로 Qwen2에서 사용된 7조 토큰에서 18조 토큰으로 확장하여 더 크고 더 높은 품질의 pre-training dataset을 개발했습니다.

3.2 Scaling Law for Hyper-parameters

우리는 Qwen2.5의 pre-training data를 기반으로 hyper-parameter에 대한 scaling laws를 개발합니다. 이전 연구들은 주로 주어진 컴퓨팅 예산에 대한 최적의 model 크기를 결정하기 위해 scaling laws를 사용했지만, 우리는 이를 활용하여 다양한 model architectures 전반에 걸쳐 최적의 hyper-parameters를 식별합니다. 특히, 우리의 scaling laws는 다양한 크기의 dense models 및 MoE models에 대한 배치 크기 B 및 학습률 µ와 같은 주요 training 매개변수를 결정하는 데 도움이 됩니다.

광범위한 실험을 통해 model architecture와 최적의 training hyper-parameters 간의 관계를 체계적으로 연구합니다. 특히, 최적의 학습률 µopt와 배치 크기 Bopt가 model 크기 N 및 pre-training data 크기 D에 따라 어떻게 변하는지 분석합니다. 우리의 실험은 0.8B에서 600B 토큰에 이르는 datasets에서 trained된 44M에서 14B 파라미터를 가진 dense models와 44M에서 1B 활성화 파라미터를 가진 MoE models를 포함하여 포괄적인 범위의 architectures를 다룹니다.

이러한 최적의 hyper-parameter 예측을 사용하여 model architecture 및 training data 규모의 함수로 최종 손실을 모델링합니다.

또한 scaling laws를 활용하여 다양한 파라미터 수를 가진 MoE models의 성능을 예측하고 해당 dense models와 비교합니다. 이 분석은 MoE models에 대한 hyper-parameter 구성을 안내하여 활성화 및 총 파라미터를 신중하게 tuning하여 특정 dense model 변형(예: Qwen2.5-72B 및 Qwen2.5-14B)과 성능 동등성을 달성할 수 있도록 합니다.

3.3 Long-context Pre-training

최적의 training 효율성을 위해 Qwen2.5는 2단계 pre-training 접근 방식을 사용합니다. 초기 단계는 4,096 토큰 context length를 사용하고, 그 다음 긴 sequences를 위한 확장 단계가 이어집니다. Qwen2에서 사용된 전략에 따라 Qwen2.5-Turbo를 제외한 모든 model 변형에 대해 최종 pre-training 단계에서 context length를 4,096에서 32,768 토큰으로 확장합니다. 동시에 ABF 기술을 사용하여 RoPE의 기본 주파수를 10,000에서 1,000,000으로 늘립니다.

Qwen2.5-Turbo의 경우 training 중에 점진적인 context length 확장 전략을 구현하여 32,768 토큰, 65,536 토큰, 131,072 토큰, 그리고 최종적으로 262,144 토큰의 4단계를 거쳐 RoPE 기본 주파수를 10,000,000으로 설정합니다. 각 단계에서 현재 최대 길이의 40% sequences와 60% 더 짧은 sequences를 포함하도록 training data를 신중하게 선별합니다. 이 점진적인 training 방법론은 다양한 길이의 sequences 전반에 걸쳐 효과적으로 처리하고 일반화하는 model의 능력을 유지하면서 context length 증가에 원활하게 적응할 수 있도록 합니다.

inference 중에 더 긴 sequences를 처리하는 models의 능력을 향상시키기 위해 YARN과 Dual Chunk Attention(DCA)이라는 두 가지 주요 전략을 구현합니다. 이러한 혁신을 통해 sequence length 용량을 4배 늘려 Qwen2.5-Turbo는 최대 100만 토큰을 처리할 수 있고 다른 models는 최대 131,072 토큰을 처리할 수 있습니다. 특히 이러한 접근 방식은 perplexity를 줄임으로써 긴 sequences의 모델링을 개선할 뿐만 아니라 더 짧은 sequences에 대한 models의 강력한 성능을 유지하여 다양한 입력 길이에 걸쳐 일관된 품질을 보장합니다.

4 Post-training

Qwen 2.5는 Qwen 2에 비해 post-training 설계에서 두 가지 중요한 발전을 도입했습니다.

(1) 확장된 Supervised Fine-tuning Data 범위: supervised fine-tuning 프로세스는 수백만 개의 고품질 예시로 구성된 방대한 dataset을 활용합니다. 이러한 확장은 특히 긴 sequence 생성, 수학 문제 해결, 코딩, instruction-following, 구조화된 data 이해, 논리적 reasoning, cross-lingual 전이 및 강력한 시스템 instruction과 같이 이전 model에 한계가 있었던 주요 영역을 다룹니다. (2) 2단계 Reinforcement Learning: Qwen 2.5의 reinforcement learning(RL) 프로세스는 Offline RL과 Online RL의 두 가지 고유한 단계로 나뉩니다.

Offline RL: 이 단계에서는 reasoning, 사실성 및 instruction-following과 같이 reward model이 평가하기 어려운 능력을 개발하는 데 중점을 둡니다. 세심한 training data 구성 및 검증을 통해 Offline RL 신호가 학습 가능하고 신뢰할 수 있도록 보장하여 model이 이러한 복잡한 기술을 효과적으로 습득할 수 있도록 합니다.
Online RL: Online RL 단계에서는 진실성, 유용성, 간결성, 관련성, 무해성 및 편향 제거를 포함하여 출력 품질의 미묘한 차이를 감지하는 reward model의 능력을 활용합니다. 이를 통해 model은 정확하고 일관성이 있으며 구조가 잘 잡힌 응답을 생성하는 동시에 안전과 가독성을 유지할 수 있습니다. 결과적으로 model의 출력은 지속적으로 인간의 품질 표준과 기대를 충족합니다.

4.1 Supervised Fine-tuning

이 섹션에서는 Qwen2.5의 SFT 단계에서 이루어진 주요 개선 사항을 몇 가지 중요한 영역에 초점을 맞춰 자세히 설명합니다.

(1) 긴 sequence 생성: Qwen2.5는 최대 8,192 토큰의 출력 context length로 고품질 콘텐츠를 생성할 수 있으며, 이는 종종 2,000 토큰 미만으로 유지되는 일반적인 post-training 응답 길이보다 크게 향상되었습니다. 이러한 격차를 해소하기 위해 긴 응답 datasets를 개발합니다. 우리는 pre-training corpora에서 긴 텍스트 data에 대한 쿼리를 생성하고, 출력 길이 제약을 적용하고, Qwen2를 사용하여 저품질 쌍 data를 필터링하기 위해 역 번역 기술을 사용합니다. (2) 수학: 우리는 공개 datasets, K-12 문제 모음 및 합성 문제를 포함한 다양한 쿼리 소스를 포괄하는 Qwen2.5-Math의 chain-of-thought data를 도입합니다. 고품질 reasoning을 보장하기 위해 안내를 위한 정답이 포함된 reward modeling과 함께 rejection sampling을 사용하여 단계별 reasoning 프로세스를 생성합니다. (3) 코딩: 코딩 능력을 향상시키기 위해 Qwen2.5-Coder의 instruction tuning data를 통합합니다. 우리는 여러 language별 에이전트를 협업 프레임워크로 사용하여 거의 40개의 프로그래밍 languages에 걸쳐 다양하고 고품질의 instruction 쌍을 생성합니다. 코드 관련 Q&A 웹사이트에서 새로운 예시를 합성하고 GitHub에서 알고리즘 코드 조각을 수집하여 instruction dataset을 확장합니다. 포괄적인 다국어 샌드박스를 사용하여 정적 코드 검사를 수행하고 자동화된 단위 테스트를 통해 코드 조각의 유효성을 검사하여 코드 품질과 정확성을 보장합니다. (4) Instruction-following: 고품질 instruction-following data를 보장하기 위해 엄격한 코드 기반 검증 프레임워크를 구현합니다. 이 접근 방식에서 LLMs는 instruction과 해당 검증 코드, 포괄적인 상호 검증을 위한 단위 테스트를 모두 생성합니다. 실행 피드백 기반 rejection sampling을 통해 Supervised Fine-Tuning에 사용되는 training data를 신중하게 선별하여 의도된 instruction에 대한 model의 충실한 준수를 보장합니다. (5) 구조화된 Data 이해: 우리는 표 형식의 Question-answering, 사실 확인, 오류 수정 및 구조적 이해와 같은 전통적인 tasks뿐만 아니라 구조화 및 반 구조화 data와 관련된 복잡한 tasks를 포괄하는 포괄적인 구조적 이해 dataset을 개발합니다. reasoning 체인을 model의 응답에 통합함으로써 구조화된 data에서 정보를 추론하는 능력을 크게 향상시켜 이러한 다양한 tasks 전반에 걸쳐 성능을 향상시킵니다. 이 접근 방식은 dataset의 범위를 넓힐 뿐만 아니라 복잡한 data 구조에서 의미 있는 통찰력을 추론하고 도출하는 model의 능력을 심화합니다. (6) 논리적 Reasoning: model의 논리적 reasoning 능력을 향상시키기 위해 다양한 영역에 걸쳐 70,000개의 새로운 쿼리로 구성된 다양한 세트를 도입합니다. 이러한 쿼리는 객관식 문제, 참/거짓 문제, 개방형 문제를 포괄합니다. model은 연역적 reasoning, 귀납적 일반화, 유추적 reasoning, 인과적 reasoning, 통계적 reasoning과 같은 다양한 reasoning 방법을 사용하여 체계적으로 문제에 접근하도록 trained됩니다. 반복적인 정제를 통해 오답이나 결함이 있는 reasoning 프로세스가 포함된 data를 체계적으로 필터링합니다. 이 프로세스는 논리적이고 정확하게 추론하는 model의 능력을 점진적으로 강화하여 다양한 유형의 reasoning tasks에서 강력한 성능을 보장합니다. (7) Cross-Lingual 전이: 여러 언어에 걸쳐 model의 일반적인 능력을 이전하는 것을 용이하게 하기 위해 번역 model을 사용하여 고 자원 언어의 instruction을 다양한 저 자원 언어로 변환하여 해당 응답 후보를 생성합니다. 이러한 응답의 정확성과 일관성을 보장하기 위해 각 다국어 응답과 원본 응답 간의 의미적 정렬을 평가합니다. 이 프로세스는 원본 응답의 논리적 구조와 문체적 뉘앙스를 보존하여 여러 언어에 걸쳐 무결성과 일관성을 유지합니다. (8) 강력한 시스템 Instruction: 우리는 post-training에서 시스템 프롬프트의 다양성을 개선하기 위해 수백 개의 일반 시스템 프롬프트를 구성하여 시스템 프롬프트와 대화 간의 일관성을 보장합니다. 다양한 시스템 프롬프트로 평가한 결과 model이 우수한 성능을 유지하고 분산이 감소하여 견고성이 향상되었음을 보여줍니다. (9) 응답 필터링: 응답의 품질을 평가하기 위해 전용 critic model과 다중 에이전트 협업 스코어링 시스템을 포함한 여러 자동 주석 방법을 사용합니다. 응답은 엄격한 평가를 거치며 모든 스코어링 시스템에서 완벽하다고 간주되는 응답만 유지됩니다. 이 포괄적인 접근 방식은 우리의 출력이 최고 품질 표준을 유지하도록 보장합니다.

궁극적으로 100만 개 이상의 SFT 예시로 구성된 dataset을 구성합니다. model은 32,768 토큰의 sequence length로 2 epoch 동안 fine-tuned됩니다. 학습을 최적화하기 위해 학습률은 7 × 10^-6에서 7 × 10^-7로 점진적으로 감소됩니다. overfitting을 해결하기 위해 0.1의 가중치 감소를 적용하고 그래디언트 노름은 최대값 1.0으로 잘립니다.

4.2 Offline Reinforcement Learning

Online Reinforcement Learning(RL)과 비교할 때 Offline RL은 training 신호를 사전 준비할 수 있으므로 표준 답안은 존재하지만 reward models를 사용하여 평가하기 어려운 tasks에 특히 유리합니다. 이 연구에서는 정확한 평가를 얻는 것이 복잡할 수 있는 수학, 코딩, instruction following 및 논리적 reasoning과 같은 객관적인 쿼리 영역에 중점을 둡니다. 이전 단계에서는 실행 피드백 및 정답 매칭과 같은 전략을 광범위하게 사용하여 응답의 품질을 보장합니다. 현재 단계를 위해 해당 파이프라인을 재사용하여 SFT model을 사용하여 새로운 쿼리 세트에 대한 응답을 다시 샘플링합니다. 품질 검사를 통과한 응답은 긍정적인 예시로 사용되는 반면 실패한 응답은 Direct Preference Optimization(DPO) training을 위한 부정적인 예시로 취급됩니다. training 신호의 신뢰성과 정확성을 더욱 향상시키기 위해 인간 및 자동화된 검토 프로세스를 모두 활용합니다. 이 이중 접근 방식은 training data가 학습 가능할 뿐만 아니라 인간의 기대와 일치하도록 보장합니다. 궁극적으로 약 150,000개의 training 쌍으로 구성된 dataset을 구성합니다. 그런 다음 model은 7 × 10^-7의 학습률로 Online Merging Optimizer를 사용하여 1 epoch 동안 trained됩니다.

4.3 Online Reinforcement Learning

Online RL을 위한 강력한 reward model을 개발하기 위해 신중하게 정의된 레이블링 기준을 준수합니다. 이러한 기준은 model에서 생성된 응답이 고품질일 뿐만 아니라 윤리적 및 사용자 중심 표준과 일치하도록 보장합니다. data 레이블링에 대한 구체적인 지침은 다음과 같습니다.

진실성: 응답은 사실적 정확성에 근거해야 하며 제공된 context와 instruction을 충실히 반영해야 합니다. model은 거짓이거나 주어진 data에서 지원되지 않는 정보를 생성해서는 안 됩니다.
유용성: model의 출력은 긍정적이고 매력적이며 교육적이고 관련성이 있는 콘텐츠를 제공하면서 사용자의 쿼리를 효과적으로 해결하는 데 진정으로 유용해야 합니다. 주어진 instruction을 정확히 따르고 사용자에게 가치를 제공해야 합니다.
간결성: 응답은 간결하고 요점을 파악해야 하며 불필요한 장황함을 피해야 합니다. 목표는 과도한 세부 사항으로 사용자를 압도하지 않고 명확하고 효율적으로 정보를 전달하는 것입니다.
관련성: 응답의 모든 부분은 사용자의 쿼리, 대화 기록 및 어시스턴트의 context와 직접 관련되어야 합니다. model은 자신의 출력을 조정하여 사용자의 요구와 기대에 완벽하게 부합하도록 해야 합니다.
무해성: model은 불법적이거나 비도덕적이거나 유해한 행동으로 이어질 수 있는 콘텐츠를 피함으로써 사용자 안전을 최우선으로 생각해야 합니다. 항상 윤리적 행동과 책임감 있는 의사 소통을 촉진해야 합니다.
편향 제거: model은 성별, 인종, 국적, 정치를 포함하되 이에 국한되지 않는 편견이 없는 응답을 생성해야 합니다. 널리 받아들여지는 도덕 및 윤리적 기준을 고수하면서 모든 주제를 동등하고 공정하게 다루어야 합니다.

reward model을 train하는 데 활용되는 쿼리는 공개적으로 사용 가능한 open-source data와 더 높은 복잡성을 특징으로 하는 독점 쿼리 세트의 두 가지 고유한 datasets에서 가져옵니다. 응답은 training의 다양한 단계에서 SFT, DPO 및 RL과 같은 다양한 방법을 사용하여 fine-tuned된 Qwen models의 체크포인트에서 생성됩니다. 다양성을 도입하기 위해 이러한 응답은 다양한 temperature 설정에서 샘플링됩니다. 선호도 쌍은 인간 및 자동화된 레이블링 프로세스를 통해 생성되며 DPO의 training data도 이 dataset에 통합됩니다.

Online reinforcement learning(RL) 프레임워크에서는 Group Relative Policy Optimization(GRPO)을 사용합니다. reward model을 training하는 데 사용되는 쿼리 세트는 RL training 단계에서 사용되는 쿼리 세트와 동일합니다. training 중 쿼리가 처리되는 순서는 reward model에서 평가한 응답 점수의 분산에 따라 결정됩니다. 특히 응답 점수의 분산이 더 높은 쿼리가 우선 순위가 지정되어 보다 효과적인 학습을 보장합니다. 각 쿼리에 대해 8개의 응답을 샘플링합니다. 모든 models는 2048 글로벌 배치 크기와 각 에피소드에서 2048개의 샘플로 trained되며 쿼리 및 응답 쌍을 샘플로 간주합니다.

4.4 Long Context Fine-tuning

Qwen2.5-Turbo의 context length를 더욱 확장하기 위해 post-training 중에 더 긴 SFT 예시를 도입하여 긴 쿼리에서 인간 선호도와 더 잘 일치하도록 합니다.

SFT 단계에서는 2단계 접근 방식을 사용합니다. 첫 번째 단계에서는 최대 32,768 토큰을 포함하는 짧은 instruction만 사용하여 model을 fine-tuned합니다. 이 단계에서는 다른 Qwen2.5 models에 사용된 것과 동일한 data 및 training 단계를 사용하여 짧은 tasks에 대한 강력한 성능을 보장합니다.

두 번째 단계에서는 fine-tuning 프로세스가 짧은 instruction(최대 32,768 토큰)과 긴 instruction(최대 262,144 토큰)을 모두 결합합니다. 이 하이브리드 접근 방식은 긴 context tasks에서 model의 instruction-following 능력을 효과적으로 향상시키면서 짧은 tasks에 대한 성능을 유지합니다.

RL 단계에서는 다른 Qwen2.5 models에 사용된 것과 유사한 training 전략을 사용하며 짧은 instruction에만 중점을 둡니다. 이러한 설계 선택은 두 가지 주요 고려 사항에 의해 주도됩니다. 첫째, RL training은 긴 context tasks에 대해 계산 비용이 많이 듭니다. 둘째, 현재 긴 context tasks에 적합한 보상 신호를 제공하는 reward models가 부족합니다. 또한 짧은 instruction에 대해서만 RL을 채택해도 긴 context tasks에서 인간 선호도와 model의 정렬을 크게 향상시킬 수 있음을 발견했습니다.