AI바라기의 인공지능
VLM : 논문리뷰 : Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning 본문
VLM : 논문리뷰 : Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
AI바라기 2025. 4. 29. 13:57쉬운 설명 (Simple Explanation)
이 논문은 AI 모델이 이미지와 텍스트를 함께 보고 복잡한 문제(수학, 과학 문제 등)를 잘 풀도록 (reasoning) 가르치면서도, 동시에 엉뚱한 것을 상상하거나(hallucination) 기본적인 그림 설명 능력을 잃지 않도록(generalization) 하는 방법을 연구했습니다. 이를 위해 두 가지 훈련 방식(MPO, GRPO)을 섞어 쓰고(Hybrid RL), 특히 두 번째 방식(GRPO)이 지루해지지 않도록(Vanishing Advantages) 흥미로운 문제들(non-zero advantage samples)을 따로 모아뒀다가 다시 풀어보게 하는(SSB) 방법을 개발했습니다. 마치 어려운 문제 풀이 훈련(reasoning)과 기본기 다지기(generalization), 그리고 오답 노트(SSB) 활용을 병행하여 똑똑하고 균형 잡힌 학생을 키우는 것과 비슷합니다.
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning 학습 노트
용어 설명 (Terminology)
- MPO (Mixed Preference Optimization): 선호도(preference)와 품질(quality) 신호를 혼합하여 모델을 최적화하는 방법. 보상 모델 기반 학습과 유사하며, 일반화 성능 유지 및 hallucination 감소에 기여.
- GRPO (Group Relative Policy Optimization): 동일 query 그룹 내 응답들을 비교하여 상대적 이점(advantage)을 계산하고 이를 기반으로 policy를 최적화하는 RL 알고리즘. reasoning 경로 다양성 증진에 기여.
- SSB (Selective Sample Buffer): GRPO 학습 시 advantage가 0이 되는 샘플(Vanishing Advantages 문제)을 해결하기 위해, non-zero advantage를 가진 유용한 샘플을 저장하고 재사용하는 메커니즘. 학습 효율성과 안정성 증진.
- Vanishing Advantages: GRPO 학습 중 모델 응답들이 정답 또는 오답으로 수렴하면서 상대적 advantage 신호가 사라져 학습이 비효율적으로 되는 현상.
- Hybrid Reinforcement Learning: MPO와 GRPO를 결합하여 사용하는 R1V2의 핵심 학습 패러다임. reasoning 능력 강화와 일반화 성능 유지의 균형을 목표.
- Skywork-VL Reward: multimodal 이해 및 reasoning task 평가를 위해 R1V2에서 사용하는 자체 reward model. MPO와 GRPO 모두에 활용.
- Modular Reassembly: 사전 훈련된 reasoning LLM과 frozen vision encoder를 SFT 단계 없이 경량 adapter로 직접 연결하는 방식. LLM의 reasoning 능력 보존에 유리.
- Alignment Tax: RLHF 등 alignment 과정에서 모델의 핵심 능력(예: reasoning)이 저하되는 현상. R1V2는 hybrid reward 등을 통해 이를 완화하고자 함.
- LLM Judge: 모델 응답 평가 시 단순 문자열 매칭이 아닌, 의미론적/수학적 동등성을 평가하기 위해 사용하는 외부 LLM (여기서는 OpenAI-04).
- Slow-thinking models: 신속한 생성보다 심층적이고 단계적인 reasoning을 우선시하는 모델 (e.g., OpenAI-01, Gemini-Thinking).
Purpose of the Paper
- 기존 연구 한계 극복:
- "Slow-thinking" 모델들이 multimodal domain으로 확장될 때 발생하는 reasoning 능력과 일반적인 시각적 이해 능력 간의 trade-off 문제 해결. (reasoning 특화 시 일반 성능 저하, 일반 모델은 복잡한 reasoning 부족)
- Multimodal reasoning 강화 시 발생하는 visual hallucination 증가 문제 해결.
- 기존 preference optimization 방법들이 복잡한 multimodal reasoning 경로의 미묘한 차이를 포착하기 어렵고, 시각-텍스트 상호작용 평가가 부족한 한계 극복.
- 새로운 접근 방식 제시:
- Teacher model distillation 없이 **직접적인 Reinforcement Learning (RL)**을 통해 multimodal reasoning 능력을 습득하는 방식 제안.
- Reasoning 특화와 일반화 사이의 균형을 맞추기 위한 Hybrid Reinforcement Learning (MPO + GRPO) 패러다임 제안.
- GRPO의 효율성 저하 문제("Vanishing Advantages")를 해결하기 위한 Selective Sample Buffer (SSB) 메커니즘 도입.
Key Contributions & Novelty
- Contribution 1: Hybrid Reinforcement Learning (MPO + GRPO)
- MPO를 통해 reward model 기반의 선호도/품질 최적화 (일반화, hallucination 감소 기여)
- GRPO를 통해 응답 간 상대적 비교 기반 최적화 (reasoning 경로 다양성, 깊이 증진 기여)
- Novelty: multimodal domain에서 reasoning과 일반화의 균형을 맞추기 위해 MPO와 GRPO를 결합하여 사용하는 독창적인 RL 프레임워크.
- Contribution 2: Selective Sample Buffer (SSB)
- GRPO 학습 중 advantage 신호가 소실되는 "Vanishing Advantages" 현상을 해결.
- Non-zero advantage를 가진 유용한 학습 샘플을 저장하고, advantage 크기에 따라 가중치를 부여하여 재샘플링.
- Novelty: GRPO의 고질적인 문제인 advantage 소실을 해결하기 위해 구체적으로 고안된 새로운 메커니즘으로, 학습 효율성과 안정성을 크게 향상.
- Contribution 3: Modular Reassembly (No SFT)
- SFT 단계를 생략하고, frozen vision encoder와 reasoning LLM을 adapter로 직접 연결.
- LLM의 사전 훈련된 reasoning 능력을 최대한 보존하면서 multimodal 능력을 효율적으로 전달.
- Novelty: SFT가 RL/reasoning 성능을 저해할 수 있다는 관찰에 기반하여, SFT를 완전히 배제하고 모듈식 접근과 RL을 결합하여 multimodal reasoning 모델을 구축.
- Contribution 4: Hallucination Mitigation
- Reasoning 강화 과정에서 발생하는 visual hallucination 증가 현상을 체계적으로 모니터링하고 완화.
- MPO 단계와 calibrated reward threshold를 통해 hallucination 비율을 효과적으로 제어.
- Novelty: Reasoning 능력 향상과 hallucination 억제 사이의 trade-off를 명시적으로 다루고, MPO 기반의 완화 전략을 구체적으로 적용 및 평가.
Experimental Highlights
- SOTA Open-Source Performance:
- OlympiadBench (62.6%), AIME2024 (78.9%), LiveCodeBench (63.6%), MMMU (73.6%) 등 주요 multimodal 및 text reasoning 벤치마크에서 기존 open-source 모델 대비 최고 성능 달성.
- 자신보다 훨씬 큰 모델들 (Qwen2.5-VL-72B, QvQ-Preview-72B 등) 보다 우수한 성능을 보임 (e.g., OlympiadBench에서 20%p 이상 차이).
- Closing the Gap with Proprietary Models:
- OpenAI-04-mini 등 최고 수준의 proprietary 모델과의 성능 격차를 상당히 좁혔음.
- Claude 3.5 Sonnet, Gemini 2 Flash, Kimi k1.5 longcot 등 다른 강력한 모델들과 비교하여 경쟁력 있거나 우월한 성능을 보임 (e.g., MMMU, MathVista).
- Ablation Study Validation:
- SSB의 효과 검증: SSB 사용 시 유효 학습 샘플 비율이 40% 미만에서 60% 이상으로 크게 증가하며, 최종 성능(MMMU)도 향상됨을 입증.
- Hybrid 접근법의 우수성: MPO 단독, SFT 대비 Hybrid (MPO+GRPO) 방식이 reasoning (OlympiadBench, AIME24)과 일반화의 균형을 가장 잘 맞춤을 확인.
- Adapter-only Training의 효율성: 놀랍게도 adapter만 학습시키는 것이 LLM이나 Vision Encoder를 함께 학습시키는 것보다 더 좋은 성능을 보임. 이는 cross-modal alignment가 핵심 병목임을 시사.
- Hallucination Control: MPO 적용 시 SFT 대비 hallucination 비율이 크게 감소 (18.4% -> 8.7%). Hybrid 방식은 약간 증가(9.1%)하나 여전히 SFT보다 낮음.
Limitations and Future Work
- Limitations:
- Deliberate Trade-off: 현재 모델 설계는 reasoning 성능을 의도적으로 우선시하여, 일반적인 시각 이해 능력은 최고 수준은 아님 (경쟁력은 있으나 특화 모델 대비 격차 존재).
- Hallucination Sensitivity: Reasoning 강화에 과도하게 초점을 맞추면 여전히 hallucination이 증가할 수 있어, 신중한 reward calibration이 지속적으로 필요함 (개선되었으나 완전 해결은 아님).
- Future Work:
- 더욱 정교한 시각-텍스트 통합 메커니즘 탐색.
- Reasoning과 일반화 사이의 균형을 더욱 개선하는 방법 연구.
- 개발된 Hybrid RL 접근법을 추가적인 domain 및 modality로 확장.
Overall Summary
Skywork R1V2는 MPO와 GRPO를 결합한 독창적인 Hybrid Reinforcement Learning 프레임워크와 SSB 메커니즘을 도입하여, multimodal reasoning 능력과 일반화 성능 간의 어려운 trade-off 문제를 효과적으로 해결한 VLM이다. 이 모델은 주요 reasoning 벤치마크에서 SOTA open-source 성능을 달성하며 proprietary 모델과의 격차를 크게 줄였고, reasoning 강화로 인한 hallucination을 MPO를 통해 성공적으로 제어했다. 이 연구는 SFT 없이 모듈식 설계와 직접적인 RL을 통해 복잡한 multimodal reasoning 능력을 효율적으로 학습시킬 수 있음을 보여주며, 향후 고성능 multimodal AI 시스템 개발에 중요한 방향을 제시한다.
Abstract
우리는 차세대 multimodal reasoning model 이자 이전 모델인 Skywork R1V에서 크게 발전한 Skywork R1V2를 제시합니다. R1V2의 핵심은 Mixed Preference Optimization (MPO)과 Group Relative Policy Optimization (GRPO)을 함께 활용하는 하이브리드 reinforcement learning 패러다임을 도입한 것입니다. 이는 reward-model guidance와 rule-based strategies를 조화시켜 정교한 reasoning 능력과 광범위한 generalization 사이의 균형을 맞추는 오랜 과제를 해결합니다.
training efficiency를 더욱 향상시키기 위해, 우리는 Selective Sample Buffer (SSB) 메커니즘을 도입했습니다. 이는 optimization 과정 전반에 걸쳐 가치가 높은 샘플을 우선시함으로써 GRPO에 내재된 "Vanishing Advantages" 딜레마에 효과적으로 대응합니다. 특히, 우리는 과도한 reinforcement signals이 visual hallucinations를 유발할 수 있다는 점을 관찰했으며, training process 전반에 걸쳐 보정된 reward 임계값을 통해 이 현상을 체계적으로 모니터링하고 완화합니다.
경험적 결과는 R1V2의 뛰어난 능력을 확인시켜 줍니다. OlympiadBench에서 62.6, AIME2024에서 78.9, LiveCodeBench에서 63.6, MMMU에서 73.6과 같은 benchmark 최고 성능을 달성했습니다. 이러한 결과는 R1V2가 기존 open-source models 보다 우수함을 강조하며, Gemini 2.5 및 OpenAI-o4-mini를 포함한 최고의 proprietary systems와의 성능 격차를 크게 줄이는 진전을 보여줍니다. Skywork R1V2 model weights는 개방성과 reproducibility를 증진하기 위해 공개되었습니다.
1 Introduction
OpenAI-o1, GeminiThinking, Kimi-1.5, Skywork-R1V와 같은 "slow-thinking" multimodal models의 최근 발전은 수학 및 과학 분야의 복잡한 reasoning tasks에서 상당한 진전을 이끌었습니다. 이러한 models은 반성적 인지 과정을 모방하여, 신중한 reasoning보다 빠른 generation을 우선시하는 "fast-thinking" 모델(예: GPT-4o, Claude-3.5)보다 더 강력한 성능을 달성합니다. 예를 들어, slow-thinking models는 AIME24 및 AMC23과 같은 benchmarks에서 30% 이상의 향상을 보이며, GPQA와 같은 과학 관련 benchmarks에서는 약 10%의 향상을 보여줍니다.
그러나 slow-thinking 전략을 multimodal domain으로 확장하는 것은 새로운 과제를 야기합니다. MMMU 및 MathVision과 같은 visual reasoning tasks에서는 개선이 관찰되지만, general perception benchmarks(예: AI2D)에서는 성능이 저하됩니다. 이러한 성능 저하는 종종 visual hallucinations의 증가를 동반하며, 이는 중요한 문제를 강조합니다: 어떻게 vision-language models (VLMs)의 generalization 능력을 저해하지 않으면서 slow-thinking 행동을 효과적으로 촉진할 수 있을까요?
이 문제를 해결하기 위해, 우리는 teacher model distillation의 필요 없이 reinforcement learning (RL)을 통해 직접 multimodal reasoning skills을 습득하는 차세대 vision-language model인 Skywork R1V2를 소개합니다. R1V2는 visual perception, 과학적 탐구, abstract reasoning에 걸친 포괄적인 dataset으로 trained되며, general-purpose 및 reasoning-intensive tasks를 모두 포함합니다. training process는 Mixed Preference Optimization (MPO)과 Group Relative Policy Optimization (GRPO)을 공동으로 활용하는 하이브리드 reinforcement learning paradigm을 사용합니다.
R1V2는 먼저 세 가지 핵심 learning objectives를 가진 MPO를 구현합니다: (1) response pairs 간의 relative preferences, (2) 개별 responses의 absolute quality, (3) 선호되는 responses를 생성하는 process. preference signals는 multimodal understanding과 reasoning tasks 모두를 평가할 수 있는 reward model인 Skywork-VL Reward에 의해 제공됩니다. 이러한 고품질 preference signals을 바탕으로 MPO는 generated outputs에서 hallucinations와 overthinking을 효과적으로 완화하여 general vision tasks에서의 성능 향상을 이끌어냅니다.
reasoning capabilities를 더욱 향상시키기 위해, 우리는 동일한 query group 내의 candidate responses를 비교하여 relative advantages를 계산하는 GRPO algorithm을 통합합니다. 그러나 training이 진행됨에 따라 candidate responses는 수렴하는 경향이 있어(즉, 균일하게 정답이거나 오답이 됨), vanishing advantage signals와 제한된 reasoning diversity를 초래합니다. 이를 해결하기 위해, 우리는 non-zero advantages를 가진 고품질 training examples를 캐시하고 policy updates 중에 이를 다시 도입하는 Selective Sample Buffer (SSB)를 사용합니다. 이 메커니즘은 gradient density를 높이고, training stability를 향상시키며, 더 깊은 reasoning paths를 장려합니다. MPO와 GRPO의 하이브리드는 reasoning specialization과 generalization 간의 보다 효과적인 균형을 가능하게 합니다.
광범위한 평가는 OlympiadBench에서 62.6%, AIME2024에서 78.9%, LiveCodeBench에서 63.6%, MMMU에서 73.6%를 포함한 여러 권위 있는 multimodal benchmarks에서 R1V2의 효과를 입증합니다. 이러한 결과는 새로운 open-source baselines를 설정할 뿐만 아니라 Gemini 2.5 및 OpenAI-o4-mini와 같은 proprietary state-of-the-art models과의 성능 격차를 상당히 줄입니다.
요약하자면, Skywork R1V2는 direct reinforcement learning을 통해 강력하고 반성적인 multimodal reasoning agents를 training하기 위한 유망하고 확장 가능한 framework를 제공합니다. 이는 high-level reasoning과 perceptual understanding을 통합할 잠재력을 강조하며, 차세대 general-purpose AI systems를 위한 길을 열어줍니다.
Skywork R1V2: Introduction 정리노트 (AI 연구자용)
- Problem: "Slow-thinking" multimodal models (e.g., OpenAI-o1, GeminiThinking)은 복잡한 reasoning tasks (수학, 과학)에서 "fast-thinking" 모델(e.g., GPT-4o)보다 우수하지만, multimodal domain으로 확장 시 문제 발생. Visual reasoning (MMMU 등) 성능은 향상되나, general perception (AI2D 등) 성능 저하 및 visual hallucinations 증가. 핵심 질문: VLMs에서 generalization 저하 없이 slow-thinking 능력을 어떻게 강화할 것인가?
- Proposed Solution: Skywork R1V2: Teacher model distillation 없이 direct reinforcement learning (RL)으로 multimodal reasoning skills을 학습하는 차세대 VLM. Visual perception, 과학 탐구, abstract reasoning 등 포괄적 dataset으로 training.
- Key Technical Innovation: Hybrid RL Paradigm (MPO + GRPO):
- MPO (Mixed Preference Optimization): 자체 reward model (Skywork-VL Reward)이 제공하는 preference signals (response 쌍 간 상대 선호도, 개별 response 품질, 선호 response 생성 process)를 활용하여 hallucinations 및 overthinking 완화, general vision task 성능 향상.
- GRPO (Group Relative Policy Optimization): 동일 query 내 candidate responses 비교를 통한 relative advantages 계산으로 reasoning 능력 강화.
- SSB (Selective Sample Buffer): GRPO의 "vanishing advantage signals" 문제 (training 진행 시 response 수렴으로 advantage 사라짐) 해결. Non-zero advantage를 가진 고품질 training examples를 캐싱 및 재사용하여 gradient density 증가, training stability 향상, 깊은 reasoning path 유도. MPO+GRPO 조합으로 reasoning specialization과 generalization 간 효과적 균형 추구.
- Core Result: 주요 multimodal benchmarks에서 SOTA open-source 성능 달성 (OlympiadBench 62.6%, AIME2024 78.9%, LiveCodeBench 63.6%, MMMU 73.6%). Proprietary models (Gemini 2.5, OpenAI-o4-mini)과의 성능 격차 크게 감소.
- Contribution: Direct RL을 통한 robust하고 반성적인 multimodal reasoning agents training을 위한 확장 가능한 framework 제시. High-level reasoning과 perceptual understanding 통합 가능성 시사.
쉬운 설명:
최근 AI 모델들은 복잡한 문제를 풀 때 마치 사람이 깊게 생각하듯 단계적으로 접근("slow-thinking")하여 좋은 성과를 내고 있습니다. 하지만 이런 모델들을 이미지나 영상 같은 시각 정보("multimodal")와 함께 사용하려 할 때 문제가 생깁니다. 특정 분야(예: 그림 보고 수학 문제 풀기)는 잘하지만, 일반적인 그림 이해 능력은 떨어지고 가끔 엉뚱한 것을 본 것처럼 말하는("visual hallucinations") 경우가 늘어납니다. 즉, 똑똑하게 생각하는 능력을 키우려다 보니 기본적인 시각 능력이 약해지는 문제가 생긴 것입니다.
이 논문에서는 Skywork R1V2라는 새로운 인공지능 모델을 소개합니다. 이 모델은 이런 문제를 해결하기 위해 특별한 훈련 방식("hybrid reinforcement learning")을 사용합니다. 이 훈련 방식은 두 가지 기술(MPO와 GRPO)을 섞은 것인데, MPO는 모델이 너무 과하게 생각하거나 이상한 환각을 보지 않도록 균형을 잡아주고, GRPO는 모델의 논리적 사고 능력을 더 키워줍니다. 특히 GRPO 훈련 중 발생하는 문제("vanishing advantages", 즉 모델이 비슷비슷한 답만 내놓아 더 이상 배우기 어려워지는 현상)를 해결하기 위해 좋은 훈련 데이터들을 따로 저장했다가 다시 활용하는 SSB라는 기법도 도입했습니다.
그 결과, Skywork R1V2 모델은 어려운 시험들(OlympiadBench, AIME2024 등)에서 기존 공개된 모델들보다 훨씬 좋은 점수를 받았고, 구글이나 OpenAI의 최신 비공개 모델들과의 성능 차이도 많이 줄였습니다. 간단히 말해, 이 연구는 AI가 복잡한 추론 능력과 기본적인 시각 이해 능력을 모두 잘 갖추도록 훈련하는 새로운 방법을 제시한 것입니다.
2 Related Work
2.1 Multimodal Reasoning Models
multimodal AI의 최근 발전은 점점 더 다양한 modalities에 걸쳐 reasoning capabilities를 향상시키는 데 초점을 맞추고 있습니다. Claude-3, GPT-4o, Gemini와 같은 Proprietary models는 놀라운 능력을 보여주었으며, open-source community는 LLaVA, Qwen-VL, InternVL과 같은 경쟁력 있는 대안으로 대응했습니다.
최근 혁신은 extended deliberation을 위한 specialized mechanisms를 도입하는 slow-thinking approaches(예: OpenAI-o1, GeminiThinking, Kimi-1.5)로 전환되었습니다. 이러한 models는 complex reasoning tasks에 추가적인 computational resources를 할당하여 mathematical 및 scientific benchmarks에서 상당한 개선을 보여줍니다. 1세대 Skywork-R1V는 advanced adapter techniques를 통해 text reasoning capabilities를 vision에 직접 적용하여 multimodal reasoning의 새로운 패러다임을 확립했습니다.
그러나 이러한 접근 방식 전반에 걸친 공통적인 과제는 specialized reasoning abilities와 general-purpose multimodal understanding 간의 균형을 유지하는 것입니다. mathematical reasoning에 과도하게 최적화된 Models는 종종 일상적인 visual tasks에서 성능 저하를 보이는 반면, general-purpose models는 복잡한 analytical reasoning에 어려움을 겪습니다. 따라서 reasoning specialization과 generalization 간의 trade-off를 해결하는 것이 우리 연구의 주요 동기 중 하나입니다.
2.2 Preference Optimization in Multimodal Models
Preference optimization은 AI systems를 human expectations에 aligning하기 위한 강력한 패러다임으로 부상했지만, language-only에서 multimodal reasoning으로의 확장은 상당한 과제를 안고 있습니다. RLHF 및 DPO와 같은 기본 기술이 text-based models를 변화시켰지만, multimodal contexts에 직접 적용하려면 cross-modal interactions의 복잡성을 수용하기 위한 상당한 적응이 필요합니다. multimodal preference learning에 대한 최근 연구들은 human preferences를 vision-language alignment에 통합하여 general multimodal tasks에서 response quality를 향상시켰습니다. 간단한 visual question-answering scenarios를 해결하는 데 이러한 진전이 있었음에도 불구하고, complex multimodal reasoning에 preference optimization을 적용하는 것은 상대적으로 덜 탐구되었으며, 이 domain에서의 진전을 방해하는 두 가지 중요한 한계가 있습니다. 첫째, 일반적인 preference pairs의 이진적 특성은 다양한 중간 단계를 가질 수 있는 여러 개의 동등하게 유효한 솔루션이 존재할 수 있는 복잡한 reasoning paths의 미묘한 진행 과정을 포착하지 못합니다. 둘째, 기존 reward models는 주로 textual quality를 독립적으로 평가하여 성공적인 multimodal reasoning을 정의하는 visual interpretation과 logical inference 간의 중요한 관계를 간과합니다.
Skywork R1V2: Related Work 정리노트 (AI 연구자용)
- 2.1 Multimodal Reasoning Models:
- 현황: Proprietary (Claude-3, GPT-4o, Gemini) 및 open-source (LLaVA, Qwen-VL, InternVL) multimodal models 발전 중.
- 최근 동향: 복잡한 reasoning을 위해 추가 연산을 사용하는 "slow-thinking" 접근 방식 (OpenAI-o1, GeminiThinking, Kimi-1.5, 초기 Skywork-R1V) 부상. 이는 수학/과학 benchmarks 성능은 높이나, 핵심 문제점으로 specialized reasoning (e.g., math) 능력과 general-purpose multimodal understanding 간의 trade-off 발생. 즉, reasoning 최적화 시 일반 visual task 성능 저하, 반대로 general 모델은 복잡한 reasoning에 취약. (이 논문의 주요 해결 과제)
- 2.2 Preference Optimization in Multimodal Models:
- 배경: RLHF, DPO 등 preference optimization 기법은 text 모델 alignment에 효과적이었으나, multimodal 적용은 cross-modal 상호작용 복잡성으로 인해 어려움.
- 기존 연구: Multimodal preference learning 연구들이 vision-language alignment에 human preferences를 통합하려 시도했으나, 주로 간단한 VQA에 초점.
- 핵심 한계점 (이 논문이 지적하는):
- Binary Preference의 한계: 복잡한 multimodal reasoning (다양한 유효 중간 단계 존재 가능)의 미묘한 과정을 단순 '선호/비선호' 쌍으로 포착하기 어려움.
- Reward Model의 한계: 기존 reward models는 주로 textual quality에 치중, 성공적인 multimodal reasoning의 핵심인 visual interpretation과 logical inference 간의 연관성 평가를 간과함. (이 논문의 MPO/GRPO 접근 방식의 필요성 강조)
쉬운 설명:
이 섹션에서는 이 연구(Skywork R1V2)가 나오기 전까지 관련 분야(다른 AI 모델들)가 어땠는지 설명하고 있습니다.
- 다른 AI 모델들 현황: 요즘 그림과 글을 함께 이해하는 AI 모델들이 많이 나오고 있습니다. 구글이나 OpenAI 같은 큰 회사들이 만든 강력한 비공개 모델(Claude, GPT-4o, Gemini 등)도 있고, 누구나 쓸 수 있게 공개된 모델(LLaVA, Qwen-VL 등)도 있습니다. 최근에는 어려운 문제를 풀 때 마치 사람이 오래 생각하듯 추가적인 계산을 통해 더 깊게 추론하는 "slow-thinking" 모델들이 주목받고 있습니다. 이 모델들은 수학이나 과학 문제 풀이 능력은 좋아졌지만, 문제는 이런 특정 능력에 집중하다 보니 기본적인 그림 이해 능력이 떨어지는 경우가 있다는 것입니다. 반대로 일반적인 그림 이해를 잘하는 모델은 또 복잡한 추론을 잘 못 하고요. 즉, 두 마리 토끼(전문 추론 능력 + 일반적인 이해력)를 다 잡기 어려운 상황이라는 점을 지적합니다.
- AI 훈련 방식의 문제점: AI를 사람의 선호도에 맞게 훈련시키는 방법(Preference Optimization, 예: RLHF, DPO)이 글만 다루는 AI에는 잘 통했지만, 그림과 글을 함께 다룰 때는 몇 가지 문제가 있습니다. 기존 연구들이 시도했지만, 두 가지 큰 한계점이 있습니다. 첫째, 복잡한 문제 해결 과정에는 여러 단계가 있고 다양한 방법이 가능한데, 단순히 '이 답이 더 좋다/나쁘다'는 이분법적인 평가로는 부족하다는 것입니다. 둘째, 기존의 평가 방식은 AI가 내놓은 글(답변)이 얼마나 좋은지만 주로 보고, AI가 그림을 제대로 이해하면서 논리적으로 추론하고 있는지 그 연관성은 제대로 평가하지 못한다는 문제점을 지적합니다.
결국 이 섹션은 기존 모델과 훈련 방식들이 가진 문제점(특히, 추론 능력과 일반 이해력 간의 불균형, 훈련 평가 방식의 한계)을 설명하면서, "그래서 우리 Skywork R1V2는 이런 문제들을 해결하기 위해 새로운 방식을 제안한다" 는 배경을 설명해주는 부분입니다.
3 Methodology
이 섹션에서는 Skywork R1V2의 핵심 methodology를 소개합니다. 기존 R1V 시리즈를 기반으로, R1V2는 reasoning capability와 general-purpose performance 간의 균형을 더 잘 맞추기 위해 reinforcement learning과 reward-model-guided preference learning을 결합한 hybrid training strategy를 통합합니다.
3.1 Efficient Multimodal Transfer via Modular Reassembly
large-scale multimodal reasoning data에 대한 의존도를 줄이기 위해, 우리는 visual-language representations의 alignment와 reasoning capabilities의 보존을 분리합니다. 구체적으로, 우리는 frozen vision encoder $f_v$와 reasoning-capable language model $f_l$을 연결하기 위해 $f_c$로 표기되는 경량 multi-layer perceptron (MLP) adapter를 도입합니다. 여기서 우리는 vision encoder로 InternViT-6B를, language model로 QwQ-32B를 선택합니다. 공식적으로, visual input $x_v$와 text input $x_t$가 주어졌을 때, 전체 process는 다음과 같이 표현됩니다:
$y = f_l(f_c(f_v(x_v)), x_t)$ $(1)$
여기서 $f_v$는 visual features를 추출하고, $f_c$는 이러한 features를 language model과 호환되도록 조정하며, $f_l$은 조정된 visual features와 textual input $x_t$를 모두 통합하여 reasoning을 수행하고 output $y$를 generate합니다.
1세대 R1V와 달리, R1V2는 supervised fine-tuning (SFT) 단계를 제거합니다. 최근 연구 결과에 따르면 SFT는 후속 reinforcement learning 또는 reasoning processes의 성능을 의도치 않게 저해할 수 있으며, 이는 model이 진정한 reasoning behaviors를 개발하는 능력을 방해할 수 있습니다. SFT에 의존하는 대신, R1V2는 pretrained reasoning language model을 visual adapter와 직접 연결하는 modular approach를 채택합니다. 이 접근 방식은 general visual understanding에서 약간의 감소를 초래하지만, language model의 고유한 reasoning ability를 보존하고 SFT로 인한 degradation을 피함으로써 전체 reasoning performance에 크게 기여합니다.
우리는 다양한 model components를 freezing하고 activating하는 실험을 체계적으로 수행했으며, 놀라운 현상을 관찰했습니다: text와 vision의 capabilities는 높은 transferability를 보이며, 한 modality에서의 개선이 다른 modality에 직접적인 이점을 제공합니다. 특히, vision encoder만 training하는 것은 제한적인 이득을 가져오는 반면, adapter-only training과 joint LLM+adapter training 모두 매우 효과적인 것으로 입증되었으며, 이는 visual encoding보다는 cross-modal alignment가 multimodal reasoning의 critical bottleneck임을 시사합니다.
3.2 Mixed Preference Optimization
reinforcement learning 전에 강력한 model을 달성하고 reasoning과 generalization의 균형을 맞추기 위해, 우리는 Internvl series model에서 성공적으로 시연된 Mixed Preference Optimization (MPO)을 우리 optimization pipeline의 중요한 구성 요소로 사용합니다. 우리 R1V2 model의 alignment는 MPO를 사용하여 우리의 iterative optimization process를 안내하는 Skywork-VL reward model에 의해 크게 향상됩니다. 눈에 띄게, 이 process는 generated output에서 반복적인 chain-of-thought (CoT)와 overthinking의 발생을 상당히 감소시킵니다.
MPO loss function은 일반적으로 다음과 같이 표현될 수 있습니다:
$L = w_1 L_{\text{preference}} + w_2 L_{\text{quality}} + w_3 L_{\text{generation}}.$ $(2)$
$L_{\text{preference}}$는 일반적으로 positive samples와 negative samples 간의 relative preference를 최적화할 수 있는 DPO loss입니다:
$L_{\text{preference}} = - \log \sigma \left( \beta \log \frac{\pi_{\theta} (y_c | x)}{\pi_{0} (y_c | x)} - \beta \log \frac{\pi_{\theta} (y_r | x)}{\pi_{0} (y_r | x)} \right)$ $(3)$
여기서 $\beta$는 KL penalty coefficient이고, prompt, positive sample, negative response는 각각 $x$, $y_c$, $y_r$로 표현됩니다. policy model $\pi_{\theta}$는 $\pi_0$에서 초기화됩니다.
$L_{\text{quality}}$는 BCO loss입니다. 이 loss는 model이 individual responses의 absolute quality를 이해하는 데 도움이 됩니다. 이 algorithm은 binary classifier를 train하며, 여기서 logit은 reward 역할을 하고 효과적으로 chosen response를 1로, rejected response를 0으로 매핑합니다. loss function은 다음과 같이 정의됩니다:
$L_{\text{quality}} = L^{+}_{\text{quality}} + L^{-}_{\text{quality}} = - \left[ \log \sigma \left( \beta \log \frac{\pi_{\theta} (y_c | x)}{\pi_{0} (y_c | x)} - \delta \right) + \log \sigma \left( - \left( \beta \log \frac{\pi_{\theta} (y_r | x)}{\pi_{0} (y_r | x)} - \delta \right) \right) \right]$ $(4)$
여기서 $\delta$는 training을 안정화하기 위해 과거 rewards의 moving average로 실제 계산되며, 이는 online RL method에서 일반적인 방법입니다.
또한, generation loss는 다음과 같습니다:
$L_{\text{generation}} = - \frac{\log \pi_{\theta}(y_c|x)}{|y_c|}$ $(5)$
이는 일반적으로 Negative Log Likelihood loss (NLL)이며, base model’s outputs와 preferred responses 간의 distribution shift를 줄이는 것을 목표로 model이 chosen response를 학습하도록 안내합니다.
Mixed Preference Optimization strategy는 Skywork-VL reward model의 preference signals와 hand-crafted rule-based constraints(예: format correctness, factual consistency, step-by-step reasoning completeness)를 통합할 수 있습니다. 이 hybrid reward structure는 model’s outputs를 modalities 전반에 걸쳐 stylistic preferences와 factual requirements 모두에 더 잘 aligning합니다.
3.3 Reinforcement Fine-tuning
VLMs의 reinforcement fine-tuning 단계에서 우리는 주로 rule-based reward와 model-based reward로 구성된 hybrid supervised signal과 함께 GRPO Algorithm을 사용합니다. 또한, reinforcement learning process의 efficiency를 더욱 향상시키기 위해 SSB mechanism을 활용합니다.
3.3.1 GRPO Algorithm with Hybrid Reward Signal
multi-modal contexts에서의 향상된 reasoning을 위해, 우리는 원래 text-only LLMs를 위해 개발된 일반적인 RL algorithm인 Group Relative Policy Optimization (GRPO)을 적용합니다. GRPO는 특정 query에 대해 조건화된 generated responses의 intra-group comparisons를 수행하여 token-level advantage estimates를 계산하도록 설계된 policy optimization algorithm입니다. 주어진 input instance $x$에 대해, behavior policy $\pi_{\theta_{\text{old}}}$는 $N$개의 candidate responses $\{y_i\}_{i=1}^N$ 배치를 samples합니다. $i$-번째 response의 time step $t$에서의 advantage $\hat{A}_{i,t}$는 response group 전체에서 얻은 rewards를 정규화하여 결정됩니다:
$\hat{A}_{i,t} = \frac{r(x, y_i) - \text{mean}(\{r(x, y_1), ..., r(x, y_N)\})}{\text{std}(\{r(x, y_1), ..., r(x, y_N)\})}$ $(6)$
reasoning ability에서의 "alignment tax"를 완화하기 위해, 우리는 다시 Skywork-VL reward model을 활용하여 rule-based reward $r_{\text{rule}}$를 보완하는 preference reward signal $r_{\theta}$를 도입합니다. 또한, model’s output을 DeepSeek R1-style chat template과 align하기 위해 format reward $r_{\text{format}}$를 통합합니다. 따라서 우리의 hybrid reward function은 다음과 같이 정의됩니다:
$r(x, y_i) = r_{\text{rule}}(x, y_i) + r_{\theta}(x, y_i) + r_{\text{format}}(x, y_i)$ $(7)$
GRPO optimization objective는 stable policy updates를 보장하기 위해 KL-penalty로 보강된 clipped surrogate loss term을 통합하며, 다음과 같이 공식화됩니다:
$L_{\text{GRPO}}(\theta) = \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \min \left( \frac{\pi_{\theta}(y_{i,t} | x_i, y_{i,
hyperparameter $\epsilon$은 policy deviation에 대한 허용 오차를 결정합니다. clipping function은 current policy와 reference policy의 ratio를 미리 정의된 interval 내로 제한하여 과도하게 큰 policy updates를 방지하는 역할을 합니다. 이 mechanism은 training stability를 촉진하고 지나치게 aggressive updates로 인한 performance degradation의 위험을 완화합니다.
3.3.2 Addressing Vanishing Advantages via SSB
그러나 GRPO를 VLMs에 직접 적용하는 것은 특히 MPO 사용 이후 그 제한된 효과로 인해 어려움에 직면합니다. 놀랍게도, 우리는 GRPO training 중에 optimization의 upper bound를 방해할 수 있는 해로운 "Vanishing Advantages" phenomenon을 관찰했습니다. 이 문제는 query group 내의 모든 responses가 균일한 correctness 또는 incorrectness로 수렴하여 relative advantage signals이 감소하고 효과적인 gradient-based policy updates를 방해할 때 발생합니다.
이 문제를 해결하기 위해, 우리는 이전 iterations에서 non-zero advantages를 가진 high-quality training examples를 식별하고 caching하여 작동하는 Selective Sample Buffer (SSB)를 사용합니다. 이 접근 방식은 weighted sampling을 통해 advantage signals의 absolute value를 기준으로 samples의 우선 순위를 정하고, policy updates 중에 이러한 informative samples를 전략적으로 다시 도입합니다. 이 방법은 model responses가 수렴하더라도 gradient-rich training environment를 유지합니다.
중요한 경험적 관찰은 non-zero advantages를 보이는 효과적인 training samples가 시작 시 약 60%에서 후반 단계에는 40% 미만으로 극적으로 감소한다는 것입니다. 이러한 심각한 감소는 training efficiency를 마비시킵니다. SSB mechanism은 가치 있는 training signals의 지속적인 공급원을 보장함으로써 이에 적극적으로 대처합니다. 더욱이, 우리는 SSB를 offline inference time의 rollout에 미리 통합하여 효과적으로 filtered prompt pool을 생성하면 초기 optimization 동안 training efficiency가 10% 이상 크게 향상된다는 것을 발견했습니다.
우리의 실험은 SSB mechanism이 training efficiency를 상당히 증가시키며, 전체 training과 동등한 performance improvements가 단지 일부 samples만 사용하여 달성됨을 보여줍니다. 이 접근 방식은 "Vanishing Advantages" 문제를 해결할 뿐만 아니라 model이 mid-training에서 plateauing하는 것을 방지하여 reasoning capabilities의 지속적인 개선을 보장합니다.
또한, 우리는 visual reasoning과 textual reasoning capabilities가 training 중에 complementary patterns를 보이지만, visual reasoning에 대한 과도한 강조는 hallucination 증가로 이어질 수 있음을 주목했습니다. 우리는 이것이 더 강력한 visual reasoning이 visual elements 간의 더 creative interpolation을 필요로 하기 때문에 발생한다고 믿습니다. SSB는 두 domains 모두에서 다양한 learning signals를 보존함으로써 이러한 modalities 간의 적절한 balance를 유지하는 데 도움이 됩니다.
Skywork R1V2: Methodology 정리노트 (AI 연구자용)
- Overall Strategy: R1V 아키텍처 기반, reasoning 능력과 general-purpose 성능 균형을 위한 hybrid training (MPO + GRPO) 적용.
- 3.1 Efficient Multimodal Transfer via Modular Reassembly:
- 핵심: Large-scale multimodal data 의존도 감소 및 SFT (Supervised Fine-tuning) 단계 제거. (SFT가 후속 RL/reasoning 성능 저해 가능성)
- 구조: Frozen vision encoder (InternViT-6B, )와 reasoning LLM (QwQ-32B, )을 경량 MLP adapter ()로 직접 연결 (Eq. 1: ).
- 관찰: Vision encoder 자체보다 cross-modal alignment (adapter/LLM training)가 bottleneck. Text-vision 능력 간 높은 transferability 확인.
- 3.2 Mixed Preference Optimization (MPO):
- 목표: RL 전 강력한 baseline 확보 및 reasoning/generalization 균형. (InternVL에서 효과 입증)
- 핵심 요소: 자체 Skywork-VL reward model을 활용한 iterative optimization. CoT 반복 및 overthinking 감소 효과.
- Loss 구성 (Eq. 2): .
- : DPO 방식, positive/negative sample 상대 선호도 최적화 (Eq. 3).
- : BCO 방식, 개별 response 절대 품질 학습 (binary classifier, reward mapping) (Eq. 4).
- : NLL 방식, 선호 response 학습 (distribution shift 감소) (Eq. 5).
- 특징: Reward model signal과 rule-based constraints (포맷, 일관성 등) 통합 -> stylistic/factual 요구사항 동시 만족.
- 3.3 Reinforcement Fine-tuning (GRPO + SSB):
- 목표: Reasoning 능력 추가 강화.
- 3.3.1 GRPO Algorithm with Hybrid Reward Signal:
- 적용: Text-only RL algorithm인 GRPO를 VLM reasoning에 맞게 적용. Intra-group 비교 통한 token-level advantage () 계산 (Eq. 6).
- Hybrid Reward (Eq. 7): . Alignment tax 완화 위해 rule-based reward 외 Skywork-VL reward model 기반 preference reward () 및 format reward () 추가.
- 최적화: Clipped surrogate loss + KL-penalty 사용 (Eq. 8) 안정적 policy update.
- 3.3.2 Addressing Vanishing Advantages via SSB:
- 핵심 문제점: GRPO (특히 MPO 후) 적용 시 "Vanishing Advantages" 현상 발생. Query group 내 response들이 유사해져(모두 정답/오답) relative advantage signal 소멸, 학습 정체.
- 해결책: SSB (Selective Sample Buffer): 이전 iteration에서 non-zero advantage를 가진 high-quality training examples를 caching하고, advantage 절대값 기반 weighted sampling으로 재도입.
- 효과: 유효 학습 샘플 감소(60% -> <40%) 문제 해결, gradient-rich 환경 유지. Offline inference 시 SSB 사전 적용으로 초기 학습 효율 10% 이상 향상. Training efficiency 증대, 중반부 plateauing 방지, 지속적 reasoning 능력 향상.
- 부가 관찰: Visual/Textual reasoning 능력은 상호 보완적이나, visual reasoning 과잉 강조 시 hallucination 증가 가능성. SSB는 다양한 learning signal 보존 통해 modality 간 균형 유지 도움.
쉬운 설명:
이 섹션에서는 Skywork R1V2 모델을 실제로 어떻게 만들고 훈련시키는지 그 기술적인 방법들을 설명합니다.
- 모델 조립 방식 (똑똑한 뇌 + 좋은 눈 + 번역기):
- 보통 AI를 처음부터 가르치거나(SFT) 하는 대신, 이 연구에서는 이미 똑똑하게 학습된 **"뇌"(reasoning 언어 모델)**와 이미지를 잘 보는 **"눈"(vision encoder)**을 가져옵니다. 그리고 이 둘이 서로 잘 소통하도록 아주 작은 **"번역기"(MLP adapter)**를 중간에 끼워 넣습니다. 이렇게 하면 "뇌"가 원래 가지고 있던 똑똑한 추론 능력을 잃지 않으면서 이미지를 이해할 수 있게 됩니다. SFT라는 초기 학습 과정을 생략하는 것이 중요한데, 이게 오히려 나중에 더 똑똑하게 만드는 훈련(RL)을 방해할 수 있기 때문입니다.
- 훈련 1단계 (MPO - 좋은 답 나쁜 답 알려주기):
- 첫 번째 훈련 단계는 MPO라는 방식입니다. AI에게 어떤 질문에 대한 여러 답변들을 보여주고, "이건 좋은 답(positive), 저건 나쁜 답(negative)"이라고 알려주면서 좋은 답과 비슷하게 말하도록 가르칩니다. 단순히 좋고 나쁨뿐만 아니라, 답변 자체가 얼마나 괜찮은지(quality), 그리고 좋은 답변을 만들어내는 과정 자체(generation)도 학습합니다. 이때 자체 개발한 Skywork-VL reward model이라는 평가 모델이 어떤 답이 더 좋은지 판단해주는 역할을 합니다. 이 과정을 통해 AI가 덜 엉뚱한 소리(hallucination)를 하고, 너무 장황하게 생각만 하는(overthinking) 것을 줄일 수 있습니다.
- 훈련 2단계 (GRPO + SSB - 어려운 문제 풀이 능력 강화 + 막힘 뚫기):
- 두 번째 훈련 단계는 GRPO라는 방식으로, AI의 추론 능력을 더 끌어올립니다. 이 방식은 AI가 같은 질문에 대해 내놓은 여러 답변들을 서로 비교해서 어떤 부분이 더 나은지를 파악하고 학습합니다.
- 그런데 문제가 생겼습니다. 훈련을 계속하다 보니 AI가 내놓는 답변들이 다 비슷비슷해져서(전부 정답이거나 전부 오답) 더 이상 뭘 배워야 할지 모르는 상태("Vanishing Advantages", 배울 점이 사라짐)가 되는 것을 발견했습니다.
- 그래서 특별한 비법, SSB(Selective Sample Buffer)를 사용합니다. 마치 오답 노트처럼, 예전에 AI가 어려워했거나 다양한 시도를 했던 "흥미로운" 문제와 답변들(non-zero advantages)을 따로 모아둡니다(caching). 그리고 훈련 중에 이 문제들을 다시 꺼내서 풀어보게 합니다(reintroducing). 이렇게 하면 AI가 계속해서 배울 거리를 찾고 학습이 정체되는 것을 막을 수 있습니다. 이 단계에서는 규칙 기반 보상, 모델 기반 선호도 보상, 형식 맞추기 보상 등 여러 종류의 보상을 섞어서(hybrid reward) 사용합니다.
결론적으로, 이 방법론은 똑똑한 부품들을 잘 조립하고, 두 단계의 체계적인 훈련(MPO, GRPO)과 특별한 장치(SSB)를 통해 AI가 이미지도 잘 이해하면서 복잡한 추론도 잘하는 균형 잡힌 모델이 되도록 만드는 과정입니다.