VLM : 논문 리뷰 : Perception Before Reasoning: Two-Stage Reinforcement Learning for Visual Reasoning in Vision-Language Models

논문리뷰

VLM : 논문 리뷰 : Perception Before Reasoning: Two-Stage Reinforcement Learning for Visual Reasoning in Vision-Language Models

AI바라기 2025. 10. 1. 13:05

용어 설명

VLM (Vision-Language Model): 이미지와 텍스트를 함께 이해하고 처리하는 multimodal model.
RL (Reinforcement Learning): 보상(reward)을 최대화하는 방향으로 에이전트(model)를 학습시키는 방법.
PeBR-R1: 이 논문에서 제안한 2-stage RL framework로 학습된 최종 vision-language model의 이름.
Two-Stage Reinforcement Learning: 학습 과정을 'Perception' 단계와 'Reasoning' 단계로 명확히 분리하여 순차적으로 진행하는 이 논문의 핵심 framework.
Dataset-level Sampling: 모델 응답의 정답률에 따라 전체 데이터셋을 Easy, Medium, Hard 세 가지 case로 분류하는 전략. 이는 각 학습 단계에 최적화된 데이터를 공급하기 위해 사용됨.
Vanishing Advantage: RL 학습 시, 생성된 여러 응답 그룹의 reward가 모두 동일할 경우 (전부 정답이거나 전부 오답), 학습 신호(advantage)가 0이 되어 모델이 효과적으로 학습하지 못하는 문제.
Perception RL: 2-stage 중 첫 번째 단계. 모델의 시각적 인식(visual perception) 능력을 향상시키는 데 집중함. Easy cases 데이터를 사용함.
Reasoning RL: 2-stage 중 두 번째 단계. Perception RL 이후, 모델의 논리적 추론(reasoning) 능력을 강화하는 데 집중함. Medium cases 데이터를 사용함.
GRPO (Group-based Relative Policy Optimization): 여러 후보 응답 그룹을 생성하고, 그룹 내 상대적 비교를 통해 policy를 안정적으로 최적화하는 RL 알고리즘.
FG-CLIP: 이미지-텍스트 간의 미세한(fine-grained) 의미적 일치도를 측정하는 데 특화된 CLIP 모델. Perception RL 단계에서 reward 신호로 사용됨.

Purpose of the Paper

기존의 VLM을 위한 RL 방법들은 LLM의 RL 기법을 그대로 적용하여, 시각적 정보를 제대로 인식하지 못하고 언어적 편향에만 의존하는 visual neglect 문제를 야기했습니다. 즉, VLM이 '보고' 이해하는 능력(perception)과 그 정보를 바탕으로 '생각'하는 능력(reasoning)의 실패를 구분하지 못하고 함께 학습시켜 비효율적이었습니다.

이 논문은 이러한 한계를 극복하기 위해, **'정확한 추론은 정확한 인식에서 비롯된다'**는 전제하에 Perception과 Reasoning 능력을 분리하여 순차적으로 강화하는 Two-Stage Reinforcement Learning framework를 제안합니다. 이를 통해 VLM이 먼저 시각적 정보를 정확히 파악한 후, 이를 기반으로 논리적 추론을 수행하도록 유도하여 전반적인 visual reasoning 성능을 극대화하고자 합니다.

Key Contributions & Novelty

Contribution 1: Two-Stage Reinforcement Learning Framework 제안
- VLM 학습을 시각적 이해를 위한 Perception RL 단계와 논리적 추론을 위한 Reasoning RL 단계로 분리했습니다.
- Novelty: Perception과 Reasoning을 명시적으로 분리하고 순차적으로 학습시키는 접근법은 VLM 분야에서 새로운 시도입니다. 이는 복잡한 multimodal task를 더 체계적이고 효과적으로 해결할 수 있는 구조를 제시합니다.
Contribution 2: 난이도 기반 Dataset Sampling 전략 설계
- 모델의 응답 정확도에 따라 데이터를 Easy, Medium, Hard case로 분류하고, 각 학습 단계에 맞는 데이터를 선별적으로 사용합니다 (Easy for Perception, Medium for Reasoning).
- Novelty: 이 전략은 RL의 고질적인 vanishing advantage 문제를 완화하고, 각 학습 단계의 목표에 가장 적합한 '학습 재료'를 제공하여 학습 효율과 안정성을 크게 향상시켰습니다.
Contribution 3: 각 Stage에 특화된 Reward Signal 설계
- Perception RL: 이미지와 생성된 설명 간의 일치도를 평가하는 FG-CLIP score와 핵심 시각적 요소를 포함했는지 평가하는 keyword reward를 사용해 coarse-grained 및 fine-grained 시각 이해 능력을 동시에 강화합니다.
- Reasoning RL: 최종 답변의 정확도를 평가하는 accuracy reward와 답변 구조의 일관성을 평가하는 format reward를 통해 논리적 추론 능력을 직접적으로 최적화합니다.

Experimental Highlights

Datasets: MathVista, ChartQA, HallBench 등 7개의 대표적인 multimodal reasoning benchmark에서 성능을 평가했습니다.
Key Result: 7B 파라미터의 PeBR-R1-7B 모델이 72B 파라미터의 Qwen2.5-VL-72B와 같은 훨씬 큰 open-source 모델들을 여러 benchmark에서 능가하는 SOTA 성능을 달성했습니다.
- MathVista: PeBR-R1-7B (76.0%) vs. Qwen2.5-VL-72B (74.8%)
- ChartQA: PeBR-R1-7B (89.6%) vs. Qwen2.5-VL-72B (89.5%)
Ablation Study: 제안된 2-stage 접근법의 효과를 입증했습니다. (Table 2)
- Baseline (Warm-up) 모델: 69.8%
- Reasoning RL만 적용: 73.9%
- 제안 방법 (Perception RL + Reasoning RL): 76.0%
- 이 결과는 perception 능력을 먼저 강화하는 것이 최종 reasoning 성능 향상에 결정적임을 수치적으로 보여줍니다.

Limitations and Future Work

Limitations:
- Perception RL 단계에서 keyword reward를 생성하기 위해 Seed1.5-VL이라는 외부 "teacher" 모델에 의존합니다. 이 teacher 모델의 성능이 전체 framework의 성능에 영향을 미칠 수 있습니다.
- 전체 학습 과정이 Supervised Fine-tuning (SFT) → 데이터 샘플링 → Perception RL → Reasoning RL의 여러 단계로 구성되어 있어, end-to-end 학습 방식에 비해 복잡합니다.
Future Work:
- Teacher 모델에 대한 의존도를 줄이고, reward signal 생성을 자동화하거나 self-improvement 방식으로 개선하는 연구가 필요합니다.
- 제안된 2-stage framework를 더 광범위하고 다양한 multimodal task (e.g., video reasoning)에 적용하여 일반화 성능을 검증할 수 있습니다.

Overall Summary

이 논문은 VLM의 visual reasoning 능력을 향상시키기 위해, 학습 과정을 '인식(Perception)'과 '추론(Reasoning)'의 두 단계로 분리하는 독창적인 Two-Stage RL framework를 제안합니다. 난이도 기반 데이터 샘플링과 각 단계에 특화된 reward 설계를 통해, 모델이 먼저 시각적 정보를 정확히 이해한 후 논리적 사고를 하도록 체계적으로 학습시킵니다. 그 결과, PeBR-R1이라는 모델은 훨씬 큰 규모의 모델들을 능가하는 뛰어난 성능을 보였으며, 이는 복잡한 multimodal reasoning에서 '제대로 보는 것'의 중요성을 입증한 의미 있는 연구입니다.

쉬운 설명

이 논문의 핵심 아이디어는 학생에게 어려운 수학 그림 문제를 가르치는 과정과 유사합니다.

기존 방식: 학생에게 문제의 그림(perception)과 풀이(reasoning)를 한 번에 가르치려고 시도합니다. 학생은 그림의 조건을 잘못 읽고도 우연히 답을 맞히거나, 그림은 이해했지만 계산을 틀리는 등 어디서부터 잘못됐는지 헷갈려 합니다.
이 논문의 방식: 학습을 두 단계로 나눕니다.
1. 1단계 (Perception RL): 먼저 학생에게 문제의 그림과 텍스트를 **'꼼꼼하게 읽고 모든 조건을 정확히 파악하는 연습'**만 시킵니다. 예를 들어, "사과는 3개, 파란 공은 5개" 와 같이 그림 속 정보를 정확히 인식하는 훈련에만 집중합니다. (쉬운 문제들, 즉 Easy cases 활용)
2. 2단계 (Reasoning RL): 1단계를 마스터한 학생에게, 이제 그 정보를 바탕으로 **'어떻게 식을 세우고 답을 계산하는지'**를 가르칩니다. (약간 헷갈리는 문제들, 즉 Medium cases 활용)

이처럼 '인식'과 '추론'을 분리하여 순서대로 가르쳤을 때 학생(모델)이 훨씬 더 효과적으로 문제를 해결할 수 있다는 것을 보여준 연구입니다.

Abstract

Reinforcement learning (RL)은 large language models (LLMs)의 reasoning 능력을 이끌어내는 데 매우 효과적인 것으로 입증되었습니다. 이러한 성공에 영감을 받아, 최근 연구들은 유사한 기술을 vision-language models (VLMs)에 적용하여 reasoning performance를 향상시키는 것을 목표로 탐구해왔습니다.

그러나 LLMs의 RL methods를 VLMs에 직접 이식하는 것은 최적이 아닌데, 이는 VLMs가 직면하는 tasks가 본질적으로 더 복잡하기 때문입니다. 구체적으로, VLMs는 reasoning이 효과적으로 수행되기 전에 먼저 visual inputs을 정확하게 perceive하고 understand해야 합니다. 이 문제를 해결하기 위해, 우리는 VLMs의 perceptual 능력과 reasoning 능력을 함께 향상시키도록 설계된 two-stage reinforcement learning framework를 제안합니다.

RL training에서 흔히 관찰되는 vanishing advantage issue를 완화하기 위해, 우리는 먼저 dataset-level sampling을 수행하여 서로 다른 data sources를 사용해 특정 능력을 선택적으로 강화합니다. training 동안 첫 번째 stage는 coarse- and fine-grained visual understanding을 통해 model의 visual perception을 향상시키는 데 중점을 두며, 두 번째 stage는 reasoning abilities의 향상을 목표로 합니다.

제안된 two-stage reinforcement learning process를 거친 후, 우리는 perceptual 및 reasoning 능력이 크게 향상된 vision-language model인 PeBR-R1을 얻었습니다. 7개의 benchmark datasets에 대한 실험 결과는 우리 approach의 효과를 입증하고 다양한 visual reasoning tasks에서 PeBR-R1의 우수한 performance를 확인시켜 줍니다.

Project Page — https://github.com/cythu/PeBR-R1

1 Introduction

Reinforcement learning (RL)은 large language models (LLMs)를 인간의 선호도에 맞추는 핵심 기술이 되었습니다. GRPO와 DAPO와 같은 최근 methods는 더 안정적인 optimization으로 reasoning을 더욱 향상시킵니다. 이를 바탕으로, RL은 multimodal reasoning을 향상시키기 위해 vision-language models (VLMs)에 적용되었습니다. 그러나 대부분의 approaches는 visual inputs에 대한 조정 없이 LLMs의 RL paradigms를 직접 채택하여, models가 image content는 무시하고 language priors에 overfit하는 visual neglect로 이어집니다. 주류 VLMs는 약한 language supervision (예: captioning, dialogue) 하에 trained되기 때문에 object relations 및 spatial reasoning과 같은 fine-grained perception tasks에 어려움을 겪습니다. 이러한 한계는 perception과 reasoning을 모두 명시적으로 향상시키는 RL strategies의 필요성을 강조합니다.

vision-language models (VLMs)의 multimodal reasoning tasks에 대한 performance를 향상시키기 위해, 우리는 model의 perceptual 능력과 reasoning 능력을 공동으로 optimizes하는 two-stage reinforcement learning framework를 제안합니다. reward signals를 신중하게 설계함으로써, 우리의 approach는 model이 주어진 question과 밀접하게 관련된 주요 visual regions 및 semantic concepts에 주목하도록 효과적으로 유도하여 multimodal reasoning capability를 점진적으로 향상시킵니다. 그림 1에서 볼 수 있듯이, 우리의 7B model은 여러 vision-language reasoning benchmarks에서 최대 72B parameters를 가진 특정 open-source models보다도 뛰어난 성능을 보이며, 제안된 framework의 효과를 입증합니다.

이러한 performance 향상을 달성하기 위해, 우리는 reinforcement learning process의 안정성과 효능을 모두 보장하는 정제된 training procedure를 설계합니다. 첫째, model에 초기 perceptual 및 reasoning capabilities를 제공하기 위해, 우리는 Mulberry-260K dataset에서 supervised fine-tuning (SFT)을 통해 warm-up stage를 수행합니다. 그러나 SFT 이후 특정 reasoning tasks에서 눈에 띄는 performance drop을 관찰했습니다. 이 문제를 완화하기 위해, 우리는 model의 약점을 구체적으로 해결하는 추가적인 목표 예제들로 training set을 보강합니다. 둘째, 주요 reinforcement learning 단계에 앞서, 우리는 지나치게 일관된 reward patterns에서 발생할 수 있는 vanishing advantage signals로 인한 performance 저하를 완화하기 위해 sample filtering mechanism을 도입합니다. 구체적으로, 각 question에 대해 8개의 독립적인 rollouts을 수행하여 다양한 model responses를 생성합니다. 정답의 수에 따라 각 question은 Easy cases (8개 답변 모두 정답), Medium cases (부분적으로 정답), Hard cases (모두 오답)의 세 가지 하위 집합 중 하나로 분류됩니다.

첫 번째 reinforcement learning stage에서, 우리는 final answers의 정확성을 직접 optimizing하지 않고 model의 visual perception capabilities를 향상시키는 데 명시적으로 집중합니다. model이 신뢰할 수 있는 perceptual signals에 의해 유도되도록 보장하기 위해, 우리는 training을 위해 Easy cases만을 독점적으로 선택하여 perception과 부정확한 outputs 간의 허위 상관관계를 강화할 위험을 최소화합니다. 우리는 model outputs에서 Image Description 섹션을 추출하여 두 가지 상호 보완적인 reward signals를 구성합니다. 첫 번째는 생성된 설명과 input image 간의 coarse-grained alignment를 측정하는 FGCLIP을 기반으로 합니다. 두 번째는 pre-trained vision-language model (Seed1.5-VL)에 의해 생성되고 품질과 관련성을 보장하기 위해 수동으로 선별된 fine-grained semantic keywords 집합을 활용하여, model이 task 해결에 필수적인 주요 visual concepts를 인식하도록 장려합니다.

reinforcement learning의 두 번째 stage는 model의 reasoning abilities를 향상시키는 데 전념합니다. vanishing advantages 문제를 완화하고 안정적인 gradient updates를 제공하기 위해, 이 stage에서는 Medium cases를 training samples로 사용합니다. 우리는 model outputs의 logical consistency와 신뢰성을 향상시키기 위해 rule-based reward signals를 사용합니다. 이러한 reward signals에는 구조화된 responses를 장려하는 format correctness rewards와 final answers의 정확성을 보장하는 accuracy rewards가 포함됩니다. two-stage reinforcement learning framework에서의 optimization을 위해, 우리는 Group-based Relative Policy Optimization (GRPO) method를 채택하여 여러 후보 responses에 걸친 normalized advantage estimation을 활용하여 policy updates를 안정화합니다. 앞서 설명한 sample filtering 및 stage-control strategies는 비효율적인 learning signals로부터의 간섭을 효과적으로 방지합니다.

우리의 주요 contributions는 다음과 같습니다:

우리는 visual perception과 multimodal reasoning abilities를 점진적으로 향상시키는 two-stage reinforcement learning framework를 제안합니다.
우리는 image-text consistency와 fine-grained keyword alignment rewards를 통합하고 object recognition, numerical understanding, attribute comprehension, spatial relation modeling에서 model의 capabilities를 효과적으로 향상시키는 GRPO-based visual Perception Reinforcement Learning approach를 제안합니다.
two-stage reinforcement learning process를 통해, 우리는 perceptual 및 reasoning capabilities가 크게 향상된 vision-language model인 PeBR-R1을 얻었습니다. 기존 methods와 비교하여 PeBR-R1은 다양한 visual perception benchmarks에서 일관되게 우수한 performance를 보여줍니다.

정리노트

Problem Definition

기존 vision-language models (VLMs)에 Reinforcement Learning (RL)을 적용하는 연구들은 LLMs의 paradigms를 그대로 차용하는 경향이 있음.
이는 VLMs가 language priors에 overfit하고 image content를 무시하는 visual neglect 문제를 야기함. VLMs는 reasoning 이전에 정확한 visual perception이 필수적이기 때문.

Proposed Method: Two-Stage Reinforcement Learning Framework 이 논문은 perception과 reasoning 능력을 순차적이고 명시적으로 강화하는 2단계 RL framework를 제안함.

Pre-Training & Data Strategy:
- Supervised Fine-Tuning (SFT): Mulberry-260K dataset으로 warm-up을 진행하여 기본적인 perception 및 reasoning 능력을 확보함.
- Sample Filtering: RL training에 앞서, vanishing advantage 문제를 완화하기 위해 rollouts을 기반으로 dataset을 Easy, Medium, Hard cases로 분류함. 이는 각 stage에 최적화된 데이터만 선별하여 학습 효율을 극대화하는 핵심 전략임.
Stage 1: Enhancing Visual Perception
- Goal: final answer의 정답 여부가 아닌, model의 visual perception capabilities 향상에만 집중.
- Data: Easy cases 만을 사용하여 spurious correlation의 위험을 최소화하고 안정적인 perceptual signals를 학습.
- Reward Signals:
  1. Coarse-grained Alignment: FGCLIP을 이용해 생성된 이미지 설명과 실제 이미지 간의 전반적인 일치도를 reward로 사용.
  2. Fine-grained Keywords: pre-trained VLM이 생성하고 수동으로 검증한 semantic keywords를 model이 인식하도록 유도하여, 세밀한 visual concepts 인지 능력을 강화.
Stage 2: Enhancing Reasoning Abilities
- Goal: model의 논리적 일관성과 정답 정확도, 즉 reasoning abilities를 강화.
- Data: Medium cases를 사용하여 안정적인 gradient updates를 제공.
- Reward Signals:
  1. Format Correctness Rewards: 구조화된 답변을 유도.
  2. Accuracy Rewards: final answer의 정확성을 보상.
Optimization:
- Group-based Relative Policy Optimization (GRPO)를 optimization method로 채택하여 policy updates를 안정화함.

Contribution

PeBR-R1이라는 VLM을 통해 제안된 framework의 효과를 입증. 7B model로 더 큰 open-source models의 performance를 능가함.
Perception과 Reasoning을 분리하고 점진적으로 강화하는 독자적인 2단계 RL 접근 방식을 제안함.

쉬운 설명 :

AI가 이미지와 질문을 보고 답을 찾는 vision-language model (VLM)이 있다고 상상해 봅시다. 기존 방식은 AI를 똑똑하게 만들려고 Reinforcement Learning (RL)이라는 훈련법을 썼지만, 문제가 있었습니다. AI가 이미지의 중요한 단서를 무시하고 질문(텍스트)에만 의존해서 "눈치껏" 답을 맞히려는 visual neglect 현상이 나타난 것입니다. 그림은 대충 보고 글만 읽고 푸는 학생과 같습니다.

이 논문은 이 문제를 해결하기 위해 AI를 위한 2단계 특별 훈련 프로그램을 만들었습니다.

1단계: 제대로 '보는' 법 배우기 (Perception 강화) 먼저 AI에게 아주 쉬운 문제들(Easy cases)만 줍니다. 그리고 정답을 맞혔는지는 신경 쓰지 않고, 대신 이미지를 얼마나 정확하고 자세하게 묘사했는지를 기준으로 칭찬(reward)해 줍니다. 예를 들어 "이미지 속에 고양이가 있고, 공은 고양이 왼쪽에 있다"와 같이 이미지 내용을 잘 파악했는지를 집중적으로 훈련시킵니다. 이렇게 하면 AI가 이미지를 꼼꼼하게 보는 습관을 들이게 됩니다.
2단계: 제대로 '생각하는' 법 배우기 (Reasoning 강화) 이제 AI가 이미지를 잘 보게 되었으니, 적당히 어려운 문제들(Medium cases)을 줍니다. 이번에는 이미지의 내용을 바탕으로 논리적으로 생각해서 올바른 정답을 내놓았을 때 칭찬(reward)해 줍니다. 1단계에서 익힌 '보는 능력'을 토대로 '생각하는 힘'을 기르는 것입니다.

이처럼 Perception과 Reasoning이라는 두 가지 능력을 체계적으로 분리하여 순서대로 훈련시켰더니, PeBR-R1이라는 훨씬 더 똑똑하고 성능 좋은 AI가 탄생했습니다. 이 AI는 이미지의 내용을 무시하지 않고, 정확히 파악한 정보를 바탕으로 논리적인 답변을 할 수 있게 되었습니다.

2 Related Work

Reinforcement Learning for Large Language Models

최근의 발전은 large language models (LLMs)를 human preferences에 맞추는 데 있어서 reinforcement learning (RL)의 중요한 역할을 강조합니다. 일반적인 RL pipeline은 reward model을 training하고, outputs에 scoring을 하며, PPO와 같은 algorithms를 사용하여 policy를 optimizing하는 과정을 포함합니다. InstructGPT에 의해 대중화되고 GPT-4에 채택된 RLHF는 표준으로 남아있지만, reward bias, 높은 annotation costs, 그리고 instability라는 단점이 있습니다. human feedback에 대한 의존도를 줄이기 위해, RLAIF는 이를 Claude 3.5 Sonnet과 Starling-7B에서 입증된 바와 같이 LLM-based preference judgments로 대체합니다. DPO와 같은 최근 methods는 contrastive loss를 사용하여 pairwise preferences를 직접 optimizing함으로써 효율성을 향상시킵니다. 이를 바탕으로, GRPO와 DAPO는 추가적인 발전을 제공합니다—GRPO는 group-wise comparisons와 KL regularization을 통해 value function training을 피하는 반면, DAPO는 convergence를 가속화하기 위해 dynamic sampling과 stable updates를 도입합니다. 이러한 methods는 LLMs의 performance와 alignment를 모두 향상시키는 데 있어 RL의 중요성을 강조합니다.

Reinforcement Learning for Vision-Language Models

large language models (LLMs)에서 reinforcement learning (RL)의 성공에 영감을 받아, 최근의 노력들은 vision-language model (VLM) reasoning을 향상시키기 위해 RL을 multimodal settings로 확장했습니다. Vision-R1은 200K multimodal CoT dataset을 사용한 cold-start pipeline을 도입하며, 엄격한 format constraints 하에서 GRPO를 사용합니다. R1-VL은 logical consistency를 향상시키기 위해 step-wise rewards와 함께 StepGRPO를 제안합니다. R1-ShareVL은 question space를 확장하고 reasoning signals를 공유함으로써 sparse rewards를 완화합니다. VL-Rethinker는 selective replay와 rethinking을 통해 slow thinking을 촉진합니다. OpenVLThinker는 reasoning을 정제하기 위해 supervised fine-tuning (SFT)과 RL을 교차하여 수행합니다. VLM-R1은 stability와 reward hacking에 초점을 맞춰 vision tasks에 rule-based RL을 적용합니다. ThinkLite-VL은 MCTS를 활용하여 hard cases를 발굴하고, 제한된 데이터로 강력한 결과를 달성합니다. Visionary-R1은 caption–reason–answer format과 LLM-based caption rewards를 통해 visual grounding을 장려하여, shortcut behaviors를 완화하고 generalization을 증진합니다. 이러한 발전에도 불구하고, 대부분의 methods는 여전히 textual reasoning을 강조하며 visual information을 충분히 활용하지 못하고 있어, 더 나은 grounded RL frameworks의 필요성을 부각시킵니다.

Visual Perception in Vision-Language Models

vision-language models (VLMs)의 visual understanding capabilities를 향상시키기 위해, 최근 연구들은 목표 지향적인 해결책으로 이 격차를 해소하고 있습니다. 한 연구는 model merging을 LLMs의 reasoning을 VLMs에 주입하는 training-free 방식으로 제안하며, 이는 cross-modal parameters를 fusing함으로써 perception과 reasoning이 각각 초기와 후기 layers에 국한되어 있음을 보여줍니다. 또 다른 연구는 VLMs가 structured geometric reasoning이 부족하여 기본적인 모양을 식별하는 데 종종 실패한다는 것을 발견했습니다. Cambrian-1은 vision-centric design을 채택하여 20개 이상의 vision encoders를 benchmarking하고, visual grounding을 향상시키기 위해 CV-Bench와 Spatial Vision Aggregator (SVA)를 도입했습니다. 한편, 다른 연구는 decomposition과 reconstruction을 통해 geometric figures를 처리하기 위해 인간의 step-by-step perception을 모방합니다. Perception-R1은 더 나은 perception policies를 학습하기 위해 Group Relative Policy Optimization (GRPO)을 적용하여 강력한 benchmark results를 달성했습니다. DINO-R1은 Grounding-DINO와 같은 models에 맞춰진 reinforcement-based method인 Group Relative Query Optimization (GRQO)을 도입하여, query-level supervision과 향상된 contextual reasoning을 가능하게 합니다. 종합적으로, 이러한 연구들은 VLMs의 visual modules가 여전히 underoptimized 상태이며, model merging, architectural innovation, reinforcement learning과 같은 approaches가 visual perception과 reasoning을 발전시키는 데 핵심적이라는 것을 보여줍니다.

정리노트

이 Related Work 섹션은 본 논문이 해결하고자 하는 연구 공백을 명확히 하기 위해 세 가지 분야의 연구 동향을 체계적으로 검토합니다.

1. Reinforcement Learning for Large Language Models 동향

State-of-the-art: LLM alignment를 위한 RL 기술은 RLHF에서 출발하여, reward model의 불안정성과 비용 문제를 해결하기 위해 RLAIF, DPO 등으로 발전해 왔습니다.
핵심 Algorithms: 최근에는 value function 학습을 생략하고 group-wise 비교를 통해 안정성과 효율성을 높인 GRPO나 DAPO 같은 optimization method가 주목받고 있습니다.
시사점: LLM 분야에는 이미 고도화되고 안정적인 RL optimization 기술이 존재하며, 본 연구는 이러한 최신 기술(특히 GRPO)을 VLM에 적용할 기반이 있음을 보여줍니다.

2. Reinforcement Learning for Vision-Language Models 동향

주요 연구 흐름: LLM에서의 RL 성공을 VLM의 multimodal reasoning 능력 향상에 적용하려는 시도가 활발합니다. (Vision-R1, R1-VL, OpenVLThinker 등)
핵심 한계 (Research Gap): 기존 연구 대다수가 step-wise rewards, slow thinking 등 reasoning 과정 자체를 개선하는 데에만 초점을 맞추고 있습니다. 이는 model이 visual information을 제대로 활용하지 않고 textual reasoning에만 의존하는 근본적인 문제를 해결하지 못합니다.
시사점: 현재 VLM에 대한 RL 적용은 '어떻게 생각할 것인가'에 치중되어 있어, '무엇을 어떻게 볼 것인가'에 대한 부분이 간과되고 있습니다. 본 논문은 바로 이 visual grounding 및 perception 부족이라는 명확한 문제에 주목합니다.

3. Visual Perception in Vision-Language Models 동향

문제 인식: VLM의 visual module이 underoptimized 되어 있다는 공감대가 형성되어 있으며, 이를 해결하려는 연구들이 등장하고 있습니다.
해결책 방향:
- Architectural Innovation: model merging, vision-centric design (Cambrian-1) 등 구조적 변경을 통한 접근.
- RL for Perception: GRPO를 활용해 perception policy 자체를 학습시키는 Perception-R1과 같이, RL을 reasoning이 아닌 perception 향상에 직접적으로 사용하는 새로운 시도가 나타나고 있습니다.
시사점: RL을 perception 강화에 사용하는 접근법은 매우 유망하며, 본 논문은 이러한 최신 흐름에 부합하면서 perception과 reasoning을 체계적으로 연결하는 독자적인 framework를 제안할 것임을 암시합니다.

결론: 이 섹션은 (1) LLM을 위한 강력한 RL tool(GRPO)이 있고, (2) 기존 VLM+RL 연구는 perception을 소홀히 했으며, (3) perception 자체를 강화하려는 시도가 이제 막 시작되었다는 점을 연결합니다. 따라서 본 논문은 이 세 가지를 결합하여 GRPO와 같은 강력한 RL method를 사용해 VLM의 visual perception을 먼저 강화한 후, reasoning 능력을 향상시키는 독창적인 2단계 접근법의 필요성과 독창성을 효과적으로 부각합니다.

쉬운 설명 :

이 부분은 이 논문이 나오기까지 다른 과학자들이 어떤 연구들을 해왔는지 소개하는 '배경 설명' 파트입니다. 이 설명을 통해 "그래서 우리 연구가 왜 새롭고 중요한가?"를 알려주는 것이죠. 이야기는 세 부분으로 나뉩니다.

첫 번째: 글만 읽는 AI(LLM) 훈련시키기 과학자들은 챗GPT 같은 텍스트 전문 AI를 똑똑하게 만드는 데 Reinforcement Learning (RL)이라는 방법을 아주 잘 쓰게 되었습니다. 이건 AI가 좋은 답변을 하면 상을 줘서 점점 더 잘하게 만드는 훈련법입니다. 처음에는 방식이 좀 불안정하고 돈도 많이 들었지만, 지금은 GRPO처럼 훨씬 안정적이고 효율적인 최신 훈련 기술들을 개발했습니다.
두 번째: 그림도 보는 AI(VLM) 훈련시키기 이제 과학자들은 이 성공적인 훈련법을 글과 그림을 함께 이해하는 AI에게도 적용하기 시작했습니다. 하지만 대부분의 연구가 AI의 '생각하는 능력'(reasoning)을 키우는 데에만 집중했습니다. 그 결과, AI는 그림을 꼼꼼히 보지 않고 글에만 의존해서 대충 답을 내놓는 문제가 생겼습니다. 똑똑한 '뇌'를 만들려고만 했지, 좋은 '눈'을 만드는 데는 소홀했던 셈입니다.
세 번째: AI의 '눈'을 좋게 만들려는 노력 최근 들어 몇몇 과학자들이 이 '보는 능력'(visual perception)의 중요성을 깨닫고 AI의 눈을 좋게 만드는 연구를 시작했습니다. AI의 구조를 바꾸거나, 아예 RL 훈련법을 '생각'이 아닌 '보기' 능력 자체를 향상시키는 데 사용하기도 했습니다.

결론적으로 이 배경 설명이 말하는 것은 이것입니다: "글만 읽는 AI를 위한 강력한 훈련 기술(GRPO)은 이미 있고, 그림 보는 AI는 '생각'보다 '보기' 훈련이 부족한 상태입니다. 그래서 우리 논문은 그 강력한 기술을 가져다가 AI의 '보는 능력'을 먼저 확실하게 키운 다음, '생각하는 능력'을 훈련시키는 새로운 2단계 방법을 제안할 것입니다."

3 Preliminaries

Group Relative Policy Optimization (GRPO)

Group Relative Policy Optimization (GRPO)는 large language models의 reasoning capabilities를 향상시키기 위해 특별히 설계된 Proximal Policy Optimization (PPO) 기반의 reinforcement learning algorithm입니다. 핵심 idea는 각 question 에 대해 그룹으로 묶인 candidate responses 를 생성하고, policy ratio를 $r_i(\theta) = \pi_\theta / \pi_{\theta_{old}}$로 계산하는 것입니다. 각 response에 대한 reward 를 기반으로, GRPO는 group-level mean과 standard deviation을 사용하여 normalized advantage function 를 계산합니다:

training stability를 보장하기 위해, GRPO는 $r_i(\theta)$를 구간으로 제한하는 clipping strategy를 적용하여 지나치게 큰 policy updates를 방지합니다. 핵심 optimization term은 $\min(r_i(\theta)A_i, \text{clip}(r_i(\theta), 1 - \epsilon, 1 + \epsilon)A_i)$가 됩니다.

추가적으로, GRPO는 current policy와 reference policy (일반적으로 initial policy) 간의 divergence를 제한하기 위해 KL regularization term $D_{KL}(\pi_\theta | \pi_{ref})$을 도입하여, model이 원래의 capabilities에서 너무 멀어지는 위험을 완화합니다. GRPO의 최종 optimization objective는 다음을 최대화하는 것입니다:

4 Methodology

이 섹션에서는 먼저 dataset sampling과 model warm-up을 포함한 reinforcement learning 준비 단계를 설명합니다. 그다음, model의 capabilities의 각기 다른 측면을 향상시키도록 설계된 perception-level stage와 reasoning-level stage로 구성된 우리의 two-stage reinforcement learning framework를 제시합니다.

4.1 Dataset Sample

Model Degradation GRPO reinforcement learning process 동안, advantage signal은 주로 group 내의 reward uniformity 때문에 vanish될 수 있습니다. 이 문제를 조사하기 위해, 우리는 optimization gradient를 분석합니다. 단순화를 위해, policy ratio는 $\pi_\theta / \pi_{\theta_{old}} \in (1-\epsilon, 1+\epsilon)$를 만족한다고 가정합니다. objective는 $\mathcal{J}{\text{GRPO}}(\theta)$를 최대화하는 것이므로, 이는 loss $\mathcal{L}{\pi_\theta} = -\mathcal{J}_{\text{GRPO}}(\theta)$를 최소화하는 것과 같습니다. 해당하는 gradient는 다음과 같이 주어집니다:

group 내의 모든 rewards 이 동일할 때(예: 모두 0 또는 모두 1), 식 (1)로 계산된 advantage 는 0이 됩니다. 이 경우, optimization gradient는 다음과 같이 단순화됩니다:

이 시점에서, reinforcement learning signal은 vanish되고 KL penalty gradient만 남게 됩니다. 이는 optimization trajectory를 reference model 쪽으로 편향시켜 잠재적으로 model degradation으로 이어질 수 있습니다.

Dataset Sampling model degradation을 방지하고 reinforcement learning 동안 안정적인 gradient descent를 보장하기 위해, 우리는 각 reinforcement learning stage 전에 dataset을 sample합니다. 그림 2와 같이, sampling은 정답 responses의 수를 기준으로 이루어집니다: model은 question당 8개의 responses를 생성하도록 요청받으며, 정답 responses의 수에 따라 dataset을 세 가지 subset으로 나눕니다:

Easy cases: 8개의 generations가 모두 정답인 경우.
Medium cases: 부분적으로 정답인 경우 (즉, 1개에서 7개가 정답).
Hard cases: 8개의 generations가 모두 오답인 경우.

model의 perception ability 향상을 목표로 하는 Perception Reinforcement Learning (Perception RL) stage에서는, Easy cases subset을 활용합니다. 이 설계는 model이 visual perception은 정확하지만 final answer는 부정확한 samples를 마주치는 것을 방지하며, 이는 early-stage learning을 저해할 수 있습니다. Reasoning Reinforcement Learning (Reasoning RL) stage에서는, 안정적인 learning signals를 제공하고 gradient-based optimization을 통해 model의 reasoning ability를 증진시키기 위해 Medium cases subset을 활용합니다. warm-up stage에서는, Hard cases의 일부를 training dataset의 일부로 활용합니다. 자세한 methodology는 다음 섹션에서 소개될 것입니다.

4.2 Warm-up via Supervised Fine-tuning

base model에 초기 visual understanding 및 reasoning capabilities를 갖추게 하기 위해, 우리는 먼저 Mulberry dataset을 사용하여 supervised fine-tuning (SFT)을 수행했습니다. 그러나 SFT 이후 특정 question types에서 현저한 accuracy 저하를 관찰했습니다. 이를 해결하기 위해, 우리는 public datasets에서 6개의 추가 카테고리를 training data에 보강하여 model의 supervised learning foundation을 강화했습니다. reinforcement learning (RL)은 optimization을 위해 model 자신의 outputs에 의존하기 때문에, 모든 responses가 부정확한 Hard cases로부터 효과적으로 학습하는 데 어려움을 겪습니다. 이를 완화하기 위해, 우리는 그러한 cases의 subset을 선별하여 automated filtering과 manual verification을 통해 SFT-style data로 변환했습니다. 이 strategy는 RL training에 앞서 model의 generalization ability를 향상시키는 것을 목표로 합니다. 총체적으로, 우리는 어려운 instances에 대한 robustness를 개선하고 stable training을 보장하기 위해 약 39K의 고품질 SFT samples를 추가했습니다. SFT 후 model의 output은 다음과 같은 structured format을 따릅니다:

Image Description:

Rationales:

Let’s think step by step.

Step 1:

Step 2:

...

The final answer is:

4.3 Perception Reinforcement Learning

data sampling과 model warm-up을 완료한 후, 우리는 Easy cases subset을 사용하여 model의 visual perception ability를 향상시킵니다. 구체적으로, 우리는 model이 생성한 responses에서 Image Description 섹션을 추출하여 perception-level rewards의 evaluation target으로 삼습니다. coarse-grained visual perception을 위해, 우리는 fine-grained image-text alignment tasks에 맞춰진 vision-language pretrained model인 FGCLIP을 사용합니다. FGCLIP은 visual content와 textual content 간의 semantic correspondence를 포착하는 데 강력한 capability를 보여줍니다. alignment quality를 정량화하기 위해, 우리는 image 과 생성된 description 사이의 CLIP similarity score를 계산하고, 미리 정의된 similarity threshold $\tau_{clip}$를 기반으로 visual alignment reward를 다음과 같이 정의합니다:

fine-grained visual understanding을 위해, 그림 3에서 설명된 바와 같이, 우리는 model의 fine-grained visual perception을 향상시키기 위해 teacher-guided keywords extraction 및 reward mechanism을 도입합니다. 구체적으로, 우리는 supervised fine-tuned teacher model인 Seed1.5-VL을 활용하여 Easy cases subset의 각 sample에 대한 structured responses를 생성합니다. 이 responses에서, 우리는 Image Description 섹션으로부터 semantically 중요한 구성 요소들을 추출합니다—object recognition, numerical understanding, attribute comprehension, spatial relation modeling과 같은 핵심 perceptual elements에 초점을 맞춥니다. 추출된 keywords의 품질을 보장하기 위해, 우리는 일련의 filtering steps를 적용합니다: redundant items 제거, empty keyword sets를 가진 samples 폐기, 그리고 incorrect final answers를 가진 samples 제외. 이를 통해 선별된 reference keyword set $K = {k_1, k_2, \ldots, k_n}$이 생성됩니다. policy model이 생성한 image descriptions와 reference set 간의 alignment를 평가하기 위해, 우리는 keyword reward를 정의합니다. $\hat{K}$를 policy-model이 생성한 Image Description에서 추출된 keywords 집합이라고 할 때, reward는 일치하는 keywords의 ratio로 계산됩니다:

마지막으로, model outputs가 예상된 format을 따르도록 하고 지나치게 긴 responses를 방지하기 위해, format reward와 length penalty를 포함합니다. length penalty는 $\min(1.0, L_{\text{expected}}/(L_{\text{actual}} + \epsilon))$로 계산되며, 여기서 $L_{\text{expected}}$와 $L_{\text{actual}}$은 각각 예상 및 실제 response lengths를 나타냅니다. 이 stage에서 사용되는 전체 reward는 다음과 같이 정의됩니다:

4.4 Reasoning Reinforcement Learning

perception-stage reinforcement learning을 완료한 후, model의 visual capabilities는 상당히 향상되었습니다. 그런 다음 우리는 reasoning 및 problem-solving abilities를 향상시키는 데 초점을 맞춥니다. 이 stage에서는 GRPO algorithm을 기반으로 한 rule-based reward strategy를 사용하여 model이 잘 구조화되고 정확한 solutions를 생성하도록 유도합니다. stable gradient updates를 보장하기 위해, 우리는 training에 Medium cases set을 활용합니다. reward function은 model이 chain-of-thought structure를 따르도록 장려하는 format reward와 model의 final answer의 correctness를 평가하는 accuracy reward를 결합합니다. 이 stage에서 사용되는 전체 reward는 다음과 같이 정의됩니다:

perception과 reasoning stages를 모두 포함하는 전체 training process는 Algorithm 1에 요약되어 있습니다.

Algorithm 1: Two-Stage Reinforcement Learning for Vision-Language Models

Input: Pre-trained VLM policy ; SFT dataset ; RL dataset Output: Optimized policy with enhanced perception and reasoning abilities

Stage 0: Supervised Warm-up 1: for iter = 1 to do 2: Sample 3: Update via supervised loss 4: end for

Stage 1–2: GRPO Reinforcement Learning 1: for stage {Perception, Reasoning} do 2: Select training subset (e.g., Easy or Medium cases) 3: for iter = 1 to do 4: Sample 5: Generate group of responses 6: Compute stage-specific rewards 7: Compute group-relative advantages 8: Update via GRPO loss 9: end for 10: end for

정리노트

이 Methodology는 VLM의 visual perception과 reasoning 능력을 체계적으로 분리하고 순차적으로 강화하기 위해 설계된 3단계 training pipeline을 제시합니다.

핵심 전략 1: Vanishing Advantage 문제 해결을 위한 Dataset Sampling

문제 정의: RL training 시, group 내 reward가 모두 같으면(Easy/Hard cases) advantage가 0이 되어 RL signal이 사라지고 KL penalty만 남아 model degradation이 발생하는 이론적 문제를 먼저 규명합니다.
핵심 해결책: 이 문제를 회피하기 위해 RL training 전에 model의 rollouts을 기반으로 dataset을 Easy, Medium, Hard cases 세 가지 subset으로 사전 sampling합니다. 이는 각 training stage에 가장 효과적인 데이터만 선별적으로 공급하는 본 methodology의 근간이 되는 독창적인 전략입니다.

핵심 전략 2: 단계별 목표에 최적화된 Training Stage 설계

Stage 0: Warm-up via Supervised Fine-tuning (SFT)
- 기본적인 VLM 능력 확보를 위해 Mulberry dataset으로 SFT를 수행합니다.
- 차별점: SFT 후 성능이 저하되는 특정 유형을 보완하기 위해 외부 dataset을 추가하고, RL로는 학습이 불가능한 Hard cases의 일부를 SFT-style 데이터로 변환하여 training에 활용합니다. 이는 RL의 한계를 SFT로 보완하는 실용적인 접근법입니다. 또한, 후속 stage에서 활용할 구조화된 output format을 여기서 정의합니다.
Stage 1: Perception Reinforcement Learning
- 목표: final answer의 정답 여부와 무관하게, 오직 model의 visual perception ability 향상에만 집중합니다.
- 데이터: Easy cases만을 사용하여, reasoning 실패로 인한 noise 없이 순수한 visual signal을 학습하도록 합니다.
- Reward 설계 (핵심): perception 능력 강화를 위해 두 가지 reward를 결합합니다.
  1. Coarse-grained (r_clip): FGCLIP을 이용해 이미지와 생성된 설명(Image Description) 간의 전반적인 alignment를 평가합니다.
  2. Fine-grained (r_keyword): teacher model(Seed1.5-VL)을 활용해 정답 keywords 집합(object recognition, numerical understanding 등)을 추출하고, policy model의 생성 내용이 이 keywords와 얼마나 일치하는지를 reward로 부여합니다. 이는 perception을 정밀하게 통제하고 유도하는 핵심 mechanism입니다.
Stage 2: Reasoning Reinforcement Learning
- 목표: 잘 정립된 perception 능력을 바탕으로, reasoning과 문제 해결 능력을 강화합니다.
- 데이터: 안정적인 gradient를 제공하는 Medium cases를 활용하여 학습 효율을 극대화합니다.
- Reward 설계: chain-of-thought 준수 여부를 평가하는 format reward와 final answer의 정답 여부를 평가하는 accuracy reward를 결합한, reasoning에 초점을 맞춘 rule-based reward를 사용합니다.

결론: 본 methodology의 핵심은 RL의 이론적 한계를 dataset sampling이라는 독창적 전략으로 극복하고, Perception과 Reasoning이라는 두 목표를 명확히 분리하여 각 단계에 최적화된 데이터와 reward 함수를 적용하는 체계적인 2단계 RL framework를 구축한 것입니다.

쉬운 설명 :

이 부분은 연구팀이 AI를 어떻게 똑똑하게 훈련시켰는지에 대한 '특별 훈련 비법'을 설명하는 섹션입니다. AI가 그림을 보고 질문에 답할 때, 그림은 대충 보고 글만으로 답을 유추하는 문제를 해결하기 위한 방법입니다.

핵심 아이디어: '차근차근 단계별로 가르치기' AI에게 '보는 법'과 '생각하는 법'을 한 번에 가르치면 혼란스러워합니다. 그래서 연구팀은 훈련 과정을 여러 단계로 나누었습니다.

0단계: 예습 (Warm-up) 본격적인 훈련 전에, AI에게 기본적인 그림과 질문 예제(SFT 데이터)를 많이 보여주며 기초를 다지게 합니다. 특히 AI가 계속 틀리는 아주 어려운 문제들은 따로 모아서 '오답노트'처럼 만들어 집중적으로 학습시켜서 약점을 미리 보강합니다.
가장 중요한 준비물: 문제집 분류 (Dataset Sampling) 훈련을 시작하기 전에, AI에게 모든 문제를 한번 풀게 시켜보고 채점합니다. 그리고 그 결과에 따라 문제들을 '아주 쉬운 문제(Easy cases)', '해볼 만한 문제(Medium cases)', '아주 어려운 문제(Hard cases)' 세 종류로 분류합니다. 이것이 이 훈련법의 핵심 비결인데, 각 훈련 단계에 딱 맞는 종류의 문제만 골라서 주기 위함입니다.
1단계 훈련: '꼼꼼히 보는 법' 배우기 (Perception RL) 이제 본격적인 훈련의 첫 단계입니다. 여기서는 AI에게 '아주 쉬운 문제'들만 줍니다. 중요한 점은 정답을 맞혔는지는 전혀 신경 쓰지 않고, 오직 AI가 그림을 얼마나 정확하고 상세하게 묘사했는지만 평가해서 칭찬(reward)해준다는 것입니다.
- 큰 그림 칭찬: "전반적인 내용을 잘 파악했구나!" (Coarse-grained reward)
- 디테일 칭찬: "그림 속 고양이 수, 공의 색깔 같은 세부 정보까지 완벽하게 찾아냈네!" (Fine-grained reward) 이렇게 하면 AI는 정답에 대한 압박 없이 그림의 내용을 정확히 파악하는 데만 집중하게 됩니다.
2단계 훈련: '논리적으로 생각하는 법' 배우기 (Reasoning RL) '보는 법' 훈련이 끝나면, 이제 '생각하는 법'을 가르칩니다. 이번에는 '해볼 만한 문제'들을 줍니다. 이 단계에서는 1단계에서 배운 대로 그림을 꼼꼼히 본 뒤, 그 정보를 바탕으로 논리적인 추론을 거쳐 정답을 맞혔을 때 칭찬(reward)해줍니다.

이처럼 문제 난이도를 미리 분류하고, '보기' 훈련과 '생각하기' 훈련을 순서대로 진행하는 체계적인 접근법을 통해, AI가 그림의 단서를 무시하지 않고 깊이 있게 이해하며 문제를 푸는 능력을 갖추게 만든 것입니다.