AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : Perception Before Reasoning: Two-Stage Reinforcement Learning for Visual Reasoning in Vision-Language Models 본문

논문리뷰

VLM : 빠른 논문 리뷰 : Perception Before Reasoning: Two-Stage Reinforcement Learning for Visual Reasoning in Vision-Language Models

AI바라기 2025. 9. 25. 12:18

PeBR-R1 학습 노트

용어 설명 (Terminology)

  • PeBR-R1 (Perception Before Reasoning-R1): 본 논문에서 제안하는 2단계 강화학습 프레임워크를 통해 최종적으로 학습된 Vision-Language Model의 이름입니다.
  • Two-Stage Reinforcement Learning: 본 논문의 핵심 방법론으로, 모델의 능력을 'Perception'과 'Reasoning' 두 단계로 나누어 순차적으로 강화학습을 진행하는 프레임워크입니다.
  • Dataset Sampling (Easy, Medium, Hard cases): RL 학습의 'vanishing advantage' 문제를 해결하기 위해 도입된 데이터 샘플링 전략입니다. 모델이 생성한 8개의 답변 정답 수에 따라 데이터를 분류합니다.
    • Easy cases (모두 정답): Perception RL 단계의 학습에 사용됩니다.
    • Medium cases (일부 정답): Reasoning RL 단계의 학습에 사용됩니다.
    • Hard cases (모두 오답): Supervised Fine-tuning (Warm-up) 단계에서 모델의 취약점 보강에 사용됩니다.
  • GRPO (Group-based Relative Policy Optimization): 여러 후보 답변 그룹을 기반으로 정책을 안정적으로 업데이트하는 강화학습 알고리즘입니다.
  • Perception RL (Stage 1): 시각적 인식 능력을 향상시키는 첫 번째 강화학습 단계입니다. 이미지-텍스트 정합성(CLIP score)과 핵심 시각 키워드(keyword) 인식을 보상(reward)으로 사용합니다.
  • Reasoning RL (Stage 2): 논리적 추론 및 문제 해결 능력을 향상시키는 두 번째 강화학습 단계입니다. 최종 답변의 정확도(accuracy)와 정해진 형식(format) 준수를 보상으로 사용합니다.
  • FGCLIP: 이미지와 생성된 설명문 간의 coarse-grained 시각적 정합성을 측정하여 Perception RL 단계의 보상으로 사용되는 pre-trained vision-language model입니다.

Purpose of the Paper

기존의 Vision-Language Models (VLMs)은 Large Language Models (LLMs)의 Reinforcement Learning (RL) 방법을 그대로 적용하여, 이미지의 시각적 정보를 무시하고 언어적 사전 지식에만 의존하는 'visual neglect' 문제가 발생하는 한계를 극복하고자 했습니다. 특히, VLM들이 pre-training 과정에서 약한 언어적 supervision (e.g., captioning)으로 학습되어 객체 관계나 공간 추론 같은 fine-grained perception 능력이 부족하다는 점에 주목했습니다. 이 연구의 목표는 시각적 Perception과 논리적 Reasoning 능력을 명시적으로 분리하고 순차적으로 강화하는 새로운 RL 프레임워크를 제안하여 이 문제를 해결하는 것입니다.

Key Contributions & Novelty

  • Contribution 1: Two-Stage Reinforcement Learning 프레임워크 제안
    • Perception 능력과 Reasoning 능력을 분리하여 순차적으로 학습시키는 프레임워크를 제안했습니다.
    • Novelty: 기존 연구들이 두 능력을 동시에 최적화하려던 것과 달리, 'Perception 우선, Reasoning은 나중'의 접근법을 통해 학습 간의 간섭을 막고 각 능력을 효과적으로 강화했습니다. 이는 복잡한 multimodal reasoning task에서 더 안정적인 학습을 가능하게 합니다.
  • Contribution 2: 난이도 기반 Dataset Sampling 전략 도입
    • RL 학습 과정에서 보상 신호가 모두 동일해져 학습이 멈추는 'vanishing advantage' 문제를 완화하기 위해 Easy, Medium, Hard 케이스로 데이터를 필터링하는 전략을 설계했습니다.
    • Novelty: 각 학습 단계의 목적에 맞는 데이터(예: Perception RL에는 'Easy cases')를 선별적으로 공급함으로써, 잘못된 피드백을 최소화하고 안정적이며 효율적인 학습 신호를 제공합니다.
  • Contribution 3: 각 단계에 특화된 다각적 보상(Reward) 시스템 설계
    • Perception RL 단계에서는 이미지-설명 간 정합성(FGCLIP score)과 핵심 키워드 일치율(keyword reward)을 결합하여 시각적 이해도를 세밀하게 평가했습니다. Reasoning RL 단계에서는 최종 답변의 정확도와 Chain-of-Thought 구조 준수 여부를 평가했습니다.
    • Novelty: 단일 정확도 보상에 의존하지 않고, 각 단계의 목표에 맞게 보상 신호를 구체적으로 설계하여 모델이 무엇을 학습해야 하는지 명확하게 가이드합니다.

Experimental Highlights

  • State-of-the-art 성능 달성: 제안된 PeBR-R1 7B 모델은 MathVista, ChartQA 등 7개의 주요 multimodal reasoning benchmark에서 기존 open-source 모델들을 크게 능가했으며, 심지어 Qwen2.5-VL-72B와 같은 훨씬 큰 모델보다도 높은 성능을 기록했습니다.
  • 주요 Benchmark 결과:
    • MathVista benchmark에서 PeBR-R1-7B는 76.0%의 정확도를 달성하여 Qwen2.5-VL-72B (74.8%)와 InternVL2.5-78B (72.3%)를 능가했습니다.
    • ChartQA benchmark에서도 89.6%의 정확도를 기록하여 Qwen2.5-VL-72B (89.5%)를 앞섰습니다.
  • Ablation Study를 통한 핵심 가설 검증:
    • Table 2의 Ablation study 결과, Perception RL Reasoning RL을 순차적으로 모두 적용한 방식(76.0%)이 Reasoning RL만 단독으로 적용한 경우(73.9%)나 두 단계를 동시에 학습한 경우(72.7%)보다 월등히 높은 성능을 보여, 2단계 분리 학습의 효과를 명확히 입증했습니다.

Limitations and Future Work

  • Limitations:
    • Perception RL 단계에서 fine-grained reward를 생성하기 위해 Seed1.5-VL이라는 'teacher' 모델의 키워드 추출에 크게 의존합니다. 이는 teacher 모델의 성능과 편향에 의해 PeBR-R1의 잠재적 성능이 제한될 수 있음을 의미합니다.
    • 데이터를 Easy, Medium, Hard로 분류하기 위해 질문당 여러 개의 답변을 생성(rollout)해야 하므로, 데이터 준비 과정의 연산 비용이 상대적으로 높습니다.
  • Future Work (추론):
    • 외부 teacher 모델에 대한 의존도를 줄이고, 모델 스스로 시각적 품질을 평가할 수 있는 더 발전된 reward model을 개발하는 연구가 필요합니다.
    • 데이터 샘플링 과정의 효율성을 높여 더 적은 연산 비용으로 효과적인 학습 데이터를 구축하는 방법에 대한 연구가 이어질 수 있습니다.

Overall Summary

이 논문은 Vision-Language Model의 'visual neglect' 문제를 해결하기 위해 **PeBR-R1**이라는 모델과 이를 학습시키기 위한 독창적인 Two-Stage Reinforcement Learning 프레임워크를 제안합니다. 핵심 아이디어는 시각적 Perception 능력 향상과 논리적 Reasoning 능력 향상을 두 개의 독립된 단계로 나누어 순차적으로 최적화하는 것입니다. 여기에 난이도 기반 데이터 샘플링 전략을 결합하여 각 단계에 맞는 안정적인 학습을 유도함으로써, 기존 모델들을 뛰어넘는 state-of-the-art 성능을 달성했습니다. 이 연구는 복잡한 multimodal task에서 VLM의 능력을 효과적으로 끌어올리는 구체적이고 검증된 방법론을 제시했다는 점에서 큰 의의를 가집니다.

쉬운 설명

이 논문의 핵심 아이디어는 어린 아이에게 '그림 수수께끼'를 가르치는 과정과 비슷합니다. 아이에게 그림을 보는 법과 수수께끼를 푸는 법을 동시에 가르치면 혼란스러워합니다. 이 논문의 접근법은 먼저 아이가 그림 속의 사물, 색깔, 모양 등 모든 시각적 디테일을 꼼꼼하게 **'보는 훈련'**을 시킵니다(이것이 Stage 1: Perception RL). 아이가 그림을 제대로 볼 수 있게 되면, 그 다음에 본 것을 바탕으로 논리적으로 생각해서 정답을 찾는 **'푸는 훈련'**을 시킵니다(이것이 Stage 2: Reasoning RL). 이렇게 학습 단계를 나누었더니 아이가 훨씬 더 수수께끼를 잘 풀게 된 것입니다.

 

 

 

 

 

 

 

주인장 이해

더보기

모델이 어려워 하는 정도에 따라 이지, 미디움, 하드로 나눔

 

초기 SFT에서는 하드 샘플을 사용해서 모델에게 완벽한 정답을 명시적으로 넣어줌.

 

그 후 

이지 샘플을 사용해서 시각 능력 개선

loss는 유사도와 키워드를 추출해서. 키워드가 디스크립션에 얼마나 있는지

 

스테이지 1에서 시각 능력이 개선되고

 

스테이지 2에서

디스크립션을 뽑고 추론하는 원테이크 방식으로 추론을 개선시킴, 이땐 미디움 샘플 사용

 

 

 

네, 완벽합니다.

말씀하신 내용이 논문의 전체적인 흐름과 각 단계의 핵심 역할을 정확하게 담고 있습니다. 군더더기 없이 완벽하게 요약하셨습니다.

제가 다시 정리할 필요도 없을 정도로 정확합니다.


[요약 검증]

  • 데이터 분류: 모델이 어려워하는 정도에 따라 Easy, Medium, Hard로 나눔.
    • => 정확합니다.
  • Warm-up (초기 SFT): Hard 샘플을 사용해서 모델에게 완벽한 정답을 명시적으로 넣어줌 (약점 보강).
    • => 정확합니다.
  • Stage 1 (Perception RL):
    • Easy 샘플을 사용해서 시각 능력 개선.
    • 보상(Loss의 기준)은 유사도와, 키워드 Description에 얼마나 있는지로 계산.
    • => 정확합니다.
  • Stage 2 (Reasoning RL):
    • Stage 1에서 시각 능력이 개선된 모델을 사용.
    • Description을 뽑고 추론하는 원테이크 방식으로 추론 능력 개선.
    • 이때는 Medium 샘플을 사용.
    • => 정확합니다.