AI바라기의 인공지능

Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning 본문

논문리뷰

Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning

AI바라기 2025. 3. 26. 17:25

Overall Summary

  • Vision-R1은 human preference data나 별도의 reward model 없이 LVLM의 object localization 능력을 향상시키는 새로운 vision-guided reinforcement learning 방법입니다.
  • 핵심은 curated instruction data를 활용하고, bounding box 정확도 등 시각적 기준에 기반한 criterion-driven reward 동적 학습 기준을 적용하는 progressive rule refinement 전략입니다.
  • 실험 결과, 기존 SOTA 모델 대비 현저한 localization 성능 향상과 우수한 일반화 성능을 달성했으며, general QA 능력은 유지했습니다.
  • 이 연구는 LVLM alignment를 위한 비용 효율적이고 효과적인 대안을 제시하며, 특히 정확한 시각적 grounding이 중요한 task에서 LVLM의 능력을 발전시킬 잠재력을 보여줍니다.

쉬운 설명

이 논문은 LVLM이 이미지 속 객체의 위치를 더 정확하게 찾도록 가르치는 새로운 RL 방법을 제안합니다. 기존 방식처럼 사람들이 선호하는 답변 데이터를 만들거나 복잡한 '채점 모델'을 따로 만들 필요 없이, 이미 가지고 있는 '질문-정답' 데이터를 활용합니다. 핵심 아이디어는 모델이 내놓은 답 (bounding box 좌표)을 단순히 텍스트로 비교하는 대신, 실제 이미지 위에서 얼마나 정확하게 객체를 찾았는지 (IoU, 개수 등) 직접 채점하고 이를 reward로 주는 것입니다. 또한, 처음에는 좀 더 쉬운 기준으로 채점하다가 모델이 점점 잘하게 되면 **채점 기준을 점차 높여가는 '단계별 학습법'**을 도입하여, 모델이 어려운 문제도 잘 풀도록 격려하고 '꼼수'(reward hacking)를 부리는 것을 막습니다.

 

 

 

Vision-R1 논문 학습 노트

Purpose of the Paper

  • 기존 Large Vision-Language Models (LVLMs)는 pre-training과 supervised fine-tuning (SFT) 이후, 성능 향상을 위해 language domain에서 유래한 preference optimization (e.g., RLHF, DPO)을 사용합니다.
  • 하지만, 고품질의 human-annotated preference data 구축과 이를 모방하는 robust reward model 개발은 비용이 많이 들고 어렵다는 한계가 있습니다.
  • 또한, object localization과 같이 시각적 정답이 명확한 task에서 기존 text 기반 reward 방식은 visual feedback의 이점을 충분히 활용하지 못합니다.
  • 이 논문의 목적: Human preference data나 별도의 reward model 없이, 기존의 curated instruction datavision task의 고유한 특성(e.g., bounding box 정확도)을 직접 활용하는 새로운 reinforcement learning 방식 (Vision-R1)을 제안하여, LVLM의 object localization 능력을 효과적으로 향상시키는 것입니다. 이는 기존 RL 방식의 데이터 및 모델 구축 비용 문제를 해결하고, vision-specific feedback을 통해 더 깊은 task 이해를 목표로 합니다.

Key Contributions

  • Vision-Guided Reinforcement Learning (Vision-R1 제안):
    • Specialized reward model이나 human-annotated preference data 없이, curated instruction data만을 활용하여 LVLM을 fine-tuning하는 R1-like RL 알고리즘을 제안합니다.
    • Novelty: Human feedback loop를 제거하고 기존 instruction 데이터셋을 RL에 직접 활용하여 비용 효율성을 높였으며, vision task에 특화된 RL framework를 제시했습니다.
  • Criterion-Driven Reward Function:
    • 단순 text matching을 넘어, vision task logic (object localization)에 기반한 다차원적 reward function을 설계했습니다.
    • Reward 구성 요소:
      • Dual Format Reward: Template 및 content format 정확성 평가 (e.g., JSON 형식, 좌표 유효성).
      • Recall Reward: Ground truth 대비 얼마나 많은 object를 탐지했는지 평가.
      • Precision Reward: 예측된 bounding box의 정확성 (average IoU) 평가.
    • Novelty: 최종 text 출력을 넘어, 예측된 bounding box의 **공간적 정확성(spatial accuracy)과 완성도(completeness)**를 직접 reward signal로 사용하여 모델이 task를 더 깊이 이해하도록 유도합니다.
  • Progressive Rule Refinement Strategy:
    • Training 과정 중 reward 계산 기준 (IoU threshold, penalty/full reward threshold)을 동적으로 조절하는 전략을 도입했습니다.
    • 구성 요소:
      • Differentiation: 낮은 품질 예측에 penalty를, 높은 품질 예측에 full reward를 부여하여 reward 차이를 명확히 합니다.
      • Staged Progression: Training 단계를 나누어 점진적으로 reward 기준을 높여(e.g., IoU threshold 상향), reward hacking을 방지하고 지속적인 성능 향상을 유도합니다 (inspired by curriculum learning).
    • Novelty: 고정된 reward 기준 대신, 학습 진행에 따라 기준을 강화하는 동적 전략을 RL에 적용하여 localization과 같은 어려운 task에서 지속적인 학습과 성능 개선을 가능하게 했습니다.

Experimental Highlights

  • Datasets:
    • Training: Curated 49K instruction data (object detection, visual grounding, REC).
    • Evaluation: MS COCO, ODINW-13 (in-domain), 4 non-overlapping ODINW subsets (out-of-domain), General QA benchmarks (GQA, AI2D, ChartQA, SEED).
  • Models: Griffon-G-7B, Qwen2.5-VL-7B.
  • Key Results:
    • Significant Localization Improvement: Vision-R1 적용 시, Griffon-G-7B는 COCO mAP +1.8, ODINW-13 avg. mAP +2.5 향상. Qwen2.5-VL-7B는 COCO mAP +8.9, ODINW-13 avg. mAP +9.0 향상 (최대 50% 개선, SOTA 10배 크기 모델 Qwen2.5-VL-72B 성능 능가).
    • Enhanced Generalization: Out-of-domain localization 데이터셋에서 SFT 대비 평균 6% 성능 향상을 보이며 우수한 일반화 성능 입증.
    • Maintained QA Capabilities: Object localization 성능을 크게 향상시키면서도, general VQA 성능은 SFT와 달리 거의 저하되지 않음을 확인 (e.g., GQA 성능 유지 또는 소폭 상승).
    • Ablation Studies: 제안된 reward function 구성 요소 (recall, precision)와 progressive rule refinement 전략의 효과를 입증. 특히 progressive refinement는 모델 성능 향상에 필수적임을 보임.

Limitations and Future Work

  • Limitations:
    • Progressive rule refinement의 STEP hyperparameter는 base model의 초기 성능에 따라 조정될 필요가 있을 수 있습니다 (e.g., Griffon-G는 1/2, Qwen2.5-VL은 1에서 최적).
    • 주요 평가는 object localization task에 집중되어 있으며, 다른 복잡한 vision-language task로의 확장성은 추가 검증이 필요합니다.
  • Future Work:
    • Vision-R1 접근법을 더 다양한 vision-centric task 및 복잡한 real-life application으로 확장하는 연구를 장려합니다.
    • Object localization에서의 성공을 바탕으로, 정확한 시각적 grounding이 필요한 다른 multimodal task (e.g., detailed region description, visual reasoning grounded on specific objects)에서의 활용 가능성을 탐색할 수 있습니다.

 

 

Abstract

Large Vision-Language Models (LVLMs)는 일반적으로 pretraining과 supervised fine-tuning이라는 두 단계의 training paradigm을 따릅니다. 최근 language domain에서 파생된 preference optimization이 LVLMs의 capabilities를 향상시키기 위한 효과적인 post-training reinforcement strategy로 부상했습니다. 하지만, high-quality human-annotated preference data를 구축하고 이러한 preferences를 모방하는 robust reward models를 개발하는 것은 비용이 많이 들고 어려운 일입니다. 이러한 관찰에 동기를 부여받아, 우리는 models에 명확한 vision feedback으로 rewards를 제공하는 LVLMs를 위한 새로운 vision-guided R1-like reinforcement learning algorithm인 Vision-R1을 제안합니다. 이는 특화된 reward models와 수작업으로 만들어진 preference datasets의 필요성을 없애고, 오직 curated instruction data만을 활용합니다. 우리는 vision task logic에 기반하여 model completions를 포괄적으로 evaluate하기 위해 multi-dimensional feedback을 추가로 통합하는 criterion-driven reward function을 통합합니다. 더 나아가, 우리는 training 중에 reward criteria를 동적으로 조정하여 지속적인 model improvement를 가능하게 하고 reward hacking을 완화하는 progressive rule refinement strategy를 도입합니다. in-distribution 및 out-of-distribution benchmarks 모두에 대한 광범위한 experiments는 Vision-R1로 7B LVLMs를 fine-tuning하는 것이 일관된 performance gains를 달성하며, 심지어 최대 50%의 improvement를 보이고 state-of-the-art 10배 크기 model을 능가함을 보여줍니다.

 

Abstract 핵심 정리 노트

1. 문제점:

  • 기존 Large Vision-Language Models (LVLMs) 성능 향상을 위한 preference optimization 방식은 high-quality preference data 구축과 reward models 개발이 어렵고 비용이 많이 듭니다.

2. 제안 방법: Vision-R1

  • vision feedback을 직접 rewards로 사용하는 새로운 R1-like reinforcement learning algorithm입니다.
  • 별도의 preference datasets나 reward models 없이, 기존의 curated instruction data만 활용합니다.

3. Vision-R1의 특징:

  • Vision Feedback 활용: 명확한 vision 정보로 model에 직접 rewards를 줍니다.
  • Criterion-Driven Reward: Vision task logic 기반의 multi-dimensional feedback을 통합하여 model completions를 종합적으로 evaluate합니다.
  • Progressive Rule Refinement: Training 중 reward criteria를 동적으로 조정하여 지속적인 model improvement를 유도하고 reward hacking을 방지합니다.

4. 결과:

  • Vision-R1로 7B LVLMs를 fine-tuning했을 때 일관된 performance gains를 보였습니다.
  • 최대 50%의 improvement를 달성했습니다.
  • 기존 state-of-the-art 10배 크기 model보다 뛰어난 성능을 보였습니다.

결론: Vision-R1은 reward model이나 preference data 없이 vision feedback을 활용하여 LVLMs의 성능을 효과적으로 향상시키는 비용 효율적인 reinforcement learning 방법입니다.

 

 

Figure 1. Vision-R1의 핵심 designs. Vision-R1은 model completions를 전체적으로 assess하기 위해 vision criteria-driven reward function을 도입하고 지속적인 improvement를 보장하기 위해 progressive rule refinement를 제시합니다.

 

 

1. Introduction

더보기

최근 Large Vision Language Models (LVLMs) 분야에서 주목할 만한 진전이 있었습니다. 이 models는 images를 textual tokens로 encode하고 visual cues에 기반하여 instructions에 응답합니다. 이러한 models는 일반적으로 두 단계의 training paradigm을 따르는데, pertaining은 visual information에 대한 기초적인 이해를 확립하고, supervised fine-tuning은 instructions를 따르고 problems를 solve하는 능력을 향상시킵니다. 이 과정을 통해, advanced LVLMs는 vision과 language를 통합하여 complex tasks를 해결하는 데 있어 놀라운 잠재력을 보여주었습니다.

이러한 발전에도 불구하고, LVLMs는 주로 vision-language data의 한계 때문에 Large Language Models (LLMs)만큼 효과적으로 인간의 기대를 충족시키지 못하고 있습니다. 이 격차를 해소하기 위해, data efficiency와 performance benefits 때문에 LLMs에서 파생된 preference optimization이 human feedback에 기반하여 LVLM responses를 refine하기 위한 post-training reinforcement strategy로 도입되었습니다. 이러한 방법들이 data consumption을 수천 건 수준으로 줄여주지만, high-quality vision-language preference datasets를 구축하는 것은 여전히 resource-intensive합니다. 동시에, 다양한 subjectivity를 가진 미묘한 preferences를 capture하는 신뢰할 수 있는 reward model을 training하는 것은 주요 challenge로 남아 있습니다.

LLM Deekseek-R1의 성공으로, rule-based Group Relative Policy Optimization (GRPO) algorithm은 이 challenge를 track하기 위한 새로운 접근 방식을 제공합니다. 이전에 math 및 code와 같은 reasoning tasks에서 validated되었지만, R1 model은 rule-based rewards가 여러 domains에 걸쳐 comprehension과 reasoning을 향상시켜 reasoning 및 non-reasoning tasks 모두에서 performance improvement를 가능하게 한다는 것을 추가로 증명합니다. 더욱이, visual information의 통합으로 vision-language question-answer data는 더욱 objective하고 definitive해져 더 명확한 solutions와 cues를 제공합니다. 기존의 human-annotated instruction data는 자연스럽게 human preferences와 일치하는 precise responses를 제공합니다. 이는 중요한 question을 제기합니다: R1-like reinforcement learning method가 curated vision-language instruction data를 사용하여 LVLM capabilities를 더욱 enhance할 수 있을까?

본 논문에서는 특화된 reward models와 수작업으로 만들어진 preference datasets의 필요성을 없애는 LVLMs를 위한 새로운 vision-guided R1-like reinforcement learning algorithm인 Vision-R1을 제안합니다. 이를 달성하기 위해, Figure 1에 나타난 바와 같이 reward modeling과 training strategy에 대한 포괄적인 조사를 수행합니다. 먼저, visual feedback에 기반하여 각 completion을 quantitatively evaluate하는 criterion-driven reward function을 도입하여, preference data에 기반한 상대적 ranking 없이 absolute rewards에 대한 objective standard를 제공합니다. 이 함수는 textually numerical tokens를 coordinates로 transforming하여 box accuracy를 measure하는 precision과 같은 vision task criteria에 의해 guided되는 multi-dimensional reward signals를 전달합니다. 우리의 design은 model이 task characteristics에 대한 더 깊은 understanding을 개발하고 spatial identity를 무시하는 SFT에서 사용되는 token-level supervision을 능가하는 더 accurate responses를 generate할 수 있도록 합니다. reward modeling을 기반으로, 우리는 continuous improvement를 촉진하기 위해 training 전반에 걸쳐 reward criteria를 dynamically adjusts하는 progressive rule refinement strategy를 추가로 도입합니다. curriculum learning과 human learning processes에서 영감을 받은 이 strategy는 differentiation과 staged progression이라는 두 가지 핵심 원칙을 따릅니다. 이 differentiation mechanism은 model이 optimal performance를 위해 predictions를 지속적으로 refine하도록 장려합니다. 한편, training은 beginner 단계와 advanced phases로 구성되며, advanced phase에서는 reward hacking을 prevent하고 지속적인 progression을 보장하기 위해 점진적으로 더 엄격한 reward criteria를 적용합니다.

우리의 approach의 effectiveness를 validate하기 위해, 우리는 두 개의 advanced LVLMs인 Griffon-G-7B와 Qwen2.5-VL-7B를 curated data에서 train하고, 여러 in-domain 및 out-of-domain object localization tasks와 일반 QA benchmarks에서 evaluate합니다. 광범위한 experiments는 다음을 보여줍니다: (1) Vision-R1은 wild visual grounding과 dense object detection을 포함한 다양한 tasks에서 상당한 performance enhancement를 달성하며, 심지어 state-of-the-art Qwen2.5-VL-72B model을 능가합니다. (2) SFT와 비교할 때, Vision-R1은 advanced QA capabilities를 유지하면서 unseen scenarios에서 평균 6%의 improvement를 보이며 더 나은 generalization capabilities를 보여줍니다. 이 논문의 contribution은 다음과 같이 요약됩니다:

  • 우리는 LVLMs를 위한 새로운 vision-guided reinforcement learning method인 Vision-R1을 제안합니다. 이는 SFT를 넘어서는 더 깊은 task understanding을 facilitate하기 위해 vision feedback에 의해 guided되는 reward를 부여합니다.
  • 우리는 training 중 reward criteria를 dynamically adjusting하여 continuous improvement를 보장하는 효과적인 progressive rule refinement strategy를 제시합니다.
  • 포괄적인 experiments는 Vision-R1이 Qwen2.5-VL에 대해 최대 50%의 improvement를 포함하여 in-domain 및 out-of-domain scenarios 모두에서 다른 models에 대해 우수한 performance gains를 달성하고 우수한 generalization capabilities를 유지함을 보여줍니다.

 

 

 

Vision-R1 Introduction: 정리 노트 (AI 연구자용)

1. 해결하고자 하는 문제:

  • LVLMs 성능 향상을 위해 LLMs의 preference optimization (e.g., RLHF) 적용 시, high-quality vision-language preference data 구축 및 신뢰성 있는 reward model training의 비용 및 난이도가 높음. Vision 관련 preferences의 subjectivity 문제도 존재.

2. 핵심 아이디어:

  • LLMs에서 성공한 rule-based reinforcement learning (R1/GRPO) 접근법을 LVLMs에 적용.
  • 비용 높은 preference data 및 별도 reward model 대신, vision feedback 자체를 직접 reward signal로 활용. Vision-language tasks의 objective한 특성을 이용.

3. 제안 방법: Vision-R1

  • Reward Function (Criterion-Driven):
    • Visual feedback (e.g., box accuracy 계산)에 기반한 objective, absolute rewards 제공. (상대적 ranking 불필요)
    • Vision task criteria에 따른 multi-dimensional reward signals 생성.
    • SFT의 token-level supervision을 넘어선 깊은 task understanding 목표.
  • Training Strategy (Progressive Rule Refinement):
    • Curriculum learning 기반, training 중 reward criteria 동적 조정.
    • Differentiation (지속적 개선 유도) 및 Staged Progression (점진적 난이도 상승) 원칙 적용.
    • Continuous improvement 보장 및 reward hacking 방지.

4. 주요 결과 (요약):

  • Vision-R1 fine-tuning 시 object localization 등 다양한 tasks에서 상당한 performance enhancement 달성 (기존 SOTA 10배+ model 능가).
  • SFT 대비 평균 6% 향상된 generalization capabilities (unseen scenarios) 확보, QA capabilities 유지.

5. 핵심 Contribution:

  • Vision feedback을 직접 활용하는 reward 방식의 Vision-R1 제안 (비용 효율적 RL 가능).
  • Continuous improvement와 reward hacking 방지를 위한 progressive rule refinement strategy 제시.
  • 다양한 benchmarks에서 Vision-R1의 우수성 및 generalization 능력 입증.

쉬운 설명: Introduction 섹션 이해하기

Large Vision-Language Models (LVLMs)란?

  • 이미지(vision)와 글(language)을 함께 이해해서, 사용자의 지시(instructions)를 따르는 인공지능 model입니다. (예: 사진 설명하기, 사진 속 사물에 대해 답하기)
  • 보통 2단계로 학습해요: ① 기본적인 vision과 language 연결 배우기 (pretraining), ② 특정 지시 따르는 법 배우기 (supervised fine-tuning 또는 SFT).

어떤 문제가 있었나요?

  • 이 model들을 더 똑똑하게 만들려고, 글만 다루는 model (LLMs)에서 쓰던 방법을 가져오기도 해요. 그중 하나가 '사람 피드백' (preference optimization)을 이용해 사람이 선호하는 답을 가르치는 건데, vision-language 분야에서는 이런 high-quality 피드백(preference data)을 많이 모으기가 비싸고 어려워요. 또, 이 피드백을 바탕으로 model의 답을 채점하는 별도의 심판 model (reward model)을 만드는 것도 까다롭고요.

이 논문의 아이디어 (Vision-R1)는?

  • 비싼 '사람 피드백' 데이터나 별도 심판 model에 의존하는 대신, 이미지 정보(vision feedback) 자체를 이용해 model의 답을 채점하자는 거예요. Vision 관련 작업은 정답/오답이 비교적 명확한 경우가 많으니(예: 고양이 주변에 네모를 제대로 그렸는가?), vision 작업의 기준(criteria)으로 자동으로 점수(rewards)를 주는 규칙을 만들 수 있다는 거죠.

Vision-R1은 어떻게 작동하나요?

  1. 똑똑한 점수 시스템 (Criterion-Driven Reward Function): 특정 vision 기준(예: 네모 박스의 정확도)에 따라 점수를 주는 시스템을 사용해요. 사람이 비교할 필요 없이, 객관적인 점수를 바로 얻을 수 있어요.
  2. 점진적 학습 (Progressive Rule Refinement Strategy): 학습하면서 점수 규칙이 점점 엄격해지는 전략을 써요 (단계별 학습처럼). Model이 꾸준히 발전하도록 돕고, 실제로 똑똑해지지 않으면서 점수만 잘 받으려는 꼼수(reward hacking)를 막아줘요.

그래서 결과는? (미리 보기)

  • 이 Vision-R1 방법을 썼더니, 이미지 속 물체 찾기 같은 작업에서 LVLM 성능이 크게 향상되었고, 훨씬 큰 다른 model보다도 더 잘하게 되었어요. 처음 보는 상황(unseen scenarios)에서도 더 잘 대처하는 능력(generalization)도 좋아졌고요.

핵심 요약: Vision-R1은 비싼 human preference data나 복잡한 reward model 없이도, vision 정보 자체를 똑똑하게 활용하여 LVLMs를 효과적으로 개선할 수 있는, 잠재적으로 더 저렴하고 효율적인 reinforcement learning 방법을 제안합니다.

 

 

2. Related Works

더보기

2.1. Large Vision Language Models

최근 몇 년간, LVLMs는 상당한 진전을 이루었습니다. advanced LLMs와 aligning하고 high-quality instruction data를 leveraging하여 end-to-end training을 수행함으로써, LVLMs는 question answering 및 reasoning과 같은 tasks에서 그 capabilities를 크게 확장했으며 다양한 domains에서 주목할 만한 breakthroughs를 달성했습니다. 이러한 발전 속에서, 수많은 open-source LVLMs가 data construction, alignment methods, model architecture 등에 대한 광범위한 research를 통해 기여해 왔습니다. 현재, InternVL-2.5와 Qwen2.5-VL은 선도적인 LVLM series로 자리 잡고 있으며, close-source models와의 격차를 점차 좁히고 MMMU와 같은 어려운 benchmarks에서는 이를 능가하기도 합니다.

이러한 성과 외에도, visual grounding 및 object detection과 같은 더 어려운 object localization tasks에 대한 관심이 증가하고 있습니다. LVLMs가 Referring Expression Comprehension (REC)와 같은 더 간단한 fine-grained localization tasks에서 expert models를 능가했지만, complex하고 dense한 object detection tasks에서는 여전히 specialized models에 비해 크게 뒤처져 있습니다. Griffon 및 Lumen과 같은 일부 연구가 이 분야를 explored했지만, 이는 제한된 performance gains만을 제공하는 supervised fine-tuning에 국한되어 있습니다. Object localization은 LVLMs에서 더 advanced reasoning을 가능하게 하는 fundamental capability 역할을 하므로, 이는 핵심 research direction이자 주요 challenge입니다. 본 논문에서는 더 까다로운 object localization tasks에서 state-of-the-art LVLMs의 performance를 enhance하기 위해 reinforcement learning-based post-training을 추가로 explore합니다.

2.2. Vision-Language Reinforcement Learning

LVLMs의 빠른 advancement와 함께, researchers는 LLMs에서의 reinforcement learning 성공에 inspired 받아 이러한 models를 human preferences에 더 잘 align하기 위해 reinforcement learning methods를 exploring하기 시작했습니다. LVLMs에서의 첫 application인 RLHF는 human feedback을 기반으로 model responses를 iteratively optimizing하여 hallucinations를 reduce하는 것을 목표로 합니다. alignment를 더욱 enhance하고 training을 simplify하기 위해, models가 human-annotated preference data에서 직접 trained될 수 있도록 하는 Direct Preference Optimization (DPO)이 도입되었습니다. 그 이후로, dialogue capabilities를 improve하고 hallucinations를 mitigate하는 등 다양한 preference optimization algorithms이 개발되었습니다. LVLMs가 계속 advance함에 따라, 일부 methods는 long-sequence reasoning을 enhance하기 위해 reinforcement learning을 leverage하려고 시도하기도 했습니다. pretraining에 비해 computational costs를 reducing하고 model performance를 improving함에도 불구하고, 이러한 approaches는 여전히 manually annotated preference data와 reward model training에 rely on하므로, resource-intensive하고 challenging합니다. DeepSeek-R1에서 rule-based GRPO method의 성공에 inspired 받아, 우리는 precise annotations를 가진 instruction datasets가 본질적으로 human preferences와 align되는 vision-language domain에서의 그 application을 explore합니다. 우리의 work는 visual feedback에 의해 guided되는 rule-based reinforcement learning이 re-annotated preference data나 reward model training을 requiring하지 않고도 object localization tasks를 significantly enhance할 수 있음을 보여줍니다. 이는 LVLMs에서의 더 넓은 applications에 대한 그 potential을 더욱 highlights합니다.

 

 

Related Works 요약 (Vision-R1 맥락) - AI 연구자용

  • LVLMs 현황: 빠른 발전 (open-source가 격차 좁힘), QA/reasoning에 강점. BUT, complex/dense object localization에서는 specialized models 대비 약점 존재. 현재 SFT 기반 접근은 여기서 제한적 성과.
  • Vision-Language RL 현황: RLHF, DPO 같은 methods는 alignment 개선/hallucinations 감소시키지만, 비싼 human preference data 및 reward model training에 크게 의존.
  • 식별된 문제점 및 기회:
    • LVLM object localization을 위한 더 나은 방법 필요.
    • 기존 RL methods는 preference data로 인해 비용이 많이 듬.
    • LLMs에서의 rule-based RL (GRPO/R1) 성공이 대안 경로 제시.
    • Vision-language tasks (특히 localization)는 instruction data 자체에서 파생된 rule-based rewards에 적합한 내재적 객관성(inherent objectivity) 보유.
  • 본 논문의 위치 (Vision-R1): 기존 instruction data의 직접적인 visual feedback을 reward signal로 사용하여 LVLMs에 rule-based RL (R1-like) 적용 제안. preference data 수집이나 reward modeling의 비용/복잡성 없이 object localization 향상 목표.

 

쉬운 설명: Related Works (관련 연구) 섹션 이해하기

파트 1: 요즘 Large Vision Language Models (LVLMs) 연구 동향은?

  • 이 model들 (이미지와 글을 함께 이해하는 AI) 엄청 발전하고 있어요. 공개된 model(open-source)들도 아주 좋아져서 비공개 model(close-source)들을 따라잡고 있고요, 질문 답변(QA)이나 이미지 기반 추론(reasoning)을 잘 해요.
  • 하지만 약점도 있어요: 이미지 속 물체의 정확한 위치(object localization)를 찾는 것, 특히 복잡하거나 물체가 많은(dense detection) 상황에서는 아직 전문가 model보다 성능이 떨어져요. 기존 방식(SFT)으로는 이 능력을 크게 키우기 어려웠어요.
  • 그래서 이 논문은: 이 object localization 능력을 reinforcement learning(강화학습)이라는 기술로 더 키우는 방법을 연구해요.

파트 2: LVLMs에 Reinforcement Learning (RL) 적용 연구는?

  • 글만 다루는 model (LLMs)에서 RL이 성공하자, LVLMs에도 적용해서 사람의 의도(human preferences)에 더 잘 맞게 만들려는 연구들이 시작됐어요.
  • 기존 방법들 (RLHF, DPO 등): 사람이 어떤 답을 더 좋아하는지 피드백(preference data)을 줘서 model을 학습시키는 방식이에요. 이걸로 model의 오류(hallucinations)를 줄이거나 대화 능력을 높였죠.
  • 기존 방법의 문제점: 근데 이 '사람 피드백' 데이터를 모으는 게 돈과 시간이 많이 들어요. 또, 이 피드백을 바탕으로 점수를 매기는 별도의 '심판 model' (reward model)을 학습시키는 것도 복잡하고요.
  • 이 논문의 착안점: LLMs 중에는 사람 피드백 데이터 없이, 미리 정해진 '규칙'(rule-based)으로 RL을 성공시킨 사례(GRPO/R1)가 있어요.
  • 아이디어 연결: 저자들은 vision-language 작업, 특히 물체 위치 찾기는 정답이 이미지 안에 꽤 명확하게 있는 경우가 많다고 생각했어요. 그래서 기존 학습 데이터(instruction data)와 이미지 자체 정보(visual feedback)를 이용해서 '규칙'을 만들면, 비싼 사람 피드백 수집이나 심판 model 없이도 RL을 할 수 있지 않을까? 하고 생각한 거죠.

핵심 요약: 이 섹션은 LVLMs가 발전했지만 object localization은 여전히 어려운 문제이며, 기존 RL 방법들은 비용 문제가 있다는 점을 설명합니다. 그래서 이 논문은 LLMs에서 성공한 rule-based RL 방식과 vision 작업의 객관적인 특성을 활용하여, 비용 효율적으로 localization 문제를 해결하려는 Vision-R1 연구의 배경을 제시합니다.

 

 

3. Vision-R1

더보기

이 섹션에서는 GRPO reinforcement learning algorithm을 vision field로 성공적으로 extension한 vision-anchored R1-like reinforcement learning algorithm인 Vision-R1을 체계적으로 소개합니다. 먼저 R1 models의 success source이자 우리의 foundations인 rule-based GRPO algorithm에 대한 간략한 preliminaries부터 시작합니다. 그런 다음, 섹션 3.2에서 Vision-R1 algorithm의 pivotal component인 criteria-driven reward function, 특히 criteria-driven reward function에 대해 자세히 설명합니다. 더 나아가, 섹션 3.3에서는 progressive rule refinement strategy를 소개합니다. Vision-R1의 framework는 Figure 2에 설명되어 있습니다.

3.1. Preliminaries

DeepSeek-R1 내에서 self-evolving, multi-domain reasoning을 가능하게 한 GRPO의 success를 바탕으로, 이 reinforcement learning algorithm은 language 및 vision communities 모두에게 귀중한 insights를 제공합니다. 그 supervision이 오직 final outcome에만 기반하기 때문에, GRPO는 명시적이고(explicit) objective answers를 가진 tasks에 특히 suited합니다. reward models나 value models에 relying on하는 다른 preference optimization methods와 달리, 이는 LVLMs의 memory overhead를 크게 reduces합니다. 더욱이, GRPO는 주어진 sample에 대한 completions group 내에서 relative advantages를 computes하므로 manually annotated preference data의 필요성을 eliminating합니다. 이어서 그 training procedure와 optimization loss를 자세히 설명합니다.

optimized될 initial model이 주어지면, GRPO는 trainable policy model 와 frozen reference model 를 initializing하는 것으로 시작합니다. 주어진 sample 에 대해, 이전(old) policy model 는 먼저 completions group 을 generates합니다. 그런 다음, reward function 는 전체 group rewards 을 computes하고, 이는 각 completion의 advantage 를 group 내에서 다음과 같이 calculate하는 데 사용됩니다: [ A_i = \frac{r_i - \text{mean}\left({r_j}{j=1}^{N}\right)}{\text{std}\left({r_j}{j=1}^{N}\right)} ] reference model이 question이 주어졌을 때 각 completion을 output하기 위한 logits를 computes한 후, policy model 는 다음 objective를 maximizing함으로써 optimized됩니다: [ J_{GRPO}(\theta) = \frac{1}{N} \sum_{i=1}^{N} \left( \frac{\pi_{\theta}(o_i | q)}{\pi_{\theta_{old}}(o_i | q)} A_i - \beta \text{KL}(\pi_{\theta}(o_i | q) | \pi_{ref}(o_i | q)) \right) ] 여기서 은 한 group 내 completions의 number이고 는 hyper-parameter입니다. 이 objective는 model이 group 내에서 더 높은 advantage를 가진 completion을 produce하도록 motivate하지만, initial model에서 너무 멀리 bias되지 않도록 합니다.

3.2. Criteria-Driven Reward Function

이전의 approaches는 주로 mathematics 및 coding과 같은 domains에 focused on했는데, 이 분야에서는 answers가 종종 structured templates를 사용하여 summarized되고 character-level matching을 통해 evaluated됩니다. 반면, vision-language tasks는 본질적으로(inherently) definitive answers를 가지며, object localization tasks는 일반적으로(typically) intermediate steps를 involve하지 않고 final result를 directly output합니다. object localization tasks는 관심 있는 모든 objects를 identify하는 명확한 objectives를 가지고 있지만, 이러한 visual feedback은 엄격한 character-level matching을 require하지 않습니다. 단순히 이전의 matching-based reward를 applying하는 것은 vision tasks와 그 feedback의 독특한 characteristics뿐만 아니라, completion level에서 operates하는 reinforcement post-training의 advantages를 overlooks합니다.

이를 address하기 위해, 우리는 object localization tasks의 nature와 이를 handling하는 현재 LVLMs의 limitations 모두를 accounts for하는 reward function을 design하기 위해 investigate합니다. Figure 2의 task analysis에서 볼 수 있듯이, LVLMs는 object localization tasks에서 세 가지 주요 challenges에 face합니다. 첫째, multi-instance, long-sequence predictions에서 종종 instructions를 올바르게 follow하지 못하여 formatting errors를 초래합니다. 둘째, model이 valid predictions를 불충분한 number로 produces하여 언급된 모든 objects를 detect하지 못합니다. 셋째, 작거나(small) 어려운(challenging) objects에 대해 struggles하여 inaccurate predictions를 resulting합니다. formatting errors 외에, 뒤의 두 issues는 일반적으로(typically) object detection에서 evaluated됩니다. 따라서, 우리는 model performance를 comprehensively assess하고 improvement를 incentivize하기 위해 dual-format reward, recall reward, precision reward를 incorporating하는 criterion-driven reward function을 propose합니다.

Box-prioritized Prediction Matching. LVLMs는 unified sequence modeling 때문에 object localization tasks를 위해 object coordinates를 textual sequences로 outputs합니다. visual feedback에 기반하여 rewards를 compute하기 위해, 우리는 먼저 앞서 언급했듯이 이러한 textual sequences를 coordinate-based visual feedback으로 convert합니다. object localization tasks를 support하는 기존 LVLMs는 일반적으로 object coordinates에 대해 Figure 2에 표시된 plain-text format과 같은 고정된(fixed) sequence representation을 follow합니다. 이 representation을 기반으로, 우리는 sequence에서 개별 objects를 extract합니다. 그러나 object localization tasks는 종종 여러 objects를 involve하므로 predictions와 ground truth 간의 정확한(exact) matches가 requiring됩니다. training에서 이를 address하기 위해, 우리는 모든 object localization tasks를 object detection의 일반적인 framework 하에 unify하고 rewards를 computing하기 전에 matching을 conduct합니다. detection expert models와 달리, LVLMs는 class probabilities를 generate하지 않으며, object categories를 올바르게 predicting함에도 불구하고 일반적으로 bounding box accuracy에서 덜 precise합니다. 우리의 experiments를 바탕으로, 우리는 alignment를 위해 box-based loss를 prioritizing하는 Hungarian matcher에 대한 simplification을 introduce합니다. Equation 3에 표시된 바와 같이, matching 후 각 predicted instance는 coordinates, category label, 그리고 Intersection over Union score (IoU)를 contains합니다. [ { P_{i m} }{m=1}^{M} = \text{extract_match}(o_i) ] [ P{i m} = { [x_1, y_1, x_2, y_2]{i m}, \text{label}{i m}, \text{IoU}_{i m} } ]

Dual Format Reward. 이전 methods는 쉬운 answer extraction을 위해 미리 정의된(predefined) templates에 대한 adherence를 encourage하기 위해 format rewards를 introduce합니다. 이러한 methods와 Different하게, 첫 번째 challenge에서 설명된 것처럼, LVLMs는 object localization tasks에 대한 results를 directly output하지만 content 및 template format error 모두를 가진 long-sequence prediction에서는 부족합니다(fall short). 이를 address하기 위해, 우리는 dual format reward를 design합니다. 각 completion 에 대해, template-format checking 은 해당 completion이 Qwen2.5-VL의 JSON-format coordinates structure와 같이 지정된(designated) template format을 follows하는지 verify합니다. 충족되면(met), 우리는 유효한(valid) 범위 내에 머무르고 소수점을 올바르게 배치하는 것과 같이 coordinate constraints를 adheres하는지 확인하기 위해 numerical content를 추가로 validate하며, 이는 로 indicated됩니다. 우리는 prediction이 format과 content criteria 모두를 완전히(fully) satisfies할 때만 1의 reward를 assigning하는 binary reward scheme을 adopt합니다: [ reward_{DF}(o_i) = \begin{cases} 1, & \text{if } f_{tem} = 1 \land f_{cont} = 1 \ 0, & \text{otherwise} \end{cases} ]

Recall Reward. Recall은 object localization tasks에서 중요한(crucial) metric으로, model이 누락(omission) 없이 가능한 한 포괄적으로(comprehensively) 관심 있는 모든 instances를 predict할 수 있는지를 reflecting합니다. Figure 2에서 볼 수 있듯이, specialized localization models와 달리, LVLMs는 일반적으로 확인되었지만(confirmed) 실제 number보다 적은 valid instances를 predict합니다. 따라서, model이 가능한 모든 targets를 identify하도록 encourage하기 위해 completion의 evaluation에 recall quality를 incorporate하는 것이 필수적(essential)입니다. Equation 5에서 볼 수 있듯이, 우리는 object detection에서의 recall의 definition을 follow하고 각 predicted completion에 대한 recall-based reward를 design합니다. matched predicted instance의 IoU가 미리 정의된(predefined) threshold 를 exceeds할 때, 이는 valid prediction으로 considered됩니다. recall reward는 모든 GT(ground truths) 중 valid predictions의 비율(ratio)입니다. [ reward_{recall}(o_i) = \frac{num(Valid \ Predications)}{num(GT)} ]

Precision Reward. recall의 전역적(global) 관점과 달리, precision reward는 세 번째 challenge에 대해 각 completion의 predicted instances의 quality에 focuses on합니다. precision reward는 recall reward와 함께(in conjunction with) 작동합니다: 후자(latter)는 model이 가능한 한 많은 관련 instances를 predict하도록 encourages하는 반면, 전자(former)는 predictions가 가능한 한 accurate하도록 ensures합니다. models가 high-quality bounding boxes를 predict하도록 직접적으로(directly) motivate하기 위해, 우리는 precision reward를 모든 valid predictions의 평균(average) IoU로 define합니다: [ reward_{\text{prec}}(o_i) = \sum_{m=1}^{M} \left( \left( \text{IoU}{m}^{i} \geq \xi_0 \right) \cdot \text{IoU}{m}^{i} \right) \frac{1}{M} ] 각 completion 에 대한 전체(overall) reward는 visual task criteria에 고정되어(anchored) completion을 comprehensively assess하기 위한 세 가지 rewards 모두의 합(sum)입니다. [ \begin{equation} reward = reward_{DF} + reward_{recall} + reward_{prec} \quad (7) \end{equation} ]

3.3. Progressive Rule Refinement Strategy

localization tasks에서 ground truth에 대해 높은 IoU를 가진 bounding box를 정확하게(accurately) predicting하는 것은 특히 dense scenes에서 challenging합니다. 이러한 어려움은 동일한 group 내 다른 predictions에 대해 유사한 completion rewards를 lead to할 수 있으며, 이는 model의 optimization을 limiting합니다. 이를 address하기 위해, 우리는 curriculum learning과 human learning processes에서 inspired받은 progressive rule refinement strategy를 propose합니다. 이는 continuous performance improvement를 위해 training 동안 reward calculation criteria를 dynamically adjusts합니다. Figure 2에서 볼 수 있듯이, 이 strategy는 recall과 precision rewards 모두에 applied되어, advantage 를 computing하기 위한 그들의 최종 값(final values)을 refining합니다. 이는 differentiation policy와 Staged Progression policy라는 두 가지 핵심(key) components로 consists됩니다.

Differentiation. differentiation strategy는 predictions와 실제(actual) rewards 간의 mapping에서 대비(contrast)를 increasing하는 데 focuses on합니다. 이전의 linear mapping과 달리, 우리는 낮은 recall과 평균 IoU를 가진 predictions를 penalize하는 반면, 상대적으로 높은 recall과 IoU를 가진 것들에는 전체(full) rewards를 granting합니다. 이러한 조정(adjustment)은 model이 optimal rewards를 위해 현재(current) capability 내에서 high-quality responses를 generate하도록 encourages합니다. 우리는 penalty threshold를 로, full reward threshold를 로 denote하며, differentiation strategy는 Eq. 8로 expressed됩니다. 우리는 더 나은 stability를 위해 precision reward에 대해 각 instance에 이 strategy를 apply하고, 한 completion에 대한 recall reward를 직접적으로(directly) adjust합니다. [ f(x) = \begin{cases} 1, & \text{if } x \geq \xi_2 \ 0, & \text{elif } x < \xi_1 \ x, & \text{otherwise} \end{cases} ]

Staged Progression. 초보자(beginners)에게 달성하기 쉬운(easier-to-achieve) 기준(standard)을 제공하고 그들의 capability가 향상됨에 따라 점진적으로(gradually) 난이도(difficulty)를 increasing하는 것은 일반적인(common) learning strategy입니다. 우리는 continuous model improvement를 encourage하고 reward hacking을 prevent하기 위해 이 원칙(principle)을 우리의 design에 incorporate합니다. training process는 training steps (STEP)에 기반하여 initial learning과 advanced learning의 두 phases로 divided됩니다. initial phase에서는 상대적으로 낮은 True Positive(TP) thresholds 와 reward criteria , 를 설정하며, 이는 object detection evaluations의 threshold settings인 0.5, 0.5 및 중간(intermediate) 0.75를 참조합니다. 진행됨에 따라(advancing), 우리는 thresholds를 이전 상한(upper bounds)인 0.75, 0.75, 0.9로 adjusting하여 criteria를 강화(tighten)합니다. object localization tasks에서 완벽하게(perfectly) accurate한 bounding box predictions를 달성하는 것은 거의 불가능하므로(nearly impossible), 우리는 를 1보다 약간(slightly) 아래로 설정합니다. 이러한 strategy adjustments를 통해, model은 시간이 지남에 따라 continuous learning과 improvement를 달성할 수 있습니다.

 

Vision-R1 방법론 핵심 정리 (AI 연구자용)

  • 기반: LLMs에서 성공한 rule-based RL algorithm GRPO를 vision-language, 특히 object localization tasks에 맞게 확장. GRPO는 preference data나 reward model 없이, group 내 completions의 상대적 advantage ()를 계산하여 policy ()를 optimize함. ( 참고)
  • 핵심 기여 1: Criteria-Driven Reward Function (for Object Localization)
    • 문제 인식: Math/code의 character-level matching reward는 vision에 부적합. LVLMs의 localization challenges (1. Formatting errors, 2. 낮은 recall, 3. 낮은 precision) 해결 필요.
    • 제안된 Reward 구성요소:
      • Box-prioritized Prediction Matching: Textual coordinates를 box로 변환 후, IoU 기반의 단순화된 Hungarian matching 수행. ( 생성)
      • Dual Format Reward (): Template format (f_{tem})과 numerical content (f_{cont}) 유효성을 모두 만족 시 1점 부여 (Binary). (Challenge 1 대응)
      • Recall Reward (): Valid predictions (IoU > ) 수 / 전체 GT 수. (Challenge 2 대응)
      • Precision Reward (): Valid predictions의 평균 IoU. (Challenge 3 대응)
      • Total Reward: .
  • 핵심 기여 2: Progressive Rule Refinement Strategy
    • 문제 인식: Localization의 난이도로 인해 reward 차이가 작아 optimization이 어려울 수 있음.
    • 제안된 전략: Reward 계산 기준(thresholds )을 training 중 동적 조정 (curriculum learning 기반). Recall 및 Precision rewards에 적용 후 계산.
      • Differentiation Policy: 낮은 품질()은 0점, 높은 품질()은 1점으로 reward 대비를 높여 학습 신호 강화. (Eq. 8 참고)
      • Staged Progression Policy: Training 단계를 initial/advanced로 나누어 thresholds를 점진적으로 높임 (e.g., : 0.5 -> 0.75). Reward hacking 방지 및 continuous improvement 유도.

쉬운 설명: Vision-R1 방법 이해하기

  • Vision-R1이란? Object localization (이미지 속 물체 위치 찾기) 능력을 향상시키기 위해 만든 reinforcement learning (RL) 방법이에요. 기존의 비싼 방식(사람 피드백 필요) 대신, '규칙 기반'으로 model을 학습시켜요.
  • 기본 원리 (GRPO 참고):
    • Model에게 같은 질문에 대해 여러 답변(completions)을 만들게 해요.
    • 각 답변이 얼마나 좋은지 '규칙'에 따라 점수(reward)를 매겨요.
    • 다른 답변들과 비교해서 상대적으로 얼마나 더 잘했는지(advantage) 계산해요.
    • 이 advantage 점수를 이용해서 model이 더 좋은 답변을 만들도록 학습시켜요.
  • 핵심 1: 똑똑한 채점 기준 만들기 (Criteria-Driven Reward Function)
    • 문제: 글자 맞추기 식 채점은 vision 문제에 안 맞아요. LVLM들은 물체 위치를 찾을 때 ①틀린 형식으로 답하거나, ②물체를 빼먹거나(낮은 recall), ③위치를 부정확하게(낮은 precision) 알려주는 문제가 있어요.
    • 해결책: 이 3가지 문제를 모두 고려해서 점수를 매겨요.
      • Box Matching: Model이 텍스트로 출력한 좌표를 실제 네모 박스로 바꿔서 정답 박스와 비교(매칭)해요.
      • 형식 점수 (Dual Format Reward): 정해진 형식(e.g., JSON)과 숫자 규칙(e.g., 범위)을 잘 지켰는지 확인해서 0점 또는 1점을 줘요. (①번 문제 해결)
      • 찾은 개수 점수 (Recall Reward): 정답 물체 중 얼마나 많이 찾아냈는지 비율로 점수를 줘요. (②번 문제 해결)
      • 정확도 점수 (Precision Reward): 찾아낸 물체들의 위치가 평균적으로 얼마나 정확한지(평균 IoU) 점수를 줘요. (③번 문제 해결)
      • 총점: 이 세 가지 점수를 합쳐서 최종 점수를 만들어요.
  • 핵심 2: 점점 더 어렵게 만들기 (Progressive Rule Refinement Strategy)
    • 문제: 위치 찾기가 너무 어려워서 모든 답변의 점수가 비슷하게 낮으면 model이 뭘 잘해야 할지 배우기 어려워요.
    • 해결책: 학습 단계를 나누고 채점 기준(thresholds)을 점진적으로 높여요 (curriculum learning 아이디어).
      • 차별화 (Differentiation): 점수가 낮은 답변은 0점에 가깝게, 높은 답변은 1점에 가깝게 만들어서 잘한 것과 못한 것의 차이를 분명하게 해줘요.
      • 단계별 진행 (Staged Progression): 처음에는 기준을 좀 낮게 설정해주고 (initial phase), model이 점점 잘하게 되면 기준을 높여서 (advanced phase) 계속 발전하도록 유도해요. 꼼수(reward hacking)도 막고요.
  • 요약: Vision-R1은 object localization의 주요 문제점들을 해결하기 위해 특별히 설계된 reward 점수 체계와, model이 꾸준히 발전하도록 돕는 점진적 학습 전략을 사용하는 reinforcement learning 방법입니다.