AI바라기의 인공지능
VLM : 논문리뷰 : VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model 본문
VLM : 논문리뷰 : VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model
AI바라기 2025. 4. 28. 14:55
VLM-R1 학습 노트
용어 설명 (Terminology)
- VLM-R1: 이 논문에서 제안하는, R1-style reinforcement learning (RL)을 Vision-Language Models (VLMs)에 적용하기 위한 통합 framework.
- R1-style RL: DeepSeek R1에서 제안된 RL 접근 방식. 별도의 reward model 없이, deterministic ground-truth가 있는 task에 대해 rule-based reward를 사용하여 LLM의 reasoning 능력을 향상시키는 방식.
- GRPO (Group Relative Policy Optimization): VLM-R1에서 사용하는 특정 RL algorithm. 별도의 critic model 없이, 생성된 여러 candidate response 그룹 내에서 reward를 직접 비교하고 정규화하여 advantage를 계산하고 policy를 최적화하는 방식.
- REC (Referring Expression Comprehension): 주어진 텍스트 설명에 해당하는 이미지 내 객체의 bounding box를 찾는 visual understanding task.
- OVD (Open-Vocabulary Object Detection): 이미지 내에서 주어진 임의의 (open-vocabulary) 텍스트 label에 해당하는 모든 객체를 검출하고 bounding box와 label을 출력하는 task. REC보다 복잡함.
- Reward Hacking: RL agent가 의도된 목표 달성 없이 reward function의 허점을 이용하여 높은 reward만 얻으려는 현상. OVD task에서 native mAP reward 사용 시 관찰됨 (과도한 bounding box 예측).
- OD aha moment: odLength reward를 사용하여 OVD task를 학습시킬 때 VLM이 보이는 발현적 (emergent) 행동. Bounding box를 예측하기 전에, 먼저 이미지 내 객체의 존재 유무를 thinking 단계를 통해 추론하는 2단계 전략.
- odLength reward: OVD task의 reward hacking 문제를 해결하기 위해 제안된 custom reward function. 예측된 객체 수와 ground-truth 객체 수의 불일치에 penalty를 부과하여 (sov_d factor) mAP를 조절.
- VLM Module: VLM-R1 framework 내의 구성 요소. 다양한 VLM architecture를 GRPO trainer와 상호작용할 수 있도록 표준화된 interface를 제공하는 모듈. 모델 로딩, prompt formatting 등을 처리.
- LISA-Grounding: REC task 평가를 위한 out-of-domain dataset. 단순 속성 외에 reasoning이 필요한 challenging dataset.
- OVDEval: OVD task 평가를 위한 comprehensive benchmark. Object detection, attribute, position, relationship, negation 등 다양한 linguistic aspect를 평가하며, NMS-AP metric을 사용.
- D³ Dataset: OVD task 학습에 사용된 dataset. COCO보다 의미적으로 풍부한 (semantically richer) description을 포함.
- COCOfiltered: COCO val2017 데이터셋에서 annotation box가 10개 이상인 카테고리를 제외하여 만든 평가용 데이터셋. VLM의 낮은 recall 문제를 완화하고 소수 객체 카테고리에 집중하기 위함.
- SFT (Supervised Fine-Tuning): 지도 학습 방식으로 모델을 특정 task 데이터셋에 맞춰 fine-tuning하는 기법.
Purpose of the Paper
- 기존 연구 한계:
- 표준적인 VLM은 REC, OVD 같은 visual understanding task에서 specialized vision model (e.g., Grounding DINO, OmDet) 대비 성능이 부족함.
- SFT 방식은 복잡한 reasoning이 필요한 out-of-domain task에 대한 generalization 성능 향상에 한계가 있음.
- LLM 분야에서 R1-style RL의 효과는 입증되었으나, VLM, 특히 general visual understanding task (detection, grounding) 에 대한 적용 및 효과 검증은 초기 단계임.
- 새로운 접근 방식 및 목표:
- LLM에서 효과를 보인 R1-style RL (rule-based reward)을 VLM에 적용하여 visual reasoning 능력을 향상시킬 수 있는지 탐구.
- 특히, 명확한 ground-truth (e.g., bounding box)가 존재하는 REC, OVD task에 R1-style RL을 적용하는 것의 feasibility와 effectiveness를 검증.
- 이를 위해 R1-style RL을 VLM에 적용하기 위한 전용 framework인 VLM-R1을 개발하고, SFT 대비 RL의 generalization 성능 우위를 입증하고자 함.
- 연구 동기 (Why): Visual task의 ground-truth annotation은 R1-style의 rule-based reward 설계와 자연스럽게 호환되므로, 별도의 reward model 없이 안정적이고 해석 가능한 RL 학습이 가능할 것이라는 가설에서 출발.
Key Contributions & Novelty
- Contribution 1: VLM-R1 Framework 개발
- R1-style RL (specifically GRPO)을 VLM에 적용하기 위한 open-source framework 개발.
- Novelty: Math/counting 외 general vision-language task (REC, OVD) 에 DeepSeek R1의 RL 방법론을 적용하기 위해 특별히 설계된 최초의 (혹은 동시 연구 중 하나인) 공개 framework. 다양한 VLM을 지원하는 모듈식 VLM Module 포함.
- Contribution 2: RL의 Generalization 효과 입증 (REC & OVD)
- REC, OVD task에서 RL (VLM-R1) 학습이 SFT 대비 우수한 generalization 성능을 보임을 입증.
- Novelty: 특히 out-of-domain (LISA-Grounding) 및 복잡한 benchmark (OVDEval)에서 SFT 대비 RL의 현저한 성능 향상을 보여줌으로써, VLM context에서 "SFT Memorizes, RL Generalizes" 가설을 뒷받침.
- Contribution 3: OVD Task에서의 Reward Hacking 식별 및 완화
- Native mAP reward 사용 시 발생하는 reward hacking 문제 (불필요하게 많은 box 예측)를 식별하고, 이를 해결하기 위한 odLength reward 제안 및 효과 검증.
- Novelty: VLM+OVD 환경에서 발생하는 특정 reward hacking 메커니즘을 규명하고, 이를 효과적으로 방지하는 간단한 penalty 기반 reward (odLength)를 고안.
- Contribution 4: "OD aha moment" 발견
- odLength reward로 OVD task 학습 시, 모델이 먼저 객체 존재 유무를 reasoning (<think> tag) 하고 bounding box를 예측하는 2단계의 발현적 (emergent) 행동 관찰.
- Novelty: Reward engineering을 통해 VLM에서 OVD task 수행 시 이러한 특정 reasoning 패턴이 자발적으로 나타남을 발견.
- Contribution 5: 학습 데이터 품질 및 모델 크기 영향 분석
- OVD task에서 semantically rich training data (D³) 가 COCO 데이터보다 RL 성능 향상에 훨씬 효과적임을 보임 (in-domain 평가 포함).
- 모델 크기 (3B, 7B, 32B) 에 따른 RL의 효과를 분석하여, 특히 reasoning 기반 sub-task (Relation, Negation)에서 더 큰 모델이 RL로부터 더 많은 이득을 얻음을 확인.
- Novelty: RL 학습 효과에 있어 학습 데이터의 semantic complexity가 중요함을 실증적으로 보이고, 모델 스케일에 따른 RL 효과를 세부 task 별로 분석.
Experimental Highlights
- REC Task:
- LISA-Grounding (Out-of-domain): RL model (3B)이 SFT 모델 대비 압도적 성능 향상 (Acc: 63.14 vs 54.82). SFT는 오히려 성능 하락. (Table 2, Figure 5)
- RefCOCO/+/g (In-domain): RL model이 SFT 모델 대비 꾸준한 성능 향상 보임. (Figure 5 상단)
- OVD Task:
- COCOfiltered: RL model (3B)이 SFT 및 Base model 대비 mAP, GP, GR 모두 향상 (mAP: 21.1 vs 18.5 vs 14.2). (Table 3)
- OVDEval: RL model (3B)이 SFT, Base 7B, specialized model (OmDet)을 능가하며 새로운 SOTA 달성 (nms-AP: 31.01). 특히 Position (+9.2), Relationship (+8.4), Negation (+3.3) 등 복잡한 카테고리에서 큰 성능 향상. (Table 4)
- Reward Hacking & odLength: odLength reward 사용 시 native AP50/mAP reward 대비 월등한 성능 (OVDEval nms-AP: 31.01 vs 21.68). 과도한 길이의 출력 방지 (Figure 6), "OD aha moment" 유도 (Figure 7). (Table 5)
- Data Quality: D³ dataset 학습이 COCO dataset 학습보다 COCOfiltered 평가에서도 훨씬 좋은 성능 (mAP: 21.1 vs 12.6). (Table 6)
- Model Scaling: 3B, 7B, 32B 모델 모두 RL을 통해 성능 향상. 특히 7B, 32B 모델은 Relation, Negation 등 reasoning sub-task에서 더 큰 폭으로 향상. (Table 7)
Limitations and Future Work
- Limitations:
- 현재 VLM-R1 framework는 GRPO algorithm만 지원함.
- 연구가 REC, OVD라는 특정 task에 집중되어 있음 (cross-task generalization 미흡).
- Reward engineering이 odLength 외 다양한 시도가 부족함.
- odLength reward가 precision은 높이지만 recall을 다소 낮출 수 있는 trade-off 존재 가능성.
- VLM의 world knowledge와 specialized detector의 fine-grained detection 능력 결합 필요성 시사 (OmDet 비교).
- Future Work:
- VLM-R1에 다른 RL algorithm 통합.
- Cross-task generalization 능력 탐구 (하나의 task로 학습 후 다른 task 평가).
- 더 복잡한 multimodal task를 위한 정교한 reward engineering 연구.
- Precision-recall trade-off를 고려한 reward function 설계 개선.
- VLM과 specialized detector의 장점을 결합한 hybrid architecture 개발.
- VLM-R1을 더 challenging한 multimodal scenario로 확장.
Overall Summary
이 논문은 LLM에서 효과가 입증된 R1-style RL을 VLM에 적용하기 위한 VLM-R1 framework를 제안하고, 이를 통해 REC 및 OVD task에서 SFT 대비 뛰어난 visual reasoning 및 generalization 성능 향상을 달성했음을 보여준다. 특히 OVD task에서 발생하는 reward hacking 문제를 odLength reward로 해결하고, 이 과정에서 모델이 추론 후 예측하는 "OD aha moment"라는 흥미로운 현상을 발견했다. 이 연구는 VLM 성능 향상을 위한 RL의 잠재력을 입증하고, reward design 및 data selection의 중요성에 대한 실질적 insight와 함께 vision-language RL 연구를 위한 유용한 open-source 도구를 제공한다는 점에서 중요한 의의를 갖는다.
쉬운 설명 (Easy Explanation)
이 논문은 VLM(이미지 보고 답하는 AI)이 특정 물체를 찾거나(REC), 여러 물체를 이름만 듣고 찾아내는(OVD) 능력을 향상시키기 위해 RL(강화학습) 게임 방식을 사용합니다. 기존의 SFT(단순 예제 학습) 방식은 배운 것만 잘하고 새로운 문제에 약했지만, 이 RL 방식은 마치 게임처럼 정답을 맞힐 때마다 점수(rule-based reward)를 줘서 스스로 더 잘하게 만듭니다. 특히, 여러 물체를 찾아야 하는 복잡한 OVD 게임에서는 단순히 "정답 맞히면 점수"(기존 mAP 방식)를 주니 AI가 마구잡이로 많이 찍는 부작용("Reward Hacking")이 생겼습니다. 그래서 "내가 시킨 정확한 개수만큼 찾아야 진짜 점수!"(odLength reward)라는 규칙을 추가했더니, AI가 먼저 "진짜 그 물건이 있나?" 생각(OD aha moment)하고 나서 정확하게 찾아내는 방식으로 똑똑해졌습니다. 이렇게 하니 처음 보는 어려운 문제(generalization)도 더 잘 풀게 되었습니다.
Abstract
최근 DeepSeek R1은 reinforcement learning (RL)이 간단하면서도 효과적인 설계를 통해 Large Language Models (LLMs)의 reasoning 능력을 상당히 향상시킬 수 있음을 보여주었습니다. R1의 핵심은 rule-based reward 공식에 있으며, 이는 deterministic ground-truth 답변을 가진 tasks를 활용하여 정확하고 안정적인 reward 계산을 가능하게 합니다.
visual domain에서도 유사하게 광범위한 visual understanding tasks가 본질적으로 잘 정의된 ground-truth annotations를 갖추고 있음을 관찰합니다. 이러한 속성은 해당 tasks를 rule-based reward mechanisms와 자연스럽게 호환되도록 만듭니다.
이 관찰에 동기를 부여받아, 우리는 Vision-Language Models (VLMs)의 visual reasoning 능력을 향상시키는 것을 목표로 R1 스타일의 reinforcement learning을 VLM으로 확장하는 것을 연구합니다. 이를 위해, 우리는 일반적인 vision-language tasks에서 VLMs의 performance를 향상시키기 위해 RL을 활용하도록 설계된 전용 framework인 VLM-R1을 개발합니다.
이 framework를 사용하여, 우리는 visual domain에 RL을 적용하는 타당성을 추가로 탐구합니다. 실험 결과는 RL-based model이 visual understanding tasks에서 경쟁력 있는 performance를 제공할 뿐만 아니라 generalization ability 측면에서 Supervised Fine-Tuning (SFT)를 능가함을 나타냅니다.
더 나아가, 우리는 object detection에서의 reward hacking 존재, "OD aha moment"의 출현, training data quality의 영향, 그리고 다양한 model sizes에 걸친 RL의 scaling 행동을 포함하여 일련의 주목할 만한 통찰력을 밝혀내는 포괄적인 ablation studies를 수행합니다.
이러한 분석을 통해, 우리는 reinforcement learning이 vision-language models의 능력을 어떻게 향상시키는지에 대한 이해를 심화시키는 것을 목표로 하며, 우리의 연구 결과와 open-source 기여가 vision-language RL community의 지속적인 발전을 지원하기를 바랍니다. 우리의 code와 model은 https://github.com/om-ai-lab/VLM-R1 에서 확인할 수 있습니다.
- Introduction
OpenAI o1의 도입은 Large Language Models (LLMs)이 그들의 outputs에 대한 feedback으로부터 직접 학습할 수 있게 하는 reinforcement learning (RL)이 LLMs의 reasoning 능력을 상당히 향상시킬 수 있음을 보여주었습니다. 더 최근에는 DeepSeek R1이 별도의 학습된 reward model 없이 간단한 rule-based rewards만으로도 LLMs에게 복잡한 reasoning performance를 autonomously 부여하기에 충분하다는 것을 보여줌으로써 이 통찰력을 더욱 발전시켰습니다.
이 성공의 핵심 요인은 rule-based reward design이 deterministic ground-truth 답변을 가진 tasks에 쉽게 적용될 수 있어 안정적이고 해석 가능한 reward signals를 허용한다는 것입니다. visual domain에서도 유사하게, 본질적으로 정확하고 객관적으로 정의된 ground-truth annotations를 포함하는 수많은 visual understanding tasks가 존재합니다. 예를 들어, Referring Expression Comprehension (REC)과 같은 tasks는 예측된 bounding box와 ground-truth annotation 간의 Intersection-over-Union (IoU)를 명시적인 reward metric으로 직접 채택할 수 있습니다. 이러한 관찰에 동기를 부여받아, 유사한 RL methodologies가 Vision-Language Models (VLMs)의 reasoning capabilities를 비슷하게 향상시킬 수 있는지 조사하는 것이 직관적이 됩니다.
이를 위해, 우리는 일반적인 vision-language tasks에서 VLMs의 performance를 향상시키기 위해 RL을 적용하도록 설계된 전용의 확장 가능한 framework인 VLM-R1을 개발합니다. VLM-R1은 flexibility, scalability, 그리고 ease of experimentation을 염두에 두고 구축되었습니다. 이는 광범위한 configurations를 지원하며 VLMs 맥락에서의 RL-based optimization 연구에 맞춰져 있습니다. VLM-R1의 주요 features는 다음과 같습니다:
- GRPO Compatibility: 모든 hyperparameters에 대한 세밀한 제어와 함께 네이티브 GRPO algorithm을 완벽하게 지원합니다.
- LoRA-based Training: 제한된 resource 설정에 적합한 LoRA를 통한 parameter-efficient training을 가능하게 합니다.
- Multi-node Training: scalability를 위해 여러 GPUs 또는 server nodes에 걸친 distributed training을 지원합니다.
- Multi-image Input: 샘플당 여러 이미지를 지원하여 복잡한 multi-image reasoning tasks를 용이하게 합니다.
- Model Flexibility: 다양한 VLMs와 호환되며, 현재 QwenVL과 InternVL을 지원합니다.
- Custom Dataset Support: 사용자 정의 datasets를 쉽게 통합하여 task-specific 또는 domain-specific experiments를 허용합니다.
- Mixed Modality Training: hybrid combinations를 포함하여 image-text 및 pure-text datasets 모두에서의 training을 지원합니다.
통합되고, 모듈식이며, 매우 적응성이 뛰어난 training pipeline을 제공함으로써, VLM-R1은 reinforcement learning과 vision-language modeling의 교차점에서 연구를 발전시키는 강력한 도구 역할을 합니다.
이 보고서에서는 VLM-R1을 활용하여, 두 가지 visual understanding tasks — Referring Expression Compression (REC)와 Open-Vocabulary Object Detection (OVD) — 를 선택하여 VLMs에 RL을 적용하는 feasibility와 effectiveness를 탐구합니다. REC와 OVD는 공통된 output format인 bounding boxes를 공유하지만 task complexity에서는 상당히 다릅니다. REC에서 model은 주어진 query에 기반하여 단일 bounding box를 predict할 것으로 예상되는 반면, OVD에서는 model이 모든 query된 target에 대해 각각 해당하는 bounding box를 정확하게 output해야 합니다. 이러한 대조는 유사한 output structures를 가지지만 다양한 difficulty levels를 가진 tasks가 VLMs에서 reinforcement learning의 effectiveness에 어떻게 영향을 미치는지 분석할 수 있게 해줍니다. 더욱이, 우리는 VLMs가 종종 이러한 tasks에서 specialized vision models (예: Grounding DINO, OmDet)에 비해 underperform한다는 것을 관찰합니다. 표 1에서 볼 수 있듯이, Grounding DINO보다 10배 이상의 parameters를 가짐에도 불구하고 Qwen2.5-VL-3B는 여전히 REC 및 OVD benchmarks 모두에서 performance가 뒤처집니다. 이 performance gap은 중요한 질문을 제기합니다: reinforcement learning이 이러한 어려운 visual understanding tasks에서 VLMs의 effectiveness를 향상시키는 데 활용될 수 있는가?
실험 결과는 RL이 supervised fine-tuning (SFT)에 비해 VLMs의 visual understanding performance를 상당히 향상시키며, 더 중요하게는 복잡하고 실제적인 benchmarks에서의 generalization ability에서 훨씬 더 큰 이득을 산출함을 보여줍니다. REC의 맥락에서, 우리의 3B RL model은 out-of-domain evaluation benchmark LISAGrounding에서 63.16점(SFT의 경우 54.82점)을 달성했습니다. OVD task의 경우, 3B RL model은 COCO에서 21.1 AP(SFT의 경우 17.8점; 7B baseline model의 경우 14.2점)에 도달했으며, OVDEval에서 새로운 SOTA인 31.01 nms-AP(SFT의 경우 26.50점; 7B model의 경우 29.08점)를 기록했으며, 특히 복잡한 sub-tasks에서 뛰어난 성능을 보였습니다.
또한, 포괄적인 ablation studies는 일련의 중요한 insights를 추가로 밝혀냅니다. 예를 들어, 우리는 object detection에서 reward hacking을 관찰하고 이를 완화하기 위해 reward engineering을 수행했으며, 여기서 model은 예측하기 전에 먼저 객체 존재에 대해 reasoning하는 "OD aha moment"를 보입니다. 더 나아가, 우리는 training data의 신중한 선택이 final performance를 향상시킬 수 있음을 입증하고 model size의 영향을 분석합니다. 종합하면, 우리의 연구 결과는 open-vocabulary object detection과 같은 더 복잡한 tasks는 강력한 performance를 달성하기 위해 추가적인 optimization이 필요하지만, REC와 같은 상대적으로 간단한 tasks는 적은 modifications로 효과적으로 해결될 수 있음을 시사합니다. 우리의 contributions는 다음과 같이 요약될 수 있습니다:
- 우리는 open-r1을 기반으로 VLM-R1을 개발했습니다. 이는 flexibility, scalability, ease of experimentation을 목표로 하고 광범위한 RL configurations를 지원하며, vision-language models의 performance를 향상시키기 위해 reinforcement learning을 적용하도록 설계된 전용의 확장 가능한 framework입니다.
- 우리는 두 가지 필수적인 visual understanding tasks인 referring expression compression과 open-vocabulary object detection을 training하여 vision-language models에 reinforcement learning을 적용하는 effectiveness를 입증합니다. VLM-R1로 trained된 우리의 RL model은 SFT counterpart에 비해 performance improvement를 달성했으며, 특히 복잡하고 실제적인 out-of-domain benchmarks에서 두드러집니다.
- 우리의 확장된 ablation studies는 object detection에서의 reward hacking 존재, "OD aha moment"의 출현, training data quality의 영향, 그리고 model scales에 걸친 RL effects를 포함하여 일련의 흥미로운 insights를 밝혀냅니다. 우리는 이러한 insights를 보고하고 reinforcement learning을 어떻게 잘 tune하여 VLMs의 performance를 향상시키는지를 분석합니다.
- 우리는 vision-language reinforcement learning 분야의 open-source community에 기여하고자 framework codebase와 모든 model weights를 공개합니다.
정리노트 (AI 연구자용)
VLM-R1: Vision-Language Models를 위한 R1 스타일 Reinforcement Learning Framework 및 적용 연구
핵심 아이디어:
- LLM reasoning 향상에 효과적인 DeepSeek R1의 rule-based reward 기반 reinforcement learning (RL) 접근법을 Vision-Language Models (VLMs)의 visual understanding/reasoning 능력 향상에 적용 가능함을 탐구합니다.
- 이 동기는 visual domain의 여러 task (예: REC, OVD)가 LLM reasoning task처럼 deterministic ground-truth (예: bounding box, IoU)를 가지므로, 별도의 reward model 없이 안정적인 reward signal 생성이 가능하다는 관찰에 기반합니다.
문제 제기:
- 현재 VLMs는 Referring Expression Comprehension (REC), Open-Vocabulary Object Detection (OVD) 같은 visual understanding tasks에서 specialized vision models (예: Grounding DINO) 대비 parameters 수가 훨씬 많음에도 불구하고 performance가 부족합니다. (예: Qwen2.5-VL-3B vs Grounding DINO)
제안 방법:
- VLM-R1 Framework 개발: R1 스타일 RL (GRPO algorithm 네이티브 지원)을 VLMs에 적용하기 위한 전용 open-source framework를 개발했습니다. 주요 특징은 다음과 같습니다:
- 유연성 및 확장성: LoRA 기반 parameter-efficient training, Multi-node/Multi-GPU distributed training 지원.
- Task 다양성: Multi-image input, Custom dataset 통합, Mixed modality (image-text, pure-text) training 지원.
- Model 호환성: QwenVL, InternVL 등 다양한 VLM 아키텍처 지원.
주요 실험 및 결과 (Introduction에서 제시된 내용):
- REC 및 OVD tasks에서 VLM-R1을 사용한 RL training이 standard Supervised Fine-Tuning (SFT) 대비 VLM의 performance를 크게 향상시켰습니다.
- 특히 generalization ability에서 두드러진 향상을 보였습니다:
- REC (3B model): LISAGrounding (out-of-domain) benchmark에서 SFT 대비 점수 크게 향상 (RL: 63.16 vs SFT: 54.82).
- OVD (3B model): COCO AP (RL: 21.1 vs SFT: 17.8) 및 OVDEval nms-AP (RL: 31.01 SOTA vs SFT: 26.50)에서 SFT 및 7B baseline model 대비 우수한 성능 달성.
핵심 Insights (Ablation 연구 예고):
- OVD task에서 reward hacking 현상 및 이를 완화하기 위한 reward engineering의 필요성 발견.
- Model이 객체 존재 유무를 먼저 reasoning한 후 예측하는 "OD aha moment" 현상 관찰.
- Training data quality 및 model size가 RL performance에 미치는 영향 분석. (복잡한 task일수록 optimization 중요)
기여:
- VLMs에 R1 스타일 RL을 적용하기 위한 VLM-R1 framework 및 model weights 공개.
- RL이 VLM의 visual understanding (특히 generalization) 성능을 향상시킬 수 있음을 REC/OVD task를 통해 입증.
- Reward hacking, OD aha moment 등 VLM RL training 관련 구체적인 insights 제공.
쉬운 설명:
"Introduction" 섹션 쉽게 이해하기
이 논문의 Introduction 부분은 AI가 이미지와 텍스트를 함께 이해하는 능력(Vision-Language Models 또는 VLMs)을 어떻게 더 향상시킬 수 있는지에 대한 새로운 아이디어를 소개합니다.
핵심 아이디어: 최근 reinforcement learning (RL)이라는 특별한 AI 훈련 방식이 글만 이해하는 AI (Large Language Models 또는 LLMs)의 reasoning 능력을 크게 높였습니다. 특히, 정답이 명확한 문제(deterministic ground-truth)에 대해 간단한 규칙(rule-based rewards)으로 점수를 주면서 훈련시키는 방식(DeepSeek R1 스타일)이 효과적이었습니다. 연구진은 이미지 관련 작업 중에도 정답 위치(bounding box) 등이 명확한 경우가 많다는 점에 착안하여, 이 RL 방식을 VLMs에도 적용해 보기로 했습니다. 예를 들어, "사진 속 빨간 모자"를 찾으라는 task는 정답 위치가 명확하므로 이 RL 훈련법이 잘 맞을 수 있습니다.
문제 상황: 하지만 현재 VLMs는 이런 이미지 이해 task에서 이미지 전문 AI(specialized vision models)보다 성능이 떨어지는 경우가 많습니다.
연구진의 해결책: 그래서 이 RL 훈련법을 VLMs에 쉽게 적용하고 연구할 수 있는 전용 도구(framework)인 VLM-R1을 만들었습니다. 이 도구는 여러 종류의 VLMs와 datasets에 유연하게 사용할 수 있고, 대규모 훈련도 지원합니다.
결과 미리보기: VLM-R1을 사용해 VLMs를 RL 방식으로 훈련시켰더니, 기존의 일반적인 훈련 방식(Supervised Fine-Tuning 또는 SFT)보다 성능이 훨씬 좋아졌습니다. 특히, 훈련 때 보지 못했던 새로운 데이터(out-of-domain benchmarks)에서도 더 좋은 성능(generalization ability 향상)을 보였습니다. 예를 들어, 특정 물체를 설명에 따라 찾는 task (REC, OVD)에서 점수가 크게 올랐습니다.
흥미로운 발견: 훈련 과정에서 AI가 점수를 잘 받으려고 꼼수를 부리는 현상(reward hacking)이나, 정답을 내기 전에 먼저 "이 물체가 있나?" 하고 생각하는 듯한 단계(OD aha moment)를 보이는 등 재미있는 점들도 발견했습니다.
결론: 이 연구는 DeepSeek R1 스타일의 RL 방식이 VLMs의 이미지 이해 능력을 향상시키는 데 효과적임을 보여주며, 연구에 사용된 도구(VLM-R1)와 결과(model weights)를 공개하여 다른 연구자들도 활용할 수 있도록 기여하고자 합니다.
2. Related Work
2.1. Vision-Language Models
large language models (LLMs)의 출현 이후, 이들은 다양한 linguistic applications에서 성공을 거두었으며, 이는 Vision-Language Models (VLMs)의 등장을 촉진했습니다. 선구적인 연구들로는 [4, 22, 26] 등이 있습니다. 이어서, LLaVA는 GPT-4를 사용하여 training data를 개발하고 visual dialogue 및 visual reasoning에서 유망한 performance를 달성하여, visual instruction data에 초점을 맞춘 일련의 연구들에 영감을 주었습니다. 그러나 당시 VLMs의 주요 limitation은 기반이 되는 vision encoders의 능력에 의해 제한되는 image input resolution에 있었습니다. 이를 극복하기 위해 AnyRes mechanism이 도입되어 다양한 resolutions과 aspect ratios를 가진 images를 유연하게 처리할 수 있게 되었습니다. 이 advancement는 다양한 visual inputs에 대한 VLMs의 perceptual capacity를 향상시키고 나아가 reasoning abilities를 더욱 강화했습니다. 오늘날 가장 널리 채택되는 open-source VLM series에는 LLaVA, QwenVL, 그리고 InternVL이 포함됩니다.
2.2. Attempts of applying R1 to VLMs
여러 동시 연구들이 R1을 Vision-Language Models (VLMs)에 적용하는 것을 탐구해왔습니다. 동시 연구인 R1-OneVision과 R1-V는 이 방향에서 주목할 만한 작업들 중 하나입니다. R1-OneVision은 images를 visual formal representations로 변환하는 cross-modal reasoning pipeline을 제안했으며, 이는 language model을 통해 visual reasoning dataset을 구축하는 데 사용됩니다. VLM은 먼저 이 dataset에서 trained된 후, reasoning capability를 더욱 향상시키기 위해 RL stage를 거칩니다. 병행하여, R1-V는 DeepSeek R1의 GRPO method를 VLM training에 도입하여 object-counting tasks를 목표로 삼았으며, 놀랍게도 3B model이 72B model을 outperform하도록 만들었습니다. 곧이어 VisualThinker-R1-Zero가 발표되었는데, 이는 instruction-tuned model 대신 base VLM에 R1을 적용하는 것이 더 상당한 performance improvements를 달성하고 소위 "visual aha moment"의 출현을 성공적으로 유발할 수 있음을 보여주었습니다. aha moment의 출현과 DeepSeek R1에서의 phenomena와 유사하게 model response 길이가 증가하는 것을 관찰한 또 다른 연구는 MMEureka이며, 이는 8B instruction-tuned VLM과 38B base VLM 모두에 RLOO를 적용했습니다. R1-OneVision과 유사하게, Vision-R1은 vision information을 language format으로 변환하여 language reasoning model에 입력하는 방식으로 multimodal CoT dataset을 구축했습니다. 이 dataset은 GRPO를 통해 model의 multimodal reasoning ability를 더욱 강화하기 전 cold start training data 역할을 합니다. 또한, Curr-ReFT는 RL training을 optimize하기 위해 점진적인 difficulty-level reward를 사용하는 three-stage reinforcement learning을 제안했으며, LMM-R1은 two-stage rule-based RL을 제시했는데, 여기서 먼저 text-only data를 사용하여 model의 basic reasoning abilities를 강화한 다음, 제한된 complex multimodal reasoning tasks에서 RL을 계속했습니다.
위 연구들의 대부분은 주로 multimodal mathematics tasks에서의 performance 향상에 초점을 맞춥니다. 이와 대조적으로, Visual-RFT는 RL을 visual perception tasks에 적용하여 우리 연구와 더 밀접하게 관련됩니다. 그러나 우리 연구는 supervised fine-tuning (SFT)와 RL 간의 단순한 comparison을 넘어서 더 포괄적인 investigation을 제공합니다. 구체적으로, 우리는 reward engineering의 역할을 추가로 analyze하고, 특히 complex tasks에 대해 신중한 training data selection의 impact를 systematically examine합니다.
정리노트 (AI 연구자용)
2. Related Work 요약
VLM 배경:
- Vision-Language Models (VLMs)는 LLMs의 성공에 힘입어 발전했으며, 초기 pioneering works 이후 visual instruction tuning (LLaVA 등)과 input resolution 한계를 극복한 AnyRes mechanism 등의 발전을 거쳐왔습니다. 현재 LLaVA, QwenVL, InternVL 등이 주요 open-source VLM으로 사용됩니다.
VLM에 R1 스타일 RL 적용 시도 (Concurrent Works):
- 본 연구와 유사한 시기에 다수의 연구 그룹(R1-OneVision, R1-V, VisualThinker-R1-Zero, MMEureka, Vision-R1, Curr-ReFT, LMM-R1, Visual-RFT 등)에서 DeepSeek R1 스타일의 rule-based reward RL을 VLMs에 적용하려는 시도가 있었습니다.
- 다양한 접근법:
- Cross-modal reasoning pipeline (이미지→visual formal representation→language model 활용) (R1-OneVision).
- GRPO method 직접 적용 (주로 object-counting, multimodal math tasks 타겟) (R1-V, Vision-R1 - CoT dataset 생성 후).
- Base VLM vs Instruction-tuned VLM에 R1 적용 효과 비교 (VisualThinker-R1-Zero).
- RLOO 알고리즘 적용 (MMEureka).
- 단계적 RL (progressive difficulty reward, text-only 우선 후 multimodal) (Curr-ReFT, LMM-R1).
- 주요 발견:
- RL을 통해 특정 tasks에서 SOTA급 performance 달성 (예: R1-V에서 3B model > 72B model).
- "Visual aha moment" (시각적 reasoning 과정 발현) 관찰.
- Base model에 R1 적용 시 더 큰 성능 향상 가능성 제시.
- 주요 초점: 기존 연구 다수는 multimodal mathematics tasks나 일반적인 reasoning 능력 향상에 집중하는 경향이 있었습니다.
본 연구 (VLM-R1)의 차별점:
- Visual-RFT와 같이 visual perception tasks (예: REC, OVD)에 RL 적용에 초점을 맞춥니다.
- 단순히 SFT와 RL의 performance 비교를 넘어선 더 포괄적인 investigation을 수행합니다.
- 특히 reward engineering의 역할과, 신중한 training data selection이 (특히 복잡한 visual tasks에서) RL performance에 미치는 impact를 systematically examine (체계적으로 분석)하는 데 중점을 둡니다.
쉬운 설명:
"Related Work" 섹션 쉽게 이해하기
이 섹션에서는 이 논문의 연구(VLM-R1)와 관련된 다른 연구자들이 이전에 어떤 연구들을 해왔는지 설명합니다. 크게 두 부분으로 나뉩니다.
1. AI가 이미지와 글을 함께 이해하게 된 배경 (Vision-Language Models): 처음에는 글만 잘 이해하는 AI(LLMs)가 있었는데, 여기에 이미지 이해 능력을 더한 것이 Vision-Language Models (VLMs)입니다. 사람들이 "이 사진에 대해 설명해줘" 같은 지시(visual instruction)를 더 잘 알아듣도록 훈련 데이터(training data)를 만들거나(LLaVA 같은 연구), AI가 다양한 크기의 이미지를 잘 처리하도록 기술(AnyRes)을 개발하는 등 여러 발전을 거쳐왔습니다.
2. 다른 연구자들도 비슷한 시도를 했어요 (Attempts of applying R1 to VLMs): 이 논문에서 사용하는 특별한 훈련 방식(R1 스타일 RL, 규칙 기반 점수 매기기)을 VLMs에 적용하려는 시도는 다른 연구팀들도 거의 동시에 진행했습니다.
- 어떤 팀은 이미지를 글 같은 정보(visual formal representations)로 바꾼 뒤 훈련시키기도 하고 (R1-OneVision),
- 어떤 팀은 이 논문처럼 R1 훈련법을 직접 적용해서 물체 개수 세기(object-counting) 같은 특정 task에서 아주 좋은 결과(작은 model이 큰 model 성능을 넘어서는 등)를 얻기도 했습니다 (R1-V).
- 훈련 과정에서 AI가 마치 시각적으로 '아하!'하고 깨닫는 듯한 모습("visual aha moment")을 보이는 것을 발견한 연구도 있었습니다 (VisualThinker-R1-Zero, MMEureka).
- 다만, 이전 연구들은 주로 수학 문제 풀이(multimodal mathematics tasks) 같은 데 집중하는 경우가 많았습니다.
그래서 이 논문은 뭐가 다른가요?: 이 논문(VLM-R1)도 비슷한 R1 스타일 RL을 VLMs에 사용하지만, 다음과 같은 점에서 차이가 있습니다.
- 수학 문제보다는 **사진 속 내용을 직접 이해하는 능력(visual perception tasks)**에 더 초점을 맞춥니다.
- 단순히 "RL 훈련법이 기존 훈련법(SFT)보다 좋다"고 말하는 것을 넘어, 더 깊이 파고듭니다.
- 구체적으로 어떻게 점수를 주는 것이 효과적인지(reward engineering), 그리고 어떤 training data를 고르는 것이 (특히 복잡한 이미지 task에서) 성능에 영향을 주는지 체계적으로 분석합니다.
3.VLM-R1 Framework
이 섹션에서는 제안된 VLM-R1 framework에 대한 간략한 소개를 제공합니다. VLM-R1은 DeepSeek R1의 language reasoning capabilities를 재현하기 위한 open-source framework인 Open-R1을 기반으로 구축되었습니다. 우리는 그것의 implementation을 vision-language domain으로 확장했습니다.
우리의 것 외에도 vision language reinforcement learning을 목표로 하는 다른 여러 open source frameworks가 있습니다. 우리의 주요 objective는 R1-style methodology를 Vision-Language Models (VLMs)에 adapt하는 것임을 유의해야 합니다. 따라서 우리의 현재 implementation은 원래 DeepSeek R1에서 채택된 GRPO algorithm에만 초점을 맞추고 있습니다. 결과적으로, VLM-R1은 현재 GRPO만 지원하며, 향후 작업에서 추가적인 RL algorithms를 통합할 계획입니다. 다음에서는 먼저 framework의 overview를 제시하고, 이어서 다양한 VLM architectures를 원활하게 지원할 수 있게 하는 VLM Module에 대해 자세히 설명합니다.
3.1. Overview
Figure 2에서 볼 수 있듯이, VLM-R1 framework는 두 가지 주요 components로 구성됩니다: grpo_jsonl.py와 grpo_trainer.py이며, 이 둘은 함께 VLMs를 위한 GRPO algorithm의 완전한 pipeline을 형성합니다.
preparation stage 역할을 하는 첫 번째 stage (grpo_jsonl.py)에서는 사용자가 유연하게 custom reward functions를 정의하고 자신의 tasks에 맞는 training data를 준비할 수 있습니다. framework는 또한 § 3.2에서 설명할 modular VLM Module Definition을 통해 다양한 VLMs를 지원합니다.
두 번째 stage (grpo_trainer.py)는 GRPO training process를 관리합니다. 이는 model initialization으로 시작하여 사용자가 결정한 user-custom parameters로 training parameters를 확인하는 과정을 거칩니다. 우리는 LoRA fine-tuning, vision tower freezing training, 그리고 full parameters training을 지원하며, 이는 다양한 compute resources와 task requirements에 맞게 조정될 수 있습니다. model은 이후 multiple sequences를 generates하며, 이는 정의된 reward function을 사용하여 scored됩니다. 이러한 reward signals는 parameter optimization을 위한 GRPO loss를 compute하는 데 사용됩니다.
VLM-R1은 완전한 GRPO training 지원을 제공하는 동시에 reward design, model selection, optimization strategies에서 flexibility를 제공하여 RL-based vision-language research를 위한 다용도 tool이 됩니다.
3.2. VLM Module
다양한 VLMs를 training process에 원활하게 integration하는 것을 용이하게 하기 위해, 우리는 VLM Module이라고 부르는 통합된 component를 설계했습니다. 이 module은 model의 class name 검색 및 input questions를 model-specific chat template으로 formatting하는 것과 같은 일반적인 VLM functionalities를 encapsulates합니다.
이러한 operations를 abstracting함으로써, GRPOTrainer는 model-specific implementations를 처리할 필요 없이 VLM Module에서 제공하는 standardized interfaces를 단순히 invoking하여 다른 VLMs와 interact할 수 있습니다. 이 design은 새로운 models의 integration을 간소화할 뿐만 아니라 전체 framework의 modularity와 readability를 향상시킵니다. Trainer와 VLM Module 간의 interaction은 Figure 3에 나와 있습니다.
정리노트 (AI 연구자용)
3. VLM-R1 Framework 요약
개요 및 목표:
- VLM-R1은 DeepSeek R1의 language reasoning 재현을 위한 open-source framework인 Open-R1에 기반하여 vision-language domain으로 확장된 framework입니다.
- 명확한 주요 목표는 DeepSeek R1에서 사용된 R1-style methodology (특히 GRPO algorithm)를 Vision-Language Models (VLMs)에 adapt하는 것입니다.
- 현재 implementation은 GRPO algorithm에만 초점을 맞추고 있으며, 향후 다른 RL algorithms 통합 계획이 있습니다.
핵심 구성 요소 및 Pipeline:
- Framework는 두 개의 주요 Python 스크립트로 구성된 GRPO pipeline을 제공합니다:
- grpo_jsonl.py (Preparation Stage):
- 사용자가 task-specific training data를 준비하고 custom reward functions를 유연하게 정의할 수 있습니다.
- 다양한 VLMs를 modular VLM Module을 통해 지원합니다 (§ 3.2 참조).
- grpo_trainer.py (Training Stage):
- GRPO training process 전체를 관리합니다 (model initialization, parameter 확인, sequence generation, reward function 기반 scoring, GRPO loss 계산, parameter optimization).
- grpo_jsonl.py (Preparation Stage):
주요 특징:
- GRPO 특화: 현재 DeepSeek R1에서 사용된 GRPO algorithm만 지원합니다.
- 유연성:
- Custom reward design 지원.
- 다양한 VLM model selection 가능 (VLM Module 통해).
- 다양한 compute resources 및 task requirements에 맞춰 LoRA fine-tuning, vision tower freezing training, full parameters training 등 optimization strategies 선택 가능.
- VLM Module (모듈성 강화):
- 목적: 다양한 VLM architectures의 seamless integration 지원.
- 기능: 일반적인 VLM functionalities (model class name 검색, input question을 model-specific chat template으로 formatting 등)를 standardized interface 뒤에 encapsulate.
- 이점: GRPOTrainer가 model-specific implementation 없이 표준화된 interface 호출만으로 다양한 VLMs와 상호작용 가능하게 하여 framework의 modularity와 readability 향상.
결론: VLM-R1은 GRPO algorithm을 VLMs에 적용하는 연구를 위한 유연하고 모듈화된 open-source tool입니다.
쉬운 설명:
"VLM-R1 Framework" 섹션 쉽게 이해하기
이 섹션에서는 연구자들이 직접 만든 VLM-R1이라는 특별한 도구(framework)에 대해 설명합니다. 이 도구는 AI가 이미지와 글을 함께 이해하도록(VLMs) 특정 방식(R1 스타일 RL, 특히 GRPO라는 방법)으로 훈련시키는 작업을 더 쉽게 하기 위해 만들어졌습니다.
어떻게 만들어졌나요?
- 기존에 글만 다루는 AI를 위한 도구(Open-R1)가 있었는데, 이걸 이미지+글 AI(VLMs)에도 쓸 수 있도록 업그레이드했습니다.
- 이 도구의 주된 목표는 DeepSeek R1이라는 연구에서 성공했던 GRPO 훈련 방식을 VLMs에 맞게 적용하는 것입니다. (그래서 지금은 GRPO 방식만 지원해요.)
주요 기능 (두 부분으로 나뉘어요):
- 준비 도구 (grpo_jsonl.py):
- 훈련시키기 전에 필요한 준비를 하는 부분입니다.
- 연구자가 직접 "AI가 이런 답을 하면 몇 점을 주겠다"는 규칙(custom reward functions)을 만들고, 훈련에 사용할 문제(training data)를 준비할 수 있게 도와줍니다.
- 여러 종류의 VLM 모델을 쉽게 연결할 수 있도록 지원합니다.
- 훈련 관리 도구 (grpo_trainer.py):
- 실제 훈련 과정을 담당합니다.
- AI 모델을 준비시키고, 여러 답변(multiple sequences)을 만들어보게 한 다음, 준비 단계에서 만든 규칙에 따라 점수를 매깁니다.
- 이 점수를 바탕으로 AI 모델을 얼마나 어떻게 수정해야 할지 계산(GRPO loss)하고, 실제로 모델을 업데이트(parameter optimization)합니다.
이 도구의 특별한 점:
- GRPO 전문가: 지금은 GRPO 훈련 방식에 특화되어 있습니다.
- 맞춤 설정 가능: 점수 매기는 규칙, 사용할 AI 모델 종류, 훈련 방식(가볍게 LoRA fine-tuning만 할지, 전체를 다 훈련(full parameters training)시킬지 등)을 연구자가 조절할 수 있습니다.
- 만능 어댑터 (VLM Module): 마치 여러 나라 전기 플러그를 바꿔 끼울 수 있는 멀티 어댑터처럼, 이 VLM Module 덕분에 다양한 종류의 VLM 모델을 복잡한 수정 없이 VLM-R1 도구에 쉽게 연결해서 사용할 수 있습니다. 각 모델이 질문을 이해하는 방식(chat template) 등을 알아서 처리해줍니다.
결론적으로, VLM-R1은 GRPO라는 특정 RL 훈련법을 VLMs에 적용하고 연구하기 편리하도록 만든, 유연하고 체계적인 오픈소스 도구입니다.