AI바라기의 인공지능
VLM : 논문 리뷰 : Visual-RFT: Visual Reinforcement Fine-Tuning 본문
Overall Summary
Visual-RFT는 Reinforcement Fine-Tuning (RFT)을 visual tasks에 처음으로 적용하여, 적은 data로도 Supervised Fine-Tuning (SFT)보다 뛰어난 성능과 generalization을 달성했다. Visual perception tasks에서 data efficiency, reasoning, adaptability를 개선하는 새로운 방향을 제시하고, Large Vision-Language Models (LVLMs)의 잠재력을 확장했다.
쉬운 설명:
Visual-RFT는 마치 선생님이 학생에게 문제를 풀게 하고, 정답 (ground truth)만 맞추는 것이 아니라, 풀이 과정 (reasoning)과 최종 답안의 정확도 (IoU, classification accuracy)를 모두 평가하여 보상(reward)을 주는 것과 유사하다. 학생(LVLM)은 다양한 풀이 방법 (multiple responses)을 시도하고, 선생님(verifiable reward function)이 제공하는 피드백을 통해 더 나은 풀이 방법을 배우게 된다. 즉, 정답을 "암기"하는 대신, "스스로 학습"하는 능력을 키우는 것이다.
Visual-RFT: Visual Reinforcement Fine-Tuning 학습 노트
Purpose of the Paper
- 기존 Large Vision-Language Models (LVLMs) fine-tuning은 Supervised Fine-tuning (SFT) 방식에 의존하여 data-hungry 문제가 있었음.
- Reinforcement Fine-Tuning (RFT)은 language models에서 적은 data로도 효과적임을 보였으나, multi-modal domain, 특히 visual tasks에는 적용이 미흡했음.
- 본 연구는 RFT를 visual tasks에 적용하여 data efficiency를 높이고, reasoning 및 adaptability를 향상시키는 Visual-RFT를 제안함.
- Goal: Visual perception tasks에서 RFT가 SFT보다 data-efficient하고, reasoning과 adaptability를 개선할 수 있음을 보이는 것.
Key Contributions
- Visual Reinforcement Fine-Tuning (Visual-RFT): RFT를 visual tasks로 확장한 최초의 연구.
- LVLMs가 multiple responses (reasoning tokens 및 final answers 포함)를 생성.
- Visual perception verifiable reward functions (e.g., object detection을 위한 Intersection over Union (IoU) reward)를 제안하여 policy optimization.
- Group Relative Policy Optimization (GRPO) 사용.
- Novelty:
- Data scaling (SFT)에서 벗어나 strategic design of variable reward functions로 paradigm shift.
- Verifiable rewards와 visual perception abilities (detection, grounding, classification)의 결합으로 rapid and data-efficient mastery of new concepts 달성.
Experimental Highlights
- Datasets:
- Fine-grained image classification: Flower102, Pets37, FGVC-Aircraft, Car196
- Few-shot object detection: COCO, LVIS
- Reasoning grounding: LISA
- Open-vocabulary object detection: COCO (65 base categories, 15 novel categories), LVIS (rare categories)
- Metrics:
- Classification: Accuracy
- Object Detection: mAP, IoU
- Reasoning Ground: mIoU, gIoU
- Results:
- Fine-grained image classification (one-shot, ~100 samples): Visual-RFT가 baseline 대비 accuracy 24.3% 향상 (SFT는 4.3% 감소).
- Few-shot object detection (COCO, two-shot): Visual-RFT가 baseline 대비 21.9 (2B), LVIS 에서는 15.4 (2B) mAP 향상.
- Reasoning grounding (LISA): Visual-RFT가 GroundedSAM 등 specialized models 능가.
- Open-vocabulary object detection: Visual-RFT가 LVIS의 rare categories에서 strong generalization 보임 (COCO: 9.8 to 31.3 (2B), LVIS: 2.7 to 20.7 (2B) on selected rare classes).
Limitations and Future Work
- Limitations:
- Verifiable reward functions 설계가 task-specific하여, general reward function 설계가 필요함.
- Future Work:
- More general and robust verifiable reward functions 개발.
- Visual-RFT를 더 다양한 visual tasks (e.g., video understanding, visual reasoning)에 적용.
- Larger-scale LVLMs에 대한 Visual-RFT 효과 검증.
Abstract
OpenAI o1과 같은 Large Reasoning Models에서의 Reinforcement Fine-Tuning (RFT)은 답변에 대한 feedback으로부터 학습하며, 이는 fine-tuning 데이터가 부족한 응용 분야에서 특히 유용합니다. DeepSeekR1과 같은 최근 open-source 연구는 verifiable reward를 사용한 reinforcement learning이 o1을 재현하는 핵심 방향 중 하나임을 보여줍니다. R1 스타일 model은 language models에서 성공을 입증했지만, multi-modal 영역에서의 적용은 아직 미개척 분야입니다. 이 연구는 visual tasks에서 RFT의 응용 분야를 확장하는 Visual Reinforcement Fine-Tuning (Visual-RFT)을 소개합니다. 구체적으로, Visual-RFT는 먼저 Large Vision-Language Models (LVLMs)를 사용하여 각 입력에 대해 reasoning tokens과 final answers를 포함하는 여러 응답을 생성한 다음, 제안된 visual perception verifiable reward functions을 사용하여 Group Relative Policy Optimization (GRPO)과 같은 policy optimization algorithm을 통해 model을 업데이트합니다. 우리는 object detection을 위한 Intersection over Union (IoU) reward와 같이 서로 다른 perception tasks에 대해 서로 다른 verifiable reward functions을 설계합니다. fine-grained image classification, few-shot object detection, reasoning grounding, open-vocabulary object detection benchmarks에 대한 실험 결과는 Visual-RFT가 Supervised Fine-tuning (SFT)과 비교하여 경쟁력 있는 성능과 향상된 generalization 능력을 보여줍니다. 예를 들어, Visual-RFT는 약 100개의 샘플을 사용한 one-shot fine-grained image classification에서 baseline보다 24.3% 향상된 accuracy를 달성했습니다. few-shot object detection에서 Visual-RFT는 COCO의 two-shot 설정에서 21.9, LVIS에서 15.4로 baseline을 능가합니다. 우리의 Visual-RFT는 LVLMs를 fine-tuning하는 패러다임 전환을 나타내며, domain-specific tasks에 대한 reasoning과 adaptability를 향상시키는 data-efficient, reward-driven 접근 방식을 제공합니다.
Our Visual Reinforcement Fine-Tuning (Visual-RFT)는 Open Vocabulary (OV)/Few-shot Detection, Reasoning Grounding, Fine-grained Classification과 같은 다양한 tasks에서 이전의 Supervised Fine-Tuning (SFT)보다 더 나은 성능을 보입니다.
1. Introduction
1. Introduction
OpenAI o1과 같은 Large Reasoning Models (LRMs)는 답변하기 전에 더 많은 시간을 "thinking"하도록 설계된 프론티어 AI models를 대표하며, 뛰어난 reasoning 능력을 달성합니다. OpenAI o1의 인상적인 기능 중 하나는 Reinforcement Fine-Tuning (RFT) 1 인데, 이는 domain-specific tasks에서 탁월한 성능을 발휘하기 위해 수십 개에서 수천 개의 샘플만으로 model을 효율적으로 fine-tune 합니다. o1의 구현 세부 사항은 공개적으로 사용할 수 없지만, DeepSeek R1과 같은 최근 open-source 연구는 o1을 재현하는 유망한 방향 중 하나가 Verifiable Rewards임을 보여줍니다. 즉, reinforcement learning의 reward score는 preference data에 대해 trained 된 별도의 reward model에 의해 예측되는 것이 아니라 pre-defined rules에 의해 직접 결정됩니다.
RFT와 이전의 Supervised Fine-Tuning (SFT)의 주요 차이점은 data efficiency에 있습니다. 이전 SFT 패러다임(Fig. 2 (a) 참조)은 고품질의 큐레이팅된 데이터에 제공된 "ground-truth" answers를 직접 모방하므로 많은 양의 training data에 의존합니다. 반대로, RFT는 model의 응답을 평가하고 정답 여부에 따라 조정하여 시행착오를 통해 학습하도록 돕습니다. 따라서 RFT는 data가 부족한 domain에서 특히 유용합니다. 그러나 이전의 일반적인 상식은 RFT가 과학(예: 수학) 및 코드 생성과 같은 tasks에만 적용된다는 것이었습니다. 이는 수학 및 코딩이 명확하고 객관적인 final answers 또는 테스트 케이스를 나타내므로 rewards를 비교적 간단하게 verify 할 수 있기 때문입니다. 이 논문에서 우리는 RFT가 수학 및 코드 domains을 넘어 visual perception tasks에 적용될 수 있음을 보여줍니다. 구체적으로, 우리는 few-shot classification 및 open-vocabulary object detection과 같은 다양한 multi-modal tasks (Fig. 1 참조)에서 Large Vision-Language Models (LVLMs)를 강화하기 위해 RFT를 성공적으로 확장하는 Visual Reinforcement Fine-Tuning (Visual-RFT)을 소개합니다.
visual tasks에서 RFT를 확장하기 위해 Fig. 2 (b)에서 Visual-RFT의 구현 세부 사항을 제시합니다. 각 입력에 대해 Visual-RFT는 Large Vision-Language Models (LVLMs)를 사용하여 reasoning tokens과 final answers를 포함하는 여러 응답(trajectories)을 generate 합니다. 결정적으로, 우리는 model을 업데이트할 때 GRPO와 같은 policy optimization을 guide 하기 위해 task-specific, rule-based verifiable reward functions을 정의합니다. 예를 들어, object detection task를 위해 Intersection over Union (IoU) reward를 제안합니다. 우리의 Visual-RFT는 정답을 암기하는 데 의존하는 SFT와 대조됩니다. 대신, 우리의 접근 방식은 다양한 가능한 솔루션을 탐색하고 verified reward function에 의해 정의된 원하는 결과를 최적화하도록 학습합니다. 이는 미리 정의된 answers를 모방하는 것이 아니라 무엇이 가장 효과적인지 발견하는 것입니다. 우리의 접근 방식은 training 패러다임을 SFT의 data scaling에서 특정 multi-modal tasks에 맞게 조정된 variable reward functions의 전략적 설계로 전환합니다. Fig. 2 (c)에서 볼 수 있듯이, verifiable rewards와 visual perception abilities (예: detection, grounding, classification)의 시너지 조합을 통해 우리 model은 detailed reasoning process를 통해 새로운 concepts를 신속하고 data-efficient 하게 숙달할 수 있습니다.
다음 tasks에서 Visual-RFT의 효과를 검증합니다. fine-grained image classification에서 model은 advanced reasoning capabilities를 활용하여 fine-grained categories를 높은 precision으로 분석합니다. 극도로 제한된 data (예: 약 100개의 샘플)를 사용한 one-shot 설정에서 Visual-RFT는 baseline보다 24.3% 향상된 accuracy를 제공하는 반면 SFT는 4.3% 감소했습니다. few-shot 실험에서 Visual-RFT는 SFT에 비해 우수한 few-shot learning capabilities를 보여주며 최소한의 training data로도 뛰어난 성능을 보여줍니다. reasoning grounding에서 Visual-RFT는 reasoning에 크게 의존하는 LISA dataset에서 GroundedSAM과 같은 specialized models보다 뛰어난 성능을 보입니다. 또한, open vocabulary object detection에서 Visual-RFT는 LVIS의 rare categories를 포함하여 새로운 categories에 대한 recognition capabilities를 빠르게 이전하여 강력한 generalization을 보여줍니다. 구체적으로, 2B model은 COCO의 새로운 classes에서 mAP를 9.8에서 31.3으로, LVIS의 선택된 rare classes에서 2.7에서 20.7로 향상시켰습니다. 이러한 다양한 visual perception tasks는 visual recognition에서 Visual-RFT의 강력한 generalization capabilities를 강조할 뿐만 아니라 visual perception과 reasoning을 향상시키는 reinforcement learning의 중요한 역할을 강조합니다.
요약하면, 우리의 주요 contribution은 다음과 같습니다.
(1) 우리는 fine-tuning을 위한 제한된 data로 효과적인 visual perception tasks에 verifiable rewards를 사용한 reinforcement learning을 확장하는 Visual Reinforcement Fine-tuning (Visual-RFT)을 소개합니다.
(2) 우리는 서로 다른 visual tasks에 대해 서로 다른 verifiable rewards를 설계하여 negligible cost로 효율적이고 high-quality reward 계산을 가능하게 합니다. 이를 통해 DeepSeek R1 스타일의 reinforcement learning을 LVLMs로 원활하게 transfer 할 수 있습니다.
(3) 우리는 fine-grained image classification, few-shot object detection, reasoning grounding, open vocabulary object detection을 포함한 다양한 visual perception tasks에 대한 광범위한 실험을 수행합니다. 모든 설정에서 Visual-RFT는 supervised fine-tuning baselines을 크게 능가하는 놀라운 성능 향상을 달성합니다.
(4) 우리는 추가 연구를 용이하게 하기 위해 training code, training data 및 evaluation scripts를 Github에 완전히 open-source 합니다.
1. Introduction 정리 노트 (AI 연구자 대상)
핵심
- Visual Reinforcement Fine-Tuning (Visual-RFT) 제안:
- 기존 RFT를 multi-modal, 특히 visual perception tasks로 확장.
- Large Vision-Language Models (LVLMs)에 적용하여 few-shot learning, open-vocabulary object detection 등에서 성능 향상.
- Verifiable Rewards 활용:
- 수학/코드 생성 외 visual domain에서도 verifiable rewards (e.g., IoU for object detection)를 정의하고 사용.
- Data efficiency를 높이고, 별도의 reward model training 없이 policy optimization (e.g., GRPO)을 guide.
- SFT와의 차별성 강조:
- Data scaling에 의존하는 SFT와 달리, task-specific, rule-based reward function 설계를 통한 strategic approach.
- "Mimicking"이 아닌 "discovering"을 통해 optimal solution을 찾음.
- 실험적 검증:
- Fine-grained image classification, few-shot object detection, reasoning grounding (LISA dataset), open vocabulary object detection에서 SFT 대비 significant performance improvement.
- 특히, extremely limited data (one-shot) 환경에서 큰 성능 향상.
- COCO, LVIS benchmark에서 generalization ability 입증.
Contribution 요약
- Visual perception tasks에 verifiable rewards를 적용한 reinforcement learning, Visual-RFT 제안 (data-efficient fine-tuning).
- 다양한 visual tasks를 위한 verifiable rewards 설계 (efficient, high-quality reward computation).
- 다양한 visual perception tasks에서 SFT baseline을 significantly surpass하는 성능 입증.
- Code, data, evaluation scripts open-source.
쉬운 설명 :
- 기존 문제: Large Language Model (LLM) fine-tuning은 supervised learning (SFT) 방식이 주류였는데, 이는 많은 양의 labeled data가 필요했고, 특히 visual task에서는 더욱 어려웠습니다. Reinforcement learning (RL)은 data efficiency가 높지만, visual task에서는 reward를 정의하기가 애매했습니다(Verifiable Reward개념이 없었음).
- 새로운 해결책: 이 논문은 visual task에서도 "채점 가능한" verifiable reward (예: object detection에서 IoU)를 정의하여 RL을 효과적으로 적용하는 방법 (Visual-RFT)을 제안합니다.
- 핵심 아이디어: SFT처럼 정답을 "외우는" 대신, Visual-RFT는 다양한 시도를 해보고 verifiable reward를 통해 "잘된 시도"를 강화하는 방식으로 학습합니다.
- 결과: Data가 매우 적은 상황에서도 SFT보다 훨씬 좋은 성능을 달성하고, 다양한 visual task에서 robust generalization을 보였습니다. 즉, 새로운 object나 category를 인식하는 능력이 뛰어납니다.
- 결론: Visual-RFT는 기존의 정답을 알려주고 학습하던 SFT와 다르게, 스스로 정답을 찾아가도록 Reinforcement Learning개념을 도입했고, 그 결과, 기존에 있던 문제점(Data efficiency)를 해결하고, 더 나아가 visual task에서 더 좋은 성능을 냄.
Visual-RFT의 개요. (a) data-hungry(데이터를 많이 필요로 하는) Visual Instruction Tuning과 비교하여, (b) 우리의 Visual Reinforcement Fine-Tuning (Visual-RFT)는 제한된 데이터로 더 data efficient(데이터 효율적)합니다. (c) 우리는 일련의 multi-modal tasks에서 Large Vision-Language Models (LVLMs)를 RFT로 성공적으로 강화하고, 하단에 model의 reasoning process 예시를 제시합니다.
Visual-RFT의 Framework. question과 visual image inputs가 주어지면, policy model은 reasoning steps를 포함하는 여러 응답을 generate 합니다. 그런 다음 IoU reward 및 CLS reward와 같은 verifiable reward가 policy gradient optimization algorithm과 함께 사용되어 policy model을 update 합니다.
2. Related Work
Large Vision Language Models (LVLMs)
GPT4o와 같은 Large Vision Language Models (LVLMs)는 visual data와 textual data를 모두 통합하여 뛰어난 visual understanding 능력을 달성합니다. 이러한 통합은 복잡한 multi-modal 입력을 이해하는 models의 능력을 향상시키고 image와 text 모두를 처리하고 응답할 수 있는 고급 AI systems를 가능하게 합니다. 일반적으로 LVLMs의 training은 (a) pre-training과 (b) supervised fine-tuning 및 reinforcement learning을 포함하는 post-training의 두 단계로 이루어집니다. Post-training은 model의 응답 품질, instruction following 및 reasoning 능력을 향상시키는 데 중요합니다. post-training 동안 reinforcement learning을 사용하여 LLMs를 향상시키는 것에 대한 상당한 연구가 있었지만, LVLMs에 대한 진전은 더뎠습니다. 이 논문에서 우리는 post-training 단계에서 GRPO-based reinforcement algorithms와 verifiable reward를 사용하여 model의 visual perception과 reasoning 능력을 향상시키는 Visual-RFT를 제안합니다.
Reinforcement Learning
최근 OpenAI의 o1과 같은 reasoning models의 등장으로 Large Language Models (LLMs)에 대한 연구 초점은 reinforcement learning (RL) techniques를 통해 models의 reasoning capabilities를 향상시키는 방향으로 점점 더 옮겨가고 있습니다. 연구들은 수학 문제 해결 및 코딩과 같은 reasoning tasks에서 LLMs의 성능을 향상시키는 방법을 탐구했습니다. 이 분야에서 주목할 만한 돌파구는 Deepseek-R1-Zero인데, 이는 supervised fine-tuning (SFT) 단계를 제거하고 오직 RL만을 사용하여 robust reasoning capabilities를 달성하는 새로운 접근 방식을 도입했습니다. 그러나 RL-based reasoning에 대한 현재 연구는 주로 language domain에 국한되어 있으며, multi-modal settings에서의 적용에 대한 탐구는 제한적입니다. LVLMs의 경우, RL은 주로 hallucinations를 완화하고 models를 human preference에 align하는 등의 tasks에 사용되었지만, Large Vision Language Models의 reasoning 및 visual perception을 향상시키는 데 초점을 맞춘 연구에는 여전히 큰 격차가 있습니다. 이러한 격차를 해결하기 위해, 우리의 연구는 광범위한 visual perception tasks에 GRPO-based RL을 사용한 verifiable rewards를 적용하는 새로운 reinforcement fine-tuning 전략인 Visual-RFT를 소개합니다. 우리의 접근 방식은 특히 fine-tuning data가 제한된 경우 다양한 visual tasks를 처리하는 LVLMs의 성능을 향상시키는 것을 목표로 합니다.
Table 1.
dataset을 구성하는 데 사용된 Prompts. detection prompt와 classification prompt를 별도로 나열했습니다.
Detection Prompt:
이미지에서 '{category}' category에 속하는 모든 objects를 Detect하고, bounding boxes (0에서 1000 사이, 정수)와 confidence (0에서 1 사이, 소수점 두 자리)를 제공하세요. 이미지에 '{category}' category에 속하는 object가 없으면 'No Objects'를 return 합니다. 사고 과정(thinking process)은 <think> 태그 안에, final answer는 <answer> 태그 안에 출력합니다. 출력 answer 형식은 다음과 같아야 합니다. <answer> ... ['Position': [x1, y1, x2, y2], 'Confidence': 숫자, ...] 형식을 엄격하게 따르세요.
Classification Prompt:
이것은 식물을 포함하는 이미지입니다. 이미지를 기반으로 식물의 종을 식별하세요. 사고 과정(thinking process)은 <think> 태그 안에, final answer는 <answer> 태그 안에 출력합니다. 출력 answer 형식은 다음과 같아야 합니다: <think> ... <answer> 종 이름. 형식을 엄격하게 따르세요.
2. Related Work 정리 노트 (AI 연구자 대상)
핵심
- LVLMs 연구의 일반적인 흐름:
- Visual + Textual data 통합으로 visual understanding 능력 향상.
- Training은 pre-training, post-training (SFT + RL)으로 구성.
- Post-training이 response quality, instruction following, reasoning 능력 향상에 중요.
- LLMs에서의 RL 연구 동향:
- Reasoning models (e.g., OpenAI o1) 등장 이후, RL을 통한 reasoning 능력 향상 연구 활발 (주로 수학, 코딩).
- Deepseek-R1-Zero: SFT 없이 RL만으로 robust reasoning 달성.
- LVLMs에서의 RL 연구 한계:
- LLMs에 비해 RL 적용 연구가 더딤.
- 기존 연구는 주로 hallucination 완화, human preference alignment에 초점.
- Reasoning 및 visual perception 향상을 위한 RL 연구 부족.
- 본 논문의 차별성:
- Visual-RFT 제안: LVLMs의 reasoning 및 visual perception 향상을 위해 verifiable rewards + GRPO-based RL 적용.
- Fine-tuning data가 제한적인 상황에서 다양한 visual tasks 처리 성능 향상을 목표.
Contribution 요약 (Related Work 관점)
- LVLMs 분야에서 부족했던 reasoning 및 visual perception 강화를 위한 RL 적용 연구를 수행.
- Verifiable rewards 개념을 visual domain에 도입하여 RL의 data efficiency 문제 해결에 기여.
쉬운 설명 :
- 기존 LVLMs 연구: 이미지랑 텍스트를 같이 이해하는 모델(LVLMs)은 많이 연구되었지만, 주로 "잘 따라 말하기" (instruction following)나 "사람 취향에 맞추기" (human preference alignment)에 RL을 사용했고, 진짜 "똑똑하게 생각하고 판단하기" (reasoning, visual perception)에는 RL을 잘 활용하지 못했습니다.
- LLMs 연구와 비교: 텍스트만 다루는 모델(LLMs)에서는 RL로 "똑똑하게 만들기" 연구가 활발했는데 (Deepseek-R1-Zero가 대표적), LVLMs는 이 부분이 부족했습니다.
- 본 논문의 핵심: 이 논문은 LVLMs도 RL로 "똑똑하게" 만들 수 있다는 것을 보여줍니다. 특히, visual task에 맞는 verifiable reward (예: object detection의 IoU)를 사용해서 data가 적어도 RL을 효과적으로 적용할 수 있게 했습니다.
- 결론: LVLMs가 이미지를 단순히 "보는" 것을 넘어, "이해하고 추론"하는 능력을 강화하는 데 RL이 중요한 역할을 할 수 있다는 것을 제시합니다.
3. Methodology
3.1. Preliminary
Reinforcement Learning with Verifiable Rewards
Reinforcement Learning with Verifiable Rewards (RLVR)는 수학 및 코딩과 같이 객관적으로 verifiable outcomes가 있는 tasks에서 language models를 향상시키기 위해 설계된 새로운 training 접근 방식입니다. trained reward model에 의존하는 이전의 Reinforcement Learning from Human Feedback (RLHF)와 달리, RLVR은 정확성을 평가하기 위해 direct verification function을 사용합니다. 이 접근 방식은 task의 고유한 정확성 기준과의 강력한 alignment를 유지하면서 reward mechanism을 단순화합니다. input question q가 주어지면, policy model πθ는 responses o를 generate하고 verifiable reward를 받습니다. 더 구체적으로, RLVR은 다음 objective를 optimize합니다.
max πθ Eo∼πθ(q) [RRLVR(q, o)] (1)
= [R(q, o) - βKL[πθ(o|q) ∥ πref(o|q)]] , (2)
여기서 πref는 optimization 전의 reference model이고, R은 verifiable reward function이며, β는 KL-divergence를 제어하는 hyperparameters입니다. verifiable reward function R은 question과 output pair (q, o)를 inputs으로 받아 ground-truth answer가 prediction o와 동일하게 유지되는지 확인합니다.
R(q, o) = (
1, if o = ground truth,
0, otherwise.
(3)
DeepSeek R1-Zero and GRPO
DeepSeek R1-Zero algorithm은 training에 reinforcement learning, 특히 Group Relative Policy Optimization (GRPO) framework를 사용하여 supervised fine-tuning (SFT)에 대한 의존성을 제거합니다. policy performance를 evaluate하기 위해 critic model이 필요한 PPO와 같은 reinforcement learning algorithms와 달리, GRPO는 candidate responses 그룹을 직접 비교하여 추가 critic model의 필요성을 제거합니다. 주어진 question q에 대해 GRPO는 먼저 current policy πθold에서 G개의 distinct responses {o1, o2, ..., oG}를 generate합니다. 그런 다음 GRPO는 이러한 responses를 기반으로 actions을 취하고 획득한 rewards를 {r1, r2, ..., rG}로 표시합니다. normalization을 위해 평균과 표준 편차를 계산하여 GRPO는 이러한 responses의 상대적 quality를 결정합니다.
Ai = (ri - mean({r1, . . . , rG})) / std({r1, . . . , rG}), (4)
여기서 Ai는 i번째 answer의 상대적 quality를 나타냅니다. GRPO는 model이 group 내에서 높은 reward value를 가진 더 나은 answers를 선호하도록 장려합니다.
3.2. Visual-RFT
Visual-RFT의 framework는 Fig. 3에 나와 있습니다. user의 multi-modal input data는 images와 questions로 구성됩니다. policy model πθ는 reasoning process를 output하고 input을 기반으로 responses 그룹을 generate합니다. 각 response는 verifiable reward function을 통과하여 reward를 계산합니다. 각 output에 대한 rewards의 group computation 후, 각 response의 quality가 evaluated되고 policy model을 update하는 데 사용됩니다. policy model training의 stability를 보장하기 위해 Visual-RFT는 KL divergence를 사용하여 policy model과 reference model 간의 차이를 제한합니다. 3.2.1절에서는 visual tasks를 위한 verifiable reward를 설계하는 방법과 3.2.2절에서는 data preparation 단계를 더 자세히 설명하겠습니다.
3.2.1. Verifiable Reward in Visual Perception
reward model은 models를 preference alignment algorithms와 align하는 reinforcement learning (RL)의 핵심 단계이며, predictions와 ground-truth answers 간의 정확한 일치를 확인하는 verification function만큼 간단할 수 있습니다. 최근 DeepSeek-R1 model의 RL training process는 verifiable reward design을 통해 model의 reasoning ability에서 significant improvement를 달성합니다. 이 전략을 visual domain으로 transfer하기 위해, 우리는 다양한 visual perception tasks에 대해 서로 다른 rule-based verifiable reward functions을 설계합니다.
IoU Reward in Detection Tasks. detection task의 경우, model의 output은 bounding boxes (bbox)와 해당 confidences로 구성됩니다. detection task에 대한 reward function은 evaluation에서 mean Average Precision (mAP)를 계산하는 데 사용되는 Intersection-over-Union (IoU) metric을 적절하게 고려해야 합니다. 따라서 IoU 및 confidence-based reward function Rd를 설계합니다. 먼저, model의 output box와 confidence에 대해 이러한 boxes를 confidence에 따라 정렬하여 {b1, b2, ..., bn}으로 표시합니다. 그런 다음 각 bi를 ground truth bbox, {b1g, b2g, ..., bmg}와 match하고 IoU를 계산하는 동시에 IoU threshold τ를 설정합니다. 이 threshold τ 미만의 IoU를 갖는 Bounding boxes는 invalid로 간주되고 unmatched bboxes는 IoU가 0입니다. matching 후, 초기 set에서 각 box에 대한 IoU와 confidence를 얻어 {iou1 : c1, iou2 : c2, ..., ioun : cn}으로 표시합니다.
그런 다음 이러한 IoU 결과와 confidence를 사용하여 reward Rd를 구성합니다. 우리의 reward Rd는 IoU reward, Confidence reward, Format reward의 세 부분으로 구성됩니다.
Rd = RIoU + Rconf + Rformat. (5)
IoU reward RIoU는 model output에 있는 모든 bounding boxes의 평균 IoU입니다.
RIoU = (iou1 + iou2 + ... + ioun) / n. (6)
confidence reward Rconf는 IoU와 관련이 있습니다. 각 bounding box에 대해 ioui가 0이 아닌 경우, 성공적인 match를 나타내며, 이 single box에 대한 confidence reward rc는 다음과 같이 예측된 confidence로 계산됩니다.
rci = {
ci, if ioui != 0,
1 - ci, if ioui = 0.
} (7)
즉, 성공적으로 matched boxes의 경우 confidence가 높을수록 좋습니다. ioui가 0이면 match 실패를 나타내며, 이 box에 대한 confidence reward rc가 낮을수록 좋습니다. model output에 대한 overall confidence reward Rconf는 해당 output에 있는 모든 bounding boxes의 confidence rewards의 평균입니다.
Rconf = (Σ(i=1 to n) rci) / n. (8)
format reward Rformat은 model prediction이 <think> 및 <answer>의 필수 HTML tag format을 충족하도록 강제하는 데 사용됩니다 (3.2.2절에서 자세히 설명).
CLS Reward in Classification Tasks. classification tasks에서 사용하는 reward function은 accuracy reward Racc와 format reward Rformat의 두 부분으로 구성됩니다. accuracy reward는 model의 output class를 ground truth class와 비교하여 결정되며, 올바른 classification의 경우 1, 잘못된 classification의 경우 0 값을 산출합니다.
Rcls = Racc + Rformat. (9)
3.2.2. Data Preparation
다양한 visual perception tasks에서 Visual-RFT를 train하기 위해 multi-modal training dataset을 구성해야 합니다. DeepSeek-R1과 유사하게, model의 reasoning ability를 향상시키고 이 능력을 visual perception 개선에 적용하기 위해 Visual-RFT는 model이 final answer를 제공하기 전에 reasoning process를 output하도록 guide하는 prompt format을 설계했습니다. detection 및 classification tasks에 사용되는 prompts는 Tab 1에 나와 있습니다.
training process 동안 format reward를 사용하여 model이 reasoning process와 final answer를 structured format으로 output하도록 guide합니다. reasoning process는 reinforcement fine-tuning 동안 model의 self-learning 및 improvement의 key이며, answer에 의해 결정되는 reward는 model의 optimization을 지시합니다.
3. Methodology 정리 노트 (AI 연구자 대상)
핵심
- Visual-RFT Framework (Fig. 3):
- Multi-modal input (images + questions).
- Policy model generates multiple responses (reasoning process 포함).
- Verifiable reward function calculates reward for each response.
- Group computation of rewards.
- Policy model update (using policy gradient optimization algorithm, with KL divergence for stability).
- Verifiable Reward Design (Sec. 3.2.1):
- Detection Tasks: IoU-based reward (Rd)
- RIoU: Average IoU of all bounding boxes.
- Rconf: Confidence reward based on IoU (higher confidence for matched boxes, lower for unmatched).
- Rformat: Encourages correct output format (HTML tags).
- Classification Tasks: Accuracy + Format reward (Rcls)
- Racc: 1 if correct, 0 otherwise.
- Rformat: Same as above.
- Detection Tasks: IoU-based reward (Rd)
- Data Preparation (Sec. 3.2.2):
- Multi-modal training dataset construction.
- Prompt format design: Encourages reasoning process output before final answer (using <think> and <answer> tags).
- Format reward guides structured output during training.
Contribution 요약 (Methodology 관점)
- Visual perception tasks에 적합한 verifiable reward functions (IoU-based, accuracy-based) 구체화.
- Reasoning process를 유도하는 prompt engineering 기법 제시.
- GRPO framework 기반의 Visual-RFT training pipeline 제시.
쉬운 설명:
- Visual-RFT 작동 방식:
- 이미지랑 질문을 입력으로 받습니다.
- Policy model이 여러 개의 답변(reasoning 과정 포함)을 생성합니다.
- 각 답변을 verifiable reward function (detection은 IoU 기반, classification은 정답 여부 기반)에 넣어 점수를 매깁니다.
- 답변들의 점수를 종합해서 어떤 답변이 더 좋은지 평가합니다.
- 평가 결과를 바탕으로 policy model을 업데이트합니다 (더 좋은 답변을 생성하도록).
- Verifiable Reward:
- Detection: IoU를 기반으로 점수를 매깁니다. 잘 맞춘 bounding box는 confidence가 높을수록 좋고, 못 맞춘 box는 confidence가 낮을수록 좋습니다.
- Classification: 정답이면 1점, 틀리면 0점. 여기에 올바른 형식(HTML 태그)으로 출력했는지에 대한 점수도 추가.
- 데이터 준비:
- 정답을 말하기 전에 생각하는 과정(<think>)과 정답(<answer>)을 명확히 구분하는 형식으로 출력을 유도.
- 핵심: Visual task에도 "채점 가능한" reward를 사용해서 RL을 적용하고, "생각하는 과정"을 학습시켜서 더 똑똑하게 만들었다는 점.