AI바라기의 인공지능

VLM : 논문 리뷰 : VisPlay: Self-Evolving Vision-Language Models from Images 본문

논문리뷰

VLM : 논문 리뷰 : VisPlay: Self-Evolving Vision-Language Models from Images

AI바라기 2025. 11. 24. 14:14

 


VisPlay: Self-Evolving Vision-Language Models from Images - 학습 노트

1. 용어 설명 (Terminology)

  • VisPlay: 본 논문에서 제안하는 Self-Evolving RL 프레임워크. Unlabeled image만을 사용하여 VLM의 능력을 스스로 향상시키는 시스템.
  • Image-Conditioned Questioner ( ): 주어진 이미지를 바탕으로 시각적 추론이 필요한 질문을 생성하는 Agent. Reasoner가 풀기 어렵지만 해결 가능한 수준의 질문을 만들도록 학습됨.
  • Multimodal Reasoner ( ): 이미지와 생성된 질문을 입력받아 답변을 생성하는 Agent. Questioner가 만든 질문에 대해 일관된 답변(Silver response)을 내놓도록 학습됨.
  • GRPO (Group Relative Policy Optimization): Value function 없이 그룹 내 샘플들의 상대적인 보상(reward)을 통해 정책을 최적화하는 강화학습 알고리즘. 본 논문의 핵심 학습 알고리즘.
  • Silver Response (Pseudo-label): 정답 레이블이 없는 상황에서, 모델이 생성한 여러 답변 중 다수결(Majority Voting)로 선정된 답변을 정답으로 간주하는 것.
  • Uncertainty Reward: Questioner가 Reasoner가 헷갈려하는(확신도가 0.5에 가까운) 질문을 생성했을 때 주는 보상. 너무 쉽거나(확신도 1), 아예 모르는(무작위) 질문을 방지함.
  • Informative Filter: Reasoner 학습 시, 너무 확신하거나(trivial) 너무 불안정한(noisy) 샘플을 제외하고, 학습에 유의미한 난이도(정보 이득이 높은)의 데이터만 선별하는 필터링 기법.

2. Purpose of the Paper

  • 기존 연구의 한계: 기존 VLM 강화학습(RL) 연구는 비용이 많이 드는 Human-annotated data에 의존하거나, 수학/코딩처럼 정답 검증이 쉬운(Verifiable rewards) 특정 도메인에 국한됨.
  • 문제 정의: 방대한 양의 Raw, Unlabeled Images 만을 활용하여 사람의 개입 없이 VLM의 시각적 추론(Visual Reasoning) 능력을 향상시킬 수 있는가?
  • 차별점: LLM 분야의 self-evolution과 달리, Visual modality가 포함된 상황에서 외부 도구(External tools)나 다른 강력한 모델(Oracle) 없이, 단일 Base VLM이 스스로 질문을 만들고 답하며 진화(Co-evolution) 하는 파이프라인을 구축함.

3. Key Contributions & Novelty

  • Self-Evolving Framework (VisPlay):
    • 단일 Base VLM을 Questioner Reasoner 두 가지 역할로 분리하여 상호 발전시키는 Self-play RL 메커니즘 제안.
    • 외부의 감독(Human supervision) 없이 이미지만으로 일반적인 시각적 이해 능력과 Hallucination 방지 능력을 동시에 향상.
  • Novel Reward Mechanism for Questioner:
    • Difficulty Reward: Reasoner의 답변 분포(Confidence score)를 기반으로 '가장 불확실한(Uncertainty driven)' 질문을 생성하도록 유도하여 학습 효율 극대화.
    • Diversity Regularization: 동일 이미지에서 중복된 질문 생성을 방지하기 위해 생성된 질문 그룹 내의 유사도(BLEU score 기반 클러스터링)에 페널티를 부여.
  • Curated Dataset Construction with Informative Filter:
    • Reasoner가 생성한 데이터 중 Confidence score가  인 구간의 데이터만 선별하여 학습에 활용. 이는 모델이 이미 잘 아는 내용이나 너무 불안정한 내용을 배제하여 학습 안정성을 높임.
  • Scalability & Robustness:
    • Qwen2.5-VL (3B, 7B), MiMo-VL 등 서로 다른 모델 아키텍처에서 일관된 성능 향상을 입증.

4. Experimental Highlights

  • Datasets & Baselines:
    • Vision-47K 데이터셋의 이미지만 사용 (기존 질문-답변 쌍 제거).
    • Benchmarks: MM-Vet, MMMU, MathVerse, HallusionBench 등 8개 벤치마크.
    • Baseline: Base Model 및 Untrained Questioner를 사용한 경우(Base Challenger)와 비교.
  • Major Results:
    • Dramatic Improvement: Qwen2.5-VL-3B 모델 기준, 평균 정확도가 30.61%(Base)  47.27%(Iter 3) 로 대폭 향상.
    • Hallucination Reduction: HallusionBench 점수가 32.81  94.95 (Iter 2)로 급상승하며, Self-evolution이 모델의 Factual grounding 능력을 크게 강화함을 증명.
    • Comparison with Human Data: VisPlay로 학습된 모델이 사람이 레이블링한 데이터(Human-annotated data) 로 학습한 모델과 대등하거나 일부 더 나은 성능을 보임 (Table 3).
  • Co-evolution Dynamics:
    • 반복(Iteration)이 진행될수록 Questioner가 생성하는 질문의 난이도가 상승하고, 이에 맞춰 Reasoner의 문제 해결 능력도 동반 상승하는 현상 관측.

5. Limitations and Future Work

  • Computational Constraints & Scaling: 실험이 7B 파라미터 이하의 모델(Qwen2.5-VL, MiMo-VL)에 한정됨. 10B 이상의 Larger VLM에서도 동일한 효율성을 보일지는 검증 필요.
  • Verification of Generated Data: 생성된 데이터의 품질을 검증할 때 Ground Truth 없이 모델 자체의 일관성(Majority vote)에 의존함. 이로 인한 Error accumulation(오류 누적) 가능성이 존재.
  • Future Work: 데이터의 신뢰성을 검증(Verify data faithfulness)할 수 있는 더 정교한 자동화 방법론 연구 및 더 큰 규모의 모델로의 확장 실험 제안.

6. Overall Summary

본 논문은 레이블이 없는 이미지만을 활용하여 VLM을 스스로 진화시키는 VisPlay 프레임워크를 제안한다. 모델을 '질문 생성자(Questioner)'와 '답변 추론자(Reasoner)'로 나누고 GRPO 기반의 강화학습을 통해 서로 더 어려운 문제를 내고 더 정확히 맞추도록 경쟁시키며 성능을 끌어올린다. 실험 결과, 외부의 정답 데이터 없이도 시각적 추론 능력과 환각(Hallucination) 억제 능력이 획기적으로 향상되었으며, 이는 값비싼 데이터 레이블링 없이도 VLM을 지속적으로 발전시킬 수 있는 확장 가능한 경로를 제시했다는 점에서 큰 의의가 있다.


7. 쉬운 설명 (Easy Explanation)

  • 핵심 아이디어: "공부 잘하는 친구(Oracle)" 없이 혼자서 묻고 답하며 공부하는 방법을 고안했습니다.
  • 어떻게?:
    1. VLM이 스스로 선생님(Questioner)과 학생(Reasoner) 역할을 번갈아 합니다.
    2. 선생님은 학생이 "아예 모르진 않지만 헷갈려하는(Uncertainty)" 수준의 딱 좋은 난이도의 문제를 내면 점수(Reward)를 받습니다.
    3. 학생은 그 문제를 풀면서, 여러 번 생각했을 때 공통적으로 나오는 답(Consistency)을 정답이라고 가정하고 학습합니다.
    4. 이 과정을 반복하면 선생님은 더 날카로운 질문을 던지게 되고, 학생은 그 질문을 소화하며 점점 똑똑해집니다.
  • 결과: 정답지(사람이 만든 데이터)를 하나도 안 보고 그림만 보고 혼자 공부시켰는데, 정답지를 보고 공부한 모델만큼이나 똑똑해졌고, 특히 없는 사실을 지어내는 버릇(Hallucination) 이 거의 사라졌습니다.

 

 

 

 

 

Abstract

Reinforcement learning (RL)은 complex reasoning tasks에서 Vision-Language Mo dels (VLMs)를 개선하기 위한 원칙적인 framework를 제공합니다.

그러나 기존 RL approaches는 verifiable rewards를 정의하기 위해 종종 human-annotated labels나 task-specific heuristics에 의존하며, 이는 비용이 많이 들고 scalability에 제한이 있습니다. 우리는 massive unlabeled image data로부터 VLMs가 그들의 reasoning capabilities를 autonomously 개선할 수 있게 해주는 self-evolving RL framework인 VisPlay를 소개합니다.

단일 base VLM에서 시작하여, VisPlay는 model을 두 가지 상호 작용하는 roles로 배정합니다: 어렵지만 답변 가능한 visual questions를 형성하는 Image-Conditioned Questioner와 silver responses를 생성하는 Multimodal Reasoner입니다. 이 roles는 diversity와 difficulty rewards를 사용하여 generated questions의 difficulty와 silver answers의 quality 사이의 균형을 맞추는 Group Relative Policy Optimization (GRPO)을 사용하여 jointly trained됩니다.

VisPlay는 두 가지 model families 전반에 걸쳐 효율적으로 scale합니다. Qwen2.5-VL과 MiMo-VL에서 Trained된 VisPlay는 MM-Vet와 MMMU를 포함한 8개의 benchmarks 전반에서 visual reasoning, compositional generalization, 그리고 hallucination reduction에서 일관된 개선을 달성하며, self-evolving multimodal intelligence를 향한 scalable한 경로를 확립합니다.

우리의 project page는 https://bruno686.github.io/VisPlay/ 에서 이용 가능합니다.

 

 

 

1. Introduction

더보기

Self-evolving mechanisms는 artificial intelligence를 발전시키기 위한 유망한 frontier를 대표합니다. State-of-the-art (SoTA) models의 training은 전통적으로 방대한 양의 expert curated tasks와 labels에 의존해 왔습니다. 그러나 human annotation에 대한 의존은 비용이 많이 들고, labor-intensive하며, scale하기 어려울 뿐만 아니라, human signal guidance 없이 스스로를 능가할 수 있는 capabilities를 향해 intelligence를 발전시키는 데 근본적인 bottleneck을 제시합니다. Self-evolution은 models에게 self-play나 synthetic data generation과 같은 그들 자신의 experiences로부터 독립적으로 generate, refine, 그리고 learn할 수 있는 capacity를 갖추게 함으로써 강력한 대안을 제공합니다.

이러한 이점들에 동기 부여되어, research community는 점점 더 self-evolution을 탐구해 왔으며, 가장 눈에 띄게는 Large Language Models (LLMs)의 context에서 그렇습니다. 일련의 연구들은 LLMs가 종종 그들 자신의 tasks나 data를 generating함으로써 그들의 complex reasoning 및 coding faculties를 어떻게 autonomously 향상시킬 수 있는지 보여주었습니다. 그러나 self-evolution paradigm은 Vision-Language Models (VLMs)에 대해서는 여전히 크게 underexplored 상태로 남아있습니다. 오직 text에만 의존하는 LLMs와 달리, self-evolving VLMs를 developing하는 것은 visual modality에 대한 의존성 때문에 추가적인 challenges를 제기합니다. Human annotation이 비용이 많이 들고 시간이 소요되지만 방대한 양의 visual data는 온라인에서 자유롭게 이용 가능한 세상에서, self-evolving VLMs는 human signals 없이 인터넷상의 풍부한 visual content로부터 직접적인 continual improvement를 향한 유망한 방향을 제시합니다.

이 논문에서, 우리는 오직 raw, unannotated images만을 사용하여 VLMs가 그들의 reasoning capabilities를 autonomously 개선할 수 있게 하는 self-evolving RL framework인 VisPlay를 소개합니다. 이 framework는 두 가지 roles 사이를 교대하는 단일 base VLM을 활용합니다: input image에 conditioned된 diverse하고 challenging questions를 generate하는 Image-Conditioned Questioner와, image와 generated question 모두에 기반하여 silver responses를 생산하는 Multimodal Reasoner입니다. 두 roles 모두 Group Relative Policy Optimization (GRPO)을 사용하여 jointly optimized되며, 여기서 설계된 rewards는 external supervision을 요구하지 않고 question difficulty와 answer quality 사이의 균형을 장려합니다. Image-Conditioned Questioner는 visual inputs에 grounded된 challenging하지만 answerable questions를 generate하는 것을 배우는 반면, Multimodal Reasoner는 accurate, detailed, 그리고 grounded responses를 생산하는 것을 배웁니다. 이 self-evolving framework는 Figure 1과 같이 Questioner와 Reasoner의 iterative co-improvement를 통해 VLM이 그들의 visual reasoning abilities를 점진적으로 개선할 수 있게 합니다.

우리는 우리의 self-evolving RL framework를 적용하여 세 개의 state-of-the-art (SoTA) VLMs를 train하고 diverse visual reasoning benchmarks 전반에서 일관된 performance gains를 관찰합니다.

우리의 주요 contributions는 다음과 같습니다:

  • 우리는 Vision-Language models를 위한 self-evolving RL framework인 VisPlay를 제안합니다.
  • 우리는 VisPlay를 세 개의 강력한 models—Qwen2.5-VL-3B, Qwen2.5-VL-7B, 그리고 MiMo-VL-7B—에 적용합니다. 우리는 세 가지 주요 domains—General Visual Understanding, Visual Mathematics, 그리고 Hallucination Detection—에 대해 extensive evaluations를 실행합니다. 모든 models는 여러 iterations 후에 accuracy에서 일관된 gains를 보여줍니다.
  • 우리는 Image-Conditioned Questioner Multimodal Reasoner component의 contribution을 추가적으로 validate하고 VisPlay가 vision-language tasks 전반에 걸쳐 multimodal reasoning을 어떻게 점진적으로 강화하는지 추가로 보여주기 위해 extensive ablation studies를 실행합니다.

 

 

1. Introduction - AI 연구자를 위한 핵심 요약 노트

Motivation & Problem Definition

  • Underexplored Domain: LLMs에서는 self-play나 synthetic data generation을 통한 self-evolution이 활발히 연구되었으나, VLMs 분야에서는 visual modality 의존성으로 인해 상대적으로 연구가 부족함.
  • Data Efficiency: Human annotation의 scalability 한계를 극복하고, 인터넷상의 방대한 raw, unannotated images를 직접 활용하여 continual improvement를 이루는 것이 목표.

Methodology: VisPlay Framework

  • Concept: Raw images만을 활용하는 Self-evolving RL framework.
  • Dual-Role Mechanism: 단일 base VLM이 두 가지 역할을 수행하며 상호 발전 (Iterative co-improvement).
    • Image-Conditioned Questioner: Visual input을 바탕으로 diverse하고 challenging하면서도 answerable한 questions 생성.
    • Multimodal Reasoner: Image와 generated question을 기반으로 silver responses 생성.
  • Optimization Strategy:
    • Algorithm: Group Relative Policy Optimization (GRPO) 채택.
    • Reward Design: External supervision 없이 question difficultyanswer quality 간의 균형을 맞추도록 설계된 rewards 사용. Questioner는 더 어려운 질문을 하도록, Reasoner는 더 정확하고 grounded된 답변을 하도록 유도.

Contributions & Results

  • Scalability: Qwen2.5-VL (3B, 7B), MiMo-VL-7B 등 최신 SoTA VLMs에 적용하여 성능 향상 확인.
  • Performance: General Visual Understanding, Visual Mathematics, Hallucination Detection 등 8개 benchmarks에서 일관된 accuracy 향상 입증.
  • Impact: Human signals 없이 스스로 발전하는 self-evolving multimodal intelligence의 가능성 제시.

쉬운 설명 :

이 논문의 VisPlay는 AI가 선생님과 학생 역할을 혼자서 번갈아 맡으며 공부하는 자습 시스템과 같습니다.

  1. 문제점: 기존에는 AI에게 이미지를 이해시키려면 사람이 일일이 "이건 고양이야", "저건 자동차야"라고 정답(Label)을 알려줘야 했습니다. 하지만 이 방식은 돈과 시간이 너무 많이 듭니다.
  2. 해결책 (VisPlay): 정답이 없는 그냥 이미지(Raw images)만 줘도 AI가 알아서 똑똑해지는 방법을 만들었습니다.
  3. 작동 원리: 하나의 AI 모델이 두 개의 자아를 가집니다.
    • 질문하는 자아 (Questioner): 이미지를 보고 "이 그림에서 고양이 뒤에 있는 물체는 뭐지?" 같이 어렵지만 대답할 수 있는 문제를 냅니다.
    • 답변하는 자아 (Reasoner): 그 질문에 대해 논리적으로 답변을 찾아냅니다.
  4. 핵심: 이 둘은 서로 경쟁하고 협력하며 성장합니다. 질문자는 더 날카로운 질문을 던지려고 노력하고, 답변자는 더 정확하게 대답하려고 노력하면서, 사람의 도움 없이도 스스로 시각적 추론(Visual Reasoning) 능력을 키우게 됩니다.

 

 

 

2. Method

더보기

2.1. Preliminary

Reinforcement Learning with Verifiable Rewards (RLVR)은 model outputs의 정확성이 verified될 수 있는 domains에서 VLMs를 training하기 위한 paradigm입니다. Rule-based verifier $v : X \to {0, 1}$는 각 generation $x_i$에 binary reward를 할당합니다:

$$r_i = v(x_i) = \begin{cases} 1, & \text{if } x_i \text{ satisfies a correctness rule,} \\ 0, & \text{otherwise.} \end{cases}$$

그러한 verifiable rewards는 정확성이 객관적으로 evaluated될 수 있는 mathematical reasoning, multiple choice, 그리고 code generation과 같은 tasks에서 효과적입니다.

GRPO는 value function 없이 동일한 prompt로부터의 multiple samples 사이의 relative rewards를 사용하여 실용적인 RL algorithm을 제공합니다. Prompt $p$가 주어지면, policy $\pi_{\theta_{old}}$는 corresponding rewards ${r_1, \dots, r_G}$를 가진 $G$개의 complete responses ${x_1, \dots, x_G}$를 생산합니다. Rewards는 group 내에서 normalized되어 response-level advantages를 계산합니다:

$$\hat{A}_i = \frac{r_i - \text{mean}(r_1, \dots, r_G)}{\text{std}(r_1, \dots, r_G) + \varepsilon_{norm}},$$

여기서 $\varepsilon_{norm}$은 stability를 위한 작은 상수입니다.

그 후 policy는 policy drift를 제약하기 위해 KL term으로 regularized된 clipped surrogate objective를 사용하여 optimized됩니다:

$$L_{GRPO}(\theta) = -\frac{1}{G} \sum_{i=1}^G \min \left( \frac{\pi_\theta(x_i)}{\pi_{\theta_{old}}(x_i)} \hat{A}_i, \text{clip} \left( \frac{\pi_\theta(x_i)}{\pi_{\theta_{old}}(x_i)}, 1-\epsilon, 1+\epsilon \right) \hat{A}_i \right) + \beta \text{KL}(\pi_\theta \parallel \pi_{\theta_{old}}).$$

GRPO는 policy deviation을 제한하면서 positive relative advantages를 가진 responses에 rewarding함으로써 VLMs의 reasoning 및 generation quality를 개선하기 위해 RLVR 원칙을 운영합니다.

2.2. Pipeline Overview

우리는 human-annotated data 없이 VLMs를 진화시키도록 설계된 self-play reinforcement learning framework인 VisPlay를 소개합니다. Figure 2에 묘사된 것처럼, 이 framework는 동일한 base model로부터 진화된 두 agents를 포함하는 closed-loop system으로 작동합니다: Image-Conditioned Questioner Multimodal Reasoner입니다. 과정은 Questioner가 image를 input으로 받아 visual query를 generate하는 것으로 시작됩니다. 그 후, Reasoner는 image와 generated query 모두를 받아 response를 생산합니다.

Questioner와 Reasoner 모두 shared pretrained backbone으로부터 initialized됩니다. 두 agents는 iterative interactions를 통해 co-evolve합니다: Questioner는 더 challenging questions를 generate하도록 trained되는 반면, reasoner는 점점 더 어려워지는 questions를 해결하도록 trained됩니다. 전체 과정은 Algorithm 1에 설명되어 있습니다.

2.3. Image-Conditioned Questioner Training

Questioner는 $Q_\theta$로 표기되는 autoregressive policy입니다. Input image $I$에 conditioned되어, $G$개의 questions $\{x_i\}_{i=1}^G \sim Q_\theta(\cdot|I)$ 그룹을 sample하며, 이는 평가되어 scalar rewards $\{r_i\}_{i=1}^G$를 생산합니다. 이 rewards는 group-normalized advantages를 계산하고 GRPO objective로 $Q_\theta$를 update하는 데 사용됩니다. 다음으로 각 $r_i$를 구성하는 reward components를 정의합니다.

Pseudo-Label Generation. Self-evolving VLMs는 labeled data에 의존하지 않고 학습하기 때문에, Questioner가 generated questions에 대한 ground-truth answers는 이용 불가능합니다. 따라서, 우리는 corresponding answers를 근사하기 위한 방법을 도입합니다. Image $I$와 generated question $x$가 주어지면, 우리는 $m$개의 responses $\{y_j\}_{j=1}^m$를 sample하는 Reasoner $S_\phi$를 도입합니다. 우리는 candidate answer $y$의 empirical frequency를 $\hat{p}(y|x, I) = \frac{1}{m} \sum_{j=1}^m 1{y_j = y}$로 정의하고, majority voting을 통해 pseudo-label을 도출합니다: $\tilde{y} = \arg \max_y \hat{p}(y|x, I)$. 그 후 우리는 이 pseudo-label에 대한 confidence score를 다음과 같이 정의합니다:

$$\text{conf}(x, I) = \hat{p}(\tilde{y}|x, I).$$

직관적으로, $\text{conf}(x, I)$는 pseudo-label에 대한 Reasoner의 certainty를 측정합니다: 높은 값은 안정적이고 일관된 predictions를 나타내는 반면, 0.5 근처의 값은 강한 uncertainty를 반영합니다. 따라서 우리는 uncertainty의 정도 (즉, $\text{conf}(x, I)$가 0.5에 얼마나 가까운지)를 generated question의 model-perceived difficulty에 대한 proxy로 취급합니다.

Uncertainty Reward. Confidence score는 Reasoner의 uncertainty를 정량화하며, 우리는 이를 generated question의 model-perceived difficulty에 대한 proxy로 사용합니다. Reasoner의 한계를 시험하는 questions를 장려하기 위해, 우리는 confidence score $c = \text{conf}(x, I)$에 기반하여 reward를 계산합니다. 우리는 maximum uncertainty 지점으로부터의 deviations를 penalize하기 위해 uncertainty reward를 정의합니다:

$$r_{unc}(x, I) = 1 - |2c - 1|.$$

이 공식은 $c = 0.5$일 때 maximal reward인 1을 산출하고 reasoner의 response distribution이 deterministic해짐에 따라 (즉, $c \to 1$) 0으로 선형적으로 감소합니다.

Diversity Regularization. Model이 주어진 image $I$에 대해 반복적인 questions를 generating하는 것으로 collapsing하는 것을 방지하기 위해, 우리는 그것의 generated group $X_I$ 내에서 redundancy penalty를 도입합니다. 우리는 duplicates를 식별하기 위해 pairwise similarity (BLEU score)에 기반하여 이 generated questions를 cluster합니다. Cluster $C_k^{(I)} \subseteq X_I$에 속하는 question $x_i$에 대해, regularization term은 다음과 같습니다:

$$r_{div}(x_i, I) = \lambda \frac{|C_k^{(I)}|}{G},$$

여기서 $C_k^{(I)}$는 image $I$에 대한 similar questions의 cluster를 나타내며, $G$는 그 image에 대해 generated questions의 총 개수입니다.

Format Constraint. 우리는 structural validity를 보장하기 위해 hard filter를 강제합니다. 구체적으로, 우리는 generated question이 <question> tags 내에 엄격하게 포함될 것을 요구합니다. 이 format requirement를 충족하지 못하는 모든 output은 zero reward가 할당됩니다. 우리는 이 validity indicator를 다음과 같이 표기합니다:

$$1_{valid}(x) = \begin{cases} 1, & \text{if } x \text{ is wrapped in <question> tags,} \\ 0, & \text{otherwise.} \end{cases}$$

Final Questioner Reward. Image $I$에 conditioned된 각 generated question $x_i$에 대해, 우리는 uncertainty signal과 diversity regularization을 unified scalar objective로 통합합니다:

$$r_i = 1_{valid}(x_i) \cdot \text{ReLU}(r_{unc}(x_i, I) - r_{div}(x_i, I)).$$

이 composite reward는 Questioner가 malformed outputs를 엄격하게 필터링하면서 challenging하지만 non-redundant questions를 generate하도록 장려합니다. ReLU function은 가짜 negative values가 group 전반의 reward normalization을 왜곡하는 것을 방지함으로써 GRPO updates를 안정화합니다.

2.4. Multimodal Reasoner Training

Multimodal Reasoner $S_\phi$의 training은 Image-Conditioned Questioner의 발전을 기반으로 합니다. 각 iteration에서, Image-Conditioned Questioner functions는 training targets 역할을 하는 challenging samples를 생산합니다. 그 후 Multimodal Reasoner는 이러한 automatically curated samples로부터 학습하여, 어떠한 external supervision 없이 visual reasoning ability를 개선합니다.

Curated Dataset Construction. Image-Conditioned Questioner의 update에 뒤이어, 우리는 $x_i \sim Q_\theta(\cdot | I)$를 sampling함으로써 image 당 $N$개의 candidate questions $\{x_i\}_{i=1}^N$의 diverse pool을 generate합니다. 각 $x_i$에 대해, 우리는 현재 Multimodal Reasoner로부터 $m$개의 response samples를 획득하고 pseudo-label $\tilde{y}_i$와 confidence score $c_i = \text{conf}(x_i, I)$를 계산합니다. 높은 information gain을 제공하는 training samples에 집중하기 위해, 우리는 적당한 confidence를 가진 pairs $(x_i, \tilde{y}_i)$를 유지하는 informative filter를 강제합니다:

$$\tau_{low} \leq c_i \leq \tau_{high},$$

여기서 $\tau_{low}$와 $\tau_{high}$는 각각 0.25와 0.75로 설정된 thresholds입니다. 이 기준은 model이 이미 확신하는 ( $c_i > 0.75$ ) trivial samples뿐만 아니라 매우 불안정하거나 noisy generations ( $c_i < 0.25$ )를 효과적으로 버립니다. 최종 curated training set $S$는 GRPO를 통해 Multimodal Reasoner를 optimize하기 위해, images 전반에 걸쳐 유지된 모든 pairs를 budgeted size까지 수집하여 형성됩니다.

Per-Sample Verifiable Reward. Pseudo-label $\tilde{y}_i$를 가진 question $x_i \in S$에 대해, Multimodal Reasoner는 $G$개의 candidate answers $\{y_j\}_{j=1}^G$ 그룹을 generate합니다. 각 sampled answer는 binary reward를 받습니다:

$$r_j = \begin{cases} 1, & \text{if } y_j = \tilde{y}_i, \\ 0, & \text{otherwise.} \end{cases}$$

이 rewards는 식 (2)와 같이 (Reasoner의 rewards로) advantages $\hat{A}_j$를 생산하기 위해 group-normalized되며, $S_\phi$는 식 (3)과 같이 $L_{GRPO}(\phi)$를 최소화함으로써 update됩니다.

2. Method - AI 연구자를 위한 핵심 요약 노트

Framework Architecture: VisPlay

  • Core Concept: Single pretrained backbone에서 파생된 두 개의 Agent (Image-Conditioned Questioner, Multimodal Reasoner) 간의 Closed-loop Self-play.
  • Optimization Backbone: GRPO (Group Relative Policy Optimization) 채택.
    • Value function 없이 동일 프롬프트에 대한 Group sampling을 통해 Relative advantages를 계산.
    • Policy drift 방지를 위해 KL term이 포함된 Clipped surrogate objective 사용.

Agent 1: Image-Conditioned Questioner Training ($Q_\theta$)

  • Goal: Ground-truth 없이 스스로 Challenging하면서도 Answerable한 질문 생성.
  • Pseudo-Label & Confidence:
    • Reasoner가 생성한 $m$개의 답변에 대해 Majority voting으로 Pseudo-label($\tilde{y}$) 및 Confidence score($c$) 산출.
    • $c$를 "Model-perceived difficulty"의 Proxy로 활용.
  • Reward Design (Key Contribution):
    1. Uncertainty Reward ($r_{unc}$): $c=0.5$ (Maximum uncertainty)를 지향하도록 설계 ($1 - |2c - 1|$). Reasoner가 너무 쉽게 맞추지도($c \to 1$), 아예 모르지도 않는($c \ll 0.5$) 경계선상의 질문 유도.
    2. Diversity Regularization ($r_{div}$): 생성된 질문 군(Group) 내에서 BLEU score 기반 Clustering을 수행, 중복 질문에 Penalty 부여.
    3. Format Constraint: <question> 태그 준수 여부로 Hard filtering.
  • Objective: $r_i = 1_{valid} \cdot \text{ReLU}(r_{unc} - r_{div})$.

Agent 2: Multimodal Reasoner Training ($S_\phi$)

  • Goal: 생성된 질문에 대한 Visual reasoning 능력 향상 (External supervision 없음).
  • Curated Dataset Construction (Informative Filter):
    • Questioner가 생성한 데이터 중 Information gain이 높은 샘플만 선별.
    • Thresholding: Confidence score $c_i$$0.25 \le c_i \le 0.75$ 구간인 데이터만 학습에 활용.
    • Logic: 이미 아는 쉬운 문제($c > 0.75$)와 너무 어렵거나 Noisy한 문제($c < 0.25$)를 배제.
  • Optimization: 선별된 $(x_i, \tilde{y}_i)$ 쌍에 대해, 생성된 답변이 Pseudo-label과 일치하면 Reward 1을 부여하는 Binary reward 방식 적용 (GRPO).

쉬운 설명 :

VisPlay의 학습 방법: "똑똑한 스터디 파트너와 족집게 과외"

이 섹션은 AI가 혼자서 어떻게 문제를 만들고 푸는 실력을 늘리는지에 대한 구체적인 기술(Method)을 다룹니다.

  1. 질문 출제자 (Questioner)의 전략: "애매한 걸 물어봐라"
    • 질문자는 이미지를 보고 문제를 냅니다. 근데 좋은 문제인지 어떻게 알까요?
    • 채점 기준: 답변자(Reasoner)가 대답을 내놓을 때, 확신이 50% 정도인 문제를 내면 최고의 점수를 받습니다.
      • 답변자가 너무 쉽게 맞추면(확신 100%) -> "너무 쉬운 문제였어, 탈락."
      • 답변자가 찍어서 맞추거나 아예 모르면(확신 낮음) -> "말이 안 되는 문제였어, 탈락."
      • 답변자가 "긴가민가"할 때 -> "이게 바로 실력을 늘릴 수 있는 핵심 문제다!" (이것이 Uncertainty Reward입니다).
  2. 답변자 (Reasoner)의 전략: "도움 되는 것만 공부한다"
    • 질문자가 만든 수많은 문제 중, 답변자는 아무거나 공부하지 않습니다.
    • 공부 범위 (Filtering): 이미 다 아는 문제(상위 25% 이상 확신)는 건너뛰고, 도저히 모르겠는 문제(하위 25% 미만 확신)도 버립니다. 딱 내 실력을 늘려줄 수 있는 중간 난이도의 문제만 골라서 집중적으로 학습합니다.
  3. 핵심 요약
    • AI는 서로에게 "배울 만한 적당한 난이도"의 문제를 끊임없이 던져주고 풀어가며, 정답지(Label)가 없는 상황에서도 스스로 시각적 추론 능력을 훈련합니다.

 

 

 

 

주인장 이해

더보기

GRPO 기반의 방법으로
이미지를 보고 문제를 내는애랑 문제를 푸는애 그리고 정답을 맞추는모델이 유기적으로 학습에 사용
최빈값을 기준으로 0.25~0.75 사이의 문제만 보상에 적용

 

근데보상 모델이 없음 무조건 최빈값이 정답 라벨로 사용되는데 논문 자체가 약간 이상함