benchmark : 논문리뷰 : GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

논문리뷰

benchmark : 논문리뷰 : GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

AI바라기 2025. 6. 26. 15:22

쉬운 설명 (Easy Explanation)

이 논문의 핵심 아이디어는 학생에게 수학 문제를 풀게 하는 똑똑한 선생님과 같습니다.

기존 방식 (GRPO): 학생이 최종 답만 맞히면 점수를 주는 선생님과 같습니다. 학생은 중간 풀이 과정이 엉터리이거나 우연히 답을 맞혔을 수 있습니다 (shortcut).
제안 방식 (GRPO-CARE): 최종 답이 맞으면 기본 점수를 주고(base reward), 중간 풀이 과정이 논리적이고 합리적이면 추가 점수(consistency bonus)를 주는 선생님과 같습니다. 이 선생님은 완벽한 모범 답안지(process supervision)가 없어도 학생의 풀이가 말이 되는지 아닌지 판단할 수 있습니다. 이런 방식은 학생이 단순히 답을 맞히는 요령이 아니라, 문제를 올바르게 푸는 방법 자체를 배우도록 유도하여 실력을 근본적으로 향상시킵니다.

다음은 "GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning" 논문에 대한 학습 노트 스타일의 요약입니다.

용어 설명 (Glossary)

GRPO (Group-Relative Policy Optimization): Outcome-supervised Reinforcement Learning (RL) 기법. 정답 여부(outcome)만으로 모델을 학습시키며, batch 내에서 상대적인 보상(group-relative)을 통해 학습 효율을 높입니다.
GRPO-CARE (Consistency-Aware Reward Enhancement): 이 논문에서 제안하는 핵심 프레임워크. 기존 GRPO에 reasoning과 answer 사이의 논리적 일관성(consistency)을 보상하는 메커니즘을 추가한 것입니다.
SEED-Bench-R1: 이 논문에서 제안하는 새로운 비디오 이해 벤치마크. MLLM의 post-training 방법론을 평가하기 위해 설계되었으며, in-distribution, cross-environment, cross-environment-task의 3단계 난이도로 구성되어 일반화 성능을 체계적으로 측정합니다.
Consistency Rate: 생성된 reasoning(생각의 과정)이 최종 answer를 논리적으로 충분히 뒷받침하는지를 GPT-4를 이용해 측정한 지표입니다. 이 논문에서 모델의 interpretability를 측정하는 핵심 metric입니다.
Reference Model (π_φ): Online으로 학습되는 주 모델(π_θ)의 파라미터를 Exponential Moving Average (EMA)로 천천히 업데이트하는 복제 모델입니다. 안정적인 likelihood 추정을 위한 "기준점" 역할을 합니다.
Consistency Bonus (r_c): Reasoning이 주어졌을 때 Reference Model이 정답을 예측할 likelihood를 계산하여, 이 값이 그룹 내 다른 샘플들보다 높을 경우 부여하는 추가적인 보상입니다. 논리적으로 일관된 추론 경로에 reward를 줍니다.
Outcome-Supervised RL: 추론 과정(process)에 대한 감독 없이, 오직 최종 결과(outcome)의 정답 여부만을 reward signal로 사용하는 RL 방식입니다.
Thought Collapse: MLLM이 RL 학습 과정에서 정답을 맞히는 데만 치중한 나머지, 추론 과정이 논리적으로 붕괴되거나 비일관적으로 변하는 현상을 의미합니다.

Purpose of the Paper

기존의 outcome-supervised RL 방식 (e.g., GRPO)을 Multimodal LLM (MLLM)에 적용할 때 발생하는 한계를 극복하고자 했습니다. 기존 방식은 최종 answer의 정확도는 높이지만, 그 과정인 Chain-of-Thought (CoT) reasoning과 최종 answer 사이의 논리적 일관성(logical coherence)을 해치는 "shortcut" 학습 문제를 야기합니다. 이로 인해 모델의 interpretability가 저하되고 성능 향상에 제약이 생깁니다.

이 논문은 별도의 process supervision (과정에 대한 정답 데이터) 없이 reasoning과 answer의 일관성을 함께 최적화하는 새로운 RL 프레임워크 GRPO-CARE를 제안하는 것을 목표로 합니다. 동시에, 이러한 post-training 방법론의 일반화 성능을 체계적으로 평가할 수 있는 SEED-Bench-R1 벤치마크를 함께 제시하여 연구의 필요성과 효과를 입증하고자 합니다.

Key Contributions & Novelty

Contribution 1: GRPO-CARE Framework 제안
- Answer 정확도에 대한 기본 reward와 reasoning-answer 일관성에 대한 adaptive consistency bonus를 결합한 two-tiered reward 시스템을 도입했습니다.
- Novelty: 핵심은 consistency bonus를 계산하고 적용하는 방식에 있습니다.
  1. 비용이 많이 드는 process supervision 대신, 천천히 업데이트되는 reference model을 사용하여 reasoning으로부터 answer가 도출될 likelihood를 추정합니다.
  2. KL-divergence penalty를 제거하고, 대신 group-relative하고 sparse한 consistency bonus로 대체하여, 논리적으로 일관된 추론 경로의 탐색을 효과적으로 장려합니다. 이는 모델의 과도한 제약을 풀고 더 나은 성능을 이끌어냅니다.
Contribution 2: SEED-Bench-R1 벤치마크 구축
- 복잡한 실제 비디오 시나리오에서 perception과 reasoning을 모두 요구하는 MLLM post-training 평가를 위한 대규모 벤치마크를 제공합니다.
- Novelty: 체계적인 일반화 능력 평가를 위해 hierarchical three-level evaluation (Level 1: In-distribution, Level 2: Cross-environment, Level 3: Cross-environment-task) 구조를 갖춘 최초의 벤치마크입니다. 이를 통해 모델이 얼마나 새로운 환경과 태스크에 강건한지 정밀하게 측정할 수 있습니다.

Experimental Highlights

SEED-Bench-R1 성능: GRPO-CARE는 모든 난이도에서 기존 GRPO를 크게 능가했으며, 특히 가장 어려운 Level-3 (OOD)에서 6.7%의 성능 향상을 보였습니다 (GRPO 46.7% → GRPO-CARE 53.4%).
Consistency Rate 향상: GRPO-CARE는 answer 정확도를 높이면서도 논리적 일관성을 극적으로 개선했습니다. Consistency Rate가 GRPO의 57.9%에서 82.4%로 24.5%p 증가했습니다. 이는 제안된 방법이 interpretability를 실제로 향상시킴을 보여주는 직접적인 증거입니다.
Ablation Study: KL penalty를 단순히 수정하거나(SepKL-EMA-HA), 다른 방식의 consistency reward를 주는(DenseCons, RefGen) baseline들과 비교했을 때, GRPO-CARE가 정확도와 일관성 사이의 가장 뛰어난 균형점을 찾았음을 입증했습니다.
Generalization to other benchmarks: GRPO-CARE로 학습된 모델(CARE-7B)은 VSI-Bench, VideoMMMU, MVBench 등 6개의 다른 일반 비디오 이해 벤치마크에서도 base model 대비 일관된 성능 향상을 보여, 제안된 방법론과 벤치마크의 높은 품질과 일반화 가능성을 증명했습니다.

Limitations and Future Work

Limitations:
- 이 연구는 reasoning-answer consistency 향상을 통해 visual grounding 능력을 암시적으로(implicitly) 개선합니다. 즉, 추론이 논리적이면 시각적 정보도 더 잘 보게 될 것이라는 가정에 기반합니다. 하지만 visual perception을 향상시키기 위한 명시적인(explicit) 제약 조건은 사용하지 않아, perception 능력 향상에 한계가 있을 수 있습니다.
Future Work:
- 논리적 일관성을 통한 암시적 접근법이 효과적인 대안 경로임을 보였으므로, 향후에는 이를 명시적인 visual perception 제약 조건과 결합하여 MLLM 성능을 더욱 향상시키는 연구를 진행할 수 있습니다. reasoning과 perception 사이의 연결을 강화하는 것이 핵심 과제가 될 것입니다.

Overall Summary

이 논문은 outcome-supervised RL 학습 시 발생하는 MLLM의 reasoning-answer 불일치 문제를 해결하기 위해 GRPO-CARE 프레임워크를 제안합니다. GRPO-CARE는 reference model을 활용한 adaptive consistency bonus를 도입하여 추가적인 데이터 없이도 answer의 정확성과 reasoning의 논리적 일관성을 동시에 최적화합니다. 또한, post-training 방법론의 일반화 성능을 체계적으로 측정하기 위한 SEED-Bench-R1 벤치마크를 구축하여 제안 방법의 우수성을 입증했습니다. 이 연구는 더 신뢰할 수 있고 해석 가능한 MLLM 개발을 위한 중요한 프레임워크와 평가 기준을 제시했다는 점에서 큰 의의를 가집니다.

Abstract

최근 outcome-supervised GRPO와 같은 reinforcement learning (RL) 접근법은 large language models (LLMs)의 Chain-of-Thought reasoning을 발전시켰지만, multimodal LLMs (MLLMs)에 대한 적용은 아직 연구되지 않았습니다. MLLM post-training 방법, 특히 균형 잡힌 perception과 reasoning을 요구하는 작업에 대한 엄격한 평가의 부재를 해결하기 위해, 우리는 복잡한 실제 비디오를 특징으로 하는 benchmark인 SEED-Bench-R1을 제시합니다. 이는 섬세한 visual 이해와 상식적인 planning을 요구합니다. SEED-Bench-R1은 대규모 training set을 고유하게 제공하며, in-distribution, cross-environment, cross-environment-task 시나리오라는 세 가지 점증하는 도전 과제에 걸쳐 generalization을 평가합니다.

SEED-Bench-R1을 사용하여 우리는 표준 outcome-supervised GRPO의 핵심적인 한계를 확인했습니다. 이는 answer accuracy를 향상시키지만, 종종 reasoning steps와 final answers 사이의 logical coherence를 저하시켜 57.9%의 consistency rate만을 달성합니다. 우리는 이를 (1) reasoning quality를 희생시키면서 shortcut solutions을 장려하는, final answers에만 초점을 맞춘 reward signals과 (2) model exploration을 과도하게 제약하고 adaptive reasoning을 방해하는 엄격한 KL divergence penalties 때문이라고 분석합니다.

이러한 문제를 극복하기 위해, 우리는 명시적인 process supervision 없이 answer correctness와 reasoning coherence 모두를 공동으로 optimizes하는 새로운 consistency-aware RL framework인 GRPO-CARE를 제안합니다. GRPO-CARE는 two-tiered reward를 도입합니다: (1) answer correctness에 대한 base reward와 (2) model의 reasoning-to-answer likelihood를 (느리게 진화하는 reference model을 통해) group peers와 비교하여 계산된 adaptive consistency bonus입니다. 이 dual mechanism은 정확하고 logically consistent한 reasoning paths에 대한 rewards를 증폭시킵니다.

KL penalty를 adaptive, group-relative consistency bonus로 대체함으로써, GRPO-CARE는 SEED-Bench-R1에서 표준 GRPO를 일관되게 능가하여, 가장 어려운 evaluation level에서 6.7%의 performance gain과 consistency rate에서 24.5%의 개선을 달성했습니다. 더욱이, GRPO-CARE는 강력한 transferability를 보여주며 다양한 video understanding benchmarks에서 model performance를 향상시킵니다. 우리의 연구는 체계적으로 설계된 benchmark와 일반화 가능한 post-training framework를 제공하여, 더 interpretable하고 robust한 MLLMs의 발전에 기여합니다.

이 이미지는 SEED-Bench-R1이라는 benchmark와 이를 통해 GRPO와 GRPO-CARE라는 두 model의 성능을 비교한 결과를 보여줍니다.

이미지 좌측: Hierarchy of SEED-Bench-R1 (SB-R1)’s Validation Set

이미지 왼쪽은 MLLM이 비디오를 얼마나 잘 이해하는지 평가하기 위한 benchmark인 SEED-Bench-R1의 3단계 계층 구조를 설명합니다.

Level-1: In-distribution: '본 적 있는 부엌' 환경에서 싱크대를 청소하는 것과 같이 학습된 환경 내의 과업을 평가합니다. 이미지에서는 진행 상황과 현재 관찰 화면을 보고 다음에 할 행동(A. 천 집기, B. 천 짜기, C. 수도꼭지 잠그기)을 추론해야 합니다.
Level-2: Cross-environment: 과업 유형(일상)은 같지만, '본 적 없는 부엌'이라는 새로운 환경에서 model이 얼마나 잘 적응하는지(generalization) 평가합니다.
Level-3: Cross-task & Cross-environment: 취미, 여가 등 과업의 종류도 다양해지고, 환경 역시 '본 적 없는 실내외'로 바뀌어 가장 높은 수준의 reasoning 및 generalization 능력을 요구합니다.

이미지 우측: Model Performance

이미지 오른쪽은 GRPO (파란색)와 GRPO-CARE (노란색) 두 model의 성능을 4개의 그래프로 비교합니다.

성능 그래프 (Level-1, 2, 3): GRPO-CARE는 GRPO에 비해 모든 레벨에서 더 높은 성능을 보입니다. 특히 가장 어려운 Level-3에서 6.7%의 성능 향상을 달성했습니다.
Consistency Rate 그래프: reasoning 과정과 최종 answer 사이의 논리적 일관성을 나타내는 Consistency Rate에서 GRPO-CARE가 GRPO보다 24.5%나 높은 압도적인 우위를 보입니다.
Model의 Reasoning 예시:
- GRPO: reasoning 과정에서 '다음 단계는 천을 짜는 것'이라고 생각하지만, 최종적으로는 틀린 답을 선택하여 reasoning과 answer가 일치하지 않는 모습을 보여줍니다.
- GRPO-CARE: '방금 천을 헹궜으니 수도꼭지를 잠그는 것이 다음 단계'라고 단계별로 논리적인 추론을 통해 올바른 answer인 C를 선택합니다.

결론적으로 이 이미지는 GRPO-CARE라는 새로운 방법론이 기존 GRPO에 비해 단순히 정답을 맞히는 능력을 넘어, 논리적으로 일관된 reasoning 과정을 통해 정답을 도출하는 데 훨씬 뛰어나다는 것을 SEED-Bench-R1이라는 체계적인 benchmark를 통해 입증하고 있습니다.

1 Introduction

Large Language Models (LLMs)의 reasoning 능력에 대한 최근의 발전은 긴 Chain of Thought (CoT) generation의 개선에 의해 주로 주도되었습니다. 다양한 강화 전략 중에서, reinforcement learning (RL)은 강력한 post-training 기술로 부상했으며, LLMs이 검증 가능한 rewards에 의해 유도되는 self-improvement를 통해 CoT reasoning을 개선할 수 있도록 합니다. 이는 복잡한 문제를 해결하는 데 뛰어나고 out-of-distribution (OOD) tasks에 잘 generalize하는 models로 이어집니다. MLLMs은 multimodal inputs을 처리하기 위한 modules을 통합하여 LLMs을 확장하며, 더 풍부하고 복잡한 데이터를 다루면서 강력한 reasoning 능력을 상속받습니다. 그러나 MLLMs을 위한 RL과 유사한 post-training 방법에 대한 기존 평가는 perception tasks(예: detection, grounding) 또는 reasoning tasks(예: multimodal math problem solving)에 좁게 초점을 맞추거나, 구조화된 generalization assessment 없이 광범위한 일반 도메인 training datasets에 의존하는 경향이 있습니다.

우리는 multimodal understanding에서 post-training을 위한 이상적인 benchmark는 perception과 logical reasoning의 균형을 맞추면서 엄격한 generalization 평가를 가능하게 해야 한다고 주장합니다. 이러한 benchmark는 정교한 perception과 reasoning을 통합하여 정확하고, interpretable한 multimodal understanding과 실제 시나리오에서 robust performance를 달성하는 models을 육성할 것입니다. 이를 해결하기 위해, 우리는 비디오 이해에 대한 post-training 방법의 체계적인 평가를 위해 설계된 도전적인 benchmark인 SEED-Bench-R1을 소개합니다. 일상적인 인간 활동을 포착한 현실적인 egocentric videos를 사용하는 이전 benchmarks를 기반으로 구축된 SEED-Bench-R1은 models이 open-form task goals을 이해하고, long-horizon visual progress를 추적하며, 복잡한 environmental cues를 인식하고, Fig. 1에서 보여주듯이 세계 지식을 사용하여 다음 행동에 대해 reasoning하도록 요구합니다. 결정적으로, 이는 generalization assessment를 위한 three-level hierarchy를 특징으로 합니다: Level-1 (in-distribution), Level-2 (OOD cross-environment), 그리고 Level-3 (OOD cross-environment-task). 이는 RL에 적합한 대규모 training data와 검증 가능한 ground-truth answers에 의해 지원됩니다.

SEED-Bench-R1을 사용하여, 우리는 대표적인 post-training 방법들을 비교하는 포괄적인 연구를 수행합니다. 우리의 실험은 RL, 특히 outcome supervision에 기반한 GRPO가 매우 data-efficient하며 in-distribution 및 OOD 질문 모두에서 supervised fine-tuning (SFT)을 상당히 능가함을 확인합니다. 그러나 우리는 핵심적인 한계를 확인했습니다: outcome-supervised GRPO는 MLLMs의 perception과 answer accuracy를 향상시키지만, 종종 reasoning chains과 final answers 사이의 logical coherence를 희생시키며, consistency rate는 57.9%에 불과합니다. 이는 interpretability를 제한하고 잠재적인 performance ceiling을 제한합니다. 이는 최종 answer rewards에 대해서만 optimizing하는 것이 shortcut을 만들어, models이 reasoning steps에서 logical coherence를 유지하는 것보다 answer correctness를 우선시하게 되기 때문입니다. 동시에, 엄격한 KL divergence penalties는 model의 exploration을 과도하게 제약하여 reasoning paths와 answers 사이의 causal relationships의 adaptive adjustment를 막고, logical inconsistencies를 더욱 증폭시킵니다.

이를 극복하기 위해, 우리는 명시적인 process supervision에 의존하지 않고 answer correctness와 logical consistency를 공동으로 optimizes하는 Consistency-Aware Reward Enhancement를 갖춘 새로운 RL framework인 GRPO-CARE를 제안합니다. Fig. 3에 설명된 바와 같이, answer correctness에 대한 base reward 외에도, 우리는 likelihood calibration을 통해 느리게 업데이트되는 reference model에서 파생된 consistency bonus를 도입합니다. 이 bonus는 model이 정확할 뿐만 아니라 최종 answer와 logically coherent한 reasoning traces를 생성하도록 장려합니다. 구체적으로, GRPO-CARE는 online model의 parameters의 exponential moving average (EMA)를 통해 parameters를 업데이트하여 reference model을 유지합니다. 이 model은 online model에 의해 생성된 high-accuracy samples에 대한 reasoning-to-answer consistency likelihoods를 calibrates합니다. alignment를 평가하기 위해, 우리는 reference model이 reasoning trace와 multimodal question inputs이 주어졌을 때 동일한 answer를 재현할 likelihood를 측정합니다. 이 likelihood를 기반으로, 우리는 그룹 내에서 high accuracy와 strong consistency를 모두 보여주는 samples에 sparse bonus를 할당합니다. KL divergence penalty를 제거하고 이를 adaptive, group-relative consistency bonus로 대체함으로써, GRPO-CARE는 정확한 answers로 이어지는 coherent reasoning paths의 더 효과적인 exploration을 장려합니다.

SEED-Bench-R1에 대한 광범위한 evaluation은 GRPO-CARE가 모든 difficulty levels에서, 특히 어려운 OOD scenarios에서 표준 GRPO를 일관되게 능가하며, 가장 어려운 Level-3 evaluation에서 performance를 6.7% 향상시키고 consistency rate를 24.5% 증가시킴을 보여줍니다. Ablation studies는 consistency-aware reward가 전반적인 performance와 reasoning interpretability의 균형을 맞추는 데 중요하며, 대안적인 KL-based 및 reward-based baselines를 능가함을 확인합니다. 더욱이, GRPO-CARE-trained models은 다양한 일반 video understanding benchmarks에 대한 강력한 transferability를 보여주어 우리 approach의 robustness와 generality를 검증합니다.

요약하면, 우리의 주요 contributions는 다음과 같습니다:

우리는 perception과 reasoning의 균형을 맞추고 multimodal video understanding을 위한 엄격한 hierarchical generalization evaluation을 갖춘 새로운 benchmark인 SEED-Bench-R1을 소개합니다.
우리는 MLLMs을 위한 post-training 방법에 대한 체계적인 실험적 분석을 수행하여, logical coherence를 유지하는 데 있어 현재 outcome-supervised GRPO의 한계를 밝혀냅니다.
우리는 명시적인 process supervision 없이 reasoning coherence와 전반적인 performance를 크게 향상시키는 consistency-aware reward를 갖춘 새로운 RL framework인 GRPO-CARE를 제안합니다.

Introduction 섹션 정리 노트 (For AI Researchers)

1. 문제 제기 (Problem Definition)

핵심 문제: Reinforcement Learning (RL) 기반의 post-training이 MLLM의 성능을 높이지만, 기존 outcome-supervised 방식(예: GRPO)은 reasoning 과정과 최종 answer 간의 logical coherence(논리적 일관성)를 희생시켜 정답률(answer accuracy)만 높이는 "shortcut" 학습을 유발한다.
한계점: 이로 인해 model의 interpretability(해석 가능성)가 저하되고 성능 향상에 명백한 한계(performance ceiling)가 발생한다. (실험 결과, consistency rate가 57.9%에 불과함)
평가의 부재: 현재 MLLM post-training을 위한 benchmark는 perception이나 reasoning 한쪽에만 치우쳐 있거나, 체계적인 generalization assessment가 부족하여 perception과 reasoning 능력을 균형 있게 측정하기 어렵다.

2. 제안 방법론 (Proposed Solution)

A. 새로운 Benchmark: SEED-Bench-R1

목적: MLLM의 post-training 방법론을 체계적으로 평가하기 위해 perception과 logical reasoning 능력을 균형 있게 요구하는 비디오 기반 benchmark를 제안.
특징:
1. 3-Level 계층 구조: Generalization 능력을 엄격하게 평가하기 위해 Level-1 (in-distribution), Level-2 (cross-environment), Level-3 (cross-task/environment)로 난이도를 구성.
2. RL-Friendly: RL 훈련에 적합하도록 대규모 training data와 검증 가능한 정답을 제공.

B. 새로운 Framework: GRPO-CARE

개념: Consistency-Aware Reward Enhancement를 사용하는 RL framework로, 별도의 process supervision 없이 answer correctness와 logical consistency를 동시에 최적화.
핵심 메커니즘:
1. Dual Reward: 정답 정확도에 대한 base reward + reasoning 일관성에 대한 consistency bonus.
2. Consistency Bonus: online model을 느리게 따라가는 reference model을 사용. 이 reference model이 online model이 생성한 reasoning trace를 보고 동일한 answer를 내놓을 likelihood를 측정하여 bonus를 지급.
3. KL Penalty 대체: 기존 GRPO의 KL divergence penalty를 제거하고, adaptive하고 group-relative한 consistency bonus로 대체하여 더 효과적인 exploration을 유도.

3. 주요 결과 및 기여 (Key Results & Contributions)

성과: GRPO-CARE는 SEED-Bench-R1의 모든 Level에서 GRPO를 능가했으며, 가장 어려운 Level-3에서 performance 6.7% 향상, consistency rate 24.5% 향상을 달성.
핵심 기여 (Contributions):
1. Perception과 Reasoning의 균형을 맞춘 체계적인 benchmark SEED-Bench-R1 제안.
2. 기존 outcome-supervised GRPO가 logical coherence를 해치는 문제를 실험적으로 규명.
3. Consistency-aware reward를 통해 reasoning의 일관성과 성능을 모두 잡은 GRPO-CARE 제안.

쉬운 설명 :

이 논문의 도입부는 이런 이야기로 시작합니다.

AI 모델에게 비디오를 보여주고 다음에 뭘 해야 할지 맞히게 가르친다고 상상해 보세요.

기존의 교육 방식(GRPO)은 AI가 최종 정답만 맞히면 점수를 주는 것과 같았습니다. 그랬더니 AI가 꾀를 부리기 시작했습니다. 과정은 엉망진창이라도 어떻게든 정답만 찍어 맞히는 '꼼수'를 배운 것이죠. 정답률은 올라갔지만, 왜 그런 답을 골랐는지 생각의 흐름(reasoning)을 들여다보면 전혀 논리적이지 않았습니다.

연구진은 이 문제를 해결하기 위해 두 가지를 새로 만들었습니다.

첫째, AI의 진짜 실력을 제대로 평가하기 위해 훨씬 더 어렵고 체계적인 시험 문제 세트(SEED-Bench-R1)를 만들었습니다. 쉬운 문제부터, 처음 보는 환경이나 처음 해보는 일을 시키는 어려운 문제까지 단계별로 구성했죠.

둘째, '꼼수'를 막는 새로운 교육 방식(GRPO-CARE)을 개발했습니다. 이 방식은 정답을 맞히면 기본 점수를 주고, 생각의 과정까지 논리적이면 '보너스 점수'를 더 줍니다. AI의 풀이 과정이 말이 되는지는, 마치 조교 선생님(reference model)이 "이 풀이 과정을 보니 이 답이 나오는 게 자연스럽군"하고 확인해주는 방식으로 채점합니다.

결과적으로 이 새로운 교육(GRPO-CARE)을 받은 AI는 어려운 시험(SEED-Bench-R1)에서도 점수가 더 높았고, 무엇보다 생각의 과정이 훨씬 더 논리적이고 일관성 있게 바뀌었습니다. 즉, '찍어서 맞히는' 학생이 아니라 '제대로 풀어내는' 모범생이 된 셈입니다.

2 Related Work

RL for LLMs/MLLMs.

RL from human feedback (RLHF)는 인간 선호도 데이터로 trained된 reward models를 통해 LLM outputs을 인간 선호도에 맞게 aligns합니다. 복잡한 reasoning을 향상시키기 위해서는 긴 CoT를 generation하는 것이 효과적입니다. GRPO와 그 variants인 DAPO, Dr.GRPO 같은 RL methods는 outcome-based rewards를 사용하여 CoT generation을 optimize합니다. 그러나 outcome-only supervision은 정답이 맞더라도 일관성 없는 reasoning을 낳을 수 있습니다. 이를 해결하기 위해 일부 연구들은 비용이 많이 드는 step-wise annotations을 사용하여 추가적인 process supervision reward models을 train하거나, LLM judges를 통합하거나, EMA-updated reference models를 통해 adaptive regularization을 사용합니다. MLLMs에서 outcome-based RL은 "Thought Collapse"를 유발할 수 있으며, 이는 더 강력한 correctors나 step-wise reward matching으로 완화될 수 있습니다. 우리의 GRPO-CARE는 느리게 업데이트되는 reference model을 사용하여 논리적으로 일관되고 정확한 responses에 bonus feedback을 제공함으로써, 추가적인 annotations나 더 강력한 correctors 없이 reasoning과 accuracy를 향상시킵니다.

Benchmarks for MLLM Post-training.

MLLMs을 위한 최근의 RL-based post-training methods는 주로 perception (예: classification)에서 reasoning (예: visual math)에 이르는 image tasks를 대상으로 해왔습니다. 반면, 더 복잡하고 일반적인 시나리오인 video understanding은 아직 충분히 연구되지 않았습니다. video benchmarks에 대한 초기 RL-based 노력들은 좁은 tasks (예: emotion recognition)나 부족한 training data에 의해 제한되어 scalable analysis를 저해했습니다. 기존 benchmarks는 대부분 다양한 general-domain data (예: Video-R1)에 대해 post-trained된 models을 평가하지만, 엄격한 generalization assessment가 부족합니다. 현재까지, (1) robust한 post-training을 위한 대규모 training data, (2) 여러 generalization levels에 걸친 구조화된 validation sets, 그리고 (3) 실제 시나리오에서 perception과 reasoning의 균형을 맞춘 multimodal questions를 제공하는 포괄적인 benchmark는 없습니다. 이를 해결하기 위해, 우리는 대규모 training data와 세 가지 generalization tiers로 분할된 validation set을 갖춘 video understanding benchmark인 SEED-Bench-R1을 제안하여, MLLM post-training methods의 포괄적인 evaluation을 가능하게 합니다.

Related Work 섹션 정리 노트 (For AI Researchers)

이 논문은 기존 연구의 두 가지 주요 한계점을 지적하고, 자신들의 연구가 그 공백을 어떻게 메우는지 설명합니다.

1. MLLM의 Reasoning 최적화 방법론

기존 연구의 한계:
- Outcome-only Supervision (GRPO 등): 최종 결과만 보고 보상하는 방식은 정답을 맞춰도 reasoning 과정의 논리적 일관성이 떨어지는 문제가 있다 ("Thought Collapse" 등).
- Process Supervision: reasoning 각 단계마다 보상을 주는 방식은 정확도를 높일 수 있으나, 단계별로 사람이 직접 만든 데이터(step-wise annotations)가 필요해 비용이 매우 높다.
- 기타 해결책: LLM을 심판(judge)으로 쓰거나, 더 강력한 교정기(corrector)를 추가하는 방법들이 있으나 복잡성이 증가한다.
이 논문의 차별점 (GRPO-CARE):
- 별도의 비싼 annotation이나 복잡한 corrector 없이, 느리게 업데이트되는 reference model을 '준거'로 사용한다.
- 이 reference model을 통해 "reasoning 과정과 최종 답안의 논리적 일관성" 자체를 측정하여 bonus feedback을 주는 효율적인 방식을 제안한다.

2. MLLM Post-training을 위한 Benchmark

기존 연구의 한계:
- Image 중심: 대부분의 RL 기반 post-training 연구는 이미지(분류, 시각적 수학 문제 등)에 집중되어 있어, 더 복잡한 video understanding 영역은 연구가 부족하다.
- 기존 Video Benchmark의 문제: 초기 비디오 벤치마크들은 특정 감정 인식과 같이 과업이 너무 좁거나, RL 훈련에 쓸만한 training data가 절대적으로 부족하다.
- Generalization 평가 부재: 대규모 데이터셋(예: Video-R1)도 post-training 후 모델을 평가할 때, 엄격하고 구조화된 방식의 generalization 능력 평가는 제공하지 않는다.
이 논문의 차별점 (SEED-Bench-R1):
- 이러한 공백을 모두 메우는 최초의 포괄적인 video understanding benchmark를 제안한다.
- SEED-Bench-R1은 (1) RL을 위한 대규모 training data, (2) 3단계의 체계적인 generalization 평가용 validation set, (3) perception과 reasoning 능력을 균형 있게 측정하는 질문을 모두 제공한다.

쉬운 설명 :

이 섹션은 "우리가 왜 이 연구를 했냐면, 기존 연구들에는 이런 빈틈이 있었기 때문입니다"라고 설명하는 부분입니다. 크게 두 가지 빈틈을 지적합니다.

첫째, **AI를 가르치는 방법(최적화 방법론)**에 대한 이야기입니다.

기존 방법의 문제: "AI야, 최종 답만 맞으면 돼!"라고 가르쳤더니, AI가 과정은 무시하고 답만 찍는 꼼수를 배웠습니다. 그렇다고 "한 단계, 한 단계 전부 검사할게!"라며 1:1 과외를 하자니 너무 비싸고 힘들었습니다.
우리의 새로운 방법: 그래서 이 논문은 더 똑똑한 방법을 제안합니다. 바로 '동료 평가' 시스템입니다. AI가 답안과 풀이 과정을 제출하면, 바로 직전 버전의 AI(동료)가 "음, 이 풀이 과정을 보니 이 답이 나오는 게 논리적이네"라고 검토해서 '일관성 보너스'를 주는 겁니다. 비싼 과외 없이도 AI가 꼼수 부리는 것을 막을 수 있습니다.

둘째, **AI를 평가하는 시험(벤치마크)**에 대한 이야기입니다.

기존 시험의 문제: 지금까지 AI들이 치르던 시험은 대부분 간단한 '사진 문제'였습니다. '동영상 문제'가 있더라도 너무 쉽거나 특정 유형만 다루었고, 제대로 공부할 '기출문제(training data)'도 부족했습니다. AI의 진짜 실력을 종합적으로 평가하기 어려웠죠.
우리가 만든 새 시험: 그래서 이 논문은 동영상 이해 능력을 제대로 평가할 수 있는 종합적이고 수준 높은 '새로운 시험(SEED-Bench-R1)'을 만들었습니다. 이 시험에는 기출문제도 풍부하고, 쉬운 레벨부터 어려운 레벨까지 체계적으로 나뉘어 있어 AI의 일반화 능력을 제대로 측정할 수 있습니다.

3 Pilot Study with SEED-Bench-R1

3.1 SEED-Bench-R1

Benchmark Overview. Fig. 1에서 볼 수 있듯이, SEED-Bench-R1은 MLLMs을 위한 post-training 방법이 video understanding에 미치는 영향을 체계적으로 연구하기 위해 설계된 benchmark입니다. 이전 연구인 EgoPlan-Bench와 EgoPlan-Bench2를 기반으로 하는 SEED-Bench-R1은 1) 실제 세계의 복잡한 visual input, 2) 실용적인 과업을 해결하기 위해 상식을 동반한 logical inference를 요구하는 다양한 질문, 3) 다양한 수준에 걸쳐 MLLMs의 robustness와 generalization abilities를 평가하기 위한 엄격한 validation sets 분할, 그리고 4) 쉽게 검증 가능한 ground truth answers를 갖춘 대규모로 자동 구축된 training questions를 특징으로 합니다.

Visual Inputs and Question Design. Fig. 1에 나타난 바와 같이, SEED-Bench-R1의 visual inputs과 질문은 일상적인 인간 활동을 포착한 현실적인 egocentric videos에 기반을 두고 있습니다. SEED-Bench-R1의 질문에 정확하게 답하기 위해서, model은 open-form task goals을 이해하고, long-horizon task progress를 추적하며, egocentric view에서 real-time environment state를 인식하고, 내재된 world knowledge를 활용하여 다음 action plan에 대해 reasoning할 수 있어야 합니다. ground-truth answer는 원본의 잘리지 않은 비디오에서 current observation 바로 다음에 발생하는 실제 다음 행동에서 가져오며, negative options는 동일한 비디오에서 샘플링됩니다. 이러한 도전적인 후보 선택지 설정은 올바른 action plan을 분별하기 위해 단지 task goals과 actions의 semantic meanings뿐만 아니라, dynamic visual input과 action order dependency와 같은 world knowledge로부터 environment state를 깊이 이해할 것을 요구합니다. 또한, golden answers의 도출 과정은 traceable하고 검증하기 쉽습니다.

Dataset Composition and Validation Levels. Tab. 1에 나열된 바와 같이, 우리는 커뮤니티 연구에 도움이 되도록 training 및 validation datasets를 모두 제공합니다. training dataset은 부엌 환경에서 일상적인 가사 활동을 기록한 Epic-Kitchens 비디오를 사용하여 자동으로 구축됩니다. validation dataset은 정확성을 보장하기 위해 엄격한 human verification을 거쳤으며 세 가지 level로 나뉩니다. Level-1 (L1) 질문은 training data와 동일한 비디오 소스를 사용하여 생성되며, visual environments와 task goals이 training data와 중첩되는 in-distribution evaluation scenarios를 나타냅니다. Level-2 (L2) 질문은 L1과 유사한 task goals을 다루지만, visual observations는 Ego4D 팀의 새로운 참가자에 의해 본 적 없는 부엌 환경에서 기록됩니다. Level-3 (L3) validation subset은 부엌 특정 하위 집합을 넘어선 전체 Ego4D 비디오 세트를 활용합니다. 여기에는 일상생활뿐만 아니라 취미, 여가, 업무에 걸친 general-domain questions가 포함됩니다. visual inputs은 다양한 실내 및 실외 환경에서 제공되어 models의 generalization abilities를 테스트하는 데 더 큰 도전을 제기합니다.

3.2 Experiment Setup

우리는 SEED-Bench-R1에서 model performance를 향상시키는 post-training 방법을 연구하기 위해 Qwen2.5-VL-Instruct-7B를 backbone으로 사용합니다. 우리는 대표적인 RL method로 outcome-supervised GRPO를 채택하고 이를 SFT와 비교합니다. RL과 SFT 모두 파일럿 연구를 위해 SEED-Bench-R1의 5만개 training samples 중 6천개를 활용합니다. training efficiency를 높이기 위해, 각 비디오를 16 frames, resolution 128×28×28로 제한하고, current observation을 나타내는 frame을 추가적인 input으로 덧붙입니다. SFT의 경우, training data는 rejection sampling을 통해 Qwen2.5-VL-Instruct-72B와 7B에서 distilled된 CoT reasoning으로 augmented됩니다. GRPO는 rule-based rewards를 사용한 outcome supervision을 활용하여 명시적인 CoT annotations의 필요성을 제거합니다. DeepSeek-R1을 따라, model은 태그 내에 reasoning을, 태그 내에 final answer를 outputs합니다.

multimodal question 가 주어졌을 때, GRPO는 policy $π_{θ_{old}}$로부터 개의 responses 를 samples합니다. 여기서 와 는 각각 reasoning process와 그에 해당하는 final answer입니다. SFT와 달리 GRPO는 미리 정의된 responses에 의존하지 않습니다. policy는 다음을 maximizing하여 optimized됩니다:

여기서 와 는 hyperparameters이고, $D*{KL}$은 trained policy 와 reference policy 사이의 KL divergence입니다. 토큰별 advantage $\hat{A}{g,i}$는 그룹 전체에 걸쳐 rule-based rewards (예: 추출된 answer가 ground truth와 일치하면 , 아니면 0)로부터 계산된 정규화된 reward $r{eg}$로 설정됩니다: .

3.3 Result Analysis

Tab. 2는 다양한 방법으로 trained된 MLLMs의 SEED-Bench-R1에 대한 성능을 요약합니다. 주목할 점은, SFT와 비교했을 때, GRPO를 사용한 reinforcement learning은 특화된 CoT annotations 없이 단순한 outcome-based reward에만 의존함에도 불구하고 data efficiency를 크게 향상시키고 in-distribution (L1) 및 OOD (L2, L3) 질문 모두에서 MLLM performance를 증진시킨다는 것입니다.

우리의 분석에 따르면 GRPO는 reasoning보다는 주로 perceptual abilities를 향상시킵니다. Fig. 2에서 볼 수 있듯이, SFT-trained model은 일어나지 않은 사건임에도 "공이 티에서 맞는 중"이라고 묘사하는 것과 같은 perceptual hallucinations에 더 취약합니다. Attention map analysis는 GRPO-trained models이 visual content에 더 철저하게 attend하는 dynamic queries 역할을 하는 CoT tokens를 generate한다는 것을 보여줍니다—특히 OOD scenarios에서 그렇습니다. 예를 들어, GRPO model은 reasoning에서 명시적으로 참조되지 않더라도 핵심적인 visual observations를 더 잘 highlights하고 중요한 객체(예: 티 위의 공)에 더 많은 attention을 할당합니다. 우리는 GRPO와 같은 RL methods가 CoT를 통해 더 넓은 visual exploration을 장려하는 반면, SFT는 제한된 visual grounding을 가진 피상적이고 패턴을 암기한 CoT를 생성하는 경향이 있다고 hypothesize합니다. 이것이 GRPO의 우수한 generalization의 기반이 될 가능성이 높습니다.

그러나, MLLMs를 위한 outcome-supervised GRPO training은 핵심적인 한계를 가집니다: LLMs와 달리, MLLM reasoning은 RL 동안 비례적으로 개선되지 않아 종종 logical inconsistencies를 초래합니다. GRPO-trained model은 종종 correct answers에 도달하지만, CoT reasoning은 coherence가 부족한 경우가 많습니다. 예를 들어, Fig. 2에서 볼 수 있듯이, 초기 reasoning 단계는 base model (Qwen2.5-VL-7B)의 그것을 반영하지만, 나중 단계는 갈라져서 서로 contradict할 수 있습니다—예를 들어, "공을 골프 티로 옮기라"고 제안하지만 궁극적으로는 "클럽으로 공을 치라"고 답변하는 것입니다. 이러한 inconsistencies는 때때로 correct answers를 낳더라도 transparency를 저해합니다.

제한된 reasoning은 또한 전체 performance를 제약하는데, 이는 효과적인 reasoning이 world knowledge와 perception을 통합하는 데 중요하기 때문입니다. 예를 들어, Fig. 1에서 GRPO model은 "흐르는 물"을 정확히 식별하지만, 청소 후 다음 논리적 단계가 "수도꼭지를 잠그는 것"임을 추론하는 데 실패합니다. 이러한 reasoning-answer mismatches는 interpretability를 더욱 복잡하게 만듭니다.

Pilot Study 섹션 정리 노트 (For AI Researchers)

이 섹션은 제안하는 benchmark(SEED-Bench-R1)를 활용해 기존 방법론(SFT vs. GRPO)을 파일럿으로 테스트하고, 그 결과 GRPO의 명확한 한계를 도출하여 이 논문에서 제안하는 GRPO-CARE의 필요성을 입증하는 부분입니다.

1. Benchmark (SEED-Bench-R1)의 핵심 특징

목적: MLLM의 video understanding post-training 연구를 위한 체계적 benchmark.
데이터: 현실적인 egocentric video (Epic-Kitchens, Ego4D) 기반.
핵심 구성:
- Training Set: RL 훈련에 충분한 대규모 데이터 (50k).
- Validation Set: Generalization 평가를 위한 엄격한 3-Level 계층 구조.
  - L1 (In-distribution): Training 데이터와 유사한 환경 및 과업.
  - L2 (OOD - Cross-environment): 과업은 유사하나, 처음 보는 환경.
  - L3 (OOD - Cross-environment-task): 환경과 과업 모두 처음 보는 가장 어려운 시나리오.
평가 방식: 정답(실제 다음 행동)과 오답(동일 비디오 내 다른 행동)을 제시하여, 단순 인식이 아닌 동적인 시각 정보와 world knowledge를 통합한 깊은 추론 능력을 요구함.

2. 실험 설계 (Experiment Setup)

Backbone Model: Qwen2.5-VL-Instruct-7B.
비교 대상: Supervised Fine-Tuning (SFT) vs. Outcome-supervised GRPO (대표 RL 방법).
데이터 사용: 파일럿 연구로 전체 training data 중 6k 샘플만 사용.
GRPO 설정: 정답이면 1, 오답이면 0을 주는 단순한 rule-based outcome reward를 사용. 명시적인 CoT annotation은 불필요.

3. 결과 분석 및 핵심 발견 (Result Analysis & Key Findings)

Finding 1 (GRPO의 우월성): GRPO는 SFT보다 훨씬 적은 데이터로 학습했음에도, 모든 Level(L1, L2, L3)에서 더 높은 성능을 보였다. 이는 GRPO가 data efficiency와 generalization 측면에서 우월함을 시사한다.
Finding 2 (GRPO 성공의 이유): GRPO는 reasoning 능력보다 **perceptual abilities (지각 능력)**를 주로 향상시킨다.
- 증거 (Attention Map): GRPO 모델은 CoT를 dynamic query처럼 활용해 비디오의 핵심 객체에 더 잘 attend하는 반면, SFT 모델은 시각 정보와 무관하게 패턴만 암기한 듯한 CoT를 생성하여 perceptual hallucination에 더 취약했다.
Finding 3 (GRPO의 결정적 한계): Outcome-supervised GRPO는 정답률을 높이지만 reasoning을 개선하지 못하고, 오히려 논리적 모순 (logical inconsistencies)을 야기한다.
- 문제점: CoT의 reasoning 과정과 최종 answer가 일치하지 않는 경우가 빈번했다. (예: reasoning에서는 "공을 티로 옮겨야 한다"고 해놓고, 최종 answer는 "공을 친다"고 답함)
- 결론: 이러한 reasoning-answer 불일치는 모델의 transparency와 interpretability를 심각하게 저해하며, world knowledge와 perception을 통합하는 능력을 제한해 전체적인 성능 향상의 발목을 잡는다. 이 문제가 바로 이 논문이 GRPO-CARE를 통해 해결하려는 핵심 과제이다.

쉬운 설명 :

이 섹션은 연구자들이 자신들이 만든 새로운 시험 문제(SEED-Bench-R1)로 기존의 두 가지 AI 공부법(SFT, GRPO)을 테스트해 본 결과 보고서입니다.

1. 새로운 시험 문제 (SEED-Bench-R1) 먼저 연구자들은 아주 잘 만든 AI용 '동영상 수능 시험'을 개발했습니다. 이 시험은 단순히 배운 것을 확인하는 '내신(Level-1)'뿐만 아니라, 처음 보는 장소에서 문제를 푸는 '전국 모의고사(Level-2)', 그리고 생전 처음 해보는 일까지 시키는 '최고난도 본수능(Level-3)'으로 구성되어 AI의 진짜 일반화 실력을 측정할 수 있습니다.

2. 공부법 테스트 그리고 두 명의 AI 학생에게 이 시험을 보게 했습니다.

학생 A (SFT): 정답과 풀이 과정을 통째로 외우는 '암기식'으로 공부했습니다.
학생 B (GRPO): 과정은 어떻게 하든 신경 안 쓰고, 최종 결과만 맞으면 점수를 주는 '결과 중심' 방식으로 공부했습니다.

3. 결과 분석

좋은 소식: '결과 중심'으로 공부한 학생 B(GRPO)가 모든 레벨의 시험에서 '암기식' 학생 A(SFT)보다 성적이 훨씬 좋았습니다. 특히, 학생 B는 동영상 속 사물을 더 잘 알아보는 등 '시력(지각 능력)'이 더 좋아진 것으로 나타났습니다.
하지만 심각한 문제 발견: 학생 B(GRPO)의 시험지를 채점해보니 큰 문제가 있었습니다. 서술형 문제의 '풀이 과정(reasoning)'과 최종 '정답(answer)'이 따로 놀고 있었습니다. 예를 들어, 풀이 과정에는 "수도꼭지를 잠가야 한다"고 써놓고, 정답은 "걸레를 빤다"고 적는 식이었죠. 결과적으로 정답을 맞힐 때도 있지만, 그 과정이 논리적이지 않아 도저히 믿을 수가 없었습니다.

결론적으로 이 섹션은 "결과만 중시하는 기존의 GRPO 방식은 AI의 시력은 좋게 만들지만, 논리적인 생각은 오히려 망가뜨린다. 그래서 이 문제를 해결할 새로운 방법이 꼭 필요하다"는 점을 명확하게 보여줍니다.

4 Consistency-Aware Reward-Enhanced GRPO for MLLMs (GRPO-CARE)

outcome-supervised GRPO가 MLLMs의 visual perception을 향상시키는 반면, SEED-Bench-R1에 대한 우리의 분석은 중대한 trade-off를 밝혀냈습니다: 이 방식은 종종 논리적으로 덜 일관된 reasoning chains를 생성하여, interpretability와 performance를 제한합니다. 이 문제는 두 가지 주요 한계점에서 비롯됩니다. 첫째, 표준 reward는 중간 reasoning steps의 quality를 간과하고 오직 final-answer accuracy에만 독점적으로 초점을 맞춥니다. 이는 일관되지 않은 reasoning을 통해 도달한 정답, 즉 shortcut solutions을 장려할 수 있습니다. 둘째, KL penalty는 일반적으로 답변보다 긴 reasoning traces를 불균형적으로 제약하여, 다양하고 일관된 reasoning paths의 exploration을 억제합니다.

이러한 문제들을 해결하기 위해, 우리는 reasoning process에 대한 explicit supervision 없이 answer correctness와 logical consistency를 공동으로 optimizes하는 방법인 GRPO-CARE (Consistency-Aware Reward Enhancement)를 제안합니다. Fig. 3에서 볼 수 있듯이, GRPO-CARE는 two-tiered reward system을 도입합니다: answer correctness에 대한 base reward와 adaptive consistency bonus입니다. consistency bonus는 느리게 진화하는 reference model에 의해 추정된 바와 같이, reasoning trace가 정답으로 이어질 likelihood를 비교하여 계산됩니다. online model에 의해 생성된 각 high-accuracy sample에 대해, 이 likelihood는 동일 그룹 내 동료들의 그것과 비교되어, 정답과 논리적으로 일관된 reasoning traces의 exploration을 장려합니다. Algorithm 4에 상세히 설명된 training process는 two-stage filtering을 포함합니다. (1) 먼저, 입력당 여러 reasoning traces를 생성하고 accuracy baseline을 초과하는 것들만 유지합니다. (2) 이 high-accuracy candidates에 대해, 우리는 느리게 진화하는 reference model을 사용하여 likelihood를 calibrating함으로써 각 reasoning trace가 final answer를 얼마나 잘 지지하는지 평가합니다.

Reference Model and Likelihood Calibration. 핵심 아이디어는 안정적인 reference model이—online model의 reasoning trace를 조건으로 할 때—만약 reasoning이 multimodal input에 논리적으로 기반을 두고 있다면 정답에 더 높은 likelihood를 할당해야 한다는 것입니다. 구체적으로, reference model은 online model과 동일한 pretrained weights에서 초기화되고, 안정적인 likelihood estimation과 self-adaptation을 보장하기 위해 exponential moving average (EMA)를 통해 업데이트됩니다. "일관성은 있지만 틀린" reasoning을 강화하는 것을 피하기 위해, 우리는 정답을 가진 trajectories에 대해서만 이 likelihood를 계산합니다. 추가적으로, 우리는 인위적으로 높은 값으로의 over-optimization을 방지하기 위해 likelihood에 최대 임계값을 씌웁니다.

Consistency Bonus Calculation. clipped된 reference likelihoods를 기반으로, 우리는 그룹 상대적인 consistency baseline을 평균 clipped likelihood (거의 평균에 가까운 samples에 불이익을 주는 것을 피하기 위해 작은 margin을 뺌)로 계산합니다. 이 baseline을 초과하는 Trajectories는 accuracy에 의해 가중된 sparse consistency bonus를 받게 되어, rewards가 correctness와 logical coherence 모두를 우선시하도록 보장합니다.

Model Update. 다양한 reasoning paths의 exploration을 촉진하기 위해, 우리는 GRPO training objective에서 KL penalty를 제거합니다. 대신, 우리는 online model updates를 더 높은 quality의 outputs으로 안내하기 위해—total reward를 형성하기 위해 base reward에 추가되는—consistency bonus에 의존합니다. reference model은 몇 steps마다 EMA를 통해 업데이트되어, sampling noise에 대한 안정성을 유지하면서 online model로부터의 개선점(예: 더 나은 visual grounding 또는 더 복잡한 reasoning)을 점진적으로 상속받을 수 있습니다. 이 균형 잡힌 optimization process는 logical consistency를 희생하지 않으면서 multimodal understanding을 향상시켜, 궁극적으로 performance와 interpretability를 모두 개선합니다.

4.1 Evaluation on SEED-Bench-R1

우리는 먼저 SEED-Bench-R1에서 우리의 방법을 평가합니다. Tab. 2에서 볼 수 있듯이, GRPO-CARE는 세 가지 난이도 레벨 모두에서 GRPO를 상당히 능가하며, training data와 상당한 분포적 차이를 보이는 Hobbies 및 Work와 같은 도메인의 가장 도전적인 L3 evaluation에서는 거의 10%에 달하는 특히 주목할 만한 개선을 보입니다.

GRPO-CARE의 효과를 철저히 평가하기 위해, 우리는 두 종류의 baseline methods와 비교합니다: divergence constraints의 적용을 수정하는 KL-oriented baselines와, KL penalties를 consistency-aware rewards로 대체하는 reward-based alternatives입니다.

KL-Oriented Baselines. 1) KL-EMA는 adaptive constraints를 위해 EMA-updated reference model을 도입합니다. 2) KL-EMA-HA는 KL penalty를 high-accuracy samples에만 선택적으로 적용하여, alignment가 가장 중요한 곳에 regularization을 적용합니다. 3) SepKL-EMA-HA는 KL을 reasoning과 answer tokens에 대한 별도의 항으로 분해하여, 긴 reasoning tokens에 불균형적으로 불이익을 주면서 answer-reasoning inconsistencies를 간과할 가능성을 완화합니다. 4) NoKL은 KL penalty를 제거하여, 어떤 regularization도 없는 상태의 원시적인 optimization 잠재력을 보여줍니다.
Reward-Based Alternatives. 5) DenseCons는 연속적인 likelihood weighting을 적용하여 dense consistency rewards를 도출합니다: . 6) RefGen은 reference model이 샘플링된 reasoning paths로부터 answers를 재생성하게 하여, 재생성된 answer의 accuracy를 consistency signal로 사용하는 더 명시적인 접근 방식을 취합니다: .

Tab. 3에서 볼 수 있듯이, 우리는 benchmark performance와 생성된 reasoning과 final answers 간의 consistency rate를 모두 보고하며, 여기서 consistency는 reasoning이 answer를 충분히 지지하는지를 평가하기 위해 GPT-4.1에 의해 평가됩니다. 우리의 분석은 EMA-updated reference model이 accuracy와 consistency를 모두 향상시키는 반면, KL penalties를 high-accuracy samples로 제한하는 것(KL-EMA-HA)은 in-domain (L1) 결과를 향상시키지만 OOD (L2/L3) generalization을 약간 감소시킨다는 것을 보여줍니다. KL penalties를 분해하는 것(SepKL-EMA-HA)은 reasoning-answer inconsistency를 완화하여 L2에서 약간의 이득을 얻지만 L3에는 제한적인 영향을 미칩니다. 주목할 점은, KL-based variants 중 어느 것도 NoKL을 능가하지 못했다는 것이며, 이는 표준 KL regularization이 이 맥락에서 performance ceiling을 저해할 수 있음을 나타냅니다.

reward-based methods 중에서, DenseCons는 향상된 consistency로 L1과 L2에서 NoKL을 능가하지만, L3에서는 약간 낮은 성능을 보이는데, 이는 reference model calibration에 대한 과도한 의존 때문일 가능성이 높습니다. RefGen은 consistency를 크게 증가시키지만 sampling-based answer regeneration으로 인한 불안정성을 도입하여, 궁극적으로 전반적인 performance를 감소시킵니다.

우리가 제안한 GRPO-CARE는 sparse consistency rewards를 사용하여 모든 레벨에서 robust한 개선을 달성합니다. high-accuracy samples에 대해 상대적이고 sparse한 feedback을 제공하기 위해 adaptive EMA-updated reference likelihoods를 활용하는 그것의 two-stage filtering은 logical consistency와 answer accuracy를 효과적으로 향상시킵니다. 이는 group-relative sparse rewards가 (DenseCons에서처럼) 불완전한 likelihoods나 (RefGen에서처럼) sampling noise에 overfitting하는 것을 피하면서 더 신뢰할 수 있는 learning signals를 전달한다는 것을 보여줍니다.

4.2 Generalization to General Video Understanding Benchmarks

우리 model의 능력을 포괄적으로 평가하기 위해, 우리는 video understanding의 다양한 측면을 아우르는 여섯 개의 도전적인 benchmarks에서 광범위한 실험을 수행합니다: spatial reasoning (VSI-Bench), knowledge-intensive QA (VideoMMMU 및 MMVU), 그리고 general video understanding (MVBench, TempCompass, 및 VideoMME). MMVU의 경우, 우리는 evaluation 안정성을 보장하기 위해 multiple-choice questions를 사용하며, VideoMME의 경우, visual understanding에 집중하기 위해 subtitle-free 설정을 채택합니다.

Tab. 4에서 볼 수 있듯이, 우리의 CARE-7B (SB-R1)는 SEED-Bench-R1에서 training 후 모든 benchmarks에서 base model에 비해 상당한 performance improvements를 달성합니다. 이러한 일관된 이득은 우리 benchmark의 training data의 quality, 우리 방법론의 robustness, 그리고 우리 evaluation protocol의 포괄성을 검증합니다.

우리 approach의 효과를 추가로 검증하기 위해, 우리는 Video-R1을 따라 추가 실험을 수행하여, general-domain data (Video-R1-260k)에서 16-frame video inputs을 사용하여 GRPO-CARE로 우리 model을 1k RL steps 동안 training하고 32-frame inputs으로 테스트했습니다. Tab. 4에 표시된 다른 방법들의 비교 결과는 Video-R1 논문에서 가져온 것입니다. 주목할 점은, 오직 RL로만 trained되었음에도 불구하고, 우리 model은 대부분의 benchmarks에서 Video-R1-7B에 비해 경쟁적이거나 우월한 performance를 달성한다는 것입니다. 이는 Video-R1-7B가 GRPO rewards를 통한 명시적인 temporal order grounding constraints와 추가 데이터를 사용한 보충적인 supervised fine-tuning의 이점을 누린다는 점을 고려할 때 특히 놀라운 결과입니다. 더 간소화된 training pipeline으로 이 강력한 baseline과 대등하거나 능가하는 우리 model의 능력은 우리 방법의 efficiency를 강조합니다.

특히, 우리의 결과는 reasoning-answer consistency를 개선하는 것이 model이 visual grounding 결과와 자신의 responses를 align하도록 효과적으로 장려할 수 있음을 시사합니다. 이 암시적인 접근 방식은 명시적인 visual perception constraints와 비슷한 효능을 보여주며, MLLM performance를 향상시키기 위한 유망한 대안적 경로를 제시합니다.

네, 해당 이미지를 설명해 드리겠습니다.

이 이미지는 논문에서 제안한 가장 어려운 난이도(Level-3)의 문제 하나를 가지고, 여러 AI 모델들이 어떻게 다르게 반응하는지 비교 분석하는 사례 연구(case study)입니다.

문제 상황

질문: "비디오의 진행 상황과 현재 이미지를 고려할 때, '골프를 치기' 위해 다음으로 무엇을 해야 하는가?"
정답: C. 클럽으로 공을 치기 (hit ball with club)

모델별 반응 비교

이미지는 위에서부터 아래로 총 4개 모델의 반응을 보여줍니다.

Qwen2.5-VL-7B (기본 모델):
- 생각: 골프 연습장, 골프 카트, 공 디스펜서 등 상황 파악은 잘 했습니다.
- 답변: D. 골프공 쪽으로 움직이기 (오답)
- 분석: 기본적인 상황 인식은 가능하지만, 정확한 다음 행동을 추론하지 못했습니다.
SFT (단순 암기식으로 학습한 모델):
- 생각: "공이 티에서 맞는 중"이라고 생각합니다. 이는 이미지에 없는 내용을 상상해낸 perceptual hallucination (지각적 환각) 입니다.
- 답변: D. 골프공 쪽으로 움직이기 (오답)
- 분석: 시각 정보를 제대로 이해하지 못하고, 암기한 패턴에 의존해 잘못된 상황을 상상하고 틀린 답을 냅니다.
GRPO (결과만 보고 학습한 모델):
- 생각: 상황 파악은 잘 했고, "공을 골프 티로 옮기는 것"이 다음 행동이라고 추론했습니다. (보기 A에 해당)
- 답변: C. 클럽으로 공을 치기 (정답)
- 분석: **논리적 모순(logical inconsistency)**을 보여주는 핵심 사례입니다. 생각(reasoning)과 최종 답변(answer)이 일치하지 않습니다. 답은 맞혔지만, 그 과정이 논리적이지 않아 신뢰하기 어렵습니다.
GRPO-CARE (이 논문이 제안하는 모델):
- 생각: "방금 공을 골랐고, 티 위에 준비되었으니 이제 칠 차례다. 질문은 다음에 할 일을 묻고 있으므로 답은 명확하다." 와 같이 단계적이고 논리적으로 상황을 완벽하게 분석합니다.
- 답변: C. 클럽으로 공을 치기 (정답)
- 분석: 시각 정보를 정확히 인지(visual perception)하고, 그에 기반한 논리적 추론(logical reasoning)을 통해 완벽하게 일치하는 정답을 도출합니다.

결론적으로 이 이미지는, SFT 모델은 환각을 보고 GRPO 모델은 비논리적인 반면, 이 논문이 제안하는 GRPO-CARE 모델만이 시각적 상황을 정확히 인지하고 그에 맞는 논리적인 생각을 통해 올바른 답을 찾아내는, 균형 잡힌 능력을 갖추었음을 명확하게 보여주는 증거입니다.

네, 이 이미지는 이 논문의 핵심 방법론인 GRPO-CARE가 어떻게 작동하는지를 보여주는 가장 중요한 그림입니다. 쉽게 설명해 드리겠습니다.

이 그림은 GRPO-CARE의 '2단계 보상 시스템'을 보여줍니다. AI가 정답을 맞히는 것뿐만 아니라, 그 과정까지 논리적이도록 훈련시키는 방법입니다.

GRPO-CARE의 작동 방식 (그림 순서대로)

1단계: 여러 답변 생성 (파란색 로봇)
- AI에게 질문(question x)을 던지면, 주 AI 모델인 online model(파란색 로봇)이 여러 개의 생각(thinking τ)과 답변(answer a) 쌍을 만들어냅니다.
- 그림에서는 4개의 답변을 만들었고, 그중 3개는 정답(초록 체크), 1개는 오답(빨간 엑스)입니다.
2단계: 기본 점수 부여 (정답 보상)
- 먼저, 단순히 정답을 맞혔는지 채점해서 '기본 점수'(base reward )를 줍니다.
- 그림에서 정답을 맞힌 1, 2, 3번 답변은 '좋아요'를, 틀린 4번은 '싫어요'를 받습니다.
3단계: 논리 보너스 부여 (일관성 보상) - 핵심 아이디어
- 여기서부터가 핵심입니다. '기본 점수'를 받은 답변들만 따로 모읍니다.
- 조교(초록색 로봇)의 등장: 주 AI(파란색)보다 약간 이전 버전의 안정적인 AI인 reference model(초록색 로봇)이 조교 역할을 합니다.
- 논리성 검증: 조교는 정답을 맞힌 답변들의 '생각(τ)' 과정만 보고, "이런 생각의 흐름이라면 이 정답이 나오는 게 얼마나 논리적인가?"를 확률(likelihood p)로 계산합니다. 이 확률이 바로 '생각과 답변의 일관성' 점수입니다.
- 보너스 지급: 같은 그룹 내에서 이 '일관성' 점수가 남들보다 높은, 즉 가장 논리적인 과정을 거친 답변에게만 특별 '논리 보너스'(consistency bonus )를 추가로 지급합니다. 그림에서는 1, 2번 답변이 보너스를 받았습니다.
4단계: 최종 학습
- 각 답변은 '기본 점수'와 '논리 보너스'를 합산한 최종 점수(advantages A)를 받게 됩니다.
- 주 AI(파란색 로봇)는 이 최종 점수가 높은 답변(정답도 맞고 과정도 논리적인)을 더 잘 만들도록 학습(update)합니다.
- 조교 AI(초록색 로봇)도 주 AI가 발전함에 따라 조금씩 천천히 업데이트(EMA update)되어 항상 적절한 수준의 논리성을 검증할 수 있게 됩니다.

결론적으로 이 그림은 단순히 정답만 맞히는 AI가 아니라, 생각의 과정까지 논리적이고 일관된 AI를 만들기 위해 '정답 점수'와 '논리 보너스'라는 2단계 채점 시스템을 어떻게 구현했는지를 시각적으로 보여주는 설계도입니다.

네, 이 이미지는 GRPO-CARE 방법론의 구체적인 조리법을 담고 있는 알고리즘 설계도입니다. 단계별로 나누어 쉽게 설명해 드리겠습니다.

이 알고리즘은 AI를 훈련시키는 전체 과정을 5단계로 나누어 보여줍니다.

Phase 1: 답변 생성 및 기본 채점 (아이디어 내기)

(라인 5) 먼저, AI(online model)에게 문제를 주면 여러 개(G개)의 다양한 '풀이 과정(reasoning)'과 '정답(answer)'을 만들어 냅니다. 일종의 브레인스토밍 단계입니다.
(라인 6) 그리고 각 답변이 정답인지 아닌지에 따라 '기본 정확도 점수'(base reward)를 매깁니다.

Phase 2: 우수 답변 선별 (1차 필터링)

(라인 9-10) AI가 내놓은 여러 답변들 중에서, 정확도 점수가 일정 기준(커트라인)을 넘는 '우수 답변'들만 일단 추려냅니다. 정답도 못 맞힌 답변은 더 이상 심사하지 않고 거르는 과정입니다.

Phase 3: 논리성 심층 평가 (2차 필터링 - 핵심)

(라인 12-18) 2단계에서 통과한 '우수 답변'들만을 대상으로 심층 면접을 봅니다.
(라인 14) 조교 AI(reference model)가 각 답변의 '풀이 과정'을 보고, "이 과정이 이 정답으로 이어지는 게 얼마나 논리적인가?"를 '논리성 점수'(likelihood)로 계산합니다.
(라인 17-18) 우수 답변 그룹의 평균 '논리성 점수'를 기준으로 새로운 커트라인을 만듭니다. 그리고 그 커트라인을 통과한, 즉 정답도 맞고 논리성까지 뛰어난 최종 합격자들을 선별합니다.

Phase 4: 최종 보상 계산

(라인 20) 이제 맨 처음 만들었던 모든 답변에 대해 최종 점수를 매깁니다.
- 모든 답변은 '기본 정확도 점수'를 받습니다.
- 하지만 3단계의 논리성 심층 평가까지 통과한 최종 합격자에게만 추가로 '논리 보너스'(consistency bonus)를 지급합니다.
(라인 21) 이 최종 보상 점수를 기반으로 AI가 무엇을 더 잘하고 못했는지 학습 신호(advantages)를 만듭니다.

Phase 5: 모델 학습 및 업데이트

(라인 25) AI는 '논리 보너스'가 포함된 최종 보상 점수를 바탕으로 학습합니다. 이 과정을 통해 AI는 정답률뿐만 아니라 논리성까지 함께 높이도록 훈련됩니다. (주석에 without KL penalty라고 명시된 것처럼, 기존 방식의 불필요한 제약은 제거합니다.)
(라인 26-27) 몇 번의 학습이 진행될 때마다, 조교 AI도 주 AI의 발전된 실력을 조금씩 따라 배우며 천천히 업데이트됩니다(EMA update).

요약하자면, 이 알고리즘은 '여러 아이디어 내기 → 정확한 것만 거르기 → 그중에서 논리적인 것만 또 거르기 → 최종적으로 논리적인 아이디어에만 큰 보너스 주기 → 보너스 받은 방향으로 학습하기' 라는 체계적인 과정을 통해, AI가 꼼수를 부리지 않고 정직하고 논리적으로 문제를 해결하도록 훈련시키는 매우 구체적인 설명서라고 할 수 있습니다.

GRPO-CARE 섹션 정리 노트 (For AI Researchers)

이 섹션은 outcome-supervised GRPO의 reasoning-answer inconsistency 문제를 해결하기 위한 구체적인 방법론 GRPO-CARE를 제안하고, 그 효과를 실험적으로 검증합니다.

1. GRPO-CARE의 핵심 아이디어 및 설계

목표: 명시적인 process supervision 없이 answer correctness와 logical consistency를 동시에 최적화.
문제의 원인 재확인:
1. Reward의 한계: Final-answer에만 집중하는 reward가 shortcut 학습을 유발.
2. KL Penalty의 문제: Reasoning trace에 과도한 제약을 걸어 효과적인 exploration을 방해.
핵심 메커니즘: Two-Tier Reward System
1. Base Reward (): 정답 정확도에 대한 기본 보상.
2. Adaptive Consistency Bonus (): 본 논문의 핵심 제안.
  - 동작 원리: 느리게 EMA로 업데이트되는 reference model()을 사용. 정답을 맞힌 trajectory()에 대해, reference model이 reasoning trace()를 보고 정답()을 예측할 likelihood()를 계산. 이 likelihood가 reasoning-to-answer의 일관성을 나타내는 척도가 됨.
  - 보상 방식: 보너스는 Sparse하고 Group-Relative하게 지급됨. 같은 그룹 내에서 likelihood가 평균보다 높은 소수의 trajectory에만 보너스를 부여. 이를 통해 노이즈에 강하고 신뢰도 높은 학습 신호를 생성함.
알고리즘 특징:
- Two-Stage Filtering: 1차로 정확도 높은 trajectory를 거르고, 2차로 그중에서 일관성 높은 trajectory를 거르는 효율적인 방식을 채택.
- KL Penalty 제거: Exploration을 촉진하기 위해 KL penalty 항을 목적 함수에서 완전히 제거하고, consistency bonus가 그 가이드 역할을 대신함.

2. 실험 결과 및 분석

SEED-Bench-R1 평가:
- 종합 성능: GRPO-CARE는 모든 난이도에서 GRPO 및 모든 baseline을 크게 능가. 특히 가장 어려운 L3에서 약 10%의 성능 향상을 보임.
- Ablation Study 핵심:
  - KL-Oriented 방법들은 KL penalty가 없는 NoKL보다 성능이 낮아, KL 제약이 성능의 병목임을 시사함.
  - Reward-Based 대안들은 dense reward나 regeneration 방식의 불안정성 문제를 보여, GRPO-CARE의 sparse, group-relative bonus 방식의 우수성을 부각함.
타 Benchmark로의 Generalization 성능:
- 6개의 다른 video understanding benchmark에서도 일관된 성능 향상을 보이며 방법론의 robustness와 transferability를 입증함.
- 특히 더 복잡한 pipeline을 사용하는 강력한 baseline인 Video-R1과 대등하거나 더 나은 성능을 보여, GRPO-CARE의 효율성을 증명함.

3. 최종 결론

Reasoning-answer consistency를 암시적으로 강화하는 것이, 명시적인 visual perception constraints를 주는 것과 비슷한 효과를 내는 유망한 대안이 될 수 있음을 시사함.

쉬운 설명 :

앞서 AI 학생(GRPO)이 정답은 잘 맞히지만, 풀이 과정이 엉망진창인 '꼼수'를 부리는 문제가 있다고 했습니다. 이 섹션은 그 꼼수를 고치는 이 논문의 특별한 교육법(GRPO-CARE)에 대한 설명입니다.

GRPO-CARE 교육법의 핵심: '2단계 심층 면접 + 특별 보너스'

1단계: 기본 시험 (정답 확인)
- 먼저 AI 학생에게 여러 개의 풀이와 답을 내게 한 뒤, 정답을 맞힌 답안지만 추려냅니다.
2단계: 논술 심층 면접 (논리성 확인)
- 정답을 맞힌 답안지들만 대상으로, 조교 선생님(reference model)이 '풀이 과정'만 보고 얼마나 논리적인지 심사합니다.
- 그리고 "이 풀이 과정은 정말 훌륭하다!"라고 판단되는, 즉 반 평균보다 월등히 논리적인 최상위권 답안지에만 아주 큰 **'논리력 특별 보너스'**를 줍니다.

학습 효과와 결과

학습 동기 부여: AI 학생은 이제 단순히 정답만 맞히려는 꼼수를 부리는 대신, 아주 큰 '논리력 보너스'를 받기 위해 풀이 과정까지 신경 써서 논리적으로 작성하게 됩니다. 불필요한 벌칙(KL penalty)을 없애줘서 더 자유롭게 생각하도록 격려하는 효과도 있습니다.
결과: 대성공이었습니다. 이 교육법으로 배운 AI는 모든 시험에서 기존보다 성적이 크게 올랐고, 특히 가장 어려운 시험에서 두각을 나타냈습니다. 다른 일반 동영상 시험에서도 뛰어난 실력을 보여주며, 이 방법이 매우 효과적임을 증명했습니다.

결론적으로, 이 논문은 **"AI의 생각(reasoning)과 행동(answer)이 일치하도록 가르치니, AI가 훨씬 더 똑똑하고 신뢰할 수 있게 되더라"**는 사실을 구체적인 방법론과 실험 결과로 보여준 것입니다.

주인장 이해

GRPO는 일관성 없이 답만 맞추게끔 학습을 할 가능성이 있기에

reference model을 도입해서 일관성 점수를 주게함.

정답을 맞혔는지(기본 점수)뿐만 아니라, 논리성 점수(보너스)까지 더해서 최종 보상을 만들고, 그걸 가지고 A(Advantage, 학습 신호)를 계산한다.

reference model은 모멘텀 업데이트를 사용하며, 기존 GRPO의 KL 텀을 제거