AI바라기의 인공지능

VLM : 논문리뷰 : Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 본문

논문리뷰

VLM : 논문리뷰 : Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

AI바라기 2025. 5. 6. 15:12

SEED-Bench-R1 논문 학습 노트

용어 설명 (Glossary)

  • SEED-Bench-R1 (SBR): 이 논문에서 제안하는 새로운 video understanding 벤치마크. Multimodal Large Language Models (MLLMs)의 post-training 방법 (특히 Reinforcement Learning)을 체계적으로 평가하기 위해 설계됨. Perception과 reasoning 능력을 모두 요구하며, in-distribution, cross-environment, cross-environment-task의 3단계 계층 구조로 generalization을 평가함.
  • MLLM (Multimodal Large Language Model): Text 외에 image, video 등 다양한 modality의 입력을 처리할 수 있는 Large Language Model.
  • RL (Reinforcement Learning): 보상 신호를 통해 모델의 행동을 학습시키는 기계 학습 방법. 이 논문에서는 COT 생성을 개선하기 위한 post-training 방법으로 사용됨.
  • SFT (Supervised Fine-Tuning): Labeled data를 사용하여 pre-trained 모델을 특정 task에 맞게 미세 조정하는 방법.
  • GRPO (Group Relative Policy Optimization): 이 논문에서 RL 알고리즘으로 사용됨. Outcome-based reward를 사용하여 여러 생성된 응답 그룹 내에서 상대적인 품질을 기반으로 policy를 최적화함. Value function approximation이 필요 없어 메모리 효율적임.
  • COT (Chain of Thought): 모델이 최종 답변에 도달하기까지의 reasoning 과정을 단계별로 생성하는 것. 복잡한 추론 능력 향상에 도움됨.
  • Perception: 시각적 입력 (video/image)을 인식하고 이해하는 능력.
  • Reasoning: 인식된 정보를 바탕으로 논리적으로 추론하고 판단하는 능력.
  • In-distribution (L1): Training data와 동일한 환경 및 task domain에서의 평가. (e.g., Epic-Kitchens 비디오)
  • Cross-environment (L2): Training data와 task domain은 유사하나 환경이 다른 경우의 평가 (Out-of-Distribution, OOD). (e.g., Ego4D의 unseen kitchens)
  • Cross-environment-task (L3): Training data와 환경 및 task domain 모두 다른 경우의 평가 (OOD). (e.g., Ego4D의 다양한 indoor/outdoor scenes 및 tasks)
  • Outcome Supervision / Outcome-based Reward: 최종 결과 (e.g., 정답 여부)만을 기준으로 reward를 부여하는 방식. 과정의 논리성은 평가하지 않음.
  • Process Supervision / Process-based Reward: COT 같은 reasoning 과정 자체의 품질이나 논리성을 평가하여 reward를 부여하는 방식.
  • EgoPlan-Bench / EgoPlan-Bench2: SEED-Bench-R1 구축에 사용된 이전 연구의 벤치마크. Egocentric video 기반의 planning task를 다룸.
  • Epic-Kitchens / Ego4D: Egocentric video 데이터셋. SEED-Bench-R1의 video source로 사용됨.
  • Qwen2-VL-Instruct-7B: 실험에 사용된 base MLLM.
  • LongVideoBench: SEED-Bench-R1 외에 모델의 generalization 성능을 평가하기 위해 사용된 별도의 video understanding 벤치마크.
  • Visual Attention: 모델이 video frame 내에서 중요한 영역에 집중하는 능력. RL 학습 후 개선되는 것으로 나타남.

Purpose of the Paper

  • 기존 MLLM의 post-training 연구 (특히 RL 활용)는 주로 image 기반 task에 집중되어 있으며, video understanding 분야에서는 perceptionreasoning 능력을 균형 있게 요구하고 OOD generalization을 체계적으로 평가할 수 있는 벤치마크가 부족했음.
  • 이 논문은 이러한 한계를 극복하기 위해 SEED-Bench-R1 벤치마크를 제안함. 이 벤치마크는 복잡한 실제 비디오와 planning task를 통해 MLLMperceptionreasoning 능력을 동시에 평가하고, 3단계 계층 구조(L1, L2, L3)를 통해 in-distributionOOD generalization 능력을 엄격하게 측정하는 것을 목표로 함.
  • 궁극적으로 video understanding task에서 RL과 같은 post-training 방법의 효과와 영향을 체계적으로 분석하고 이해하고자 함.

Key Contributions & Novelty

  • SEED-Bench-R1 벤치마크 제안:
    • Video MLLM post-training 방법 평가를 위한 최초의 체계적 벤치마크.
    • Novelty:
      • 실제 egocentric video 기반의 복잡한 planning task로 perceptionreasoning 균형 평가.
      • In-distribution (L1), Cross-environment (L2), Cross-environment-task (L3)의 3단계 계층적 검증 구조OOD generalization 엄격 평가.
      • 검증 가능한 ground-truth 답변(실제 다음 행동)을 가진 대규모 training dataset 제공.
  • RL vs. SFT 체계적 비교 연구:
    • Qwen2-VL-Instruct-7B 모델 기반으로 video understanding task에서 RL (GRPO)과 SFT의 성능 비교.
    • Novelty:
      • 단순 outcome-based reward 만으로도 RLSFT 대비 높은 데이터 효율성우수한 OOD generalization 성능 (특히 L2, L3)을 달성함을 입증. (LongVideoBench에서도 확인).
  • RLCOT 생성 및 Perception 영향 분석:
    • RL 학습이 MLLMCOT 생성 방식과 시각 정보 처리 (perception)에 미치는 영향 분석.
    • Novelty:
      • RLCOT 토큰을 통해 visual space를 동적으로 탐색(dynamic query)하도록 유도하여 visual attention 능력을 향상시킴을 발견.
      • 반면, outcome supervision에 기반한 RLCOT논리적 일관성(logical coherence)을 저해할 수 있음을 밝힘 (정답은 맞추지만 과정은 비논리적일 수 있음). 이는 SFT의 패턴 암기 방식과 대조됨.

Experimental Highlights

  • Dataset: SEED-Bench-R1 (Train: ~50k 자동 생성 샘플 (Epic-Kitchens), Validation: L1/L2/L3 계층 구조 (Epic-Kitchens, Ego4D), Human verification 완료). 추가로 LongVideoBench 사용.
  • Models: Qwen2-VL-Instruct-7B (Vanilla), SFT fine-tuned model, RL (GRPO) fine-tuned model (6k training 샘플 사용).
  • Key Result 1 (Table 2): RL (GRPO) 모델이 VanillaSFT 모델 대비 SEED-Bench-R1의 모든 레벨 (L1, L2, L3)에서 월등한 성능을 보임. 특히 OOD 시나리오 (L2, L3)에서 성능 향상 폭이 더 큼. (e.g., L3 Overall Acc: RL 44.89 vs SFT 38.15).
  • Key Result 2 (Table 3): RL (GRPO) 모델은 다른 벤치마크인 LongVideoBench에서도 SFT 모델보다 더 나은 generalization 성능을 보임 (Overall Acc: RL 43.40 vs SFT 40.00).
  • Key Insight (Figures 4-6): Qualitative analysis 결과, RL 모델은 relevant visual cues에 대한 attention이 더 정확한 반면 (green box), SFT 모델은 피상적인 reasoning 패턴에 의존하거나 visual detail을 놓치는 경향 (red text/box). 하지만 RL 모델의 COT는 때때로 논리적 오류를 포함함 (Figures 5, 7, 8).

Limitations and Future Work

  • Limitations:
    • Overlooking Visual Cues: RL 학습 후에도 frame sampling rate, resolution 제한 등으로 인해 모델이 여전히 중요한 visual cue를 놓칠 수 있음. COT 시작 부분에만 perception 결과가 집중되는 경향. (중요성: Perception 정확도 저하)
    • Illogical COT Generation: Outcome supervision 기반 RL은 최종 정답은 맞추더라도 논리적으로 일관되지 않거나 잘못된 COT를 생성할 수 있음. (중요성: 모델의 투명성 및 신뢰도 저하, 복잡한 reasoning 한계)
    • Noisy Training Data: 자동 생성된 training data의 noise가 RL 학습에 부정적인 영향을 줄 수 있음.
  • Future Work:
    • Pre-RL Reasoning Elicitation: RL 학습 전에 base model의 COT reasoning 능력을 향상시키는 연구 (e.g., 고품질 COT demonstration 데이터 활용 - 문제 분해, 성찰, 자가 수정 포함).
    • Reward Modeling & RL Algorithms:
      • COT의 논리적 합리성을 명시적으로 supervise하기 위해 process-based reward 도입.
      • 더 크고 noisy한 데이터셋에 RL을 적용하기 위해 noisy reward signal에 대한 RL 알고리즘의 robustness 강화 (weak-to-strong alignment).
      • 긴 visual context를 처리할 수 있도록 알고리즘 효율성 개선.

Overall Summary

이 논문은 video understanding task에서 MLLM의 post-training 방법을 체계적으로 평가하기 위한 새로운 벤치마크 SEED-Bench-R1 을 제안한다. 실험을 통해 RL (GRPO)이 outcome-based reward만으로도 SFT보다 데이터 효율성과 OOD generalization 측면에서 우수함을 입증했다. 또한 RLvisual attention 능력을 향상시키는 반면, COT의 논리적 일관성을 저해할 수 있다는 trade-off를 발견했다. 이 연구는 향후 video MLLM 연구에서 RL의 효과적인 적용을 위해 reward design 개선과 base model의 reasoning 능력 강화의 필요성을 시사한다.

쉬운 설명 (Easy Explanation)

이 논문은 AI가 비디오를 보고 다음에 무슨 일이 일어날지 맞추는 시험(SEED-Bench-R1)을 새로 만들었어요. 연구 결과, AI를 정답만 알려주고 가르치는 것(SFT)보다, 일단 해보게 하고 정답을 맞추면 상을 주는 방식(RL, 특히 GRPO)으로 가르쳤더니, **처음 보는 비디오(OOD)에서도 중요한 장면을 더 잘 포착(visual attention 향상)**하고 정답을 더 잘 맞췄어요. 하지만 이렇게 결과만 보고 상을 주다 보니, AI가 정답은 맞추는데 그 이유를 설명하는 과정(COT)은 좀 엉뚱하거나 비논리적일 때가 있었어요. 마치 학생에게 수학 문제 풀이 과정은 안 보고 답만 맞으면 칭찬해줬더니, 답은 잘 맞추지만 풀이 과정은 엉망으로 쓰는 것과 비슷해요.

 

 

 

 

 

Figure 1: (a) video understanding에서 MLLMs를 위한 post-training 방법들을 체계적으로 evaluation하는 SEED-Bench-R1 (SBR)의 개요입니다. SBR은 in-distribution, cross-environment, 그리고 cross-environment-task scenarios의 세 단계 evaluation hierarchy를 특징으로 하며, 쉽게 검증 가능한 ground-truth 답변을 포함하는 training data를 갖추고 있어 다양한 수준에 걸친 generalization을 평가합니다. 이러한 tasks는 복잡한 실제 세계의 과제를 해결하기 위해 perception과 reasoning 모두를 필요로 합니다.

(b) 주목할 점은, GRPO를 통한 reinforcement learning을 사용하여 trained된 MLLM은 base model과 supervised fine-tuning (SFT) model 모두를 능가하며, 특히 out-of-distribution scenarios (예: 레벨 2–3)에서 뛰어납니다. 또한, 이 RL-trained model은 일반적인 video understanding benchmarks (예: LongVideoBench) 전반에 걸쳐 강력한 generalization 능력을 보여줍니다.

 

 

 

 

 

 

 

 

 

ABSTRACT

최근 Chain of Thought (COT) 생성의 발전은 Large Language Models (LLMs)의 reasoning 능력을 크게 향상시켰으며, reinforcement learning (RL)은 효과적인 post-training 접근 방식으로 부상했습니다.

Multimodal Large Language Models (MLLMs)는 이러한 reasoning 잠재력을 계승하지만, perception과 논리적 reasoning 모두를 요구하는 task에서는 아직 충분히 탐구되지 않았습니다.

이를 해결하기 위해, 우리는 video understanding에서 MLLMs를 위한 post-training 방법들을 체계적으로 evaluation하기 위해 설계된 benchmark인 SEED-Bench-R1을 소개합니다.

이는 복잡한 실제 비디오와 일상 계획 task를 multiple-choice questions 형식으로 포함하며, 정교한 perception과 reasoning을 요구합니다.

SEED-Bench-R1은 세 단계 계층 구조, 즉 in-distribution, cross-environment, 그리고 cross-environment-task scenarios를 통해 generalization을 평가하며, 쉽게 검증 가능한 ground-truth 답변을 갖춘 대규모 training dataset이 제공됩니다.

Qwen2-VL-Instruct-7B를 base model로 사용하여, 우리는 RL과 supervised fine-tuning (SFT)을 비교하며, RL의 data efficiency와 in-distribution 및 out-of-distribution task 모두에서의 우수한 performance를 입증합니다. 심지어 LongVideoBench와 같은 일반적인 video understanding benchmarks에서도 SFT를 능가합니다.

우리의 상세한 analysis는 RL이 visual perception을 향상시키지만, 종종 논리적으로 덜 일관된 reasoning chains을 생성한다는 것을 보여줍니다.

우리는 일관성 없는 reasoning과 간과된 시각적 단서와 같은 주요 limitations을 식별하고, base model reasoning, reward modeling, 그리고 noisy signals에 대한 RL robustness의 향후 개선 방향을 제안합니다.

 

 

 

 

1 INTRODUCTION

더보기


최근 Large Language Models (LLMs)의 reasoning 능력 발전은 긴 Chain of Thought (COT) generation의 진전에 의해 주도되었습니다. 긴 COT를 향상시키는 다양한 접근 방식 중에서, reinforcement learning (RL)은 특히 효과적인 post-training 방법으로 부상했습니다. RL은 LLMs가 검증 가능한 rewards를 통해 self-evolution으로 COT를 개선할 수 있게 하여, 복잡한 문제를 해결하는 데 뛰어나고 out-of-distribution (OOD) tasks에서 강력한 generalization을 보여주는 models을 만들어냅니다.

LLMs를 기반으로 구축된 Multimodal Large Language Models (MLLMs)는 multimodal inputs 처리를 위한 추가 모듈을 통합하면서 reasoning 잠재력을 계승합니다. 이로 인해 RL이 MLLMs에서도 유사하게 multimodal understanding을 향상시킬 수 있는지에 대한 관심이 커지고 있습니다. 그러나 기존 연구는 주로 image-based tasks에 초점을 맞추어 perception(예: detection 및 grounding) 또는 logical inference(예: multimodal math problem solving) 중 하나를 강조합니다. 우리는 multimodal understanding에 대한 post-training 방법의 영향을 연구하기 위한 이상적인 testbed는 perception과 logical inference 모두의 균형을 맞춰야 하며, models이 이러한 능력을 통합하여 정확한 답을 도출할 수 있도록 보장해야 한다고 주장합니다. 또한, post-training 방법의 robustness를 평가하기 위해 MLLMs의 generalization 능력은 엄격하게 evaluation되어야 합니다.

이를 해결하기 위해, 우리는 video understanding에 대한 post-training 방법의 효과를 체계적으로 evaluation하기 위해 설계된 benchmark인 SEED-Bench-R1을 소개합니다. Table 1에 나와 있듯이, SEED-Bench-R1은 우리의 이전 연구를 기반으로 구축되었으며, EgoPlan-Bench의 training 및 validation data와 EgoPlan-Bench2의 test data를 재사용합니다. 일반적으로 이 benchmark는 일상적인 인간 활동을 포착하는 현실적인 egocentric videos를 활용하며, models이 open-form task goals을 이해하고, long-horizon visual progress를 추적하며, 복잡한 environmental observations을 perceive하고, world knowledge를 사용하여 다음 행동에 대해 reasoning하도록 요구합니다. 구체적으로, EgoPlan-Bench의 validation data는 Level-1 (in-distribution) 및 Level-2 (OOD, cross-environment) evaluation에 사용되며, EgoPlan-Bench2의 test data는 더 일반적인 도메인을 다루며 Level-3 (OOD, cross-environment-task) evaluation에 사용됩니다.

Figure 1에 나와 있듯이, SEED-Bench-R1은 다음과 같은 특징을 가집니다: 1) 미묘한 perception을 필요로 하는 복잡한 실제 visual inputs, 2) common sense를 이용한 logical inference를 요구하는 다양한 questions, 3) in-distribution (L1) 및 OOD (L2/L3) generalization 능력을 평가하기 위해 엄격하게 분할된 validation sets, 그리고 4) 쉽게 검증 가능한 ground-truth 답변을 가진 대규모의 자동 구축된 training questions (ground-truth 답변은 잘리지 않은 원본 비디오에서 현재 관찰 직후에 발생하는 실제 다음 행동에서 가져옴).

우리는 Qwen2-VL-Instruct-7B를 base model로 사용하여 SEED-Bench-R1에서 대표적인 post-training 방법들을 evaluation하고, RL(특히 GRPO)과 supervised fine-tuning (SFT)을 비교합니다. 우리의 실험은 RL이 매우 data-efficient하며, 간단한 outcome-based rewards만으로도 in-distribution (L1) 및 OOD (L2/L3) questions 모두에서 performance를 크게 향상시킨다는 것을 보여줍니다. SFT에 대한 RL의 우월성은 특히 OOD scenarios에서 두드러지며, LongVideoBench와 같은 일반적인 video understanding benchmarks로 확장됩니다.

우리의 analysis는 RL이 COT generation에 어떻게 영향을 미치는지, 그리고 이것이 visual perception과 logical inference에 미치는 영향을 더 탐구합니다. 우리는 RL이 특히 OOD scenarios에서 model이 visual content에 더 효과적으로 attend하는 능력을 향상시킨다는 것을 발견했습니다. RL은 model이 피상적인 reasoning patterns를 암기하는 대신 COT tokens로 visual inputs를 동적으로 query하도록 가르쳐 더 나은 generalization performance를 달성합니다. 그러나 제한된 perception granularity로 인해 model이 때때로 주요 visual cues를 간과하는 점과, process supervision 없이는 생성된 reasoning chains에서 logical coherence가 부족하여 transparency와 performance를 저해하는 등의 limitations이 남아 있습니다.

우리는 RL 이전에 더 강력한 base reasoning abilities를 이끌어내고, visual perception과 logical inference의 균형을 맞추기 위해 reward modeling을 개선하며, noisy reward signals에 대한 RL의 robustness를 향상시키는 것을 포함한 유망한 future work 방향을 제시하며 결론을 맺습니다. 이러한 단계들은 RL을 더 큰 datasets로 확장하고 multimodal understanding에서 더 신뢰할 수 있는 alignment를 달성하는 데 중요합니다.

In summary, our contributions are as below:

  • 우리는 post-training 방법을 evaluation하기 위해 설계된 video understanding benchmark인 SEED-Bench-R1을 소개합니다. 이는 실제 egocentric videos, perception과 logical inference의 균형을 맞춘 questions, 그리고 generalization assessment를 위한 세 단계 hierarchy로 나뉜 엄격한 validation splits를 갖춘 대규모 training dataset을 특징으로 합니다.
  • SEED-Bench-R1을 사용하여, 우리는 체계적인 연구(systematic study)를 수행하고 reinforcement learning (RL) - 특히 GRPO - 이 간단한 outcome-based rewards만으로도 data efficiency와 generalization 측면에서, 특히 OOD scenarios에서 supervised fine-tuning (SFT)보다 우수함을 입증합니다.
  • 우리의 analysis는 RL이 visual attention을 개선하고 Chain of Thought (COT)를 통해 visual inputs의 dynamic querying을 장려함으로써 video understanding을 향상시킨다는 것을 보여줍니다. 그러나 perception granularity와 logical coherence 측면에서는 여전히 과제가 남아 있습니다.
  • 우리는 multimodal alignment를 위한 RL을 발전시키기 위해, pre-RL 단계에서 base model의 reasoning 능력을 강화하고, reward design을 개선하며, noise에 대한 robustness를 향상시키는 등의 향후 방향(future directions)을 제시합니다.

 

1 INTRODUCTION 정리노트 (AI 연구자용)

핵심 문제 제기:

  • Large Language Models (LLMs)의 reasoning 능력 향상, 특히 긴 Chain of Thought (COT) generation에서 reinforcement learning (RL)이 효과적인 post-training 방법으로 부상함.
  • Multimodal Large Language Models (MLLMs)는 LLMs의 reasoning 잠재력을 계승하지만, RL을 통한 multimodal understanding 향상 연구는 초기 단계이며 주로 image-based tasks에 국한됨 (단순 perception 또는 logical inference에 편중).
  • 기존 연구는 MLLMs의 post-training 방법 효과, 특히 video understanding 영역에서 perception과 logical inference를 균형 있게 통합하고, 다양한 수준의 generalization 능력을 엄밀히 평가할 수 있는 benchmark가 부재함.

제안 방법론: SEED-Bench-R1

  • Video understanding에서 MLLMs의 post-training 방법 효과를 체계적으로 evaluation하기 위한 새로운 benchmark인 SEED-Bench-R1을 제안.
  • 주요 특징:
    1. 현실적이고 복잡한 visual inputs: 실제 egocentric videos를 사용하여 미묘한 perception 능력을 요구.
    2. Perception과 Logical Inference의 균형: Common sense를 활용한 logical inference를 필요로 하는 다양한 questions 제공.
    3. 엄격한 Generalization 평가: Level-1 (in-distribution), Level-2 (OOD, cross-environment), Level-3 (OOD, cross-environment-task)의 3단계 hierarchy로 분할된 validation sets를 통해 generalization 능력을 심층 평가. (기존 EgoPlan-Bench, EgoPlan-Bench2 데이터 재활용)
    4. 대규모 Training Data: 자동 구축되었으며, 검증 용이한 ground-truth 답변을 포함 (원본 비디오의 실제 다음 행동 기반).

주요 실험 결과 및 Analysis (서론에서 언급된 내용 중심):

  • Qwen2-VL-Instruct-7B base model을 사용하여 RL (GRPO)과 SFT 비교.
  • RL은 단순한 outcome-based rewards 조건에서도 SFT 대비 높은 data-efficiency를 보이며, in-distribution (L1) 및 OOD (L2/L3) questions 모두에서 performance를 크게 향상시킴.
  • RL의 우월성은 OOD scenarios에서 특히 두드러지며, LongVideoBench와 같은 일반 video understanding benchmarks에서도 확인됨.
  • RL은 model이 COT tokens를 통해 visual inputs를 동적으로 query하도록 유도하여 visual content에 대한 attention을 향상시킴 (특히 OOD 상황). 이는 피상적인 reasoning patterns 암기보다 우수한 generalization performance로 이어짐.
  • Limitations:
    • 제한된 perception granularity로 인한 주요 visual cues 간과.
    • Process supervision 부재 시 생성된 reasoning chains의 logical coherence 부족.

향후 연구 방향:

  • RL 적용 전 base model의 reasoning 능력 강화.
  • Visual perception과 logical inference 균형을 위한 reward modeling 개선.
  • Noisy reward signals에 대한 RL의 robustness 향상.

본 논문의 핵심 Contributions (요약):

  1. Video understanding에서 post-training 방법 평가를 위한 SEED-Bench-R1 (perception과 reasoning 균형, 3단계 generalization 평가 hierarchy, 대규모 training dataset) 제안.
  2. SEED-Bench-R1을 활용한 체계적 연구를 통해, RL(GRPO)이 SFT 대비 data efficiency 및 generalization (특히 OOD)에서 우수함을 입증.
  3. RL이 COT를 통한 visual attention 및 dynamic querying 개선으로 video understanding을 향상시키지만, perception granularity 및 logical coherence에 도전 과제가 남아 있음을 분석.
  4. Multimodal alignment를 위한 RL 발전을 위해 base model 강화, reward design 정교화, robustness 향상 등 future directions 제시.

쉬운 설명 : 1 INTRODUCTION 섹션

우리가 비디오를 보고 내용을 이해하는 것처럼, 인공지능 모델(MLLMs)도 비디오를 보고 복잡한 질문에 답하거나 다음 상황을 예측하는 능력을 키우려고 합니다. 특히, 이미 한 번 학습한 모델을 더 똑똑하게 만들기 위해 reinforcement learning (RL)이라는 '강화학습' 방법을 사용하는 연구가 활발해요. RL은 모델이 스스로 시행착오를 겪으며 보상을 통해 더 나은 답을 찾는 법을 배우게 하는 방식입니다.

이 논문이 해결하려는 문제는 이렇습니다:

기존에는 이런 똑똑한 모델들을 테스트할 때, 주로 사진(이미지)을 가지고 하거나, 비디오를 쓰더라도 모델이 단순히 화면 속 물체를 잘 보는지(perception) 또는 논리적으로 생각하는지(logical inference) 한쪽만 치우쳐서 평가하는 경우가 많았어요. 그리고 모델이 한 번도 본 적 없는 새로운 환경이나 새로운 유형의 문제(OOD scenarios 또는 generalization)에 얼마나 잘 대처하는지 제대로 평가하기 어려웠습니다.

그래서 이 논문에서는 다음을 제시합니다:

  1. 새로운 시험대, SEED-Bench-R1: 비디오를 얼마나 잘 이해하는지, 특히 RL 같은 post-training 방법으로 똑똑해진 모델들을 제대로 평가할 수 있는 새로운 benchmark(시험대)를 만들었습니다.
    • 이 시험대는 실제 사람이 직접 촬영한 것 같은 1인칭 시점 비디오(egocentric videos)를 사용해서 현실감을 높였어요.
    • 모델이 단순히 화면을 보는 것뿐만 아니라, 상황을 이해하고 논리적으로 다음 행동을 추론해야 하는 복잡한 질문들로 구성되어 있습니다.
    • 모델이 얼마나 새로운 상황에 잘 적응하는지(generalization)를 꼼꼼하게 평가하기 위해, 쉬운 문제부터 아주 새로운 환경과 새로운 유형의 문제까지 3단계로 나누어 테스트합니다 (Level-1, Level-2, Level-3).
  2. RL의 효과 검증: 이 새로운 시험대(SEED-Bench-R1)를 사용해서, RL 방식(그중에서도 GRPO라는 특정 기술)으로 모델을 학습시켰을 때, 단순히 정답을 알려주며 학습시키는 기존 방식(SFT)보다 얼마나 더 좋은지 비교했습니다.
    • 결과적으로 RL 방식이 더 적은 데이터로도 더 높은 성능을 냈고 (data-efficient), 특히 처음 보는 새로운 비디오나 문제 유형(OOD scenarios)에 훨씬 더 잘 대처했습니다.
  3. RL이 작동하는 방식 분석: RL로 학습한 모델은 비디오를 볼 때 중요한 부분에 더 잘 집중(visual attention)하고, Chain of Thought (COT)라는 생각의 흐름을 이용해서 비디오 정보를 더 적극적으로 활용했습니다. 단순히 패턴을 외우는 게 아니라, 진짜로 이해하려고 노력하는 모습을 보인 거죠.
    • 하지만 아직 완벽하지는 않아서, 가끔 아주 작은 디테일(perception granularity)을 놓치거나, 생각의 흐름(reasoning chains)이 논리적으로 완벽하지 않을 때도 있었습니다.

앞으로의 목표:

이 연구를 바탕으로, 앞으로는 모델이 RL 학습을 시작하기 전에 기본적인 reasoning 능력을 더 키우고, reward를 주는 방식을 더 정교하게 만들어서, RL이 더 안정적으로 multimodal (비디오+텍스트 등) 정보를 이해하고 alignment할 수 있도록 발전시키는 것이 목표입니다.

 
 
 
 

2 RELATED WORK

더보기

OpenAI의 o1 및 DeepSeek의 R1과 같은 Large Language Models (LLMs)의 최근 발전은 reinforcement learning (RL)이 명시적인 supervision 없이 models이 autonomously하게 자신의 Chain-of-Thought (CoT) 프로세스를 개선하도록 함으로써 reasoning 능력을 크게 향상시킬 수 있음을 보여주었습니다. 이러한 성공에 영감을 받아 연구자들은 RL-기반 접근 방식을 Multimodal Large Language Models (MLLMs)에 적용하기 시작했으며, vision tasks에서 주목할 만한 개선을 달성했습니다. 그러나 기존 연구는 주로 image classification 및 object detection과 같은 perception-heavy 문제부터 visual math problem-solving과 같은 reasoning-intensive tasks에 이르기까지 image-based tasks에 초점을 맞추고 있으며, video understanding은 아직 충분히 탐구되지 않았습니다.

초기 연구들에서는 video benchmarks를 위해 MLLMs에 RL을 적용했지만, 이러한 evaluations는 종종 좁은 task formulations (예: 비디오의 주된 감정 인식)에 의존하거나 제한된 training data로 인해 체계적인 분석(systematic analysis)을 저해합니다. 다양한 차원에서 MLLMs를 평가하기 위한 추가적인 benchmarks가 존재하지만, video understanding을 발전시키기 위한 핵심 요구 사항을 완전히 충족하는 것은 없습니다.

구체적으로, 현재 세 가지 핵심 기준을 충족하는 포괄적인 benchmark는 없습니다: (1) 강력한 post-training을 지원하는 대규모 training resources, (2) RL과 같은 post-training 방법을 엄격하게 evaluation하는 데 필수적인, 다양한 수준의 generalization을 평가하기 위한 구조화된 validation sets, (3) 인간과 유사한 실제 조건 하에서 perception과 reasoning의 균형을 맞추는 다양한 tasks. 이러한 격차를 해소하기 위해, 우리는 다양한 실제 scenarios에서 균형 잡힌 visual perception과 logical reasoning을 요구하도록 설계된 video understanding benchmark인 SEED-Bench-R1을 소개합니다. 이전 연구와 달리, 우리의 benchmark는 대규모 training dataset과 세 개의 generalization tiers로 신중하게 분할된 validation set을 포함하여, MLLM capabilities와 training methodologies의 포괄적인 evaluation을 가능하게 합니다.

 

 

 

 

2 RELATED WORK 정리노트 (AI 연구자용)

연구 동향 및 기존 연구의 한계:

  • LLMs에서의 RL 성공: OpenAI o1, DeepSeek R1 등 Large Language Models (LLMs)에서 reinforcement learning (RL)이 명시적 supervision 없이 autonomously하게 Chain-of-Thought (CoT) 프로세스를 개선하여 reasoning 능력을 크게 향상시킴이 입증됨.
  • MLLMs로의 RL 확장: 이러한 성공에 힘입어 RL 기반 접근법을 Multimodal Large Language Models (MLLMs)에 적용, vision tasks에서 개선을 보임.
  • 기존 MLLM+RL 연구의 초점: 주로 image-based tasks에 집중됨.
    • Perception-heavy 문제 (예: image classification, object detection).
    • Reasoning-intensive tasks (예: visual math problem-solving).
    • 상대적으로 Video understanding 분야는 미개척 상태임.
  • Video understanding을 위한 초기 RL 적용의 문제점:
    • 일부 video benchmarks에 RL이 적용되었으나, 종종 지나치게 좁은 task formulations (예: 비디오의 주된 감정 인식)에 의존함.
    • 제한된 training data로 인해 systematic analysis가 어려움.
  • 기존 MLLM benchmarks의 전반적 한계: 다양한 차원에서 MLLMs를 평가하는 여러 benchmarks가 존재하지만, video understanding 발전에 필요한 핵심 요구사항을 충족하지 못함.

본 연구(SEED-Bench-R1)가 해결하고자 하는 구체적인 Gap:

현재 video understanding 분야에는 다음 세 가지 핵심 기준을 모두 만족하는 포괄적인 benchmark가 부재함:

  1. 대규모 Training Resources: 강력한 post-training (특히 RL)을 지원할 수 있는 충분한 양의 학습 데이터 부족.
  2. 구조화된 Validation Sets: 다양한 수준의 generalization (예: in-distribution, cross-environment, cross-environment-task) 능력을 체계적으로 평가할 수 있는 검증 데이터셋 부재. 이는 RL과 같은 post-training 방법의 효과를 엄밀히 evaluation하는 데 필수적임.
  3. 균형 잡힌 Tasks: 인간의 실제 환경과 유사한 조건에서 perception과 reasoning 능력을 균형 있게 요구하는 다양한 tasks의 부재.

SEED-Bench-R1의 포지셔닝:

  • 이러한 gap을 메우기 위해 SEED-Bench-R1은 video understanding benchmark로서 설계됨.
  • 다양한 실제 scenarios에서 균형 잡힌 visual perception과 logical reasoning을 요구함.
  • 대규모 training dataset과 세 가지 generalization tiers로 구성된 신중하게 분할된 validation set을 포함하여, MLLM capabilities 및 training methodologies에 대한 포괄적인 evaluation을 목표로 함.

쉬운 설명 : 2 RELATED WORK 섹션

인공지능 모델(LLMs)이 글을 읽고 스스로 생각하는 능력(reasoning)을 키우는 데 reinforcement learning (RL), 즉 '강화학습'이라는 방법이 아주 효과적이라는 것이 밝혀졌어요. 마치 학생이 정답을 바로 알려주지 않아도 스스로 여러 번 시도하고 보상을 받으면서 문제 해결 방법을 터득하는 것과 비슷해요 (Chain-of-Thought).

이런 성공을 보고, 연구자들은 글뿐만 아니라 이미지나 비디오 같은 여러 종류의 정보(multimodal)를 이해하는 인공지능 모델(MLLMs)에도 RL을 적용하기 시작했어요. 그래서 사진 속 물체를 찾거나, 사진에 나온 수학 문제를 푸는 능력 등은 꽤 발전했습니다.

하지만 비디오 이해 분야에는 아직 부족한 점이 많아요. 이 논문은 기존 연구들의 다음과 같은 문제점들을 지적합니다:

  1. 대부분 사진 중심: RL을 사용한 연구들이 주로 사진(image-based tasks)에 집중되어 있어서, 동영상(video understanding)을 깊이 있게 다루는 연구는 드물어요.
  2. 기존 비디오 시험의 한계:
    • 일부 비디오를 이용한 시험(video benchmarks)에 RL을 적용해 보긴 했지만, 시험 문제(task formulations)가 너무 단순하거나 특정 상황(예: 비디오 속 등장인물의 감정 맞히기)에만 국한되는 경우가 많았어요.
    • 게다가 충분한 학습 자료(training data)가 부족해서, 모델이 정말 비디오를 잘 이해하는 건지 체계적으로 분석하기 어려웠습니다.
  3. 종합적인 시험지의 부재: 기존의 여러 인공지능 시험지(benchmarks)들이 있지만, 비디오 이해 능력을 제대로, 그리고 깊이 있게 평가하기 위한 핵심 조건들을 모두 갖춘 것은 없었어요.

이 논문이 말하는 '제대로 된 비디오 시험지'가 갖춰야 할 조건은 다음과 같습니다 (기존에 없던 것):

  1. 풍부한 연습 문제: 인공지능 모델이 RL 같은 고급 학습 방법으로 충분히 배울 수 있도록 아주 많은 양의 학습용 비디오 자료(large-scale training resources)가 필요해요.
  2. 다양한 난이도의 실력 점검: 모델이 배운 것을 얼마나 다양한 새롭거나 조금 다른 상황(generalization)에 잘 적용하는지 여러 수준으로 꼼꼼히 평가할 수 있는 잘 짜인 시험 문제 세트(structured validation sets)가 있어야 해요.
  3. 실생활과 비슷한, 균형 잡힌 문제: 실제 우리가 세상을 경험하는 것처럼, 단순히 화면을 보는 능력(perception)과 논리적으로 생각하는 능력(reasoning)을 골고루 사용해야 풀 수 있는 다양한 문제들이 필요해요.

이런 문제점들을 해결하기 위해, 이 논문에서는 SEED-Bench-R1이라는 새로운 비디오 이해 능력 시험지를 만들었다고 설명합니다. 이 시험지는 대규모 학습 데이터와 다양한 상황에서의 일반화 능력을 평가할 수 있는 문제들을 갖추고 있어서, 인공지능 모델이 비디오를 얼마나 잘 이해하는지 더 정확하고 종합적으로 평가할 수 있게 해줍니다.

 

 

 

3 SEED-BENCH-R1

더보기

Figure 1에 나와 있듯이, SEED-Bench-R1은 MLLMs를 위한 post-training methods가 video understanding에 미치는 영향을 체계적으로 연구하기 위해 설계된 benchmark입니다. 우리의 이전 연구인 EgoPlan-Bench와 EgoPlan-Bench2를 기반으로 구축된 SEED-Bench-R1은 다음 특징을 가집니다: 1) 실제 세계로부터 얻은 복잡한 visual inputs, 2) 실제 tasks를 해결하기 위해 common sense를 이용한 logical inference를 요구하는 다양한 questions, 3) 다양한 수준에 걸쳐 MLLMs의 robustness와 generalization abilities를 평가하기 위한 엄격하게 분할된 validation sets, 그리고 4) 쉽게 검증 가능한 ground-truth answers를 가진 대규모의 자동 구축된 training questions.

Figure 2에 나와 있듯이, SEED-Bench-R1의 visual inputs와 questions는 일상적인 인간 활동을 포착하는 현실적인 egocentric videos에 기반합니다. SEED-Bench-R1의 questions에 올바르게 답하기 위해, model은 open-form task goals을 이해하고, long-horizon task progress를 추적하며, egocentric 시점에서 실시간 environment state를 perceiving하고, 내재된 world knowledge를 활용하여 다음 action plan에 대해 reasoning할 수 있어야 합니다. ground-truth answer는 원본의 잘리지 않은 비디오에서 현재 관찰 직후에 발생하는 실제 다음 행동에서 가져오며, 오답 선택지(negative options)는 동일한 비디오에서 샘플링됩니다. 이러한 도전적인 후보 선택지 설정은 올바른 action plan을 식별하기 위해 task goals과 행동의 semantic meanings뿐만 아니라, 동적인 dynamic visual input과 action order dependency와 같은 world knowledge로부터 environment state에 대한 깊은 이해를 요구합니다. 더욱이, 정답(golden answers)의 도출 과정은 추적 가능(traceable)하고 검증하기 쉽습니다.

Table 1에 나열된 바와 같이, 우리는 커뮤니티 연구에 도움이 되도록 training datasets와 validation datasets를 모두 제공합니다. training dataset은 부엌 환경에서의 일상적인 가사 tasks를 기록한 Epic-Kitchens 비디오를 사용하여 자동으로 구축됩니다. validation dataset은 정확성을 보장하기 위해 엄격한 인간 검증(human verification)을 거쳤으며 세 가지 레벨로 나뉩니다. Level-1 (L1) questions는 training data와 동일한 비디오 소스를 사용하여 생성되며, visual environments와 task goals이 training data와 중첩되는 in-distribution evaluation scenarios를 나타냅니다. Level-2 (L2) questions는 L1과 유사한 task goals를 다루지만, visual observations는 Ego4D 팀의 새로운 참여자들이 촬영한 본 적 없는(unseen) 부엌 환경에서 기록되었습니다. Level-3 (L3) validation subset은 부엌 특정 subset을 넘어서 전체 Ego4D 비디오 세트를 활용합니다. 이는 일상생활뿐만 아니라 취미, 여가, 업무에 걸친 general-domain questions를 포함합니다. visual inputs는 다양한 실내(in-door) 및 실외(out-door) 환경에서 제공되어, models의 generalization abilities를 테스트하는 데 더 큰 어려움을 제기합니다.

 

3 SEED-BENCH-R1 정리노트 (AI 연구자용)

Benchmark 개요 및 목적:

  • SEED-Bench-R1은 video understanding 분야에서 MLLMs에 대한 post-training methods(특히 RL)의 영향을 체계적으로 연구하기 위해 설계된 benchmark임.
  • EgoPlan-Bench 및 EgoPlan-Bench2 연구를 기반으로 구축됨.

핵심 구성 요소 및 특징:

  1. 데이터 소스 및 Visual Inputs:
    • 현실적인 1인칭 시점 비디오(egocentric videos - Epic-Kitchens, Ego4D 데이터셋 활용)에 기반하여 실제 세계의 복잡한 visual inputs를 제공함.
    • 모델은 open-form task goals 이해, long-horizon task progress 추적, 실시간 environment state perceiving 능력이 요구됨.
  2. Tasks 및 Questions:
    • 단순 semantic meanings 파악을 넘어, common sense와 world knowledge(예: action order dependency)를 활용한 logical inference를 통해 다음 action plan을 추론해야 하는 실용적이고 다양한 questions로 구성됨.
    • Ground-truth answer는 원본 비디오의 실제 다음 행동이며, negative options는 동일 비디오 내 다른 행동들에서 샘플링되어 변별력 요구 수준이 높음 (정답 도출 과정 traceable 및 검증 용이).
  3. 데이터셋 구성:
    • Training Dataset: Epic-Kitchens 비디오를 활용하여 자동으로 대규모 구축 (주방 환경에서의 일상 가사 tasks).
    • Validation Dataset: 엄격한 human verification을 거쳤으며, generalization abilities 평가를 위해 3단계 레벨로 분할됨.
      • Level-1 (L1, in-distribution): Training data와 동일 소스(Epic-Kitchens) 사용. Visual environments 및 task goals 중첩.
      • Level-2 (L2, OOD, cross-environment): L1과 유사한 task goals (주방 tasks)을 다루나, unseen 주방 환경(Ego4D 일부)에서의 visual observations 사용.
      • Level-3 (L3, OOD, cross-environment-task): 전체 Ego4D 비디오셋 활용. 주방 외 취미, 여가, 업무 등 general-domain questions 포함. 다양한 실내/실외 환경으로 구성되어 가장 높은 generalization 능력 요구.
  4. 평가 목표:
    • Dynamic visual input과 world knowledge를 통합하여 environment state를 깊이 이해하는 MLLMs의 robustness 및 generalization abilities를 다각도로 평가.
    • Post-training 방법론(특히 RL)의 효과를 체계적으로 비교 분석하기 위한 기반 제공.

결론적으로 SEED-Bench-R1은 현실적인 데이터, perception과 reasoning의 균형, 엄격한 generalization 평가 구조, 대규모 데이터셋을 통해 video understanding 분야 MLLMs 연구, 특히 post-training 방법론 평가를 위한 중요한 리소스를 제공함.


쉬운 설명 : 3 SEED-BENCH-R1 섹션

이 섹션에서는 SEED-Bench-R1이라는 새로운 인공지능(MLLMs) 시험지가 어떻게 만들어졌고 어떤 특징이 있는지 자세히 설명하고 있어요. 이 시험지는 인공지능이 비디오를 얼마나 잘 이해하는지, 특히 RL 같은 추가 학습(post-training)을 통해 얼마나 더 똑똑해지는지를 평가하기 위해 만들어졌습니다.

SEED-Bench-R1 시험지는 이렇게 구성되어 있어요:

  1. 현실적인 시험 자료 (비디오): 시험에 사용되는 비디오는 사람이 직접 몸에 카메라를 달고 촬영한 듯한 1인칭 시점 비디오(egocentric videos)예요. 예를 들면 부엌에서 요리하는 모습이나, 집안일, 취미 활동 같은 아주 현실적인 상황들을 보여줍니다.
  2. 생각이 필요한 문제 (질문): 인공지능에게 "지금 상황에서 다음에 뭘 해야 할까?" 같은 질문을 던져요. 정답을 맞히려면 인공지능은 단순히 화면에 보이는 것을 넘어,
    • 지금 무슨 작업을 하고 있는지 전체 목표(task goals)를 이해하고,
    • 지금까지 어떤 과정이 진행되었는지 기억하고(long-horizon progress),
    • 실시간으로 주변 상황(environment state)이 어떤지 파악하고,
    • 우리가 사는 세상의 상식(common sense, world knowledge, 예를 들어 '빵을 잘라야 잼을 바를 수 있다'는 순서 같은 것 - action order dependency)을 이용해서 논리적으로 다음 행동(action plan)을 추리(reasoning)해야 해요.
  3. 까다로운 채점 방식: 정답(ground-truth)은 비디오 속 실제 사람이 다음 행동으로 한 것이에요. 그런데 오답 선택지(negative options)들도 같은 비디오에 나오는 다른 행동들이기 때문에, 인공지능이 대충 단어만 보고 찍는 게 아니라 정말 상황을 정확히 이해해야만 정답을 고를 수 있어요.
  4. 체계적인 실력 검증 (데이터셋):
    • 연습 문제 (Training Dataset): 인공지능이 학습할 수 있도록 많은 양의 연습용 비디오(주로 부엌 환경)와 질문을 제공해요.
    • 본 시험 (Validation Dataset): 실제 실력을 평가하는 시험 문제들은 전문가가 직접 검토해서 정확성을 높였고, 난이도별로 3단계로 나뉘어 있어요.
      • 1단계 (쉬움, Level-1): 연습 문제와 비슷한 환경, 비슷한 종류의 문제를 풀어요 (in-distribution).
      • 2단계 (중간, Level-2): 문제는 비슷하지만(예: 부엌일), 한 번도 본 적 없는 새로운 부엌 환경에서 문제를 풀어요 (cross-environment).
      • 3단계 (어려움, Level-3): 부엌뿐만 아니라 다양한 장소(실내, 실외)에서 처음 보는 종류의 활동(취미, 업무 등)에 대한 문제를 풀어요 (cross-environment-task). 인공지능이 얼마나 새로운 상황에 잘 적응하는지(generalization)를 가장 확실하게 보여주는 단계예요.

요약하자면, SEED-Bench-R1은 현실적인 비디오와 깊은 생각을 요구하는 문제, 그리고 다양한 난이도로 구성된 체계적인 평가 방식을 통해, 인공지능 모델이 비디오를 얼마나 깊이 있게 이해하고 새로운 상황에 잘 적응하는지를 종합적으로 평가할 수 있도록 설계된 고급 시험지라고 할 수 있습니다.

 

 

 

 

 

4 METHOD

더보기

우리는 reinforcement learning (RL)이 SEED-Bench-R1에서 Multimodal Large Language Models (MLLMs)의 video understanding performance를 효과적으로 향상시킬 수 있는지 조사하기 위해 Qwen2-VL-Instruct-7B를 base model로 시작합니다. 이 탐구를 위해, 우리는 대표적인 RL algorithm으로 GRPO를 채택하고 이를 supervised fine-tuning (SFT)과 같은 전통적인 post-training methods와 비교합니다. RL과 SFT 모두 예비 연구를 위해 SEED-Bench-R1의 50k training samples 중 6k를 활용합니다. Training efficiency를 향상시키기 위해, 우리는 input video 당 샘플링되는 frames의 최대 수를 16개로 제한하고, frame resolution은 252 × 252로 합니다. 또한, 현재 관찰을 나타내는 frame을 추가적인 image input으로 명시적으로 추가합니다.

SFT의 경우, training data는 supervision을 위해 chain-of-thought (COT) reasoning processes로 보강됩니다. 이러한 COT annotations는 rejection sampling을 사용하여 더 강력한 models인 Qwen2.5-VL-Instruct-7B와 72B로부터 추출됩니다. 대조적으로, RL은 명시적인 COT annotations의 필요성을 제거하고 대신 rule-based outcome supervision rewards에 의존합니다. DeepSeek-R1과 유사하게, 우리는 다음과 같은 prompt template을 사용합니다: “{Question Here} Output the thinking process in <think> </think> and final answer in <answer> </answer> tags, i.e., <think> reasoning process here </think><answer> answer here </answer>” 이는 model이 final answer를 제공하기 전에 COT content를 generate하도록 안내합니다. 이 구조화된 output은 evaluation을 위한 답변 추출을 용이하게 합니다.

4.1 SUPERVISED FINE-TUNING (SFT)

SFT는 간단한 post-training method로, human-curated data를 사용하여 LLMs의 outputs를 원하는 행동과 정렬시킴으로써 이를 개선합니다. SFT의 목적은 다음 loss function을 최적화하는 것입니다: 

 여기서, 기대값은 supervised dataset 에서 샘플링된 input-output pairs 에 대해 취해집니다. 목표는 input 와 이전 tokens $o\_{\가 주어졌을 때 각 위치 에서 올바른 token 를 생성하는 model의 평균 log-likelihood를 최대화하는 것입니다. 이 과정은 model의 predictions와 ground truth 사이의 불일치를 최소화하도록 model parameters 를 fine-tunes하여 task-specific performance를 향상시킵니다.

4.2 OUTCOME SUPERVISION RL WITH GROUP RELATIVE POLICY OPTIMIZATION (GRPO)

GRPO는 초기에 LLMs의 mathematical reasoning capabilities를 향상시키기 위해 개발된 RL framework입니다. 전통적인 PPO와 달리, GRPO는 추가적인 value function approximation의 필요성을 제거하여 memory usage를 최적화합니다. 대신, 동일한 question에 대해 여러 후보 responses를 샘플링하고 검증 가능한 rewards를 기반으로 상대적인 품질을 평가함으로써 프로세스를 단순화합니다.

구체적으로, 에서 샘플링된 주어진 question 에 대해, GRPO는 의 predefined responses에 의존하는 대신 policy model 를 사용하여 개의 서로 다른 responses 를 생성합니다. 그런 다음 policy는 다음 objective를 최대화함으로써 최적화됩니다: 

 여기서,  는 hyperparameters이고, 는 trained policy 와 reference policy  사이의 KL 발산을 나타내며, 는 그룹 내 relative rewards에 기반한 outcome supervision을 사용하여 계산된 per-token advantage입니다. 구체적으로, question 에 대한 각 response 에 대해, 에서 추출된 answer가 ground-truth answer와 일치하는지 확인하는 rules에 따라 reward 가 할당됩니다 (예: 정답이면 , 그렇지 않으면 0). rewards는 mean과 standard deviation을 계산하여 normalized됩니다. Outcome supervision은 response 의 모든 tokens에 대한 advantages 를 normalized reward로 직접 설정합니다: 

 

 

4 METHOD 정리노트 (AI 연구자용)

실험 설정 개요:

  • Base Model: Qwen2-VL-Instruct-7B
  • 목표: Reinforcement learning (RL) (구체적으로 GRPO)이 SEED-Bench-R1에서 Multimodal Large Language Models (MLLMs)의 video understanding performance를 supervised fine-tuning (SFT)과 비교하여 효과적으로 향상시킬 수 있는지 조사.
  • 데이터: SEED-Bench-R1 training samples 50k 중 6k를 예비 연구에 사용.
  • 학습 효율성 위한 설정:
    • Input video 당 최대 16 sampled frames.
    • Frame resolution: 252 × 252.
    • 현재 관찰 frame을 추가 image input으로 명시적 첨부.
  • 출력 형식: Prompt template을 사용하여 model이 <think> </think> 태그 내에 COT content를, <answer> </answer> 태그 내에 final answer를 generate하도록 유도. (DeepSeek-R1 방식과 유사)

비교 방법론:

  1. Supervised Fine-Tuning (SFT)
    • Supervision 방식: Training data에 COT reasoning processes를 추가하여 supervision.
      • COT annotations는 더 강력한 models (Qwen2.5-VL-Instruct-7B, 72B)로부터 rejection sampling을 통해 추출(distilled).
    • 목표 함수 (Objective): 표준적인 SFT loss function 최적화.
      • Input 와 이전 tokens 가 주어졌을 때, 정답 token 를 생성할 평균 log-likelihood를 최대화.
      • Model parameters 를 fine-tunes하여 model의 predictions와 ground truth 간의 차이를 최소화.
  2. Outcome Supervision RL with Group Relative Policy Optimization (GRPO)
    • RL Algorithm: GRPO 채택.
    • Supervision 방식: 명시적인 COT annotations 없이, rule-based outcome supervision rewards에 의존.
    • GRPO 특징:
      • 전통적인 PPO와 달리 추가적인 value function approximation 없이 memory usage 최적화.
      • 동일 question 에 대해 현 policy model 를 사용하여 개의 후보 responses 를 샘플링.
    • 목표 함수 (Objective): 최적화.
        • (PPO-clip-objective-term은 형태)
      • 는 hyperparameters. 은 trained policy 와 reference policy 간의 KL 발산.
    • Reward 및 Advantage 계산:
      • 각 response 에서 추출된 answer가 ground-truth answer와 일치하는지 rules 기반으로 확인하여 reward 할당 (예: 정답 시 , 오답 시 ).
      • Rewards는 mean과 standard deviation으로 normalized됨 ().
      • Outcome supervision: response 내 모든 tokens의 per-token advantage 를 이 normalized reward 로 직접 설정.

핵심 차이점 요약:

  • SFT: 상세한 COT annotations(정답 풀이 과정)을 직접적인 supervision으로 사용.
  • RL (GRPO with Outcome Supervision): COT annotations 없이, 최종 결과(정답 여부)에 대한 rule-based reward만을 사용하여 policy를 최적화. GRPO는 여러 responses를 생성하고 상대적 비교를 통해 학습 효율성을 높임.

쉬운 설명 : 4 METHOD 섹션

이 섹션에서는 인공지능 모델(MLLMs, 여기서는 Qwen2-VL-Instruct-7B라는 모델)이 비디오를 얼마나 더 잘 이해하도록 만들 수 있는지 알아보기 위해 어떤 방법들을 사용했는지 설명하고 있어요. 특히, SEED-Bench-R1이라는 시험장에서 두 가지 주요 학습 방법을 비교합니다.

실험 준비 과정:

  1. 연습 문제 선택: SEED-Bench-R1 시험의 많은 연습 문제(training samples) 중에서 일부(6천 개)만 사용해서 실험했어요.
  2. 학습 속도 높이기: 비디오 한 개당 너무 많은 장면(frames)을 다 보여주지 않고, 최대 16개의 주요 장면만 골라서 적당한 화질(252x252)로 보여줬어요. 그리고 "지금 이 장면이야!" 하고 현재 장면을 똑똑히 알려주는 추가 정보도 줬습니다.
  3. 생각의 과정 보여주기: 인공지능 모델에게 질문을 하면, 바로 답을 말하기 전에 <think>와 </think> 태그 사이에 "이렇게 생각했어..." 하고 생각하는 과정(COT content)을 먼저 보여주고, 그 다음에 <answer>와 </answer> 태그 사이에 최종 답(final answer)을 말하도록 시켰어요. 이렇게 하면 나중에 평가하기가 쉬워요.

두 가지 학습 방법 비교:

  1. 학습 방법 1: Supervised Fine-Tuning (SFT) - 모범 답안 보고 배우기
    • 이건 마치 학생이 선생님이 풀어준 모범 답안과 풀이 과정을 그대로 보고 따라 하면서 배우는 것과 비슷해요.
    • 인공지능에게 비디오 질문과 함께, 아주 똑똑한 다른 인공지능 모델이 미리 만들어 놓은 완벽한 생각의 과정(COT annotations)과 정답을 줘요.
    • 인공지능은 이 모범 답안을 최대한 똑같이 따라 하려고 노력하면서 학습합니다. 한 글자 한 글자 얼마나 모범 답안과 비슷하게 예측하는지를 기준으로 점수를 매겨요.
  2. 학습 방법 2: Outcome Supervision RL (GRPO 사용) - 결과만 보고 스스로 배우기
    • 이건 학생이 모범 풀이 과정 없이 문제를 스스로 풀어보고, 정답인지 아닌지 결과만 보고 배우는 방식과 비슷해요. RL (Reinforcement Learning, 강화학습)의 한 종류입니다.
    • 인공지능에게 완벽한 생각의 과정(COT annotations)을 미리 알려주지 않아요.
    • 대신, 인공지능이 하나의 질문에 대해 여러 가지 방식으로 답을 생성해봅니다.
    • 그런 다음, 각 답이 최종적으로 맞았는지 틀렸는지만 확인해서 점수(보상, reward)를 줘요 (예: 맞으면 1점, 틀리면 0점). 이것을 '결과 기반 감독(outcome supervision)'이라고 해요.
    • GRPO의 특별한 점: 이 방법은 여러 답안들을 서로 비교하면서 어떤 방식의 생각이 좋은 결과를 내는지, 어떤 방식이 나쁜 결과를 내는지를 스스로 판단해서 학습해요. 그리고 컴퓨터 메모리도 효율적으로 사용하도록 설계되었어요.
    • 모든 생각의 단계마다 점수를 주는 게 아니라, 최종 결과에 대한 점수(normalized reward)를 그 답을 만들기까지의 모든 생각 단계에 똑같이 적용해서("이 생각 덕분에/때문에 맞았다/틀렸다") 학습합니다.

가장 큰 차이점:

  • SFT는 "이렇게 생각해야 해"라는 자세한 가이드라인(모범 답안)이 필요해요.
  • **RL (GRPO)**는 최종 결과만 보고 "이 방향이 좋았어/나빴어"라는 피드백을 통해 스스로 더 나은 생각의 과정을 찾아가도록 유도해요.

 

 

 

 

 

 

 

 

  • 3단계 데이터셋과 학습 데이터 제공: Generalization 평가를 위한 L1, L2, L3 구조와 post-training 연구 지원을 위한 학습 데이터 제공.
  • SFT vs RL(GRPO) 비교 및 RL 우수성 주장: 두 방법론 비교 설계를 설명하고, 서론 등에서 RL의 우수성(특히 data efficiency, OOD generalization)을 주장함. (세부 결과는 추후 확인 필요)
  • 학습 효율성 위한 설정: 16개 프레임 샘플링, 6k 학습 샘플 사용 등은 현실적인 자원 제약 하에서 연구를 진행하기 위한 조치임.