VLM : 논문리뷰 : Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency

Notice

Recent Posts

Recent Comments

Link

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

AI바라기의 인공지능

VLM : 논문리뷰 : Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency 본문

논문리뷰

VLM : 논문리뷰 : Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency

AI바라기 2025. 6. 29. 14:40

쉬운 설명 (Simple Explanation)

이 논문의 핵심 아이디어는 **"똑똑한 선생님이 학생을 가르치는 방식"**과 유사합니다.

기존 방식(SFT)이 학생에게 그저 정답지를 주고 외우게 하는 것이라면, 이 논문의 Temporal-RLT는 다릅니다.

똑똑한 피드백 (Dual-Reward): 선생님은 "언제 일어난 일이니?"라는 질문에 학생이 약간 틀리면 "거의 맞았는데, 몇 초 정도 차이가 나네" (Continuous Reward, tIoU)라고 점수를 주고, "정답이 뭘까?"라는 객관식 질문에는 "D가 정답이야" (Discrete Reward)라고 명확히 알려줍니다. 이처럼 질문 유형에 맞춰 다차원적인 피드백을 줍니다.
맞춤형 문제 출제 (Variance-Aware Data Selection): 선생님은 학생이 항상 맞히는 너무 쉬운 문제나, 항상 틀리는 너무 어려운 문제는 주지 않습니다. 이런 문제들은 학습에 도움이 안 되기 때문입니다. 대신, 학생이 맞힐 때도 있고 틀릴 때도 있는 "적당히 어려운" (Medium-Difficulty) 문제들을 집중적으로 풀게 합니다. 이 과정에서 학생은 가장 많이 고민하고 배우게 됩니다.

결론적으로, 이 논문은 VideoLLM을 학습시킬 때 가장 효과적인 피드백 방식과 가장 도움이 되는 문제들을 자동으로 골라 줌으로써, 훨씬 적은 노력으로 비디오를 더 깊이 이해하는 모델을 만드는 새로운 방법을 제시한 것입니다.

Temporal-RLT: Reinforcement Learning Tuning for VideoLLMs 학습 노트

용어 설명 (Glossary)

RLT (Reinforcement Learning Tuning): Supervised Fine-Tuning (SFT) 이후, 강화학습을 통해 모델의 특정 능력(예: reasoning)을 향상시키는 후반-학습 (post-training) 전략.
GRPO (Group Relative Policy Optimization): 여러 개의 후보 응답(group)을 생성하고, 각 응답의 상대적인 보상(relative reward)을 비교하여 모델을 최적화하는 preference-based RL 알고리즘. 절대적인 가치 함수(value function) 없이 학습이 가능한 것이 특징.
Temporal-RLT: 본 논문에서 제안하는 VideoLLM을 위한 RLT 프레임워크.
Dual-Reward Formulation: 두 가지 종류의 보상 신호를 결합한 방식.
- Discrete Reward: VideoQA와 같이 정답/오답이 명확한 과제에서 사용. 정답을 맞히면 1, 틀리면 0을 부여.
- Continuous Reward: Temporal Grounding과 같이 정답의 '정도'가 있는 과제에서 사용. 예측한 시간 구간과 실제 정답 구간 간의 tIoU (temporal Intersection over Union) 값을 보상으로 사용.
Variance-Aware Data Selection: RLT 학습의 효율을 높이기 위해, 모델의 응답 분산(variance)을 기반으로 학습 데이터를 선별하는 전략.
- Medium-Difficulty Samples (for VideoQA): 모델이 여러 번 추론했을 때, 정답과 오답을 골고루 생성하는 샘플. 학습에 가장 효과적인 신호를 제공.
- High-Variance Samples (for Grounding): 모델이 여러 번 추론했을 때, 다양한 tIoU 값의 응답을 생성하는 샘플. ∆IoU = max(IoU) - mean(IoU) 값이 큰 샘플을 의미.
Temporal-RLT-Full-490k & Temporal-RLT-32k: 논문에서 구축한 RLT 학습용 데이터셋. 32k는 490k에서 variance-aware selection 전략을 통해 선별된 고품질의 핵심 데이터셋.

Purpose of the Paper

기존 VideoLLM 연구는 주로 Supervised Fine-Tuning (SFT)에 의존했으며, 이는 복잡한 시간적 reasoning 능력을 향상시키는 데 한계가 있었습니다. Reinforcement Learning Tuning (RLT)이 대안으로 떠올랐지만, video domain에 적용하기에는 두 가지 핵심적인 문제가 있었습니다.

비디오 과제에 적합한 보상 설계의 어려움: 비디오 이해는 '무엇(semantic)'과 '언제(temporal)'를 동시에 이해해야 한다. 기존 RLT는 주로 텍스트 기반의 단일 보상 함수에 초점을 맞춰, 이러한 복합적인 reasoning을 효과적으로 학습시키기 어려웠다.
RLT 학습의 데이터 효율성 문제: 모든 데이터를 RLT 학습에 사용하는 것은 비효율적이다. 특히 GRPO와 같은 preference-based RL은 모델이 다양한 품질의 답변을 생성할 때(즉, 응답의 분산이 클 때) 학습이 잘 되는데, 어떤 데이터가 이러한 "효과적인 학습 신호"를 만들어내는지에 대한 기준이 없었다.

이 논문은 이 두 가지 문제를 해결하기 위해, 복합적인 video reasoning을 위한 Dual-Reward 체계와 모델의 행동 분산에 기반한 Variance-Aware Data Selection 전략을 결합한 Temporal-RLT 프레임워크를 제안합니다. 이를 통해 VideoLLM의 reasoning 능력을 보다 효과적이고 데이터 효율적으로 향상시키는 것을 목표로 합니다.

Key Contributions & Novelty

Contribution 1: Dual-Reward Formulation 제안
- Semantic reasoning (VideoQA)을 위한 discrete reward와 temporal reasoning (Temporal Grounding)을 위한 continuous reward (tIoU)를 통합.
- Novelty: 비디오의 'what'과 'when'을 동시에 최적화하는 RLT 보상 체계를 제안한 점이 독창적. 이를 통해 Grounded VideoQA (질문에 답하고 관련 시간 구간까지 제시)와 같은 복합적인 과제까지 하나의 프레임워크로 학습 가능하게 만듦.
Contribution 2: Variance-Aware Data Selection 전략 제안
- RLT 학습 효율을 극대화하기 위해, 모델의 응답 분산을 기준으로 학습 데이터를 필터링.
  - VideoQA: 항상 맞히거나(Easy) 항상 틀리는(Hard) 샘플 대신, 정답과 오답을 오가는 Medium-Difficulty 샘플을 선별.
  - Temporal Grounding: 예측 tIoU 값의 분산이 큰 (High-Variance) 샘플을 선별.
- Novelty: 데이터의 '난이도'를 인간의 주관이 아닌, **모델의 실제 행동(behavioral variance)**을 기반으로 정의하고 이를 데이터 선별에 활용한 접근 방식이 매우 독창적. 이는 RLT 학습의 효율성을 크게 향상시킴.
Contribution 3: RLT 특화 데이터셋 구축
- 다양한 비디오 데이터 소스를 모은 Temporal-RLT-Full-490k와, 여기서 variance-aware 전략으로 핵심 샘플만 추출한 Temporal-RLT-32k를 구축.
- Novelty: Temporal-RLT-32k는 단순한 데이터셋이 아니라, RLT 학습에 최적화된 고품질의 정제된 데이터셋이라는 점에서 의미가 있음.

Experimental Highlights

실험 설정:
- Base Model: Qwen-VL-2.5-7B
- Baselines: Qwen-VL-2.5 (base), Qwen-VL-2.5-SFT, Video-R1 [4]
- Datasets: MVBench, TempCompass (General VideoQA), MMVU (Reasoning QA), Charades-STA, ActivityNet (Temporal Grounding), NextGQA (Grounded QA) 등 8개 벤치마크.
핵심 결과 1: 압도적인 성능 향상 (SOTA 달성)
- Temporal-RLT는 SFT baseline 대비 모든 평가 지표에서 성능이 크게 향상되었으며, 특히 temporal reasoning 과제에서 두드러진 결과를 보임.
- Temporal Grounding (Charades mIoU): 57.0 (Ours) vs. 43.0 (SFT) -> +14.0
- Temporal Grounding (ActivityNet mIoU): 39.0 (Ours) vs. 24.3 (SFT) -> +14.7
- Grounded QA (NextGQA mIoU): 37.3 (Ours) vs. 28.3 (SFT) -> +9.0
- 이 결과는 제안된 Dual-Reward와 Data Selection 전략이 매우 효과적임을 입증.
핵심 결과 2: 데이터 선별 전략의 유효성 검증 (Ablation Study)
- VideoQA (Table 4a): Medium-Difficulty 샘플의 비율을 높일수록 성능이 향상되는 것을 확인함.
- Temporal Grounding (Table 4b): 예측 분산(∆IoU)이 큰 샘플을 사용할수록 grounding 성능이 꾸준히 향상되는 것을 확인함.
- 이 실험들은 Variance-Aware Data Selection이라는 핵심 가설을 명확하게 뒷받침.

Limitations and Future Work

Limitations:
- 본 연구는 보상 설계(reward formulation)와 데이터 효율성(data efficiency)에 집중했습니다. 모델이 <think> 태그를 통해 reasoning 과정을 생성하긴 하지만, 이 reasoning trace 자체의 품질을 높이기 위한 정교한 SFT(fine-grained thinking traces to support SFT)는 탐구하지 않았습니다.
- 의미: 즉, RLT를 통한 '결과' 중심의 튜닝에 초점을 맞췄으며, '과정' 자체를 직접적으로 감독하는 방식은 아직 개선의 여지가 있음을 시사합니다.
Future Work:
- 위 한계점을 극복하기 위해, 고품질의 세분화된 thinking trace(예: Chain-of-Thought)를 활용하여 SFT를 진행하고, 그 위에 본 논문의 Temporal-RLT를 적용하는 연구를 향후 방향으로 제시합니다.
- 의미: 이는 SFT로 모델의 구조적 reasoning 능력을 먼저 다지고, RLT로 최종 목표에 대한 정렬을 강화하는 2단계 전략으로, 더 높은 수준의 video reasoning 능력 달성 가능성을 열어둡니다.

Overall Summary

이 논문은 VideoLLM의 복합적인 reasoning 능력을 강화하기 위해 Temporal-RLT라는 효과적인 RL 기반 post-training 프레임워크를 제안합니다. 핵심은 semantic-temporal reasoning을 동시에 최적화하는 Dual-Reward 시스템과, 모델의 응답 분산을 기반으로 학습 효율을 극대화하는 Variance-Aware Data Selection 전략입니다. 실험을 통해 제안 방식이 기존 SFT나 RLT baseline 대비, 특히 temporal grounding 및 grounded QA 과제에서 월등한 성능을 보임을 입증했습니다. 이 연구는 비디오 분야에서 효과적인 RLT를 위해서는 보상 함수와 데이터 선별 전략을 함께 설계하는 것이 매우 중요함을 보여주며, 향후 데이터 효율적인 VideoLLM 튜닝 연구에 중요한 방향을 제시합니다.

Abstract

복잡한 semantics와 긴 temporal dependencies를 가진 실제 세계의 video를 이해하는 것은 computer vision 분야의 근본적인 과제로 남아 있습니다.

최근 multimodal large language models (MLLMs)의 발전은 vision-language 작업에서 강력한 능력을 보여주었으며, reinforcement learning tuning (RLT)은 그들의 reasoning 능력을 더욱 향상시켰습니다.

이 연구에서 우리는 MLLMs의 video 특정 reasoning 능력을 향상시키기 위한 post-training 전략으로 RLT를 탐구합니다.

Group Relative Policy Optimization (GRPO) framework를 기반으로, 우리는 discrete 및 continuous reward signals을 통해 semantic 및 temporal reasoning을 모두 감독하는 dual-reward formulation을 제안합니다.

효과적인 선호도 기반 최적화를 용이하게 하기 위해, 우리는 반복적인 inference에 기반한 variance-aware data selection 전략을 도입하여 유익한 learning signals을 제공하는 sample을 식별합니다.

우리는 VideoQA, Temporal Video Grounding, 그리고 Grounded VideoQA를 포함한 8개의 대표적인 video understanding 작업에 걸쳐 우리의 접근 방식을 평가합니다.

우리의 방법은 supervised fine-tuning과 기존 RLT baselines을 지속적으로 능가하며, 훨씬 적은 training data로 우수한 성능을 달성합니다.

이러한 결과는 MLLMs를 이용한 reasoning 중심의 video understanding을 발전시키는 데 있어 reward design과 data selection의 중요성을 강조합니다.

특히, 2개월 전의 초기 code 릴리스는 이제 최적화된 reward 메커니즘과 추가적인 datasets을 포함한 업데이트로 확장되었습니다.

최신 버전은 Temporal-RLT에서 확인할 수 있습니다.

Figure 1: video understanding task를 위한 post-training의 reward-based framework 개요

이 이미지는 video understanding을 향상시키기 위한 reward 기반의 machine learning framework를 설명하는 4개의 패널로 구성된 다이어그램입니다.

상단 좌측: VideoQA에서의 Discrete Reward

이 패널은 'Semantic reasoning'을 discrete reward를 사용하여 감독하는 방법을 보여줍니다.

예시: "이 장면 전환에서 사람들이 쫓고 있는 것은 무엇입_니까_?"라는 multi-choice VideoQA question이 주어집니다.
Model의 Reasoning: model은 <think> 블록에서 "피사체들은 포장된 고속도로에서 이동하여 풀밭으로 들어갑니다... 드론이 머리 위로 나타납니다."라고 추론합니다.
Reward: model이 정답인 (B) '하늘에 있는 drone'을 선택하면, 이는 정답/오답으로 나뉘는 discrete reward를 받게 됩니다.

상단 우측: Temporal Grounding에서의 Continuous Reward

이 패널은 'Temporal reasoning'이 continuous reward를 통해 어떻게 유도되는지를 설명합니다.

예시: "차량이 옥수수밭에서 운전하는 때는 언제입_니까_?"라는 question이 주어집니다.
Model의 Reasoning: model은 <think> 블록에서 "피사체들은 옥수수밭으로 출발하여... 차량은 결국 열린 들판으로 나옵니다."라고 생각하며 시간대를 예측합니다.
Reward: model이 예측한 시간(predict: 75.0 - 127.0s)과 실제 정답 시간(GT: 85.0 - 139.5s) 사이의 겹치는 정도를 IoU (Intersection over Union) 점수(65.12)로 계산합니다. 이 IoU 점수가 continuous reward로 사용되어 예측의 정확도를 측정합니다.

하단 좌측: Reward-Based Selection

이 패널은 training을 위한 데이터 선택 전략을 보여줍니다.

Variance: model의 출력 결과에 따라 샘플을 세 가지로 분류합니다.
- Low Variance & Poor: 출력이 일관되게 나쁨 (잘못된 정답). 제한된 reward signal을 제공합니다.
- Low Variance & Good: 출력이 일관되게 좋음 (정확한 정답).
- High Variance & Good: 출력이 다양함. 이러한 샘플은 RL Tuning에 적합하다고 간주됩니다. 다양한 출력은 더 넓은 variance를 가지며, 이는 GRPO optimization을 위한 유용한 preference gradients를 유도합니다.
목표: RL Tuning에 가장 유익한 학습 signal을 제공하는 High-variance 샘플을 식별하고 우선순위를 지정하는 것입니다.

하단 우측: Performance

이 패널은 제안된 Temporal-RLT model("Ours")의 성능을 다른 baselines과 비교하는 radar chart입니다.

비교 대상: Temporal Video Grounding, General Video Benchmark, Reasoning Video Benchmark, Grounded VideoQA 등 다양한 benchmark에서 성능을 비교합니다.
결과: 빨간색 선으로 표시된 "Ours" model이 QA, grounding, reasoning을 포함한 대부분의 작업에서 기존 baselines을 크게 능가하는 것으로 나타나, 제안된 framework의 우수성을 보여줍니다.

1 Introduction

Video는 시각 세계의 역동성을 포착하는 근본적인 매체입니다. 복잡한 semantics, 다양한 visual content, 그리고 long-range temporal dependencies를 특징으로 하는 실제 세계의 video를 이해하는 것은 computer vision의 핵심 과제로 남아있습니다. Large multimodal models (MLLMs)이 vision-language task에서 유망한 능력을 보여주었지만, 최근의 노력들은 temporal alignment와 structured reasoning이 중요한 video understanding으로 그들을 확장하기 시작했습니다. 인간의 인지 과정에서 영감을 받아, 명시적인 reasoning을 large language 및 multimodal models에 통합하는 것은 특히 multi-step inference와 temporal understanding이 요구되는 task에서 그들의 이해력을 크게 향상시키는 것으로 나타났습니다. Reinforcement learning tuning (RLT)은 이러한 reasoning 능력을 자극하기 위한 효과적인 post-training paradigm으로 부상했으며, preference-based optimization을 통해 language 및 vision-language domain 모두에서 주목할 만한 성공을 거두었습니다.

이 연구에서 우리는 MLLMs의 video-specific reasoning 능력을 향상시키기 위해 설계된 RLT framework인 Temporal-RLT를 제안합니다. 우리의 방법은 다수의 sampled outputs을 비교하고 세분화되고 검증 가능한 reward signals을 적용하여 model behavior를 최적화하는 Group Relative Policy Optimization (GRPO) algorithm을 기반으로 합니다. GRPO가 textual reasoning tasks에 성공적으로 적용되었지만, video domain으로의 확장은 대체로 미개척 상태로 남아 있으며 multimodal supervision 하에서 structured temporal reasoning을 modeling하는 데 새로운 과제를 제기합니다.

첫 번째 과제는 'video-specific reasoning을 장려하는 효과적인 reward functions을 어떻게 설계할 것인가'입니다. 이를 해결하기 위해, 그림 1에서 보여주듯이, 우리는 multi-choice VideoQA에서 얻은 discrete rewards와 temporal grounding tasks의 temporal Intersection over Union (tIoU)에서 파생된 continuous rewards를 결합한 dual-reward formulation을 제안합니다. Discrete reward는 정답의 정확성을 감독하여 semantic alignment를 촉진하는 반면, continuous reward는 temporal localization 정확도를 안내합니다. 우리는 이 formulation을 Grounded VideoQA로 더욱 확장하여, model이 question에 답하고 지원하는 video segment를 localize해야 하도록 함으로써 interpretability와 temporal grounding을 향상시킵니다.

두 번째 과제는 'GRPO 기반 RLT를 위한 효과적인 training samples를 식별하는 것'입니다. GRPO는 preference gradients를 생성하기 위해 sampled outputs 간의 behavioral variance에 의존하므로, 우리는 repeated inference에 기반한 variance-aware data selection strategy를 제안합니다. 각 sample에 대해, 우리는 기본 VideoLLM을 사용하여 여러 번의 forward passes를 수행하고 prediction variability를 측정합니다. Multi-choice QA에서는 정답과 오답이 섞이도록 하기 위해 적당한 정답 일관성을 가진 sample들을 유지합니다. Temporal grounding에서는 그룹 내 높은 variance를 가진 sample을 식별하기 위해 최대 IoU와 평균 IoU 간의 격차를 계산합니다. 이 접근 방식은 정보가 없는 예시들을 걸러내고 GRPO 하에서 의미 있는 learning signals을 생성할 가능성이 가장 높은 sample에 training을 집중시킵니다.

이러한 전략을 바탕으로, 우리는 Temporal-RLT를 지원하기 위해 두 개의 datasets을 구축합니다. Temporal-RLT-Full490k는 VideoQA, Temporal Grounding, 그리고 Grounded VideoQA를 포괄하는 포괄적인 dataset 역할을 합니다. 이 data pool에서 우리는 다양성과 최적화 잠재력으로 선택된 고품질 subset인 Temporal-RLT-32k를 파생시켜, 훨씬 적은 data로 효율적인 training을 가능하게 합니다.

우리는 General VideoQA, Reasoning VideoQA, Temporal Grounding, 그리고 Grounded VideoQA에 걸친 8개의 benchmarks에서 Temporal-RLT를 검증합니다. 우리의 방법은 강력한 supervised fine-tuning (SFT) baselines을 지속적으로 능가하며, Video-R1과 비교하여 우수한 성능을 달성합니다. 추가적으로, 우리는 우리의 data selection strategy의 효과와 다양한 tasks에 걸쳐 여러 rewards가 달성한 performance 향상을 검증하기 위해 광범위한 ablation studies를 수행했습니다. 이러한 결과들은 RLT 기반 video understanding에서 data efficiency와 함께 강력한 performance를 보여주면서, video-specific reasoning을 향상시키기 위한 우리의 reward design과 data selection strategy의 효과를 강조합니다.

Figure 2: Training Framework 개요

이 이미지는 제안된 training framework의 전체적인 구조를 보여주는 순서도입니다. 이 framework는 video와 관련 지시사항이 주어졌을 때, VideoLLM이 grounding을 위한 시간 정보와 QA를 위한 선택지 중 하나를 생성하는 과정을 설명합니다. Model은 GRPO 기반의 RLT pipeline을 사용하여 최적화됩니다.

이미지의 흐름은 다음과 같이 설명할 수 있습니다.

Input (입력)
- 왼쪽에는 video의 여러 프레임을 보여주는 필름 스트립과 함께 multi-choice question("Q: 이 장면 전환에서 사람들이 쫓고 있는 것은 무엇입_니까_?")이 입력으로 제공됩니다.
Policy Model (VideoLLM)
- 이 입력은 Policy Model (VideoLLM)로 전달됩니다.
- 이 model은 하나의 입력에 대해 여러 개의 (G개의) 서로 다른 후보 출력(, , ..., )을 생성합니다. 각 출력은 다음을 포함합니다.
  - <think>: model의 추론 과정
  - <observe>: 예측된 관련 video 시간 구간
  - <answer>: question에 대한 예측 답변
- 예를 들어, 출력 은 <answer> B를, 는 <answer> C를, 그리고 는 다시 <answer> B를 예측하는 등 다양한 결과를 보여줍니다.
RLT Pipeline (보상 및 최적화)
- Policy Model이 생성한 출력들은 Reward Model과 Group Computation 블록으로 전달되어 평가됩니다.
- Reward Model: 각 출력의 품질을 평가하여 reward 점수를 계산합니다. 최종 reward 은 세 가지 구성 요소의 합으로 이루어집니다.
  - Temporal Grounding Reward (): 예측된 시간 구간과 실제 시간 구간(OBS) 간의 IoU를 기반으로 하는 continuous reward입니다. 수식은 $r_{tvg} = \text{IoU}(\text{OBS}, \text{Pred})$입니다.
  - Format Reward (): 출력의 형식이 유효한지에 따라 주어지는 reward입니다.
  - Accuracy Reward (): 예측된 답변()이 정답()과 일치하는지에 따라 주어지는 discrete reward입니다.
  - 최종 reward는 $r = r_{tvg} + r_{form} + r_{acc}$로 계산됩니다.
- Reference Model: Policy Model이 초기 상태에서 너무 많이 벗어나지 않도록 규제하는 KL penalty를 계산합니다.
- Group Computation: GRPO 알고리즘의 일부로, 여러 출력 그룹의 reward를 비교하여 Advantage를 계산합니다.
Optimization (최적화)
- 최종적으로 계산된 Advantage와 KL penalty를 사용하여 Policy Model의 가중치를 업데이트(최적화)합니다. 이 과정을 통해 model은 더 높은 reward를 받는 방향으로 학습됩니다.

Temporal-RLT: Introduction 핵심 정리 (AI 연구자용)

1. 문제 제기 (Problem Definition)

기존의 Large Multimodal Models (MLLMs)은 vision-language task에서는 우수한 성능을 보이지만, 복잡한 semantics와 long-range temporal dependencies를 갖는 video understanding에는 여전히 어려움을 겪음.
특히 video의 temporal alignment와 구조화된 reasoning 능력 향상이 핵심 과제임.

2. 제안 방법론 (Proposed Method: Temporal-RLT)

Video에 특화된 reasoning 능력을 향상시키기 위한 post-training 전략으로 Reinforcement Learning Tuning (RLT) framework인 Temporal-RLT를 제안.
Framework의 기반은 textual reasoning에서 성공적으로 사용된 Group Relative Policy Optimization (GRPO) algorithm이지만, 이를 video domain에 적용하고 multimodal supervision 하에서 temporal reasoning을 modeling하는 새로운 과제에 초점을 맞춤.

3. 핵심 기여 (Key Contributions)

Contribution 1: Dual-Reward Formulation
- Video의 복합적인 reasoning을 위해 두 가지 종류의 reward를 결합한 dual-reward 체계를 설계함.
- Discrete Reward: Multi-choice VideoQA task에서 정답 여부를 통해 semantic alignment 능력을 학습시킴.
- Continuous Reward: Temporal grounding task에서 예측한 시간과 실제 시간의 tIoU (temporal Intersection over Union) 값을 reward로 사용하여 temporal localization 정확도를 높임.
- 이 formulation을 Grounded VideoQA (질의응답 + 시간 grounding)로 확장하여 interpretability를 강화함.
Contribution 2: Variance-Aware Data Selection
- GRPO 학습 효율을 극대화하기 위해, training에 유용한 샘플을 선별하는 variance-aware data selection 전략을 제안함. GRPO는 sampled outputs 간의 behavioral variance를 통해 preference gradients를 생성하기 때문에 이 과정이 중요함.
- 전략: Repeated inference (동일 샘플에 대한 반복 추론)를 통해 prediction의 변동성(variance)을 측정.
  - QA Task: 정답과 오답이 혼재된, 적당한 일관성(moderate consistency)을 보이는 샘플을 선택.
  - Grounding Task: 예측된 IoU 값들 중 (최대 IoU - 평균 IoU)의 격차가 큰, 즉 intra-group variance가 높은 샘플을 선택.
- 효과: 학습에 비효율적인 샘플(너무 쉽거나 어려운)을 필터링하고, 의미 있는 learning signal을 제공할 가능성이 높은 샘플에 training을 집중함.
Contribution 3: 신규 Datasets 구축
- 제안된 데이터 선택 전략을 기반으로 Temporal-RLT 학습을 위한 두 종류의 dataset을 구축함.
- Temporal-RLT-Full490k: VideoQA, Temporal Grounding, Grounded VideoQA를 포괄하는 대규모 dataset.
- Temporal-RLT-32k: 위 dataset에서 다양성과 최적화 효율이 높은 샘플만 선별한 고품질 소규모 subset. 이를 통해 적은 data로 효율적인 training이 가능함을 보임.

4. 결과 요약

제안된 Temporal-RLT는 8개의 benchmark에서 강력한 SFT (Supervised Fine-Tuning) baselines 및 기존 연구인 Video-R1을 일관되게 능가하는 성능을 달성함.
Ablation studies를 통해 dual-reward 설계와 variance-aware data selection 전략의 효과를 입증했으며, RLT 기반 video understanding에서 높은 data 효율성과 성능을 동시에 보여줌.

쉬운 설명 :

AI에게 영화나 유튜브 영상을 보고 내용을 완벽하게 이해하도록 가르치는 새로운 방법을 제안한 논문이라고 생각할 수 있습니다.

기존 AI들은 영상 속 '무엇'이 있는지는 잘 맞히지만, "누가, 언제, 왜 그랬는지" 같은 시간의 흐름이나 사건의 인과관계를 파악하는 데는 어려움을 겪습니다.

이 논문은 이 문제를 해결하기 위해 'Temporal-RLT'라는 특별한 훈련법을 만들었습니다. 이 훈련법의 핵심은 두 가지입니다.

1. 맞춤형 피드백 제공하기 (Dual-Reward) AI가 영상에 대한 질문에 답하면, 두 가지 방식으로 점수를 매깁니다.

객관식 문제: "주인공이 쫓던 것은? 1.자동차 2.드론 3.강아지" 같은 문제에서는 그냥 '맞았다' 또는 '틀렸다'로 점수를 줍니다 (Discrete Reward).
시간 맞히기 문제: "자동차 추격전은 몇 분 몇 초에 나왔어?" 같은 문제에서는 '틀렸다'고 끝내는 게 아니라, 정답 시간과 얼마나 가깝게 예측했는지에 따라 '80점', '50점'처럼 점수를 세밀하게 줍니다 (Continuous Reward).

2. AI에게 '도움이 되는 어려운 문제'만 골라 풀리기 (Variance-Aware Data Selection) AI를 훈련시킬 때 모든 문제를 풀게 하는 대신, AI가 유독 헷갈려하는 (풀 때마다 답이 달라지는) 문제들만 쏙쏙 골라서 집중적으로 학습시킵니다. AI가 헷갈린다는 것 자체가 좋은 학습 기회이기 때문입니다.

결론적으로, 이렇게 똑똑한 피드백 방식과 효율적인 문제 선택 전략을 사용했더니, AI가 훨씬 적은 양의 데이터를 가지고도 영상의 내용과 시간 흐름을 훨씬 더 잘 이해하게 되었다는 것을 보여준 연구입니다.

2 Temporal-RLT

이 섹션에서는 video large language models (VideoLLMs)에 맞춰진 우리의 reinforcement learning tuning pipeline인 Temporal-RLT를 제시합니다. 그림 2에 나타난 바와 같이, Temporal-RLT는 model의 video-specific reasoning 및 comprehension 능력을 더욱 향상시키기 위해 GRPO 기반 RLT module을 통합하여 표준 VideoLLM architecture를 확장합니다. 우리는 먼저 기본 VideoLLM의 전체적인 pipeline을 설명합니다(섹션 2.1). 그런 다음, multi-choice QA (MC-QA)에서 얻는 discrete semantic reward와 temporal IoU (tIoU)에 기반한 continuous temporal reward로 구성된 우리의 dual reward formulation을 소개합니다(섹션 2.2). 마지막으로, 이 dual-reward 설정 하에서 GRPO가 Temporal-RLT framework에 어떻게 통합되어 video understanding을 위한 통합된 post-training 전략을 형성하는지 설명합니다(섹션 2.3).

2.1 Base Model: QwenVL-2.5 with Structured Reasoning

우리는 framework의 기본 VideoLLM으로 QwenVL-2.5를 채택합니다. QwenVL-2.5는 대규모 video-language data로 pre-trained된 강력한 open-source multimodal language model로, 다양한 video understanding tasks에서 강력한 performance를 보여줍니다. Video frames와 자연어 instruction으로 구성된 multimodal input이 주어지면, model은 답변 선택지나 grounding spans 같은 outputs을 textual format으로 autoregressively하게 생성합니다. 직접적인 답변 예측을 넘어 명시적인 reasoning을 촉진하기 위해, 우리는 model이 답변하기 전에 생각하도록 장려하는 structured output format을 도입합니다. 구체적으로, 우리는 <think>와 <answer> tags를 사용하여 표준화된 응답 template를 정의합니다: <think> reasoning trace </think><answer> final response </answer>. 이 format은 model이 최종 답변을 제공하기 전에 reasoning 과정을 명확히 표현하도록 강제하여, inference 중에 더 interpretable하고 일관된 behavior를 가능하게 합니다. 구조적 준수와 output consistency를 더욱 장려하기 위해, 우리는 model이 미리 정의된 구조를 따르는 outputs을 생성하도록 장려하는 format alignment reward $R_{format}$을 도입합니다.

2.2 Dual Verifiable Rewards in Video Tasks

Reward design은 GRPO 기반 RLT framework 내에서 optimization을 유도하는 데 중요한 역할을 합니다. VideoLLMs에서 global semantic reasoning과 fine-grain temporal reasoning을 모두 향상시키기 위해, 우리는 두 가지 상호 보완적인 reward signals을 도입합니다. Multi-choice QA tasks에서 파생된 discrete semantic reward는 global semantic alignment를 장려합니다. Grounding tasks의 temporal IoU에 기반한 continuous temporal reward는 fine-grained temporal comprehension을 촉진합니다. 이 두 rewards는 함께 여러 reasoning dimensions에 걸쳐 structured supervision을 제공합니다.

Global Discrete Semantic Reward. High-level semantic reasoning을 장려하기 위해, 우리는 Multi-Choice Video Question Answering (MC-VQA) task를 활용합니다. 이 설정에서 model은 video V, question Q, 그리고 후보 답변 집합 ${A_1, A_2, ..., A_n}$을 받습니다. 목표는 정답인 를 선택하는 것이며, 여기서 c는 ground truth 옵션의 인덱스를 나타냅니다. 이는 open-ended reasoning을 제한된 semantic space 내의 classification problem으로 변환합니다. 검증 가능한 reward signal을 제공하기 위해, 우리는 이진 accuracy 기반의 reward function을 채택합니다:

여기서 $A_{pred}$는 model이 선택한 답변이고 $A_{gt}$는 ground truth입니다. 이 discrete reward는 model이 자신의 global semantic understanding을 task-specific supervision에 맞추도록 유도합니다.

Fine-Grained Temporal IoU Reward. Fine-grained temporal reasoning을 포착하기 위해, 우리는 Temporal Video Grounding (TVG) task를 통합합니다. 이 task에서 model은 video timeline 내에서 특정 event를 localize해야 합니다. Video V와 language query가 주어지면, model은 시작과 끝 timestamp로 정의된 temporal segment $(S_p, E_p)$를 예측하고, 이는 ground truth interval $(S_g, E_g)$과 비교됩니다. 우리는 reward를 예측된 segment와 ground truth segment 간의 temporal IoU로 정의합니다:

이 continuous reward는 예측된 segment와 reference segment 간의 alignment를 정량화하여 정확한 temporal localization을 장려합니다. 이는 semantic QA의 binary supervision을 보완하는 부드러운 gradient signal을 제공하여, model이 여러 granularity levels에 걸쳐 reason할 수 있게 합니다.

2.3 Temporal-RLT Optimization with GRPO

우리의 task-specific reward formulations 하에서 VideoLLMs를 최적화하기 위해, 우리는 명시적인 value function이나 학습된 critic 없이 models을 fine-tunes하는 preference-based reinforcement learning algorithm인 GRPO를 채택합니다. GRPO는 절대적인 returns를 추정하는 대신, 동일한 input에 대해 sampled된 여러 responses의 품질을 비교하고 그들의 상대적 순위를 사용하여 optimization을 유도합니다. 이는 GRPO를 우리의 검증 가능하고 다차원적인 reward design과 자연스럽게 호환되도록 만듭니다.

우리는 세 가지 구별되는 video reasoning tasks에 맞는 reward functions을 정의합니다. Multi-Choice VideoQA (MC-QA)의 경우, reward는 $R_{mc} = R_{format} + R_{acc}$로 정의되며, 여기서 $R_{acc}$는 답변의 정확성을 나타내고 $R_{format}$은 output consistency를 강제합니다. Temporal Video Grounding (TVG)의 경우, 우리는 $R_{tvg} = R_{format} + R_{IoU}$를 사용하며, 여기서 $R_{IoU}$는 예측된 temporal segment와 ground-truth temporal segment 간의 alignment를 측정합니다. Semantic reasoning과 temporal reasoning을 연결하기 위해, 우리는 model이 question에 답하고 <observe> tags를 사용하여 관련 temporal spans를 강조해야 하는 Grounded VideoQA (GQA)를 추가로 도입합니다. Reward는 $R_{gqa} = R_{format} + \frac{1}{2}(R_{acc} + R_{IoU})$로 정의되어, joint semantic accuracy와 temporal grounding을 장려합니다.

각 input instance(video-language instruction pair)에 대해, model은 G개의 candidate responses 그룹 ${o_1, o_2, . . . , o_G}$를 samples합니다. 각 response는 적절한 task-specific reward function을 사용하여 평가되어, 스칼라 rewards 집합 ${R_1, R_2, . . . , R_G}$를 산출합니다. 이 rewards는 그룹 내에서 정규화되어 각 sample의 relative advantage를 계산합니다:

여기서 는 i번째 response의 상대적 품질을 반영합니다. Model은 점수가 높은 responses의 likelihood를 높이고 점수가 낮은 responses의 likelihood를 줄이도록 updated되어, 인간이 검증할 수 있는 objectives에 의해 유도되는 preference-driven fine-tuning을 가능하게 합니다.

우리의 task-specific temporal rewards를 GRPO의 relative optimization framework와 통합함으로써, Temporal-RLT는 통합되고 확장 가능한 post-training 전략을 제공합니다. 이는 광범위한 video-language tasks를 지원하고, structured되고 interpretable한 outputs을 촉진하며, 수동으로 설계된 reward critics의 필요성을 제거합니다.

Figure 3: Temporal-RLT-Full-490k Training Dataset 통계

이 이미지는 Temporal-RLT-Full-490k training dataset의 구성에 대한 통계를 보여주는 도넛 차트와 표로 구성되어 있습니다.

왼쪽: 데이터셋 구성 (도넛 차트)

도넛 차트는 전체 데이터셋이 어떤 종류의 작업(task)과 특정 dataset으로 구성되어 있는지를 시각적으로 나타냅니다.

내부 링 (Task Categories): dataset을 세 가지 주요 task로 분류합니다.
- Temporal Grounding: 전체의 56%를 차지하며 가장 큰 비중을 가집니다.
- VideoQA: 37%를 차지합니다.
- GVideoQA (Grounded VideoQA): 7%를 차지합니다.
외부 링 (Specific Datasets): 각 task 카테고리에 포함된 개별 dataset의 비율을 보여줍니다.
- Temporal Grounding (주황색 계열)은 InternVid-Vtime(43%), DiDeMo(7%), VTG-IT(3%), Charades-STA(3%) 등으로 구성됩니다.
- VideoQA (보라색 계열)는 LLaVA-Video(30%), NextQA(3%), PerceptionTest(2%)로 구성됩니다.
- GVideoQA (빨간색 계열)는 G-VideoLLM(6%), NextGQA(0.8%)로 구성됩니다.

오른쪽: 데이터 소스 상세 정보 (표)

오른쪽의 표는 각 task에 사용된 데이터 소스, 해당 데이터의 domain, 그리고 데이터 크기(Data Size)에 대한 구체적인 정보를 제공합니다.

VideoQA Task:
- Data Source: LLaVA-Video, NextQA, PerceptionTest
- Domain: Diverse Reasoning, Perception, Reasoning
- Data Size: 각각 158,439개, 17,024개, 7,392개의 데이터를 포함합니다.
Temporal Grounding Task:
- Data Source: InternVid-Vtime, DiDeMo, VTG-IT, Charades-STA
- Domain: Diverse (다양함), Indoor (실내)
- Data Size: 각각 213,158개, 33,002개, 16,318개, 12,408개의 데이터를 포함합니다.
Grounded VideoQA Task:
- Data Source: G-VideoLLM, NextGQA
- Domain: Vlog, News and Activity Reasoning
- Data Size: 각각 29,797개, 3,358개의 데이터를 포함합니다.

피규어 설명 (Figure Caption)

이미지 하단의 설명은 다음과 같은 중요한 점을 언급합니다: "모든 답변을 open-ended format으로 변환하는 것이 질문의 난이도를 신뢰성 있게 평가하고 효과적인 model training을 하는 데 매우 중요하다는 것을 발견했습니다." 이는 객관식 답변 대신 서술형 답변 형식을 사용하는 것이 model 학습에 더 효과적이라는 저자들의 핵심적인 발견을 강조합니다.

Temporal-RLT (Section 2) 핵심 정리 (AI 연구자용)

1. Framework 개요 및 목표

핵심: 기본 VideoLLM (QwenVL-2.5)에 GRPO 기반의 RLT module을 통합하여 video-specific reasoning과 comprehension 능력을 post-training 단계에서 강화하는 것이 목표.
차별점: 단순한 fine-tuning이 아닌, reasoning 과정을 구조화하고, semantic과 temporal이라는 두 가지 차원에서 reward를 설계하여 최적화하는 pipeline을 제안.

2. Base Model 및 Reasoning 구조화

Base Model: Open-source 모델인 QwenVL-2.5를 VideoLLM으로 사용.
Structured Reasoning 강제: direct answer prediction을 넘어 명시적인 reasoning을 유도하기 위해, 출력을 <think>...</think><answer>...</answer> template으로 구조화함.
- 이는 model이 최종 답변 전 reasoning trace를 생성하도록 강제하여 output의 interpretability와 일관성을 높이는 효과를 가짐.
- 이 구조를 따르도록 유도하기 위해 별도의 format alignment reward ()를 도입함.

3. 핵심 Contribution: Dual Verifiable Rewards RLT의 방향을 결정하는 reward를 두 가지 차원에서 정교하게 설계함.

Global Discrete Semantic Reward ():
- 목표: High-level semantic reasoning 능력 향상.
- Task: Multi-Choice VideoQA (MC-VQA).
- 방식: 예측 답변()과 정답()이 일치하면 1, 아니면 0을 주는 binary accuracy-based reward. Global semantic understanding을 task에 맞게 alignment시키는 명확한 supervision을 제공.
- 수식:
Fine-Grained Continuous Temporal Reward ():
- 목표: Fine-grained temporal reasoning 능력, 즉 시간적 정밀성 향상.
- Task: Temporal Video Grounding (TVG).
- 방식: 예측한 시간 구간과 실제 시간 구간의 temporal IoU를 continuous reward로 사용. 이는 binary reward보다 훨씬 풍부하고 부드러운 gradient signal을 제공하여 model이 정확한 temporal localization을 학습하게 함.
- 수식:

4. GRPO를 이용한 최적화 (Optimization)

알고리즘: Preference-based RL algorithm인 GRPO를 채택.
GRPO 채택 이유: 별도의 value function이나 critic을 학습할 필요가 없음. 대신 동일 input에 대해 G개의 responses를 sampling하고, reward에 기반한 상대적 순위(relative quality)를 optimization에 직접 사용하여, 저자들이 설계한 검증 가능한(verifiable) reward 체계와 잘 부합함.
Task별 Reward 통합: MC-QA, TVG, Grounded VideoQA (GQA)에 대해 format, accuracy, IoU reward를 조합하여 최종 reward function을 정의함.
- MC-QA:
- TVG:
- GQA: (Semantic과 Temporal 능력을 결합)
최적화 과정: Sample된 response 그룹의 reward를 정규화하여 각 response의 상대적 우위(Advantage, )를 계산하고, 이를 통해 model이 더 높은 점수를 받은 response를 생성할 확률을 높이는 방향으로 업데이트함.

쉬운 설명 :

AI에게 영상 내용을 더 깊이 있게 이해시키는 특별한 과외 방법(Temporal-RLT)에 대한 설명입니다.

1. 학생과 규칙 정하기 (Base Model & Structured Reasoning)

먼저, 똑똑한 일반 학생 AI(QwenVL-2.5)를 데려옵니다.
이 학생에게 중요한 규칙을 가르칩니다. "답을 말하기 전에, 반드시 왜 그렇게 생각했는지 너의 생각 과정을 먼저 글로 써야 해." (<think>...<answer>... 규칙)
이 규칙을 잘 지키기만 해도 보너스 점수()를 줍니다. 이렇게 하면 AI가 왜 그런 답을 했는지 우리가 쉽게 이해할 수 있게 됩니다.

2. 두 가지 채점 방식 (Dual Rewards) 학생의 답변을 두 가지 기준으로 채점해서 피드백을 줍니다.

상식 퀴즈 채점 (): "영상 속 주인공이 입은 옷 색깔은?" 같은 객관식 문제에서는 '맞음' (1점) 또는 '틀림' (0점)으로 간단하게 채점합니다. 영상의 전체적인 내용을 잘 파악했는지 확인하는 과정입니다.
시간 맞히기 채점 (): "폭발 장면은 몇 초에 나왔어?" 같은 문제에서는, 정답과 조금이라도 가까우면 높은 점수를, 많이 벗어나면 낮은 점수를 줍니다. 1초 차이로 틀린 답이 1분 차이로 틀린 답보다 훨씬 높은 점수를 받는 식입니다. 이를 통해 AI가 시간의 흐름을 아주 정밀하게 파악하도록 훈련시킵니다.

3. 실전 모의고사와 상대평가 (GRPO Optimization)

AI에게 하나의 질문에 대해 여러 가지 가능한 답변을 만들어보게 합니다.
그 후, 어떤 답변이 다른 답변보다 더 나은지를 '상대평가'해서 알려줍니다. ("네가 낸 3개의 답안 중 1번이 가장 좋고, 3번이 가장 별로야.") 이것이 GRPO 방식입니다.
최종적으로는 "이 장면에서 주인공이 놀란 이유는 무엇이며, 그 표정이 나타난 시간은 정확히 언제야?"처럼, 이유를 맞히는 것과 시간을 맞히는 것을 동시에 잘해야 높은 점수를 주는 종합 문제(Grounded VideoQA)도 풀게 합니다.

이러한 체계적인 훈련법을 통해 AI는 단순히 영상에 대한 질문에 답하는 것을 넘어, 자신의 답변에 대한 논리적 근거를 영상 속 특정 시간과 연결하여 설명할 수 있는 한 단계 높은 수준의 전문가로 성장하게 됩니다.

3 Rethinking Data Efficiency for Video RLT

Data efficiency는 LLMs와 MLLMs의 post-training 및 fine-tuning에 매우 중요합니다. 이는 supervision의 효과적인 활용이 model capability를 더욱 향상시키는 핵심인, video understanding을 위한 GRPO-style RLT에서도 마찬가지로 필수적입니다. 이 섹션에서 우리는 GRPO optimization의 독특한 특성에 초점을 맞추고, 기존의 data diversity라는 가정 너머의 data efficiency를 분석합니다. 우리의 dual-reward formulation을 기반으로, 우리는 discrete reward와 continuous reward paradigms를 개별적으로 분석하고, video domain에서 reward-data utilization을 향상시키기 위한 원칙적인 전략을 제안합니다.

3.1 Difficulty Estimation via Multi-Sampling

GRPO는 학습을 유도하기 위해 sampled groups 내의 relative preference signals에 의존합니다. 따라서, training sample의 informativeness는 그것의 sampled outputs이 reward 값에서 충분한 diversity를 유도하는지에 크게 좌우됩니다. 만약 모든 outputs이 매우 정확하거나 일률적으로 저조하다면, 대조의 부재는 optimization signal을 제한합니다. 이를 정량화하기 위해, 우리는 통일된 multi-sampling 기반의 difficulty estimation 전략을 채택합니다. 각 training instance에 대해, 우리는 base VideoLLM (pre-RLT)을 사용하여 번의 inference 실행을 수행하고 sampled outputs에 걸쳐 reward 점수를 계산합니다. Discrete tasks (예: multi-choice QA)의 경우, 정답 responses의 수를 셉니다. Continuous tasks (예: temporal IoU)의 경우, 내부 reward spread를 평가합니다. 그런 다음 Samples는 관찰된 output variance에 따라 분류되며, 이는 후속 selection 및 prioritization의 기초를 형성합니다.

3.2 Data Efficiency under Discrete Rewards

Multi-choice QA tasks에서 각 sampled response는 예측된 답변이 ground truth와 일치하는지에 따라 binary reward $r_i \in {0, 1}$를 받습니다. 효과적인 GRPO optimization은 sampled group 내에 정답과 오답이 혼합되어 있어야 하며, 이를 통해 품질이 낮은 responses를 품질이 높은 쪽으로 aligned 시킬 수 있습니다.

이러한 혼합 가능성을 근사화하기 위해, 우리는 번의 base model inferences 중 정답 예측의 빈도를 기반으로 difficulty를 정의합니다. 우리는 sample을 다음과 같이 분류합니다: Easy if , Hard if , otherwise Medium, 여기서 는 번 중 정답 예측의 수입니다. 우리는 충분한 behavioral variance를 보장하기 위해 medium-difficulty samples를 유지하며, 이는 더 효과적인 preference-based learning을 지원합니다.

3.3 Data Efficiency under Continuous Rewards

Continuous temporal IoU supervision을 사용하는 grounding tasks에서는 binary correctness가 더 이상 적용되지 않습니다. 대신, 우리는 difficulty를 추정하기 위해 각 sampled group 내의 IoU scores의 spread를 평가합니다. 직관적으로, 예측이 넓은 범위의 IoUs를 산출하는 samples가 더 강력한 relative learning signals을 제공합니다. 제한된 sampling () 하에서의 직접적인 variance computation의 불안정성을 피하기 위해, 우리는 reward discrepancy에 기반한 근사 metric을 다음과 같이 정의합니다:

여기서 더 높은 $\Delta\text{IoU}$는 더 큰 내부 diversity를 나타냅니다. spread가 미미한 Samples는 그룹 내에서 preference gradients를 생성하지 못하므로 training에서 제외됩니다.

3.4 Difficulty-Aware Data Construction

GRPO 하에서 효과적인 training을 지원하기 위해, 우리는 video RLT를 위한 difficulty-aware dataset을 구축하며, 이는 두 가지 전문화된 subsets으로 구성됩니다: (1) VideoQA, Temporal Video Grounding, Grounded VideoQA tasks를 위한 다양한 domain data를 포함하는 우리의 기초 dataset으로서의 Temporal-RLT-Full-490k, 그리고 (2) sample diversity와 training efficacy에 최적화된 정제된 subset인 Temporal-RLT-32k. 우리의 raw corpus는 그림 3에서 시각화된 바와 같이 여러 benchmark datasets을 포괄하는, 다양한 semantics와 temporal scopes를 가진 대규모 video-question pairs 및 temporal grounding data를 포함합니다.

우리는 먼저 base VideoLLM을 통해 large-scale scaling inference를 사용하여 Temporal-RLT-Full-490k에 대한 offline difficulty estimation을 수행합니다. 각 training instance는 우리의 통일된 multi-sampling pipeline을 사용하여 평가되고, (discrete tasks의 경우 accuracy frequency, continuous tasks의 경우 intra-group reward variation에 기반한) task-specific difficulty score가 할당됩니다. 이 분석을 기반으로, 우리는 안정적이고 유익한 GRPO updates를 생성하는 데 경험적으로 더 효과적인 것으로 입증된, 주로 medium-difficulty samples로 구성된 신중하게 선별된 training subset인 Temporal-RLT-32k를 파생합니다.

이러한 difficulty-aware data construction은 정보가 없는 (easy) samples에 대한 중복된 updates를 줄이고 노이즈가 많은 (hard) samples로 인한 불안정성을 완화함으로써 sample efficiency를 향상시킵니다. 또한 이는 이질적인 reward 유형에 걸쳐 consistency를 보장하여, semantic 및 temporal reasoning tasks를 위한 통합된 optimization framework를 가능하게 합니다.

Rethinking Data Efficiency for Video RLT (Section 3) 핵심 정리 (AI 연구자용)

1. 문제 정의: GRPO를 위한 진정한 Data Efficiency란 무엇인가?

RLT, 특히 GRPO에서 data efficiency는 단순히 data의 양이나 diversity 문제가 아님. GRPO는 sampled group 내 outputs 간의 상대적 reward 차이를 통해 학습하므로, training sample의 '유용성(informativeness)'이 핵심임.
Sample에서 생성된 모든 outputs이 비슷하게 좋거나 나쁘다면, reward의 차이가 거의 없어 optimization signal이 매우 약해짐. 따라서 학습에 효과적인, 즉 reward의 diversity를 유발하는 sample을 선별하는 것이 중요함.

2. 핵심 전략: Multi-Sampling 기반의 Difficulty-Aware 데이터 선별

GRPO training에 들어가기 앞서, offline 단계에서 각 sample의 '난이도'를 미리 측정하고, 가장 유용한 sample들만으로 dataset을 구성하는 전략을 제안함.
통합 난이도 측정 방법 (Multi-Sampling): Base VideoLLM을 사용하여 각 training instance에 대해 번의 inference를 반복 수행하고, 그 결과로 나온 outputs의 reward 분포를 분석함.

3. Reward 종류에 따른 맞춤형 난이도 Metric Dual-reward 체계에 맞춰 discrete과 continuous reward 각각에 대한 난이도 측정 방식을 다르게 정의함.

Discrete Rewards (MC-QA 등):
- Metric: 번의 inference 중 정답을 맞힌 횟수().
- 분류: 정답률()이 특정 임계값() 이상이면 Easy, 다른 임계값() 이하이면 Hard, 그 사이는 Medium으로 분류.
- 선별 전략: Medium 난이도의 sample을 집중적으로 선택. Easy sample은 reward 차이를 만들기 어렵고, Hard sample은 유용한 signal을 주기 어렵기 때문. Medium sample은 GRPO가 선호하는 정답과 오답이 섞인 output group을 생성할 확률이 가장 높음.
Continuous Rewards (Temporal Grounding 등):
- Metric: IoU 점수의 binary 정답/오답이 없으므로, sampled group 내 IoU 점수들의 '분산(spread)'을 difficulty의 척도로 사용. 분산이 클수록 상대적 비교를 통한 학습 signal이 강함.
- 근사 Metric: 불안정한 variance 직접 계산 대신, reward의 최대값과 평균값의 차이인 $\Delta\text{IoU} = \max_i \text{IoU}_i - \text{mean}_i(\text{IoU}_i)$를 사용. 이 값이 클수록 내부 diversity가 높다고 판단.
- 선별 전략: $\Delta\text{IoU}$가 높은 sample을 선택하고, spread가 거의 없는(모든 output의 IoU가 비슷한) sample은 학습에서 제외.

4. 최종 Dataset 구축 및 효과

프로세스: 대규모 원본 corpus(Temporal-RLT-Full-490k)에 대해 offline으로 multi-sampling 기반 난이도 측정을 수행하여, Medium-difficulty 및 high-variance sample 위주로 구성된 작지만 효율적인 subset(Temporal-RLT-32k)을 구축.
기대 효과:
- Sample Efficiency 향상: 정보 가치가 낮은(easy) sample이나 noise가 많은(hard) sample에 대한 불필요한 training을 줄여 학습 효율을 극대화.
- 안정적인 학습: GRPO에 안정적이고 유익한 update를 제공하는 sample에 집중하여 학습 안정성을 높임.
- 통합 Framework 지원: 이질적인 reward 유형에 대해 일관된 difficulty-aware 데이터 구성 방식을 적용하여, semantic과 temporal reasoning을 위한 통합 optimization을 가능하게 함.

쉬운 설명 :

AI를 훈련시킬 때 "어떤 문제를 풀어야 가장 효율적으로 똑똑해질까?"에 대한 해답을 찾는 과정입니다.

1. 문제점: 비효율적인 공부법 AI에게 무작정 많은 문제를 풀게 하는 것은 비효율적입니다. 학생에게 너무 쉬운 문제만 주면 실력이 늘지 않고, 너무 어려운 문제만 주면 아예 포기해버리는 것과 같습니다. GRPO라는 학습 방식은 AI가 여러 답안을 내놓으면 '어떤 답이 더 나은지'를 비교하며 배우는데, 모든 답안이 다 정답이거나 다 오답이면 비교할 의미가 없어 학습 효과가 떨어집니다.

2. 해결책: '영양가 높은 문제'만 골라내기 이 논문은 AI에게 본격적으로 문제를 풀리기 전에, 어떤 문제가 '영양가 높은 문제'인지 미리 테스트해서 골라내는 방법을 제안합니다.

사전 테스트 (Multi-Sampling): 본 게임에 들어가기 전, 테스트용 AI에게 각 문제를 여러 번(예: 10번) 풀어보게 합니다.
문제 난이도 채점: 테스트 AI의 성적을 보고 문제 자체의 난이도를 채점합니다.
- 객관식 문제: 테스트 AI가 10번 중 10번 다 맞히면 그 문제는 '너무 쉬움'. 10번 다 틀리면 '너무 어려움'. 5~6번 정도 맞히면 '적당히 어려움' (Medium)으로 분류합니다. AI를 훈련시키기엔 이 Medium 난이도 문제가 가장 좋습니다. 헷갈려 한다는 것 자체가 배울 점이 많다는 뜻이기 때문입니다.
- 시간 맞히기 문제: "자동차가 언제 지나갔어?" 같은 문제에서는, 테스트 AI가 답을 할 때마다 시간 예측값이 크게 달라지는 문제들을 '영양가 높은 문제'로 봅니다. 답이 계속 흔들린다는 것은 AI가 확실히 모르고 있다는 뜻이므로, 이 부분을 집중적으로 가르치면 실력이 크게 늡니다.

3. 최종 결과: 맞춤형 핵심 요약 문제집 만들기

이런 방식으로 수십만 개의 문제(Temporal-RLT-Full-490k)를 모두 테스트해서 난이도를 분류합니다.
그중에서 가장 학습 효과가 좋은 '적당히 어려운' 문제들과 '답이 흔들리는' 문제들만 약 3만 개(Temporal-RLT-32k)를 추려내 '핵심 요약 문제집'을 만듭니다.

결론적으로, 이렇게 엄선된 문제집으로 공부한 AI는 쓸데없는 문제에 시간을 낭비하지 않고 훨씬 빠르고 효율적으로 영상 이해 능력을 향상시킬 수 있습니다. 이것이 바로 Data Efficiency를 높이는 방법입니다.

주인장이해...

SFT 데이터셋 준비:
- (아마도 Gemini나 GPT-4 같은 강력한 Teacher 모델을 사용하거나 템플릿을 통해) 대규모 비디오 데이터에 대해 **질문 - 생각(근거) - 정답 형식의 SFT 데이터셋(Temporal-RLT-Full-490k)**을 먼저 만듭니다.
핵심 학습 데이터 선별 (Variance-Aware Data Selection):
- 학습시키려는 Qwen-VL-2.5-VL 모델을 이용해 위 데이터셋의 문제들을 여러 번 풀게 해봅니다.
- 그 결과, 모델이 '헷갈려하는' (즉, 정답과 오답을 오가거나 예측값의 편차가 큰) 문제들만 신중하게 골라 **32,000개(Temporal-RLT-32k)**의 핵심 데이터셋을 구축합니다.
RLT 강화학습 (Dual-Reward):
- 이 32k 데이터셋을 가지고 강화학습(RLT)을 진행합니다.
- 이때, 모델이 생성한 답변을 채점하는데,
  - 객관식 문제처럼 정답이 명확하면 맞거나 틀리거나 (Discrete Reward) 로 점수를 주고,
  - "언제 일어났나?"처럼 정답이 시간 범위(range)인 경우에는, 예측한 범위와 실제 정답 범위가 얼마나 겹치는지를 tIoU 점수로 계산하여 추가적인 보상(Continuous Reward)을 줍니다.

'논문리뷰' 카테고리의 다른 글

VLM : 논문리뷰 : VideoMultiAgents: A Multi-Agent Framework for Video Question Answering (2)	2025.06.30
VLM : 논문리뷰 : VersaVid-R1: A Versatile Video Understanding and Reasoning Model from Question Answering to Captioning Tasks (3)	2025.06.29
VLM : 논문리뷰 : VIDEORFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning (5)	2025.06.29
benchmark : 논문리뷰 : GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning (6)	2025.06.26
Benchmark : 논문리뷰 : MVBench: A Comprehensive Multi-modal Video Understanding Benchmark (4)	2025.06.25

'논문리뷰' Related Articles

AI바라기의 인공지능

VLM : 논문리뷰 : Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency 본문

VLM : 논문리뷰 : Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency

쉬운 설명 (Simple Explanation)

Temporal-RLT: Reinforcement Learning Tuning for VideoLLMs 학습 노트

용어 설명 (Glossary)

Purpose of the Paper

Key Contributions & Novelty

Experimental Highlights

Limitations and Future Work

Overall Summary

Abstract

Figure 1: video understanding task를 위한 post-training의 reward-based framework 개요

상단 좌측: VideoQA에서의 Discrete Reward

상단 우측: Temporal Grounding에서의 Continuous Reward

하단 좌측: Reward-Based Selection

하단 우측: Performance

1 Introduction

Figure 2: Training Framework 개요

Temporal-RLT: Introduction 핵심 정리 (AI 연구자용)

쉬운 설명 :

2 Temporal-RLT

2.1 Base Model: QwenVL-2.5 with Structured Reasoning

2.2 Dual Verifiable Rewards in Video Tasks

2.3 Temporal-RLT Optimization with GRPO

Figure 3: Temporal-RLT-Full-490k Training Dataset 통계

왼쪽: 데이터셋 구성 (도넛 차트)

오른쪽: 데이터 소스 상세 정보 (표)

피규어 설명 (Figure Caption)

Temporal-RLT (Section 2) 핵심 정리 (AI 연구자용)

쉬운 설명 :

3 Rethinking Data Efficiency for Video RLT

3.1 Difficulty Estimation via Multi-Sampling

3.2 Data Efficiency under Discrete Rewards

3.3 Data Efficiency under Continuous Rewards

3.4 Difficulty-Aware Data Construction

Rethinking Data Efficiency for Video RLT (Section 3) 핵심 정리 (AI 연구자용)

쉬운 설명 :

'논문리뷰' 카테고리의 다른 글

티스토리툴바