AI바라기의 인공지능
VLM : 논문리뷰 : VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning 본문
VLM : 논문리뷰 : VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning
AI바라기 2025. 5. 6. 18:44VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning 학습 노트
용어 설명 (Terminology)
- MLLM (Multimodal Large Language Model): Text, image, video 등 다양한 종류의 데이터를 이해하고 생성할 수 있는 대규모 언어 모델.
- RFT (Reinforcement Fine-Tuning): 강화학습(Reinforcement Learning)을 사용하여 사전 학습된 모델을 특정 작업에 맞게 미세 조정하는 과정.
- GRPO (Group Relative Policy Optimization): 여러 후보 응답 그룹 내에서 상대적인 보상을 통해 policy를 최적화하는 강화학습 알고리즘. Critic model 없이 학습 가능하여 효율적이며, DeepSeek-R1에서 제안됨.
- Spatio-temporal Perception: 비디오 내에서 공간적(어디에) 정보와 시간적(언제) 정보를 인식하고 이해하는 능력.
- Temporal Grounding: Text 질의에 해당하는 비디오 내의 시간 구간(temporal segment)을 찾는 작업.
- Object Tracking: 비디오에서 특정 객체의 움직임을 프레임별로 추적하는 작업.
- Rule-based reward mechanism: 특정 규칙에 기반하여 보상(reward)을 제공하는 시스템. 예를 들어, 정답 형식이 맞으면 보상, IoU(Intersection over Union)가 높으면 보상 등을 제공.
- SFT (Supervised Fine-Tuning): 정답이 있는 레이블링된 데이터를 사용하여 모델을 특정 작업에 맞게 학습시키는 전통적인 방식.
- Qwen2.5-VL-7B: 본 연구의 baseline 모델로 사용된 강력한 open-source vision-language model.
- Chain-of-thought (CoT): 모델이 최종 답변을 내기 전에 중간 추론 과정을 단계별로 생성하도록 유도하는 방식.
- Glue (signal): (GQA, Grounding QA 문맥에서) QA 답변과 함께 답변의 근거가 되는 비디오 내 시간 정보(temporal cues)를 함께 제공하는 것을 의미.
- Data-efficient: 적은 양의 학습 데이터로도 높은 성능을 달성할 수 있음을 의미.
Purpose of the Paper
- 기존 video MLLM 연구는 주로 일반적인 video understanding에 초점을 맞추거나, spatio-temporal perception 향상을 위해 대규모 supervised fine-tuning을 필요로 하거나, 일반적인 chat 능력이 저하되는 한계가 있었음.
- Text 및 image domain에서 GRPO와 같은 RL 기반 접근법이 reasoning 능력 향상에 효과를 보였지만, video domain, 특히 spatio-temporal perception에 대한 적용 및 체계적인 분석은 미흡했음.
- 이 논문은 RFT (Reinforcement Fine-Tuning)와 GRPO를 video MLLM에 체계적으로 적용하여, 제한된 데이터로도 spatio-temporal perception 능력을 크게 향상시키면서 기존의 일반적인 chat 능력을 유지하는 것을 목표로 함. 즉, data-efficient 하면서도 task-specific 성능 향상과 general capability 보존이라는 두 마리 토끼를 잡고자 함.
Key Contributions & Novelty
- Contribution 1: Video MLLM을 위한 RFT, 특히 GRPO의 체계적인 탐구 및 적용.
- Novelty: GRPO가 text/image reasoning에 주로 사용되었으나, 이를 video domain의 spatio-temporal perception 향상에 적용하고 그 효과를 다각도로 분석한 최초의 연구 중 하나.
- Contribution 2: 제한된 spatio-temporal perception data를 활용한 multi-task RFT를 통해 VideoChat-R1 개발.
- Novelty: 소량의 데이터(1000~10000개 샘플)로 multi-task RFT를 수행하여, 특정 spatio-temporal task (temporal grounding, object tracking)에서 SOTA 수준의 성능을 달성했을 뿐 아니라, 일반적인 QA benchmark에서도 성능 향상을 보임. 이는 RFT의 data-efficiency를 입증.
- Contribution 3: RFT가 video MLLM의 특정 task 성능 향상에 매우 data-efficient함을 입증.
- Novelty: 전통적인 SFT 방식보다 적은 데이터로도 특정 task 성능을 크게 향상시키며, out-of-domain task 및 모델의 원래 general capabilities에 미치는 부정적 영향이 훨씬 적음을 실험적으로 보여줌.
- Contribution 4: Video spatio-temporal task를 위한 맞춤형 rule-based reward functions 설계.
- Novelty: Temporal grounding, object tracking, video QA, captioning 등 다양한 video task에 적합한 format reward, IoU reward, accuracy reward, recall reward 등을 조합하여 GRPO 학습에 효과적으로 활용함.
Experimental Highlights
- Baseline Model: Qwen2.5-VL-7B
- Key Datasets for RFT: Charades-STA (temporal grounding), GoT-10k (object tracking), NEXTGQA (QA, grounding QA), FIBER-1k (captioning), VidTAB (quality assessment). 총 18,031 샘플 사용.
- Evaluation Benchmarks:
- Spatio-temporal: Charades-STA (in-domain), ActivityNet-Grounding (out-domain), GoT-10k, NEXTGQA.
- General QA: VideoMME (short subset), MVBench, Perception Test.
- Key Results (VideoChat-R1 vs. Qwen2.5-VL-7B):
- Temporal Grounding (Charades-STA mIoU): +31.8 (60.8 vs 29.0)
- Object Tracking (GoT Overlap): +31.2 (43.8 vs 12.6)
- General QA Benchmarks:
- VideoMME (Short-Avg): +0.9 (72.2 vs 71.3)
- MVBench (Avg): +1.0 (67.9 vs 66.9)
- Perception Test (Val): +0.9 (70.0 vs 69.1)
- Multi-task RFT의 시너지 효과: Temporal grounding, object tracking, grounding QA 세 가지 task를 함께 RFT했을 때 (VideoChat-R1), 각 task를 단독으로 RFT했을 때보다 전반적으로 더 좋은 성능을 보임 (Table 6).
- RFT vs. SFT: RFT가 SFT에 비해 적은 epoch으로도 더 높은 성능을 달성하고, overfitting에 강하며, general capability를 더 잘 보존함 (Table 2, 3, 5).
Limitations and Future Work
- Limitations:
- Chain-of-thought (CoT)의 제한적 효과: 현재 연구에서 다룬 spatio-temporal perception task에서는 CoT를 사용한 thinking process가 반드시 성능 향상으로 이어지지 않았으며, 때로는 direct output보다 성능이 낮았음. 이는 현재 학습 데이터가 복잡한 video reasoning chain을 활성화하기에 충분하지 않기 때문일 수 있음. (Section 4.2)
- Rudimentary thought process: Text나 image domain의 수학 문제 해결과 비교했을 때, VideoChat-R1의 thought process는 상대적으로 단순하고 기초적인 수준에 머무름. (Section 5)
- Future Work:
- GRPO와 SFT의 대규모 비교 연구: 다양한 조건에서의 심층적인 비교 분석 필요.
- Video reasoning을 위한 CoT 탐구: CoT의 잠재력을 발휘할 수 있는 적절한 video reasoning task 정의 및 평가 방법론 개발.
- Video MLLM을 위한 RL 연구 확장: 더 큰 규모의 multi-task collaborative training 등 RL 기반 video MLLM 연구의 잠재력 탐구. (Section 5)
Overall Summary
이 논문은 video MLLM의 spatio-temporal perception 능력을 향상시키기 위해 RFT (Reinforcement Fine-Tuning)와 GRPO (Group Relative Policy Optimization)를 적용한 VideoChat-R1 모델을 제안한다. 실험 결과, VideoChat-R1은 매우 적은 양의 데이터(수천~수만 건)를 사용한 multi-task RFT만으로도 temporal grounding, object tracking과 같은 특정 spatio-temporal task에서 기존 SOTA 모델(Qwen2.5-VL-7B) 대비 큰 폭의 성능 향상을 보였으며, 동시에 일반적인 video QA 능력도 유지하거나 소폭 향상시키는 데 성공했다. 이는 RFT가 video MLLM의 특정 능력을 data-efficient하게 강화하는 효과적인 패러다임임을 시사하며, 향후 video MLLM 분야의 RL 연구에 중요한 통찰을 제공한다.
쉬운 설명 (Easy Explanation)
이 논문은 비디오 AI(VideoChat-R1)가 "언제 어디서 특정 사건이 일어났는지" (spatio-temporal perception) 더 잘 이해하도록 가르치는 새로운 방법을 제안합니다. 마치 학생에게 특정 기술을 가르칠 때, 정답지를 주고 외우게 하는 대신(SFT), 학생이 여러 가지 시도를 해보고(후보 응답 생성) 선생님이 "이 방법이 저 방법보다 낫네" 하고 상대적으로 더 좋은 답을 고르도록 피드백을 주는 방식(GRPO라는 강화학습)과 비슷합니다. 이 방법을 사용하면 아주 적은 양의 예제(data-efficient)만으로도 비디오 속 물체를 추적하거나 특정 장면이 나오는 시간을 찾는 능력이 크게 향상되고, 원래 가지고 있던 일반적인 대화 능력(chat ability)도 거의 그대로 유지할 수 있습니다. 즉, "특기생"을 만들면서도 "일반 교양"을 잊지 않게 하는 효율적인 학습법이라고 볼 수 있습니다.
Abstract
Recent advancements in reinforcement learning은 multimodal large language models (MLLMs)의 reasoning capabilities를 크게 향상시켰습니다.
Group Relative Policy Optimization (GRPO) 및 rule-based reward mechanisms과 같은 접근 방식이 text 및 image domain에서 가능성을 보여주지만, video understanding에 대한 적용은 여전히 제한적입니다. 본 논문은 general capabilities를 유지하면서 spatio-temporal perception을 향상시키는 것을 목표로 video MLLMs에 대한 GRPO를 사용한 Reinforcement Fine-Tuning (RFT)의 체계적인 탐구를 제시합니다.
우리의 실험은 RFT가 task-specific improvements에 매우 data-efficient하다는 것을 보여줍니다. 제한된 samples을 사용하여 spatio-temporal perception objectives에 대한 multi-task RFT를 통해, 우리는 chat ability를 희생하지 않으면서 spatio-temporal perception tasks에서 state-of-the-art performance를 달성하고, 새로운 spatio-temporal reasoning abilities를 나타내는 강력한 video MLLM인 VideoChat-R1을 개발했습니다.
Qwen2.5-VL-7B와 비교하여 VideoChat-R1은 temporal grounding (+31.8) 및 object tracking (+31.2)과 같은 tasks에서 performance를 몇 배 향상시킵니다. 또한 VideoMME (+0.9), MVBench (+1.0), Perception Test (+0.9)와 같은 general QA benchmarks에서도 크게 향상되었습니다.
우리의 연구 결과는 Video MLLMs의 specialized task enhancement를 위한 RFT의 잠재력을 강조합니다. 우리는 우리의 연구가 video MLLMs 분야의 향후 RL research에 귀중한 insights를 제공하기를 바랍니다.
Figure 1: VideoChat-R1 개요. GRPO를 사용한 reinforcement learning fine-tuning을 통해 VideoChat-R1은 강력한 spatio-temporal perception capabilities를 가지며 이러한 capabilities를 chatting scenarios에 적용할 수 있습니다.
이미지 설명 (Figure 1)
이 이미지는 VideoChat-R1 모델의 개요를 보여줍니다. 크게 두 부분으로 나눌 수 있습니다.
- 왼쪽 (Video Reinforcement Fine-Tuning with GRPO):
- Few training samples (1000-10000개)를 사용하여 Policy Model을 학습시키는 과정을 나타냅니다.
- Reference Model과 Policy Model 사이에는 KL divergence constraint가 있습니다.
- Policy Model은 Group Relative Policy Optimization (GRPO)를 사용하여 Reward Function으로부터 피드백을 받습니다.
- Reward Function은 다양한 video tasks (Format reward, IoU reward, Accuracy reward, Caption reward)를 기반으로 합니다.
- 이 전체 과정을 통해 VideoChat-R1 모델이 생성됩니다 (중앙의 캐릭터 아이콘).
- 오른쪽 (Spatio-Temporal Perception 및 Chat):
- Spatio-Temporal Perception 예시:
- 첫 번째 질문은 비디오에서 특정 좌표([0.2, 0.5, 0.3, 0.9])를 사용하여 토끼를 추적하라는 것입니다. 이미지 시퀀스는 시간에 따라(9.2초, 10.0초) 상자(bounding box)로 토끼를 추적하는 모습을 보여줍니다.
- 두 번째 질문은 비디오의 어느 시점에서 토끼가 다른 토끼 위로 점프하는지 묻습니다.
- Chat with enhanced Spatio-Temporal Perception 예시:
- 운전자가 시작 부분에서 핸들을 놓은 후 무엇을 하는지 묻는 질문입니다. 이미지 시퀀스는 운전자가 춤을 추는 듯한 모습을 보여줍니다 (3.8초, 17.9초).
- 아래에는 VideoChat-R1의 답변 예시가 나와 있으며, 생각 과정(<think>...</think>)과 최종 답변(<answer>...</answer>) 형식을 보여줍니다. 답변은 운전자가 춤을 추고 있으며, 이는 신체 언어와 얼굴 표정(3.8초, 17.9초)에서 관찰할 수 있다고 설명합니다.
- Spatio-Temporal Perception 예시:
종합: 이 그림은 VideoChat-R1이 GRPO를 이용한 reinforcement learning fine-tuning을 통해 학습되며, 적은 데이터로도 비디오 내 객체 추적이나 행동 인식과 같은 강력한 시공간 인식 능력을 갖추게 되고, 이를 바탕으로 사용자와 자연스러운 대화(chat)를 수행할 수 있음을 시각적으로 보여줍니다.
1 Introduction
large language models (LLMs) domain에서 reinforcement learning (RL) 적용의 최근 발전은 놀라운 진전을 보여주었습니다. OpenAI-O1에서 입증되었듯이, test-time scaling strategies의 구현은 복잡한 reasoning을 위한 LLMs의 역량을 향상시키는 데 상당한 잠재력을 보여주었습니다. 이후 DeepSeek-R1-Zero는 광범위한 supervised fine-tuning 없이도 reward modeling을 위한 rule-based reward system의 전략적 적용이 reinforcement learning을 효과적으로 활용하여 language models에서 뛰어난 reasoning 및 인지 capabilities를 발휘할 수 있음을 밝혔습니다.
현재 연구 노력은 multimodal large language models (MLLMs)에서 DeepSeek-R1의 성공을 재현하는 데 점점 더 초점을 맞추고 있습니다. 특히 Virgo는 DeepSeek-R1, QwQ, QvQ와 같은 open-source reasoning models로부터 knowledge distillation을 통해 visual reasoning capabilities를 부여하려고 시도했습니다. 그러나 주된 연구 방향은 DeepSeek-R1의 핵심인 Group Relative Policy Optimization (GRPO)과 rule-based reward system을 직접 구현하여 MLLMs에서 visual reasoning을 가능하게 하는 것을 강조합니다. 이 접근 방식은 주로 visual inputs을 사용한 mathematical reasoning 및 spatial localization challenges를 포함하는 multimodal tasks의 performance 향상에 집중해 왔습니다.
Video understanding의 경우, reasoning abilities를 자극하고 평가하는 관점에서 볼 때, text 및 images 분야의 수학 문제나 코딩 문제만큼 적합한 training 및 evaluation corpus가 없습니다. 우리의 연구와 동시에 수행된 일부 연구는 temporal grounding 및 video question answer와 같은 특정 video tasks에서 supervised fine-tuning보다 GRPO algorithm의 우수성을 검증했습니다. 그러나 video reasoning mechanisms에 초점을 맞춘 더 깊은 분석과 포괄적인 ablation experiments는 아직 충분히 탐구되지 않았습니다. 현재 연구의 공백에는 다양한 video-based reasoning scenarios에 대한 algorithm의 generalizability에 대한 체계적인 평가와 rule-based reward systems과 multimodal temporal dependencies 간의 상호 작용에 대한 세분화된 조사가 포함됩니다.
Video reasoning과 비교하여, spatio-temporal perception은 training corpora를 얻고 rule-based reward system을 설계하기 더 쉬운 방향입니다. 기존 video MLLMs의 spatiotemporal perception ability 향상을 핵심으로 삼아, 본 논문은 다양한 video tasks에 대한 Reinforcement Fine-Tuning (RFT)의 효과를 체계적이고 포괄적으로 검토하여 향후 연구에 중요한 insights를 제공하는 것을 목표로 합니다. 우리의 주요 연구 결과는 다음과 같습니다.
- Reinforcement fine-tuning은 원래 capabilities를 희생하지 않으면서 특정 tasks에 대한 models 향상에 data-efficient합니다. 소량의 data로 RFT를 통한 training은 spatio-temporal perception ability에서 현저한 향상을 가져올 수 있으며, out-domain tasks의 performance와 model의 원래 general capabilities에는 무시할 수 있는 영향을 미칩니다. 이는 전통적인 supervised fine-tuning보다 상당히 우수합니다.
- Multiple spatio-temporal perception tasks에 대한 joint reinforcement fine-tuning을 통해, 우리는 chat abilities를 고려하면서 state-of-the-art spatio-temporal perception capabilities를 자랑하는 강력한 Video MLLM인 VideoChat-R1을 구축합니다. 우리는 또한 spatio-temporal perception tasks에 대한 training이 model의 spatio-temporal reasoning abilities를 약간 강화했음을 발견했습니다. Qwen2.5-VL-7B와 비교하여 VideoChat-R1은 temporal grounding (+31.8) 및 object track (+31.2)과 같은 spatiotemporal perception tasks에서 몇 배의 performance 향상을 달성합니다. 동시에 VideoMME (+0.9), MVBench (+1.0), Perception Test (+0.9)와 같은 general QA benchmarks에서도 상당한 개선을 달성합니다.
Introduction 섹션 정리 노트 (AI 연구자용)
배경 및 동향:
- LLM 분야에서 RL (특히 DeepSeek-R1의 GRPO + rule-based reward)을 활용한 reasoning 능력 향상이 성공적으로 입증됨.
- 이러한 성공을 MLLM으로 확장하려는 시도가 증가하고 있으며, 주로 image 기반 reasoning (visual math, spatial localization 등)에 집중됨.
문제점 및 연구 공백 (Gap):
- Video MLLM domain에서 GRPO 기반 RFT (Reinforcement Fine-Tuning)의 체계적인 연구 및 적용이 부족함.
- 특히 Video reasoning 능력 향상을 위한 적절한 training/evaluation corpus 부재.
- Video spatio-temporal perception 향상 및 그 효과에 대한 깊이 있는 분석, ablation, generalizability 연구가 미흡함.
본 논문의 초점 및 기여:
- Video MLLM의 spatio-temporal perception 능력 향상을 목표로, GRPO를 사용한 RFT의 효과를 체계적으로 탐구함.
- Video task (temporal grounding, object tracking 등)에 적합한 rule-based reward system을 활용한 RFT 수행.
주요 실험 결과 (Findings Preview):
- Data Efficiency & Capability Preservation: RFT는 소량의 데이터(Few training samples)로 특정 video task (spatio-temporal perception) 성능을 크게 향상시키는 데 매우 data-efficient 함. 동시에 기존 general capabilities (chat ability, out-domain tasks) 저하 없이 성능 향상 가능 (기존 SFT 대비 우수).
- VideoChat-R1 개발: Multi-task RFT (spatio-temporal perception objectives)를 통해 VideoChat-R1 모델 구축.
- SOTA 달성 및 성능 향상:
- VideoChat-R1은 spatio-temporal perception tasks (temporal grounding +31.8, object track +31.2 vs. Qwen2.5-VL-7B)에서 SOTA 달성.
- General video QA benchmarks (VideoMME +0.9, MVBench +1.0, Perception Test +0.9)에서도 성능 향상 관찰됨 -> chat ability 희생 없음을 시사.
- 부가적으로 spatio-temporal reasoning 능력의 향상 가능성 관찰됨.
목표: Video MLLM 분야에서 향후 RL 연구 방향에 대한 insights 제공.
쉬운 설명 :
최근 인공지능 언어 모델(LLM)이 '강화학습(RL)'이라는 방법으로 똑똑해지는 연구(예: DeepSeek-R1)가 성공했어요. 글뿐만 아니라 이미지나 비디오까지 이해하는 모델(MLLM)에도 이 방법을 써보려는 시도가 많아졌죠. 특히 이미지 속 수학 문제를 풀거나 위치를 찾는 데는 효과가 좋았어요.
그런데 문제는, 이 똑똑하게 만드는 방법(RL, 특히 GRPO 방식)을 비디오를 이해하는 모델에 제대로 써본 연구는 아직 부족하다는 거예요. 특히 비디오에서 '언제', '어디서' 일이 벌어지는지 파악하는 능력(spatio-temporal perception)을 이 방법으로 얼마나 잘 키울 수 있는지, 깊이 파고든 연구가 없었어요. 비디오는 글이나 이미지보다 복잡한 추론 문제를 만들기도 어렵고요.
그래서 이 논문은, 기존 비디오 이해 모델을 데려다가, GRPO라는 강화학습 기법으로 '언제', '어디서'를 잘 파악하도록 특별 훈련(Reinforcement Fine-Tuning, RFT)시키는 실험을 아주 체계적으로 해봤어요.
그 결과, 아주 흥미로운 점들을 발견했어요:
- 이 특별 훈련(RFT)은 데이터를 아주 조금만 써도 효과가 좋았어요.
- 비디오 속 물체를 따라가거나 특정 행동이 언제 일어나는지 맞추는 능력이 엄청나게 좋아졌어요.
- 가장 중요한 건, 이렇게 특정 능력을 키웠는데도 원래 모델이 가지고 있던 일반적인 대화 능력은 전혀 떨어지지 않았고, 오히려 다른 비디오 질문 답변 능력도 살짝 좋아졌다는 거예요!
- 이 방법으로 VideoChat-R1이라는 새로운 모델을 만들었는데, 비디오 속 시간/공간 이해 능력은 최고 수준이면서 대화도 잘해요.
결론적으로, 비디오 모델을 특정 능력(시공간 인식)에 맞춰 강화학습으로 튜닝해도, 전체적인 능력을 해치지 않고 오히려 더 좋아질 수 있다는 가능성을 보여준 연구라고 할 수 있습니다.
2 Related work
Reinforcement Learning Enhancement for MLLMs
최근 OpenAI-o1 및 DeepSeek-R1과 같은 연구들은 reinforcement learning (RL)을 통해 large language models (LLMs)의 reasoning capabilities를 향상시키는 데 상당한 돌파구를 마련했습니다. 이러한 발전들은 어려운 math 및 coding 문제를 포함한 복잡한 tasks를 chains 형태로 해결하는 능력을 향상시킵니다. MLLMs의 경우, 많은 노력들이 verifiable reward mechanisms을 갖춘 RL techniques를 적용하여 visual reasoning performance를 증진시키려 했습니다. Video domain에서의 연구는 상대적으로 덜 탐구되었으며, 단지 몇몇 연구만이 RL-based strategies를 spatiotemporal reasoning에 적용하는 방법을 조사했습니다. 구체적으로, TimeZero와 R1-Omini는 각각 temporal grounding과 sentiment analysis에서 GRPO의 잠재력을 보여주었습니다. Video-R1은 GRPO를 확장하여 암시적 temporal reasoning을 촉진하고 video spatial reasoning에서 개선을 달성했습니다.
Spatio-Temporal Perception of MLLMs
Spatio-temporal perception은 video understanding models의 가장 핵심적인 capabilities 중 하나입니다. Video Multimodal Large Language Models (video MLLMs)가 최근 video question answering 및 captioning과 같은 general understanding tasks에서 상당한 진전을 이루었음에도 불구하고, MLLMs의 video performance는 여전히 인간 (심지어 고전적인 vision expert models)에 비해 눈에 띄게 뒤처집니다. Merlin과 TimeSuite는 MLLM의 temporal abilities를 위해 spatio-temporal data augmentation을 도입했지만, 이는 general performance를 희생시키는 대가가 따랐습니다. VideoChat-TPO는 상당한 training costs를 사용하여 task-specific heads를 도입함으로써 비디오 내에서의 세밀한 spatio-temporal perception을 향상시켰습니다.
Related Work 섹션 정리 노트 (AI 연구자용)
1. MLLM을 위한 Reinforcement Learning 강화 연구 동향:
- LLM: RL (특히 OpenAI-o1, DeepSeek-R1의 GRPO 방식)을 통한 reasoning (math, coding 등 complex task chains) 능력 향상이 입증됨.
- MLLM (Image): 검증 가능한 보상(verifiable reward) 기반 RL을 visual reasoning 성능 향상에 적용하려는 다수 연구 진행 중.
- MLLM (Video) - Gap: Video domain에서의 RL 적용은 상대적으로 초기 단계. 특히 spatiotemporal reasoning 관련 연구는 소수.
- TimeZero, R1-Omini: GRPO가 temporal grounding, sentiment analysis 등 특정 task에 잠재력 있음을 보임.
- Video-R1: GRPO를 implicit temporal reasoning, spatial reasoning 개선에 활용.
- 결론: Video MLLM에서 RL (특히 GRPO)의 체계적 탐구 및 spatio-temporal reasoning/perception 전반에 대한 연구는 아직 부족함.
2. MLLM의 Spatio-Temporal Perception 연구 동향:
- 중요성 및 한계: Spatio-temporal perception은 video understanding의 핵심 역량이나, 현재 video MLLM은 video QA, captioning 등 general understanding 작업의 발전에도 불구, 인간 및 vision expert models 대비 성능이 부족함.
- 기존 개선 시도 및 단점:
- Merlin, TimeSuite: Spatio-temporal data augmentation 사용 → temporal abilities 향상 가능하나, general performance 저하 발생.
- VideoChat-TPO: Task-specific heads 도입 → 세밀한 spatio-temporal perception 향상 가능하나, 높은 training costs 요구.
- Gap: 기존 방법들은 general performance 저하 또는 높은 training costs 문제를 야기함. 본 논문의 RFT 접근 방식이 이러한 한계를 극복할 대안이 될 수 있음을 시사 (앞선 Introduction 요약 참고: data-efficient, general capability 유지).
쉬운 설명 :
이 섹션에서는 이 연구와 관련된 다른 연구들이 어떤 것들이 있었는지 소개하고 있어요. 크게 두 가지 흐름으로 나눠 볼 수 있습니다.
1. 인공지능(AI)을 더 똑똑하게 만들기 (특히 강화학습 사용):
- 글만 다루는 AI(LLM)는 '강화학습(RL)'이라는 방법으로 수학 문제 풀이 같은 복잡한 생각을 더 잘하게 만드는 데 성공했어요 (OpenAI-o1, DeepSeek-R1 같은 연구).
- 이 성공을 이미지도 이해하는 AI(MLLM)에 적용하려는 시도도 많았죠. 이미지 속 물체 위치를 찾거나 하는 데는 꽤 효과가 있었어요.
- 하지만! 비디오를 이해하는 AI에게 이 강화학습 방법을 써서, 비디오 속에서 '언제', '어디서' 일이 일어나는지 파악하는 능력을 키우려는 연구는 아직 많지 않아요. 몇몇 연구(TimeZero, R1-Omini, Video-R1)가 특정 작업(예: "이 행동은 몇 초에 일어나?")에서 가능성을 보여주긴 했지만, 아직 본격적인 연구는 부족한 상태예요.
2. 비디오 AI가 '언제', '어디서'를 잘 알게 만들기:
- 비디오를 제대로 이해하려면 '언제', '어디서' 일이 일어나는지 아는 능력(spatio-temporal perception)이 아주 중요해요. 그런데 요즘 비디오 AI(Video MLLM)들이 예전보다 똑똑해졌어도, 이 능력은 아직 사람보다 한참 부족해요.
- 이 능력을 키우려고 다른 연구들도 시도해봤어요.
- 어떤 연구(Merlin, TimeSuite)는 시간/공간 관련 데이터를 더 많이 학습시켰는데, 그랬더니 다른 일반적인 질문에는 답을 잘 못하게 되는 문제가 생겼어요.
- 또 다른 연구(VideoChat-TPO)는 시간/공간 문제만 푸는 특별 부품(task-specific heads)을 모델에 달았는데, 이건 훈련시키는 데 비용(시간, 컴퓨팅 자원)이 너무 많이 들었어요.
결론적으로, 이 섹션은 "기존 연구들은 이런 한계들이 있었으니, 우리 연구(이 논문)는 이런 문제들을 해결하면서 비디오 AI의 시공간 이해 능력을 효과적으로 키우는 새로운 방법을 제안한다"는 배경을 설명해주고 있습니다.
3 Methodology
먼저 Group Relative Policy Optimization (GRPO)에 대해 간략히 검토합니다. 그런 다음, video MLLMs를 향상시키기 위해 GRPO에 대한 spatio-temporal rewards를 어떻게 설계하고 활용하는지 설명합니다.
3.1 Preliminary of Group Relative Policy Optimization
Group Relative Policy Optimization (GRPO)은 reinforcement learning에서 Proximal Policy Optimization (PPO)의 변형입니다. 후보 응답 그룹(candidates responses)을 직접 비교함으로써, GRPO는 critic model에 대한 의존성을 제거하고 training resources를 상당히 낮춥니다. 입력 질문 가 주어지면, GRPO는 먼저 policy sampling을 통해 개의 구별되는 후보 응답 를 생성합니다. MLLM은 해당 점수 를 얻기 위한 reward function 역할을 합니다. GRPO는 이들의 mean과 standard deviation을 계산하여 normalization을 수행하고 이러한 응답의 quality를 결정합니다:
(1)
여기서 는 -번째 답변의 relative quality를 나타냅니다. GRPO는 model이 그룹 내에서 높은 점수를 가진 더 나은 답변을 선호하도록 장려합니다. 최종 training objective는 또한 최적화된 policy 가 원래 MLLM parameters 에서 멀리 벗어나는 것을 방지하기 위해 KL-divergence 항 을 추가하여 고려합니다:
(2)
여기서 는 regularization coefficient로, optimization 중에 reference policy로부터 과도한 편차를 방지합니다.
3.2 Spatio-Temporal Rewards of Video MLLM in GRPO
Video-language understanding에서 Video MLLM의 performance를 향상시키기 위해 GRPO를 사용하는 방법을 탐구합니다. 실험에서는 video 관련 tasks의 가장 일반적인 다섯 가지 유형인 temporal grounding, object tracking, video question answering, captioning, quality assessment를 고려합니다.
Format reward. Model이 우리가 원하는 format으로 responses를 output하도록 하기 위함입니다. 예를 들어, model이 생각 과정(thought process)을 <think>...</think>로 둘러싸고 답변(answer)을 <answer>...</answer>로 둘러싸기를 기대하는 경우, 각 task에 대한 format reward 을 설계했습니다. Regular expression matching을 사용하여 model이 지정된 format을 준수하는지 확인합니다:
(3)
IoU reward in spatio-temporal perception. Temporal grounding 및 object tracking과 같은 spatio-temporal perception의 경우, Video MLLM이 주어진 textual query의 내용과 관련된 비디오 내의 time interval을 output해야 합니다. 명백하게, model에 의해 predicted된 interval과 ground-truth interval 간의 Intersection over Union (IoU)을 reward function으로 사용할 수 있습니다. 이 reward function은 model에 의해 predicted된 interval의 accuracy를 효과적으로 특성화합니다.
(4)
여기서 와 는 각각 time intervals 또는 detection boxes의 predicted 값과 ground truth 값입니다.
Accuracy reward in classification. Multiple-choice video question answering 및 classification과 같은 Discriminative tasks는 model의 prediction이 질문의 답변과 일치하는지 여부를 결정하는 것을 목표로 합니다. 따라서 다음과 같이 정의합니다:
(5)
여기서 와 는 각각 predicted 답변과 ground truth 답변을 나타냅니다.
Recall reward in video captioning. Open-ended outputs을 갖는 video captioning과 같은 tasks의 경우, 생성된 caption과 ground truth caption 간의 차이를 단순히 비교하고 결정하는 것은 불가능합니다. 따라서 LLM을 "judge"로 사용하여 reward score를 제공합니다. LLM의 evaluation criteria의 uncertainty를 줄이기 위해, 먼저 LLM이 ground truth 및 predicted captions를 events list로 분해하도록 합니다. 구체적으로, Qwen2.5-72B를 활용하여 description에서 events를 추출하고, ground truth description의 events가 model에 의해 predicted된 description에 의해 entailed될 수 있는지 판단합니다. Predicted description에 의해 entailed되는 ground truth description의 events 비율로 event recall score를 계산하고, event recall score에 따라 다른 rewards를 설정합니다:
(6)
여기서 와 는 각각 predicted caption과 ground truth caption을 나타냅니다.
위의 reward functions를 결합하여 다양한 tasks에서 Video MLLM의 performance를 향상시키기 위해 GRPO를 활용하는 방법을 탐구했습니다. 구체적인 내용은 Section 4에서 찾을 수 있습니다.
3.3 Enhance Spatio-Temporal Perception of Video MLLM through GRPO
Reward function. 다른 tasks에서의 training을 위해 reward functions의 다른 combinations를 채택합니다. 구체적으로, temporal grounding 및 object tracking task의 경우, . Multi-choice QA 및 video quality assessment의 경우, . Glue가 있는 multi-choice QA (예: Grounding QA)의 경우, . Video caption의 경우, .
Training data. Temporal grounding task의 경우, Charade - STA의 training set (5,338 samples)를 training에 사용합니다. Object tracking task의 경우, 9,335 samples가 있는 GoT - 10k dataset에서 training을 수행합니다. QA 및 grounding QA tasks의 경우, NExT-GQA의 validation set (3,358 samples)를 training에 사용합니다. Video captioning의 경우, FIBER-1k (1,000 samples)를 training에 채택합니다. Video quality assessment의 경우, VidTAB의 quality assessment task를 100-shot setting 하에서 사용하며, 200 samples를 training에 사용합니다. 마지막으로, VideoChat-R1의 training을 위해 세 가지 spatio-temporal perception 관련 tasks인 temporal grounding, object tracking, grounding QA에 대해 joint training을 수행합니다. 총 18,031 samples가 training에 사용됩니다.
Methodology 섹션 정리 노트 (AI 연구자용)
1. 핵심 학습 알고리즘: GRPO (Group Relative Policy Optimization)
- Video MLLM의 Reinforcement Fine-Tuning (RFT)을 위해 PPO 계열 알고리즘인 GRPO 채택.
- 주요 장점: Critic model 불필요, 후보군 내 상대적 비교 통한 학습으로 resource 효율성 증대.
- 기본 메커니즘:
- Policy sampling으로 개 후보 응답 () 생성.
- 각 응답에 대한 reward score () 획득 (아래 참조).
- 그룹 내 평균/표준편차 기반 정규화된 advantage () 계산 (Eq 1).
- 목적 함수: Advantage 기댓값 최대화 + Reference policy ()와의 KL-divergence () 통한 정규화 (과도한 policy 변화 방지) (Eq 2).
2. 핵심 기여: Video Task 맞춤형 Reward 설계
- GRPO 프레임워크 내에서 다양한 video task 특성을 반영한 reward function 설계 및 조합 활용.
- Format reward ():
- Regex 매칭 기반, 지정된 output 형식 (e.g., <think>, <answer>) 준수 여부 평가 (Eq 3).
- (주의: 원문상 format 일치 시 0, 불일치 시 1 부여).
- IoU reward ():
- Spatio-temporal perception tasks (temporal grounding, object tracking)용.
- Predicted vs. Ground truth 시간 구간/경계 상자 간 IoU 계산 (Eq 4).
- Accuracy reward ():
- 판별형 tasks (multi-choice QA, classification)용.
- Predicted vs. Ground truth 답변 일치 여부에 따른 이진 보상 (Eq 5).
- Recall reward ():
- 생성형 tasks (video captioning)용. Open-ended 특성 고려.
- 외부 LLM (Qwen2.5-72B)을 judge로 활용, Predicted caption이 Ground truth caption의 주요 events를 얼마나 포함하는지 (event recall) 계산 (Eq 6).
3. Reward 조합 및 학습 데이터:
- Task별 Reward 조합:
- Temporal grounding/Object tracking:
- Multi-choice QA/Quality assessment:
- Grounding QA: (Acc는 Accuracy 오타 추정)
- Video captioning: (Caption은 Recall 오타 추정)
- 학습 데이터셋:
- Temporal grounding: Charade-STA (5.3k samples)
- Object tracking: GoT-10k (9.3k samples)
- QA/Grounding QA: NExT-GQA validation set (3.4k samples)
- Video captioning: FIBER-1k (1k samples)
- Quality assessment: VidTAB (100-shot, 200 samples)
- VideoChat-R1 학습: Temporal grounding, object tracking, grounding QA 3개 task 데이터 (총 18k samples)로 joint training 수행.
쉬운 설명 :
이 섹션은 연구팀이 비디오 AI 모델(Video MLLM)을 어떻게 훈련시켜서 특정 비디오 관련 작업들을 더 잘하게 만들었는지, 그 방법을 자세히 설명하는 부분입니다.
1. 훈련 방법: GRPO (그룹 상대 정책 최적화)
- 핵심 훈련 방식은 GRPO라는 강화학습 기술이에요. 이걸 일종의 **'미니 경쟁'**이라고 생각하면 쉬워요.
- 어떻게 작동하냐면:
- AI에게 비디오 관련 질문을 던지면, AI가 여러 개(예: 5개)의 가능한 답변을 만들어내요.
- 그런 다음, 이 답변들끼리 서로 비교해서 어떤 답변이 더 나은지를 평가해요. 별도의 심판 AI 없이 자기들끼리 비교하는 방식이라 훈련 자원을 아낄 수 있죠.
- AI는 이렇게 경쟁을 통해 '더 나은' 답변을 더 많이 만들도록 학습해요.
- 안정성 유지 장치: 훈련 중에 AI가 너무 이상하게 변하거나 기존에 알던 걸 잊어버리지 않도록, 원래 상태에서 너무 멀리 벗어나지 않게 하는 안전장치(KL-divergence라는 규칙)도 사용해요.
2. 비디오 작업에 '점수' 매기기 (보상 설계)
- 이게 이 연구의 핵심인데요, AI가 내놓은 비디오 관련 답변이 좋은지 나쁜지 어떻게 점수를 매길지 구체적인 방법을 만들었어요. 작업 종류별로 다른 채점 기준(reward functions)을 사용했죠.
- 정해진 양식대로 답했니? (Format reward): 답변이 <answer>...</answer> 처럼 정해진 형식에 맞게 나왔는지 확인해서 점수를 줘요. (신기하게도 여기선 형식을 맞추면 0점, 틀리면 1점을 줬다고 하네요.)
- 정확한 시간이나 위치를 찾았니? (IoU reward): 비디오에서 "이 행동이 언제 일어났어?" 또는 "이 물건 어디 있어?" 같은 질문에 답할 때, AI가 예측한 시간 구간이나 네모 박스가 실제 정답과 얼마나 겹치는지를 점수(IoU)로 계산해요.
- 객관식 답을 맞혔니? (Accuracy reward): 여러 보기 중 정답을 고르는 문제에서는 간단해요. 맞히면 점수를 받고, 틀리면 못 받아요.
- 비디오 설명을 제대로 했니? (Recall reward): 비디오 내용을 설명하는 작업(캡셔닝)은 정답이 딱 떨어지지 않아서 점수 매기기가 어려워요. 그래서 다른 아주 똑똑한 AI(Qwen2.5-72B)를 '심판'으로 데려와서, AI가 만든 설명이 실제 비디오의 중요한 내용(이벤트)들을 얼마나 포함하고 있는지를 평가해서 점수를 줘요.
3. 종합 훈련:
- 연구팀은 각 비디오 작업의 종류에 맞게 위에서 만든 점수들을 조합해서 사용했어요 (예: 물체 추적 문제는 형식 점수 + IoU 점수).
- 어떤 데이터를 사용해서 훈련했는지도 알려줘요 (Charade-STA, GoT-10k 등).
- 마지막으로, 이 연구팀이 만든 최종 모델(VideoChat-R1)은 여러 종류의 시공간 인식 관련 작업(시간 찾기, 물체 추적 등) 데이터를 한꺼번에 모아서 훈련시켰다고 설명합니다.
Format, IoU, Accuracy, 그리고 LLM 기반 Recall까지 사용해서 특별한 GRPO loss를 디자인했다. 오호..