AI바라기의 인공지능
VLM : 논문리뷰 : Video-R1: Reinforcing Video Reasoning in MLLMs 본문
Video-R1: Reinforcing Video Reasoning in MLLMs 학습 노트
용어 설명 (Glossary)
- MLLMs (Multimodal Large Language Models): Text 외에 image, video 등 다양한 modality의 정보를 이해하고 처리할 수 있는 Large Language Models.
- RL (Reinforcement Learning): Agent가 environment와 상호작용하며 reward를 최대화하는 방향으로 policy를 학습하는 machine learning 패러다임.
- Rule-based RL: 명시적으로 정의된 rule에 기반하여 reward를 계산하고 이를 통해 policy를 학습하는 RL 방식. DeepSeek-R1이 대표적.
- R1 Paradigm: DeepSeek-R1에서 제시된 rule-based RL 접근 방식을 지칭. Outcome-only reward를 사용하여 복잡한 reasoning 능력을 유도.
- GRPO (Group Relative Policy Optimization): DeepSeek-R1에서 사용된 RL algorithm. 여러 response 그룹 간의 상대적 reward를 기반으로 policy를 최적화.
- T-GRPO (Temporal Group Relative Policy Optimization): 이 논문에서 제안하는 GRPO의 확장 버전. Video frame의 시간 순서(ordered vs. shuffled)에 따른 모델 성능 차이를 비교하여 temporal reasoning을 명시적으로 reward 하도록 설계됨.
- SFT (Supervised Fine-Tuning): Pre-trained model을 특정 task에 맞게 labeled data로 추가 학습시키는 과정. 이 논문에서는 RL 학습 전 'cold start'를 위해 사용.
- COT (Chain-of-Thought): 복잡한 질문에 대해 단계별 추론 과정을 생성하여 최종 답변에 도달하는 prompting 또는 fine-tuning 기법. Reasoning 과정을 명시적으로 보여줌.
- Video Reasoning: Video content 내의 객체, 행동, 상태 변화, 인과 관계 등을 시간적 맥락을 고려하여 추론하는 능력. 단순 인식(perception)보다 고차원적인 이해를 요구.
- Hybrid Training Data: 서로 다른 modality (여기서는 image와 video) 또는 다른 성격의 data를 혼합하여 training에 사용하는 방식. Data 부족 문제를 완화하고 일반화 성능을 높이는 데 목적.
- VSI-Bench: Video spatial reasoning 능력을 평가하는 benchmark dataset.
- VideoMMMU / MMVU: Multi-discipline 지식과 video 정보를 통합해야 하는 knowledge-intensive video question answering benchmark.
- MVBench / TempCompass / VideoMME: Perception과 reasoning task가 혼합된 general video understanding benchmark. 일부 subset은 temporal/logical reasoning을 요구.
- Aha Moment: RL 학습 중 모델이 초기의 단순/직선적 답변 경로에서 벗어나, 중간에 스스로 추론 과정을 재검토하고 수정하여 더 정확하거나 논리적인 결론에 도달하는 현상.
Purpose of the Paper
- 기존 연구 한계:
- 기존 MLLM 연구는 주로 video perception task에 집중되어 있으며, 복잡한 video reasoning 능력은 상대적으로 부족함.
- Text domain에서 성공한 DeepSeek-R1의 rule-based RL 패러다임을 video에 직접 적용 시 두 가지 문제 발생:
- 기존 RL algorithm (e.g., GRPO)은 video의 temporal information을 활용하도록 명시적으로 유도하는 reward signal이 없음. 모델이 single frame 정보만으로 shortcut learning을 할 수 있음 (Figure 1).
- Video reasoning, 특히 긴 COT를 요구하는 high-quality training data가 부족함.
- 연구 목표 및 차별점:
- DeepSeek-R1 패러다임을 video reasoning 영역으로 체계적으로 확장하는 첫 시도 (first attempt).
- Temporal 정보 활용을 장려하는 새로운 RL algorithm T-GRPO 제안.
- Video data 부족 문제를 해결하기 위해 high-quality image reasoning data를 video data와 함께 활용하는 hybrid training 전략 도입.
Key Contributions & Novelty
- Key Contributions:
- Video-R1 Framework: Video reasoning 강화를 위한 rule-based RL 기반의 통합 framework 제시.
- T-GRPO Algorithm: Original GRPO를 확장하여 video frame의 시간 순서(ordered vs. shuffled) 비교를 통해 temporal reasoning 능력을 명시적으로 강화하는 RL 알고리즘 제안 (Eq 1, 2).
- Hybrid Reasoning Datasets: SFT를 위한 Video-R1-COT-165k와 RL training을 위한 Video-R1-260k 구축. 두 dataset 모두 image reasoning data와 video reasoning data를 전략적으로 혼합하여 구성 (Figure 2).
- Length-based Reward: Reasoning 결과가 정답이고 특정 길이 범위([l_min, l_max]) 내에 있을 때 추가 reward를 부여하여, 너무 짧거나 긴 reasoning을 방지하고 적절한 깊이의 사고를 유도 (Eq 5).
- "Aha Moment" 관찰: RL 학습을 통해 모델이 스스로 추론 과정을 재검토하고 수정하는 self-reflection 행동이 나타남을 확인 (Figure 3, 4).
- Novelty:
- Systematic R1 for Video: Text/Image reasoning에서 성공한 R1 패러다임을 video domain에 체계적으로 적용하고 그 효과를 검증한 최초의 연구.
- Explicit Temporal Reward (T-GRPO): 기존 RL 방법론과 달리, video frame 순서를 이용한 contrastive evaluation 방식으로 temporal 정보 활용을 직접적으로 보상하는 메커니즘 도입.
- Strategic Data Hybridization: 단순 data mixing이 아니라, image data로 일반 reasoning skill 기반을 다지고 video data로 temporal complexity를 학습시키는 상호 보완적 데이터 활용 전략.
Experimental Highlights
- Datasets: VSI-Bench, VideoMMMU, MMVU (Reasoning-focused), MVBench, TempCompass, VideoMME (General Video).
- Key Results:
- SOTA on VSI-Bench: Video-R1-7B (32 frames) 모델이 video spatial reasoning benchmark인 VSI-Bench에서 35.8% 정확도를 달성하여, proprietary model인 GPT-40 (34.0%) 를 능가함 (Table 1). 이는 RL을 통한 명시적 reasoning 능력 강화의 효과를 보여줌.
- Consistent Improvement: Video-R1은 대부분의 video benchmark에서 기존 SOTA 모델들 및 SFT baseline 대비 상당한 성능 향상을 보임. 특히 reasoning-heavy benchmark에서 강점.
- "SFT Memorizes, RL Generalizes": SFT 모델은 일부 benchmark에서 성능이 하락하는 등 불안정한 모습을 보인 반면, RL (Video-R1)은 단 1k step 학습만으로도 전반적인 benchmark에서 일관된 성능 향상과 일반화 능력을 보여줌.
- Ablation Study: Image data (-wo-image) 제거 시, Temporal reward (-wo-temporal, 즉 T-GRPO 대신 GRPO 사용 시) 제거 시 모두 성능이 하락하여 제안된 요소들의 중요성을 입증 (Table 2).
- More Frames Matter: Input frame 수를 16에서 32로 늘렸을 때 대부분 benchmark에서 성능이 향상됨 (Table 1).
- Training Dynamics: Accuracy reward와 temporal reward (rt)는 RL 학습 동안 꾸준히 증가하며, response length는 초기에 감소했다가 점차 증가 후 안정화되는 패턴을 보임 (Figure 5).
Limitations and Future Work
- Limitations:
- Limited Frames Number: Training 시 16 frame만 사용되어 long-range temporal dependency 학습에 한계가 있을 수 있음.
- T-GRPO Overhead: Ordered/Shuffled 두 번의 inference와 reward 계산으로 인해 추가적인 computational cost 발생.
- Static Response Length Control: 고정된 길이 범위([320, 512])로 reward를 부여하여, 질문 난이도에 따른 유연한 길이 조절이 어려움.
- Small-scale RL: Computational resource 제약으로 RL 학습을 1k step만 수행함. 더 많은 학습 step이 필요할 수 있음.
- Basic Image-to-Video Transfer: Image data를 단순히 training set에 혼합하는 방식으로, 더 정교한 knowledge transfer 메커니즘이 부족함.
- Future Work:
- Scaling Frames: 더 많은 video frame을 효율적으로 처리할 수 있는 training/inference 기법 개발 (e.g., vLLM).
- Efficient Temporal Modeling: T-GRPO의 overhead를 줄이는 더 효율적인 temporal modeling 메커니즘 탐색.
- Dynamic Length Control: 질문 난이도나 유형에 따라 적절한 response 길이를 동적으로 결정하는 전략 연구.
- Large-scale RL Training: RL 학습 규모를 늘려 모델이 최적의 reasoning trajectory를 탐색하고 일반화 성능을 더 향상시킬 가능성 모색.
- Refined Knowledge Transfer: Image reasoning 능력을 video domain으로 더 효과적으로 transfer할 수 있는 원리적인(principled) 접근법 설계.
Overall Summary
이 논문은 MLLM의 video reasoning 능력을 강화하기 위해 DeepSeek-R1의 rule-based RL 패러다임을 video domain에 처음으로 체계적으로 적용한 Video-R1 framework를 제안한다. 핵심적으로, video의 temporal 정보 활용을 명시적으로 보상하는 T-GRPO 알고리즘과, data 부족 문제를 완화하고 일반화 능력을 높이기 위한 image/video hybrid reasoning data 활용 전략을 도입했다. 실험 결과, Video-R1은 VSI-Bench 등 주요 video reasoning benchmark에서 SOTA 성능을 달성하며 (GPT-40 능가), RL이 video reasoning 능력 향상에 효과적임을 입증했다. 이 연구는 향후 video MLLM의 reasoning 능력 발전을 위한 중요한 기반을 마련했다는 점에서 의의가 있다.
쉬운 설명 (Simple Explanation)
Video-R1은 MLLM이 비디오를 보고 '왜 그런 일이 일어났는지', '다음에 무슨 일이 일어날지' 등을 더 잘 추론하도록 가르치는 방법입니다. 기존 방식은 시간 순서를 제대로 고려하지 못하거나, 학습 데이터가 부족한 문제가 있었습니다.
이 논문의 핵심 아이디어는 두 가지입니다:
- 시간 순서 시험 (T-GRPO): 모델에게 비디오를 정상 속도와 장면을 뒤섞은 버전으로 두 번 보여주고 질문합니다. 정상 속도 비디오를 봤을 때 더 잘 대답하면 (즉, 시간 순서를 이해했을 때) 더 큰 '칭찬'(reward)을 줍니다. 영화 줄거리를 순서대로 봤을 때와 뒤죽박죽 섞어 봤을 때, 순서대로 봤을 때 더 잘 이해하는 사람에게 점수를 더 주는 것과 비슷합니다.
- 교과서 + 실전 학습 (Hybrid Data): 비디오 추론 능력을 키우기 위해, 먼저 그림/사진 문제(image data)로 기본적인 추론 능력을 '교과서'처럼 배우게 하고, 그 다음 실제 움직이는 비디오 문제(video data)로 '실전' 훈련을 시킵니다. 이렇게 하면 부족한 비디오 학습 자료 문제를 해결하고 배운 지식을 비디오에 더 잘 적용할 수 있습니다.
결과적으로, 이 방법을 사용한 Video-R1 모델은 비디오 속 공간 관계를 추론하는 어려운 시험(VSI-Bench)에서 인간 전문가 모델(GPT-40)보다 더 높은 점수를 받았습니다.
Abstract
DeepSeek-R1이 rulebased reinforcement learning (RL)을 통해 reasoning 능력을 이끌어내는 데 성공한 것에서 영감을 받아, 우리는 multimodal large language models (MLLMs) 내에서 video reasoning을 이끌어내기 위한 R1 paradigm을 체계적으로 탐구하는 첫 번째 시도로 Video-R1을 소개합니다.
그러나 GRPO algorithm을 사용한 RL training을 video reasoning에 직접 적용하는 것은 두 가지 주요 과제를 제시합니다: (i) video reasoning을 위한 temporal modeling의 부족, 그리고 (ii) 고품질 video-reasoning data의 부족입니다. 이러한 문제를 해결하기 위해, 우리는 먼저 T-GRPO algorithm을 제안하며, 이는 models이 reasoning을 위해 videos 내의 temporal information을 활용하도록 장려합니다.
추가적으로, video data에만 의존하는 대신, 우리는 고품질 image-reasoning data를 training process에 통합합니다. 우리는 두 개의 datasets을 구축했습니다: SFT cold start를 위한 Video-R1-COT-165k와 RL training을 위한 Video-R1-260k이며, 둘 다 image 및 video data로 구성됩니다.
Experimental results는 Video-R1이 VideoMMMU 및 VSI-Bench와 같은 video reasoning benchmarks에서 상당한 개선을 달성했음을 보여주며, 또한 MVBench 및 TempCompass 등을 포함한 general video benchmarks에서도 마찬가지입니다. 특히, Video-R1-7B는 video spatial reasoning benchmark VSI-bench에서 35.8%의 accuracy를 달성하여, commercial proprietary model GPT-4o를 능가합니다.
모든 codes, models, data는 공개됩니다.
Figure 1: GRPO와 우리가 제안한 T-GRPO로 trained된 Video-R1의 test samples에 대한 Reasoning paths. 명시적인 temporal modeling 없이는, models은 shortcuts을 사용하여 sub-optimal video reasoning patterns을 학습할 수 있으며, 따라서 generalize를 잘 하지 못하게 됩니다.
1 Introduction
최근 rule-based Reinforcement Learning (RL)의 발전은 Large Language Models (LLMs)의 reasoning 능력을 크게 향상시켰습니다. 특히, DeepSeek-R1은 신중하게 설계된 RL pipelines이 text-based domains에서 긴 chain-of-thoughts (COT)를 가진 새롭고 견고한 reasoning 능력을 이끌어낼 수 있음을 보여주었습니다. 이 성공에 동기를 받아, 최근 몇몇 노력들은 RL training을 Multimodal Large Language Models (MLLMs)로 확장하는 것을 탐구했습니다. 주목할 만한 예로는 Kimi k1.5와 Skywork R1V가 있으며, 이들은 image-text 쌍에 대한 reasoning을 개선하기 위해 RL을 적용합니다. 그러나 이러한 초기 탐구에도 불구하고, MLLMs에서의 video reasoning 영역은 대체로 탐구되지 않은 채로 남아 있습니다.
이 격차를 해소하기 위해, 우리는 R1 paradigm에 기반하여 강력한 video reasoning을 이끌어내는 것을 체계적으로 조사하는 첫 번째 시도로 Video-R1 model을 제시합니다. 그러나 Group Relative Policy Optimization (GRPO) algorithm을 이용한 RL training을 video reasoning에 직접 적용하는 것은 두 가지 근본적인 과제를 도입합니다: 첫째, 기존 GRPO는 video에서 temporal reasoning을 장려하기 위한 명시적인 reward signals이 부족합니다. 명시적인 temporal awareness 없이는, model은 시간에 걸쳐 reasoning하는 대신 단일 frame이나 snapshot에 집중하면서 reasoning을 위해 shortcuts을 사용할 수 있습니다 (그림 1 예시 참조, 이전 연구 Video-UTR도 유사한 문제를 드러냅니다). temporal inductive bias의 부재는 학습된 reasoning strategies가 피상적인 visual patterns에 의존하고, 더 깊고 temporally grounded reasoning에 참여하지 않으면서 프로세스를 'shortcut'하게 만들 수 있습니다. 이는 궁극적으로 더 복잡하거나 다양한 video reasoning tasks로의 일반화를 저해할 수 있습니다.
두 번째 문제는 고품질 video reasoning training data의 부족에 있습니다, 특히 강력한 reasoning ability를 요구하거나 긴 reasoning path를 포함하는 문제들입니다. 대부분의 기존 video training datasets은 reasoning보다는 주로 간단한 recognition tasks에 초점을 맞춥니다. 이러한 부족은 training 동안 model을 다양하고 도전적인 reasoning patterns에 노출시키기 어렵게 만들어 RL의 효과를 제한하고 robust reasoning behaviors의 출현을 방해합니다.
이러한 과제들을 해결하기 위해, 우리는 두 가지 핵심 해결책을 제안합니다. 첫째, 우리는 기존 GRPO algorithm의 extension으로, temporal reasoning을 명시적으로 장려하는 T-GRPO를 제안합니다. training 동안, model에는 시간 순서대로 정렬된 frame sequence와 무작위로 섞인 frame sequence가 모두 제공되어 두 세트의 responses를 생성합니다. 정렬된 sequence로부터의 correct answers 비율이 섞인 sequence로부터의 비율을 초과할 때만 positive reward가 할당됩니다. 이 strategy는 model이 isolated frames에서 파생된 shortcuts에 의존하기보다는 temporal reasoning policy를 활용하도록 장려합니다.
게다가, 고품질 video reasoning data의 부족 문제를 해결하기 위해, 우리는 전략적으로 image-based reasoning data를 training data의 일부로 도입합니다. 우리는 두 개의 datasets을 구축합니다: SFT cold start를 위한 Video-R1-COT-165k와 RL training을 위한 Video-R1-260k입니다. image data는 general reasoning skills training을 위한 귀중한 foundation 역할을 하며, 반면 선별된 video samples는 video understanding에 필요한 temporal complexity를 제공합니다. 이 hybrid training setup은 data bottleneck을 완화할 뿐만 아니라 model이 static images에서 학습한 reasoning skills을 dynamic video contexts로 transfer할 수 있게 합니다. T-GRPO와 결합된 이 approach는 Video-R1에 더 강력하고 일반화 가능한 video reasoning capabilities를 갖추게 합니다.
우리의 experiments는 Video-R1이 VSI-Bench, VideoMMMU, MMVU, MVBench, TempCompass, VideoMME를 포함한 여러 어려운 video reasoning benchmarks에서 일관되고 상당한 improvements를 달성함을 보여줍니다. 특히, Video-R1-7B는 어려운 video spatial reasoning benchmark인 VSI-Bench에서 35.8%의 accuracy를 달성하여, GPT-4o와 같은 proprietary models조차 능가합니다. 이러한 결과는 신중하게 설계된 algorithms과 data pipelines을 통해 RL이 실제로 text domain에서 보여진 breakthroughs와 유사하게 MLLMs에서 복잡한 temporal reasoning capabilities를 발휘할 수 있음을 시사합니다. 우리의 contributions는 다음과 같이 요약될 수 있습니다:
- 우리는 R1 paradigm에 기반하여 video reasoning MLLMs 개발을 체계적으로 탐구하는 첫 번째 시도로 Video-R1을 제안합니다. training을 지원하기 위해, 우리는 image 및 video reasoning samples를 모두 포함하는 두 개의 reasoning datasets을 구축합니다: SFT를 위한 Video-R1-COT-165k와 RL training을 위한 Video-R1-260k입니다. 우리는 Video-R1이 video reasoning에 대한 미래 연구의 foundation이 되기를 바랍니다.
- 기존 RL methods에서의 temporal modeling 부족을 해결하기 위해, 우리는 정렬된 video frames와 섞인 video frames에 대한 reasoning performance를 대조함으로써 model이 temporal information을 활용하도록 장려하는 새로운 training algorithm인 T-GRPO를 소개합니다.
- Video-MMMU, VSI-Bench, MVBench 등과 같은 다수의 video benchmarks에서의 Extensive experiments는 우리 approach의 effectiveness를 입증합니다. 특히, Video-R1-7B는 VSI-Bench에서 35.8%의 accuracy를 달성하여 proprietary GPT-4o model을 능가합니다.
AI 연구자들을 위한 Video-R1 Introduction 정리노트
핵심 목표: Text-based domain에서 rule-based Reinforcement Learning (RL)을 통해 reasoning 능력을 성공적으로 이끌어낸 DeepSeek-R1의 "R1 paradigm"을 video domain으로 확장, MLLMs (Multimodal Large Language Models)의 video reasoning 능력을 체계적으로 향상시키고자 하는 첫 시도 (Video-R1 model 제안).
기존 RL 방식 (예: GRPO)을 video reasoning에 직접 적용 시 발생하는 주요 문제점:
- Temporal Modeling 부재: 기존 RL algorithm (GRPO 등)은 video 내 시간적 순서에 따른 reasoning을 명시적으로 장려하는 reward signal이 없어, model이 단일 frame 등 shortcut에 의존하여 sub-optimal reasoning pattern을 학습하고 generalize에 실패할 가능성. (Figure 1 참조)
- 고품질 Video Reasoning Data 부족: 대부분의 video datasets은 단순 recognition에 치중되어, 복잡하고 긴 reasoning path를 요구하는 고품질 data가 절대적으로 부족. 이는 RL 학습 효과 및 robust reasoning behavior 발현을 저해.
본 논문 제안 핵심 솔루션 (Video-R1의 차별점):
- T-GRPO (Temporal GRPO) Algorithm 제안:
- 기존 GRPO를 확장하여 temporal reasoning을 명시적으로 장려.
- Training 시, model에 시간 순서대로 정렬된 frame sequence와 무작위로 섞인 frame sequence를 모두 제시.
- 정렬된 sequence에서의 정답률이 섞인 sequence에서의 정답률보다 높을 경우에만 positive reward를 부여.
- 이를 통해 model이 isolated frames 기반의 shortcut이 아닌, temporal reasoning policy를 적극 활용하도록 유도.
- Image-Reasoning Data를 활용한 Hybrid Training Data 전략:
- 고품질 video reasoning data 부족 문제를 해결하기 위해, image-based reasoning data를 video data와 함께 training data에 전략적으로 통합.
- 이를 위해 2개의 datasets 구축:
- Video-R1-COT-165k: SFT cold start 용.
- Video-R1-260k: RL training 용. (두 dataset 모두 image 및 video reasoning samples 포함)
- Image data는 general reasoning skills의 foundation을 제공하고, video samples는 video understanding에 필요한 temporal complexity를 제공.
- Data bottleneck 완화 및 static images에서 학습된 reasoning skills을 dynamic video contexts로 transfer 가능.
주요 성과 (Introduction에서 언급된 내용):
- 제안된 Video-R1은 VSI-Bench, VideoMMMU, MVBench 등 다수의 challenging video reasoning benchmarks에서 일관되고 상당한 성능 향상.
- 특히, Video-R1-7B model은 video spatial reasoning benchmark인 VSI-Bench에서 35.8% accuracy를 달성, proprietary model인 GPT-4o를 능가.
- 결론적으로, 신중하게 설계된 algorithm (T-GRPO)과 data pipeline을 통해 MLLMs에서 복잡한 temporal reasoning capabilities를 성공적으로 이끌어낼 수 있음을 시사. Video-R1이 향후 video reasoning 연구의 foundation이 되기를 기대.
본 논문의 핵심 기여 (Contributions 요약):
- R1 paradigm 기반 video reasoning MLLMs 개발을 위한 첫 체계적 시도인 Video-R1 제안 및 관련 reasoning datasets (Video-R1-COT-165k, Video-R1-260k) 구축/공개.
- 기존 RL의 temporal modeling 부재 해결을 위해, 정렬/무작위 frame sequence 간의 reasoning performance 대조를 통해 temporal information 활용을 장려하는 T-GRPO training algorithm 제안.
- 다수 video benchmarks에서 Video-R1의 effectiveness 입증 (특히 VSI-Bench에서 GPT-4o 능가).
쉬운 설명 :
최근 AI들은 글을 읽고 추론하는 건 꽤 잘하게 됐어요. 그런데 동영상을 보고 "무슨 일이 일어나고 있는지", "왜 그런 일이 벌어지는지" 같은 복잡한 reasoning을 하는 건 아직 어려워해요. 이 논문은 AI가 동영상 내용을 더 깊이 있게 이해하고 reasoning하도록 가르치는 새로운 방법인 "Video-R1" model을 제안합니다.
Video-R1은 두 가지 큰 문제를 해결하려고 해요:
- AI가 동영상을 볼 때 시간 순서를 제대로 이해하지 못하는 문제:
- 기존 방식대로 AI를 가르치면, AI가 동영상의 전체적인 흐름을 보는 대신, 특정 장면(frame) 하나만 보고 대충 찍거나(shortcut) 엉뚱한 판단을 내릴 수 있어요. 예를 들어, "공이 굴러가서 컵을 쓰러뜨렸다"는 내용의 동영상을 이해해야 하는데, 그냥 "공이 있네", "컵이 있네" 정도로만 파악하는 거죠.
- 해결책 (T-GRPO라는 새로운 학습법): 연구팀은 AI에게 동영상 장면들을 올바른 순서로 한 번 보여주고, 또 한 번은 뒤죽박죽 섞어서 보여줬어요. 그리고 AI가 올바른 순서로 봤을 때 더 정답을 잘 맞히면 칭찬(reward)을 해주는 거죠. 이렇게 하니 AI가 "아, 시간 순서가 중요하구나!" 깨닫고 동영상의 흐름을 더 잘 파악하게 됐어요.
- AI에게 가르칠만한 좋은 video reasoning 학습자료가 부족한 문제:
- AI가 복잡한 reasoning을 배우려면 다양한 예시 동영상이 필요한데, 대부분의 기존 동영상 자료들은 "이게 고양이야 강아지야?" 같은 단순한 질문에 답하는 수준이에요.
- 해결책 (똑똑한 데이터 활용법): 연구팀은 동영상 자료뿐만 아니라, 고품질의 "그림(image)"을 보고 reasoning하는 학습자료를 많이 활용했어요. 그림으로 일반적인 reasoning 능력을 키운 다음, 동영상 자료로 시간의 흐름을 이해하는 능력을 추가로 가르친 거죠. 마치 우리가 여러 과목을 배워 일반적인 지식을 쌓은 뒤 특정 전문 분야를 공부하는 것과 비슷해요. 이를 위해 "Video-R1-COT-165k"와 "Video-R1-260k"라는 새로운 학습 데이터 묶음(datasets)도 만들었어요.
결과는 어땠을까요? 이 방법으로 학습시킨 Video-R1 AI는 여러 어려운 동영상 이해력 테스트(benchmarks)에서 기존 AI들보다 훨씬 좋은 성적을 거뒀어요. 특히 "VSI-Bench"라는 공간 추론 능력 테스트에서는 유명한 GPT-4o 모델보다도 더 높은 점수(accuracy)를 받았다고 해요!
이게 왜 중요할까요? 이 연구는 AI가 단순히 동영상 속 사물을 알아보는 것을 넘어, 동영상 속에서 일어나는 일들의 순서와 관계를 이해하고 복잡한 reasoning을 할 수 있게 만드는 중요한 첫걸음이에요. 앞으로 더 똑똑한 video understanding AI를 만드는 데 큰 도움이 될 수 있을 거예요.
2 Related Works
2.1 Multimodal Large Language Models for Video
Video understanding은 Multimodal Large Language Models (MLLMs)의 필수적인 능력으로, 이를 통해 dynamic visual content를 해석하고 reason할 수 있게 됩니다. 최근 몇 년 동안, video understanding tasks의 발전을 위해 특별히 다수의 MLLMs가 개발되었습니다.
예를 들어, LLaMA-VID는 video input representations을 compress하기 위한 dual-token strategy (context tokens와 content tokens)를 제안하여, vision-language models이 essential visual information을 유지하면서 long videos를 efficiently handle할 수 있도록 합니다. VideoLLaMA2는 더 나은 dynamic understanding을 위해 spatial-temporal convolution을 도입하고, 더 풍부한 video comprehension을 위해 multimodal cues를 integrate하는 audio branch를 추가하여 video-language modeling을 향상시킵니다. LongVA는 specialized video training 없이 훨씬 긴 video sequences를 process하기 위해 language backbones의 context window를 확장하여, long-range temporal reasoning에 대한 language-centric solution을 제공합니다. VISA는 world knowledge와 object tracking을 결합하는 knowledge-driven video object segmentation task를 소개하며, segmentation-enabled multimodal LLM을 통해 implicit하고 complex video queries를 처리합니다.
이러한 advancements는 video understanding을 발전시키는 데 있어 MLLMs의 잠재력을 강조합니다. 그러나 대부분의 prior works는 주로 video perception tasks에 초점을 맞추어 왔습니다. 강력한 video reasoning capabilities를 갖춘 MLLMs의 development는 대체로 아직 탐구되지 않은 상태입니다.
2.2 Large Language Model Reasoning
Large Language Models (LLMs)의 reasoning abilities는 최근 연구의 핵심 초점으로, complex, multi-step problem-solving tasks를 수행하는 능력을 향상시키는 것을 목표로 합니다. reasoning paths를 supervise하기 위해 dense, step-level supervision이나 learned reward models에 의존했던 이전 approaches와 달리, DeepSeek-R1은 rule-based reinforcement learning에 대한 새로운 관심의 물결을 일으켰으며, 심지어 coarse, outcome-only rewards만으로도 strong reasoning behavior를 효과적으로 elicit할 수 있음을 보여주었습니다. 그 성공은 신중하게 설계된 reward structure와 policy optimization strategy를 통해 models이 intermediate supervision 없이도 long COT를 generate하도록 학습할 수 있음을 보여주었습니다.
이 paradigm을 따라, 최근 몇몇 노력들이 R1의 성공을 재현하려고 시도했습니다. 예를 들어, Open Reasoner Zero와 Kimi k1.5는 각각 text domain과 image domains에서 reasoning을 enhance하기 위해 유사한 rule-based RL pipelines를 탐구합니다. 그러나 고무적인 발전에도 불구하고, 이 approach를 video domain으로 확장하는 방법을 탐구한 prior work는 거의 없습니다. 이 격차를 해소하는 것은 여전히 open challenge이며 reasoning models의 경계를 확장하는 유망한 방향입니다.
AI 연구자들을 위한 Related Works (Section 2) 정리노트
2.1 Multimodal Large Language Models for Video
- 기존 연구 동향: Video understanding 능력 향상을 목표로 다양한 MLLMs (LLaMA-VID, VideoLLaMA2, LongVA, VISA 등) 개발 활발.
- 주요 개선점: Long video 처리 효율 증대 (dual-token), dynamic understanding 강화 (spatial-temporal convolution), audio 통합, long-range temporal reasoning (확장된 context window), knowledge 기반 object segmentation 등.
- 핵심 한계점 (Gap Identification): 이러한 발전에도 불구, 대부분의 기존 연구는 video perception (객체 인식, 단순 행동 인지 등)에 집중되어 있음. Strong video reasoning capabilities를 갖춘 MLLMs 개발은 아직 초기 단계이며 미개척 분야로 남아 있음. (Video-R1이 해결하려는 문제 영역)
2.2 Large Language Model Reasoning
- 핵심 연구 동향 (Text/Image Reasoning): LLM의 complex, multi-step reasoning 능력 향상이 주요 연구 주제.
- 최근 주목받는 패러다임: DeepSeek-R1이 제시한 rule-based reinforcement learning (RL) 방식.
- 기존의 dense, step-level supervision이나 learned reward model 없이도, coarse, outcome-only rewards 만으로 strong reasoning behavior (long Chain-of-Thought, COT)를 효과적으로 elicit 가능함을 입증.
- 후속 연구: 이 "R1 paradigm"을 text (Open Reasoner Zero) 및 image (Kimi k1.5) domain에서 재현/확장하려는 노력 진행 중.
- 최근 주목받는 패러다임: DeepSeek-R1이 제시한 rule-based reinforcement learning (RL) 방식.
- 핵심 한계점 (Gap Identification): Text/Image domain에서 가능성을 보인 R1 paradigm (rule-based RL)을 video domain으로 확장하려는 시도는 거의 이루어지지 않음. 이는 여전히 open challenge. (Video-R1이 도입하려는 방법론적 접근)
종합: Related Works 섹션은 Video-R1 연구를 다음과 같이 위치시킴:
- 문제 정의: 기존 video MLLMs 연구가 perception에 치중되어 있어, strong video reasoning 능력 개발이 필요함.
- 방법론적 기회: Text/Image 분야에서 성공적인 R1 rule-based RL 패러다임을 아직 미개척 분야인 video domain에 적용하여 video reasoning 능력을 향상시키고자 함.
쉬운 설명 :
이 "Related Works" 섹션은 이 논문이 나오기 전에 다른 연구자들이 AI와 관련해서 어떤 연구들을 해왔는지, 그리고 아직 해결되지 않은 문제점(연구의 필요성)이 무엇인지를 설명하는 부분이에요. 크게 두 부분으로 나눌 수 있습니다.
1. 동영상 이해하는 AI (Video MLLMs):
- "다른 연구자들이 동영상을 이해하는 AI들을 많이 만들었어요 (예: LLaMA-VID, VideoLLaMA2 등). 이 AI들은 긴 동영상을 잘 처리하거나, 동영상의 소리까지 함께 이해하는 등 점점 똑똑해지고 있어요."
- "하지만 대부분의 기존 동영상 AI들은 동영상에 '무엇이 있는지' 정도를 파악하는 수준(video perception)에 머물러 있어요. 예를 들어 '고양이가 있다', '사람이 뛴다' 정도는 알지만, 동영상을 보고 '왜 저런 일이 벌어졌을까?' 혹은 '다음에 무슨 일이 일어날까?' 같이 깊게 생각하고 추론(video reasoning)하는 능력은 아직 부족해요."
- 결론: "그래서 동영상을 보고 제대로 reasoning 할 수 있는 AI가 필요하다!" 라는 점을 이야기해요.
2. 스스로 생각하는 AI (LLM Reasoning):
- "AI가 글을 읽고 생각하는 능력(reasoning)에 대한 연구도 활발해요. 특히 'DeepSeek-R1'이라는 AI 연구가 큰 주목을 받았어요."
- "DeepSeek-R1은 AI에게 문제 해결 과정 하나하나를 다 가르쳐주지 않아도(dense supervision), 그냥 최종 결과가 맞았는지 틀렸는지만 알려줘도(outcome-only rewards), AI가 스스로 복잡한 문제 해결 방법(long COT)을 터득할 수 있다는 것을 보여줬어요. 이걸 'rule-based reinforcement learning' 방식이라고 해요."
- "이 'R1 방식'은 글(text)이나 그림(image) 분야에서는 꽤 성공적으로 시도되고 있어요."
- "하지만 이 똑똑한 R1 방식을 동영상(video)에 적용해서 AI의 video reasoning 능력을 키우려는 연구는 거의 없었어요."
- 결론: "글이나 그림에서 잘 통하는 R1 방식을 동영상에도 적용해보는 것은 중요하고 아직 도전적인 과제다!" 라는 점을 이야기해요.
요약하면, 이 섹션은 "기존 AI들은 동영상 reasoning을 잘 못하고, 글/그림 reasoning에 효과적인 R1 방식은 아직 동영상에 제대로 적용된 적이 없다. 그래서 우리(Video-R1 연구팀)는 이 R1 방식을 동영상에 적용해서 AI의 video reasoning 능력을 키우는 연구를 하겠다!" 라고 말하는 배경 설명 부분입니다.
3 Methods
3.1 Dataset Construction
High-quality training data는 MLLMs에서 video reasoning capabilities를 강화하는 데 중요한 역할을 합니다. 이 섹션에서는 RL training을 위한 Video-R1-260k와 SFT cold start를 위한 Video-R1-COT165k를 어떻게 curate하는지 소개합니다.
Data Collection and Curation. High-quality video reasoning training data의 부족을 극복하기 위해, 우리는 전략적으로 image-based reasoning data를 training data의 일부로 도입합니다. Image-based data는 주로 model에게 math, spatial logic, expert-level knowledge 등 다양한 난이도 수준과 domains을 포괄하는 광범위한 reasoning skills을 가르치는 역할을 합니다. 이러한 samples는 model이 static contexts에서 generalized reasoning abilities를 개발하는 데 도움이 됩니다. 반대로, video-based data는 주로 event progression 이해, frame-to-frame dependencies 포착, 시간에 따른 motion 및 causal dynamics에 기반한 inferences 도출 등 model의 temporal reasoning 수행 능력을 train하는 데 사용됩니다.
우리는 다양한 public datasets에서 data를 collect하고 각 subset의 proportion을 신중하게 sample하고 balance를 맞춥니다. Video-R1-260k dataset의 최종 구성은 Figure 2에 설명되어 있습니다. Video-R1-260k dataset의 distribution은 대략 다음과 같이 분류할 수 있습니다:
- General (Video, 116k): 일상적인 scenarios를 다루고 temporal comprehension 및 reasoning abilities를 구축하도록 설계된 다양한 open-domain video data 집합입니다.
- General (Image, 15k): 기본적인 visual understanding을 제공하는 데 사용되는 general-purpose image question-answering data입니다.
- Chart (Image, 21k): Charts, line graphs 및 scientific figures에 대한 Visual reasoning으로, data interpretation과 quantitative logic에 중점을 둡니다.
- OCR (Image, 16k): Signs, forms 또는 documents와 같이 embedded textual content를 recognizing하고 interpreting해야 하는 reasoning tasks를 용이하게 합니다.
- Math (Image, 37k): Formulas, geometry diagrams 및 multi-step symbolic reasoning을 포함하는 Image-based math reasoning questions입니다.
- Knowledge (Image, 37k): Visual commonsense 및 Multi-discipline reasoning tasks로, model이 world knowledge를 visual cues와 integrate하는 능력을 test합니다.
- Spatial (Image, 20k): Reasoning을 위해 spatial information을 understand해야 하는 Tasks입니다.
COT Annotation. 효과적인 SFT cold start를 위해, 우리는 Qwen2.5-VL-72B를 활용하여 Video-R1-260k의 samples에 대한 COT rationales를 generate합니다. Low-quality 또는 inconsistent outputs을 제거하기 위해 기본적인 rule-based filtering을 적용한 후, cold-start SFT stage에 사용되는 high-quality CoT dataset인 Video-R1-COT-165k를 얻습니다.
Data Type and Rule-based Reward Design. 우리의 reinforcement learning framework는 DeepSeek-R1의 rule-based reward paradigm을 따르므로, reward signals이 reliable하고 precise하도록 보장하는 것이 중요합니다. 이를 위해, 우리 training data의 대부분은 multiple-choice 및 numerical answer formats와 같이 명확하게 verifiable outputs을 가진 tasks를 중심으로 설계되었습니다. 이를 통해 simple rules를 사용하여 accurate reward computation이 가능해져 stable하고 effective RL training을 보장합니다.
그러나 model의 flexibility와 다양한 tasks 및 formats에 대한 generalize 능력을 높이기 위해, 우리는 다른 data types의 작은 portion도 통합합니다. 여기에는 real-world applications 및 더 넓은 datasets에 적응하는 데 필수적인 free-form generation, OCR tasks 및 regression problems가 포함됩니다.
Data types 및 해당 reward functions는 다음과 같이 요약됩니다:
- Multiple Choice: Predicted option이 ground-truth answer와 일치하는지 여부에 따라 reward가 할당됩니다.
- Numerical QA: Predicted number가 reference value와 정확히 일치하는지 여부에 따라 binary reward가 제공됩니다.
- OCR: Predicted text와 reference text 간의 edit distance를 측정하는 Word Error Rate (WER)를 사용하여 reward를 compute합니다.
- Free-form QA: Model의 output과 ground-truth answer 간의 ROUGE-1, ROUGE-2 및 ROUGE-L scores의 average로 reward가 계산됩니다.
- Regression: Predicted value가 ground truth에 가까울수록 reward가 높아지며, relative error를 1에서 뺀 값으로 계산됩니다.
3.2 Temporal Group Relative Policy Optimization (T-GRPO)
GRPO는 text-based reasoning에서 효과적인 것으로 입증되었지만, temporal reasoning을 위한 명시적인 reward signals이 부족하여 MLLMs가 videos에 대해 reason하도록 training하는 데는 불충분합니다. 이를 해결하기 위해, 우리는 temporal reasoning을 명시적으로 장려하는 contrastive reward mechanism을 도입하는 Temporal Group Relative Policy Optimization (T-GRPO)을 제안합니다.
T-GRPO의 core idea는 frames이 두 가지 다른 순서로 제공될 때 동일한 video question에 대한 model의 performance를 compare하는 것입니다: (1) temporally ordered sequence, 그리고 (2) randomly shuffled version. 각 input question에 대해, 우리는 ordered 및 shuffled frame inputs을 사용하여 각각 두 그룹의 responses 와 를 generate합니다.
와 를 각 group에서 correct answers의 proportion이라고 합시다. 그러면 temporal reward coefficient 를 다음과 같이 정의합니다: 여기서 와 는 hyper-parameters입니다. 여기서는 이고 로 설정합니다.
이 contrastive design은 video가 shuffled 상태일 때보다 correct temporal order로 제시될 때 model이 더 잘 perform하도록 장려합니다. Model은 주어진 question에 대한 현재 reasoning strategy가 temporal information에 대한 reliance를 보여줄 경우에만 이 positive reward를 받습니다.
중요하게도, 는 meaningful positive advantages를 보장하기 위해 correct responses에만 applied됩니다. 모든 responses에 적용하면 reward signal을 dilute하고 effective learning을 hinder할 것입니다. 즉, model의 reasoning policy가 temporal patterns에 성공적으로 relies할 때, correct responses는 higher reward로 reinforced되고 incorrect ones는 영향을 받지 않습니다.
공식적으로, temporal-augmented reward는 다음과 같이 정의됩니다: 이 reward shaping은 model이 temporal setting에서 answers correctly하지만 shuffled baseline을 outperform하지 못할 경우 additional reward를 받지 않도록 보장하여, optimization이 더 temporally aware reasoning policy를 채택하도록 유도합니다.
Advantage 는 DeepSeek R1에서와 같이 각 group 내 updated rewards에 대해 computed됩니다: $$ Ordered 및 shuffled inputs 하에서 model의 performance를 명시적으로 comparing함으로써, T-GRPO는 model이 temporal patterns을 leverage하는 reasoning strategies를 prefer하도록 유도하는 contrastive training signal을 도입합니다. T-GRPO는 Video-R1의 training process에서 video-based inputs에만 employed된다는 점에 유의해야 합니다.
3.3 Training Strategies
우리는 Qwen2.5-VL-7B를 training을 위한 base MLLMs로 채택합니다. DeepSeek R1과 유사하게, training process는 SFT cold start 후 RL training의 두 단계로 수행됩니다. 이 두 단계 모두 image-video mixed training strategy를 채택합니다.
첫 번째 stage에서는 image 및 video inputs 모두에서 파생된 chain-of-thought (CoT) annotated samples를 포함하는 Video-R1-COT-165k dataset에 대해 SFT를 수행합니다. 이 step은 cold-start initialization 역할을 하여 model에 다양한 modalities에 걸쳐 basic reasoning capabilities를 갖추게 합니다. 결과 model은 Qwen2.5-VL-7B-SFT로 표시됩니다.
두 번째 stage에서는 제안된 T-GRPO algorithm을 사용하여 더 넓은 Video-R1-260k dataset에서 Qwen2.5-VL-7B-SFT model을 추가로 train합니다. 이 reinforcement learning phase는 supervised fine-tuning에 의해 induced된 rigid, pattern-matching behavior를 넘어 model을 guide하여, 더 effective하고 generalizable reasoning strategies를 자유롭게 explore하고 internalize하도록 장려하기 위해 설계되었습니다. 결과 model은 Video-R1-7B로 표시됩니다.
Reasoning의 quality를 더욱 향상시키기 위해, model의 output 길이를 regulate하는 length-based reward를 도입합니다. 구체적으로, 이 mechanism은 deeper reasoning을 장려하는 것과 overthinking을 방지하는 것 사이의 balance를 맞추는 것을 목표로 합니다. 각 reasoning path 에 대해, predicted answer가 correct하고 response length가 predefined interval 내에 속하면 model은 additional reward 를 받습니다. 공식적으로: 이 reward는 model이 overthinking 없이 deeply think하도록 장려합니다. 이 논문에서는 , , 로 설정합니다.
3.4 Aha Moment in Video Reasoning
Video-R1에서 reinforcement learning의 가장 흥미로운 outcomes 중 하나는 일반적으로 "aha moments"라고 불리는 self-reflection reasoning behaviors의 emergence입니다. 이러한 moments는 model이 straightforward answer path에서 벗어나, 이전 steps을 reassess하기 위해 pauses하고, 궁극적으로 더 accurate하거나 logically sound solution으로 converges할 때 발생합니다. Video-R1에서 우리는 model이 특히 ambiguous temporal cues나 multi-step inference에 직면했을 때 video의 interpretation을 때때로 revisits하는 것을 observe합니다. Model은 initial plan에 committing하는 대신, uncertainty, reconsideration 또는 alternate strategies를 reflect하는 reasoning traces를 generate할 수 있습니다. 예를 들어, 어떤 cases에서는 model이 plausible assumption으로 시작하여途中でinconsistency를 identifies한 다음, earlier frames를 re-analyzing하거나 temporal relationships를 re-evaluating하여 correction을 issues합니다. 이러한 behaviors는 model이 단순히 memorized patterns을 executing하는 것이 아니라, internal feedback loops에 actively engaging하여 evidence를 re-examining하고 그에 따라 conclusions을 adjusting하고 있음을 suggest합니다. 일부 examples는 Figure 3, 4에 demonstrated되어 있습니다.
AI 연구자들을 위한 Methods (Section 3) 정리노트
핵심 목표: Video-R1 model 학습 방법론 상세 기술 (Dataset 구축, 핵심 알고리즘 T-GRPO, Training 전략).
3.1 Dataset Construction
- 핵심 전략: High-quality video reasoning data 부족 문제 해결 위해, image-based reasoning data (general reasoning skill 학습: math, spatial, knowledge, OCR 등)와 video-based data (temporal reasoning 학습: event progression, frame dependency 등)를 전략적으로 혼합 사용.
- 구축 Datasets:
- Video-R1-COT-165k: SFT cold start 용. Video-R1-260k 기반 Qwen2.5-VL-72B 생성 CoT + rule-based 필터링.
- Video-R1-260k: RL training 용. 다양한 source/type 혼합 (구성 비율은 Figure 2 참조).
- 주요 구성: General Video (116k), General Image (15k), Chart (21k), OCR (16k), Math (37k), Knowledge (37k), Spatial (20k).
- RL 위한 Data/Reward 설계:
- DeepSeek-R1 패러다임 따라 rule-based reward의 신뢰성/정확성 확보 위해, verifiable output (Multiple Choice, Numerical QA) 위주 데이터 사용.
- Model 유연성/일반화 위해 Free-form QA, OCR, Regression 등 다른 type 소량 포함. 각 type별 명확한 reward 함수 정의 (Multiple Choice: 정답 일치, Numerical QA: 값 일치(binary), OCR: WER, Free-form QA: ROUGE 평균, Regression: 1 - relative error).
3.2 Temporal Group Relative Policy Optimization (T-GRPO)
- 문제 정의: Standard GRPO는 video의 temporal reasoning 위한 명시적 reward signal 부재.
- 핵심 아이디어: Temporal order 정보 활용 강제 위한 contrastive reward mechanism 도입.
- 작동 방식:
- 동일 video question 대해, ordered frame sequence 사용 응답(: 정답 비율)과 shuffled frame sequence 사용 응답(: 정답 비율) 생성.
- Temporal reward coefficient () 정의: (e.g., ) 조건 만족 시에만 (e.g., 0.3), 그 외 . (수식 1)
- 즉, ordered sequence 성능이 shuffled sequence 성능보다 현저히 좋을 때만 temporal bonus 부여.
- Reward Augmentation: 정답( is correct)인 경우에만 기본 reward 에 를 더함 (). 오답은 . (수식 2)
- 목적: Model이 temporal 정보에 의존해야만 더 좋은 성능을 내는 경우에만 reward를 강화하여, temporally aware policy 학습 유도.
- 최적화: Advantage 계산 (수식 3) 및 GRPO의 clipped surrogate objective 사용 (수식 4).
- 적용 범위: RL training 시 video-based inputs에 대해서만 T-GRPO 적용.
3.3 Training Strategies
- Base Model: Qwen2.5-VL-7B.
- 2-Stage 학습:
- SFT Cold Start: Base model을 Video-R1-COT-165k (image/video CoT 혼합)로 SFT -> Qwen2.5-VL-7B-SFT. (기본 reasoning 능력 초기화)
- RL Training: SFT 모델을 Video-R1-260k (image/video 혼합) 데이터셋과 T-GRPO 알고리즘으로 RL 학습 -> Video-R1-7B. (Pattern matching 넘어 generalizable reasoning 탐색/내재화 유도)
- 추가 Reward (Length-based): Reasoning quality 향상 위해 도입. 정답이면서 응답 길이()가 특정 구간() 내일 경우, 추가 reward 부여 (수식 5). (깊이 있는 사고 장려 및 overthinking 방지 목적).
3.4 Aha Moment in Video Reasoning
- 주요 관찰: RL training (특히 T-GRPO 적용) 결과, self-reflection reasoning behavior ("aha moments") 자발적 출현.
- 현상 설명: Model이 초기 판단에서 벗어나, 모호한 temporal cue나 multi-step inference 상황에서 이전 단계를 재평가(reassess)하고 더 정확한 결론으로 수렴하는 현상. 불확실성, 재고려, 대안 전략 등을 반영하는 reasoning trace 생성. 단순 패턴 실행 넘어 internal feedback loop 통한 능동적 증거 재검토 및 결론 수정 과정 시사. (Figure 3, 4 예시).
쉬운 설명 :
이 "Methods" 섹션은 Video-R1이라는 똑똑한 동영상 이해 AI를 연구자들이 어떻게 만들고 학습시켰는지 구체적인 방법을 설명하는 부분이에요. 요리 레시피 같은 거라고 생각하면 쉬워요!
1. 학습 재료 준비 (Dataset Construction):
- AI가 똑똑해지려면 좋은 학습 재료가 필요해요. 그런데 동영상으로 복잡한 reasoning을 가르칠 자료가 부족해서, 연구자들은 그림(image) 자료와 동영상(video) 자료를 섞어서 사용했어요.
- 그림 자료로는 수학 문제 풀이, 차트 읽기, 글자 읽기(OCR) 등 다양한 일반적인 생각하는 능력을 가르쳤어요.
- 동영상 자료로는 시간의 흐름에 따라 내용이 어떻게 변하는지 이해하는 능력(temporal reasoning)을 집중적으로 가르쳤어요.
- 이렇게 모은 자료들을 잘 정리해서, 기초 학습용(Video-R1-COT-165k)과 본격적인 실력 향상 학습용(Video-R1-260k) 두 가지 데이터 세트를 만들었어요.
- 특히 본격 학습 때는 AI가 정답/오답을 명확히 알 수 있도록 객관식이나 숫자 맞히기 문제 위주로 학습 재료를 구성했어요.
2. 특별한 학습 비법 (T-GRPO):
- 이 논문의 핵심 기술이에요! AI가 동영상의 시간 순서를 제대로 이해하도록 만드는 특별한 훈련법이죠.
- T-GRPO 작동 원리:
- AI에게 동영상 질문을 주고, 동영상 프레임(장면)들을 올바른 시간 순서대로 보여준 뒤 답하게 해요. (성공률 측정)
- 같은 질문을 다시 주는데, 이번에는 프레임 순서를 마구 섞어서 보여준 뒤 답하게 해요. (성공률 측정)
- 만약 AI가 올바른 순서로 봤을 때 섞어서 봤을 때보다 훨씬 더 잘 맞혔다면, 그때만 특별 보너스 점수(reward)를 줘요!
- 왜 이렇게 할까요? AI가 단순히 운 좋게 답을 맞히는 게 아니라, 정말로 '시간 순서가 중요하구나!' 깨닫고 동영상의 흐름을 파악하는 능력을 배우도록 유도하기 위해서예요.
3. 전체 학습 과정 (Training Strategies):
- 일단 성능 좋은 기존 AI 모델(Qwen2.5-VL-7B)을 데려와서 시작했어요.
- 학습은 2단계로 진행했어요:
- 준비 운동 (SFT): 기초 학습용 데이터 세트로 AI에게 기본적인 reasoning 능력을 가르쳐줘요. (마치 학교에서 기본 개념 배우는 것처럼요!)
- 본 운동 (RL with T-GRPO): 실력 향상용 데이터 세트와 위에서 설명한 특별 학습 비법(T-GRPO)을 사용해서 AI의 video reasoning 능력을 집중적으로 키워줘요. (배운 개념을 응용해서 어려운 문제를 푸는 훈련!)
- 추가 팁: AI가 너무 짧게 대답하거나 너무 길게 장황하게 설명하는 걸 막기 위해, 적절한 길이로 답을 잘했을 때 추가 점수를 주는 방법도 사용했어요.
4. 학습 중 발견한 신기한 현상 ("Aha Moment"):
- 이렇게 AI를 학습시키다 보니 재미있는 현상을 발견했어요. AI가 문제를 풀다가 "어? 뭔가 이상한데?" 하고 스스로 생각해서 답을 고치는 모습을 보인 거예요!
- 예를 들어, 처음에는 A라고 생각했다가, 동영상 내용을 다시 곰곰이 되짚어보더니 "아니다, B가 맞는 것 같다"라고 결론을 바꾸는 거죠.
- 이런 "아하 모먼트"는 AI가 단순히 외운 대로 답하는 게 아니라, 나름대로 생각하고, 검토하고, 수정하는 과정을 거친다는 것을 보여줘서 매우 흥미로워요.
주인장 이해
- "기존에는 비디오에 GRPO loss를 적절하게 사용하지 못했다."
- 코멘트: 정확합니다. 논문에서는 기존 GRPO가 비디오의 'temporal reasoning'을 위한 명시적인 신호가 부족해서 비디오 도메인에 적용하기에는 불충분하다고 지적합니다. '못했다' 보다는 'temporal reasoning을 이끌어내기에 부족했다'가 조금 더 정확한 뉘앙스일 수 있습니다.
- "우리는 템포럴 정보를 loss에 반영해서 T GRPO loss로 만들었다."
- 코멘트: 맞습니다. 정확히는 reward 계산 방식을 조절하여 (temporal bonus 추가), 이것이 advantage 계산에 영향을 미치고, 최종적으로 policy 업데이트에 사용되는 loss 함수 (수식 4의 )에 temporal 정보가 반영되도록 설계했습니다.
- "그 전에 기본적인 추론, 시각능력을 키우기 위한 데이터셋으로 초기 학습을하고"
- 코멘트: 네, 맞습니다. 이것이 SFT cold start 단계이고, Video-R1-COT-165k 데이터셋을 사용하여 모델에게 기본적인 reasoning 및 visual 이해 능력을 먼저 갖추게 합니다.
- "본격적으로 동영상 이해를 위한 학습을 위한 데이터셋을 가지고 학습한다."
- 코멘트: 맞습니다. 이것이 RL training 단계이며, 더 큰 Video-R1-260k 데이터셋과 T-GRPO 알고리즘을 사용하여 특히 비디오 입력에 대한 temporal reasoning 능력을 포함한 전반적인 reasoning 능력을 강화합니다.
- "근데 이제 보상을 줘야하니, 채점이 명확한 데이터 위주로 사용하지만 일반화를 위해 다양한 데이터를 쓰긴쓴다. (그래서 뭐라는거지 비율이 다르다 이런걸 말하고 싶은건가? 왜 말했는지 잘 모르겠어.)"
- 코멘트: 내용 요약은 정확합니다. 사용자님의 의문점("왜 말했는지 잘 모르겠어")에 대해 설명하자면, 연구자들이 이 부분을 언급하는 이유는 크게 두 가지입니다.
- (1) RL 학습의 안정성: Rule-based RL은 reward 신호가 명확하고 정확해야 학습이 안정적으로 진행됩니다. 객관식(Multiple Choice)이나 숫자 답변(Numerical QA)은 정답 비교가 명확해서 reward 계산이 쉽고 정확하죠. 그래서 이런 데이터를 '주로(majority)' 사용한다고 밝히는 것입니다.
- (2) 모델의 일반화 성능: 하지만 현실 세계의 문제들은 객관식이나 숫자 답변만 있는 것이 아닙니다. 자유 형식 답변(Free-form QA)이나 글자 인식(OCR) 등 다양한 능력이 필요하죠. 따라서 모델이 학습 데이터에만 너무 치우치지 않고(overfitting), 실제 다양한 상황에서도 잘 작동하도록(generalization) 하기 위해 이런 다른 종류의 데이터도 '일부(smaller portion)' 포함시켰다는 것을 설명하는 것입니다.
- 결국 사용자님이 추측하신 대로, "채점 용이성(안정성) 때문에 객관식/숫자 위주로 쓰지만, 실용성(일반화)을 위해 다른 타입도 일부 섞었다"는 데이터 구성 전략과 그 이유를 설명하기 위해 언급한 것이고, 두 종류 데이터의 비율이 다름을 암시하는 것이 맞습니다.
- 코멘트: 내용 요약은 정확합니다. 사용자님의 의문점("왜 말했는지 잘 모르겠어")에 대해 설명하자면, 연구자들이 이 부분을 언급하는 이유는 크게 두 가지입니다.
- "랜덤 셔플 데이터에 비해서 정렬된 프레임에 대한 점수가 높다면 그것은 확실히 프레임이 필요하거나 중요한 정보라는 얘기고 그것을 잘 활용했다고 볼 수 있으니 보너스 점수 부여."
- 코멘트: 네, 이것이 T-GRPO의 temporal bonus 를 부여하는 핵심 로직을 정확하게 설명한 것입니다. '정렬된 순서'가 '무작위 순서'보다 훨씬 나은 결과를 냈다는 것은 모델이 시간 정보를 유의미하게 사용했다는 강력한 증거로 보고, 이를 추가적으로 보상해주는 것입니다.
전반적으로 Methods 섹션의 내용을 정확하고 깊이 있게 이해하신 것으로 보입니다! 특히 5번 항목에 대한 질문은 논문의 의도를 파악하려는 좋은 질문이었습니다.