논문리뷰

VLM : 논문리뷰 : VIDEORFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning

AI바라기 2025. 6. 29. 12:32

쉬운 설명 (Core Idea Explained Simply)

이 논문의 핵심 아이디어는 AI 모델을 "똑똑한 비디오 분석가"로 만들기 위한 '고품질 맞춤형 교재 제작'과 '정교한 채점 시스템 도입'에 비유할 수 있습니다.

  • 고품질 맞춤형 교재 제작 (Cognitively Inspired CoT Generation):
    1. 먼저 조교(GPT-4o-mini)가 비디오 내용을 꼼꼼하게 요약한 '강의 노트'를 만듭니다.
    2. 그 다음, 똑똑한 학생(DeepSeek-R1)이 이 '강의 노트'만 보고 '연습 문제 풀이 과정(초기 CoT)'을 작성합니다.
    3. 마지막으로, 교수님(Qwen2.5-VL)이 이 학생의 풀이 과정을 실제 '원본 비디오'와 비교하며 잘못 이해했거나 상상으로 지어낸 부분을 첨삭하여 '최종 모범 답안(최종 CoT)'을 완성합니다. 이렇게 만들어진 교재는 내용이 정확하고 신뢰도가 매우 높습니다.
  • 정교한 채점 시스템 (Semantic-Consistency Reward):
    • AI 모델이 시험을 볼 때, 단순히 최종 답만 채점하는 것이 아닙니다. 서술형 문제의 풀이 과정 중 '비디오 내용을 설명하는 부분' 이 실제 비디오와 일치하는지를 집중적으로 확인하여 점수를 줍니다. 학생의 독창적인 '결론'이나 '추론' 부분은 자유롭게 펼치도록 내버려 둡니다. 이 채점 방식은 AI가 엉뚱한 상상을 하는 것을 막고, 사실에 기반하여 생각하도록 훈련시킵니다.

 

 

VIDEORFT: MLLM의 Video Reasoning 강화를 위한 Reinforced Fine-Tuning 학습 노트

용어 설명 (Glossary)

  • RFT (Reinforcement Fine-Tuning): LLM(Large Language Model)을 강화학습(Reinforcement Learning)을 통해 미세 조정하는 기법. 일반적으로 SFT (Supervised Fine-Tuning)로 초기 학습 후 RL로 성능을 더욱 향상시키는 2-stage 방식을 따릅니다.
  • MLLM (Multimodal Large Language Model): 텍스트뿐만 아니라 이미지, 비디오 등 다양한 양식(modality)의 데이터를 이해하고 처리할 수 있는 LLM입니다.
  • CoT (Chain-of-Thought): 모델이 최종 답변을 내놓기 전에, 문제 해결 과정을 단계별로 서술하는 '생각의 사슬'. 이를 통해 복잡한 추론 능력과 결과의 해석 가능성을 높입니다.
  • Cognitively Inspired CoT Generation: 이 논문에서 제안한 고품질 Video CoT 데이터를 자동으로 생성하는 3단계 파이프라인입니다.
    1. Structured Video Representation: 비디오를 텍스트 기반의 상세하고 구조화된 설명(JSON 형식)으로 변환합니다.
    2. Blind CoT Generation: 생성된 텍스트 설명만을 보고 reasoning LLM이 초기 CoT를 생성합니다. (실제 비디오는 보지 않음)
    3. Cross-modal CoT Refinement: 초기 CoT와 실제 비디오를 함께 MLLM에 입력하여, 시각적 불일치나 hallucination을 수정하고 최종 CoT를 완성합니다.
  • Semantic-Consistency Reward (Rs): 이 논문에서 제안한 새로운 reward 함수. 모델이 생성한 CoT 중 '비디오를 묘사하는 부분'의 텍스트 임베딩과 실제 비디오 프레임의 시각적 임베딩 간의 유사도를 측정하여, reasoning 결과가 시각적 증거에 잘 근거하도록(grounded) 유도합니다.
  • GRPO (Group Relative Policy Optimization): 기존 RL 알고리즘(e.g., PPO)과 달리 value model이 필요 없어 계산적으로 효율적인 rule-based RL 알고리즘입니다.

Purpose of the Paper

기존의 video MLLM들은 주로 정답을 바로 생성하는 "answer-driven" 방식으로, 깊이 있는 추론 과정을 보여주지 못하는 한계가 있었습니다. 이를 극복하기 위해 RFT를 비디오 도메인에 적용하려 했으나, 다음과 같은 핵심적인 문제에 직면했습니다.

  • 고품질 데이터 부족: RFT의 핵심인 CoT 학습을 위한 대규모의 고품질 video CoT dataset이 절대적으로 부족했습니다.
  • Visual Grounding 실패: 기존의 소수 데이터셋은 시각적 정보와 추론 과정 간의 연결이 약해, 모델이 사실과 다른 내용을 지어내는 시각적 환각(visual hallucination) 현상이 잦았습니다.

이 논문은 확장 가능하고 자동화된 pipeline을 통해 시각적으로 검증된(visually grounded) 대규모 video CoT 데이터를 구축하고, 추론 과정이 시각적 증거에 충실하도록 유도하는 새로운 reward 함수를 도입하여 RFT를 비디오 도메인에 성공적으로 적용하고자 했습니다.

Key Contributions & Novelty

Key Contributions (무엇을 했는가?)

  • Cognitively Inspired CoT 생성 파이프라인 구축: GPT-4o, DeepSeek-R1, Qwen2.5-VL 같은 여러 모델의 강점을 결합하여, (1) 구조화된 비디오 텍스트화, (2) 텍스트 기반 초기 CoT 생성, (3) 비디오 기반 교차검증 및 수정을 거치는 3단계 자동화 파이프라인을 제안했습니다.
  • 신규 대규모 Video CoT Datasets 공개: 위 파이프라인을 통해 SFT를 위한 VideoRFT-COT-102K와 RL을 위한 VideoRFT-RL-310K라는 두 개의 새로운 데이터셋을 구축했습니다.
  • Semantic-Consistency Reward (Rs) 제안: 모델의 reasoning trace를 [질문 분석], [비디오 묘사], [추상적 추론]의 세 부분으로 구조적으로 파악하고, 이 중 [비디오 묘사] 부분의 텍스트 표현과 실제 비디오의 시각적 표현 간의 일치도만을 측정하여 reward를 부여하는 독창적인 reward 모델을 설계했습니다.
  • VIDEORFT 프레임워크 제안: 위의 기여들을 통합하여, SFT와 rule-based RL을 통해 video MLLM의 reasoning 능력을 효과적으로 향상시키는 종합적인 프레임워크 VIDEORFT를 완성했습니다.

Novelty (무엇이 새로운가?)

  • 데이터 구축 방식의 참신성: 단순히 비디오를 텍스트로 변환 후 reasoning하는 기존 방식과 달리, Cross-modal CoT Refinement 단계를 도입하여 LLM의 reasoning 능력과 MLLM의 시각적 검증 능력을 결합함으로써 hallucination을 최소화하고 데이터 품질을 혁신적으로 높였습니다.
  • Reward 설계의 정교함: 기존 reward가 최종 정답의 정확성에만 초점을 맞춘 반면, Semantic-Consistency Rewardreasoning 과정의 '내용'을 구조적으로 분석하여 시각적 근거가 필요한 부분에만 선택적으로 reward를 부여합니다. 이는 추상적 사고는 방해하지 않으면서 시각적 충실도(visual faithfulness)를 높이는 매우 정교한 접근 방식입니다.

Experimental Highlights

  • Datasets & Metrics: 6개의 주요 video reasoning benchmark(VSI-Bench, VideoMMMU, MMVU, MVBench, TempCompass, VideoMME)에서 Average Accuracy로 평가를 진행했습니다.
  • State-of-the-Art (SOTA) Performance: VIDEORFT는 6개 벤치마크 중 4개에서 SOTA 성능을 달성했으며, 특히 proprietary model인 GPT-4o를 VSI-Bench에서 +2.8%p 차이로 능가하여 RFT의 강력한 잠재력을 입증했습니다.
  • Base Model 대비 성능 향상: VIDEORFT는 기반 모델인 Qwen2.5-VL-7B 대비 모든 벤치마크에서 큰 성능 향상을 보였습니다 (e.g., MMVU +7.2%p, VideoMME +7.0%p). 이는 제안된 RFT 프레임워크의 직접적인 효과를 명확히 보여줍니다.
  • Ablation Study를 통한 핵심 요소 검증:
    • SFT onlyRL only보다 SFT와 RL을 모두 사용한 RFT 방식이 일관되게 가장 좋은 성능을 보였습니다.
    • Semantic-Consistency Reward (Rs)를 추가했을 때 성능이 향상되었으며, 특히 정답이 맞았을 때만(Ra > 0) Rs를 활성화하는 조건부 gating 방식이 가장 좋은 결과를 보여, 제안된 reward 설계의 유효성을 증명했습니다.

Limitations and Future Work

  • Limitation 1: Handling of Challenging Video Scenarios
    • 현재 모델은 움직임이 매우 빠르거나 객체가 심하게 가려진(severe occlusion) 복잡한 비디오 시나리오에서 성능이 저하될 수 있습니다.
    • Future Work: 더 높은 프레임 속도로 샘플링하거나 더 세밀한(finer-grained) 시각적 신호를 모델에 통합하여 이를 완화할 수 있습니다.
  • Limitation 2: CoT Data Reliance
    • VIDEORFT가 생성하는 CoT 데이터의 품질은 파이프라인에 사용된 GPT-4o-mini, DeepSeek-R1 등 외부 LLM의 성능에 의존적입니다. 즉, 이들 모델의 한계가 데이터셋의 품질 상한선이 됩니다.
    • Future Work: 향후 더 발전된 reasoning 모델이 등장하면, 이를 파이프라인에 적용하여 CoT 데이터의 품질과 VIDEORFT의 성능을 지속적으로 개선할 수 있습니다.

Overall Summary

VIDEORFT는 고품질 video CoT 데이터의 부재라는 핵심 문제를 해결하기 위해, 자동화된 Cognitively Inspired 데이터 생성 파이프라인추론의 시각적 근거를 강화하는 Semantic-Consistency Reward 를 제안한 혁신적인 RFT 프레임워크입니다. 이 접근법을 통해 다수의 벤치마크에서 SOTA를 달성하며, MLLM이 단순 답변 생성을 넘어 인간과 유사한 깊이 있는 video reasoning 능력을 갖출 수 있음을 보여주었습니다. 이 연구는 향후 RFT 기반 video reasoning 연구의 중요한 토대를 마련했다는 점에서 큰 의의를 가집니다.

 

Abstract

Reinforcement fine-tuning (RFT)은 Large Language Models (LLMs)의 인간 수준 reasoning 능력 달성에 큰 가능성을 보여주었으며, 최근에는 MLLMs로 확장되었습니다. 그럼에도 불구하고, 인간 지능의 근본적인 측면인 video에 대한 reasoning은 video data에 내재된 복잡한 논리, 시간 및 causal 구조로 인해 지속적인 과제로 남아있습니다. 이러한 격차를 해소하기 위해, 우리는 MLLMs에서 인간과 유사한 video reasoning 능력을 배양하기 위해 RFT paradigm을 확장하는 새로운 접근 방식인 VIDEORFT를 제안합니다. VIDEORFT는 RFT의 표준 2단계 방식을 따릅니다: chain-of-thought (CoT) annotations을 사용한 supervised fine-tuning (SFT) 후, generalization을 개선하기 위한 reinforcement learning (RL)이 이어집니다.

video domain에서 이를 달성하기 위한 핵심 과제는 large-scale의 high-quality video CoT datasets의 부족에 있습니다. 우리는 완전 자동 CoT curation pipeline을 구축하여 이 문제를 해결합니다. 먼저, 우리는 인지에서 영감을 받은 prompting strategy를 고안하여 reasoning LLM이 오직 풍부하고 구조화되었으며 문자 그대로의 video content의 representations에 기반하여 예비 CoTs를 generate하도록 유도합니다. 이후, 이 CoTs는 실제 video를 조건으로 하는 visual-language model에 의해 수정되어 visual consistency를 보장하고 visual hallucinations을 줄입니다. 이 pipeline은 SFT를 위한 VideoRFT-CoT-102K와 RL을 위한 VideoRFT-RL-310K라는 두 개의 새로운 datasets을 결과로 내놓습니다.

RL phase를 더욱 강화하기 위해, 우리는 textual reasoning과 visual evidence 간의 alignment를 명시적으로 촉진하는 새로운 semantic-consistency reward를 도입합니다. 이 reward는 model이 visual input에 기반한 일관성 있고 맥락을 인지하는 reasoning outputs를 생성하도록 장려합니다. 광범위한 실험을 통해 VIDEORFT가 6개의 video reasoning benchmarks에서 state-of-the-art performance를 달성했음을 보여줍니다.

 

 

 

더보기

이 이미지는 VIDEORFT의 전체적인 개요를 세 부분으로 나누어 보여줍니다.

(a) Illustration of CoT in VideoRFT

이 부분은 VIDEORFT가 어떻게 Video QA (Question Answering) 문제에 대해 CoT (chain-of-thought)를 생성하는지 예시를 통해 보여줍니다.

  • Video QA 예시: 농구 비디오의 한 장면을 보여주며 "영상에 어떤 농구 규칙이 등장하나요?"라는 질문을 제시합니다. 선택지로는 A. 트래블링, B. 파밍, C. 해킹, D. 홀딩이 있습니다. 정답(Ground-Truth)은 A. 트래블링입니다.
  • CoT from VideoRFT: VIDEORFT가 정답을 찾기 위해 생성한 사고 과정(reasoning)을 보여줍니다.
    • <think> 태그로 사고 과정을 시작합니다.
    • 먼저 "농구 규칙을 확인하기 위해, 영상 내용을 단계별로 검토해 보겠습니다"라며 문제 해결 계획을 세웁니다.
    • 그다음 "영상은 'KILSYTH BASKETBALL | FIBA TRAVELLING RULE CHANGES'라는 검은 화면으로 시작하며, 이는 FIBA 트래블링 규칙에 초점이 맞춰져 있음을 나타냅니다"라고 영상의 구체적인 내용을 설명합니다.
    • 마지막으로 "영상은 명확하게 트래블링 규칙에 초점을 맞추고 있습니다. 다른 선택지는 영상에서 언급되지 않았습니다. 따라서 정답은 A. 트래블링입니다"라고 결론을 내립니다.
    • 최종적으로 <answer>A</answer>로 답변을 제출합니다.

이 예시는 VIDEORFT가 단순히 답을 맞히는 것을 넘어, 영상의 시각적 단서를 바탕으로 논리적인 추론 과정을 거쳐 결론에 도달함을 보여줍니다.

(b) Performance Comparison

이 부분은 6개의 다른 datasets에서 VIDEORFT의 performance를 다른 최신 models과 비교한 레이더 차트입니다.

  • 6개의 평가 기준(datasets)은 VideoMMU, MMVU, MVBench, TempCompass, Video-MME, VSI-Bench입니다.
  • 차트에서 붉은색 선으로 표시된 VIDEORFT가 대부분의 평가 기준에서 가장 바깥쪽에 위치하고 있습니다. 이는 VIDEORFT가 다른 경쟁 models에 비해 뛰어난, 즉 선도적인(leading) performance를 달성했음을 의미합니다.

(c) Two-Stage Training Paradigm

이 부분은 VIDEORFT의 훈련 과정을 도식화한 것입니다. 전체 과정은 크게 CoT Data를 생성하는 단계와 이를 이용해 model을 훈련하는 2단계 RFT (Reinforcement Fine-Tuning)로 구성됩니다.

  1. CoT Data 생성:
    • Raw VQA Data(원본 비디오 질문 데이터)에서 시작합니다.
    • Structured Video Representation: 비디오를 구조화된 텍스트 표현으로 변환합니다.
    • Cognitive CoT Generation: 이 텍스트 표현을 기반으로 인지적인 CoT를 생성합니다.
    • Cross-modal CoT Refinement: 생성된 CoT를 실제 비디오와 비교하여 시각적 오류를 수정하고 다듬어 최종 CoT Data를 완성합니다.
  2. 2단계 훈련 (Two-Stage RFT):
    • S1: SFT Cold Start: 완성된 CoT Data를 사용하여 MLLMs를 Supervised Fine-Tuning(SFT) 방식으로 초기 훈련시킵니다.
    • S2: Rule-based RL: SFT로 초기 훈련된 model을 Policy Model로 사용하여 Reinforcement Learning(RL)으로 추가 강화 학습을 진행합니다. 이 과정에서 Policy Model이 생성한 여러 답변()을 Reward Function이 평가하고, GRPO라는 알고리즘이 이 보상 신호를 이용해 Policy Model을 더욱 정교하게 업데이트합니다.

 

 

1 Introduction

더보기

복잡한 videos에 대해 reason하는 능력은 인간 인지 발달의 핵심에 있습니다. 인간, 심지어 유아도 videos를 이해하는 놀라운 능력을 보여줍니다. 즉, 무슨 일이 일어났는지 인식하고, 다음에 무슨 일이 일어날지 추론하며, 사건이 왜 발생하는지 설명합니다. AI systems에서 이 능력을 복제하는 것은 video understanding의 핵심 목표가 되었으며, 지난 10년 동안 computer vision 분야에서 광범위하게 연구되어 왔습니다. 이러한 발전에도 불구하고, 대부분의 AI models는 perceptual-level understanding에 국한되어 있으며, 인간 인지의 특징인 깊이, 효율성, interpretability를 가지고 video content에 대해 reason하는 데 어려움을 겪고 있습니다.

최근 Video-ChatGPT, VILA, Video-LLaVA와 같은 video MLLMs의 빠른 발전은 video understanding의 능력을 크게 향상시켰습니다. 그러나 이러한 models는 주로 answer-driven 방식으로, reasoning process를 명시적으로 드러내지 않고 답변을 생성합니다. VoT는 고정된 templates를 사용하여 video reasoning 작업을 5개의 사전 정의된 단계로 구조화하는 인간과 유사한 reasoning framework를 도입하여 이를 극복합니다. 그럼에도 불구하고, 이러한 엄격한 template-based 접근 방식은 perceptual inputs에 따라 reasoning process를 조정할 수 있는 인간 인지의 유연성과 대조됩니다.

반면, OpenAI-o1, DeepSeek-R1, Kimi-1.5와 같은 아주 최근의 발전은 답변하기 전에 생각하는 LLMs 구축으로 초점을 옮겼습니다. 이러한 models는 복잡한 문제를 해석하고, multi-step reasoning을 수행하며, 궁극적으로 정답에 도달하는 데 뛰어난 능숙함을 보여줍니다. 이러한 능력의 핵심 요인은 reinforcement fine-tuning (RFT)이며, 이는 일반적으로 CoTs를 사용한 supervised fine-tuning의 준비 단계로 시작하여 이후 PPO, GRPO와 같은 reinforcement learning algorithms를 통해 model을 개선합니다. language domain을 넘어, 선구적인 노력들은 image-based 능력을 향상시키기 위해 RFT를 MLLMs로 확장했으며, 우리 연구와 동시에 진행된 일부 연구들은 video domain에서 RFT의 잠재력을 보여줍니다. 그러나 해결되지 않은 중요한 과제가 남아있습니다: 현재 video CoT datasets는 고급 video reasoning에 필요한 복잡성과 세분성이 부족하여, models가 인간 수준의 cognitive capabilities를 모방하는 능력을 근본적으로 제한합니다. 더욱이, reasoning outputs가 visual evidence에 충실하게 grounded되도록 보장하는 방법은 이러한 연구들에서 아직 충분히 탐구되지 않았습니다.

위의 분석에 동기를 부여받아, 우리는 MLLMs의 video reasoning capability를 장려하기 위한 새로운 reinforcement fine-tuning framework인 VIDEORFT를 제안합니다 (Fig. 1 참조). video CoTs의 부족을 극복하기 위해, 우리는 high-quality video CoT dataset 구축을 위한 확장 가능하고 인지적으로 영감을 받은 pipeline을 개발합니다. 구체적으로, 우리는 먼저 MLLM을 사용하여 videos에서 structured textual descriptions를 추출하여 fine-grained visual details를 포착합니다. 그런 다음 이 descriptions는 reasoning이 가능한 LLM (예: DeepSeek-R1)에 입력되어, 오직 textual descriptions에만 의존하는 blind reasoning을 통해 초기 CoTs를 생성합니다. 그러나 visual context의 부족으로 인해 이러한 CoTs는 종종 inconsistencies와 hallucinations를 겪습니다. 이를 해결하기 위해, 우리는 MLLM이 원본 video content를 받아 초기 CoTs를 개선하여 visual evidence와의 consistency를 보장하는 cross-modal revision 단계를 개발합니다. 이 pipeline을 기반으로, 우리는 두 개의 large-scale datasets, 즉 VideoRFT-CoT-102K와 VideoRFT-RL-310K를 구축하며, 이들은 함께 VIDEORFT의 RFT process를 지원합니다.

나아가, RL phase를 강화하기 위해, 우리는 MLLMs에서 reasoning outputs의 visual faithfulness를 명시적으로 향상시키는 새로운 semantic-consistency reward를 개발합니다. 우리의 핵심 관찰은 MLLMs의 reasoning traces가 일반적으로 question parsing, video describing, abstract reasoning의 세 가지 연속적인 부분으로 구조화된다는 것입니다. question parsing과 abstract reasoning 구성 요소는 반드시 visual input에 grounded될 필요는 없지만, video describing 부분은 실제 visual semantics와 밀접하게 align되어야 합니다. 이러한 통찰력을 바탕으로, 우리의 semantic-consistency reward는 video description 부분의 token representations와 input video의 visual features 간의 alignment를 측정합니다. 이 reward는 GRPO algorithm에 통합되어 MLLMs가 visually grounded outputs를 생성하도록 안내합니다.

Contributions of this work. 우리는 인간과 유사한 video reasoning capabilities를 모방하기 위해 RFT를 MLLMs로 확장하는 새로운 framework인 VIDEORFT를 제안합니다. 이를 달성하기 위해, 우리는 먼저 large-scale, high-quality video CoT annotations를 선별하기 위한 인지적으로 영감을 받은 pipeline을 설계하여 video RFT를 위한 CoT 기반을 구축합니다. 또한, 우리는 visual evidence에 grounded된 MLLMs의 reasoning trajectories를 명시적으로 안내하기 위한 새로운 semantic-consistency reward를 도입하여 cross-modal reasoning에서 RFT의 효과를 향상시킵니다. 이러한 기여를 바탕으로, VIDEORFT는 일련의 까다로운 video reasoning benchmarks에서 고급 경쟁자들을 유리하게 능가합니다.

 

Introduction 섹션 정리노트 (for AI Researchers)

배경 (Background)

  • 현존 Video MLLM의 한계: 현재 video MLLMs는 정답만 생성하는 answer-driven 방식이거나, VoT처럼 고정된 templates를 사용하여 인간 reasoning의 유연성이 부족함.
  • Video Reasoning을 위한 RFT 적용의 난관: LLM에서 reasoning 능력 확보에 효과적인 Reinforcement Fine-tuning (RFT)을 video domain에 적용하려 할 때, 두 가지 핵심적인 문제가 존재함.
    1. 데이터 부족: Advanced video reasoning에 필수적인, 복잡하고 세분화된 large-scale high-quality video CoT (Chain-of-Thought) datasets가 절대적으로 부족함.
    2. 시각적 기반 부재 (Lack of Visual Grounding): Model이 생성하는 reasoning 과정이 실제 visual evidence에 충실하게 기반하도록 보장하는 메커니즘이 미비함.

핵심 제안 (Core Proposal): VIDEORFT

  • 본 논문은 MLLMs에 인간과 유사한 video reasoning 능력을 부여하기 위한 새로운 RFT framework인 VIDEORFT를 제안함. VIDEORFT는 위에서 언급한 두 가지 핵심 문제를 해결하는 데 초점을 맞춤.

주요 기여 (Key Contributions)

  1. 자동화된 Video CoT 데이터셋 구축 Pipeline: CoT 데이터 부족 문제를 해결하기 위해, 인지 과학에서 영감을 받은 3단계 자동화 pipeline을 개발함.
    • 1단계 (Structured Description): MLLM을 이용해 비디오에서 fine-grained visual details을 포함하는 structured textual descriptions를 추출함.
    • 2단계 (Blind Reasoning): Reasoning에 특화된 LLM (DeepSeek-R1 등)이 오직 이 텍스트 설명에만 의존하여 초기 CoTs를 생성함. (blind reasoning)
    • 3단계 (Cross-modal Revision): MLLM이 원본 비디오를 참조하며 초기 CoTs를 검토, visual evidence와 일치하도록 수정하고 hallucination을 줄여 최종 CoT를 완성함.
    • 결과물: 이 pipeline을 통해 SFT용 VideoRFT-CoT-102K와 RL용 VideoRFT-RL-310K라는 두 개의 large-scale datasets를 구축함.
  2. Semantic-Consistency Reward: RL 단계의 효율성을 높이고 visual grounding을 강화하기 위해 새로운 reward 함수를 도입함.
    • 핵심 통찰: MLLM의 reasoning trace는 '질문 분석', '비디오 묘사', '추상적 추론'의 3부분으로 구성되는데, 이 중 '비디오 묘사' 부분은 반드시 visual input과 강하게 align되어야 함.
    • 작동 방식: Model이 생성한 reasoning 결과 중 '비디오 묘사' 부분의 token representations와 실제 입력 비디오의 visual features 간의 alignment를 측정하여 reward로 제공함. 이 reward는 GRPO 알고리즘을 통해 Model이 visually grounded된 결과물을 생성하도록 유도함.

쉬운 설명 :

이 논문의 목표는 AI가 비디오를 보고 '무슨 일이 왜 일어났는지' 사람처럼 단계별로 생각하고 설명하게 만드는 것입니다.

기존 AI들은 비디오를 보고 정답만 말하거나(answer-driven), 정해진 각본대로만 설명해서(template-based) 유연한 사고를 하지 못했습니다. 연구자들은 AI가 스스로 생각하는 능력을 키우는 RFT라는 훈련 방식을 비디오에 적용하고 싶었지만, 두 가지 큰 문제에 부딪혔습니다.

첫 번째 문제: "교과서가 너무 부족해요!" AI에게 사람처럼 생각하는 법을 가르치려면, 사람이 비디오를 보고 단계별로 생각한 내용이 담긴 예시(CoT 데이터)가 아주 많이 필요합니다. 하지만 이런 '생각 예시' 데이터는 만들기가 어려워 세상에 거의 없었습니다.

  • 해결책: '생각 예시'를 만드는 자동 공장을 만들었어요.
    1. 1단계 (꼼꼼히 받아쓰기): AI 하나가 비디오를 보고 나오는 모든 상황을 아주 상세한 글로 받아씁니다.
    2. 2단계 (글만 보고 추리하기): 다른 똑똑한 '추리 전문' AI가 이 글만 읽고, 어떤 논리로 생각해야 할지 '생각의 과정'을 글로 씁니다. 아직 비디오는 보지 않은 상태입니다.
    3. 3단계 (영상 보며 검토하기): 다시 원래 AI가 '추리 전문' AI가 쓴 생각의 과정을 읽으면서 실제 비디오 화면과 내용이 맞는지, 혹시 상상해서 지어낸 부분은 없는지 꼼꼼하게 검토하고 수정합니다. 이렇게 해서 양질의 '생각 예시' 데이터를 대량으로 만들었습니다.

두 번째 문제: "AI가 가끔 상상해서 말해요." AI를 훈련시키다 보면, 비디오에 나오지도 않는 내용을 마치 본 것처럼 말하는 '시각적 환각'(visual hallucination) 문제가 생깁니다.

  • 해결책: '팩트 체크' 보상 규칙을 만들었어요. AI가 훈련 중에 '비디오 묘사'를 할 때, 그 내용이 실제 비디오 영상과 얼마나 일치하는지 계속 확인합니다. 내용이 영상과 비슷하고 사실에 가까울수록 높은 점수(reward)를 줍니다. 이 점수를 받기 위해 AI는 자연스럽게 비디오에 없는 내용을 지어내지 않고, 영상에 충실하게 설명하는 법을 배우게 됩니다.

이 두 가지 핵심적인 해결책을 통해 VIDEORFT라는 새로운 AI는 다른 AI들보다 훨씬 더 사람처럼 비디오를 이해하고 논리적으로 설명할 수 있게 되었습니다.

 

 

 

2 VIDEORFT CoT Dataset

더보기

먼저 MLLMs의 RFT를 지원하기 위한 VideoRFT-COT와 VideoRFT-RL의 구축 과정을 제시합니다.

2.1 Data Collection

우리는 다양한 modalities, task types, cognitive skills를 포괄하는 video question-answer data를 광범위하게 수집합니다. 특정 domain(예: 수학, 과학)에서 high-quality video data가 부족한 점을 감안하여, 신중하게 선별된 image-based instances를 추가로 통합합니다. 최종 dataset은 총 310K개의 샘플을 포함하며, multiple-choice (mc), numerical (num), free-form text generation (free), OCR (ocr), regression (reg) 등 다양한 답변 형식을 지원합니다. Fig. 2에 나타난 바와 같이, 샘플들은 reasoning 과정에 포함된 cognitive skills의 유형에 따라 다섯 그룹으로 분류됩니다:

  • General: Open-domain의 시간적, causal 맥락에서의 상식적 reasoning.
  • Mathematics: Multi-step 논리 과제를 위한 상징적 reasoning 및 공간적 alignment를 지원.
  • Science: 물리, 화학, 의학 분야의 domain 특화 reasoning에 초점을 맞추며, causal reasoning과 개념적 추상화를 강조.
  • Document: 복잡한 레이아웃으로부터 구조화된 visual parsing 및 정보 추출을 목표로 함.
  • Spatiotemporal: 움직임 예측, 공간적 변형 및 관계적 reasoning을 포함.

2.2 Cognitively Inspired CoT Generation

MLLMs가 인간과 유사한 reasoning 능력을 습득하게 하려면, high-quality의 인지적으로 기반을 둔 video CoT dataset을 구축하는 것이 필수적입니다. 우리는 이러한 CoT data를 생성하기 위한 자동화된 pipeline을 제안합니다. Fig. 3에 설명된 바와 같이, pipeline은 세 가지 주요 단계로 구성되며, pipeline에서 사용된 모든 prompts는 보충 자료에 제공됩니다.

Structured Video Representation. 각 비디오 에 대해, 우리는 GPT-4o-mini에 prompting하여 의미적으로 풍부한 텍스트 설명을 생성합니다. prompt $P_{\text{rep}}$는 model이 (i) high-level caption으로 비디오 내용을 요약하고, (ii) 균일하게 샘플링된 비디오 프레임에 대한 분석적인, frame-level metadata를 생성하도록 신중하게 제작되었습니다. 각 프레임은 타임스탬프가 찍힌 captions와 객체, 행동, 장면, 공간 관계, 잠재적 상호작용과 같은 핵심 visual 요소를 포함하는 사전 정의된 JSON schema로 구조화됩니다. 우리는 의 structured representation을 로 표기합니다.

Cognitively Inspired CoT Generation. representation 와 해당 질문 가 주어지면, 우리는 LLM(예: DeepSeek-R1)을 호출하여 질문에 답하고 그 단계별 reasoning 결과를 초기 CoT, 즉 $CoT^{(0)}{v}$로 추출합니다: $$CoT^{(0)}{v} = \text{LLM}(q, S_v, P_{\text{cog}}). \quad (1)$$ 여기서 $P_{\text{cog}}$는 5개의 하위 prompts로 구성된 복합 prompt, 즉 $P_{\text{cog}} = [p_s, p_t, p_a, p_v, p_r]$를 나타내며, 각각은 인간의 인지 처리를 모방하는 방식으로 reasoning 경로의 각기 다른 단계를 안내합니다. 구체적으로 다음과 같이 정의됩니다. (1) Simulated observation prompt (ps): model에게 전체 비디오를 보는 것을 시뮬레이션하여 초기의 high-level 이해를 형성하도록 지시합니다. (2) Task understanding prompt (pt): 질문 를 분석하여 과제 유형(예: 사실, 이유, causal 관계)을 추론하도록 장려합니다. (3) Selective focus prompt (pa): 와 관련된 비디오의 특정 시간적 구간에 주의를 집중하도록 지시합니다. (4) Visual reasoning prompt (pv): reasoning 과정을 visual content에 기반하게 하여 객체, 행동, 시공간 관계 및 이벤트 전환에 대한 분석을 장려합니다. (5) Reflective answering prompt (pr): model이 최종 답변을 도출하도록 안내하며, 선택적으로 reasoning 품질을 보장하기 위해 self-verification 또는 성찰을 포함합니다.

Cross-modal CoT Refinement. 초기 CoTs의 핵심적인 한계는 식 (1)에서 visual 단서의 부재로 인해 visual hallucinations를 겪을 수 있다는 것입니다. 이 문제를 해결하기 위해, 우리는 CoT가 실제 비디오 입력과 더 잘 align되도록 수정하는 cross-modal refinement 전략을 도입합니다. 구체적으로, 우리는 MLLM(즉, Qwen2.5-VL)에 prompting하여 초기 CoT를 비디오 와 비교하고, 불일치점을 식별하며, 필요한 수정을 수행하도록 합니다:

여기서 prompt $P_{\text{cross}}$는 MLLM을 안내하도록 설계되었습니다: i) $CoT^{(0)}_{v}$와 비디오 의 내용 간의 cross-modal alignment를 검증하고, ii) 시각-텍스트 불일치점을 찾아내고 설명하며, iii) 원래의 논리 구조를 보존하면서 visual grounding을 향상시키기 위해 CoT를 수정합니다.

마지막으로, 우리는 결과적인 CoT annotations의 사실적 정확성을 보장하기 위해 필터링 단계를 적용합니다. 명확한 정답 라벨이 있는 구조화된 과제의 경우, 최종 답변이 틀린 샘플을 직접 폐기합니다. Open-ended 과제의 경우, 생성된 답변과 참조 답변 간의 semantic consistency(CLIP으로 측정)가 낮은 샘플을 제거합니다. 이 필터링 과정은 결과적인 CoT dataset이 high quality와 사실적 신뢰성을 유지하도록 보장합니다. 필터링 후, 초기 310K개의 풀에서 102K개의 high-confidence 샘플이 남게 되며, 이는 supervised fine-tuning을 위한 VideoRFT-CoT-102K를 형성합니다.

2.3 Data Analysis

Fig. 4는 우리가 제안한 VideoRFT-CoT-102K와 Video-R1에 포함된 CoTs의 비교 분석을 제시합니다. Fig. 4 (a)에서 볼 수 있듯이, 우리 dataset의 CoTs는 Video-R1(Fig. 4(c))의 것들과 비교하여 더 넓고 긴 token length distribution을 보이며, 이는 우리의 VideoRFT-CoT-102K가 더 정교하고, 세분화되며, 미묘한 reasoning processes를 포함하고 있음을 나타냅니다. 추가적으로, Fig. 4 (b)의 워드 클라우드는 VideoRFT-CoT-102K의 CoTs가 "video", "main", "happen", "first"와 같은 동적이고 video-centric한 개념들에 의해 지배된다는 것을 보여줍니다. 어휘 프로파일은 복잡한 video understanding의 핵심 특징인 서사 구조와 시간적 진행에 대한 강조를 반영합니다. 대조적으로, Video-R1(Fig. 4 (d))은 "diagram", "image", "plant", "Earth"와 같이 정적이거나 선언적인 내용에 대한 빈번한 참조를 특징으로 하며, 이는 깊은 reasoning보다는 사실적 설명에 대한 더 강한 편향을 시사합니다. 이러한 결과들은 VIDEORFT가 reasoning 깊이에서 더 큰 expressiveness를 제공하며 실제 video reasoning 과제의 요구 사항과 더 밀접하게 일치함을 강조합니다. 따라서, 이는 고급 reasoning 능력을 갖춘 video MLLMs 훈련을 위한 더 나은 기반을 제공합니다.

 

 

 

 

더보기

Figure 2: The distribution of data collection

이 이미지는 VideoRFT가 사용하는 dataset의 구성 분포를 보여주는 도넛 차트입니다. Datasetreasoning에 필요한 cognitive skills 유형에 따라 크게 5개의 domain으로 나뉩니다.

  • General (66%): 가장 큰 비중을 차지하며, 일상적인 상황에서의 상식적, 시간적, causal reasoning을 다룹니다. LLaVA-Video-178k, PerceptionTest 등의 dataset으로 구성됩니다.
  • Mathematic (12%): 수학적, 공간적 reasoning을 포함하며, Multimath-300k, UniGeo 등의 dataset이 여기에 속합니다.
  • Spatiotemporal (10%): 움직임 예측, 시공간적 관계 reasoning 등 시간과 공간에 관련된 능력을 평가합니다. STAR, OpenSpaces 등의 dataset으로 이루어져 있습니다.
  • Scientific (9%): 과학(물리, 화학 등) domain의 전문 지식을 요구하는 reasoning 과제를 다룹니다. ArxivQA, ScienceQA 등이 포함됩니다.
  • Document (3%): 복잡한 문서나 도표 이미지에서 정보를 추출하고 parsing하는 능력을 평가합니다. HME100k, FigureQA 등이 이 domain에 해당합니다.

결론: 이 차트는 VideoRFT가 다양한 reasoning 능력을 학습할 수 있도록, 여러 domain

더보기

Figure 3: Illustration of the pipeline for cognitively inspired CoT generation

이 이미지는 고품질의 CoT (Chain-of-Thought) 데이터를 자동으로 생성하는 3단계 pipeline을 시각적으로 보여줍니다.

  1. Structured Video Representation (좌측): Raw Data (원본 비디오)가 입력되면, Prep라는 prompt를 통해 비디오를 구조화된 텍스트로 변환합니다. 여기에는 비디오 전체를 요약하는 Video Caption과, 시간대별로 프레임의 주요 요소(객체, 행동, 장면 등)를 상세히 기술한 Frame-level Metadata가 포함됩니다.
  2. Cognitive CoT Generation (중앙): 구조화된 텍스트와 질문(Question)을 Pcog라는 prompt와 함께 LLM에 입력하여, 초기 CoT (Initial CoT)를 생성합니다. 이미지의 예시를 보면, 모델은 visualize the video based on the provided descriptions (제공된 설명을 바탕으로 비디오를 시각화)와 같이 단계별로 reasoning을 수행합니다. 여기서 빨간색 텍스트는 video description을, 파란색은 abstract reasoning을 나타냅니다.
  3. Cross-modal CoT Refinement (우측): Initial CoT에 있을 수 있는 오류나 hallucination(환각)을 바로잡는 단계입니다. Pcross라는 prompt를 사용하여 MLLM이 Initial CoT의 내용과 실제 원본 비디오를 비교하고 검토합니다. 예시에서 볼 수 있듯, "컴퓨터가 이미 켜져 있었다"는 초기 추론을 실제 비디오와 비교하여 "노트북이 비디오 시작 전에 열려 있었다"고 더 정확하게 수정(Revised CoT)합니다.

결론: 이 pipeline은 원본 비디오로부터 인간의 사고 과정을 모방한, 정교하고 신뢰도 높은 CoT 데이터를 자동으로 만들어내는 과정을 보여줍니다.

더보기

Figure 4: Comparison of CoT dataset in VideoRFT-CoT-102K and Video-R1

  • (a), (c) Distribution of CoT token length: CoT의 길이 분포를 보여주는 히스토그램입니다. (a) VideoRFT-CoT-102K는 (c) Video-R1에 비해 분포가 전반적으로 더 오른쪽에 치우쳐 있습니다. 이는 VideoRFT의 CoT가 평균적으로 더 길다는 것을 의미하며, 그만큼 더 상세하고 정교한 reasoning 과정을 담고 있음을 시사합니다.
  • (b), (d) Word cloud: CoT에 자주 등장하는 단어를 시각화한 워드 클라우드입니다.
    • (b) VideoRFT-CoT-102K에서는 "video", "person", "happen", "main", "first" 와 같이 비디오의 동적인 사건이나 서사 구조와 관련된 단어들이 중심을 이룹니다.
    • (d) 반면 Video-R1에서는 "diagram", "image", "plant", "earth" 등 정적인 이미지나 사실적 정보와 관련된 단어들이 두드러집니다.

결론: 이 비교는 VideoRFT 데이터셋이 기존 데이터셋보다 더 깊이 있고, 비디오 중심의 동적인 reasoning을 포함하고 있어, 고도의 video reasoning 모델을 훈련시키는 데 더 적합한 기반을 제공한다는 것을 보여줍니다.

    • 이 이미지는 이 논문에서 제안하는 VideoRFT-CoT-102K 데이터셋을 이전의 Video-R1 데이터셋과 비교하여 우수성을 보여주는 자료입니다.

 

더보기

Figure 5: Illustrations of (a) rule-based RL, and (b) the computation of semantic-consistency reward Rs

이 이미지는 VIDEORFT의 Reinforcement Learning (RL) 훈련 단계, 특히 핵심적인 semantic-consistency reward가 어떻게 작동하는지 설명합니다.

  • (a) Rule-based Reinforcement Learning: RL 훈련의 전체적인 흐름을 보여줍니다.
    1. Policy Model(훈련 대상 AI)이 답변(Completions)을 생성합니다.
    2. 이 답변은 Reward Evaluation 모듈에서 세 가지 기준으로 평가됩니다: Format Reward(형식 점수), Accuracy Reward(정확도 점수), 그리고 이 논문의 핵심인 Semantic-Consistency Reward(의미 일관성 점수).
    3. 계산된 보상(reward)들은 GRPO라는 최적화 알고리즘에 전달되어, Policy Model이 더 나은 답변을 생성하도록 가중치를 업데이트(Policy Optimization)합니다.
  • (b) Semantic-Consistency Reward: 이 보상이 어떻게 계산되는지 구체적인 예시를 보여줍니다.
    1. 모델이 비디오(Input video)를 보고 reasoning 결과(think.../think)를 생성합니다.
    2. 이 reasoning 결과는 세 부분으로 색칠되어 있습니다: 질문 분석(녹색), 비디오 묘사(빨간색), 추상적 추론(파란색).
    3. Semantic-Consistency Reward ()는 오직 빨간색으로 표시된 '비디오 묘사' 부분만을 사용하여 계산됩니다.
    4. 계산식 $R_s = \min(1, w \times \max(\cos(t, v), 0))$은, 텍스트로 된 비디오 묘사()가 실제 비디오의 시각적 feature()와 얼마나 유사한지($\cos(t, v)$ 유사도)를 측정합니다. 유사도가 높을수록 높은 보상을 주어, 모델이 영상에 기반한 사실적인 설명을 하도록 유도합니다.

결론: 이 그림은 모델이 hallucination을 줄이고, reasoning 과정이 실제 비디오 내용에 충실하도록 만드는 핵심 RL 훈련 메커니즘을 설명합니다.

 
 
 
 
 
 

2. VIDEORFT CoT Dataset 섹션 정리노트 (for AI Researchers)

목표 (Objective)

  • Video MLLMs의 Reinforcement Fine-Tuning (RFT)을 위해, reasoning 능력 향상에 필수적인 large-scale, high-quality의 CoT (Chain-of-Thought) 데이터셋 구축.
  • 이를 위해 Supervised Fine-Tuning용 VideoRFT-CoT-102K와 Reinforcement Learning용 VideoRFT-RL-310K를 제안.

핵심 방법론 (Core Methodology): 3단계 자동화 CoT 생성 Pipeline

이 논문의 핵심 기여 중 하나로, 기존의 데이터 부족 문제를 해결하기 위해 고안된 독창적이고 확장 가능한 pipeline임.

  1. Stage 1: Structured Video Representation
    • 단순 captioning을 넘어, GPT-4o-mini를 활용해 비디오()로부터 구조화된 텍스트 표현()을 생성.
    • JSON schema를 사용하여 high-level caption과 함께, frame-level의 상세한 metadata (객체, 행동, 시공간 관계 등)를 추출. 이는 후속 단계에서 reasoning의 기반이 되는 풍부한 컨텍스트를 제공함.
  2. Stage 2: Cognitively Inspired CoT Generation (Blind Reasoning)
    • 강력한 LLM(DeepSeek-R1 등)이 실제 비디오()를 보지 않고, 오직 텍스트 표현()과 질문()만을 기반으로 초기 CoT()를 생성함.
    • 이 과정은 인간의 인지 과정을 모방한 5단계의 복합 prompt()를 통해 유도됨. (Simulated observation, Task understanding, Selective focus, Visual reasoning, Reflective answering). 이 구조화된 prompting은 reasoning의 논리적 흐름을 체계적으로 제어함.
  3. Stage 3: Cross-modal CoT Refinement
    • Blind Reasoning으로 인해 발생할 수 있는 visual hallucination (시각적 환각) 문제를 해결하는 결정적 단계.
    • MLLM(Qwen2.5-VL 등)이 생성된 초기 CoT()와 실제 비디오()를 함께 비교하여, 내용의 불일치를 찾아내고 수정함.
    • 이를 통해 CoT의 논리적 구조는 유지하면서, reasoning의 근거가 visual evidence에 충실하도록 visual grounding을 대폭 강화함.

데이터셋 구성 및 품질 관리 (Dataset Composition & Quality Control)

  • 구성: General, Mathematics 등 5개의 cognitive skill domain에서 총 310K개의 원본 데이터를 수집.
  • 품질 관리: pipeline을 거친 후, 정답이 정해진 과제는 오답을 제거하고, open-ended 과제는 CLIP 기반 semantic consistency 점수가 낮은 샘플을 제거하는 강력한 필터링을 적용.
  • 최종 결과: 310K개의 원본 데이터에서 102K개의 high-confidence 샘플을 선별하여 VideoRFT-CoT-102K 데이터셋을 완성함.

데이터셋 특성 (Dataset Characteristics)

  • Video-R1 등 기존 데이터셋과 비교 시, VideoRFT-CoT-102K의 CoT는 token 길이가 더 길어 더 상세하고 정교한 reasoning 과정을 포함함.
  • Word cloud 분석 결과, "happen", "video" 등 동적이고 서사 중심적인 어휘가 주를 이뤄, 정적인 image 위주의 reasoning이 아닌 복잡한 video understanding에 더 적합함을 보여줌.

쉬운 설명 :

이 섹션은 AI에게 '비디오를 보고 사람처럼 생각하는 법'을 가르치기 위한 특별한 교과서(CoT 데이터셋)를 어떻게 만들었는지 설명하는 부분입니다.

문제: AI를 가르칠만한 좋은 비디오용 '생각 교과서'가 세상에 거의 없었습니다.

해결책: 연구원들은 '생각 교과서'를 자동으로 대량 생산하는 3단계짜리 스마트 공장(pipeline)을 만들었습니다. 이 공장은 3명의 전문가 팀처럼 일합니다.

  • 1단계: '꼼꼼한 기록원' (Structured Video Representation)
    • 첫 번째 AI는 비디오를 보면서 "0분 5초: 남자가 침대에 눕는다", "0분 6초: 컴퓨터를 쳐다본다" 와 같이, 영상 속 모든 상황과 등장하는 사물을 시간대별로 아주 상세하게 글로 받아 적습니다.
  • 2단계: '눈 가린 추리 탐정' (Cognitive CoT Generation)
    • 두 번째 AI는 뛰어난 추리력을 가졌지만 눈을 가리고 있어서 비디오는 볼 수 없습니다. 대신 '기록원'이 쓴 상세한 글만 받고 "침대에 눕기 전에 그 사람은 무엇을 했나요?" 같은 질문을 받습니다.
    • 이 '추리 탐정'은 오직 글에만 의존해서, "글을 보니... 눕기 전에 컴퓨터를 쳐다봤다고 되어 있네. 그렇다면 그전에 컴퓨터를 켰을 수도 있겠다" 와 같이 논리적인 생각의 과정을 단계별로 작성합니다.
  • 3단계: '팩트 체커' (Cross-modal CoT Refinement)
    • 세 번째 AI는 '추리 탐정'이 쓴 생각의 과정을 들고, 눈을 가리지 않은 채 실제 비디오를 봅니다.
    • 그리고는 "어? 탐정은 컴퓨터를 켰을 거라고 추리했는데, 영상을 보니 컴퓨터는 원래 켜져 있었네. 이 부분을 수정해야겠다" 와 같이, 실제 영상과 다른 부분을 찾아내 고쳐줍니다. 즉, '상상'으로 추리한 부분을 '팩트'에 맞게 바로잡는 것입니다.

이렇게 3단계의 팀플레이를 거쳐, 아주 정확하고 품질 높은 '생각 교과서' 10만여 개(VideoRFT-CoT-102K)를 만들어냈습니다. 이 교과서는 기존의 것들보다 설명이 훨씬 길고 상세하며, 비디오의 동적인 이야기에 초점을 맞추고 있어 AI의 reasoning 능력을 훈련시키는 데 훨씬 효과적입니다.

 

 

3 Video Reinforcement Fine-Tuning

더보기

이 섹션에서는 Fig. 5에 나타난 바와 같이 video reinforcement fine-tuning을 위한 우리의 접근법을 제시합니다. 먼저 §3.1에서 GRPO (Group Relative Policy Optimization)에 대해 간략히 개관하고, §3.2에서 효율적인 reinforcement fine-tuning을 위해 제안된 rule-based reward에 대해 자세히 설명합니다.

3.1 Group Relative Policy Optimization

GRPO는 대규모 reasoning models 훈련을 위해 특별히 설계된 계산적으로 효율적인 rule-based RL algorithm입니다. 4개의 models(policy, value, reward, reference)를 필요로 하는 PPO와 같은 전통적인 RL 방법과 달리, GRPO는 value model을 제거하여 접근법을 단순화하고, 메모리 요구 사항과 훈련 복잡성을 크게 줄입니다. GRPO는 각 query 에 대해 개의 후보 응답 ${o_1, o_2, \dots, o_K}$를 생성하는 방식으로 작동합니다. 이 응답들은 정의된 reward functions를 사용하여 평가되어, rewards ${r_1, r_2, \dots, r_K}$를 산출합니다. 그 후, 이 rewards는 각 응답에 대한 advantage 를 계산하기 위해 다음과 같이 정규화됩니다: $$A_i = \frac{r_i - \text{mean}({r_1, r_2, \dots, r_K})}{\text{std}({r_1, r_2, \dots, r_K})}, \quad (3)$$여기서 mean과 std는 각각 rewards의 평균과 표준 편차를 나타냅니다. 이후, model은 다음 목표를 최대화하여 최적화됩니다:

여기서 는 업데이트될 model parameters를, $\pi_{\theta}$와 $\pi_{\theta_{\text{old}}}$는 현재 및 이전 policy model을, $\pi_{\text{ref}}$는 reference policy를 나타내며, 는 KL 발산 정규화 계수입니다. 여기서 은 policy가 reference model에서 너무 멀리 벗어나는 것을 방지하는 정규화 계수입니다.

3.2 Rule-based Reward Modeling in VIDEORFT

식 (3)의 rewards는 rule-based reward functions에서 파생되며, 이는 model 예측이 정답과 정확히 일치하는지를 단순히 평가함으로써 rule-based RL의 기초적인 단계를 나타냅니다. 매우 회복력 있는 두 가지 rule-based rewards는 Format Reward와 Accuracy Reward이며, 이들은 DeepSeek-R1과 그 후속 연구에서 일관되게 활용됩니다. 그러나 cross-modal reasoning의 맥락에서, 이러한 rewards는 MLLMs에게 visually grounded reasoning을 향한 명시적인 지침을 제공하기에 불충분합니다. 이 한계를 해결하기 위해, 우리는 생성된 reasoning content가 visual input에 grounding되도록 강제하는 semantic-consistency reward를 도입합니다.

3.2.1 Semantic-Consistency Reward

이 reward는 video MLLMs에 의해 생성된 reasoning trace가 Fig. 5에서 볼 수 있듯이 일반적으로 question parsing, video describing, abstract reasoning의 세 가지 뚜렷한 부분으로 구성된다는 관찰에 동기를 부여받았습니다. 그중에서도, video describing 단계는 후속 reasoning의 기초가 되는 visual content에 대한 model의 이해를 나타냅니다. 따라서, 이 reward는 이 단계와 입력 비디오 간의 alignment를 선택적으로 촉진하도록 설계되었습니다.

공식적으로, 생성된 응답에서 video describing 문장을 분리하기 위해, 우리는 첫 번째 마침표를 찾는 regular expression을 적용합니다. 경험적으로, 이 구두점 뒤의 부분은 model의 시각적 해석에 해당합니다. 이 지점부터, 우리는 $\mathbf{t}$로 표기된 고정 길이 개의 tokens 범위를 추출하고, SigLIP의 text encoder를 사용하여 인코딩합니다: . 추가적으로, 우리는 비디오 에서 개의 프레임 ${v^{(0)}, \dots, v^{(F)}}$을 균일하게 샘플링하고, SigLIP의 image encoder를 통해 각 프레임 $v^{(i)}$의 visual representation을 계산합니다: . 그런 다음 최종 비디오 representation $\mathbf{v}$는 프레임 임베딩을 평균하여 자연스럽게 얻어집니다: . 그리고 우리는 semantic-consistency reward를 다음과 같이 정의합니다:

여기서 $\cos(\cdot, \cdot)$는 코사인 유사도를 나타내고, 는 스케일링 상수입니다. $\max(\cdot, 0)$는 reward의 비음수성을 보장하며, $\min(\cdot, 1)$은 reward의 상한을 설정하여 훈련을 안정화합니다. 이 단계 인식적 공식화는 visual comprehension에 묶인 reasoning 부분에만 보상을 제공하고, visual 범위를 적절하게 넘어 확장되는 abstract reasoning에는 불이익을 주지 않도록 합니다. 그 결과 RL 동안 semantic 충실도가 향상되고, hallucinations가 감소하며, alignment가 개선됩니다.

3.3 Overall Reward

VIDEORFT는 RL을 위해 세 가지 유형의 rewards를 사용합니다:

  • Format Reward. RL 동안, 우리는 model이 reasoning 과정과 최종 답변을 구조화된 형식으로 생성하도록 안내하기 위해 널리 사용되는 format reward를 통합합니다. 로 표기되는 이 reward는 model의 출력이 사전 정의된 구조를 준수하도록 보장합니다: reasoning 과정은 ... 태그 내에, 답변은 ... 태그 내에 있어야 합니다. 준수 여부는 regular expression 매칭을 통해 확인되며, 이에 따라 이진 reward가 할당됩니다.
  • Accuracy Reward. 이기종 과제 전반에 걸쳐 신뢰할 수 있는 감독을 제공하기 위해, 우리는 과제별 accuracy metrics를 채택합니다: multiple-choice 및 numerical 질문에는 exact match, open-ended generation에는 ROUGE, OCR 과제에는 Word Error Rate (WER), regression 문제에는 스케일링된 상대 accuracy를 사용합니다. 이러한 맞춤형 평가는 reward 가 각 과제와 일치하도록 보장합니다.
  • Semantic-Consistency Reward. 식 (5)에 정의된 semantic-consistency reward 는 reasoning text와 입력 visual information 간의 alignment를 촉진합니다.

샘플에 대한 전체 reward 은 다음과 같이 계산됩니다:

여기서 $\mathbf{1}[R_a > 0]$는 이면 1을, 그렇지 않으면 0을 반환하는 지시 함수입니다. 이는 accuracy reward 가 0이 아닐 때만 semantic-consistency reward 가 활성화되도록 제어하는 게이트 역할을 하여, 의미적으로는 그럴듯하지만 사실적으로는 부정확한 reasoning을 강화하는 것을 방지합니다.

3. Video Reinforcement Fine-Tuning 섹션 정리노트 (for AI Researchers)

RL Framework: GRPO (Group Relative Policy Optimization)

  • 이 연구는 RL 훈련을 위해 PPO 대신 GRPO를 채택함.
  • 핵심 이유: GRPO는 RL에 필수적인 4개의 model 중 value model을 제거하여, 메모리 사용량과 훈련 복잡도를 크게 낮춤. 이는 대규모 reasoning model 훈련에 계산적으로 매우 효율적인 접근법임.

핵심 제안 (Core Proposal): 3중 구조의 Rule-based Reward 시스템

VIDEORFT는 cross-modal reasoning에 특화된, 세 가지 reward를 정교하게 조합한 시스템을 사용함.

  1. Format Reward () & Accuracy Reward ():
    • reasoning 결과가 정해진 format(... 태그 등)을 따르는지, 최종 답안이 정답인지 평가하는 표준적인 reward.
    • Accuracy Reward는 multiple-choice의 exact match부터 generation의 ROUGE, OCR의 WER까지 각 과제 유형에 맞춰진 metrics를 사용함.
  2. Semantic-Consistency Reward (): 이 논문의 핵심적인 reward 설계.
    • 동기: 기존의 rewards가 reasoning 과정의 visual grounding(시각적 기반)을 명시적으로 보장하지 못하는 한계를 극복하기 위해 제안됨.
    • Stage-Aware 메커니즘: reasoning trace 전체가 아닌, video describing(비디오 묘사) 단계에만 선택적으로 적용되는 것이 핵심. regular expression으로 해당 부분을 분리함.
    • 구현: SigLIP의 text/image encoder를 사용하여, 분리된 '비디오 묘사' 텍스트()와 실제 비디오 프레임() 간의 cosine similarity를 측정해 reward를 계산함. ()

전체 Reward 설계의 핵심 (Key of Overall Reward Design): Gating 메커니즘

  • 최종 reward는 세 reward의 단순 합이 아님.
  • 최종 Reward 공식:
  • Gating 메커니즘: 지시 함수()가 게이트(gate) 역할을 수행. Semantic-Consistency Reward()는 오직 정답을 맞혔을 때()에만 활성화됨.
  • 중요성: 이 설계는 model이 시각적으로는 그럴듯하지만 결과적으로는 틀린 reasoning 과정을 학습하는 것을 방지함. 즉, '말은 되지만 틀린 답'에 대해 visual grounding 점수를 주지 않음으로써 reasoning의 사실적 정확성을 크게 향상시킴.

쉬운 설명 :

이 부분은 AI를 똑똑하게 만들기 위한 '특별 과외'(Reinforcement Learning) 방법에 대한 설명입니다. AI 학생에게 비디오 문제를 풀게 하고, 아주 스마트한 채점 방식으로 피드백을 줘서 실력을 키우는 과정과 같습니다.

AI 학생을 위한 3단계 채점 방식은 다음과 같습니다.

  • 1단계: '제출 양식' 점수 (Format Reward)
    • "선생님이 정해준 양식에 맞춰 답안지를 작성했니?"를 확인합니다. 생각하는 과정은 <think> 안에, 최종 정답은 <answer> 안에 제대로 썼는지 보는 기본 점수입니다.
  • 2단계: '정답' 점수 (Accuracy Reward)
    • "그래서, 최종 답이 맞았니, 틀렸니?"를 채점합니다. 가장 기본적이고 중요한 점수입니다.
  • 3단계: '근거 확인' 점수 (Semantic-Consistency Reward)
    • 이것이 이 과외의 핵심 비법입니다. 선생님은 학생의 답안지 중 '이 비디오는...한 내용입니다'라고 묘사한 부분만 따로 봅니다.
    • 그리고 "네가 쓴 비디오 설명이 실제 비디오 내용과 일치하니? 혹시 상상해서 지어낸 내용은 없니?"를 확인합니다. 학생의 설명이 영상 속 사실과 일치할수록 높은 '근거 점수'를 줍니다.

가장 중요한 '히든 룰': 스마트한 보너스 점수 선생님에게는 아주 중요한 채점 규칙이 하나 있습니다.

"학생이 최종 정답을 맞혔을 경우에만 (2번 점수가 0보다 클 때만), '근거 확인' 점수(3번 점수)를 주겠다!"

왜 이런 규칙이 있을까요? 만약 학생이 비디오 내용은 완벽하게 묘사했지만, 그걸 바탕으로 엉뚱한 결론을 내서 답을 틀렸다고 해봅시다. 이때 '근거 확인' 점수를 주면, AI는 '답은 틀려도, 그럴듯하게 설명만 잘하면 되는구나'라고 잘못 배울 수 있습니다.

이 히든 룰은 이런 상황을 막아줍니다. 정답을 맞힌 학생 중에서, 근거까지 탄탄한 학생에게만 보너스 점수를 줌으로써, AI가 정확하면서도 논리적인 진짜 실력자로 성장하도록 만드는 매우 스마트한 훈련 방법입니다.

 

 

 

 

주인장이해

더보기

기존에는 데이터 셋이 부족하니까
cot를 잘하는 llm으로 cot 데이터를 만들고 vlm을 통해 cot 데이터를 보완하는 방법으로 데이터를 만들어냈고.
SFT이후에 강화학습을 해야하는데 그냥 강화학습하면 좀 컨트리가 없으니까, cos유사도 기반으로 비디오 설명 부분만 짤라서 추가점수로 사용을 했다 이거군
정답을 맞췄을때만 추가점수가 들어가게 세팅을 함..