AI바라기의 인공지능
VLM : 논문리뷰 : VersaVid-R1: A Versatile Video Understanding and Reasoning Model from Question Answering to Captioning Tasks 본문
VLM : 논문리뷰 : VersaVid-R1: A Versatile Video Understanding and Reasoning Model from Question Answering to Captioning Tasks
AI바라기 2025. 6. 29. 15:24쉬운 설명 (Simple Explanation)
이 논문의 핵심 아이디어는 비디오 모델을 더 똑똑하게 만들기 위해, 단순히 정답지를 외우게 하는(SFT) 방식에서 벗어나는 것입니다.
대신, 모델에게 두 가지 종류의 "두뇌 훈련 비디오 퀴즈"를 줍니다.
- "중간 내용 추리 퀴즈" (DarkEventInfer): 마술 쇼의 시작과 끝만 보여주고, 중간에 어떤 트릭을 썼는지 추리하게 만듭니다.
- "집중력 퀴즈" (MixVidQA): 두 개의 TV 채널이 빠르게 번갈아 나오는 화면을 보여주면서, 그중 하나의 채널 내용에 대해서만 질문하여 다른 채널은 무시하고 정답을 맞히게 합니다.
이러한 까다로운 퀴즈들을 풀게 하고, 정답을 맞힐 때마다 보상을 주는 방식(RL)으로 훈련시켰습니다. 그 결과, 모델은 단순히 암기만 잘하는 학생이 아니라, **주어진 상황을 깊이 이해하고 스스로 생각해서 문제를 푸는 "진짜 문제 해결사"**로 거듭날 수 있었습니다.
용어 설명 (Glossary)
- Reason-Then-Respond: 최종 답변을 바로 생성하는 대신, 먼저 생각하는 과정 (reasoning process)을 생성하고 그 후에 최종 답변을 내놓는 paradigm. 모델의 추론 과정을 투명하게 만들고 성능을 향상시키는 데 도움을 줍니다.
- DarkEventInfer: 논문에서 제안한 새로운 dataset. 비디오 중간의 특정 event segment를 검은 화면 (black screen)으로 가리고, 모델이 앞뒤 문맥을 통해 가려진 부분의 내용을 추론 (infer)하도록 요구합니다.
- MixVidQA: 논문에서 제안한 또 다른 dataset. 서로 다른 두 개의 비디오 클립을 교차 편집하여 (interleaved) 하나의 비디오로 만들고, 둘 중 하나의 비디오에 대해서만 질문합니다. 모델은 불필요한 정보를 무시하고 관련 있는 정보만을 분리하여 추론해야 합니다.
- GRPO (Group Relative Policy Optimization): 별도의 critic model 없이 policy model에서 여러 개의 응답을 sampling하고, 그 응답들 간의 상대적인 보상 차이를 이용해 policy를 최적화하는 Reinforcement Learning 알고리즘입니다.
- SFT (Supervised Fine-Tuning): 사전에 정의된 '질문-정답' 쌍을 이용해 모델을 학습시키는 방법. 이 논문에서는 reasoning chain을 모방하도록 학습시키는 방식을 의미합니다.
- RL (Reinforcement Learning): 정해진 정답 없이, 모델이 생성한 결과에 대해 보상 (reward)을 주어 더 좋은 결과를 내도록 학습시키는 방법입니다.
Purpose of the Paper
기존 video-based reasoning 연구는 다음과 같은 명확한 한계를 가집니다:
- Reasoning-Oriented Data의 부재: Text나 image 분야와 달리, video 분야에는 모델의 고차원적인 추론 능력을 자극할 만한 고품질의 reasoning task 데이터가 절대적으로 부족했습니다.
- 비효율적인 학습 방법론: 기존 연구 (e.g., Video-R1)는 image 기반 reasoning 능력을 video로 전이시키려 하거나, SFT로 reasoning 패턴을 주입한 후 RL로 fine-tuning하는 복잡한 2-stage 방식을 사용했습니다. 이는 많은 데이터와 컴퓨팅 자원을 요구함에도 불구하고 성능 향상이 제한적이었습니다.
이 논문은 video modality 고유의 reasoning 능력을 직접적으로 자극하는 새로운 task와 dataset을 정의하고, SFT를 거치지 않는 직접적인 RL 학습 방식을 통해 보다 효율적이고 효과적으로 Reason-Then-Respond 패러다임을 video MLLM에 적용하는 것을 목표로 합니다.
Key Contributions & Novelty
- 새로운 Video Reasoning Datasets 제안 (DarkEventInfer, MixVidQA)
- Contribution: 비디오의 일부를 가리고 추론하게 하는 DarkEventInfer와 두 비디오를 섞어놓고 특정 비디오에 대해서만 답하게 하는 MixVidQA를 구축했습니다.
- Novelty: 단순 QA 데이터가 아닌, '문맥 기반 추론'과 '정보 분리 및 집중'이라는 특정 고차원적 reasoning skill을 직접적으로 자극하도록 설계된 최초의 video-native 데이터셋이라는 점에서 독창적입니다.
- Direct RL 기반의 효율적인 학습 전략 제시
- Contribution: 10k라는 비교적 적은 양의 고품질 데이터와 다양한 reward function을 활용하여 GRPO라는 RL 알고리즘을 직접 적용했습니다.
- Novelty: "SFT로 reasoning을 가르치고 RL로 강화한다"는 기존의 지배적인 패러다임을 비판하며, SFT 단계가 오히려 모델의 잠재력을 해칠 수 있고, Direct RL이 더 효과적이라는 것을 실험적으로 증명했습니다. 이는 기존 통념에 반하는 중요한 발견입니다.
- 최초의 다재다능한 Video Reason-Then-Respond 모델, VersaVid-R1 개발
- Contribution: Multiple-choice QA, Open-ended QA, Video Captioning 등 다양한 task를 하나의 모델로 처리할 수 있는 VersaVid-R1을 개발했습니다.
- Novelty: 기존 연구들이 특정 task에 특화된 별도 모델을 개발한 것과 달리, 하나의 통합된 Reason-Then-Respond framework 내에서 다양한 video understanding task를 성공적으로 수행하는 최초의 versatile 모델입니다.
Experimental Highlights
- 주요 성능: VersaVid-R1은 General Understanding, Reasoning, Captioning 등 평가된 대부분의 benchmark에서 기존 SOTA 모델들 (Video-R1, VideoChat-R1, VideoRFT 등)을 큰 차이로 능가했습니다.
- 특히 자체 제작한 reasoning benchmark에서 압도적인 성능을 보였습니다.
- DarkEventInfer-Test: VersaVid-R1 (114.0) vs. Video-R1 (56.0)
- MixVidQA-Test: VersaVid-R1 (51.0) vs. Video-R1 (32.0)
- 특히 자체 제작한 reasoning benchmark에서 압도적인 성능을 보였습니다.
- 핵심 가설 검증 (SFT vs. Direct RL):
- Table 8에서 SFT로 reasoning chain을 학습시킨 후 RL을 적용한 모델 (CoT-SFT-RL)보다, Direct RL을 적용한 VersaVid-R1이 모든 task에서 월등히 높은 성능을 기록했습니다.
- 이는 "모델의 현재 능력을 넘어서는 복잡한 reasoning을 SFT로 강제로 모방하게 하는 것은 오히려 최종 성능을 저해한다"는 논문의 핵심 주장을 강력하게 뒷받침합니다.
- Ablation Study 하이라이트:
- Caption Reward: Captioning 시, 단순히 recall과 precision만 보상으로 주는 것을 넘어 keywords reward (e.g., "first", "then", "after" 같은 시간 순서 키워드)를 추가했을 때, reward hacking을 방지하고 문맥적으로 더 풍부한 caption을 생성함을 보였습니다 (Table 5).
- KL Divergence: GRPO 학습 시, policy 변화를 제약하는 KL divergence 항을 제거했을 때(λ=0), 오히려 모델의 reasoning 능력이 더 빠르고 효과적으로 향상됨을 보였습니다 (Table 6). 이는 제약 없는 탐색이 reasoning 능력 발현에 더 유리함을 시사합니다.
Limitations and Future Work
- Limitations:
- Captioning Task의 불안정한 초기 학습: Figure 3의 Training Dynamics를 보면, captioning task의 성능은 학습 초기에 일시적으로 하락했다가 회복되는 불안정한 양상을 보입니다. 논문은 이를 reasoning을 caption 생성에 통합하는 과정이 다른 task보다 더 복잡하기(intricate) 때문이라고 분석합니다.
- 일부 Task의 미미한 성능 열세: DVD-counting과 같은 매우 특수한 reasoning task에서는 기존 최고 모델에 비해 0.5점 뒤처지는 결과를 보였습니다 (Table 3). 이는 VersaVid-R1이 모든 세부 reasoning task에서 최고는 아님을 의미합니다.
- Future Work:
- 논문에서 명시적으로 언급하지는 않았지만, 제안된 DarkEventInfer, MixVidQA 데이터셋을 더 큰 규모로 확장하여 더 복잡하고 깊은 multi-step reasoning 능력을 학습시키는 연구가 가능합니다.
- Captioning task의 불안정한 학습 문제를 해결하기 위해 보다 정교한 reward function을 설계하거나 점진적인 학습(curriculum learning) 방식을 도입하는 연구로 확장될 수 있습니다.
Overall Summary
이 논문은 video reasoning 능력 향상을 위해 DarkEventInfer와 MixVidQA라는 독창적인 reasoning-native 데이터셋을 제안합니다. 또한, 기존의 복잡한 SFT-then-RL 파이프라인 대신 Direct RL 방식을 적용하여 VersaVid-R1이라는 다재다능한 모델을 개발했으며, 이를 통해 QA와 captioning 등 광범위한 비디오 태스크에서 SOTA 성능을 달성했습니다. 이 연구는 비디오 MLLM의 reasoning 능력을 훈련시키는 효과적인 새 방법론을 제시하며, 강제적인 모방(SFT)에서 벗어나 모델 스스로 추론 능력을 탐색(RL)하도록 유도하는 방향으로 패러다임의 전환을 제안한다는 점에서 큰 의의를 가집니다.
Abstract
최근 multimodal large language models의 발전은 Reason-Then-Respond paradigm을 image-based reasoning으로 성공적으로 확장했지만, video-based reasoning은 주로 높은 품질의 reasoning 지향 data와 효과적인 training 방법론의 부족으로 인해 아직 개발이 미흡한 분야로 남아있습니다.
이러한 격차를 해소하기 위해, 저희는 model의 고급 video understanding 및 reasoning 능력을 자극하도록 특별히 설계된 두 개의 새로운 datasets인 DarkEventInfer와 MixVidQA를 소개합니다. DarkEventInfer는 masked된 event segments가 있는 video를 제시하여, models이 contextual video 단서를 기반으로 가려진 내용을 추론하도록 요구합니다. 반면, MixVidQA는 두 개의 서로 다른 clips으로 구성된 interleaved video sequences를 제시하여, models이 다른 하나는 무시하고 하나에 대해서만 분리하여 reason하도록 도전 과제를 제시합니다.
다양한 reward functions에 의해 유도되는 reinforcement learning과 함께 신중하게 선별된 이러한 training 샘플들을 활용하여, 저희는 multiple-choice 및 open-ended question answering, 그리고 video captioning tasks를 처리할 수 있는 Reason-Then-Respond paradigm 하의 최초의 다목적 video understanding 및 reasoning model인 VersaVid-R1을 개발했습니다.
광범위한 experiments를 통해 VersaVid-R1이 video 일반 이해, cognitive reasoning, 그리고 captioning tasks를 포함하는 광범위한 benchmarks에서 기존 models을 훨씬 능가한다는 것을 보여줍니다. Code는 https://github.com/VersaVid-R1/VersaVid-R1에서 확인할 수 있습니다.
Figure 1 이미지 설명
이 이미지는 "Figure 1: Performance comparison on video general understanding, reasoning, and captioning tasks."라는 제목의 레이더 차트입니다. 다섯 가지 다른 video model의 성능을 세 가지 주요 영역에서 비교하고 있습니다.
- 비교 대상 Models:
- Qwen2.5-VL (파란색 선)
- Video-R1 (녹색 선)
- VideoChat-R1 (보라색 선)
- VideoRFT (분홍색 선)
- VersaVid-R1 (주황색 별표 선)
- 평가 항목 (Benchmarks): 성능은 7개의 다른 benchmark를 기준으로 측정되며, 이들은 세 가지 범주로 그룹화됩니다.
- General (일반 이해): LongVideoBench, Video-MME
- Captioning (캡셔닝): DREAM-1K
- Reasoning (추론): DarkEventInfer-Test, Causal-VidQA, MMVU
- 차트 해석: 차트의 각 축은 특정 benchmark에서의 성능을 나타냅니다. 중심에서 멀리 떨어져 있을수록 해당 항목에서 더 높은 성능을 보였다는 의미입니다.
- 주요 결과: 주황색 별표 선으로 표시된 VersaVid-R1 model이 거의 모든 benchmark에서 다른 네 개의 model보다 월등히 높은 점수를 기록했습니다. 이는 VersaVid-R1이 video의 general understanding, reasoning, captioning tasks 전반에 걸쳐 가장 뛰어난 성능을 보인다는 것을 시각적으로 보여줍니다.
Introduction
최근 OpenAI의 o1/o3와 DeepSeek-R1의 출시는 large language models (LLMs) 개발에 새로운 Reason-Then-Respond paradigm을 도입했으며, 이는 test-time scaling을 통해 model performance를 크게 향상시킵니다. 이 접근 방식에 영감을 받아, 점점 더 많은 연구들이 이 paradigm을 multimodal large language models (MLLMs)로 확장하고 있으며, 특히 image-based reasoning tasks에서 유망한 결과를 내고 있습니다. 그러나 video modality에 대한 적용은 아직 초기 단계에 있으며, 잘 정립된 방법론적 프레임워크는 아직 등장하지 않았습니다.
이러한 격차의 주된 이유 중 하나는 video modality에는 수학이나 코딩 문제와 같이 텍스트 및 이미지 도메인에서 사용할 수 있는 직관적이고 명확하게 정의된 reasoning tasks가 부족하기 때문입니다. 이 격차를 해소하기 위해 Video-R1은 146k개의 image-based reasoning samples와 116k개의 general video samples로 구성된 혼합 dataset으로 training하여 이미지에서 파생된 reasoning capabilities를 video로 이전하려고 시도합니다. training data의 규모와 상당한 computational investment에도 불구하고, 결과적인 performance 향상은 상대적으로 미미했으며, 요구된 자원의 규모에 미치지 못했습니다.
또한, 대부분의 기존 video reasoning models은 multiple-choice question answering (MCQA)에 국한되어 있으며, open-ended question answering이나 video captioning tasks에 대한 연구 관심은 제한적이었습니다. VideoChat-R1이 video captioning 분야의 초기 시도이긴 하지만, 서로 다른 tasks에 대해 별도의 models을 training하여 효과적인 multi-task integration을 달성하지 못하고 model의 generalization capability를 제한했습니다.
이러한 한계를 해결하기 위해, 저희는 video understanding에서 고급 reasoning을 위해 맞춤화된 두 가지 새로운 datasets인 DarkEventInfer와 MixVidQA를 소개합니다. DarkEventInfer에서는 원본 video 내의 특정 event segments가 검은 화면으로 masked 처리되며, model은 contextual video 단서를 기반으로 masked된 event를 추론하고 predict해야 합니다. MixVidQA에서는 두 개의 서로 다른 video가 interleaved되어 있으며, questions은 그중 하나에만 초점을 맞춥니다. model은 정확한 답변을 제공하기 위해 가장 relevant한 video content를 식별하고 reason해야 합니다. 포괄적인 ablation studies를 통해, 저희는 이러한 datasets를 사용한 training이 video understanding models의 comprehension 및 reasoning capabilities를 효과적으로 자극할 수 있음을 입증합니다.
Training methodology 측면에서, 165k개의 samples을 사용한 초기 supervised fine-tuning (SFT) cold-start phase와 260k개의 samples에 대한 reinforcement learning (RL)으로 구성된 복잡한 two-stage pipeline에 의존하는 Video-R1과는 대조적으로, 저희는 SFT stage 동안 model이 현재 능력을 넘어서는 reasoning patterns를 모방하도록 강요하는 것이 최종 performance를 저해할 수 있다고 주장합니다. 따라서 저희는 대신 다양한 reward functions와 함께 단 10k개의 high-quality training samples만을 활용하여 RL, 구체적으로 GRPO를 직접 사용합니다. 이 전략을 통해 multiple-choice 및 open-ended question answering, 그리고 video captioning에서 뛰어난 성능을 보이는 다목적 video understanding and reasoning model인 VersaVid-R1을 성공적으로 개발할 수 있었습니다. Figure 1에서 볼 수 있듯이, 광범위한 experiments는 VersaVid-R1이 광범위한 general video understanding, reasoning, captioning tasks에서 상당한 performance 향상을 달성했음을 보여줍니다.
저희의 기여는 다음과 같이 요약될 수 있습니다.
- 저희는 video understanding에서 구조화된 reasoning tasks가 부족한 현재 상황을 해결하기 위해, video modality 내에서 MLLMs의 reasoning capabilities를 활성화하기 위한 두 가지 새로운 datasets인 DarkEventInfer와 MixVidQA를 소개합니다.
- 단 10k개의 high-quality training samples을 활용하고 RL을 통해 다양한 reward functions를 통합하여, 저희는 multiple-choice 및 open-ended question answering, 그리고 video captioning을 포함한 광범위한 tasks를 처리할 수 있는 최초의 다목적 video understanding and reasoning model인 VersaVid-R1을 개발했습니다.
- 광범위한 experimental evaluations는 VersaVid-R1이 다양한 video general understanding, cognitive reasoning 및 video captioning tasks에서 상당한 performance 향상을 달성했음을 보여줍니다.
AI 연구자를 위한 Introduction 섹션 정리노트
1. 문제 제기 (Problem Statement)
- 핵심 과제: Reason-Then-Respond paradigm이 LLM과 MLLM(이미지)에서는 성공적이었으나, video 분야에서는 아직 미개척 상태.
- 근본 원인:
- Video에는 수학/코딩 문제처럼 명확하게 정의된 reasoning 훈련용 task가 부족함.
- 기존 접근법(예: Video-R1)은 image-based reasoning 능력을 video로 이전하려 했으나, 대규모 data(146k 이미지, 116k 비디오)와 computational cost 대비 performance 향상이 미미했음.
- 기존 모델 한계:
- 대부분 multiple-choice question answering (MCQA)에만 국한됨.
- Open-ended QA나 video captioning을 다루는 연구는 드물며, multi-task 통합에 실패함 (예: VideoChat-R1).
2. 본 논문의 핵심 제안 (Key Proposal)
- Contribution 1: 신규 Reasoning Datasets 제안
- Video model의 고차원적 reasoning 능력을 직접 자극하기 위한 두 가지 dataset을 개발.
- DarkEventInfer: Video의 특정 event segment를 masking 처리 후, model이 contextual cue를 통해 가려진 내용을 추론(infer)하도록 요구. (Causal/Temporal Reasoning 강화 목적)
- MixVidQA: 관련 없는 두 video를 interleave하여 제시하고, model이 질문에 해당하는 video 내용만 분리하여 reasoning하도록 요구. (Content Disentanglement 및 Focus 능력 강화 목적)
- Contribution 2: 효율적인 Training 방법론
- 기존의 복잡한 SFT 후 RL 파이프라인을 비판. (SFT 단계에서 model 능력 이상의 reasoning 패턴을 억지로 모방시키는 것이 오히려 performance를 저해할 수 있다고 주장)
- Direct RL 접근: 복잡한 SFT 단계 없이, 소수의 high-quality data (10k개)와 다양한 reward functions를 사용해 Reinforcement Learning (구체적으로 GRPO)을 직접 적용. 이는 기존 방식 대비 매우 효율적인 training 방식임.
3. 결과 (Result)
- VersaVid-R1 개발: 위의 datasets과 training 방법론을 통해 개발된 다목적 video understanding 및 reasoning model.
- 핵심 역량: MCQA, open-ended QA, video captioning을 모두 효과적으로 처리하는 최초의 versatile model임.
- 성과: General video understanding, cognitive reasoning, captioning 등 광범위한 benchmarks에서 기존 models을 압도하는 performance 향상을 달성함 (Figure 1 참고).
쉬운 설명 :
AI는 사진을 보고 생각한 뒤 답하는 건 꽤 잘하게 됐지만, 동영상을 보고 그 안의 인과관계나 숨은 맥락을 파악해 답하는 건 아직 어려워합니다. 마치 AI에게 줄 만한 똑똑한 '동영상 수능 문제집'이 없었기 때문이죠. 기존 연구들은 사진용 문제집으로 동영상을 가르치려 하거나, 너무 많은 문제만 풀게 해서 효율이 떨어졌습니다.
그래서 이 연구팀은 AI의 '추리력'을 길러주기 위한 아주 특별한 동영상 문제집 두 권을 만들었습니다.
- 숨은 장면 추리하기 (DarkEventInfer): 드라마의 결정적인 장면을 까맣게 가려놓고 "방금 무슨 일이 있었을까?" 하고 앞뒤 장면만 보고 추리하게 만드는 문제입니다.
- 핵심 내용 골라내기 (MixVidQA): 채널 두 개를 동시에 틀어놓고, 그중 한 채널 내용에 대해서만 질문해서 AI가 필요한 정보만 쏙쏙 골라내 답하게 만드는 문제입니다.
공부시키는 방법도 바꿨습니다. 무작정 많은 양을 주입하는 대신, 정말 질 좋은 핵심 문제 1만 개만 엄선해서 '이렇게 하면 상을 준다'는 식의 강화학습(RL)으로 곧바로 훈련시켰습니다.
그 결과, 'VersaVid-R1'이라는 동영상 만능 AI가 탄생했습니다. 이 AI는 객관식, 서술형 질문에 답하는 것은 물론, 동영상 내용을 요약해 주는 것까지 모두 잘 해내는 뛰어난 성능을 보여주었습니다.
Related Work
Multimodal Understanding Models
Multimodal understanding models은 인공 일반 지능(AGI)을 향한 중요한 단계로 널리 인식되고 있으며 최근 몇 년간 놀라운 발전을 이루었습니다. LLaVA 시리즈는 fully connected layers를 통해 visual 및 language representations를 정렬하여 LLMs에 visual inputs을 해석할 수 있는 능력을 갖추게 합니다. Intern-VL 시리즈는 large-scale visual encoder를 사용하여 세밀한(fine-grained) 디테일을 포착함으로써 더 정교한 visual understanding을 달성합니다. Architectural 혁신 외에도, model의 multimodal understanding 능력을 향상시키기 위한 다양한 방법론적 접근 방식이 제안되었습니다. 더 긴 video sequences를 처리하기 위해 일부 연구는 visual information을 압축하는 반면, 다른 연구들은 LLMs의 context window를 확장하여 더 긴 video frames의 temporal sequences를 modeling할 수 있게 합니다. 또한, Tarsier2 및 CogVLM2-Caption과 같은 특화된 models은 신중하게 설계된 training pipelines와 다양한 datasets를 통해 video captioning에서 인상적인 결과를 보여주었습니다. 그러나 이러한 models은 기존의 video understanding paradigms에 국한되어 있습니다. 본 연구에서는 전통적인 프레임워크를 넘어서 Reason-Then-Respond paradigm을 통해 달성되는 performance 향상을 탐구하는 것을 목표로 합니다.
Multimodal Reasoning Models
DeepSeek-R1의 성공에 이어, multimodal reasoning models에 대한 연구는 급속한 발전을 경험했습니다. Image-based reasoning 영역에서 수많은 연구들이 기하학 관련 datasets에 models을 training하여 reasoning 및 reflection capabilities를 달성합니다. 반면, MM-EUREKA는 인간의 학습 과정을 모방하기 위해 초등 및 중등 교육 과정의 광범위한 문제들을 수집하여 model의 교차 학문적(cross-disciplinary) reasoning 능력을 향상시킵니다. 또한, 다른 연구들은 Intersection-over-Union (IoU) 관련 reward functions를 설계하여 object detection 및 grounding capabilities를 향상시키는 데 중점을 둡니다. Video-based reasoning 영역에서 Video-R1과 VideoRFT는 SFT와 RL을 결합한 two-stage training strategy를 채택하여, 광범위한 image 및 video datasets에 대한 training 후 model이 video inputs에 대해 reason할 수 있도록 합니다. 이와 대조적으로 VideoChat-R1은 task-specific reasoning models를 개발하기 위해 RL을 직접 적용합니다. 이러한 발전에도 불구하고, video-based reasoning은 image-based reasoning에 비해 상당히 덜 발달되어 있습니다. 저희의 연구는 다양한 video understanding tasks에서 reasoning capabilities를 향상시키기 위한 효과적인 training strategies를 탐구함으로써 이러한 격차를 해소하는 것을 목표로 합니다.
AI 연구자를 위한 Related Work 섹션 정리노트
1. Multimodal Understanding Models (기존 연구 동향)
- 주요 발전 사항:
- LLaVA: Visual과 Language representation을 align하여 LLM에 시각적 해석 능력 부여.
- Intern-VL: Large-scale visual encoder를 통해 fine-grained한 visual understanding 달성.
- Long Video 처리: 1) Visual information 압축 방식과 2) LLM의 context window 확장 방식, 두 가지 접근법이 존재.
- 특화 모델: Tarsier2, CogVLM2-Caption 등 video captioning에 특화되어 높은 성능을 보인 models 등장.
- 본 논문이 지적하는 한계 (Identified Gap):
- 위에 언급된 모든 발전은 **전통적인(conventional) video understanding paradigms**의 범주에 머물러 있음. 즉, video를 보고 reasoning하는 단계까지 나아가지 못함.
- 본 논문의 차별점:
- 전통적 프레임워크를 넘어 Reason-Then-Respond paradigm을 video에 적용하여 얻을 수 있는 performance gain을 탐구하고자 함.
2. Multimodal Reasoning Models (기존 연구 동향)
- Image-based Reasoning (상대적으로 성숙한 분야):
- DeepSeek-R1 이후 급격히 발전.
- 기하학 dataset 훈련, 교육과정(curriculum) 문제 활용(MM-EUREKA), IoU 기반 reward 설계 등 다양한 방법론으로 reasoning 능력 향상.
- Video-based Reasoning (아직 미성숙한 분야):
- Video-R1, VideoRFT: SFT와 RL을 결합한 복잡한 two-stage training 전략을 사용.
- VideoChat-R1: RL을 직접 적용했으나, task-specific 모델 개발에 그쳐 범용성이 부족.
- 본 논문이 지적하는 한계 (Identified Gap):
- Video-based reasoning은 image 분야에 비해 **현저하게 덜 발달(substantially less developed)**되어 있음.
- 본 논문의 차별점:
- 이러한 격차를 해소하기 위해, 다양한 video understanding tasks 전반에 걸쳐 reasoning 능력을 향상시킬 수 있는 효과적인 training 전략을 탐구하는 것을 목표로 함. 이는 기존의 복잡하거나 제한적인 접근법을 개선하려는 시도임.
쉬운 설명 :
이 연구가 나오기 전까지 다른 연구자들이 AI 분야에서 무엇을 했고, 어떤 점이 아쉬웠는지 되짚어보는 부분입니다.
1. 동영상을 '이해'하는 AI의 현주소
그동안 많은 연구자들이 AI에게 동영상을 '이해'시키는 방법을 연구해왔습니다. 긴 동영상을 보여주기 위해 내용을 요약해서 보여주거나(압축), AI의 기억력을 좋게 만드는(context window 확장) 방법들이 있었습니다. 또 동영상 내용을 한 문장으로 요약해주는 '캡션 달기' 전문 AI도 나왔죠.
하지만 이 연구팀이 보기엔, 대부분의 AI가 동영상을 보고 단순히 '이해'하는 수준에 머물러 있었습니다. 이 논문의 목표는 한 단계 더 나아가 AI가 동영상을 보고 '생각하고 추리한 뒤' 답하게 만드는 것입니다.
2. 동영상을 보고 '추리'하는 AI의 현주소
사진을 보고 추리하는 AI는 꽤 발전했습니다. 도형 문제를 풀게 하거나, 학생들 교과서로 공부시켜서 똑똑하게 만들었죠.
하지만 동영상 추리 AI는 아직 갈 길이 멀었습니다. 기존 연구들은 AI를 가르치는 방식이 너무 복잡하거나(2단계 훈련), 아니면 특정 문제만 잘 푸는 '편식하는 AI'를 만드는 데 그쳤습니다.
그래서 이 연구는 '어떻게 하면 동영상 AI를 더 효과적으로, 그리고 여러 종류의 추리 문제를 모두 잘 풀도록 가르칠 수 있을까?'라는 질문에 답하고자 합니다.
Problem Formulation
효과적인 video understanding을 달성하기 위해, models은 perceptual understanding, cognitive reasoning, descriptive captioning을 포함하여 여러 수준에 걸친 다양한 tasks에서 탁월한 성능을 보여야 합니다. 본 연구에서는 RL을 high-quality training data 및 다양한 reward functions와 결합하여 Reason-Then-Response paradigm 하에서 이러한 영역 전반에 걸친 model의 전반적인 performance를 향상시키는 것을 목표로 합니다.
Data construction과 관련하여, 저희는 video modalities에 대한 고급 reasoning을 촉진하기 위해 세심하게 설계된 두 개의 high-quality datasets, DarkEventInfer와 MixVidQA를 선별합니다. 이들은 model이 contextual video cues를 기반으로 black-screen events의 내용을 추론하거나, 질문에 올바르게 답하기 위해 두 개의 interleaved clips에서 가장 relevant한 video segment를 식별하도록 도전 과제를 제시합니다. 이 설계는 model이 video information을 처리할 때 더 깊은 thinking과 reasoning으로 나아가도록 유도합니다.
Reward function design 측면에서, 저희는 DeepSeek-R1에서 영감을 얻어 answer-based reward mechanism을 채택합니다. 최종 답변의 정확성을 평가함으로써, reward function은 model의 reasoning process의 타당성을 간접적으로 반영하며, model이 미리 정의된 패턴을 따르도록 제약받기보다는 가장 적합한 reasoning strategy를 자율적으로 탐색하도록 장려합니다.
Data curation pipeline과 reward function specifications를 포함한 전체 구현 세부 사항은 본 연구의 후속 섹션에서 제시됩니다.
AI 연구자를 위한 Problem Formulation 섹션 정리노트
1. 목표 정의 (Objective Definition)
- 최상위 목표: Video model이 perceptual understanding(인식), cognitive reasoning(인지 추론), descriptive captioning(서술적 캡셔닝) 등 여러 수준의 task에서 전반적인 performance를 향상시키는 것.
- 핵심 프레임워크: Reason-Then-Response paradigm을 채택.
- 주요 방법론: RL을 high-quality training data 및 다양한 reward functions와 결합하여 사용.
2. 문제 해결을 위한 두 가지 핵심 구성요소
- 1) Data Construction (어떻게 가르칠 것인가?)
- 도구: Video에서의 고차원적 reasoning을 유도하기 위해 특별히 설계된 두 개의 high-quality datasets(DarkEventInfer, MixVidQA)를 제작.
- 과제 설계:
- Model이 context를 기반으로 보이지 않는 event(black-screen)를 추론하게 하거나,
- Interleaved된 clips 속에서 질문과 관련된 segment만 식별하여 reasoning하도록 요구.
- 목적: Model이 video 정보 처리 시, 단순 패턴 매칭을 넘어 더 깊은 thinking과 reasoning을 하도록 강제하고 유도함.
- 2) Reward Function Design (어떻게 평가하고 보상할 것인가?)
- 영감: DeepSeek-R1의 접근법에서 착안.
- 메커니즘: Answer-based reward mechanism 채택.
- 핵심 아이디어: Model의 reasoning process 자체의 유효성을 직접 평가하는 대신, 최종 answer의 정답 여부를 평가.
- 기대 효과: 정답이라는 결과를 통해 reasoning process의 타당성을 간접적으로 강화. 이는 model이 미리 정의된 reasoning 패턴에 얽매이지 않고, 최적의 reasoning strategy를 자율적으로(autonomously) 탐색하도록 장려함.
쉬운 설명 :
이 연구는 AI가 동영상을 보고 '이해'하는 것을 넘어, '추리'하고 '설명'까지 잘하게 만드는 것을 목표로 합니다. 이를 위해 '똑똑한 문제집'과 '현명한 채점 방식'이라는 두 가지 핵심 전략을 사용합니다.
1. 똑똑한 문제집 (어떻게 가르칠 것인가?)
기존 문제집들이 단순 암기용이었다면, 이 연구팀은 AI의 사고력을 길러주는 두 종류의 신개념 문제집을 만들었습니다.
- 숨은 장면 추리하기: 드라마에서 결정적인 장면을 까맣게 가려놓고 "여기에 무슨 일이 있었을까?"를 앞뒤 장면만 보고 추리하게 만드는 문제입니다.
- 핵심 내용 골라내기: 관련 없는 영상 두 개를 섞어 보여주고, 질문에 맞는 영상 내용만 정확히 골라 답하게 하는 문제입니다.
이런 문제들은 AI가 동영상을 겉핥기식으로 보지 않고, 깊이 생각하고 추리하도록 유도합니다.
2. 현명한 채점 방식 (어떻게 평가할 것인가?)
AI를 채점하는 방식도 특별합니다. AI가 문제를 푸는 '과정'을 일일이 들여다보며 "이 방법은 틀렸어"라고 지적하는 대신, 최종적으로 '정답'을 맞혔는지만 봅니다.
이렇게 하면 AI는 정해진 풀이법에 얽매이지 않고, 정답을 맞히기 위해 스스로 가장 좋은 생각의 길(추리 전략)을 찾아내도록 장려됩니다. 더 창의적이고 효율적인 문제 해결법을 스스로 터득하게 되는 셈이죠.
Data Curation
이 섹션에서는 VersaVid-R1의 comprehension 및 reasoning capabilities를 효과적으로 자극하는, training phase 동안 활용된 video reasoning data의 curation 과정을 제시합니다.
Curation of DarkEventInfer
DarkEventInfer는 model에게 black-screen segments를 포함한 video를 제시하고, contextual cues를 기반으로 masked된 기간 동안 발생하는 event를 infer하도록 요구합니다. COIN의 event captions와 해당 timestamp annotations를 사용하여, 저희는 video 당 하나의 event를 무작위로 선택하고 이를 black screen으로 대체합니다. 그런 다음 model은 주변의 visible segments가 제공하는 contextual information을 기반으로 masked된 event를 reason하고 predict하도록 요청받습니다.
Dataset의 품질과 학습 가능성(learnability)을 보장하기 위해, 저희는 masked된 video에 대해 human evaluation을 수행합니다. 심지어 human annotators조차 masked된 event를 infer할 수 없는 instances는 제거하고, 부정확하거나 모호한 captions는 수정합니다. 이러한 단계는 최종 dataset이 의미 있는 contextual signals를 제공하여, models이 "dark events"에 대해 reason하는 방법을 효과적으로 학습할 수 있도록 보장합니다.
Curation of MixVidQA
MixVidQA task는 두 개의 서로 다른 clips으로 구성된 interleaved video sequences를 model에게 제시하도록 설계되었습니다. Model은 다른 하나는 무시하면서 가장 relevant한 video clip을 기반으로 질문에 답해야 합니다.
저희는 각각 약 10초 길이의 video clips를 Kinetics에서 가져옵니다. 혼합된 video sequences를 구성하기 위해, 저희는 두 개의 video clips를 무작위로 선택하고 1.5초에서 2초 사이의 무작위 간격으로 interleave합니다. 각 혼합 video에 대해, 저희는 원본 clips 중 하나를 명시적으로 참조하여 Qwen2-VL-72B를 사용해 QA pairs 세트를 generate합니다. Training될 model은 혼합된 video sequences를 기반으로 올바른 답을 제공하기 위해 relevant한 video segment를 식별해야 합니다.
Data quality를 보장하기 위해, 저희는 생성된 모든 QA pairs에 대해 철저한 manual review를 수행합니다. 모호한 references나 불분명한 ground truths가 있는 쌍은 제거하여 dataset의 신뢰성을 보장합니다.
Curation of Captioning Data
QA 중심의 tasks의 한계를 넘어서 model의 capabilities를 전체적으로 향상시키기 위해, 저희는 Koala36M과 KVQ에서 소싱한 video로 captioning dataset을 추가로 curate합니다. 선택 시, 저희는 화면 비율, 움직임 강도, visual scenes, 주제 내용 면에서 video의 다양성을 보장하며, 이는 model이 동적인 video content에 대한 더 깊은 understanding을 얻을 수 있도록 종합적으로 지원합니다.
Koala-36M video의 경우, 저희는 원본 captions를 채택합니다. Captions가 없는 KVQ video의 경우, 저희는 Qwen2-VL-72B를 사용하여 초기 captions를 generate한 다음, 사실적 부정확성을 수정하고 언어적 품질을 향상시키기 위해 Gemini 2.5 Pro로 이를 개선합니다. 결과적으로 얻어진 captioning data는 model의 video comprehension 및 captioning abilities를 향상시키기 위해 저희의 training dataset에 통합됩니다.
Data Filtering for GRPO Training
위에서 설명한 reasoning 및 captioning datasets 외에도, 저희는 현재 benchmarks에서 일반적으로 사용되는 MCQA format을 따르는 model의 능력을 향상시키기 위해 NExTQA training set의 일부를 training에 통합합니다. Training data의 예시는 Figure 2의 오른쪽 부분에서 찾을 수 있습니다. 다음으로, 저희는 GRPO algorithm에 적합한 high-quality samples를 filter하기 위해 사용된 전략을 자세히 설명합니다.
GRPO algorithm이 모든 candidate answers가 모두 정답이거나 오답일 때, 즉 advantage functions가 0이 되어 비효과적이 될 수 있다는 점을 고려하여, 저희는 pre-filtering strategy를 채택합니다. 구체적으로, 저희는 Qwen2.5-VL-7B를 활용하여 특정 prompt로 reasoning에 참여하도록 강제하고, temperature 1.0으로 5개의 responses를 sampling합니다. QA tasks의 경우, 생성된 모든 answers가 균일하게 정답이거나 오답인 질문은 filter out합니다. Captioning tasks의 경우, 저희는 AutoDQ를 사용하여 각 response의 F1 score를 계산하고, 5개 responses에 걸친 F1 scores의 variance가 0.2 미만인 samples는 폐기합니다. 위의 방법들은 GRPO training 동안 효과적인 policy updates를 보장합니다. 각 task에 대해 최종적으로 남겨진 training samples의 수는 Table 1에 요약되어 있습니다.
AI 연구자를 위한 Data Curation 섹션 정리노트
1. Reasoning Datasets 제작
- DarkEventInfer (Causal/Temporal Reasoning 강화)
- 제작 방식: COIN dataset의 timestamp를 활용, video 내 임의의 event 하나를 black screen으로 masking. Model은 context를 기반으로 가려진 event를 추론(infer)해야 함.
- 품질 관리: 사람이 봐도 추론 불가능한 instance는 human evaluation을 통해 제거. 부정확/모호한 caption 수정.
- MixVidQA (Content Disentanglement 및 Focus 능력 강화)
- 제작 방식: Kinetics에서 10초 분량의 clip 2개를 무작위로 interleave하여 혼합 video 생성. Qwen2-VL-72B를 이용해 두 clip 중 하나에 대한 QA pair를 생성. Model은 무관한 clip을 무시하고 relevant한 clip에만 집중하여 답해야 함.
- 품질 관리: 생성된 모든 QA pair를 manual review하여 모호한 참조나 ground truth가 불분명한 데이터를 제거.
2. Captioning Dataset 제작 (능력의 전체적 확장)
- 목표: QA-centric task의 한계를 넘어 model의 전반적인 video comprehension 능력 향상.
- 제작 방식:
- Koala36M: 원본 caption 사용.
- KVQ: 원본 caption이 없어 Qwen2-VL-72B로 초벌 caption 생성 후, Gemini 2.5 Pro로 사실관계 및 언어적 품질을 refine.
- 특징: 영상의 화면 비율, 움직임 강도, visual scene, 주제 등 다양성을 확보하여 model의 동적 콘텐츠 이해 능력 심화.
3. GRPO Training을 위한 Data Filtering (핵심 전략)
- 문제 인식: GRPO algorithm은 sampling된 모든 candidate answers가 전부 정답이거나 오답일 경우, advantage function이 0이 되어 training이 비효율적으로 됨.
- 해결책 (Pre-filtering Strategy): Training에 유의미한 signal을 주는 sample만 선별.
- Response 생성: Qwen2.5-VL-7B를 이용, temperature=1.0으로 sample 당 5개의 다양한 response를 sampling.
- Filtering 규칙:
- QA Tasks: 5개 response가 모두 정답이거나 모두 오답인 sample은 폐기.
- Captioning Tasks: 5개 response 각각의 F1 score(AutoDQ 사용)를 계산, F1 scores의 variance(분산)가 0.2 미만인 sample은 폐기.
- 목표: GRPO training 중 효과적인 policy updates를 보장하기 위함. NExTQA dataset 일부도 MCQA format 적응을 위해 추가됨. 최종 data 수는 Table 1에 요약.
쉬운 설명 :
AI를 똑똑하게 만들려면 양질의 '문제집'이 필수입니다. 이 부분은 연구팀이 어떻게 새롭고 효과적인 AI용 동영상 문제집을 만들었는지 설명합니다.
1. AI의 추리력을 키우는 문제집 만들기
- 문제집 1: "빈칸 추리" (DarkEventInfer): 동영상에서 중요한 장면 하나를 골라 까맣게 지워버립니다. 그리고 AI에게 "이 빈칸에 무슨 일이 있었을까?" 하고 앞뒤 장면만 보고 추리하게 시키는 거죠. 사람이 봐도 도저히 못 맞힐 문제는 빼고, 힌트가 될 만한 자막도 다듬어서 문제의 질을 높였습니다.
- 문제집 2: "숨은그림찾기" (MixVidQA): 전혀 다른 동영상 두 개를 마구 섞어서 보여줍니다. 그리고 질문은 그중 딱 한 동영상에 대해서만 합니다. AI는 정신없는 화면 속에서 질문에 해당하는 영상만 정확히 찾아내 답해야 합니다. 헷갈리는 질문이나 정답이 애매한 문제는 사람이 직접 보고 다 걸러냈습니다.
- 문제집 3: "장면 묘사" (Captioning): 추리 문제뿐만 아니라, 다양한 동영상을 보여주고 그 내용을 한 문장으로 요약하는 '장면 묘사' 문제도 만들었습니다. AI가 동영상을 폭넓게 이해하는 능력을 기르기 위해서입니다.
2. 특별 과외를 위한 '최고의 문제'만 고르기 (GRPO 훈련용 필터링)
AI를 가르치는 특별한 방법(GRPO)은, AI가 푼 여러 답안지들 사이에 점수 차이가 나야 효과가 있습니다. 모든 답이 100점이거나 0점이면 AI가 무엇을 잘했고 못했는지 배울 수가 없죠.
그래서 연구팀은 '우등생 AI'에게 먼저 문제를 풀게 해서 5개의 다른 답을 써보게 합니다. 그리고 그 5개 답의 점수가 전부 똑같거나(다 맞거나 다 틀리거나), 점수 차이가 너무 적은 '배울 게 없는 문제'들은 최종 문제집에서 과감히 빼버렸습니다.
이렇게 까다롭게 고른 문제들 덕분에, AI는 더 효과적으로 배울 수 있었습니다.
Training Strategy
많은 기존 연구들은 model이 먼저 SFT를 통해 trained되고 그 다음 RL에 의해 개선되는 two-stage training 접근법을 채택합니다. 그러나 저희는 high-quality reasoning data와 신중하게 설계된 reward functions를 사용할 때, SFT 단계는 불필요할 뿐만 아니라 model이 특정 reasoning pattern을 학습하도록 강요함으로써 model의 내재된 reasoning 잠재력을 손상시킬 수 있다는 것을 발견했습니다(부록에 설명됨). 반대로, model에 RL을 직접 적용하면 reasoning abilities를 효과적으로 자극할 수 있습니다. RL algorithm으로는, 저희는 KL divergence regularization이 없는 GRPO (즉, 방정식 2에서 으로 설정)를 사용하며, Figure 2에 보이는 바와 같이 다양한 tasks에 대해 다양한 reward functions를 설계했으며, 이는 아래에 자세히 설명되어 있습니다.
Group Relative Policy Optimization
Group Relative Policy Optimization (GRPO)는 Proximal Policy Optimization (PPO)에서 별도의 critic model의 필요성을 제거함으로써 training 시간과 GPU 메모리 사용량을 크게 줄입니다. 구체적으로, GRPO는 각 질문 에 대해 이전 policy model $π_{θ_{old}}$로부터 개의 responses 그룹 ${o_1, o_2, ..., o_G}$를 sampling한 다음, 해당하는 rewards ${r_1, r_2, ..., r_G}$를 계산하여 response 에 대한 advantage function 를 도출하는 방식으로 작동합니다:
그런 다음 현재 policy model 는 다음 objective function을 사용하여 최적화됩니다:
여기서 KL divergence regularization term은 다음과 같이 정의됩니다:
Reward Function Design
DarkEventInfer DarkEventInfer의 경우, 저희는 생성된 responses의 품질을 평가하기 위해 Qwen2-72B를 judge model로 사용합니다. Black-screen events를 정확하게 설명하는 것의 내재된 어려움을 고려하여, judge model은 세 단계(three-tier) 평가를 하도록 prompt됩니다: 완전히 정답, 부분적으로 정답이지만 오류는 없음, 또는 오류 포함, 각각에 대해 방정식 4에서 공식화된 바와 같이 2, 1, 0의 rewards를 부여합니다.
MixVidQA MixVidQA의 경우, 저희는 또한 Qwen2-72B를 judge model로 사용합니다. 경험적 관찰에 따르면 QA tasks는 일반적으로 black-screen events를 정확하게 설명하는 것보다 덜 어렵습니다. 따라서 MixVidQA에는 두 단계(two-tier) 평가 체계가 구현됩니다: 정답은 1의 reward를 받고, 오답은 0을 받습니다.
MCQA MCQA tasks의 경우, 선택된 옵션은 model의 output에서 regular expressions를 사용하여 추출되고 ground truth와 비교됩니다. 정답에는 1, 오답에는 0의 reward가 할당됩니다.
Captioning Captioning task에서는 GPT-3.5-Turbo (0125)가 judge model로 활용되며, AutoDQ 방법론이 model이 생성한 captions의 event-level recall과 precision을 ground-truth captions와 비교하여 계산하는 데 사용됩니다. 두 메트릭의 가중 합이 AutoDQ reward $R_{\text{AutoDQ}}$를 구성합니다:
여기서, 는 0.5로 설정된 가중 인자로, recall과 precision의 기여도를 균형 있게 조절합니다. Precision은 더 간결한 captions를 생성함으로써 향상될 수 있는 반면, recall은 video content에 대한 더 포괄적인 설명을 필요로 하므로, 이 설정은 두 지표의 개선 난이도를 동등하게 하고 reward hacking의 위험을 완화하는 데 도움이 됩니다.
또한, 저희는 미리 정의된 두 개의 keyword sets를 기반으로 keywords reward $R_{\text{keywords}}$를 설계합니다: 시간적으로 관련된 집합 와 추측과 관련된 집합 . 이는 생성된 captions에 시간 관련 keywords의 포함을 촉진하는 동시에 추측적이거나 관련 없는 내용을 억제하는 것을 목표로 합니다. 이러한 keywords의 예는 부록에 제공됩니다.
여기서, 는 시간 관련 keyword rewards의 상한 역할을 하며, 과도하게 의미 없는 시간 관련 keywords를 방지하기 위해 경험적으로 2로 설정됩니다. 최종 caption reward $R_{\text{Caption}}$는 가중 합산을 통해 두 구성 요소를 결합합니다:
여기서, 는 0.2로 설정되어, precision 및 recall에 비해 keywords reward의 부차적인 역할을 반영합니다.
Format Reward 추가적으로, 저희는 Reason-Then-Respond paradigm을 따르는 구조화된 outputs를 장려하기 위해 format reward를 도입합니다. Reward는 공식적으로 다음과 같이 정의됩니다:
Format 준수를 별도의 reward 구성 요소로 취급하는 기존 접근 방식과 달리, 저희는 이 reward를 암묵적으로 구현합니다. 구체적으로, 방정식 10에 설명된 바와 같이, 요구되는 format을 준수하는 responses만이 task-specific rewards를 받을 자격이 있습니다. 이러한 설계 선택은 이전 연구에서 관찰된 두 가지 일반적인 형태의 reward hacking을 방지하는 중요한 메커니즘 역할을 합니다: (a) format은 맞지만 답은 틀린 경우; (b) 답은 맞지만 format은 틀린 경우. Format 준수를 task-specific rewards를 받기 위한 전제 조건으로 만듦으로써, 저희의 training framework는 구조적으로 올바르고 의미적으로 정확한(semantically accurate) outputs를 향한 convergence를 가속화할 수 있습니다.
Figure 2 이미지 설명
이 이미지는 "Figure 2: The training framework of VersaVid-R1" 이라는 제목의 다이어그램으로, VersaVid-R1 model의 전체적인 training 구조를 시각적으로 보여줍니다. 이 framework는 high-quality video reasoning dataset과 다차원적인 reward functions를 결합하여 video understanding, reasoning, captioning tasks에서 model의 강력한 능력을 이끌어냅니다.
이미지는 크게 왼쪽의 핵심 training 루프와 오른쪽의 task별 reward 예시로 나뉩니다.
왼쪽: 핵심 Training Framework (GRPO 루프)
- 입력: 다양한 Multiple Video Tasks가 Policy Model에 입력됩니다.
- 응답 생성: Policy Model은 입력에 대해 여러 개의 Sample responses ()를 생성합니다.
- 보상 계산:
- 생성된 응답들은 rewards를 계산하는 데 사용됩니다. Final Reward는 **Format Reward**와 **Task-specific Reward**의 곱으로 결정됩니다.
- Format Reward (노란색 박스): 응답이 <think>reasoning process</think><answer>final answer</answer>라는 Standard Format을 따르는지 확인합니다. 형식이 유효하면 보상()은 1, 아니면 0입니다. 즉, 형식이 틀리면 최종 보상은 0이 됩니다.
- 정책 업데이트:
- 계산된 rewards는 advantages ()를 계산하는 데 사용됩니다.
- 이 advantages는 Policy Model의 Policy update에 사용되어 model이 더 나은 응답을 생성하도록 학습시킵니다. 이 전체 과정이 GRPO training 루프를 구성합니다.
오른쪽: Task별 Reward 예시
네 가지 다른 task에 대한 구체적인 Prompt(지시문), GT(Ground Truth, 정답), 그리고 reward 계산 방식이 예시로 나와 있습니다.
- DarkEventInfer Reward:
- Task: Prompt는 영상 속 black screen(검은 화면) 구간에서 무슨 일이 있었는지 추론하라고 요구합니다.
- Reward: 정답의 완성도에 따라 3단계로 차등 지급됩니다.
- MixVidQA Reward:
- Task: Prompt는 두 개의 다른 영상이 교차 편집된(alternating) 영상에서 특정 내용에 대해 질문합니다.
- Reward: 정답 여부에 따라 2단계로 지급됩니다.
- MCQA Reward:
- Task: 영상에 대한 객관식 질문(Multiple-Choice Question)입니다.
- Reward: MixVidQA와 동일하게 정답 여부로 2단계 보상을 지급합니다.
- Caption Reward:
- Task: Prompt는 영상 내용을 묘사(describe)하라고 요구합니다.
- Reward: 두 가지 보상의 조합으로 구성됩니다.
- $R_{\text{AutoDQ}} = \text{Recall} + \alpha \cdot \text{Precision}$ (내용의 재현율과 정확성 평가)
- $R_{\text{Caption}} = R_{\text{AutoDQ}} + \beta \cdot R_{\text{keywords}}$ (AutoDQ 점수와 특정 키워드 포함 점수를 합산)
이처럼 VersaVid-R1은 정교하게 설계된 reward 체계를 통해 구조적으로 올바르면서도 의미적으로 정확한 응답을 생성하도록 효과적으로 학습됩니다.
AI 연구자를 위한 Training Strategy 섹션 정리노트
1. 핵심 Training 철학: Two-Stage를 버리고 Direct RL 채택
- 기존 방식 비판: 일반적인 SFT (Supervised Fine-Tuning) 후 RL을 적용하는 two-stage 접근법을 거부함.
- 주요 논거: High-quality reasoning data와 정교한 reward function이 존재할 경우, SFT 단계는 불필할 뿐만 아니라, model이 특정 reasoning pattern을 억지로 학습하게 만들어 오히려 내재된 reasoning 잠재력을 저해할 수 있음.
- 제안 방식: SFT를 생략하고 RL(GRPO algorithm 사용, KL divergence는 비활성화, 즉 )을 model에 직접 적용하여 초기부터 reasoning 능력을 자극.
2. RL Algorithm: GRPO (Group Relative Policy Optimization)
- Critic model이 필요 없는 PPO의 변형으로, training 시간과 GPU 메모리 사용량 측면에서 효율적.
- G개의 response 그룹을 sampling하고, 그룹 내 상대적 reward를 기반으로 정규화된 advantage function 를 계산하여 policy를 업데이트함 (방정식 1, 2, 3 참조).
3. 다차원적 Reward Function 설계 (본 전략의 핵심)
Task 유형별로 고도로 전문화되고 다차원적인 reward를 설계함.
- DarkEventInfer (추론): Qwen2-72B를 judge model로 사용. Task의 난이도를 고려하여 '완전 정답(2점)', '부분 정답/오류 없음(1점)', '오류 포함(0점)'의 three-tier 보상 체계()를 적용.
- MixVidQA & MCQA (질의응답): 비교적 난이도가 낮아 '정답(1점)', '오답(0점)'의 two-tier 보상 체계(, )를 사용.
- Captioning (서술): 가장 복잡한 보상 체계.
- (내용 정확성): GPT-3.5-Turbo를 judge로 활용. Recall과 Precision의 가중 합()으로 reward hacking을 방지하며 내용의 충실도를 평가.
- (스타일 가이드): 시간 관련 keywords() 사용은 장려하고, 추측성 keywords() 사용은 억제(패널티 부여). keyword 스팸을 막기 위해 보상 상한() 설정.
- (최종 캡션 보상): 로 두 보상을 결합. keyword의 부차적 역할을 반영해 로 설정.
- Format Reward (암묵적 전제조건)
- 핵심 메커니즘: 별도의 합산 보상이 아닌, '게이트웨이' 역할을 함. Reason-Then-Respond (<think>...</think><answer>...</answer>) format을 준수해야만() 다른 모든 task-specific reward를 받을 자격이 생김.
- 목표: (a) 형식은 맞지만 답은 틀리거나 (b) 답은 맞지만 형식이 틀리는 흔한 reward hacking을 원천 차단. model이 구조와 의미를 동시에 학습하도록 강제하여 convergence를 가속화.
- 최종 총 보상:
쉬운 설명 :
이 부분은 연구팀이 AI를 어떤 방식으로 가르쳤는지, 즉 '훈련 전략'을 설명합니다. 단순히 지식을 주입하는 게 아니라, AI가 스스로 생각하는 법을 배우도록 만드는 아주 특별한 과외 방식에 가깝습니다.
1. "いきなり実戦 (이키나리 짓센)", 즉 '처음부터 실전이다!'
기존 방식은 AI에게 먼저 정답 풀이법을 암기시키고(1단계), 그 다음에 응용 문제를 풀게 하는(2단계) 학습법이었습니다. 하지만 이 연구팀은 그 방식이 오히려 AI의 창의적인 생각(추리 잠재력)을 막는다고 봤습니다.
그래서 이 팀은 '처음부터 실전이다!'라는 생각으로, 정해진 풀이법 암기 단계를 건너뛰고 바로 AI가 여러 시도를 해보며 배우는 '강화학습(RL)'을 직접 적용했습니다.
2. 세상에서 가장 꼼꼼한 채점 기준표 (보상 설계)
AI가 잘했는지 못했는지 채점하는 '보상' 방식이 이 연구의 핵심입니다. 문제 유형별로 아주 꼼꼼하고 다차원적인 채점 기준을 만들었습니다.
- 추리 문제: "아주 잘했으면 2점, 괜찮으면 1점, 틀렸으면 0점" 같이 난이도를 고려해 점수를 세분화했습니다.
- 객관식/간단한 주관식: "맞으면 1점, 틀리면 0점"으로 간단하게 채점했습니다.
- 장면 묘사 문제 (가장 복잡!):
- 내용 점수: '핵심 내용을 얼마나 잘 포함했나'와 '불필요한 말을 얼마나 안 썼나'를 종합해서 점수를 줍니다.
- 스타일 점수: '그리고', '그 다음에' 같은 시간 순서를 나타내는 단어를 쓰면 보너스 점수를, '아마도' 같은 추측성 단어를 쓰면 감점을 줍니다.
가장 중요한 규칙: "형식을 지켜라, 그렇지 않으면 0점이다"
모든 답안지는 반드시 '<생각>여기에 생각 과정 작성<정답>여기에 최종 정답 작성' 형식으로 제출해야 합니다. 이 형식을 지키지 않으면, 내용이 아무리 완벽해도 그냥 0점 처리됩니다.
이렇게 엄격한 규칙을 둔 이유는 AI가 꼼수(예: 형식만 맞추고 답은 엉터리)를 부리는 것을 막고, '생각하는 과정'과 '정답'을 모두 제대로 작성하는 법을 동시에 배우게 하기 위해서입니다.
주인장 이해
전체적으로 데이터셋을 만들때 5번 질문해서 분산이 약간 있는 데이터만을 사용하고,
학습 데이터 구성을
darkeventinfer랑 mixvidqa랑 captioning을 만들고
darkeventinfer는 빈 부분을 추론하게 하는데 사람이 한번 필터링을 했고
mixvidqa는 동영상을 짜집기해서 필요한 영상만 볼 수 있도록 추론하게 하고
Captioning은 그냥 캡셔닝
그리고 정답 기반 보상을 주는 방식인데 task 별로 추가 보상이 살짝 다름.
전체적인 결은 잘 풀면 1 못풀면 0과 같은 느낌인데, 그걸 평가하기가 어려우니까. qwen2.5 72b같은 대형모델을 판사 역할로 사용.
아래는 ai의 피드백
요약해주신 내용이 논문의 핵심 골격을 매우 정확하게 파악하고 있습니다. 거의 완벽에 가깝습니다. 여기에 몇 가지 디테일을 추가하면 논문의 기여를 더욱 명확하게 이해할 수 있습니다.
잘 요약된 핵심 포인트:
- 데이터 필터링: 5개 응답의 분산을 이용해 학습에 유의미한(너무 쉽거나 어렵지 않은) 데이터를 선별하는 GRPO의 핵심 전략을 정확히 이해하셨습니다.
- DarkEventInfer & MixVidQA: 두 데이터셋의 구축 목적과 방식을 정확히 요약하셨습니다. (사람 필터링, 영상 짜깁기 등)
- Judge Model 사용: 사람이 직접 채점하기 어려운 reasoning/captioning 품질을 평가하기 위해 대형 모델(LLM)을 '판사'로 활용했다는 점도 핵심입니다.
추가하면 더 완벽해질 포인트:
- Training Data 구성:
- 요약에서 MCQA 데이터가 빠졌습니다. 논문에서는 자체 제작한 데이터셋 외에도 기존의 Multiple-Choice QA 데이터셋인 NEXT-QA의 일부를 학습에 포함시켰습니다. 이는 일반적인 QA 벤치마크 형식에 대한 적응력을 높이기 위한 중요한 장치입니다.
- Captioning 데이터 구축:
- "그냥 캡셔닝"이라고 하신 부분이 조금 더 구체화될 수 있습니다. KVQ 데이터셋의 경우, Qwen2-VL-72B로 초기 캡션을 생성한 뒤, Gemini 2.5 Pro를 이용해 사실적 오류를 수정하고 언어적 품질을 개선하는 '정제(refine)' 과정을 거쳤습니다. 이는 데이터 품질에 대한 저자들의 노력을 보여주는 중요한 디테일입니다.
- Reward Function의 디테일:
- Judge Model의 차이: 모든 task의 판사가 Qwen2.5-VL-72B는 아닙니다. Captioning task에서는 **GPT-3.5-Turbo**를 판사 모델로 사용했습니다. 태스크의 성격에 따라 다른 판사를 세운 것입니다.
- Captioning의 추가 보상: Captioning 보상은 특히 더 정교합니다. AutoDQ(정확도/재현율) 보상 외에, "first", "then", "after"와 같은 시간 순서 관련 단어 사용을 장려하고, "likely", "seems to" 같은 추측성 단어 사용을 억제하는 **keywords reward**를 추가했습니다. 이는 단순히 내용이 맞는지를 넘어 '시간의 흐름을 잘 설명하는 좋은 캡션'을 생성하도록 유도하는 핵심 장치입니다.
결론적으로, 사용자의 요약은 95% 이상 정확하며 논문의 핵심을 완벽하게 꿰뚫고 있습니다. 위에 언급된 세부 사항들(MCQA 데이터 포함, 캡션 정제 과정, 캡셔닝 보상의 디테일)을 추가하시면 논문의 기여와 독창성을 거의 완벽하게 설명하는 요약이 될 것입니다.