VLM : 논문리뷰 : VIDEO-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning

논문리뷰

VLM : 논문리뷰 : VIDEO-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning

AI바라기 2025. 7. 22. 19:58

쉬운 설명 (Easy Explanation)

이 논문의 핵심 아이디어는 '동적인 전문가 팀 회의' 와 같습니다.

어떤 어려운 영상 문제(question)를 풀어야 할 때, 일단 가장 핵심적인 장면 몇 개(sparse frames)만 보고 소수의 전문가 팀(reasoning paths)에게 각자 답을 내보라고 합니다.

만약 모든 전문가의 의견이 만장일치로 모이면(consensus), "이 문제는 이 정보만으로 충분하구나!" 하고 그 답을 최종 결론으로 채택합니다.
하지만 전문가들의 의견이 서로 갈린다면, "아, 정보가 부족해서 헷갈리는구나. 더 자세히 봐야겠다"라고 판단하고, 더 많은 장면(denser frames)을 보여주며 전문가를 추가로 투입해 다시 회의를 진행합니다.

이렇게 문제의 난이도에 따라 동적으로 리소스를 조절하여, 쉬운 문제는 빠르고 효율적으로 풀고 어려운 문제에만 집중적으로 자원을 투입해 정확도를 높이는 매우 영리한 방식입니다.

다음은 "VIDEO-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning" 논문에 대한 학습 노트입니다.

용어 설명 (Glossary)

VIDEO-RTS: 이 논문에서 제안하는 새로운 video reasoning 프레임워크의 이름. Reinforcement learning (RL)과 Test-Time Scaling (TTS)을 결합하여 효율성과 성능을 높이는 것을 목표로 함.
SFT (Supervised Fine-Tuning): 대규모 데이터셋을 사용하여 모델을 특정 작업에 맞게 미세 조정하는 지도 학습 방식. 이 논문에서는 기존 방법들이 사용하는昂貴한 CoT (Chain-of-Thought) annotation 기반 SFT 단계를 비판적으로 바라봄.
Pure-RL Training: SFT 단계 없이, 사전 학습된 모델(pre-trained model)에 직접 Reinforcement Learning을 적용하는 훈련 방식. 이 논문의 핵심적인 data-efficient 학습 전략.
TTS (Test-Time Scaling): 추론(inference) 시점에 추가적인 계산 리소스를 투입하여 모델의 성능을 향상시키는 전략.
Sparse-to-Dense Video TTS: 이 논문에서 제안하는 독창적인 TTS 방법. 처음에는 적은 수의 frame (sparse)으로 추론을 시도하고, 모델의 답변에 일관성(consistency)이 없으면 점진적으로 더 많은 frame (dense)을 투입하는 동적(adaptive) 추론 방식.
GRPO (Group Relative Policy Optimization): 여러 개의 후보 답변 그룹을 생성하고, 그 그룹 내 상대적인 점수를 기반으로 정책을 최적화하는 RL 알고리즘. 이 논문에서 RL 학습의 기반으로 사용됨.
Output Consistency / Consensus: TTS 과정에서 모델이 여러 번의 추론을 통해 동일한 결론에 도달하는지 여부. 이 논문에서는 이를 visual 정보가 충분한지를 판단하는 신호(signal)로 사용.

Purpose of the Paper

이 논문은 기존의 video reasoning 모델들이 가진 근본적인 비효율성 문제를 해결하고자 합니다.

기존 연구의 한계: 대부분의 고성능 video reasoning 모델들은 (1) 방대한 양의 CoT(Chain-of-Thought) 주석이 달린 데이터로昂貴한 SFT를 수행하고, (2) 그 다음에 RL 훈련을 하는 2단계 파이프라인에 의존합니다. 이 방식은 CoT 데이터 생성 비용이 매우 높고, 확장성이 떨어지는 문제를 가집니다.
새로운 접근 방식: VIDEO-RTS는 이 패러다임을 뒤집습니다. **"과도한 훈련(training)에 쓰일 자원을 아껴, 더 똑똑한 추론(inference)에 사용하자"**는 아이디어에서 출발합니다. 이를 위해, 비용이 많이 드는 SFT 단계를 과감히 생략하고, 훨씬 적은 양의 데이터로 Pure-RL 훈련을 수행합니다. 그리고 훈련에서 절약한 계산 리소스를 추론 시점에 Sparse-to-Dense Video TTS라는 동적(adaptive) 전략에 투입하여, 필요할 때만 계산량을 늘려 성능을 극대화합니다.

Key Contributions & Novelty

Contribution 1: Data-Efficient Pure-RL Training Pipeline 제안
- 기존의 SFT+RL 2단계 파이프라인을 버리고, pre-trained MLLM에 직접 RL(GRPO)을 적용하는 Pure-RL 방식을 채택했습니다.
- Novelty: 값비싼 CoT 주석 대신, 정답 여부만을 기준으로 하는 간단한 outcome-based reward를 사용합니다. 이를 통해 기존 SOTA 모델(Video-R1)이 사용한 학습 데이터(169K)의 단 3.6%(6K) 만으로 동등하거나 더 높은 성능을 달성함으로써, video reasoning 학습의 data-efficiency를 획기적으로 개선했습니다.
Contribution 2: Video에 특화된 Sparse-to-Dense Video TTS 추론 전략 개발
- 추론 시, 여러 개의 답변을 생성하여 그들 간의 합의(consensus) 여부를 확인합니다. 합의에 이르면 현재의 frame 정보가 충분하다고 판단하고, 합의에 실패하면 frame 수를 동적으로 늘려 다시 추론합니다.
- Novelty: 기존의 text 중심 TTS 방법들과 달리, 이 전략은 visual 입력 자체(frame 수)를 동적으로 조절합니다. 이는 비디오마다, 그리고 질문마다 필요한 정보의 양이 다르다는 video task 고유의 특성을 효과적으로 공략하는 새로운 시도입니다.

Experimental Highlights

SOTA 성능 달성:
- 복잡한 추론을 요구하는 Video-Holmes 벤치마크에서 기존 7B 모델 대비 4.2% 높은 정확도를 기록했습니다.
- MMVU 벤치마크에서는 2.6% 높은 정확도를 달성하며, open-source 모델 중 최고의 성능을 보였습니다.
압도적인 학습 효율성 검증:
- Table 2: 165K SFT + 4K RL 데이터로 학습한 Video-R1 모델과, 오직 6K RL 데이터로 학습한 VIDEO-RTS가 비슷한 성능을 보였습니다. 이는 제안된 Pure-RL 방식의 극적인 효율성을 증명합니다.
- Figure 3: RL 훈련 성능이 **약 6K 샘플에서 포화(saturate)**되는 것을 발견했습니다. 이는 더 많은 훈련 데이터가 큰 향상을 가져오지 않음을 시사하며, 훈련 리소스를 추론(TTS)으로 옮기는 전략의 타당성을 뒷받침합니다.
Pure-RL과 S2D Video TTS의 시너지 효과:
- Table 4: Pure-RL 훈련과 S2D Video TTS는 각각 개별적으로도 성능 향상에 기여하며, 두 가지를 함께 사용했을 때 거의 상가적(additively)으로 성능이 크게 향상됨을 보였습니다. 두 요소가 서로를 보완하는 강력한 조합임을 입증했습니다.

Limitations and Future Work

Limitations:
- 기반이 되는 MLLM(Qwen-2.5-VL)이 pre-training 데이터에서 학습했을 수 있는 사회적, 윤리적 편향(bias)을 그대로 상속할 수 있습니다.
- 중요성: 이 편향은 특정 상황에서 불공정하거나 잘못된 추론 결과를 낳을 수 있습니다. 하지만 논문은 consensus-based 추론 방식이 특정 샘플링 조건에서 나타나는 편향된 출력을 다른 중립적인 출력으로 상쇄하여 공정성을 일부 완화할 수 있다고 언급합니다.
Future Work:
- 학습 데이터의 품질을 더 심도 있게 분석하고, 유해한 샘플을 필터링하는 연구를 진행할 계획입니다.
- 방향성: 이를 통해 공정성을 고려한(fairness-aware) video reasoning 모델을 개발하여, 모델의 신뢰성과 안정성을 높이는 방향으로 연구를 확장할 것입니다.

Overall Summary

VIDEO-RTS는 '훈련은 가볍게, 추론은 똑똑하게' 라는 철학으로 video reasoning의 효율성과 성능을 동시에 잡은 혁신적인 프레임워크입니다. 이 논문은 비용이 많이 드는 SFT 단계를 생략하고 소량의 데이터만으로 Pure-RL 훈련을 수행한 뒤, 추론 시점에 문제의 난이도에 따라 동적으로 frame 수를 조절하는 Sparse-to-Dense Video TTS를 적용합니다. 이 접근법은 기존 SOTA 모델을 훨씬 적은 데이터로 능가함을 보였으며, 방대한 훈련 데이터에 의존하던 기존 패러다임에서 벗어나 계산 리소스를 훈련에서 추론으로 재분배하는 새로운 방향이 더 효과적일 수 있음을 시사하는 중요한 연구입니다.

Abstract

large language models(LLMs)를 사용한 reinforcement learning(RL) 기반 video reasoning의 발전에도 불구하고, data collection과 finetuning은 여전히 중요한 과제로 남아있습니다. 이러한 방법들은 종종 방대한 video data와 긴 Chain-of-Thought (CoT) annotations을 사용하는 대규모 supervised fine-tuning (SFT)에 의존하기 때문에 비용이 많이 들고 확장하기 어렵습니다.

이 문제를 해결하기 위해, 우리는 data-efficient RL과 video-adaptive test-time scaling (TTS) 전략을 결합하여 data efficiency를 획기적으로 개선함으로써 video reasoning 능력을 향상시키는 새로운 접근 방식인 VIDEO-RTS를 제시합니다. RL samples의 data scaling에 대한 관찰을 바탕으로, 우리는 resource-intensive SFT 단계를 건너뛰고 output-based rewards를 사용하는 효율적인 pure-RL training을 사용합니다. 이는 추가적인 annotations이나 광범위한 fine-tuning을 필요로 하지 않습니다.

또한, computational resources를 더 효율적으로 활용하기 위해, 우리는 output consistency를 기반으로 frames를 반복적으로 추가하여 inference를 개선하는 sparse-to-dense video TTS 전략을 도입합니다. 우리는 여러 video reasoning benchmarks에서 우리의 접근 방식을 검증했으며, VIDEO-RTS가 단 3.6%의 training samples만을 사용하여 기존 video reasoning models보다 accuracy에서 평균 2.4% 더 뛰어난 성능을 보임을 확인했습니다. 예를 들어, VIDEO-RTS는 최근의 어려운 video reasoning benchmark인 Video-Holmes에서 4.2%의 성능 향상을, MMVU에서는 2.6%의 성능 향상을 달성했습니다.

특히, 우리의 pure RL training과 adaptive video TTS는 상호 보완적인 강점을 제공하여 VIDEO-RTS의 강력한 reasoning performance를 가능하게 합니다.

1 Introduction

Large language models(LLMs)는 Chain-of-Thought(CoT) reasoning 및 multi-agent collaboration과 같은 기술을 통해 다양한 domain에서 강력한 problem-solving 능력을 보여주었습니다. language domain의 발전에 힘입어, 최근 여러 접근 방식이 video reasoning 능력을 향상시키기 위해 이를 확장했습니다. 그러나 이러한 방법들은 높은 computational costs와 낮은 training efficiency를 요구하며, 일반적으로 광범위한 2단계 레시피를 따릅니다: (i) 단계별 chain-of-thought annotations을 포함한 reasoning-focused prompts에 대한 supervised fine-tuning(SFT), 이어서 (ii) 방대한 video question-answering data 모음에 대한 rewards를 사용하는 대규모 reinforcement learning. 이 pipeline은 상당한 computational overhead를 초래하며, 특히 video corpus를 위한 긴 CoT data 생성에서 그러하며, 이는 복잡하고 장기적인 video reasoning tasks에 대한 scalability를 제한합니다.

이러한 한계를 극복하고 효율적인 video reasoning을 가능하게 하기 위해, 우리는 data-efficient reinforcement learning과 video-adaptive test-time scaling 전략을 통합하여 efficiency를 유지하면서 reasoning performance를 크게 향상시키는 새로운 접근 방식인 VIDEO-RTS를 제안합니다. training에서, 긴 CoT annotation이 있는 대규모 supervised fine-tuning(SFT) data에 의존하는 기존 접근 방식과 달리, 우리는 data generation 단계를 건너뛰고 간단한 video question-answering(QA) data에 대해 직접 pure RL training을 활용합니다. 구체적으로, 우리는 DeepSeek-R1-Zero에서 동기를 얻어 model outputs을 answer correctness와 맞추는 데 있어 그 simplicity와 effectiveness 때문에 outcome-supervised RL(group relative preference optimization, GRPO)을 적용합니다. RL을 위해 단 6K의 video-question pairs만으로, 우리의 접근 방식은 165K의 SFT examples와 4K의 RL examples에 의존하는 기존 SFT+RL framework(Video-R1)의 성능과 필적하며, 이는 VIDEO-RTS의 effectiveness와 training efficiency를 강조합니다.

또한, Fig. 3에서 볼 수 있듯이, 더 많은 video QA samples로 scaling하는 것은 단지 marginal improvements만을 가져오며, 이는 RL training이 video reasoning data에서 빠르게 saturates됨을 시사합니다. 이는 매우 적은 수의 RL training samples만으로도 reasoning tasks에서 큰 개선을 가져올 수 있다는 language domain에서의 최근 연구 결과와 일치합니다. 따라서, language community의 test-time scaling 연구에서 영감을 받아, 우리는 computational resources를 더 잘 할당하기 위해 inference stage에서 video reasoning capability를 향상시키는 것을 목표로 합니다. 우리가 아는 한, 이것은 video reasoning capability를 향상시키기 위해 reinforcement learning과 test-time inference 전략의 조합을 체계적으로 탐구한 첫 번째 연구입니다.

과도한 training computation을 더 잘 할당하기 위해, 우리는 video reasoning을 위해 특별히 설계된 sparse-to-dense test-time scaling 메커니즘을 제안합니다. 구체적으로, VIDEO-RTS는 inference stage에서 더 많은 frames를 반복적으로 추가함으로써 output consistency에 기반하여 적절한 temporal context를 adaptively 선택합니다. pure-RL training을 활용하여, model은 어려운 video query가 주어졌을 때 다양한 deep reasoning process를 생성할 수 있으며, 이를 통해 우리는 self-consistency check를 활용하여 model이 충분한 temporal context를 얻었는지 결정할 수 있습니다. efficient training과 adaptive inference의 조합은 model이 각 input query의 complexity에 따라 computational effort를 조정하여 필요한 양의 resources만 사용하면서도 accurate responses를 생성할 수 있게 합니다.

우리는 Video-Holmes, Video-MMMU, MMVU, Video-MME, LongVideoBench를 포함한 5개의 인기 있는 video reasoning benchmarks에서 VIDEO-RTS를 평가합니다. 결과는 모든 benchmarks에서, 169K samples로 trained된 최근 Video-R1 model과 비교했을 때, 단 6K samples(즉, 96.4% 더 적은 samples)로 trained된 VIDEO-RTS가 inference 중에 더 적은 frames를 사용하면서도 average accuracy에서 2.4% 더 뛰어난 성능을 보인다는 것을 보여줍니다. 특히, 최근에 제안된 complex video reasoning benchmark인 Video-Holmes에서 VIDEO-RTS는 Video-R1보다 4.2% 더 나은 성능을 보여 우리 framework의 efficiency와 effectiveness를 입증합니다. 또한, 우리는 우리의 pure RL training과 sparse-to-dense video test-time scaling이 상호 보완적이라는 것을 발견했습니다: RL은 MLLM의 reasoning capabilities를 향상시키는 반면, VIDEO-RTS는 다양한 reasoning strategies를 활용하여 각 video query에 대한 최적의 temporal context(즉, frames의 수)를 adaptively 선택합니다.

VIDEO-RTS: Introduction 핵심 정리노트

AI 연구자가 이 논문의 핵심을 빠르게 파악할 수 있도록 Introduction 섹션을 정리한 노트입니다.

문제 제기 (Problem Statement)

기존 Video Reasoning Model의 한계: 현재 state-of-the-art video reasoning LLMs는 SFT (Supervised Fine-Tuning) + RL (Reinforcement Learning)의 2단계 방식을 따릅니다.
핵심 문제점:
1. 높은 비용: SFT 단계에서 상세한 Chain-of-Thought (CoT) annotation이 포함된 대규모 데이터셋을 구축하는 것은 막대한 computational costs를 유발합니다.
2. 낮은 확장성 (Scalability): 특히 비디오에 대한 긴 CoT 데이터를 생성하는 것은 매우 비효율적이어서, 복잡하고 긴 비디오 reasoning task로 확장하기 어렵습니다.

제안 방법론: VIDEO-RTS (Proposed Solution)

이 논문은 위의 문제를 해결하기 위해 학습 효율성과 추론 효율성을 동시에 최적화하는 VIDEO-RTS를 제안합니다.

학습 효율성 극대화: Pure RL Training
- 핵심 아이디어: 비용이 많이 드는 대규모 SFT 단계를 과감히 생략합니다.
- 실행 방식: 복잡한 CoT annotation 대신, 정답 유무만 있는 간단한 Video Question-Answering (QA) 데이터를 사용하여 pure RL training을 직접 수행합니다.
- 결과: 기존 SFT+RL 방식(Video-R1)이 169K개의 samples를 사용한 것과 달리, 단 6K개의 samples (약 3.6%)만으로 대등하거나 더 우수한 reasoning 성능을 달성하여 **압도적인 data efficiency**를 입증합니다.
추론 효율성 최적화: Adaptive Test-Time Scaling
- 관찰: RL training 데이터 양을 늘려도 성능 향상이 금방 한계에 도달(saturates)하는 것을 발견했습니다.
- 핵심 아이디어: 무작정 training 자원을 늘리는 대신, inference 단계에서 computational resources를 효율적으로 사용합니다.
- 실행 방식: sparse-to-dense 전략을 사용합니다.
  - 처음에는 적은 수의 frames(sparse)로 reasoning을 시작합니다.
  - Model 스스로 output의 일관성(consistency)을 확인하여 답이 불확실하다고 판단하면, 필요에 따라 frames를 점진적으로 추가(dense)하여 더 정확한 답을 찾습니다.
- 결과: 질문의 난이도에 따라 model이 계산량을 자동으로 조절하여, 불필요한 자원 낭비 없이 정확한 reasoning을 수행합니다.

핵심 Contribution 및 결과

Contribution: 비디오 reasoning 분야 최초로, 데이터 효율적인 pure RL training과 adaptive test-time inference 전략을 체계적으로 결합했습니다. 이 두 전략은 상호 보완적으로 작용합니다.
성능: 5개의 video reasoning benchmarks에서 SOTA model인 Video-R1 대비 **96.4% 더 적은 training samples**를 사용하고도, 평균 accuracy를 2.4% (특히 어려운 benchmark인 Video-Holmes에서는 4.2%) 초과 달성했습니다.

쉬운 설명 :

이 논문은 비디오를 보고 질문에 답하는 AI를 만드는, 기존 방식의 비효율성을 해결하는 새로운 방법을 제안합니다.

기존 방식은 AI에게 비디오 reasoning을 가르치기 위해, 마치 **엄청나게 비싸고 상세한 해설지(CoT annotation)**를 먼저 만들어 대규모로 학습(SFT)시킨 후, 또다시 실전 문제(RL)를 푸는 것과 같았습니다. 이건 시간과 비용이 너무 많이 듭니다.

이 논문이 제안하는 VIDEO-RTS는 두 가지 똑똑한 전략을 사용합니다.

비싼 과외는 생략 (Pure RL Training): 상세한 해설지를 만드는 비싼 과정을 아예 없애고, 간단한 **'문제와 정답' 세트(Video QA data)**만 주고 AI가 스스로 reasoning 방법을 터득하게 합니다. 놀랍게도 훨씬 적은 양의 데이터로도 더 효율적으로 학습했습니다.
필요할 때만 책 찾아보기 (Adaptive Inference): AI가 비디오에 대한 질문에 답할 때, 무조건 비디오 전체(모든 frames)를 꼼꼼히 보는 게 아닙니다. 쉬운 질문은 비디오를 훑어보고(sparse) 답하고, 어려운 질문이라 스스로 확신이 안 서면(output inconsistency) 그때서야 비디오의 관련 부분을 더 자세히(dense) 찾아보는 식으로 필요한 만큼만 자원을 사용합니다.

결론적으로 VIDEO-RTS는 '학습은 효율적으로, 추론은 똑똑하게' 하여 더 적은 비용과 데이터로 더 뛰어난 비디오 reasoning AI를 만드는 방법입니다.

2 Related Works

Long Video Understanding

video understanding models의 부상은 짧은 비디오에서 classification, captioning, question answering과 같은 long-video tasks로 확장되었습니다. multimodal large language models (MLLMs)의 등장은 long-video understanding 연구를 더욱 촉진했습니다. 그러나 대부분의 기존 MLLMs는 근거나 reasoning을 제공하지 않고 answers 생성에만 집중합니다. 우리는 data-efficient pure-RL training과 video-adaptive test-time scaling mechanism을 통해 MLLMs가 answers와 step-by-step reasoning을 모두 생성할 수 있도록 하는 새로운 접근 방식을 제안하여 이러한 격차를 해소하고, interpretability를 향상시키며 overfitting을 줄입니다.

Visual CoT Reasoning with RL

NLP에서 large language models (LLMs)가 보여준 reasoning capabilities에 영감을 받아, 최근 연구들은 visual data에서 MLLMs의 reasoning abilities를 향상시키는 데 초점을 맞추고 있습니다. 초기 연구들은 종종 hand-crafted CoT structures와 modality bridging techniques를 사용하여 image-based reasoning을 목표로 삼았습니다. 한편, video domain에서는 일부 접근 방식이 temporal grounding에 중점을 두었고, 다른 방식들은 일반적인 video understanding을 위해 manual reasoning pipelines를 사용했습니다. 마지막으로, 여러 최근 연구들은 MLLM reasoning capabilities를 향상시키기 위해 DPO 및 GRPO와 같은 Reinforcement Learning (RL) 전략을 사용했습니다. 그러나 선도적인 방법들은 종종 많은 양의 long CoT data를 사용하는 비용이 많이 드는 SFT stage에 의존합니다. 대신, 우리는 SFT data나 비용이 많이 드는 temporal ordering supervision 없이 GRPO-based RL strategy를 사용하여 video reasoning model의 data- and compute-efficient training을 가능하게 합니다.

Test-Time Scaling (TTS)

TTS는 신속한 heuristic processing보다는 보다 신중한 step-by-step reasoning을 촉진하기 위해 inference 중에 증가된 computational resources를 전략적으로 할당하는 것을 의미합니다. Chain-of-Thoughts (CoT) framework가 초기에 reasoning capabilities를 향상시키기 위해 inference 중 computational budget을 늘리는 것을 제안했지만, 그 이후로 self-consistency, weighted voting, Tree-of-Thoughts, self-reflection을 포함하여 language tasks를 위한 더 정교한 방법들이 등장했습니다. 그러나 우리는 text-centric approaches가 videos의 고유한 특성과 다양한 queries에서 요구되는 reasoning granularity의 다양한 수준을 간과하기 때문에 복잡한 video understanding tasks에서는 sub-optimal이라고 주장합니다. 따라서, 우리는 efficient long-range video reasoning의 과제에 맞춰진 새로운 video-adaptive TTS mechanism을 제안합니다.

Related Works 핵심 정리노트

AI 연구자가 이 논문이 기존 연구들과 어떻게 차별화되는지 빠르게 파악하기 위한 정리 노트입니다.

이 논문은 기존 연구들이 가진 (1) Reasoning 과정의 부재, (2) 학습 데이터의 비효율성, (3) 비디오에 최적화되지 않은 추론 방식이라는 세 가지 핵심 한계를 지적하고, 이를 해결하는 것을 목표로 합니다.

1. vs. Long Video Understanding 연구

기존 연구: 대부분의 MLLMs는 비디오에 대한 질문에 최종 answer만 생성할 뿐, 왜 그런 답이 나왔는지 reasoning 과정이나 근거를 제시하지 않습니다.
본 논문의 차별점: data-efficient pure-RL training과 video-adaptive test-time scaling을 통해 answer와 step-by-step reasoning 과정을 함께 생성합니다. 이를 통해 model의 interpretability(해석 가능성)를 확보하고 overfitting을 방지합니다.

2. vs. Visual CoT Reasoning with RL 연구

기존 연구: 최신 RL 기반 reasoning model들은 여전히 비용이 많이 드는 SFT stage와 방대한 long CoT data에 의존하는 한계를 가집니다. (e.g., Video-R1)
본 논문의 차별점: 값비싼 SFT 단계를 완전히 제거하고, GRPO 기반의 RL 전략만을 사용하여 data 및 compute 효율성을 극대화합니다. 이는 SFT data나 temporal ordering supervision 없이도 video reasoning model의 효율적 학습을 가능하게 합니다.

3. vs. Test-Time Scaling (TTS) 연구

기존 연구: self-consistency, Tree-of-Thoughts 등 기존 TTS 기법들은 inference 시 더 많은 계산을 통해 성능을 높이지만, 이는 text-centric(텍스트 중심적) 접근법입니다.
본 논문의 차별점: 텍스트 기반 방식은 비디오의 고유한 특성(시간적 연속성, 다양한 reasoning 깊이 요구)을 간과하여 video understanding tasks에 sub-optimal이라고 주장합니다. 따라서 이 논문은 **비디오에 특화된 새로운 video-adaptive TTS mechanism**을 제안하여 efficient long-range video reasoning을 달성합니다.

쉬운 설명 :

이 논문이 기존의 다른 연구들과 뭐가 다른지 쉽게 설명해 드릴게요. "비디오를 보고 질문에 답하는 AI 탐정"에 비유해 보겠습니다.

"어떻게 알았어?"에 대한 대답
- 다른 AI 탐정들: 사건 파일(비디오)을 보고 "범인은 이 사람이야!"(answer)라고 결론만 말해줍니다. 어떻게 그런 결론에 도달했는지 수사 과정(reasoning)을 설명해주지 않아 믿기 어려울 때가 있습니다.
- 이 논문의 AI 탐정: 결론과 함께 자신의 추리 과정을 단계별로 설명해줘서, 왜 그렇게 생각했는지 우리가 이해하고 신뢰할 수 있습니다.
탐정 훈련 방식
- 다른 AI 탐정들: 유능한 탐정을 만들기 위해, 누군가가 **모든 단서와 추리 과정을 일일이 손으로 쓴 엄청나게 두꺼운 교본(SFT with CoT data)**을 만들어 훈련시켰습니다. 이건 매우 비싸고 비효율적인 방식입니다.
- 이 논문의 AI 탐정: 두꺼운 교본 없이, **몇 가지 간단한 사건의 정답만 보고도 스스로 추리법을 터득(pure RL)**합니다. 훨씬 적은 노력으로 더 똑똑해지는 셈이죠.
실제 사건 수사 방식
- 다른 AI 탐정들: 사건을 해결할 때(inference), 이전에 **글로 된 서류를 분석하던 방식(text-centric TTS)**을 영상 증거 분석에 그대로 쓰려고 했습니다. 하지만 글 분석법과 영상 증거 분석법은 달라야 효과적이겠죠.
- 이 논문의 AI 탐정: **영상 증거의 특성에 맞는 맞춤형 수사 기법(video-adaptive TTS)**을 사용합니다. 간단한 사건은 빠르게 훑어보고, 복잡한 사건은 여러 번 돌려보며 신중하게 분석하는 등 상황에 맞게 대처하여 더 정확하게 문제를 해결합니다.

3 VIDEO-RTS

우리는 video reasoning을 위한 resource-efficient RL framework인 Video-RTS를 제안합니다. 먼저 우리의 기본 RL algorithm으로 사용되는 outcome-supervised RL 방법을 3.1절에서 소개합니다. 3.2절에서는 multimodal video reasoning 문제의 problem statement와 과제들을 정의합니다. 다음으로, 3.3절에서 비용이 많이 드는 chain-of-thought annotations이나 temporal labels 없이 간단한 video QA data를 활용하는 효율적인 reinforcement fine-tuning 전략을 제안합니다. 마지막으로, 3.4절에서 prediction consistency에 따라 computation을 adaptively 조정하여 성능을 더욱 향상시키는 video-specific test-time scaling mechanism을 소개합니다.

3.1 Preliminary: Group Relative Policy Optimization (GRPO)

최근 DeepSeek-R1은 새로 제안된 reinforcement learning(RL) 접근 방식을 통해 여러 language reasoning benchmarks에서 state-of-the-art performance를 달성했습니다. 이 framework의 핵심 단계로서, DeepSeek-R1은 reasoning-oriented RL을 수행하기 위한 core algorithm으로 Group Relative Policy Optimization(GRPO)을 활용합니다. 표준적인 DPO와 비교할 때, GRPO는 group-level scores로부터 baselines을 추정함으로써 value model의 필요성을 제거합니다. candidate responses의 group을 직접 비교함으로써 critic model에 대한 의존성을 없애고 training costs를 상당히 줄입니다.

input question이 주어지면, GRPO는 먼저 old policy $\pi_{\theta_{\text{old}}}$로부터 다른 sampling settings을 통해 개의 구별되는 candidate responses ${O_1, ..., O_G}$를 생성합니다. model은 reward function 역할을 하여 해당 scores ${R_1, ..., R_G}$를 얻습니다. 그런 다음 model은 정규화를 위해 candidate의 score의 mean과 standard deviation을 계산하고 이러한 responses의 품질을 결정합니다: (1) 여기서 는 번째 answer candidates의 relative quality score를 나타냅니다. reasoning question $q \sim P(Q)$가 주어졌을 때, GRPO는 다음 objective를 최대화하여 policy model $\pi_{\theta}$를 최적화합니다: (2) 로 parameterized된 updated policy 가 reference model $\pi_{\text{ref}}$에서 너무 멀리 벗어나는 것을 방지하기 위해, GRPO는 per-token deviations에 불이익을 주는 KL-divergence term $D_{KL}$을 통합합니다. 본 연구에서는 video reasoning capabilities를 효율적으로 향상시키기 위해 우리의 reinforcement learning algorithm으로 GRPO를 채택합니다.

3.2 Problem Statement and Challenges

우리는 video reasoning task를 video question-answering 문제로 공식화합니다. 여기서 video input 와 reasoning question 가 주어지면, video reasoning model 는 predicted answer $\hat{A}$를 생성하도록 설계됩니다. 최근 video reasoning benchmarks의 표준적인 관행에 따라, 우리는 multiple-choice question-answering format(MCQA)에 중점을 둡니다. 이는 answer options 를 input으로 추가하고 model 가 주어진 answer candidates 중에서 선택하도록 요구합니다. 구체적으로, video reasoning process는 다음과 같이 공식화될 수 있습니다: (3) 최근 몇몇 주목할 만한 연구들은 video reasoning 문제를 해결하기 위해 supervised fine-tuning(SFT)과 reinforcement learning(RL)을 결합하는 강력한 잠재력을 보여줍니다. 이러한 방법들은 일반적으로 두 단계의 pipeline을 따릅니다: (1) 긴 Chain-of-Thought(CoT) video QA data를 사용한 SFT, 그리고 (2) video QA data에 대한 reasoning-focused RL. 이러한 효과에도 불구하고 몇 가지 과제가 남아 있습니다: (i) data inefficiency: 대규모 video-question 또는 CoT datasets에 대한 의존은 복잡한 video tasks로의 scalability를 저해합니다(예: Video-R1은 165K의 SFT data와 4K의 RL data를 활용). (ii) RL 동안의 computational inefficiency: dense video-text pairs와 복잡한 reward designs를 사용한 training은 resource-intensive합니다(예: temporal GRPO). (iii) limited inference-time adaptability: 현재 models는 query complexity에 따라 computation을 동적으로 scale할 수 있는 mechanisms이 부족합니다.

이러한 과제를 해결하기 위해, 우리는 inference를 위한 consensus-based hierarchical voting strategy와 함께 향상된 training recipe를 도입하는 data-efficient하면서도 강력한 video reasoning model인 VIDEO-RTS를 개발합니다.

3.3 Resource-Efficient Reinforcement Learning for Video Reasoning

우리는 machine-generated CoT data의 한계와 supervised fine-tuning의 overhead를 극복하는 VIDEO-RTS의 제안된 RL training strategy를 소개합니다. 선구적인 video reasoning 접근법인 Video R1은 open-source MLLM(Qwen-2.5-VL-72B)을 활용하여 supervised fine-tuning을 위해 165K의 video QA examples에 대한 reasoning chains를 생성합니다. large-scale, long-form reasoning chains를 생성하는 것은 시간이 많이 걸리고, 결과적인 SFT data의 품질은 불확실합니다. 왜냐하면 MLLM이 human experts와 비교하여 상당한 performance gap을 보이고 video-specific CoT reasoning formats에 대한 fine-tuning이 부족하기 때문입니다.

DeepSeek-R1-Zero의 성공에 동기를 부여받아, 우리는 표준 training pipeline을 재검토하고 비용이 많이 드는 SFT 단계를 우회하는 대신, minimal training overhead로 video QA에 대한 pure reinforcement learning 접근법을 탐색할 것을 제안합니다. 최근 강력한 image reasoning MLLMs에 video reasoning capabilities를 갖추기 위해, 우리는 추가적인 verifier에 의존하지 않고 오직 answer correctness에만 기반한 간단한 reward function을 사용하여 video QA data에 직접 outcome-supervised RL(즉, GRPO)을 적용합니다. 각 구성 요소의 세부 사항은 아래에 설명되어 있습니다.

Backbone MLLM. DeepSeek-R1에서 입증되었듯이, 효과적인 outcome-supervised RL training을 위한 중요한 전제 조건은 model의 기본 reasoning ability를 향상시키는 cold-start supervised fine-tuning(SFT) stage입니다. frame-based video understanding에 대한 이전 연구들은 image data에 대해 광범위하게 trained된 models이 video tasks에서 강력한 performance를 달성할 수 있음을 보여주었습니다. 이러한 통찰을 바탕으로, 우리는 image reasoning data에 대해 trained된 MLLM(예: Qwen-2.5-VL)을 video data에 대한 outcome-supervised RL training을 위한 강력한 cold-started model로 사용합니다.

Reward Design. DeepSeek-R1-zero에서 영감을 받아, 우리는 video-SALMONN-o1에서처럼 step-by-step supervision에 의존하기보다 outcome-based rewards에 대해 직접적으로 최적화하는 것이 비용이 많이 드는 intermediate CoT data의 필요성을 줄이면서 reasoning capabilities를 더욱 향상시킬 수 있다고 제안합니다. 더욱이, intermediate reasoning steps에 대한 상세한 supervision을 얻는 것은 종종 복잡한 verifier designs을 요구합니다. 이를 해결하기 위해, 우리는 model의 final output 를 직접 최적화하는 효율적인 reward design을 채택합니다. 구체적으로, 우리는 backbone MLLM을 fine-tune하고 복잡한 video tasks에 대한 explicit CoT reasoning ability를 유도하기 위해 두 가지 유형의 rewards, 즉 format reward와 accuracy reward를 도입합니다.

먼저, 우리는 model이 answer prediction을 생성하기 전에 ‘’와 ‘’ tags 사이에 reasoning process를 생성하도록 장려하는 format reward $R_{\text{format}}$을 적용합니다. 이 reward는 model이 final answer를 생성하기 전에 video와 text query에 응답하여 explicit logical reasoning step을 갖도록 돕습니다.
다음으로, 우리는 model이 reasoning process에 따라 정답을 생성하도록 장려하는 accuracy reward $R_{\text{acc}}$를 도입합니다. 우리는 training task를 multiple-choice QA 문제로 공식화하여, model의 predicted answer $\hat{A}$를 ground truth $A_{gt}$와 비교함으로써 reward를 간단하게 정의할 수 있습니다.

전체 reward function은 다음과 같이 정의됩니다: (4)

RL Training. 3.1절에서 언급했듯이, 우리는 식 (4)에 요약된 제안된 reward functions를 사용하여 video QA tasks에 대한 RL을 위해 Group Relative Policy Optimization(GRPO) algorithm을 채택합니다. input video 와 query 가 주어지면, model은 먼저 다양한 sampling configurations로 개의 다양한 candidate responses ${O_1, ..., O_G}$를 생성합니다. 그런 다음 Format 및 accuracy rewards(식 (4))가 각 candidate response에 적용되어 해당 reward scores ${R_1, ..., R_N}$를 계산합니다. 이후, model(즉, policy) 는 식 (2)에 자세히 설명된 GRPO objective를 사용하여 최적화됩니다. 이 접근 방식은 간단하고 빠르게 계산할 수 있는 outcome-based rewards와 함께 쉽게 이용 가능한 video-question-answer triplets만을 사용하여 video reasoning을 위한 효율적인 RL training을 가능하게 합니다. 경험적으로, 우리는 우리의 RL training design이 large-scale SFT 및 RL datasets(165K + 4K)에서 trained된 기존 방법에 비해 단 6K의 samples만을 사용하여 비슷한 video reasoning performance를 달성함을 발견했으며, 이는 VIDEO-RTS의 data 및 computational efficiency를 보여줍니다.

3.4 Dynamic Sparse-to-Dense Video Test-Time Scaling

video reasoning data에 대한 RL training을 통해, 우리 model은 video reasoning 문제를 해결하기 위해 긴 chain-of-thought reasoning process를 생성할 수 있습니다. 그러나 Fig. 3에서 볼 수 있듯이, 6K training samples 이후에 더 많은 video QA samples를 추가하는 것은 video reasoning performance에 marginal improvements만을 가져온다는 것을 발견했습니다. language community의 test-time scaling technique의 최근 발전에 영감을 받아, 우리는 training stage에서 과도한 computational resources를 절약하고 이를 inference stage 동안 할당하여 video reasoning capability를 향상시키는 것을 목표로 합니다. video data의 redundant nature를 고려할 때, sparse-to-dense exploration을 통한 adaptive inference strategy는 효율적이고 효과적일 수 있습니다.

이를 위해, 우리는 frame inputs을 scaling하여 video reasoning process를 반복적으로 개선하는 sparse-to-dense video test-time scaling strategy를 제안합니다. NLP domain의 majority voting method에서 영감을 받아, 우리는 MLLM의 self-consistency를 model이 정확한 video reasoning을 위해 더 dense한 information을 필요로 하는지에 대한 signal로 활용합니다.

구체적으로, 개의 frames를 가진 input video $V^{(n)}$와 query 가 주어지면, RL-trained model 는 MLLM에 대한 개의 다른 sampling parameter가 주어졌을 때 개의 다른 responses ${O_1, ..., O_m}$를 생성합니다. 이러한 responses는 video input과 주어진 query에 대한 다양한 reasoning processes를 포함하며, 이는 현재 frame rate 하에서 다른 각도에서의 logical thinking을 제공합니다. 그런 다음, 우리는 각 output에서 predicted answer ${\hat{A}_1, ..., \hat{A}_m}$를 추출하고 다른 reasoning process가 만장일치의 answer prediction으로 이어지는지 확인합니다. 만약 다양한 reasoning processes가 consensus를 이룬다면, 우리는 현재 temporal information이 충분하다고 간주하고 현재 prediction을 신뢰합니다. 만약 model이 상충되는 predictions를 생성한다면, 우리는 현재 temporal information이 model이 주어진 video와 query에 대해 accurate response를 생성하기에 충분하지 않다고 간주합니다. 따라서, 우리는 frame rate를 높이고 model이 consensus를 찾거나 frame rate limit에 도달할 때까지 majority voting process를 반복적으로 수행합니다.

Algorithm 1에서는 sparse-to-dense video test-time scaling의 자세한 algorithm을 보여줍니다. inference stage 동안의 sparse-to-dense exploration을 통해, VIDEO-RTS는 다른 temporal requirements를 가진 sample에 대해 computational budget을 adaptively 할당하고 video reasoning performance를 향상시킵니다.

VIDEO-RTS 방법론 (Section 3) 핵심 정리노트

AI 연구자가 VIDEO-RTS의 핵심 방법론을 빠르게 파악할 수 있도록 Section 3을 정리한 노트입니다.

VIDEO-RTS는 (1) Resource-Efficient RL Training과 (2) Dynamic Test-Time Scaling이라는 두 가지 핵심 전략을 통해 데이터 및 계산 효율성을 극대화하는 video reasoning framework입니다.

1. Resource-Efficient Reinforcement Learning (Sec 3.3)

기존의 비효율적인 SFT+RL pipeline을 혁신하는 새로운 학습 방식입니다.

핵심 전략: 비용과 시간이 많이 소요되는 SFT(Supervised Fine-Tuning) 단계를 완전히 생략하고, pure reinforcement learning 접근법을 채택합니다.
Backbone Model: training을 처음부터 시작하는 대신, 강력한 image reasoning 능력으로 pre-trained된 MLLM (e.g., Qwen-2.5-VL)을 strong cold-started model로 사용합니다. 이는 이미지에 대한 높은 이해도가 비디오 task로 효과적으로 전이된다는 통찰에 기반합니다.
Reward 설계: 복잡한 verifier나 step-by-step 주석 없이, 최종 결과에만 기반한 효율적인 outcome-based reward를 사용합니다.
- Format Reward ($R_{format}$): Model이 최종 answer를 내놓기 전에, 명시적인 reasoning 과정을 생성하도록 유도합니다.
- Accuracy Reward ($R_{acc}$): Multiple-choice 문제의 정답을 맞히도록 보상합니다.
- 전체 Reward:
학습 알고리즘: GRPO (Group Relative Policy Optimization)를 RL algorithm으로 사용하여 위의 reward function을 최적화합니다. 이 방식은 critic model 없이 candidate responses 그룹 간의 상대적 비교를 통해 효율적으로 학습합니다.
결과: 이 전략을 통해 **단 6K개의 samples**만으로 169K개의 samples를 사용한 기존 SOTA model과 대등한 성능을 달성하며 압도적인 data efficiency를 입증합니다.

2. Dynamic Sparse-to-Dense Video Test-Time Scaling (Sec 3.4)

Training 자원을 inference 단계에 효율적으로 재분배하여 성능을 극대화하는 전략입니다.

핵심 동기: Training 데이터를 일정 수준(6K) 이상 늘려도 성능 향상이 둔화(saturates)되는 현상을 관찰했습니다. 따라서 남는 compute 자원을 inference 시점에 활용하는 것이 더 효율적입니다.
핵심 전략: 비디오의 redundant한 특성을 고려하여, **sparse-to-dense 방식의 video-adaptive한 TTS**를 제안합니다.
알고리즘 흐름:
1. Sparse Start: Inference 시, 비디오의 적은 수의 frames(sparse)로 reasoning을 시작합니다.
2. Self-Consistency Check: Model이 동일한 입력에 대해 여러 개의 다양한 reasoning 경로를 생성합니다. 그 후 majority voting을 통해 answer prediction들이 하나의 답으로 일치하는지(consensus) 확인합니다.
3. Go Dense (if needed): 만약 prediction들이 서로 달라 consensus에 도달하지 못하면, model은 현재의 temporal information이 불충분하다고 판단합니다. 이후 frame rate를 점진적으로 높여(dense) 더 많은 정보를 바탕으로 consensus에 도달할 때까지 이 과정을 반복합니다.
효과: query의 난이도에 따라 computational budget을 동적으로 할당합니다. 쉬운 문제는 빠르게, 어려운 문제는 신중하게 풀어 resource 사용을 최적화하고 video reasoning 성능을 향상시킵니다.

쉬운 설명 :

이 논문이 제안하는 똑똑한 AI 모델 VIDEO-RTS가 어떻게 만들어지고 작동하는지, "AI 탐정"에 비유해 쉽게 설명해 드리겠습니다.

1. AI 탐정의 효율적인 훈련법

기존 방식처럼 비싼 돈 들여 훈련시키지 않습니다.

두꺼운 교본 없이 스스로 학습: 탐정에게 수만 페이지짜리 두꺼운 수사 교본(SFT data)을 통째로 외우게 하는 대신, 몇 가지 간단한 사건 파일과 정답(Video QA data)만 주고 스스로 수사 기법을 터득하게(pure RL) 합니다.
특채로 뽑은 베테랑: 물론 아무것도 모르는 신입 탐정은 아닙니다. 사진 증거 분석(image reasoning)은 이미 통달한 베테랑을 데려와 영상 증거 분석법을 가르치는 것과 같아서, 훨씬 빠르게 배웁니다.
두 가지 핵심 훈련 규칙: 훈련할 때 딱 두 가지만 강조합니다.
1. "보고서 쓸 때, 반드시 어떻게 추리했는지 과정(reasoning)을 쓸 것." (format reward)
2. "그래서 범인을 정확히 맞힐 것." (accuracy reward)

2. AI 탐정의 스마트한 사건 해결법

이제 훈련된 탐정이 실제 사건(비디오)을 아주 영리하게 해결합니다.

상황에 맞춰 수사하기: 탐정은 모든 사건 파일을 처음부터 끝까지 똑같이 꼼꼼하게 읽지 않습니다.
1. 일단 핵심만 본다 (Sparse Start): 먼저 사건의 핵심적인 몇 장면(sparse frames)만 봅니다.
2. 혼자서 여러 각도로 생각해본다 (Self-Consistency Check): 그 장면들만 보고, "이렇게 생각하면 A가 범인인데... 저렇게 생각해도 A가 범인인가?" 하고 여러 각도로 혼자 검토합니다.
3. 확신이 서면 바로 결론, 아니면 추가 수사 (Go Dense):
  - 만약 모든 생각이 하나의 결론("A가 범인")을 가리키면(consensus), "이 정도면 충분하군" 하고 수사를 바로 종결합니다.
  - 만약 생각하는 방향마다 결론이 다르게 나오면, "아, 단서가 부족하네. 사건 파일을 좀 더 자세히 봐야겠다"라고 판단하고, 더 많은 장면(dense frames)을 보며 추가 수사에 들어갑니다.

이렇게 VIDEO-RTS는 효율적인 훈련으로 빠르게 성장하고, 실제 문제를 풀 때는 상황에 맞게 힘을 조절하는 아주 유능한 AI 탐정이라고 할 수 있습니다.

주인장 이해

SFT 왜함 ? 6k로 RL 때리니까 잘되는데?

test에서 시간 쓰는게 나을듯?
32프레임부터 128프레임까지 sparse 한거 부터 추론하면 가성비 좋음

대신 한번의 답변만 쓰는게 아니라 여러번 인퍼런스해서 일관성 있는지 봐야함.

근데 틀렸을때는 어려운 문제이기 때문에 계산 budget을 늘리고 프레임도 늘림 2배 (버짓을 직접 늘리진 않음 프레임이 늘어남에 따라 자동으로 늘어나는 효과)

그리고 그 과정을 반복하면서 일관성 있을때까지.

주인장 이해 버전 (정확도 100%)

SFT 왜 함? 6K로 RL 때리니까 잘되는데?
- 정답입니다. 이 논문의 핵심 도발이자 발견입니다. 기존의 복잡한 SFT+RL 파이프라인의 필요성에 의문을 제기합니다.
Test에서 시간 쓰는 게 나을 듯? 32프레임부터 128프레임까지 sparse한 거부터 추론하면 가성비 좋음
- 정답입니다. 훈련(training)에 들어갈 과도한 리소스를 아껴서, 추론(test-time)에 동적으로 투자하는 것이 더 효율적이라는 철학입니다. 쉬운 문제는 빠르게, 어려운 문제에만 자원을 집중하니 가성비가 좋습니다.
대신 한 번의 답변만 쓰는 게 아니라 여러 번 인퍼런스해서 일관성 있는지 봐야 함.
- 정답입니다. 이게 바로 self-consistency check의 핵심입니다. 여러 개의 추론 경로를 생성해서 그 결과가 일치하는지(consensus)를 보는 것이 중요합니다.
근데 틀렸을 때는 어려운 문제이기 때문에 계산 budget을 늘리고 프레임도 늘림 2배
- **정확히는 "틀렸을 때"가 아니라 "답변이 일관적이지 않을 때"**입니다. 모델이 스스로 확신을 못 하고 여러 답을 내놓을 때, "이건 어려운 문제구나"라고 판단하고 계산 리소스(프레임 수)를 2배로 늘립니다.
그리고 그 과정을 반복하면서 일관성 있을 때까지.
- 정답입니다. 일관된 답을 찾거나, 최대 한계에 도달할 때까지 이 과정을 반복합니다.