AI바라기의 인공지능

VLM : Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding 본문

카테고리 없음

VLM : Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding

AI바라기 2025. 9. 10. 20:54

쉬운 설명 (Easy Explanation)

이 논문의 핵심 아이디어는 마치 탐정이 복잡한 사건 현장을 조사하는 방식과 유사하다고 볼 수 있습니다.

  • 기존 방식 (Single-Turn): 탐정이 현장 전체를 대충 한번 훑어보고 바로 범인을 지목하는 것과 같습니다. 중요한 단서를 놓칠 확률이 높습니다.
  • Video-MTR (Multi-Turn):
    1. 1차 조사 (Turn 1): 탐정이 먼저 현장 전체를 넓게 훑어보며 대략적인 상황을 파악하고 용의자를 몇 명 추립니다. ("전체적으로 보니 A, B, C가 의심스럽군.")
    2. 집중 조사 (Turn 2): 가장 유력한 용의자의 주변이나 알리바이를 집중적으로 파고들어 결정적인 증거를 찾습니다. ("A의 책상 서랍을 더 자세히 조사해봐야겠어.")
    3. 결론 도출: 수집된 증거들을 종합하여 최종적으로 범인을 확정합니다.

이처럼 Video-MTR은 처음에는 Video를 넓게 훑어보고, 의심스러운(질문과 관련 있을 법한) 구간이 생기면 그 부분만 다시 집중적으로 되돌려보며 점진적으로 이해도를 높여 정답을 찾아내는, 훨씬 더 지능적이고 인간의 사고방식과 가까운 접근법입니다.

 

Video-MTR 학습 노트

용어 설명 (Terminology)

  • Multi-Turn Reasoning: 한 번에 정답을 찾는 Single-Turn 방식과 달리, 모델(Agent)이 Video 환경과 여러 차례 상호작용하며 점진적으로 정보를 수집하고 추론하여 최종 결론에 도달하는 방식.
  • Gated Bi-level Reward System: 이 논문의 핵심적인 보상 체계. 두 가지 레벨의 보상을 결합.
    • Trajectory-level Reward: 최종 답변의 정답 여부에 따라 주어지는 '결과' 중심의 보상.
    • Turn-level Reward: 각 Turn에서 '질문과 관련 있는' Video frame을 얼마나 잘 선택했는지를 평가하는 '과정' 중심의 보상.
    • Gated: 최종 답변이 맞았을 경우(Trajectory-level Reward > 0)에만 Turn-level Reward를 부여하여, 올바른 결과로 이어진 유의미한 중간 과정에만 보상을 주는 메커니즘.
  • Reinforcement Learning (RL): 모델을 Agent로 보고, Video를 환경으로 설정. Agent가 특정 행동(frame 검색, 답변)을 취하면 환경이 보상(Reward)을 주고, Agent는 이 보상을 최대화하는 방향으로 학습.
  • Exploration Bootstrapping: 학습 초기에 모델이 소극적으로 Frame 검색(retrieval)을 시도하는 문제를 해결하기 위해, 검색 비율이 특정 임계값보다 낮을 경우 관련성과 상관없이 검색 행동 자체에 작은 보너스를 부여하여 다각적인 탐색을 유도하는 전략.

Purpose of the Paper

기존 Long-form Video Understanding 연구들은 다음과 같은 한계를 가짐.

  • Static Reasoning: Video 전체에서 균일하게 Frame을 샘플링하여 한 번에 추론(Single-Turn)하므로, 영상이 길어질수록 중요한 정보를 놓칠 위험이 큼.
  • Reliance on External Models: Video의 핵심 부분을 찾기 위해 별도의 pre-trained VLM(Visual-Language Model)을 도구처럼 사용하는 Agent 방식은, 시스템이 복잡하고 여러 모델 간의 상호작용이 최적화되지 않아 sub-optimal 성능을 보임.
  • Lack of End-to-End Training: 외부 모델을 사용하거나 파이프라인이 복잡하여, '가장 관련 있는 부분을 찾는 능력'과 '찾은 부분을 보고 질문에 답하는 능력'이 동시에 End-to-End로 학습되지 못함.

이 논문은 이러한 한계를 극복하기 위해, 하나의 통합된 모델 Reinforcement Learning을 통해 Video와 여러 차례 상호작용하며(Multi-Turn) 스스로 핵심적인 부분을 찾아보고(iterative key video segment selection), 이를 바탕으로 질문에 답하는(question comprehension) End-to-End 학습이 가능한 새로운 프레임워크인 Video-MTR을 제안하는 것을 목표로 함.

Key Contributions & Novelty

  • Key Contributions:
    • Long-form Video Understanding을 위한 최초의 Reinforced Multi-Turn Reasoning framework 제안.
    • 중간 추론 과정을 효과적으로 학습시키기 위한 Gated Bi-level Reward 메커니즘 도입.
      • 최종 정답 정확도 (Trajectory-level)와 중간의 Frame 선택 관련성 (Turn-level)을 함께 고려.
    • 적은 양의 고품질 데이터(8K)만으로도 대규모 데이터로 학습된 모델들과 경쟁력 있는 성능을 달성하는 효율적인 RL 학습 패러다임 제시.
  • Novelty:
    • 기존의 분리된 파이프라인(핵심 Frame 탐색 모델 + 답변 생성 모델)을 하나의 End-to-End 학습 가능한 모델로 통합하여, 탐색과 추론 과정을 동시에 최적화한 점이 독창적.
    • 단순히 최종 정답 여부만으로 보상을 주던 기존 RL 방식과 달리, **'올바른 결과로 이어진 올바른 과정'에만 선택적으로 보상(Gated Reward)**을 주는 정교한 Reward Shaping을 통해 학습 효율과 성능을 극대화함.

Experimental Highlights

  • Datasets: VideoMME, MLVU, EgoSchema 등 대표적인 Long-form Video Understanding 벤치마크 사용.
  • Metrics: Average multi-choice accuracy (M-AVG).
  • Key Results:
    • State-of-the-art Performance: 동일한 7B 크기의 open-source 모델들 대비, 모든 벤치마크에서 일관되게 우수하거나 최고의 성능을 달성함. 특히 MLVU에서 48.4%, EgoSchema에서 62.4%의 높은 정확도를 기록.
    • Superiority of Multi-turn Reasoning: 기존 Single-Turn 방식의 베이스라인 모델(Qwen2.5-VL-7B) 대비, Video가 길고(Long), task가 복잡할수록(multi-detail) 성능 향상 폭(+6.3% ~ +8.1%)이 커짐을 입증.
    • Effectiveness of Bi-level Reward: Bi-level Reward를 제거한 경우, 특히 복잡한 벤치마크인 MLVU에서 성능이 4%p 크게 하락하여, 정교한 중간 과정 보상의 중요성을 증명.
    • Data Efficiency: 수십만~수백만 개의 데이터로 학습하는 다른 모델들과 달리, 단 8K의 고품질 데이터만으로 RL 학습을 진행하여 높은 성능을 달성, 제안된 방법론의 효율성을 강조.

Limitations and Future Work

  • Limitations:
    • Multi-detail Reasoning Failure: 여러 개의 분리된 시간대에서 일어난 사건의 순서를 맞춰야 하는 복잡한 문제에 대해, 충분한 정보를 탐색하기 전에 성급하게 답변하여 hallucination을 보이는 경우가 있음.
    • Fine-grained Perception Difficulty: 현재의 Frame 처리 파이프라인은 긴 Video를 다루기 위해 공간적 해상도(spatial resolution)를 낮게 유지하므로, 미세한 손동작이나 작은 물체의 변화를 인지해야 하는 문제(fine-grained procedural reasoning)에 취약함.
  • Future Work:
    • Deeper Dialogue Loop: 더 복잡하고 여러 단계의 추론이 필요한 task를 해결하기 위해, 모델의 상호작용 Turn 횟수를 늘려 더 깊은 reasoning chain을 지원하도록 확장.
    • Hierarchical Temporal-to-Spatial Strategy: Video 전체를 넓게 훑어본 후(coarse video sweeps), 중요하다고 판단되는 부분은 고해상도로 다시 집중해서 보는(zoom into high-resolution frame crops) 계층적 탐색 전략을 도입하여, 거시적, 미시적 정보를 모두 효과적으로 파악하도록 개선.

Overall Summary

Video-MTR은 긴 Video를 이해하기 위해, 단일 모델이 RL을 통해 Video와 여러 차례 상호작용하며 점진적으로 핵심 정보를 찾아 나가는 새로운 Multi-Turn Reasoning 프레임워크를 제시한 논문이다. 특히 최종 정답과 중간 과정의 관련성을 함께 보상하는 독창적인 'Gated Bi-level Reward' 시스템을 통해, 복잡하고 긴 Video에 대한 이해 능력을 End-to-End 학습으로 크게 향상시켰다. 이 연구는 기존의 정적인 접근법에서 벗어나, 보다 동적이고 효율적인 방식으로 Long-form Video Understanding 문제에 접근하는 새로운 방향을 제시했다는 점에서 중요한 의의를 가진다.

 

Abstract

long-range temporal dependencies와 다수의 이벤트로 특징지어지는 Long-form video understanding은 여전히 어려운 과제로 남아있습니다. 기존 방법들은 종종 정적 reasoning이나 외부 visual-language models (VLMs)에 의존하는데, 이는 end-to-end training의 부재로 인해 복잡성과 최적이 아닌 성능과 같은 문제에 직면합니다. 본 논문에서는 iterative한 주요 video segment 선택과 question comprehension을 가능하게 하도록 설계된 강화된 multi-turn reasoning 프레임워크인 VideoMTR을 제안합니다.

single turn으로 predictions를 생성하는 전통적인 video reasoning pipeline과 달리, Video-MTR은 이전에 처리된 segments와 현재 question에 대한 진화하는 이해를 바탕으로 점진적으로 video segments를 선택하며 multiple turns으로 reasoning을 수행합니다. 이러한 iterative 과정은 video에 대한 더 정교하고 맥락을 인지하는 분석을 가능하게 합니다. 중간 reasoning 과정을 보장하기 위해, 우리는 answer correctness에 기반한 trajectory-level rewards와 frame-query relevance를 강조하는 turn-level rewards를 결합한 새로운 gated bi-level reward system을 도입합니다.

이 시스템은 video segment 선택과 question comprehension을 모두 최적화하여, 외부 VLMs의 필요성을 제거하고 end-to-end training을 가능하게 합니다. VideoMME, MLVU, EgoSchema와 같은 benchmarks에서의 광범위한 실험은 Video-MTR이 accuracy와 efficiency 모두에서 기존 방법들을 능가하며, long video understanding 분야에서 state-of-the-art를 발전시켰음을 보여줍니다.

 

 

 

 

Introduction

더보기

기초적인 computer vision task로서, video understanding은 지능형 감시, 콘텐츠 기반 검색에서 자율 주행에 이르기까지 수많은 분야에서 광범위한 응용 분야를 찾습니다. 사용자 생성 동영상의 폭발적인 증가와 일상생활에서의 카메라 보편화로 인해, 강력하고 확장 가능한 video-understanding 도구에 대한 수요가 상당히 증가했습니다. 향상된 reasoning 능력 덕분에, Multimodal Large Language Models (MLLMs)는 최근 몇 년간 이미지와 짧은 동영상을 위한 visual understanding task에서 획기적인 발전을 보여주었습니다. 그러나 다수의 이벤트와 long-range temporal dependencies로 특징지어지는 long-form video understanding은 여전히 상당한 어려움을 제기합니다.

기존 접근 방식들은 instruction tuning을 사용하거나 reinforcement learning을 통합하여 현재의 MLLMs를 long-term temporal reasoning에 맞게 조정합니다. 그러나 이러한 방법들은 주로 language와 image modalities를 위해 설계된 training paradigms를 이전하는 것으로, single turn으로 고정된 균일한 sampled frames 집합에 기초하여 predictions를 생성하는 static reasoning approach에 의존합니다. 이 single-turn, uniform sampling 전략은 동영상 길이가 길어짐에 따라 중요한 정보를 누락할 위험이 있기 때문에 long-form videos를 다룰 때 downstream reasoning tasks의 병목 현상이 됩니다. 대안으로, 다른 접근 방식들은 large language models (LLMs)가 agents 역할을 하는 agentic paradigm을 탐색하며, 외부 visual-language models (VLMs)를 활용하여 주요 video segments를 식별합니다. 이러한 방법들은 pretrained VLMs와 신중하게 설계된 pipelines에 의존합니다. 우수한 성능을 달성하지만, 이질적인 외부 구성 요소에 대한 의존과 end-to-end training이 부족하여 최적이 아닌 tool usage strategies로 인해 높은 복잡성에 의해 방해받습니다.

본 연구에서는 MLLMs의 고유한 능력을 활용하고, bi-level rewards를 갖추어 통일된 model 내에서 iterative한 key video segment 선택과 question comprehension을 위한 reinforced multi-turn reasoning 프레임워크인 Video-MTR을 제안합니다. 기존의 video reasoning models와 달리, Video-MTR은 이전에 선택된 segments와 question에서 파생된 current state를 기반으로 key video segments의 iterative한 선택을 가능하게 합니다. 이 접근 방식은 더 유익한 video segments의 점진적인 식별을 용이하게 합니다. agentic paradigm과 비교하여, Video-MTR은 외부 VLMs와 신중하게 설계된 pipelines에 대한 의존을 제거하여, video segment 선택을 최적화하고 결과적으로 question comprehension을 향상시키는 end-to-end training을 가능하게 합니다.

공식적으로, Video-MTR은 기존 MLLM model인 Qwen2.5-VL-7B를 기반으로 구축되며, end-to-end reinforcement learning strategy를 통해 iterative한 video reasoning 능력을 개발하도록 trained 됩니다. 그러나 오직 answer accuracy에만 기반한 현재의 reward systems는 특히 복잡한 긴 동영상에서 중간 video segment 선택에 대해 제한된 지침을 제공합니다. 이 문제를 해결하기 위해, 우리는 answer correctness에 기반한 trajectory-level rewards와 frame-query relevance를 포착하는 turn-level rewards로 구성된 새로운 gated bi-level reward system을 도입합니다. 이 reward system은 turn-level rewards를 위해 key segment annotations에 의존하고, trajectory-level rewards를 위해 final answer에 의존합니다. 이를 가능하게 하기 위해, 우리는 제한된 규모의 QA-grounded corpus를 활용하고, 맞춤형 curation pipeline을 사용하여 원래의 annotations를 우리의 QA-centric paradigm에 맞추기 위해 선별된 video temporal grounding dataset으로 증강합니다. 게다가, video understanding을 primary optimization objective로 유지하기 위해, 우리는 frame-level rewards를 오직 final answer correctness에만 고정시켜, 중간 작업들이 core task에 진정으로 기여해야 함을 강제합니다.

본 연구의 contributions는 세 가지입니다. 첫째, long-form video understanding을 위해 설계된 reinforced multi-turn reasoning 프레임워크인 Video-MTR을 소개하여, iterative한 video segment 선택과 question comprehension을 가능하게 합니다. 우리가 아는 한, 이것은 long video understanding의 맥락에서 multi-turn reasoning을 통합하려는 첫 번째 시도입니다. 둘째, answer correctness에 기반한 trajectory-level rewards와 frame-query relevance에 초점을 맞춘 turn-level rewards를 포함하는 새로운 gated bi-level reward mechanism을 제안하여, 더 효과적이고 정보에 입각한 video segment 선택을 촉진하고 reasoning accuracy를 향상시킵니다. 마지막으로, 우리는 VideoMME, MLVU, EgoSchema를 포함한 여러 video understanding benchmarks에서 광범위한 실험을 수행하여 Video-MTR의 효과와 견고성을 입증합니다. Codes, trained models, 그리고 dataset은 추가 연구를 위해 공개될 것입니다.

 

 

Introduction 정리노트 (for AI Researchers)

1. Problem Definition

  • Main Challenge: Long-form video understanding. 기존 방법들은 여러 이벤트와 long-range temporal dependencies를 효과적으로 처리하는 데 한계가 있음.

2. Limitations of Existing Approaches

  • Static Reasoning Models (Tuning MLLMs):
    • Method: Instruction tuning 또는 reinforcement learning을 사용.
    • Limitation: Single-turn으로, 비디오에서 균일하게 sampling된 고정된 프레임 셋을 기반으로 reasoning을 수행함. 이 방식은 긴 비디오의 결정적 순간(critical information)을 놓칠 위험이 커 downstream task의 병목 현상이 됨.
  • Agentic Paradigm (LLM + VLM):
    • Method: LLM이 agent 역할을 하여 외부 VLM을 tool로 사용, key video segments를 식별함.
    • Limitation:
      • High Complexity: 서로 다른 외부 model(heterogeneous external components)에 의존하여 시스템이 복잡해짐.
      • Sub-optimal Performance: End-to-end training이 불가능하여 VLM tool 사용 전략이 최적이 아님.

3. Proposed Solution: Video-MTR

  • Core Concept: Reinforced multi-turn reasoning 프레임워크.
  • Key Features:
    • Unified Model: 외부 VLM 없이 단일 MLLM (Qwen2.5-VL-7B 기반) 내에서 작동.
    • Iterative Reasoning: Single-turn이 아닌, multiple turns에 걸쳐 reasoning을 수행. 각 단계(turn)에서 이전에 선택된 segments와 question을 바탕으로 다음으로 분석할 key video segment를 점진적으로 선택함.
    • End-to-End Training: 외부 model 의존성을 제거하여 전체 파이프라인을 end-to-end로 최적화 가능. 이를 통해 video segment 선택 능력과 최종적인 question comprehension 성능을 동시에 향상시킴.

4. Key Innovation: Gated Bi-Level Reward System

  • Motivation: 최종 answer의 정답 여부(accuracy)만으로는 iterative한 segment 선택 과정을 효과적으로 학습시키기 어려움. 중간 단계의 선택이 올바른 방향으로 가고 있는지에 대한 가이드가 필요함.
  • Mechanism: 이 문제를 해결하기 위해 두 가지 레벨의 reward를 결합.
    • Trajectory-level Reward: 최종 answer의 correctness를 기반으로 함. 전체 reasoning 과정의 최종 목표를 달성했는지 평가.
    • Turn-level Reward: 각 turn에서 선택한 프레임과 질문 간의 관련성(frame-query relevance)을 기반으로 함. 각 중간 선택이 얼마나 유효했는지 즉각적인 피드백을 제공.
  • Training: 이 reward 시스템을 통해 model은 어떤 video segments를 선택하는 것이 정답 추론에 실질적으로 기여하는지를 학습하게 됨.

5. Contributions

  • Framework: Long video understanding을 위한 최초의 multi-turn reasoning 프레임워크인 Video-MTR 제안.
  • Reward System: 효과적인 end-to-end training을 가능하게 하는 새로운 gated bi-level reward mechanism 제안.
  • Performance: 주요 video understanding benchmarks (VideoMME, MLVU, EgoSchema)에서 SOTA 성능 입증.

쉬운 설명 :

이 논문의 Introduction 섹션은 긴 동영상을 이해하는 AI 모델의 현재 문제점을 지적하고, 자신들이 만든 새로운 해결책 'Video-MTR'을 소개하는 내용입니다.

기존 방식의 문제점은 이렇습니다.

  1. '한 번에 대충 훑어보기' 방식: 긴 영화의 내용을 맞혀보라고 할 때, 영화 전체에서 무작위로 스틸컷 몇 장만 보고 내용을 추리하는 것과 같습니다. 당연히 중요한 장면을 놓치기 쉬워 정확도가 떨어집니다.
  2. '전문가에게 물어보기' 방식: AI가 직접 동영상을 보지 못하고, 동영상 분석을 잘하는 다른 전문가 AI(VLM)에게 "이 부분 설명해줘", "저 부분은 어때?"라고 계속 물어보는 방식입니다. 더 나을 순 있지만, 두 AI가 따로 훈련되었기 때문에 소통이 비효율적이고 전체 과정이 복잡해지는 단점이 있습니다.

이 논문이 제안하는 새로운 방식(Video-MTR)은 이렇습니다.

  • '탐정처럼 추리하기' 방식: AI가 탐정처럼 직접 동영상을 보며 단서를 찾습니다. 질문을 먼저 확인한 뒤, "음, 이 질문에 답하려면 일단 A 장면부터 봐야겠어"라고 판단해 해당 부분을 봅니다. 거기서 얻은 정보를 바탕으로 "아하, 그렇다면 다음은 C 장면을 봐야겠군"이라고 생각하며 스스로 가장 중요하다고 판단되는 부분을 순서대로 찾아 나섭니다.

이 '탐정 AI'를 똑똑하게 만들기 위해 특별한 훈련법을 사용합니다. AI가 최종 답을 맞혔는지뿐만 아니라, 답을 찾는 과정에서 '올바른 단서(동영상 장면)를 잘 골랐는지'도 단계마다 채점해주는 'gated bi-level reward' 시스템을 도입했습니다. 덕분에 AI는 어떤 장면을 봐야 정답에 더 가까워지는지를 효과적으로 학습할 수 있게 됩니다.

결론적으로 Video-MTR은 외부 전문가의 도움 없이, AI 혼자서 긴 동영상을 여러 번에 걸쳐 탐색하며 점진적으로 이해하는, 더 똑똑하고 효율적인 방식이라고 할 수 있습니다.

 

Related works

더보기

MLLMs for Video Understanding

Image MLLMs의 visual reasoning 능력에 기반하여, 연구자들은 video understanding을 위한 temporal extensions를 개발합니다. 그러나 long-form videos는 그 긴 길이가 현재 MLLMs의 context windows를 초과하기 때문에 여전히 어려운 과제로 남아있습니다. VideoLLaVA, ShareGPT4Video, InternVideo2, 그리고 VideoR1과 같은 접근 방식들은 여전히 전체 비디오를 uniformly sampling하는 방식에 의존하며, reasoning abilities를 향상시키기 위해 대규모 video-instruction data를 이용한 post-training에 의존합니다. 그러나 input stage에서의 필연적인 정보 손실은 performance ceiling을 만듭니다. 다른 접근 방식들은 이 bottleneck을 명시적으로 해결합니다.

LongVA, LLaMA-VID, Kangaroo, 그리고 VideoXL과 같은 방법들로 예시되는 한 가지 카테고리의 방법들은 context windows를 확장하기 위해 token compression techniques를 사용하여 한 시간 길이의 비디오를 직접 처리할 수 있게 합니다. 그러나 이 접근 방식은 model에 중복된 정보를 넘치게 하고 interpretability를 희생시킵니다. VideoAgent, VideoMemAgent, DrVideo와 같은 또 다른 카테고리는 video captioning, video object tracking, key-frame search를 포함한 external tools를 single-turn 또는 multi-turn iterations를 통해 동적으로 통합하는 agent mechanisms를 채택합니다. uniform sampling baselines보다 뛰어난 성능을 보임에도 불구하고, 이러한 시스템들은 이질적인 외부 구성 요소(heterogeneous external components)로 인한 높은 복잡성과 end-to-end training의 부재로 인한 suboptimal tool utilization을 보입니다.

MLLMs with Reinforcement Learning

text domain에서의 발전에 영감을 받아, 최근 연구들은 MLLMs의 reasoning abilities를 향상시키기 위해 reinforcement learning (RL)을 탐색해왔습니다. VLM-R1은 DeepSeek-R1 패러다임을 확장하여, RL-trained MLLM이 supervised fine-tuning baseline을 능가하고 visual tasks에서 더 잘 generalize할 수 있음을 보여주었습니다. DeepEyes는 RL을 통해 multiple turns에 걸쳐 "이미지로 생각하기(thinking with images)"를 장려합니다. video domain에서, VideoChat-R1은 GRPO를 이용한 reinforcement fine-tuning (RFT)을 통해 spatio-temporal perception을 향상시키며, Video-R1은 temporal cues를 강조하기 위해 맞춤형 T-GRPO algorithm을 사용합니다. 그러나 이러한 방법들은 주로 static images나 short clips를 대상으로 하여, long-form video understanding은 대체로 다루어지지 않은 채로 남아있습니다.

Related Works 정리노트 (for AI Researchers)

1. MLLMs for Video Understanding: Existing Approaches & Gaps

이 논문은 long-form video understanding을 위한 기존 연구들을 세 가지 카테고리로 분류하고 각각의 명확한 한계를 지적합니다.

  • Approach 1: Uniform Sampling
    • Models: VideoLLaVA, InternVideo2, Video-R1 등.
    • Method: 비디오 전체에서 프레임을 균일하게 sampling하여 MLLM의 입력으로 사용. 대규모 video-instruction data로 post-training을 수행.
    • Identified Gap: Input 단계에서 필연적으로 정보 손실이 발생함. 이로 인해 모델의 성능 향상에 근본적인 한계(performance ceiling)가 존재함.
  • Approach 2: Context Window Extension
    • Models: LongVA, LLaMA-VID, VideoXL 등.
    • Method: Token compression 같은 기술을 사용해 MLLM의 context window를 물리적으로 확장하여 긴 비디오를 직접 처리.
    • Identified Gap: 모델에 중복되거나 불필요한 정보가 과도하게 입력되며, 모델의 판단 과정을 이해하기 어려워지는 interpretability 문제가 발생함.
  • Approach 3: Agent Mechanisms
    • Models: VideoAgent, VideoMemAgent 등.
    • Method: LLM을 agent로 사용하여 video captioning, object tracking 등 다양한 외부 tool(VLM)을 동적으로 활용.
    • Identified Gap:
      1. High Complexity: 여러 이질적인 외부 컴포넌트(heterogeneous external components)에 의존하여 시스템이 매우 복잡함.
      2. Suboptimal Performance: End-to-end training이 불가능하기 때문에, 외부 tool 활용 전략이 최적화되지 못함.

2. MLLMs with Reinforcement Learning: Existing Approaches & Gaps

Reinforcement Learning (RL)을 MLLM에 적용한 연구들의 현황과 이 논문이 진입하려는 지점을 설명합니다.

  • Current RL Applications:
    • General Vision: VLM-R1, DeepEyes 등은 RL을 통해 MLLM의 general visual reasoning 능력을 향상시킴. Supervised fine-tuning 방식보다 성능이 우수함을 보임.
    • Short Video: VideoChat-R1, Video-R1 등은 RFT, T-GRPO 같은 RL 알고리즘을 사용하여 short clips의 spatio-temporal perception을 강화함.
  • Identified Gap: 기존의 모든 RL 기반 MLLM 연구들은 static images나 short clips에만 집중되어 있음. Long-form video understanding 문제에 RL을 적용한 연구는 사실상 부재함.

3. Positioning of This Paper

이 논문은 위에서 지적한 두 가지 주요 연구 공백을 채우는 것을 목표로 합니다. 즉, Agent 방식의 복잡성과 비효율성을 end-to-end training이 가능한 unified model로 해결하고, RL 분야의 미개척지였던 long-form video understanding 문제에 RL을 적용하는 첫 번째 시도 중 하나임을 시사합니다.


쉬운 설명 :

'Related Works' 섹션은 이 논문이 나오기 전에 다른 연구자들은 비슷한 문제를 어떻게 풀려고 했는지, 그리고 그 방법들에는 어떤 한계가 있었는지를 설명하는 부분입니다.

1. 긴 동영상을 이해하려는 기존 방법들의 문제점

다른 연구자들이 긴 동영상을 AI에게 이해시키려 할 때 주로 쓴 방법은 크게 세 가지입니다.

  • 방법 1. '사진 몇 장만 보고 내용 맞히기': 긴 영화의 내용을 이해시키기 위해 영화 전체에서 사진 몇 장을 무작위로 뽑아서 AI에게 보여주는 방식입니다. 운이 좋으면 핵심 장면이 뽑히겠지만, 대부분의 경우 중요한 내용을 놓치게 됩니다.
  • 방법 2. '영화 통째로 빨리 감기 해서 보여주기': AI가 한 번에 볼 수 있는 정보의 양(context window)을 기술적으로 늘려서, 긴 영화 전체를 통째로 입력해주는 방식입니다. 모든 정보를 보긴 하지만, 너무 많은 정보가 한꺼번에 들어와 AI가 혼란스러워하고 정작 중요한 것에 집중하기 어렵습니다.
  • 방법 3. '분야별 전문가 팀 꾸리기': 메인 AI가 '감독'이 되고, '장면 묘사 전문가', '인물 추적 전문가' 같은 다른 AI들을 고용해 물어보면서 종합적으로 판단하는 방식입니다. 강력할 순 있지만, 여러 AI를 동시에 관리해야 해서 너무 복잡하고, 팀원들(전문가 AI)이 각자 따로 훈련받았기 때문에 손발이 잘 맞지 않는 문제가 있습니다.

2. 요즘 뜨는 AI 훈련법(RL)의 한계

최근 AI의 추론 능력을 높이기 위해 '강화학습(Reinforcement Learning, RL)'이라는 효과적인 훈련법이 많이 쓰이고 있습니다. 칭찬 스티커처럼 AI가 잘한 행동에 보상을 줘서 스스로 더 잘하게 만드는 방식입니다.

  • 문제점: 그런데 지금까지 이 좋은 훈련법은 주로 '사진'이나 '몇 초짜리 짧은 영상'을 이해시키는 데에만 사용되었습니다. 아무도 이 방법을 '몇십 분짜리 긴 동영상'을 이해시키는 어려운 문제에는 제대로 사용한 적이 없습니다.

결론적으로 이 논문은 "기존 방법들은 문제가 많았고, 가장 효과적인 최신 훈련법은 아직 이 분야에 적용된 적이 없으니, 우리가 그 두 가지 문제를 모두 해결하는 새로운 방법을 만들었다"고 주장하기 위해 이전 연구들을 소개하고 있는 것입니다.

 

Methods

더보기

Overview

우리는 long-form video understanding을 인간이 복잡한 visual 정보를 처리하는 방식과 매우 유사한 multi-turn interactive reasoning task로 재개념화하는 프레임워크인 Video-MTR을 제안합니다. 비디오와 질문이 주어졌을 때, 인간은 일반적으로 전체 콘텐츠에 대한 holistic understanding을 형성하는 것으로 시작하여, 더 유익한 세부 정보를 수집하기 위해 특정 segments에 iteratively attend하고, 마지막으로 축적된 증거를 통합하여 답을 도출합니다.

이 reasoning paradigm을 구체화하기 위해, 우리는 이 task를 reinforcement learning 문제로 공식화합니다. 이 공식화에서, 비디오는 retrieval actions에 반응하여 관찰된 프레임 집합 를 업데이트하는 동적 environment로 기능합니다. MLLM은 학습된 policy $\pi_{\theta}$를 통해 environment와 상호 작용하는 decision-making agent 역할을 합니다.

그림 1에서 볼 수 있듯이, agent는 multi-turn 방식으로 작동하며, 각 단계에서 추가 프레임을 검색하거나 최종 답변을 생성하기 위해 action $a_k \sim \pi_{\theta}(\cdot|s_k)$를 sampling합니다. state 는 (i) 마지막 개의 상호작용과 (ii) 현재 관찰된 프레임을 연결한 multimodal context이며, temporal history와 업데이트된 visual evidence를 모두 제공하고, 다음과 같이 표현될 수 있습니다.  여기서 는 text instruction, 는 관찰된 프레임 집합, 는 reasoning process와 실행 가능한 action 로 구성된 generated response입니다. environment는 전체 비디오에서 개의 프레임을 균일하게 sampling하여 를 형성함으로써 초기화됩니다. 그 후, environment는 각 retrieval action에 대해 다음 turn의 관찰이 되는 새로운 프레임 집합으로 응답합니다. agent는 답변하기에 충분히 확신이 들거나 turn 제한 $K_{\text{max}}$에 도달할 때까지 여러 retrieval actions를 실행할 수 있습니다. 전체 trajectory는 다음과 같이 기록됩니다:  여기서 는 초기 turn 에서 시작하는 turn을 인덱싱하고, 는 terminal turn을 나타내며, $0 \le K \le K_{\text{max}}$입니다.

전체 rollout process는 Algorithm 1에 요약되어 있습니다.


Algorithm 1: Rollout of Multi-turn Reasoning Trajectory

Input: Long video , Policy MLLM , Input question , Input frame set , Maximum turn , turn counter  Output: Final trajectory  Initialize: , rollout trajectory  1: while  do 2: Generate response  3:  4:  5: if  matches "Retrieval" format then 6: Extract  from  7:  8:  ▷ question은 변경되지 않음 9:  10: else if  matches "Answer" format then 11: break ▷ 최종 답변을 얻음 12: else 13:  “Invalid action. Let me rethink.” ▷ 유효하지 않은 action에 대해 응답을 재생성 14:  15: end if 16:  17: end while 18: Collect final trajectory 


이전 연구들이 temporal reasoning tasks를 위해 MLLMs에 reinforcement learning을 적용했지만, 그들은 주로 single-turn reasoning 설정을 채택합니다. 그러나 MLLMs를 위한 표준 RL frameworks는 turn에 걸쳐 sparse terminal rewards의 uniform credit assignment 때문에 multi-turn optimization에 어려움을 겪습니다. 이는 최종 성공에 중요한 미묘한 intermediate behaviors의 학습을 방해합니다. 더욱이, terminal supervision이 sparse하기 때문에 오직 final-task accuracy에만 기반하여 최적화하는 것은 일반적으로 광범위한 training data를 요구합니다. multi-turn reasoning에서 이러한 과제를 해결하기 위해, 우리는 기존의 trajectory-level rewards를 turn-level rewards로 보강하는 gated bi-level reward mechanism을 도입합니다. 이러한 turn-level rewards는 frame–query relevance를 포착하여 중간 reasoning 단계와 최종 reasoning 단계를 명시적으로 분리합니다. 대부분의 video question answering datasets는 QA annotations만 제공하므로, 우리는 video temporal grounding dataset을 통합하고 이를 우리의 QA-centric 설정에 맞게 큐레이팅하여 data diversity를 높입니다. 추가적으로, pretrained MLLMs에서 제한된 proactive frame retrieval을 관찰하고, multi-turn evidence seeking을 장려하기 위해 dynamic exploration-bootstrapping strategy를 채택합니다. 이러한 설계는 함께 더 유익하고 식별력 있는 reward signals를 제공함으로써 reasoning performance를 향상시키고 데이터 요구 사항을 줄입니다.

Gated Bi-Level Reward

이 섹션은 RL training을 위한 우리의 fine-grained reward design을 자세히 설명합니다. 우리는 먼저 기본 bi-level reward의 계산을 설명합니다. 그런 다음 intermediate decisions를 final goal에 맞추기 위해 trajectory-level signals를 turn-level signals보다 우선시하는 goal-gated mechanism을 제시하여, 일관되고 목표 지향적인 multi-turn reasoning을 촉진합니다.

Bi-level Reward 이 bi-level architecture는 두 가지 보완적인 구성 요소로 이루어져 있습니다: global supervision을 제공하는 trajectory-level reward $R_{\text{acc}}$와 개별 turn 내에서 localized feedback을 전달하는 중간 turn-level rewards.

$R_{\text{acc}}$는 최종 답변의 정확성에 의해 결정됩니다: 

$R_{\text{fm}}$은 turn-level frame retrieval quality를 정량화합니다. 각 중간 turn 에서, 우리는 선택된 프레임 와 QA pair 간의 relevance를 측정합니다. relevance는 ground-truth 관련 프레임 와의 IoU로 정량화됩니다. turn reward는 이 relevance가 초기 turn에 비해 개선될 때만 주어집니다: 

Goal-Gated Reward Shaping 중간 actions이 video understanding이라는 core goal에 기여하도록 보장하기 위해, 우리는 goal-gated reward shaping mechanism을 추가로 도입합니다. Frame-retrieval rewards는 최종 답변 정확도에 따라 조건부로 부여되며, 올바른 답변에 기여하는 프레임 작업만이 필수적인 것으로 간주됩니다. 이 설계는 각각을 분리하여 최적화하는 대신 policy에서 retrieval과 answering을 결합합니다.

더욱이, multi-turn rollouts에서 agent는 여러 중간 retrieval을 발행할 수 있지만 답변은 한 번만 합니다. 제약이 없다면, model은 primary goal인 video understanding accuracy를 무시하면서 reward hacking을 위해 반복적인 프레임 보상을 악용할 수 있습니다. 따라서 우리는 single-intermediate-reward constraint를 강제하여, 가장 높은 relevance reward를 가진 retrieval turn만이 frame reward와 format reward를 유지하고 다른 모든 turn-level rewards는 0으로 만듭니다. 이는 누적 trajectory rewards가 terminal answer reward의 일회성 특성과 일치하도록 보장하여, trajectory 당 정확히 하나의 프레임 검색 보상과 하나의 답변 보상을 허용합니다.

우리는 정제된 rewards를 최종 rewarded trajectories로 집계하고, 이는 policy optimization을 위한 training data로 사용됩니다.

Reinforcement Learning

trajectory의 표준 RL objective function은 다음과 같이 정의됩니다: 

우리는 Proximal Policy Optimization (PPO)로 policy를 train하고, multi-turn reasoning을 수용하기 위해 기본 공식을 확장합니다. multi-turn interactions trajectory는 전체 token sequence $s = (s_0, s_1, \dots, s_T)$로 처리됩니다. sparse final-step feedback에만 의존하는 대신, bi-level rewards는 모든 turn 경계에 적용된 다음 모든 tokens 에 걸쳐 전파되어 효과적인 end-to-end learning을 가능하게 합니다. 구체적으로, 두 개의 discount factors가 token-level advantages  계산 중에 rewards를 공동으로 형성합니다:

  • : accuracy reward $R_{\text{acc}}$에 대한 cross-turn discount factor로, 최종 답변 signal을 이전 retrieval turns로 거슬러 감쇠시킵니다. turn 의 경계에서 할당된 reward는 다음과 같습니다:  여기서 는 최종 (답변) turn을 나타냅니다.
  • : turn 경계 reward를 동일한 turn 내의 tokens으로 전파하는 within-turn discount factor입니다.

PPO는 다음 objective를 최대화하여 policy model $\pi_{\theta}$를 최적화합니다:  

이 최적화는 두 가지 핵심 과제를 제기합니다: (1) intermediate frame retrieval rewards를 정확하게 추정하는 것; 그리고 (2) 원래 single-turn reasoning에 편향된 model을 multi-turn paradigm으로 전환하는 것. 우리는 이러한 과제를 두 가지 전략으로 해결합니다: fine-grained temporal supervision을 제공하는 고품질 data-curation pipeline과 초기 training 동안 multi-turn retrieval behavior를 장려하는 exploration bootstrapping mechanism입니다.

Data Curation Turn-level frame-retrieval rewards를 계산하려면 문제에 맞는 temporally grounded annotations가 필요합니다. 그러나 대부분의 video-understanding datasets는 원래 QA pairs에 연결된 그러한 레이블이 부족합니다. 주목할 만한 예외는 10.5K의 명시적인 grounding annotations를 제공하는 NExT-GQA입니다. 우리는 더 엄격한 temporal grounding을 강제하기 위해 relevant-segment ratio가 0.5 미만인 인스턴스를 유지하여 약 5K개의 high-quality samples를 얻습니다. training data를 확장하고 다양화하기 위해, 우리는 추가로 QVHighlights와 같은 video temporal grounding (VTG) datasets를 활용하는데, 이는 query-relevant segments에 대한 정밀한 temporal annotations를 제공합니다. 이 데이터셋을 우리의 QA-centric training에 맞게 조정하기 위해, 우리는 GPT-4o를 사용하여 각 query를 해당 QA pair로 변환하면서 원래의 temporal annotations와의 정렬을 유지합니다. 샘플 품질을 보장하기 위해, 우리는 filtering pipeline을 적용합니다: (1) LLM은 먼저 충분한 식별 세부 정보가 있는지 확인하여 query가 QA 변환에 적합한지 판단하고, 너무 짧거나 일반적인 query는 폐기됩니다; (2) 우리는 또한 relevant-segment ratio가 0.5 미만인 인스턴스만 유지합니다. 이 과정은 QVHighlights에서 거의 3K개의 QA-grounded high-quality samples를 산출합니다.

총 8K개의 temporally grounded training examples로 구성된 작지만 supervision이 풍부한 데이터셋을 큐레이팅합니다. 대규모 데이터 수집에 의존하는 기존 패러다임에서 벗어나, 우리의 접근 방식은 데이터 볼륨보다 reward signal fidelity를 우선시합니다. 더 식별력 있고 시간적으로 정밀한 피드백을 제공함으로써, 우리는 훨씬 적은 데이터로 경쟁력 있는 성능을 달성하는 매우 효율적인 RL training을 가능하게 합니다. 우리는 실험 섹션에서 이 설계를 추가로 검증하며, 대규모 데이터에 의존하는 대안적인 접근 방식과 그 효율성 및 효과를 비교합니다.

Exploration Bootstrapping 초기 rollouts 동안, 우리는 pretrained MLLM이 evidence-seeking behavior를 거의 시작하지 않는다는 것을 관찰합니다. 이전 연구와 달리, 우리는 supervised instruction tuning을 생략하고 multi-turns exploration을 위한 adaptive exploration bonus를 도입합니다: 각 mini-batch 내에서, agent의 frames retrieval rate가 미리 설정된 임계값 아래로 떨어지면, 모든 retrieval action은 frame relevance와 상관없이 작은 양의 보상을 받습니다. model이 정기적으로 retrievals를 트리거하면 보너스는 자동으로 비활성화됩니다. 이러한 dynamic reward shaping은 exploration을 bootstrapping하여 순수 RL이 multi-turn evidence-seeking behavior를 기를 수 있도록 합니다.

Methods 정리노트 (for AI Researchers)

1. Core Formulation: Reinforcement Learning (RL) Framework

  • Problem Redefinition: Long-form video understanding을 인간의 인지 과정과 유사한 multi-turn interactive reasoning task로 재정의함.
  • RL Components:
    • Agent: MLLM (Policy $\pi_{\theta}$를 학습).
    • Environment: Long video (Agent의 Retrieval action에 따라 관찰 프레임 셋 를 동적으로 제공).
    • State (): 현재까지 관찰된 프레임(), 질문(), 그리고 과거의 상호작용 기록을 포함하는 multimodal context.
    • Actions (): Retrieval(t_start, t_end) 또는 Answer(response) 두 가지 형태.
    • Trajectory (): Agent의 초기 상태부터 최종 action까지의 전체 상호작용 시퀀스 .

2. Key Challenge: Multi-Turn Credit Assignment

  • 기존 RL 프레임워크는 최종 결과(정답/오답)에 대한 sparse terminal reward를 trajectory의 모든 action에 동일하게 분배(uniform credit assignment)하는 경향이 있음.
  • 이 방식은 어떤 중간 Retrieval action이 최종 성공에 결정적이었는지 학습하기 어렵게 만들어, multi-turn reasoning 최적화에 비효율적임.

3. Core Solution: Gated Bi-Level Reward Mechanism

이 논문의 핵심 제안으로, 위 문제를 해결하기 위해 정교한 reward 구조를 설계함.

  • Component 1: Trajectory-level Reward ()
    • Purpose: Global supervision.
    • Calculation: 최종 답변이 정답이면 1, 아니면 0. Task의 최종 목표를 나타냄.
  • Component 2: Turn-level Reward ()
    • Purpose: Localized, intermediate feedback.
    • Calculation: Agent가 Retrieval action으로 선택한 프레임()과 Ground-Truth 정답 프레임() 간의 IoU를 계산. 이 IoU가 초기 랜덤 프레임()의 IoU보다 높을 경우에만 0.5의 reward를 지급. 이를 통해 '더 나은 증거를 찾아냈는가'를 즉각적으로 평가함.
  • Component 3: Goal-Gated Reward Shaping
    • Purpose: Reward hacking 방지 및 intermediate action과 final goal의 연관성 강화.
    • Mechanism: Turn-level reward()는 오직 최종 답변이 정답일 경우()에만 유효함. 최종적으로 실패했다면, 중간에 아무리 좋은 프레임을 찾았어도 보상은 0이 됨.
    • Constraint: Trajectory 내에서 가장 IoU가 높은 단 하나의 Retrieval turn에만 turn-level reward를 부여하여, 불필요한 탐색을 억제하고 reward 구조를 terminal reward와 일치시킴.
  • Final Reward Formula:

4. Training Strategy & Optimization

  • Algorithm: **Proximal Policy Optimization (PPO)**를 사용하여 reward 기댓값 $E_{\tau \sim \pi_{\theta}}(R(\tau))$를 최대화하도록 policy $\pi_{\theta}$를 학습.
  • Data Curation: Turn-level reward 계산에 필요한 (질문, 정답, 관련 프레임 시간) annotation을 확보하기 위한 전략.
    • Grounding annotation이 있는 NExT-GQA 데이터셋 활용.
    • Video Temporal Grounding (VTG) 데이터셋인 QVHighlights의 query를 GPT-4o를 사용해 QA pair로 변환하여 데이터를 증강.
    • 엄격한 필터링(relevant-segment ratio < 0.5)을 통해 8K개의 작지만 supervision 품질이 매우 높은 데이터셋을 구축. 데이터의 양보다 **reward signal의 충실도(fidelity)**를 우선시함.
  • Exploration Bootstrapping: Pretrained MLLM이 초기에 탐색(retrieval)을 꺼리는 문제를 해결하기 위한 전략.
    • Supervised instruction tuning을 생략하는 대신, 학습 초기에 Retrieval action 비율이 낮으면 relevance와 무관하게 작은 exploration bonus를 지급함.
    • Agent가 능동적으로 탐색을 시작하면 보너스는 자동으로 중단됨. 순수 RL만으로 multi-turn evidence-seeking 행동을 효과적으로 유도.

쉬운 설명 :

'Methods' 섹션은 이 논문이 제안하는 AI 모델 'Video-MTR'의 작동 원리와 훈련 방법을 아주 구체적으로 설명하는 부분입니다.

핵심 아이디어: AI를 탐정처럼 행동하고 훈련시키기

긴 동영상에 대한 질문에 답하는 것을 '탐정이 증거물 상자(동영상)를 뒤져 범인을 찾는(정답을 맞히는) 과정'에 비유할 수 있습니다.

1. 탐정의 행동 방식 (Multi-Turn Reasoning)

  • 기존 AI는 증거물 상자에서 무작위로 꺼내준 몇 개의 증거만 보고 범인을 추리해야 했습니다.
  • Video-MTR 탐정은 다릅니다. 먼저 초기 증거들을 훑어본 뒤, "음, 피해자의 마지막 행적에 대한 증거가 더 필요해"라고 생각하며 스스로 증거물 상자에서 특정 시간대의 증거를 추가로 꺼내봅니다(Retrieval action). 이 과정을 몇 번 반복하며 단서를 모으다가, "이제 알겠어! 범인은 바로..."라며 최종 결론을 내립니다(Answer action).

2. 탐정 훈련시키기 (Gated Bi-Level Reward)

똑똑한 탐정을 어떻게 훈련시킬까요? 이 논문의 가장 핵심적인 아이디어가 바로 이 훈련법에 있습니다.

  • 문제점: 기존 훈련법은 탐정이 마지막에 범인을 맞혔는지 틀렸는지만 알려줬습니다. 이러면 탐정은 수사 과정에서 어떤 행동이 좋았고 나빴는지 알 길이 없습니다.
  • 해결책: 2단계 보상 시스템
    1. 최종 성공 보상 (큰 보상): 사건을 해결하면(정답을 맞히면) 큰 보너스를 줍니다. 이것이 최종 목표입니다.
    2. 중간 단서 보상 (작은 보상): 수사 중에 결정적인 단서를 찾아낼 때마다(질문과 매우 관련 깊은 동영상 부분을 찾아낼 때마다) 즉시 작은 보너스를 줍니다. "아, 지금 잘하고 있구나!"라고 바로 알려주는 것입니다.
  • 가장 중요한 규칙 (Gating): 탐정이 중간에 아무리 좋은 단서들을 많이 찾아 작은 보너스를 쌓았더라도, 만약 최종적으로 범인을 틀리면 모든 보너스를 몰수합니다. 이 규칙 때문에 탐정은 단순히 좋은 단서를 찾는 데 그치지 않고, '반드시 정답으로 이어지는' 결정적인 단서를 찾는 데 집중하게 됩니다.

3. 소심한 신입 탐정 훈련시키기 (Exploration Bootstrapping)

  • 신입 탐정(Pretrained MLLM)은 처음에 소심해서 스스로 증거를 찾아 나서는 것을 두려워할 수 있습니다.
  • 이때는 훈련 초반에 한정하여, "일단 뭐라도 증거를 찾아보려는 시도만 해도 칭찬해줄게!"라며 작은 격려 보너스를 줍니다. 탐정이 점차 대담하게 증거를 찾는 데 익숙해지면 이 격려 보너스는 사라집니다.

결론적으로 이 논문은 AI가 스스로 동영상을 탐색하며 추론하게 만들고, '과정'과 '결과'를 모두 평가하는 매우 스마트한 보상 시스템으로 AI를 효과적으로 훈련시키는 구체적인 방법을 제시합니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

주인장 이해

더보기

프레임별로 번호를 새겨둠.

질문, 선택지, 유니폼 추출 프레임, 인스트럭션 을 준비

정보가 부족하다고 판단되는 프레임 부분을 자세히 보도록 요청
20,40 같은

멀티턴이기에 20~40 부분을 주는데 다 주는게 아니라 약간 촘촘하게 주긴함

암튼 이런식으로 반복해서 확신이 될때까지 반복

 

 

 

네, 완벽하게 이해하셨습니다! 말씀하신 그 느낌이 정확합니다.

사용자께서 요약해주신 내용이 논문의 핵심적인 작동 방식을 매우 정확하게 짚고 있습니다. 각 항목에 대해 조금만 더 구체적인 설명을 덧붙여 드리겠습니다.

  • "프레임별로 번호를 새겨둠."
    • 정확합니다. 분석 전에 비디오를 일련의 프레임으로 나누고 인덱스(번호)를 부여해, 모델이 "몇 번부터 몇 번까지 보여줘"라고 정확히 지칭할 수 있게 준비합니다.
  • "질문, 선택지, 유니폼 추출 프레임, 인스트럭션 을 준비"
    • 맞습니다. 이것이 바로 Turn 1에서 모델에게 주어지는 최초의 '사건 개요 브리핑'입니다. 모델은 이 제한된 정보만으로 추리를 시작해야 합니다.
  • "정보가 부족하다고 판단되는 프레임 부분을 자세히 보도록 요청 20,40 같은"
    • **네, 이 부분이 바로 Multi-Turn의 핵심 행동(Action)**입니다. 모델 스스로 판단해서 능동적으로 추가 정보를 요청하는 것입니다.
  • "(이건 그럼 학습을 하는건가?)"
    • 네, 바로 이 부분을 학습하는 것이 Video-MTR의 핵심 목표입니다! 이것이 Reinforcement Learning(강화학습)이 사용되는 이유입니다.
    • 학습 방식:
      1. 탐색 (Trial and Error): 처음에는 모델이 아무것도 모르기 때문에, retrieve(5,10)도 해보고 retrieve(50,60)도 해보는 등 여러 시도를 합니다.
      2. 보상 (Reward): 모델이 어떤 retrieve 행동을 한 뒤에 최종적으로 내놓은 정답이 맞았을 경우에만 시스템이 보상을 줍니다.
      3. 학습: 모델은 "아, 아까 retrieve(20,40)을 했더니 정답을 맞혀서 보상을 받았네? 앞으로 비슷한 질문이 오면 저런 구간을 요청하는 게 유리하겠구나!"라고 학습하게 됩니다.
      4. 정교화: 특히 이 논문의 **'Gated Bi-level Reward'**는, 최종 정답을 맞혔을 때(1차 보상), 모델이 요청한 retrieve(20,40) 구간이 실제로 정답의 단서가 포함된 '진짜' 핵심 구간이었는지까지 평가해서 추가 보너스 보상을 줍니다. 이를 통해 모델은 그냥 정답을 맞히는 것을 넘어, 가장 효율적이고 정확하게 핵심 구간을 찾아내는 능력까지 학습하게 됩니다.
  • "멀티턴이기에 20~40 부분을 주는데 다 주는게 아니라 약간 촘촘하게 주긴함"
    • 정확한 표현입니다. 비디오 전체를 다 주면 모델이 처리할 정보량이 너무 많아지기 때문에, 요청한 구간 내에서 이전(유니폼 추출)보다는 더 촘촘하지만(denser), 모든 프레임을 다 주지는 않는 효율적인 방식으로 정보를 제공합니다.
  • "암튼 이런식으로 반복해서 확신이 될때까지 반복"
    • 맞습니다. 이 과정을 정해진 최대 턴(논문에서는 3턴) 안에서 반복하며, 모델 스스로 "이 정도 정보면 충분하다"고 판단될 때 answer 행동을 통해 최종 결론을 내립니다.

정리하자면, 사용자께서 이해하신 "전체 훑어보기 -> 의심 구간 지정 -> 집중 탐색 -> 결론"의 흐름이 정확히 Video-MTR이 학습하고 작동하는 방식입니다.