AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination 본문

논문리뷰

VLM : 빠른 논문 리뷰 : Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

AI바라기 2026. 5. 11. 14:26


[Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination] 학습 노트

용어 설명

  • Visual Rumination (시각적 되새김질): 이 논문의 핵심 아이디어. 인간이 영상을 볼 때 일시 정지하고, 특정 영역을 확대하여 다시 읽고, 생각을 수정하는 "pause-zoom-check" 과정을 LMM이 모방하여 반복적으로 픽셀 단위 증거를 수집하는 과정.
  • Single-pass perception: 기존 비디오 LMM들의 방식. 고정된 프레임 세트를 단 한 번만 인코딩하여 처리하는 방식.
  • DRP-SFT (Deliberate Rumination Practice SFT): 1단계 학습. 모델이 단일 프레임에서 'crop(확대)'만 하거나, 비디오에서 'clip(구간 추출)'만 하는 등 원자적(atomic)인 visual operations를 개별적으로 연습하는 과정.
  • CRP-SFT (Compositional Rumination Practice SFT): 3단계 학습. DRP에서 배운 개별 기술을 혼합하여, 하나의 reasoning trajectory 안에서 clip과 crop을 교차로 사용하는 복합적인 전략을 학습하는 과정.
  • GRPO (Group Relative Policy Optimization): 여러 개의 candidate responses를 샘플링한 뒤, 그룹 내의 상대적인 품질(advantage)을 비교하여 policy를 업데이트하는 RL 알고리즘.
  • Curiosity Reward: 모델이 visual operations를 너무 안 쓰거나 남용하지 않도록, 적절한 탐색(exploration)을 유도하는 보상 함수.

Purpose of the Paper

  • 기존 연구의 한계: 기존 비디오 LMM들은 single-pass perception에 의존하여 작고 빠르게 지나가는 텍스트 정보(text-rich video)를 놓치는 경우가 많음. 이를 보완하기 위해 text-only reasoning (CoT)을 사용하지만, 실제 픽셀에 기반하지 않은(not grounded in pixels) 추론은 오히려 관찰하지 않은 내용을 지어내는 환각(hallucinations)을 증폭시킴.
  • 새로운 접근 방식: 텍스트 정보가 많은 비디오를 이해하기 위해, 모델이 스스로 프레임을 선택하고(clipping), 중요한 영역을 확대하고(cropping), 픽셀을 재인코딩하여 자신의 reasoning state를 업데이트하는 폐쇄 루프(closed-loop) 형태의 Visual Rumination agent를 제안함. 한 번 보고 유추하는 것이 아니라, 명시적인 액션을 통해 증거를 반복적으로 확인하게 함.

Key Contributions

  • Multi-stage Rumination Learning Framework 도입
    • Novelty: 단순히 처음부터 끝까지 RL을 돌리는 것이 아니라, 원자적 조작 학습(DRP-SFT) -> 초기 RL -> 복합 조작 학습(CRP-SFT) -> 최종 RL 순서의 커리큘럼을 설계함. 이를 통해 모델이 "언제, 왜" 도구를 써야 하는지 훨씬 빠르고 안정적으로 수렴함.
  • 실행 가능한(Executable) Trajectory Datasets 구축
    • Novelty: M4-ViteVQA 데이터셋을 기반으로, 모델이 실제로 훈련할 수 있는 step-by-step visual operation 궤적(Video-R4-CoT-17k, Video-R4-RL-30k)을 최초로 큐레이션함.
  • Visual Grounding을 위한 Test-time Scaling Effect 입증
    • Novelty: 추론(inference) 시 모델에게 더 많은 시각적 되새김질(rumination) 단계를 허용할수록 성능이 단조 증가(monotonically improves)함을 확인하여, 픽셀 기반 추론에서도 test-time scaling 현상이 유효함을 입증함.

Experimental Highlights

  • SOTA 성능 달성 (Text-Rich Video QA): M4-ViteVQA testset (Task 2)에서 기존 최고 성능 모델인 Video-R1(43.16%)을 압도적인 격차로 제치고 64.21%의 Accuracy (SOTA) 를 달성함.
  • 강력한 Zero-shot Generalization: Text-rich 비디오로만 훈련했음에도 불구하고, 추가 튜닝 없이 Multi-page Document QA (MP-DocVQA), Slides QA (SlidesVQA), 그리고 일반 Video QA (Video-MMMU, 52.2% 달성) 영역까지 성공적으로 transfer 됨.
  • 가설 검증 (RL의 선호도 변화): 실험 결과, RL 과정에서 모델이 프레임 추출(clipping)보다 세부 영역 확대(cropping)를 더 선호하도록 발전하는 현상이 관찰됨. 이는 인간이 작은 텍스트를 읽기 위해 줌인하는 방식과 정확히 일치함.
  • Baselines & Metrics: Qwen2.5-VL 기반 7B/8B 모델 사이즈에서 평가를 진행했으며, Exact Match (EM), ANLS, Accuracy metrics를 사용함.

Limitations and Future Work

  • 한계 1: Data curation의 OCR 의존성: 훈련 데이터 생성 파이프라인이 사전 추출된 OCR 결과 및 object detections에 의존하므로, 초기 인식 오류가 데이터 품질을 직접적으로 훼손함.
  • 한계 2: 제한된 Visual operations: 현재 제공되는 tool interface가 공간적 crop과 시간적 clip으로만 제한되며 trajectory 길이가 고정되어 있음. 이는 오디오 단서가 필요하거나 너무 빠르게 변하는 초장기 비디오에는 불충분함.
  • 한계 3: Hand-designed Rewards: GRPO에 사용된 보상(diversity, representativeness 등)이 인간의 직관을 근사한 proxy에 불과함.
  • Future Work: 이러한 한계를 극복하기 위해 향후 tracking, retiming 등 더 다양한 operation types를 추가하고, 더 큰 모델 스케일로 확장하며, 제한된 프록시 보상 대신 보다 open-ended reasoning을 위한 최적화 방법론을 연구해야 함.

Overall Summary

이 논문은 기존 비디오 LMM들의 한 번 보고 판단하는 (single-pass) 방식의 한계를 지적하며, 모델이 스스로 영상을 클리핑하고 크롭하여 픽셀 정보를 다시 가져오는 Visual Rumination 에이전트(Video-R4)를 제안합니다. SFT와 GRPO 기반 RL을 혼합한 독창적인 multi-stage 학습법을 통해 텍스트 중심 비디오 이해(M4-ViteVQA)에서 압도적인 SOTA를 달성했으며, 문서 및 일반 비디오로의 강력한 zero-shot generalization을 보여주었습니다. 이는 시각적 추론 영역에서도 모델이 더 오래 탐색할수록 성능이 오르는 test-time scaling 효과를 입증함으로써, 향후 멀티모달 모델이 인간처럼 능동적이고 자율적인 증거 수집(autonomous evidence gathering)을 통해 환각 없는 추론을 수행하는 방향으로 나아갈 수 있는 중요한 이정표를 제시합니다.


쉬운 설명

이 논문은 사람이 깨알 같은 글씨가 많은 유튜브 영상이나 강의 슬라이드를 볼 때 "잠깐 멈추고(clip), 글씨 부분을 확대해서(crop) 확실히 읽어보는" 행동을 AI 모델에게 그대로 가르친 연구입니다. 기존 AI는 영상을 "단 한 번 쓱 보고(single-pass)" 지나간 뒤 머릿속 상상력(text-only CoT)으로만 정답을 끼워 맞춰서 헛소리(hallucination)를 하는 경우가 많았습니다. 하지만 Video-R4는 스스로 의심스러운 부분을 찾아 고화질 픽셀로 다시 들여다보는 "시각적 되새김질(Visual Rumination)"을 수행하게 함으로써, 마치 시험 볼 때 본문을 여러 번 다시 찾아 읽고 검토하는 학생처럼 정확도를 획기적으로 끌어올린 혁신적인 방법론입니다.

 

 

 

더보기

모델은, 줌과 클립핑, 그리고 답변 3개의 액션을 할 수 있음.

특정 시간대를 요청하거나, 특정 영역을 요청하거나, 답변하거나

중간중간 정보를 얻고 reasoning state 수정 단계도 있긴하지만, think 태그에서하는거임

멀티턴으로 반복 


grpo로 학습했고, 띵크 태그 이후에 별도의 태그로 액션 완료

 

 

 

3점 / 5점

뻔하디 뻔한...