AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : ReWatch-R1: Boosting Complex Video Reasoning in Large Vision-Language Models through Agentic Data Synthesis 본문

논문리뷰

VLM : 빠른 논문 리뷰 : ReWatch-R1: Boosting Complex Video Reasoning in Large Vision-Language Models through Agentic Data Synthesis

AI바라기 2026. 6. 5. 14:40


용어 설명

  • RLVR (Reinforcement Learning with Verifiable Reward): 최종 정답이 맞는지 검증 가능한 보상을 통해 모델을 강화 학습시키는 방법입니다.
  • CoT (Chain-of-Thought): 최종 답을 도출하기 위해 모델이 전개하는 단계별 중간 추론 과정을 의미합니다.
  • Agentic Data Synthesis: LLM 기반의 Agent(이 논문에서는 Reasoner와 Observer)들이 서로 상호작용하며 자율적으로 훈련 데이터를 생성해내는 파이프라인입니다.
  • Contrastive Prompting: 요약된 설명(summary)만으로는 풀 수 없고, 세부적인 상세 설명(detailed caption)이 있어야만 풀 수 있는 고난이도 질문을 생성하기 위해 두 텍스트를 대조하여 QA를 추출하는 기법입니다.
  • O&R Reward (Observation & Reasoning Reward): 단순히 최종 정답의 일치 여부만 보는 것이 아니라, CoT 과정 내의 '관찰(observation)'이 실제 비디오 내용과 일치하는지, 그리고 그 '추론(reasoning)'이 정답 도출에 충분한지를 동시에 팩트체크하여 보상을 주는 이 논문의 고유한 채점 방식입니다.
  • Long Video Tax: 입력되는 비디오의 길이가 길어질수록, 정보의 과부하로 인해 모델의 추론 성능이 지속적으로 하락하는 현상을 의미합니다.

Purpose of the Paper

  • 기존 연구의 한계: 최근 vision-language model 학습에 SFT와 RLVR 패러다임이 이미지 분야에서는 큰 성공을 거두었으나, 복잡한 비디오 추론(complex video reasoning)에는 실패하고 있습니다. 논문은 그 근본 원인을 **'데이터 병목(data bottleneck)'**으로 지적합니다. 기존 오픈소스 데이터셋은 타임스탬프가 없는 뭉뚱그려진 캡션을 제공하고, 단순 시각적 인지만을 묻는 쉬운 QA로 구성되어 있으며, 비디오 단서 없이 LLM의 사전 지식에만 의존하는 가짜(visually unfaithful) CoT를 생성하여 RLVR을 위한 제대로 된 보상 신호를 주지 못했습니다.
  • 새로운 접근 방식: 진정한 multi-hop 비디오 추론을 모델에 학습시키기 위해, 텍스트 꼼수가 통하지 않는 철저한 비디오 기반(video-grounded) 합성 데이터셋인 ReWatch를 구축하고, 모델이 정답뿐만 아니라 '관찰 과정'의 팩트까지 검증받도록 하는 새로운 보상 함수를 도입하여 기존의 환각(hallucination) 문제를 극복하고자 했습니다.

Key Contributions & Novelty

  • ReWatch 데이터셋 구축 파이프라인 제시
    • Novelty: 단순 캡셔닝이 아닌 사람의 "다시 보기(re-watching)" 과정을 모사했습니다. Multi-Agent (Reasoner Agent와 Observer Agent) 프레임워크를 도입하여, 모델이 스스로 비디오의 특정 구간을 검색(retrieval)하고 팩트를 확인(verification)하는 행동(action)이 명시적으로 기록된 비디오 기반 CoT(ReWatch-CoT)를 합성해낸 점이 가장 독창적입니다.
  • 텍스트 편향을 제거한 고난이도 QA 쌍 (ReWatch-QA) 생성
    • Novelty: LLM이 영상을 보지 않고 텍스트 사전 지식만으로 정답을 유추하는 것을 막기 위해, Contrastive Prompting 기술과 3단계 필터링(답변 검증, 텍스트 편향 제거, 요약본 편향 제거)을 거쳐 오직 "영상의 세부 타임라인을 이해해야만" 풀 수 있는 순도 높은 질문 17만 개를 생성했습니다.
  • O&R (Observation & Reasoning) Reward 메커니즘 도입
    • Novelty: 기존 RLVR이 최종 정답(Final Answer)만 맞으면 보상을 주어 논리적 비약을 방치했던 반면, O&R Reward는 모델이 출력한 중간 관찰 결과가 실제 비디오 캡션과 팩트가 맞는지(robs), 그리고 그 관찰들을 바탕으로 도출해낸 추론이 정답으로 이어지기에 충분한지(rrea)를 모두 채점하여 환각 현상에 직접적인 페널티를 부여합니다.

Experimental Highlights

  • 압도적인 SOTA 성능 달성: VCR Bench, MINERVA, Video Holmes 등 5개의 고난이도 video reasoning benchmarks에서 동급 파라미터(192 프레임 기준)의 SOTA 모델들(Qwen2.5-VL-7B, GLM4.1V-9B, Video-R1 등)을 모두 제치고 **평균 35.51%**라는 최고 성능을 달성했습니다 (타 최고 모델 대비 약 4%p 이상 격차).
  • SFT와 RL의 시너지 입증: 본 논문의 고품질 데이터로 SFT만 수행한 모델(33.25%)이 이미 경쟁 모델의 최종 RL 버전을 상회했습니다. SFT가 추론의 '형식'을 가르쳤다면, 이어지는 RL 단계는 '효율성과 논리성'을 가르쳐(불필요한 action 수는 줄어들고 정답률은 상승하는 진화 과정 확인), 고품질 데이터와 RL의 결합이 필수적임을 증명했습니다.
  • 강력한 Video Dependency 검증: 기존 Video-R1 데이터셋은 비디오 없이 텍스트만 주어져도 정답률이 68.9%에 달했으나, ReWatch 데이터셋은 텍스트만 주어졌을 때 정답률이 29.4%(단순 찍기 확률인 25%에 근접)에 불과했습니다. 이는 제안한 필터링 방식이 꼼수(shortcut)를 완벽히 차단했음을 수치로 입증한 핵심 결과입니다.
  • Long Video Tax 방어: 비디오가 20분 이상으로 길어지는 구간에서도 타 모델 대비 성능 하락폭이 현저히 적어, 확장된 시간적 맥락을 파악하는 데 우수한 강건성을 보였습니다.

Limitations and Future Work

  • Limitations:
    • 비디오 길이가 길어질수록 여전히 절대적인 추론 성능 수치가 하락하는 "Long Video Tax" 현상을 완전히 피하지는 못했습니다. 긴 비디오의 과도한 컨텍스트 병목 현상은 여전히 vision-language models의 근본적 한계입니다.
    • 데이터셋 합성을 위해 Multi-Agent 파이프라인(GPT-4.1 및 다양한 강력한 LLM)에 크게 의존하므로, 거대한 규모의 고품질 데이터를 지속적으로 생성하기에는 막대한 컴퓨팅 비용과 시간이 소모된다는 실질적인 한계가 있습니다.
  • Future Work:
    • 시간(hour) 단위 이상의 초장기 비디오 컨텍스트에서도 성능 하락을 막을 수 있는 메모리 구조 개선이나 효율적인 컨텍스트 관리 기술과의 결합이 필요합니다.
    • 합성 데이터에 의존하는 것을 넘어, 모델 스스로 inference 단계에서 외부 video segments를 동적으로 검색하고 주입하는 진정한 의미의 실시간 agentic tool use 모델로 확장한다면 현재의 한계를 돌파할 수 있을 것입니다.

Overall Summary

이 논문은 기존 비디오 추론 모델들이 겪는 한계가 '데이터의 질'에 있음을 간파하고, 사람이 영상을 다시 돌려보며 단서를 찾는 과정을 모사한 Multi-Agent 기반 파이프라인을 통해 철저히 비디오 팩트에 기반한 고난이도 데이터셋(ReWatch)을 구축했습니다. 이를 바탕으로, 최종 정답뿐만 아니라 중간 관찰 및 추론 과정의 팩트까지 모두 채점하는 독창적인 O&R Reward 기반 강화 학습(RLVR)을 적용하여 환각 현상을 억제하고 복잡한 시공간적 추론 능력을 극대화한 ReWatch-R1 모델을 개발했습니다. 본 연구는 향후 vision-language model들이 단순 텍스트 사전 지식을 넘어, 실제 시각적 증거에 기반한 진정한 multimodal reasoning으로 나아가기 위해 반드시 필요한 데이터 설계 및 강화학습 패러다임의 새로운 이정표를 제시했다는 점에서 매우 큰 의의가 있습니다.


쉬운 설명

이 논문의 접근 방식은 인공지능에게 복잡한 영상 탐정 수학 문제를 가르치는 과정에 비유할 수 있습니다. 기존 방식은 학생(AI)이 교과서(Video)는 대충 보고 자기가 아는 배경지식(텍스트 꼼수)으로 "정답만 맞추면 통과" 시켜주는 방식이었습니다.

반면 이 논문은, 1) 애초에 배경지식만으로는 절대 찍을 수 없도록 꼬아서 낸 **'킬러 문항 모의고사(ReWatch-QA)'**를 만들고, 2) 정답을 냈더라도 풀이 과정 중에 **"실제로 교과서의 몇 페이지, 몇 초 구간을 찾아봤는지(Observation)", "그 찾아본 증거가 논리적으로 정답과 이어지는지(Reasoning)"**를 깐깐하게 서술형으로 팩트체크하는 **'새로운 채점 방식(O&R Reward)'**을 도입한 것과 같습니다. 그 결과, 눈치와 꼼수로 문제를 풀던 AI가 진정으로 영상을 분석하고 논리적으로 사고하는 최우등생(SOTA)으로 거듭나게 되었습니다.

 

 

더보기

sft 로 먼저 학습떄림
192프레임 제한으로 해서 타임스탬프와 캡션을 뽑게함.

그 후, 비추론으로 또 sft 한번 하고,

rft를 위한 추론도 sft로 학습,
액션, 옵저베이션, 앱서 이렇게 뱉게 한다고 함.

각 loss를 한번에 역전파 시킴. 컨틴뉴얼러닝이 아님

위에서 하는건, 타임 스탬프를 뽑는 연습, 추론 연습 정도


그 후 RFT로 넘어오게 되면
구간을 찾는 척하는 액션과, 관찰된 정보를 기록하게 함.
미리 뽑아둔 캡션과 타임스탬프로 해당 구간을 채점 할 수 있음.

그리고 정답을 내게 되면, 좀 더 그 구간을 보면서 답하지 않을까 기대한다고함.
여기서 끝이 아니고, 사용한 액션과 옵저베이션을 바탕으로 문제를 한번 더 풀게해서. 추가 보상을 줌