VLM : 빠른 논문 리뷰 : ReWatch-R1: Boosting Complex Video Reasoning in Large Vision-Language Models through Agentic Data Synthesis

Notice

Recent Posts

Recent Comments

Link

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : ReWatch-R1: Boosting Complex Video Reasoning in Large Vision-Language Models through Agentic Data Synthesis 본문

논문리뷰

VLM : 빠른 논문 리뷰 : ReWatch-R1: Boosting Complex Video Reasoning in Large Vision-Language Models through Agentic Data Synthesis

AI바라기 2026. 6. 5. 14:40

용어 설명

RLVR (Reinforcement Learning with Verifiable Reward): 최종 정답이 맞는지 검증 가능한 보상을 통해 모델을 강화 학습시키는 방법입니다.
CoT (Chain-of-Thought): 최종 답을 도출하기 위해 모델이 전개하는 단계별 중간 추론 과정을 의미합니다.
Agentic Data Synthesis: LLM 기반의 Agent(이 논문에서는 Reasoner와 Observer)들이 서로 상호작용하며 자율적으로 훈련 데이터를 생성해내는 파이프라인입니다.
Contrastive Prompting: 요약된 설명(summary)만으로는 풀 수 없고, 세부적인 상세 설명(detailed caption)이 있어야만 풀 수 있는 고난이도 질문을 생성하기 위해 두 텍스트를 대조하여 QA를 추출하는 기법입니다.
O&R Reward (Observation & Reasoning Reward): 단순히 최종 정답의 일치 여부만 보는 것이 아니라, CoT 과정 내의 '관찰(observation)'이 실제 비디오 내용과 일치하는지, 그리고 그 '추론(reasoning)'이 정답 도출에 충분한지를 동시에 팩트체크하여 보상을 주는 이 논문의 고유한 채점 방식입니다.
Long Video Tax: 입력되는 비디오의 길이가 길어질수록, 정보의 과부하로 인해 모델의 추론 성능이 지속적으로 하락하는 현상을 의미합니다.

Purpose of the Paper

기존 연구의 한계: 최근 vision-language model 학습에 SFT와 RLVR 패러다임이 이미지 분야에서는 큰 성공을 거두었으나, 복잡한 비디오 추론(complex video reasoning)에는 실패하고 있습니다. 논문은 그 근본 원인을 **'데이터 병목(data bottleneck)'**으로 지적합니다. 기존 오픈소스 데이터셋은 타임스탬프가 없는 뭉뚱그려진 캡션을 제공하고, 단순 시각적 인지만을 묻는 쉬운 QA로 구성되어 있으며, 비디오 단서 없이 LLM의 사전 지식에만 의존하는 가짜(visually unfaithful) CoT를 생성하여 RLVR을 위한 제대로 된 보상 신호를 주지 못했습니다.
새로운 접근 방식: 진정한 multi-hop 비디오 추론을 모델에 학습시키기 위해, 텍스트 꼼수가 통하지 않는 철저한 비디오 기반(video-grounded) 합성 데이터셋인 ReWatch를 구축하고, 모델이 정답뿐만 아니라 '관찰 과정'의 팩트까지 검증받도록 하는 새로운 보상 함수를 도입하여 기존의 환각(hallucination) 문제를 극복하고자 했습니다.

Key Contributions & Novelty

ReWatch 데이터셋 구축 파이프라인 제시
- Novelty: 단순 캡셔닝이 아닌 사람의 "다시 보기(re-watching)" 과정을 모사했습니다. Multi-Agent (Reasoner Agent와 Observer Agent) 프레임워크를 도입하여, 모델이 스스로 비디오의 특정 구간을 검색(retrieval)하고 팩트를 확인(verification)하는 행동(action)이 명시적으로 기록된 비디오 기반 CoT(ReWatch-CoT)를 합성해낸 점이 가장 독창적입니다.
텍스트 편향을 제거한 고난이도 QA 쌍 (ReWatch-QA) 생성
- Novelty: LLM이 영상을 보지 않고 텍스트 사전 지식만으로 정답을 유추하는 것을 막기 위해, Contrastive Prompting 기술과 3단계 필터링(답변 검증, 텍스트 편향 제거, 요약본 편향 제거)을 거쳐 오직 "영상의 세부 타임라인을 이해해야만" 풀 수 있는 순도 높은 질문 17만 개를 생성했습니다.
O&R (Observation & Reasoning) Reward 메커니즘 도입
- Novelty: 기존 RLVR이 최종 정답(Final Answer)만 맞으면 보상을 주어 논리적 비약을 방치했던 반면, O&R Reward는 모델이 출력한 중간 관찰 결과가 실제 비디오 캡션과 팩트가 맞는지(robs), 그리고 그 관찰들을 바탕으로 도출해낸 추론이 정답으로 이어지기에 충분한지(rrea)를 모두 채점하여 환각 현상에 직접적인 페널티를 부여합니다.

Experimental Highlights

압도적인 SOTA 성능 달성: VCR Bench, MINERVA, Video Holmes 등 5개의 고난이도 video reasoning benchmarks에서 동급 파라미터(192 프레임 기준)의 SOTA 모델들(Qwen2.5-VL-7B, GLM4.1V-9B, Video-R1 등)을 모두 제치고 **평균 35.51%**라는 최고 성능을 달성했습니다 (타 최고 모델 대비 약 4%p 이상 격차).
SFT와 RL의 시너지 입증: 본 논문의 고품질 데이터로 SFT만 수행한 모델(33.25%)이 이미 경쟁 모델의 최종 RL 버전을 상회했습니다. SFT가 추론의 '형식'을 가르쳤다면, 이어지는 RL 단계는 '효율성과 논리성'을 가르쳐(불필요한 action 수는 줄어들고 정답률은 상승하는 진화 과정 확인), 고품질 데이터와 RL의 결합이 필수적임을 증명했습니다.
강력한 Video Dependency 검증: 기존 Video-R1 데이터셋은 비디오 없이 텍스트만 주어져도 정답률이 68.9%에 달했으나, ReWatch 데이터셋은 텍스트만 주어졌을 때 정답률이 29.4%(단순 찍기 확률인 25%에 근접)에 불과했습니다. 이는 제안한 필터링 방식이 꼼수(shortcut)를 완벽히 차단했음을 수치로 입증한 핵심 결과입니다.
Long Video Tax 방어: 비디오가 20분 이상으로 길어지는 구간에서도 타 모델 대비 성능 하락폭이 현저히 적어, 확장된 시간적 맥락을 파악하는 데 우수한 강건성을 보였습니다.

Limitations and Future Work

Limitations:
- 비디오 길이가 길어질수록 여전히 절대적인 추론 성능 수치가 하락하는 "Long Video Tax" 현상을 완전히 피하지는 못했습니다. 긴 비디오의 과도한 컨텍스트 병목 현상은 여전히 vision-language models의 근본적 한계입니다.
- 데이터셋 합성을 위해 Multi-Agent 파이프라인(GPT-4.1 및 다양한 강력한 LLM)에 크게 의존하므로, 거대한 규모의 고품질 데이터를 지속적으로 생성하기에는 막대한 컴퓨팅 비용과 시간이 소모된다는 실질적인 한계가 있습니다.
Future Work:
- 시간(hour) 단위 이상의 초장기 비디오 컨텍스트에서도 성능 하락을 막을 수 있는 메모리 구조 개선이나 효율적인 컨텍스트 관리 기술과의 결합이 필요합니다.
- 합성 데이터에 의존하는 것을 넘어, 모델 스스로 inference 단계에서 외부 video segments를 동적으로 검색하고 주입하는 진정한 의미의 실시간 agentic tool use 모델로 확장한다면 현재의 한계를 돌파할 수 있을 것입니다.

Overall Summary

이 논문은 기존 비디오 추론 모델들이 겪는 한계가 '데이터의 질'에 있음을 간파하고, 사람이 영상을 다시 돌려보며 단서를 찾는 과정을 모사한 Multi-Agent 기반 파이프라인을 통해 철저히 비디오 팩트에 기반한 고난이도 데이터셋(ReWatch)을 구축했습니다. 이를 바탕으로, 최종 정답뿐만 아니라 중간 관찰 및 추론 과정의 팩트까지 모두 채점하는 독창적인 O&R Reward 기반 강화 학습(RLVR)을 적용하여 환각 현상을 억제하고 복잡한 시공간적 추론 능력을 극대화한 ReWatch-R1 모델을 개발했습니다. 본 연구는 향후 vision-language model들이 단순 텍스트 사전 지식을 넘어, 실제 시각적 증거에 기반한 진정한 multimodal reasoning으로 나아가기 위해 반드시 필요한 데이터 설계 및 강화학습 패러다임의 새로운 이정표를 제시했다는 점에서 매우 큰 의의가 있습니다.

쉬운 설명

이 논문의 접근 방식은 인공지능에게 복잡한 영상 탐정 수학 문제를 가르치는 과정에 비유할 수 있습니다. 기존 방식은 학생(AI)이 교과서(Video)는 대충 보고 자기가 아는 배경지식(텍스트 꼼수)으로 "정답만 맞추면 통과" 시켜주는 방식이었습니다.

반면 이 논문은, 1) 애초에 배경지식만으로는 절대 찍을 수 없도록 꼬아서 낸 **'킬러 문항 모의고사(ReWatch-QA)'**를 만들고, 2) 정답을 냈더라도 풀이 과정 중에 **"실제로 교과서의 몇 페이지, 몇 초 구간을 찾아봤는지(Observation)", "그 찾아본 증거가 논리적으로 정답과 이어지는지(Reasoning)"**를 깐깐하게 서술형으로 팩트체크하는 **'새로운 채점 방식(O&R Reward)'**을 도입한 것과 같습니다. 그 결과, 눈치와 꼼수로 문제를 풀던 AI가 진정으로 영상을 분석하고 논리적으로 사고하는 최우등생(SOTA)으로 거듭나게 되었습니다.

sft 로 먼저 학습떄림
192프레임 제한으로 해서 타임스탬프와 캡션을 뽑게함.

그 후, 비추론으로 또 sft 한번 하고,

rft를 위한 추론도 sft로 학습,
액션, 옵저베이션, 앱서 이렇게 뱉게 한다고 함.

각 loss를 한번에 역전파 시킴. 컨틴뉴얼러닝이 아님

위에서 하는건, 타임 스탬프를 뽑는 연습, 추론 연습 정도

그 후 RFT로 넘어오게 되면
구간을 찾는 척하는 액션과, 관찰된 정보를 기록하게 함.
미리 뽑아둔 캡션과 타임스탬프로 해당 구간을 채점 할 수 있음.

그리고 정답을 내게 되면, 좀 더 그 구간을 보면서 답하지 않을까 기대한다고함.
여기서 끝이 아니고, 사용한 액션과 옵저베이션을 바탕으로 문제를 한번 더 풀게해서. 추가 보상을 줌

'논문리뷰' 카테고리의 다른 글

Diffusion : 빠른 논문 리뷰 : Mean Flows for One-step Generative Modeling (0)	2026.05.29
VLM : 빠른 논문 리뷰 : Think, Then Verify: A Hypothesis–Verification Multi-Agent Framework for Long Video Understanding (0)	2026.05.26
VLM : 빠른 논문 리뷰 : Event-Causal RAG: A Retrieval-Augmented Generation Framework for Long Video Reasoning in Complex Scenarios (0)	2026.05.26
VLM : 빠른 논문 리뷰 : Scaling the Long Video Understanding of Multimodal Large Language Models via Visual Memory Mechanism (0)	2026.05.25
VLM : 빠른 논문 리뷰 : PyraVid: Hierarchical Multimodal Memory for Long-Horizon Video (0)	2026.05.25

'논문리뷰' Related Articles

AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : ReWatch-R1: Boosting Complex Video Reasoning in Large Vision-Language Models through Agentic Data Synthesis 본문

VLM : 빠른 논문 리뷰 : ReWatch-R1: Boosting Complex Video Reasoning in Large Vision-Language Models through Agentic Data Synthesis

'논문리뷰' 카테고리의 다른 글

티스토리툴바