AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos 본문
VLM : 빠른 논문 리뷰 : VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos
AI바라기 2026. 5. 6. 11:23
Terminology
- Thinking-with-videos: 모델이 질문에 답하기 위해 스스로 관련 비디오 구간을 식별(Localize)하고, 해당 구간을 잘라내어(Clip) 다시 세밀하게 관찰한 뒤 답하는 에이전틱 패러다임.
- Localize-clip-answer: 비디오 전체를 훑어본 뒤(Skimming), 중요한 구간만 고화질로 크롭하여 정답을 도출하는 일련의 파이프라인.
- Unified Masking Strategy: SFT(Supervised Fine-Tuning) 시, 초기 단계의 부정확한 Grounding 시도는 Masking 처리하고, 최종적으로 성공한 마지막 두 턴(Turn)의 응답에만 Loss를 적용하여 학습 노이즈를 방지하는 전략.
- Penalty-aware IoU Reward: RL(Reinforcement Learning) 과정에서 IoU(Intersection over Union) 점수가 특정 임계값 이하일 경우 페널티를 부여하여, 모델이 아무 곳이나 찍어서 보상을 얻으려는 Reward Hacking을 방지하는 보상 체계.
- Reward Hacking: 모델이 실제로 문제를 해결하는 능력을 기르는 대신, 보상 함수의 허점을 이용해 비정상적으로 높은 점수를 얻으려는 현상.
- On-demand Clipping: 고정된 워크플로우가 아니라, 모델의 필요에 따라 유연하게 비디오 구간을 잘라내고 반복적으로 정밀도를 높이는(Refine) 방식.
Purpose of the Paper
- 기존 한계: 기존의 Long-video understanding 방식은 비디오 전체에서 균일하게 프레임을 추출(Uniform sampling)하므로, 중요한 찰나의 시각적 증거를 놓쳐 성능 저하와 Hallucination이 발생함.
- 기존 Agentic 모델의 문제: 여러 특화된 모델(Grounder, Planner 등)을 조합하여 연산 오버헤드가 크거나, 한 번 크롭하면 바로 답해야 하는 경직된(Rigid) 파이프라인을 가져 반복적인 수정이 불가능함.
- 해결책: 단일 모델 내에서 **Temporal Grounding과 VideoQA를 통합(Harmonize)**하고, 모델 스스로 결과가 만족스러울 때까지 **반복적으로 구간을 수정(Iterative Refinement)**할 수 있는 VideoTemp-o3 프레임워크 제시.
Key Contributions & Novelty
- Unified Agentic Framework (Novelty: Architecture Integration): 별도의 Grounding 모델 없이 단일 MLLM이 직접 도구(Tool call)를 사용하여 비디오를 크롭하고 정답을 도출함.
- Unified Masking Mechanism (Novelty: Noise Reduction): Multi-turn 데이터 학습 시 발생할 수 있는 초기 단계의 부정확한 Grounding 신호를 배제하고, 성공적인 최종 결과물에만 집중하게 함으로써 학습 효율성 극대화.
- Penalty-aware Reward Design (Novelty: Robust RL): IoU 기반 보상 시스템에 페널티 항을 도입하여, 모델이 '무지성 크로핑'을 통해 보상을 챙기려는 행위를 억제하고 정밀한 Localize 능력을 강제함.
- High-quality Data Pipeline: Gemini-2.5-Pro 등을 활용해 복잡한 추론 과정(CoT)이 포함된 고품질 Multi-turn 데이터를 구축하고, 비디오 길이에 따른 체계적 평가를 위한 VideoTemp-Bench 제안.
Experimental Highlights
- State-of-the-Art (SOTA) 달성:
- VideoMME: 64.5% (기본 모델 Qwen2.5-VL-7B의 59.9% 대비 대폭 향상).
- LVBench: 43.0% (GPT-4o의 30.8% 및 Gemini-1.5-Pro의 33.1%를 크게 상회).
- MLVU: 54.2 (기존 최고 수준 모델 대비 우수한 성능 유지).
- Temporal Grounding 성능: Charades-STA에서 mIoU 57.8, ActivityNet-MR에서 45.3을 기록하며 전문 Grounding 모델인 TimeMaker와 대등한 수준의 정밀도 확보.
- Ablation Study 결과: Unified Masking을 제거할 경우 성능이 크게 하락(VideoMMMU 53.2 -> 47.9)함을 증명하여 해당 전략의 유효성 입증.
- Ground Truth (GT) 비교 실험: 모델이 스스로 선택한 구간(Clipped video)을 사용할 때와 사람이 정해준 구간(GT segment)을 사용할 때의 성능 격차가 매우 작아, 모델의 자율적인 증거 수집 능력이 완성 단계임을 보여줌.
Limitations and Future Work
- Fine-grained Perception의 한계: Counting(개수 세기)이나 OCR(텍스트 인식) 작업에서는 여전히 Recognition 작업 대비 약 40% 정도의 성능 격차가 존재함. 이를 위해 더욱 세밀한 Spatial Grounding 도구 도입이 필요함.
- 도구의 다양성 부족: 현재는 Temporal clipping(시간축 자르기)에 집중되어 있음. 향후 외부 검색 엔진이나 더 복잡한 시공간적 도구를 통합하여 복합적인 Task 해결 능력을 확장해야 함.
- 추론 효율성: Multi-turn 도구 호출 방식은 정확도를 높이지만, 여러 번의 Inference가 필요하므로 연산 비용이 증가함. 더 빠른 반복 루프나 효율적인 토큰 압축 기술과의 결합이 과제임.
Overall Summary
VideoTemp-o3는 긴 비디오 이해를 위해 모델이 스스로 중요한 장면을 찾아내고 정밀 분석하는 Thinking-with-videos 패러다임을 단일 모델 구조로 구현한 에이전틱 프레임워크입니다. 학습 시 노이즈를 차단하는 Unified Masking Strategy와 보상 해킹을 방지하는 Penalty-aware RL Reward를 통해, 기존 모델들이 어려워하던 긴 비디오에서의 정밀한 증거 탐색 문제를 해결했습니다. 그 결과 VideoMME, LVBench 등 주요 벤치마크에서 기존 유료 폐쇄형 모델(GPT-4o 등)을 능가하는 성능을 보이며, 오픈 소스 기반 비디오 에이전트 연구의 새로운 기준을 제시했습니다.
쉬운 설명
이 논문은 비디오 문제를 풀 때 **"전체 비디오를 대충 훑어보는 대신, 중요한 부분만 돋보기로 확대해서 반복 확인하고 답을 내는 에이전트"**를 만드는 법에 관한 것입니다. 마치 시험 문제를 풀 때 본문 전체를 한 번에 다 외우려고 하지 않고, 질문에 필요한 문단만 골라낸 뒤 그 문단을 다시 자세히 읽고(Refine) 답을 쓰는 우등생의 전략을 인공지능에게 가르친 것과 같습니다. 특히, 모델이 정답을 맞히기 위해 대충 아무 곳이나 찍는 꼼수를 부리지 못하도록 '오답 페널티'를 강력하게 준 것이 핵심 아이디어입니다.
초당 2프레임으로 최대 512프레임 까지 입력
해상도는 224 x 224
띵킹 하다가 구간 출력하면
구간 다시 넣어줘서 최대 64프레임으로 입력
중간 중간 오류 교정도 하면서
답변 생성
최대 호출 횟수 되거나 중간에 적당할때 앤서 뱉기
2.5점 / 5점
구간 호출 grpo 멀티턴... 뻔함
