AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : Video-o3: Native Interleaved Clue Seeking for Long Video Multi-Hop Reasoning 본문

논문리뷰

VLM : 빠른 논문 리뷰 : Video-o3: Native Interleaved Clue Seeking for Long Video Multi-Hop Reasoning

AI바라기 2026. 5. 6. 11:10

용어 설명

  • Native Interleaved Tool Invocation: 도구(tool) 호출과 추론(reasoning) 과정을 별도의 모듈로 쪼개지 않고, 하나의 MLLM이 공유된 단일 context 내에서 반복적으로 번갈아가며 수행하는 방식.
  • VideoCrop: 이 논문에서 모델이 사용하는 핵심 tool. 긴 비디오 내에서 특정 시간대(temporal segment)와 해상도(visual token quota)를 지정하여 필요한 부분만 고해상도로 잘라내어 관찰함.
  • Task-Decoupled Attention Masking (TDAM): 모델이 SFT 학습 중 '단서 탐색(clue seeking)'과 '답변 생성(answer reasoning)'이라는 이질적인 작업(heterogeneous task)을 동시에 수행할 때 발생하는 주의력 분산 현상을 막기 위해, 각 단계별로 보지 말아야 할 정보에 의도적으로 마스크(mask)를 씌우는 기법.
  • Verifiable Trajectory-Guided Reward (VTGR): RL 과정에서 단순히 최종 정답만 맞혔다고 보상하는 것이 아니라, "단서를 정확한 위치에서 찾았는지(Hybrid Clue Score)"와 "불필요한 턴 낭비 없이 빠르게 탐색을 종료했는지(Turn Decay Factor)" 등 탐색 궤적(trajectory) 전체를 평가하는 보상 함수.
  • Fake Thinking: 모델이 증거(video clip)를 올바르게 찾고 중간 추론도 잘해놓고, 정작 최종 답변은 추론 내용과 모순되는 엉뚱한 결론을 내버리는 환각(hallucination) 현상.

Purpose of the Paper

  • 기존 연구의 한계: 기존의 long video 처리 MLLM들은 전체 영상을 일정한 간격으로 추출(uniform sampling)한 뒤 한 번에 추론(single-turn inference)함. 이는 방대한 잉여 정보 속에 진짜 중요한 단서가 묻히게 만들고, 연산량을 낭비함.
  • Decoupled 방식의 한계: 최근 '탐색 후 답변'을 하는 모델들이 등장했으나, 탐색 모듈과 추론 모듈이 분리(decoupled)되어 있어 context sharing이 안 되고, 사전에 정의된 규칙에만 의존하여 복잡한 multi-hop reasoning에 실패함.
  • 새로운 접근 방식: 인간이 긴 비디오를 볼 때처럼, 전체를 빠르게 훑어보고(coarse-grained scan) 필요한 부분만 집중적으로 확대해서 살펴보는(fine-grained inspection) **자율적이고 반복적인 단서 탐색 능력(exploratory clue-seeking)**을 end-to-end MLLM에 내재화(native)하고자 함.

Key Contributions

  • Native Interleaved Tool Invocation 구조 제안: 별도의 외부 에이전트 없이 하나의 MLLM 모델 내에서 VideoCrop tool을 동적으로 호출하며 multi-turn reasoning을 수행함. 기존 방식과 달리 context를 공유하므로 KV cache를 활용해 연산 효율을 극대화함.
  • Task-Decoupled Attention Masking (TDAM) 도입 (Novelty): Shared context 구조에서 발생하는 attention dispersion과 'Fake Thinking'을 해결. SFT 데이터의 10%에 대해, 탐색 시에는 전체 화면(global overview)만 보도록 강제하고, 답변 시에는 잘라낸 고해상도 화면(local tool observation)만 보게 강제하여 두 작업의 간섭을 차단하는 매우 참신한 SFT 최적화 전략.
  • Verifiable Trajectory-Guided Reward (VTGR) 기반 RL 튜닝 (Novelty): 정답 여부(Correctness)에만 의존하는 일반적인 RL 보상과 다름. 탐색 경로의 품질을 평가하여, 정확한 구간을 탐색하면 가점을 주고(Hybrid Clue Score), 턴을 낭비하면 페널티를 주어(Turn Decay Factor) 모델이 정확하고 신속하게 탐색을 종료(agile termination)하도록 유도함.
  • 대규모 궤적 데이터셋 Seeker-173K 구축: VLM과 LLM 검증기를 결합한 4단계 자동화 파이프라인을 통해 173K 규모의 고품질 tool-interaction trajectory 데이터를 합성함. 기존 정적 VideoQA 데이터셋이 가진 '탐색 과정 데이터 부재' 한계를 돌파.

Experimental Highlights

  • SOTA (State-of-the-art) 달성: Long video understanding 및 multi-hop reasoning 벤치마크에서 기존 open-source 및 decoupled 기반 MLLM 압도.
    • MLVU: 72.1% (가장 높은 경쟁 모델 대비 큰 폭 향상)
    • Video-Holmes: 46.5%
    • LVBench: 47.6%
  • 압도적인 Temporal Grounding 성능: Charades-STA 벤치마크에서 R@0.3 기준 83.3% 달성. 베이스라인 Qwen2.5-VL(76.1%) 및 경쟁 모델 LongVT(41.0%)를 가볍게 누르며, 정확한 단서 위치 탐색 능력을 입증.
  • 효율성(Inference Speed) 검증: MLVU 벤치마크에서 샘플당 추론 시간이 10.2초로, decoupled 방식의 모델들(LOVE-R1 15.2초, VideoChat-R1.5 18.9초) 대비 32.9% ~ 46.0% 추론 속도 단축. (새로 추가된 video segment만 연산하는 KV cache의 힘).
  • 탐색 턴(Turn) 수 증가에 따른 성능 향상: Tool invocation turn 상한을 2, 4, 8로 늘렸을 때 MLVU 및 VideoMMMU 같은 복잡한 벤치마크에서 일관되게 성능이 상승함. 이는 모델이 깊은 multi-hop reasoning을 성공적으로 수행함을 증명.

Limitations and Future Work

  • 한계 1: Context Window 및 Interaction Depth의 제약
    • 문제점: 하드웨어 메모리 한계로 인해 최대 탐색 턴 수를 8회로 엄격히 제한함. full-length movie 분석이나 극도로 복잡한 multi-hop 논리 체인이 필요한 경우, 탐색 중간에 할당량이 고갈되어 강제로 답변해야 하는 문제 발생.
    • Future Work: 틀린 탐색 경로는 가지치기(pruning)하여 가벼운 에러 로그 텍스트로 변환하는 Dynamic context management 전략을 도입하여 한정된 메모리로 더 긴 탐색을 지원할 예정.
  • 한계 2: Tool 확장성(Scalability)의 유연성 부족
    • 문제점: 현재 VideoCrop 도구 하나만 하드코딩되어 정적으로 정의되어 있음. OCR, Audio separation 등 새로운 tool을 추가하려면 수동으로 파서와 프로토콜을 짜야 하는 막대한 엔지니어링 비용이 듦.
    • Future Work: Agent가 안전한 샌드박스 내에서 Python 코드를 직접 합성하고 실행하는 Code-as-Action paradigm으로 전환하여, 유연한 on-the-fly tool usage 능력과 일반화 성능을 확보할 계획.

Overall Summary

이 논문은 방대한 분량의 long video를 처리하기 위해, MLLM 스스로 동적으로 중요 구간을 잘라내어 탐색하고 단서를 결합하는 Native Interleaved Tool Invocation 모델인 Video-o3를 제안합니다. SFT 단계의 Task-Decoupled Attention Masking과 RL 단계의 궤적 기반 보상(VTGR)을 통해 다단계 추론 중 발생하는 주의력 분산과 컨텍스트 낭비 문제를 완벽히 통제하여 여러 벤치마크에서 압도적인 SOTA 성능을 달성했습니다. 이는 단순히 비디오 전체를 한 번에 입력해 답을 구하는 수동적인 패러다임을 넘어, 모델 스스로 시각적 증거를 찾아 움직이는 'Agentic MLLM' 시대를 여는 중요한 기술적 도약입니다.


쉬운 설명

형사가 10시간짜리 사건 현장 CCTV를 분석하는 과정을 상상해 보세요.
기존 AI 모델들은 10시간짜리 영상을 일정 간격으로 캡처한 수천 장의 썸네일 사진을 책상 위에 쫙 깔아놓고 한 번에 눈으로 훑은 뒤 "범인은 A!"라고 직관적으로 찍어맞추는 방식이었습니다. 당연히 작은 디테일이나 복잡한 인과관계는 놓치기 쉽고, 사진이 너무 많아 머리(메모리)가 터질 지경이 됩니다.

반면 이 논문의 Video-o3 모델은 진짜 사람 형사처럼 행동합니다. 일단 영상을 16배속으로 빠르게 전체적인 흐름만 봅니다. 그러다 "어? 저기 노란색 차가 지나가는데?" 싶으면 영상을 일시 정지하고 그 시간대로 돌아가 화면을 줌인(VideoCrop tool)해서 번호판을 확인합니다. 번호판이 안 보이면 다른 시간대의 골목길 CCTV를 다시 뒤져봅니다.

핵심은 모델이 1) "수색할 때"와 "결론을 낼 때"를 헷갈리지 않도록 눈가리개 훈련(TDAM)을 시켰고, 2) 헛다리 짚지 않고 최소한의 클릭만으로 정확한 증거 화면을 찾아내면 큰 보너스를 주는 방식(VTGR)으로 학습시켰다는 것입니다. 그 결과 훨씬 빠르면서도 정확하게 비디오 속 미스터리를 풀어내는 똑똑한 AI가 탄생했습니다.

 

 

 

 

더보기

 

 

초당 2프레임으로 최대 768프레임이 초기 입력

 

간 구간(temporal segment: [시작 초, 끝 초])과 해상도 수준(sampling strategy: coarse, medium, fine 중 택 1)을 직접 텍스트로 출력

 

하는 도구를 사용한다고 함.

 

 

그러면 잘라서 넣어주고 최대 8턴까지 진행한다고 함

 

GRPO 기반 채점에서 그 트래젝토리를 채점하는 VTGR 이라는 방법을 사용

 

위치 정확도를 평가하고, 궤적의 조기종료등 다양하게 평가를 추가 반영

 

 

2.5점 / 5점 

 

뻔함. 구간출력 멀티턴 gpro