AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : LongVT: Incentivizing “Thinking with Long Videos” via Native Tool Calling 본문
VLM : 빠른 논문 리뷰 : LongVT: Incentivizing “Thinking with Long Videos” via Native Tool Calling
AI바라기 2026. 5. 6. 10:32LongVT: Incentivizing “Thinking with Long Videos” via Native Tool Calling 핵심 요약 노트
용어 설명
- LongVT: 본 논문에서 제안하는 long video reasoning을 위한 end-to-end agentic framework.
- iMCoTT (Interleaved Multimodal Chain-of-Tool-Thought): 모델이 전체 영상을 훑어보고(global skim), 가설을 세운 뒤, 필요한 구간만 다시 잘라와서(tool calling) 확인하는 과정을 반복하는 multimodal 추론 방식.
- crop_video(start_time, end_time): 모델이 특정 시간대의 영상을 더 세밀한 프레임으로 다시 샘플링하기 위해 스스로 호출하는 native tool.
- VideoSIAH / VideoSIAH-Eval: 본 연구에서 구축한 "Video Segment-In-A-Haystack" 데이터셋. 수 시간짜리 영상 속에서 아주 짧고 결정적인 증거를 찾아야만 답할 수 있는 fine-grained open-ended QA 데이터셋.
- Joint answer-temporal grounding reward: RL 학습 시 사용하는 보상 함수. 단순한 정답 여부뿐만 아니라, 증거가 있는 정확한 시간 구간을 찾았는지(Temporal IoU)를 결합하여 평가함.
- Agentic RFT (Reinforcement Fine-Tuning): RL 과정에서 생성된 고품질의 성공적인 추론 궤적(trajectories)을 모아 다시 supervised learning 방식으로 학습시켜 모델의 행동을 안정화하는 단계.
Purpose of the Paper
- 기존 연구의 한계점:
- 기존 LMMs의 text-only CoT는 긴 영상에서 증거가 희소할 때 시각적 확인 없이 텍스트만 그럴듯하게 지어내는 hallucination에 매우 취약함.
- 기존 long-video benchmarks는 대부분 multiple-choice QA로 구성되어 있어, 모델이 영상을 보지 않고도 언어적 편향이나 데이터 유출(dataset leakage)을 통해 정답을 맞히는 shortcut exploitation 문제가 심각함.
- 새로운 접근 방식 (Why this research?):
- 사람이 긴 영상을 볼 때 사용하는 "대충 훑어보기(global skimming) -> 의심 가는 구간 자세히 보기(local inspection) -> 틀렸으면 다른 구간 다시 찾기(self-correction)"라는 인지 과정을 LMM에 이식하고자 함.
- 수동적인 프레임 소비(passive frame consumption)에서 벗어나, 모델 스스로 필요한 영상 구간을 탐색하고 증거를 수집하는 “Thinking with Long Videos” 패러다임을 제안함.
Key Contributions
- Agentic Framework (LongVT) 도입: 외부 expert model이나 retriever 없이, LMM 자체의 temporal grounding 능력을 활용해 crop_video tool을 호출하고 추론을 이어가는 end-to-end 프레임워크 구축 (iMCoTT 도입).
- VideoSIAH Data Suite 구축 (Novelty):
- 기존의 단순한 질문형 데이터와 달리, 증거가 매우 짧은 구간에 숨어있는 segment-in-a-haystack 환경의 데이터셋 생성.
- 특히 평가셋(VideoSIAH-Eval)을 100% open-ended QA로 구성하여, 기존 multiple-choice 벤치마크들의 고질적인 option hacking 및 memorization 문제를 원천 차단함.
- 3-Stage Training Pipeline 설계 (Novelty):
- Cold-Start SFT: base LMM에 tool 사용법, 시간 구간 제안, 증거 기반 추론의 기초를 가르침 (RL을 위한 필수 사전 작업).
- Agentic RL (GRPO): 모델이 '언제, 얼마나 길게 영상을 자르고, 어떻게 증거를 통합할지' 스스로 결정하도록 학습. 특히 Recall 대신 IoU를 기반으로 한 temporal grounding reward를 사용하여 불필요하게 넓은 구간을 자르는 꼼수(span inflation)를 방지함.
- Agentic RFT: RL에서 얻은 고품질 rollout traces를 재증류(self-distillation)하여, 복잡한 multi-step reasoning과 tool 사용 패턴을 더욱 견고하게 안정화시킴.
Experimental Highlights
- SOTA 성능 달성: VideoMME, VideoMMMU, LVBench 및 자체 구축한 VideoSIAH-Eval 등 4개의 벤치마크에서 기존 open-source video-centric LMMs (Video-R1-7B 등)을 뛰어넘는 SOTA 달성.
- Proprietary Models 와의 격차 축소: 가장 까다로운 VideoSIAH-Eval에서 42.0점을 기록하며 2위 오픈소스 모델을 6점 차이로 압도했으며, 평균적으로 GPT-4o와의 격차를 4점 이내로 좁힘.
- 역설적인 Inference Efficiency 향상: Multi-turn으로 tool을 여러 번 호출함에도 불구하고, VideoMMMU 등에서 가장 짧은 inference latency (1329.8 sec) 기록. 불확실한 기억에 의존해 길고 장황하게 헛소리(hallucination)를 늘어놓는 기존 모델과 달리, 정확한 증거 프레임을 확보한 뒤 간결하게 답변을 생성하기 때문임.
- Data Contamination 검증 성공: Qwen-VL 시리즈가 영상 입력 없이(No Visual) 텍스트만으로 기존 벤치마크에서 높은 점수(예: 40.1%)를 얻는 현상을 증명하며, VideoSIAH-Eval과 같은 시각적 증거 기반 open-ended 벤치마크의 필수성을 입증함.
Limitations and Future Work
- 한계점 (Context Window Overflow): LongVT는 single-agent 구조이기 때문에, 끝없이 긴 영상이나 무한 스트리밍 환경에서 여러 번 crop_video를 호출할 경우, 누적되는 dense visual features와 history tokens로 인해 LMM의 context window가 빠르게 고갈됨 (Out-of-Memory 유발).
- Future Work (Multi-Agent Collaboration): 이 한계를 극복하기 위해 역할을 분담하는 계층적 구조(hierarchical framework) 제안.
- Manager Agent: 전체적인 계획과 task 분배 담당.
- Worker Agents: 지시받은 특정 시간대의 영상을 확인하고 tool을 실행한 뒤, 그 결과를 '간결한 텍스트 요약본'으로 Manager에게 전달.
- 이를 통해 visual token의 무한 누적을 막고, 무한한 시간의 추론 루프(infinite-horizon reasoning loops)를 지원할 수 있는 확장 가능한 구조로 발전시킬 계획.
Overall Summary
LongVT는 LMM이 마치 사람처럼 긴 영상의 전체 흐름을 파악한 뒤, 필요한 세부 구간을 스스로 잘라내어(crop_video tool) 다시 확인하는 능동적 추론 프레임워크입니다. 이를 구현하기 위해 고난도의 Segment-In-A-Haystack 데이터셋인 VideoSIAH를 구축하였고, SFT-RL-RFT로 이어지는 3단계 학습 파이프라인과 조율된 Reward 구조를 통해 모델의 탐색 및 자가 교정(self-correction) 능력을 극대화했습니다. 결과적으로 기존 모델들의 심각한 환각(hallucination)과 데이터 암기 문제를 해결하며, 오픈소스 비디오 LMM 분야에서 GPT-4o에 근접하는 SOTA 성능과 놀라운 추론 효율성을 동시에 달성한 기념비적인 연구입니다.
쉬운 설명
이 논문의 아이디어는 **"2시간짜리 축구 경기를 볼 때의 사람의 행동"**과 같습니다. 기존 AI들은 질문을 받으면 2시간짜리 영상을 한 번 쭉 스캔한 기억력에만 의존해서 "음, 아마 메시가 오른발로 골을 넣었을걸?" 하고 자신 있게 거짓말(hallucination)을 치는 경우가 많았습니다.
하지만 LongVT 모델은 다릅니다. 이 모델은 전체를 대충 훑어본 뒤 "골 장면은 대략 1시간 10분쯤인 것 같은데, 정확히 무슨 발인지 안 보이네? 내가 직접 1시간 10분부터 11분 사이의 영상을 고화질로 다시 잘라와서(tool calling) 자세히 볼게"라고 스스로 판단합니다. 영상을 다시 확인한 모델은 "아, 내가 틀렸네. 다시 보니까 왼발이네"라고 스스로 교정(self-correction)하고 정확한 정답을 말합니다. 무작정 정답을 찍어내는 것이 아니라, 스스로 증거 영상을 찾아서 팩트 체크를 한 뒤에만 입을 여는 '신중하고 능동적인 AI'를 만드는 기술입니다.
처음에 64개의 프레임만 쓴다고 함,.
필요하면 더 볼 부분의 타임을 뱉게 하고
거길 보여줌 다음 턴에 근데 수정도 가능, 여기 말고 더 앞인지 뒤인지 등등 계속 수정하며 5번까지 턴을 진행한다고 하고
그 이후에 답변 선택
콜드 스타드 -> RL(GRPO)....
뻔한방법과 뻔한학습
2.5점 / 5점
