AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : VIDEO-IN-THE-LOOP: SPAN-GROUNDED LONG VIDEO QA WITH INTERLEAVED REASONING 본문
VLM : 빠른 논문 리뷰 : VIDEO-IN-THE-LOOP: SPAN-GROUNDED LONG VIDEO QA WITH INTERLEAVED REASONING
AI바라기 2026. 5. 8. 10:27
용어 설명
- ViTL (Video-in-the-Loop): 전체 비디오를 훑어본 후 핵심 구간만 집중해서 분석하는 파이프라인. (본 논문이 제안한 핵심 프레임워크)
- Skim & Zoom: 전체 비디오를 low-fps로 빠르게 훑어보고(Skim), 정답의 단서가 되는 예측된 span만 높은 해상도/fps로 자세히 들여다보는(Zoom) 전략.
- VGrounding-QA: Event knowledge graph를 기반으로 구축된 새로운 학습 dataset. 질문(Question), 정답(Answer)과 함께 해당 정답의 근거가 되는 비디오 내 ground-truth temporal span이 짝지어져 있음.
- Interleaved GRPO (Group-Relative Policy Optimization): 모델이 출력한 '예측 구간(span)'과 '최종 정답(answer)'을 하나의 sequence로 묶어 평가하는 RL 기법. 구간을 잘 찾은 것(IoU)과 정답을 맞힌 것(correctness)을 결합해 보상을 줌.
- Event Knowledge Graph: 비디오 내의 object, event 및 이들의 시간적/논리적 관계를 구조화한 그래프 데이터. 복잡한 long-video 질문을 생성하고 정확한 temporal segment를 파악하기 위해 사용됨.
- Textual Timestamp Injection: 각 프레임의 이미지 토큰 뒤에 <image> @ 1.5s 와 같이 텍스트 형태의 절대 시간(absolute time)을 강제로 주입하여 모델의 temporal reference 능력을 극대화하는 기법.
- Token Budget / Frame Budget: 모델이 한 번에 처리할 수 있는 최대 토큰 또는 프레임 수의 한계 (연산량의 기준).
Purpose of the Paper
- 기존 연구의 한계 극복: 기존 Long-video QA 모델들은 제한된 token/frame budget 하에서 전체 비디오를 균일하게 샘플링(uniform sampling)함. 이로 인해 정답이 담긴 '찰나의 순간'을 놓치고 쓸데없는 배경(background dilution)에 연산력을 낭비함. 또한, temporal grounding(구간 찾기)과 answering(답변하기)이 분리되어 학습되어, 구간을 잘 찾더라도 이것이 실제 정답률 향상으로 이어지지 않는 문제(credit assignment 부족)가 있었음.
- 새로운 문제 정의 및 접근 방식: 모델이 질문에 답하기 위해 비디오 전체를 동일하게 보는 대신, 한정된 token budget을 증거가 되는 특정 구간에 재할당(reallocate) 하는 '선택과 집중'의 문제로 재정의함. 이를 위해 구간 예측과 정답 도출을 하나의 파이프라인으로 연결하고, 두 가지를 동시에 최적화하는 새로운 RL 기반 프레임워크(ViTL)를 제안함.
Key Contributions
- ViTL (Video-in-the-Loop) 파이프라인 도입
- Stage 1(Ground)에서 global low-fps sweep으로 증거 구간을 찾고, Stage 2(Answer)에서 해당 구간만 higher fps로 zoom-in하여 정답을 도출하는 Two-stage 구조 설계.
- Novelty: 단순 필터링이 아니라, 고정된 연산량(fixed budget) 내에서 시각적 토큰을 증거 구간으로 '재할당'하여 효율성과 정확도를 동시에 잡음.
- VGrounding-QA Dataset 구축
- Event knowledge graph를 활용하여 각 질문에 대해 완벽하게 매칭되는 ground-truth temporal span과 reasoning 과정이 포함된 QA dataset 생성. (동일 비디오 내 다른 event를 distractor 옵션으로 사용해 난이도 조절)
- Novelty: 기존 dataset들이 span과 QA를 분리하여 제공했던 것과 달리, QA 학습 시 명확한 'where to look' (어디를 봐야 하는지)에 대한 명시적인 지도(supervision)를 가능하게 함.
- Interleaved GRPO를 통한 Reward Coupling
- 모델의 결과물(span + answer)에 대해 Temporal IoU(구간의 정확도)와 Answer Correctness(정답 여부)를 결합한 Composite reward를 부여하는 RL 학습법 도입.
- Novelty: 정답을 맞혔을 때 발생하는 긍정적인 보상(credit)이, 그 정답을 찾기 위해 '구간을 잘 골라낸 행동(localization)'으로 역전파(flow back) 되도록 설계하여 grounding과 QA의 시너지를 강제함.
- Textual Timestamp Injection 적용
- 프레임 레벨에서 절대 시간을 텍스트 토큰으로 명시적으로 주입.
- Novelty: 복잡한 시간적 선후 관계나 여러 번 등장하는 행동에 대한 temporal ambiguity를 줄여 모델의 reasoning 능력을 크게 향상시킴.
Experimental Highlights
- 가장 중요한 결과 (SOTA 달성): LongVideoBench, LVBench, MLVU (Long-video QA) 및 Charades-STA, ActivityNet-Captions (Temporal Grounding) 등 주요 벤치마크에서 기존 vision-language models 대비 SOTA 또는 최상위권 성능 달성.
- 압도적인 연산 효율성 증명: LVBench 등의 데이터셋에서 50% 적은 frame input(연산량 절반)으로도 최대 8.6%의 성능 향상을 기록함. 전체 비디오를 uniform sampling 하는 것보다 예측된 구간에 token을 집중시키는 방식이 절대적으로 우월함을 증명.
- 핵심 Ablation Study (Timestamp의 위력): Textual timestamp injection 유무를 비교한 실험에서, 타임스탬프가 있을 때 성능이 크게 상승함. 심지어 구간을 자르지 않고(no crop) 전체 비디오를 볼 때도 타임스탬프가 있으면 temporal utilization이 개선됨을 확인.
- 설정 (Setup): Qwen2.5-VL (3B, 7B) 백본 사용, 베이스라인 모델들과 token/FLOPs budget을 엄격하게 동일하게 맞춘(matched compute budgets) 공정한 환경에서 평가 진행.
Limitations and Future Work
- Limitations:
- Upstream graph noise: 학습 데이터를 만들기 위해 사용한 Event knowledge graph 자체가 VLM/LLM에 의해 생성되므로, 초기 분석 단계에서의 에러나 노이즈가 데이터셋에 포함될 수 있음.
- MCQA format의 한계: 복잡한 open-ended reasoning을 다루기에는 객관식(multiple-choice) 포맷이 너무 단순함.
- RL variance: PPO/GRPO 기반의 강화학습 특성상 학습 안정성을 유지하고 분산을 통제하는 것이 까다로움.
- Future Work:
- Streaming ViTL: 현재의 오프라인 방식(전체 훑기 -> 줌)을 넘어, 실시간으로 들어오는 비디오 스트림에서 온라인으로 skim->zoom을 수행하는 에이전트 개발 필요. (더 긴 길이의 실시간 감시/분석 영역으로 확장 가능)
- Multi-hop reasoning & Entity tracks: 단일 event를 넘나들며 여러 비디오에 걸친 복합 추론을 수행하고, 시간뿐만 아니라 화면 내 위치(space-time)까지 추적하는 space-time grounding으로의 발전.
- Joint metrics 도입: 단순히 정답을 맞힌 것뿐만 아니라, 답변의 질(answer quality), 근거 구간의 신뢰성(span faithfulness), 그리고 연산 효율성(compute)을 통합적으로 채점하는 새로운 평가 지표 개발이 필요함.
Overall Summary
이 논문은 Long-video QA 문제를 '제한된 token budget을 증거 구간에 효율적으로 재할당하는 과정'으로 새롭게 해석하여, 전체를 가볍게 훑고 핵심 구간만 집중 분석하는 ViTL 프레임워크를 제안했습니다. 이를 위해 구간(span)과 정답(answer)이 짝지어진 새로운 VGrounding-QA 데이터셋을 구축하고, 정답을 맞히면 구간을 찾아낸 과정까지 칭찬(보상)해주는 Interleaved GRPO 학습법을 도입했습니다. 결과적으로 기존 모델들과 동일하거나 더 적은 연산량(frame budget)으로도 압도적인 정답률과 정확한 temporal grounding 성능을 달성하여, 향후 효율적이고 해석 가능한(interpretable) long-video AI 에이전트 설계에 중요한 이정표를 제시했습니다.
쉬운 설명
이 논문의 아이디어는 "두꺼운 전공 서적으로 오픈북 시험을 치루는 전략" 과 같습니다.
기존의 AI들은 시험 문제를 풀 때 책의 첫 페이지부터 끝 페이지까지 대충 똑같은 속도로 훑어보고(Uniform sampling) 정답을 찍으려다 보니, 진짜 정답이 숨어있는 핵심 문장을 자주 놓쳤습니다.
하지만 이 논문이 제안한 AI(ViTL)는 우선 책의 목차와 제목을 아주 빠르게 훑어보며 시험에 나올 만한 '특정 챕터'를 먼저 찾아냅니다 (Stage 1: Skim). 그런 다음 딴 데는 보지 않고 오직 그 챕터에만 돋보기를 들이대고 아주 꼼꼼하게 정독하여 정답을 찾아냅니다 (Stage 2: Zoom).
더욱 놀라운 점은, 채점을 할 때 단순히 정답만 맞혔다고 칭찬하는 게 아니라 "핵심 챕터를 정확히 골라낸 눈썰미" 까지 묶어서 칭찬(Reward)해 주었기 때문에, AI가 스스로 어디를 봐야 할지 알아내는 능력이 획기적으로 좋아졌다는 것입니다. 제한된 집중력(Token Budget)을 가장 중요한 곳에 몰아 쓰는 똑똑한 방법을 가르친 셈입니다.
질문 - > 쿼리 생성
쿼리를 바탕으로 64개의 프레임을 보고 , 구간 선택 (구간은 여러개 선택할 수 있음)
구간을 vram에 맞게 촘촘하게 보고 정답 답변생성
특수 데이터셋 만들고 grpo 로 학습했다고 함
3점 / 5점
다만 약간 올드 할 수 있어 보임
