AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : VIDEO DETECTIVE: SEEK CRITICAL CLUES RECURRENTLY TO ANSWER QUESTION FROM LONG VIDEOS 본문
VLM : 빠른 논문 리뷰 : VIDEO DETECTIVE: SEEK CRITICAL CLUES RECURRENTLY TO ANSWER QUESTION FROM LONG VIDEOS
AI바라기 2026. 5. 9. 19:49용어 설명
- VideoDetective: 이 논문에서 제안하는 모델 이름. 비디오 전체를 보지 않고 마치 탐정처럼 질문에 관련된 '핵심 단서'만 반복적으로 찾아내는 모델.
- Question-aware memory mechanism: 이 논문의 핵심 기술. 비디오를 단순 압축하는 것이 아니라, "질문(Question)"을 기준으로 필요한 정보만 골라서 압축하고 기억하는 메커니즘.
- Memory tokens (<memory>): 각 비디오 sub-segment의 마지막에 추가되는 학습 가능한 특수 토큰. 비디오의 방대한 visual token 중 질문과 관련된 핵심 의미(semantic)만 빨아들여 압축하는 역할을 함.
- History context: 이전 sub-segment들에서 추출된 memory token들이 누적되어 저장된 정보. LLM의 memory bank에 Key(K), Value(V) 형태로 저장되어 다음 segment 분석 시 활용됨.
- Compression ratio (alpha): 비디오 길이나 정보량에 따라 할당할 memory token의 개수를 동적으로 조절하는 압축 비율 파라미터.
- GLVC (Grounding Long Video Clues): 논문에서 직접 구축하여 공개한 새로운 dataset. 긴 영화 비디오(IMDB Top 250)를 바탕으로, 단순 정답뿐만 아니라 "구체적인 단서"와 "단서가 등장한 timestamp"까지 주석(annotation) 처리하여 모델의 실질적인 긴 영상 이해도를 평가함.
- Visual Needle-In-The-Haystack: 아주 긴 비디오(건초 더미) 속에 무작위로 숨겨진 단 하나의 특정 프레임이나 이미지(바늘)를 모델이 찾아낼 수 있는지 평가하는 방법.
Purpose of the Paper
- 기존 연구의 한계: 최근 MLLMs를 이용한 Long Video Question-Answering (LVQA) 작업 시, visual token의 양이 너무 방대하여 막대한 연산량과 OOM (Out of Memory) 문제를 일으킴. 기존 연구들은 인접한 프레임을 맹목적으로 병합하여 중요 정보를 잃거나(loss of information), context length 자체를 늘려 막대한 GPU 비용을 발생시킴.
- 새로운 접근 방식 제시 (Why & Diff): 인간이 긴 영상을 보며 질문에 답할 때의 "Progressive thinking (영상을 보면서 동시에 질문에 대한 단서를 생각하고 기억하는 과정)"에 착안함. 비디오를 한 번에 전부 입력하는 대신, 짧은 sub-segment로 쪼개고 오직 질문에 답하기 위해 필요한 소량의 결정적 단서(critical clues)만 목적성 있게 탐색하여 기억(memory)하는 방식을 제안함.
Key Contributions
- 효율적인 Question-aware Compression 도입 (참신성):
- 비디오 sub-segment 끝에 <memory> 특수 토큰을 붙이되, 그 바로 앞에 질문(Question) 텍스트를 삽입함.
- 단순히 비디오 정보를 요약하는 기존 연구(예: LLaMA-VID)와 달리, 언어 모델의 causal attention 특성을 이용해 질문과 직결된 정보만을 memory token으로 끌어모으는 '목적성 있는 압축' 을 달성한 점이 매우 참신함.
- Recurrently Seek Critical Clues 구조 제안:
- 각 sub-segment에서 추출된 memory token들을 memory bank에 누적하여 History context로 만듦.
- 다음 segment를 처리할 때 이 History context를 attention 연산(past K, V)에 재사용함.
- 최종 답변을 생성할 때는 무거운 비디오 입력 없이, 누적된 memory token들만 LLM에 입력하여 답변을 도출함. 이를 통해 context 한계(32K)를 가진 모델도 무한에 가까운 비디오를 처리할 수 있게 함.
- 새로운 평가 지표를 위한 GLVC dataset 구축:
- 기존 benchmark들은 모델이 긴 영상을 '진짜 이해했는지' 아니면 '우연히 맞췄는지' 구별하기 어려움.
- 단서가 영상 전체에 흩어져 있고, 추론 이유(reason)와 단서의 정확한 시간대(timestamp mIoU)까지 평가할 수 있는 GLVC dataset을 구축하여, long video 분야의 새로운 평가 패러다임을 제시함.
Experimental Highlights
- 압도적인 Inference Efficiency: 1fps로 샘플링된 1시간 분량의 비디오 (3600 frames, 약 100K visual tokens)를 단 2분의 inference time과 37GB GPU memory만으로 처리하는 데 성공함 (기본 모델인 Qwen2.5-VL-7B의 32K context limit을 완전히 극복).
- SOTA 달성: 파라미터 수가 비슷한 open-source 모델들은 물론 34B, 72B 규모의 거대 모델들을 상대로 Video-MME, MLVU, VideoVista 등 주요 benchmark에서 최고 성능을 달성함.
- Visual Needle-In-The-Haystack 결과: 기본 Qwen2.5-VL은 800 프레임 부근에서 OOM으로 뻗어버리고, 다른 long video 모델(LongVA 등)은 프레임이 길어질수록 성능이 급락함. 반면 VideoDetective는 4000 프레임의 건초 더미 속에서도 OOM 없이 성공적으로 바늘을 찾아내는 강력한 유지력을 그래프로 증명함.
- GLVC dataset 평가: 생성된 추론(reason)의 의미론적 정확도(Score 0.69)와 단서 타임스탬프 예측 정확도(mIoU@5 26.6)에서 기존 비교군(LongVA 등)을 압도함. 이는 단순히 답을 찍는 게 아니라 실제로 단서를 찾고 있음을 증명함.
Limitations and Future Work
- Limitations (언어 정보 처리의 병목 및 압축률 한계):
- LongVideoBench 실험 결과에서 본 모델이 타 모델 대비 성능이 다소 떨어짐. 이유를 분석해보면, 해당 벤치마크는 막대한 양의 자막(subtitles) 등 비디오-언어가 혼합된(interleaved) 입력을 가짐. 30~60초 단위의 sub-segment 내에 '언어 정보(text token)'가 너무 많아지면 해당 segment의 context 자체가 너무 길어져 memory token이 단서를 제대로 찾아 압축하기 어려워짐.
- Ablation 실험에서 Compression ratio(alpha)를 고정시키고 낮출수록(즉, 할당되는 memory token 수를 줄일수록) 필연적으로 정보 손실이 발생하여 성능이 하락함.
- Future Work (한계 극복 및 발전 방향):
- 단순 visual token 압축을 넘어, 막대한 양의 text token(자막, 대본 등)까지 질문 기반으로 동적 압축(dynamic text compression) 하는 방법론으로 확장해야 함.
- 입력되는 영상의 복잡도나 정보 밀도에 따라 sub-segment의 길이나 할당할 memory token의 수를 모델 스스로 완전히 자율적으로 조절(adaptive chunking)하는 연구로 발전된다면 극단적인 효율성을 달성할 수 있을 것임.
Overall Summary
이 논문은 방대한 visual token으로 인해 발생하는 메모리 한계와 연산량 문제를 해결하기 위해, 질문과 관련된 정보만을 선택적으로 누적 기억하는 VideoDetective 모델을 제안했습니다. 비디오를 짧은 segment 단위로 쪼개고 질문(Question)을 프롬프트로 활용해 핵심 단서만 <memory> 토큰에 압축하는 recurrent 구조를 도입하여, 32K context 제한을 가진 7B 모델로 1시간 길이(100K token)의 영상을 단 2분 만에 처리하는 혁신적인 효율성을 증명했습니다. 단순한 정답률을 넘어 단서의 위치(timestamp)까지 묻는 새로운 GLVC dataset을 함께 제안함으로써, 향후 Long Video Understanding 분야가 단순 모델 크기 경쟁을 넘어 '효율적이고 실질적인 맥락 파악 아키텍처'로 나아가야 할 방향성을 훌륭하게 제시한 논문입니다.
쉬운 설명
형사(모델)가 100시간짜리 CCTV 영상을 모두 돌려봐야 하는 상황입니다. 보통의 AI들은 100시간치 영상을 한 번에 머릿속에 다 집어넣으려다가 뇌 과부하(Out of Memory)로 쓰러집니다. 다른 AI들은 100시간 영상을 대충 1시간으로 빨리 감기해서 압축하다가 중요한 장면을 놓칩니다.
하지만 이 논문의 VideoDetective는 다릅니다. CCTV를 틀기 전에 "범인이 빨간 모자를 썼는가?"라는 질문(Question)을 먼저 머릿속에 세팅합니다. 그리고 1분씩 영상을 끊어보면서 빨간 모자와 상관없는 장면은 즉시 머릿속에서 지우고, "오전 10시에 빨간 모자 지나감" 같은 결정적 단서만 수첩(Memory token)에 짧게 적습니다(History context).
영상이 다 끝나면 무거운 CCTV 화면은 아예 꺼버리고, 오직 자신의 수첩에 적힌 단서 몇 줄만 읽고 정답을 맞힙니다. 이 방식 덕분에 뇌(GPU Memory)를 거의 쓰지 않으면서도 아무리 긴 영상 속의 정답도 빠르고 정확하게 찾아낼 수 있는 것입니다.
비디오를 일정 구간 마다 나눔, 그리고 압축률에 따른 메모리 토큰 준비
비디오 토큰 + 질문 + 메모리 토큰
쭉 처리해서 메모리 토큰만 쏙 빼서 메모리 뱅크에 넣음
쭉쭉 처리 하면서 중간중간 메모리 뱅크는 계속 사용함.
그리고 시각 토큰은 쓰지 않고 메모리 뱅크만 사용헤서 qa
요약
비디오를 쪼갠다
각 구간마다 **[질문]**을 필터로 삼아 **[메모리 토큰]**이 **[비디오]**의 알맹이만 Query해낸다
비디오는 버리고 메모리 토큰만 **[K, V]**로 누적한다
다음 구간 연산 시 이전 K, V를 연결한다
영상이 끝나면 **[누적된 메모리 토큰]**만 보고 정답을 낸다.
3점 ./ 5점
괜챃음. 쏘쏘
