목록2026/05/11 (2)
AI바라기의 인공지능
용어 설명Streaming Video Understanding: 영상 전체를 미리 받고 분석하는 Offline 환경과 달리, 실시간으로 끊임없이 들어오는 프레임을 처리하고 진화하는 시각 정보에 즉각적으로 반응해야 하는 고난도 task.StreamAgent: 이 논문에서 제안하는 핵심 framework. 미래의 이벤트를 예측(anticipation)하고, 능동적으로 필요한 정보를 찾아 나서는 에이전트.Proactive Anticipation: 단순히 현재 프레임을 수동적으로 관찰하는 것을 넘어, Reactive(즉각적 반응), Proactive(가까운 미래 예측), Speculative(먼 미래 탐색) 3가지 시간적 관점에서 시공간적 변화를 미리 예측하고 계획(planning)을 세우는 능력.Tool-Au..
[Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination] 학습 노트용어 설명Visual Rumination (시각적 되새김질): 이 논문의 핵심 아이디어. 인간이 영상을 볼 때 일시 정지하고, 특정 영역을 확대하여 다시 읽고, 생각을 수정하는 "pause-zoom-check" 과정을 LMM이 모방하여 반복적으로 픽셀 단위 증거를 수집하는 과정.Single-pass perception: 기존 비디오 LMM들의 방식. 고정된 프레임 세트를 단 한 번만 인코딩하여 처리하는 방식.DRP-SFT (Deliberate Rumination Practice SFT): 1단계 학습. 모델이 단일 프레임에서 'crop(확대)'만 하거나, 비디오에서 ..
