목록2026/05/08 (7)
AI바라기의 인공지능
용어 설명GVQA (Grounded Video Question Answering): 일반적인 질문으로부터 관련된 비디오 구간을 암시적으로 추론(temporal localization)하고, 동시에 정확한 정답을 생성해야 하는 복합 task.Temporal Zoom-in: 전체 비디오(coarse pass)에서 찾은 주요 예측 구간(segment)만 잘라낸 뒤, 제한된 비디오 token budget을 해당 구간에 집중하여 프레임당 공간 해상도(spatial resolution)를 높임으로써 세밀한 시각적 검증을 수행하는 이 논문 고유의 핵심 기법.GRPO (Group Relative Policy Optimization): PPO의 변형으로, critic model 없이 후보 response group 내에..
용어 설명Agentic Video Intelligence (AVI): 이 논문에서 제안하는 프레임워크의 이름으로, 외부 툴과 데이터베이스를 자율적으로 활용하여 비디오를 이해하는 에이전트 시스템.Retrieve-Perceive-Review: 인간의 인지 과정을 모방한 3단계 reasoning 프로세스. 전체적인 맥락을 텍스트로 탐색(Retrieve)하고, 특정 구간의 시각적 증거를 확인(Perceive)한 뒤, 최종 답변 여부를 반추(Review)함.Entity-Centric Graph: 비디오 내의 단순한 캡션을 넘어, 개체(Entity)들의 등장, 행동, 상호작용을 시간 흐름에 따라 연결한 구조화된 지식 그래프. 긴 비디오에서 인과관계나 상태 변화를 추적하는 데 핵심적인 역할을 함.Hierarchica..
용어 설명WorldMM: 이 논문에서 제안하는 Dynamic Multimodal Memory Agent의 이름. 매우 긴 비디오(수 시간~수일)를 이해하기 위해 텍스트와 시각 정보를 모두 활용하는 기억 시스템.Episodic Memory: 과거의 특정 사건이나 행동을 기록한 텍스트 기반의 Knowledge Graph. 이 논문에서는 단일 시간 단위가 아닌 초, 분, 시간 단위의 Multi-scale로 구성하여 다양한 길이의 이벤트를 유연하게 포착함.Semantic Memory: 비디오 내 개체 간의 장기적인 관계, 역할, 습관 등을 지속적으로 업데이트하여 저장하는 개념적 Knowledge Graph. 단발성 이벤트가 아닌 누적된 패턴을 파악하는 데 사용됨.Visual Memory: 텍스트로 다 담을 수 ..
용어 설명Deep Memory Backtracking: 이 논문의 핵심 메커니즘으로, 질문의 답을 찾기 위해 비디오 전체의 흐릿한 기억(coarse)에서 시작하여 점진적으로 관련 구간의 정밀한 기억(fine-grained)으로 파고들어 가는 탐색 과정을 의미.Hierarchical Memory Structure: 비디오 정보를 시간적 범위(temporal scope)와 세부 묘사 수준에 따라 Coarse, Fine, Ultra-fine 단계로 계층화하여 저장하는 구조.Sparse Frame Sampling: 계산 비용을 줄이기 위해 긴 비디오에서 프레임을 띄엄띄엄 추출하는 방식. 기존 연구들의 주된 방식이나 핵심 정보 누락(information loss)을 유발함.EgoMem: 이 논문에서 새롭게 제안한..
학습 노트: Towards Effective and Efficient Long Video Understanding of MLLMs via One-shot Clip Retrieval용어 설명 (Terminology)OneClip-RAG: 이 논문에서 제안하는 핵심 프레임워크. 질문(query)을 기반으로 비디오를 의미 단위로 분할(chunking)하고 검색(retrieval)하는 과정을 단일 단계(one-shot)로 통합한 비디오 클립 기반 검색 증강 기법.Video RAG (Retrieval-Augmented Generation): 긴 비디오 전체를 메모리에 올리는 대신, LLM에 필요한 시각적 정보(프레임이나 클립)만 외부 지식창고처럼 검색하여 제공하는 기법.Query-guided Video Chunk..
[FOCUS: Efficient Keyframe Selection for Long Video Understanding] 학습 노트용어 설명 (Terminology)Token Explosion: 1시간 이상의 long video를 처리할 때, frame 수가 기하급수적으로 늘어나 MLLM이 처리해야 할 visual token의 한도(budget)를 초과하여 연산이 불가능해지는 현상.Combinatorial Pure-Exploration (CPE): 주어진 제한된 예산(budget) 내에서 누적 보상을 극대화할 수 있는 최적의 arm들의 부분 집합(subset)을 찾아내는 탐색 알고리즘 문제.Multi-Armed Bandit (MAB): 여러 선택지(arm) 중 어떤 것을 선택해야 최대의 보상을 얻을 수 있..
용어 설명ViTL (Video-in-the-Loop): 전체 비디오를 훑어본 후 핵심 구간만 집중해서 분석하는 파이프라인. (본 논문이 제안한 핵심 프레임워크)Skim & Zoom: 전체 비디오를 low-fps로 빠르게 훑어보고(Skim), 정답의 단서가 되는 예측된 span만 높은 해상도/fps로 자세히 들여다보는(Zoom) 전략.VGrounding-QA: Event knowledge graph를 기반으로 구축된 새로운 학습 dataset. 질문(Question), 정답(Answer)과 함께 해당 정답의 근거가 되는 비디오 내 ground-truth temporal span이 짝지어져 있음.Interleaved GRPO (Group-Relative Policy Optimization): 모델이 출력한 ..
