목록2026/06/08 (7)
AI바라기의 인공지능
용어 설명Sequential Tool Calling: 순차적 툴 호출. 기존 agentic 모델들이 사용하는 방식으로, 한 턴에 하나의 툴(예: 특정 시간대 비디오 확대)만 사용하고 그 결과를 현재 문맥(context)에 계속 누적해 나가는 방식입니다.Parallel Tool Calling: 병렬 툴 호출. 이 논문의 핵심 구조로, 단일 턴에 여러 개의 툴을 동시에 호출하여 다수의 독립적인 sub-agents에게 작업을 병렬로 할당하고 검증하는 방식입니다.Tool Prior Paradox: 툴 사전 지식의 역설. RL(Reinforcement Learning) 과정 중 temperature sampling 시, pre-trained 모델이 본래 가지고 있던 툴 사용 지식(prior)이 오히려 새로운 출력..
어 설명 (Terminology)Multi-Video Event Understanding: 여러 개의 긴 비디오(heterogeneous videos)에 흩어져 있는 단서들을 종합하여, 특정 이벤트와 관련된 사용자 질의(query)에 답하고 정확한 근거를 제시하는 태스크.Ground-before-reasoning: 무거운 LVLM(Large Vision-Language Model)으로 영상을 바로 분석하기 전에, 가벼운 텍스트 및 객체 인식 기반으로 필요한 증거 구간을 먼저 찾는(grounding) 접근 방식.Context saturation / Context budget: 모델이 한 번에 처리할 수 있는 정보(토큰)량의 한계. 긴 비디오들을 일괄 처리하려다 이 한계를 초과하여 핵심 정보를 놓치는 현상을..
용어 설명VAM (Visual Agentic Memory): 이 논문에서 제안하는 핵심 프레임워크. 끊임없이 들어오는 비디오 스트림을 검색 및 검증 가능한 형태의 장기 메모리로 변환하는 시스템.Recoverability Collapse (복구 가능성 붕괴): 메모리 용량을 줄이기 위해 비디오를 심하게 압축하거나 텍스트 요약본만 남길 경우, 나중에 세부적인 시각적 증거(raw frames)를 다시 확인하고 검증할 수 없게 되는 치명적인 현상.Online Indexing: 전체 비디오를 오프라인 상태에서 한 번에 전처리하는 것이 아니라, 스트리밍 환경에서 프레임이 들어오는 즉시 실시간으로 필터링하고 메모리를 업데이트하는 과정.Hierarchical Memory (계층적 메모리): 저장된 데이터를 나이(age..
용어 설명MLLMs (Multi-modal Large Language Models): 텍스트뿐만 아니라 이미지, 비디오 등 다양한 형태의 데이터를 동시에 이해하고 처리할 수 있는 대형 언어 모델.Grounded Reasoning: 텍스트 기반의 추론 과정이 실제 시각적 단서(비디오 내 특정 객체나 영역)에 정확하게 매핑되고 연결되는 과정.OGVRF (Object-Grounded Video Reasoning Formulation): 이 논문에서 제안한 개념으로, 비디오 추론을 단순한 텍스트 생성이 아닌, 다중 프레임에 걸쳐 특정 객체들을 선택하고 연결하는 연속적인 의사결정 과정으로 정의한 것.MTDP (Multi-turn Decision Policy): 모델이 한 번에 결론을 내리지 않고, 여러 번의 턴(..
용어 설명Fuzzy-Trace Theory (FTT): 인간의 기억이 'verbatim(원형 그대로의 상세 정보)'과 'gist(핵심 의미, 추상적 요약)'라는 두 가지 병렬 트랙으로 구성된다는 인지 심리학 이론. 본 논문의 핵심 아키텍처 영감이 됨.MM-Mem (Multimodal Pyramid Memory): 본 논문에서 제안하는 3단계 계층형 메모리 구조. 시각 정보 중심의 하위 계층에서 텍스트 기반의 상위 계층으로 갈수록 정보가 고도로 압축됨.Sensory Buffer: 피라미드의 최하위 계층. 비디오의 시각적 세부 정보(verbatim)를 조밀하게 보존함.Episodic Stream: 중간 계층. Sensory Buffer의 정보를 시간적 연속성에 따라 이벤트 단위로 묶어 요약한 형태.Symbo..
용어 설명CoE (Chain of Evidence): 본 논문에서 제안하는 핵심 프레임워크. 단순히 생각을 이어가는 Chain-of-Thought(CoT)와 달리, 모델이 반드시 구체적인 **시각적 증거(Evidence)**를 먼저 확보하고 그에 기반하여 추론을 진행하도록 강제하는 방법론.EGM (Evidence Grounding Module): 사용자의 query에 맞춰 방대한 video frame 중 핵심적인 시각 정보만 동적으로 필터링하고 추출하는 경량화 모듈. LLM에 전달되는 연산 부담을 극적으로 줄여줌.Evidence-Anchoring Protocol: 모델이 추론을 할 때, EGM이 찾은 시간적 구간(Temporal Anchors)을 명시적으로 선언하고, 추론 과정(Reasoning Draf..
VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding 학습 노트용어 설명 (Terminology)VideoARM: 이 논문이 제안하는 핵심 프레임워크 명칭. Agentic Reasoning over Hierarchical Memory의 약자로, 계층적 메모리를 바탕으로 에이전트가 자율적으로 비디오를 탐색하고 추론하는 시스템.HM3 (Hierarchical Multimodal Memory): 에이전트의 관찰과 추론 과정을 계층적으로 저장하는 동적 메모리 아키텍처. Sensory, Result, Working Memory의 3단계로 구성됨.Sensory Memory: 원본 프레임이나 오디오 등 에이전트가 감..
