목록2026/05/09 (4)
AI바라기의 인공지능
💡 용어 설명ProVCA (Progressive Video Condensation Agent): 이 논문에서 제안하는 핵심 프레임워크. 긴 비디오에서 불필요한 부분은 버리고 핵심만 점진적으로 압축(condensation)하여 추출하는 에이전트.Granularities (Segment -> Snippet -> Keyframe): 비디오를 탐색하는 단위의 변화. 큰 덩어리(Segment)에서 의미상 연결된 짧은 조각(Snippet), 그리고 최종적인 단일 사진(Keyframe)으로 범위를 좁혀감.Temporal-aware Clustering: 단순히 이미지 내용이 비슷한 것끼리 묶는 것이 아니라, 비디오의 '시간적 순서(temporal order)'를 유지하면서 내용이 변하기 전까지의 프레임들을 하나의 S..
용어 설명A4VL (Multi-Agent Perception-Action Alliance): 본 논문에서 제안하는 프레임워크로, 여러 MLLM agent들이 협력하여 긴 비디오를 효율적으로 분석하는 시스템.Perception Exploration: Agent가 비디오의 소수 프레임만 샘플링하여 'perception clue(탐색 단서)'를 생성하고, 이를 바탕으로 질문과 가장 관련성 높은 비디오 구간(block)을 찾아내는 단계.Action Exploration: 선택된 비디오 구간에서 프레임들을 추출하여 최종 답변(answer)과 근거(reason)를 생성하고, agent 간 교차 검증을 수행하는 단계.Agent Teaming: Task에 투입할 최적의 agent 조합을 Unsupervised 방식으로..
용어 설명REVISE (Reasoning with Video Sparsity): 이 논문에서 제안하는 핵심 프레임워크. 비디오 전체를 보지 않고, 질문에 답하기 위해 꼭 필요한 소수의 프레임만 반복적으로 선택하여 추론하는 multi-round agent.Summary-as-State: 기존 multi-round 대화의 모든 기록(raw history)을 모델에 다시 입력하는 대신, 현재까지 확인된 증거, 불확실한 부분, 다음 행동의 이유 등을 압축된 형태의 텍스트 요약본(summary)으로 유지하여 다음 round로 전달하는 메커니즘. RNN의 hidden state 개념을 텍스트 기반 LLM에 적용한 것.P/O/H/U/R: Summary-as-State를 구성하는 5가지 필수 구조화 필드. Previo..
용어 설명VideoDetective: 이 논문에서 제안하는 모델 이름. 비디오 전체를 보지 않고 마치 탐정처럼 질문에 관련된 '핵심 단서'만 반복적으로 찾아내는 모델.Question-aware memory mechanism: 이 논문의 핵심 기술. 비디오를 단순 압축하는 것이 아니라, "질문(Question)"을 기준으로 필요한 정보만 골라서 압축하고 기억하는 메커니즘.Memory tokens (): 각 비디오 sub-segment의 마지막에 추가되는 학습 가능한 특수 토큰. 비디오의 방대한 visual token 중 질문과 관련된 핵심 의미(semantic)만 빨아들여 압축하는 역할을 함.History context: 이전 sub-segment들에서 추출된 memory token들이 누적되어 저장된 정..
