목록2026/05/06 (8)
AI바라기의 인공지능
용어 설명LensWalk: 이 논문에서 제안하는 능동적 비디오 관찰 agent framework. 고정된 비디오 입력 대신, 필요한 순간에 필요한 구간만 선택적으로 확인합니다.Reasoner (LLM): 질문과 누적된 증거를 바탕으로 다음에 비디오의 어느 구간을, 어떤 밀도로 관찰할지 계획(plan)하는 주체입니다.Observer (VLM): Reasoner의 계획에 따라 실제 비디오 프레임에서 시각적 증거를 추출하는 역할을 합니다.Scan Search: 비디오의 넓은 구간을 듬성듬성(sparse) 나누어 병렬로 탐색하여 핵심 단서의 위치를 빠르게 찾는 tool입니다.Segment Focus: 특정 짧은 구간을 촘촘하게(dense) 샘플링하여 미세한 디테일이나 움직임을 집중적으로 분석하는 tool입니다...
용어 설명 (Terminology)Long-Horizon Video Agent: 긴 비디오를 한 번에 입력받아 처리하는 것이 아니라, 여러 단계의 추론(reasoning)과 행동(action)을 반복하며 정답을 찾아가는 AI agent.Video Logic Flow: 비디오 내에 존재하는 시간적(temporal), 인과적(causal) 흐름. 인간이 스토리라인을 파악하고 중요한 장면이 어디쯤 있을지 유추하는 근거가 됨.Think-Act-Observe Loop: Agent가 현재까지 수집된 정보를 바탕으로 추론(Think)하고, 적절한 도구를 선택해 실행(Act)한 뒤, 반환된 시각적 단서(Observe)를 다시 추론에 반영하는 반복 과정.Trajectory: Agent가 문제를 해결하는 과정에서 누적된 ..
TerminologyThinking-with-videos: 모델이 질문에 답하기 위해 스스로 관련 비디오 구간을 식별(Localize)하고, 해당 구간을 잘라내어(Clip) 다시 세밀하게 관찰한 뒤 답하는 에이전틱 패러다임.Localize-clip-answer: 비디오 전체를 훑어본 뒤(Skimming), 중요한 구간만 고화질로 크롭하여 정답을 도출하는 일련의 파이프라인.Unified Masking Strategy: SFT(Supervised Fine-Tuning) 시, 초기 단계의 부정확한 Grounding 시도는 Masking 처리하고, 최종적으로 성공한 마지막 두 턴(Turn)의 응답에만 Loss를 적용하여 학습 노이즈를 방지하는 전략.Penalty-aware IoU Reward: RL(Reinfo..
용어 설명Native Interleaved Tool Invocation: 도구(tool) 호출과 추론(reasoning) 과정을 별도의 모듈로 쪼개지 않고, 하나의 MLLM이 공유된 단일 context 내에서 반복적으로 번갈아가며 수행하는 방식.VideoCrop: 이 논문에서 모델이 사용하는 핵심 tool. 긴 비디오 내에서 특정 시간대(temporal segment)와 해상도(visual token quota)를 지정하여 필요한 부분만 고해상도로 잘라내어 관찰함.Task-Decoupled Attention Masking (TDAM): 모델이 SFT 학습 중 '단서 탐색(clue seeking)'과 '답변 생성(answer reasoning)'이라는 이질적인 작업(heterogeneous task)을 동..
용어 설명 (Terminology)Temporal Focusing / Zoom-in: 전체 비디오 중 특정 시간 구간(segment)을 더 높은 프레임 속도(fps)로 다시 요청하여 세밀한 동작이나 짧은 이벤트를 관찰하는 행위.Agentic Framework: MLLM이 수동적으로 주어진 프레임만 처리하는 것이 아니라, 스스로 판단하여 도구(Tool)를 호출하고 필요한 시각 정보를 능동적으로 수집하는 구조.Reflection Trajectories: SFT 단계에서 모델의 과적합을 막기 위해 도입된 학습 데이터. 모델이 오답을 낸 궤적을 expert model에 입력하여, "왜 이전 tool call이 틀렸는지(예: 엉뚱한 구간 탐색)" 스스로 반성(reflection)하고 올바른 구간을 재탐색하도록 교..
용어 설명 (Vocabulary)LongVideoAgent: 본 논문에서 제안하는 multi-agent 기반의 long video 추론 시스템 명칭.Master Agent: 추론과 문제 해결을 주도하며, sub-agent들을 언제 어떻게 호출할지 결정하는 중심 large language model.Grounding Agent: 전체 영상 중 질문과 관련된 특정 비디오 세그먼트(클립)의 타임스탬프를 국소화(temporal localization)해주는 도구 역할의 에이전트.Vision Agent: 선택된 특정 클립 내의 프레임에서 구체적인 시각 정보(객체, 행동, OCR 텍스트 등)를 추출하여 textual observations 형태로 반환하는 에이전트.Episode-level sequence: 몇 분 ..
LongVT: Incentivizing “Thinking with Long Videos” via Native Tool Calling 핵심 요약 노트용어 설명LongVT: 본 논문에서 제안하는 long video reasoning을 위한 end-to-end agentic framework.iMCoTT (Interleaved Multimodal Chain-of-Tool-Thought): 모델이 전체 영상을 훑어보고(global skim), 가설을 세운 뒤, 필요한 구간만 다시 잘라와서(tool calling) 확인하는 과정을 반복하는 multimodal 추론 방식.crop_video(start_time, end_time): 모델이 특정 시간대의 영상을 더 세밀한 프레임으로 다시 샘플링하기 위해 스스로 호출하..
용어 설명VTimeCoT (Visual Time Chain-of-Thought): 논문에서 제안한 핵심 프레임워크. 텍스트 기반의 순차적 추론을 넘어, 시각적 단서(progress bar)를 비디오 프레임에 직접 그려 넣으며 추론하는 방식.Temporal grounding: 비디오 내에서 특정 텍스트 쿼리나 이벤트가 발생하는 정확한 시간적 구간(시작 시간과 끝 시간)을 찾아내는 작업.Progress bar: 동영상 플레이어의 하단 진행 표시줄. 이 논문에서는 모델이 시간의 흐름을 '시각적'으로 파악할 수 있도록 프레임에 합성하는 도구로 쓰임.Moment Highlight: 특정 쿼리와 관련성이 높은 비디오 구간을 찾아, progress bar 위에 눈에 띄는 색상으로 덧칠하는(masking) 시각적 강조..
