목록2026/01/02 (3)
AI바라기의 인공지능
Terminology (용어 설명)TimeSearch-R: 이 논문에서 제안하는 프레임워크로, 비디오 내 탐색(search)을 텍스트 추론(reasoning)과 결합하여 강화학습으로 최적화하는 모델.Interleaved Text-Video Thinking: 텍스트로만 생각(CoT)하는 것이 아니라, 추론 중간에 비디오 프레임을 검색(tool call)하고 그 결과를 다시 추론에 반영하는 과정을 번갈아 수행하는 방식.GRPO (Group Relative Policy Optimization): DeepSeek에서 제안한 강화학습 알고리즘으로, 비싼 Value Function 모델 없이 그룹 내 출력들의 상대적 점수를 이용해 정책을 최적화하는 기법.CSV (Completeness Self-Verificatio..
용어 설명 (Terminology)이 논문의 핵심 내용을 이해하기 위해 필요한 주요 전문 용어 정리:VideoLLM (Video Large Language Model): 비디오 데이터를 입력으로 받아 이해하고, 텍스트로 질문에 답변하거나 캡션을 생성하는 대규모 멀티모달 모델.Temporal Token Pruning: 비디오의 모든 프레임을 처리하는 대신, 시간적(temporal) 중요도에 따라 불필요한 시각적 정보(token)를 제거하여 연산량을 줄이는 기술.Quadratic Complexity: Attention 메커니즘의 특성상 입력 시퀀스(비디오 길이)가 길어질수록 연산량이 제곱으로 증가하는 문제.Soft Selection: 특정 프레임을 완전히 삭제하는(Hard Selection) 대신, 중요도가..
용어 설명 (Terminology)QTSplus (Query-aware Token Selector Plus): 이 논문에서 제안하는 핵심 모듈로, Vision Encoder와 LLM 사이에 위치합니다. 사용자의 텍스트 질문(Query)에 따라 비디오의 시각적 토큰 중 가장 중요한 정보만을 동적으로 선별하는 역할을 수행합니다.Token Bottleneck: 긴 비디오를 처리할 때 Vision Encoder가 생성하는 토큰 수가 너무 많아져 LLM의 연산량과 메모리 사용량이 급증하는 현상입니다.Adaptive Budget Estimation: 고정된 수의 토큰만 남기는 것이 아니라, 질문의 난이도나 정보의 분산 정도에 따라 남길 토큰의 비율(retention fraction rho)을 모델이 스스로 결정하는..
