목록전체 글 (481)
AI바라기의 인공지능
용어 설명 (Terminology)Multi-Scale Visual Evidence: 비디오의 프레임들을 질문과의 연관성에 따라 세 가지로 분류한 개념. 정답 도출에 직접적인 evidence (직접적 단서), 보조적 힌트를 주는 context (맥락적 단서), 질문과 무관한 distractor (방해 프레임) 으로 나눔.AIR (Identification-Reasoning-Action): 본 논문이 제안하는 추론 핵심 루프. 1) Frame identification (어떤 프레임이 증거인지 분류), 2) Evidence reasoning (누적된 단서를 바탕으로 논리적 추론), 3) Action decision (단서가 부족하면 추가 검색을, 충분하면 최종 결론을 내릴지 결정)하는 일련의 과정.EDI ..
용어 설명LVLMs (Large Video-Language Models): 대규모 비디오-언어 모델. 비디오 영상과 텍스트를 동시에 이해하고 처리하는 모델을 뜻함.Uniform sampling strategy: 기존 모델들이 긴 비디오를 처리할 때 사용하는 일반적인 프레임 추출 방식. 일정한 시간 간격과 고정된 해상도로 프레임을 뽑아내는 방식으로, 이 논문이 극복하고자 하는 핵심 문제의 원인.Slow-fast template (Adaptive Zoom-in Mechanism): 이 논문이 제안하는 고유한 비디오 처리 구조. 전체 비디오는 저해상도/고프레임(fast video)으로 훑어보고, 디테일이 필요한 특정 구간만 고해상도/저프레임(slow video)으로 덧붙여서 처리하는 방식.Decoupled r..
용어 설명Multi-Turn Reasoning: 한 번의 시도로 정답을 도출하는 기존 방식과 달리, 모델이 스스로 여러 번(turn)에 걸쳐 필요한 비디오 구간(frame)을 추가 검색(retrieve)하며 점진적으로 추론하는 방식.Gated Bi-Level Reward: 강화학습(RL) 시 주어지는 이중 보상 체계. 최종 정답을 맞춘 것에 대한 전역 보상(trajectory-level)과 중간 과정에서 질문과 관련 있는 frame을 잘 찾은 것에 대한 부분 보상(turn-level)으로 나뉨.Reward Hacking: 모델이 본래 목표(정답 도출)는 무시하고, 중간 보상(관련 frame 검색)만을 반복적으로 획득하여 보상 점수만 부풀리는 편법 행위.Goal-Gated Mechanism: Reward ..
[논문 학습 노트: Thinking With Videos]용어 설명 (Terminology)Multimodal CoT (Chain-of-Thought): 텍스트로만 이루어진 기존의 추론 과정(Text-based CoT)과 달리, 추론 중간에 시각적 도구(Visual Tool)를 호출하고 그 결과(Video frames)를 함께 반영하여 결론을 도출하는 다중 양식 기반의 추론 과정.Visual Toolbox: 모델이 필요할 때 직접 호출할 수 있는 도구 모음. 이 논문에서는 특정 시간대의 비디오 클립을 촘촘하게 샘플링하여 시각적 토큰(Visual tokens)으로 반환하는 'Video clipping tool'을 주로 사용함.GRPO (Group Relative Policy Optimization): De..
용어 설명Spatio-Temporal Evidence: 비디오 추론 과정에서 정답의 근거가 되는 구체적인 시공간적 단서. 즉, 영상의 '언제(timestamp)' 그리고 '어디에(bounding box)' 해당하는지를 의미합니다.STGR (Spatio-Temporal Grounded Reasoning) Dataset: 본 논문에서 자체 구축한 데이터셋으로, 텍스트 추론과 함께 시간 및 공간 grounding 정보가 완벽히 동기화된 고품질 데이터셋입니다.GSPO (Group Sequence Policy Optimization): 일반적인 토큰 단위의 RL(GRPO 등)과 달리, 생성된 시퀀스(sequence) 전체를 하나의 단위로 보고 보상을 최적화하는 RL 알고리즘. 긴 Chain-of-Thought 과..
오늘은 국립중앙박물관에 다녀왔어요 🏛️ 국립중앙박물관은 상설전시가 무료라서 부담 없이 구경하기 좋고, 관람 시간은 월·화·목·금·일은 9:30~17:30, 수·토는 9:30~21:00까지예요. 입장은 폐관 30분 전까지 가능하다고 합니다. 이번에는 그냥 전체를 쭉 보는 것보다, 박물관 안에 있는 국보들 위주로 하나씩 둘러봤어요.교과서에서 보던 유물들을 실제로 보니까 생각보다 훨씬 웅장하고 신기하더라고요.그럼 국립중앙박물관 국보 탐방 시작해볼게요 ✨ 경천사지 십층석탑(국보 제86호) 무지하게 크네요. 일단 10층이라고 했는데, 14층인 것 같아서 다시 보니 아래 기단부 4층은 세는게 아니라고 하는 군요.실제 건물 높이로는 3층까지 올라가니까 길이가 비슷한 것 같아요 실제 3층에서 본 석탑..
[용어 설명]Geometric memorization (기하학적 암기): Diffusion model이 데이터를 암기할 때 모든 차원이 한 번에 암기(collapse)되는 것이 아니라, 데이터가 위치한 매니폴드(manifold)의 특정 방향(subspace) 차원부터 순차적으로 암기되는 현상을 의미하는 이 논문의 핵심 고유 개념.Glassy phase transition (유리 상전이): 통계물리학 개념으로, 이 논문에서는 generative diffusion이 일반화(generalization) 상태에서 데이터를 그대로 외워버리는 연상 메모리(associative memory) 상태로 급격히 전환되는 현상을 묘사할 때 사용됨.Random Energy Model (REM): 무질서 시스템을 설명하는 통계..
Terminology (용어 설명)Empirical Risk Minimization (ERM): 학습 데이터 내에서 오차를 최소화하려는 전통적인 학습 방식. VideoQA에서는 질문과 상관없는 배경(spurious correlations)에 의존하는 경향을 만듦.Spurious Correlation (가짜 상관관계): 인과관계는 없지만 통계적으로 같이 나타나는 현상. (예: 운동장 장면이 나오면 질문과 상관없이 정답을 '달리기'로 예측하는 편향)Invariant Grounding (불변 근거 추출): 비디오의 부차적인 배경이나 환경이 바뀌어도 정답을 도출하는 데 필수적인 '인과적 장면(Causal Scene)'만을 찾아내는 과정.Causal Intervention (인과적 개입): 특정 변수(여기서는 배..
용어 설명VideoQA (Video Question Answering): 주어진 비디오 시퀀스 내용을 바탕으로 자연어 질문(Question)에 대한 올바른 답안(answering)을 추론해 내는 task.CRN (Conditional Relation Network): 이 논문에서 제안하는 범용적이고 재사용 가능한 신경망의 기본 구성 단위(building block). 입력된 객체 배열의 복잡한 관계를 계산하고, 특정 조건(언어 쿼리나 모션 등)에 맞게 특징을 변환함.HCRN (Hierarchical Conditional Relation Networks): CRN 유닛들을 계층적으로(hierarchical) 쌓아 올려 만든 전체 architecture. 프레임 -> 클립 -> 전체 비디오 단위로 점진적인 ..
TerminologyVideoQA (Video Question Answering): 비디오의 시각적 내용을 이해하고 주어진 자연어 질문에 알맞은 답을 추론하는 태스크.Dynamic Graph Transformer (DGT): 본 논문에서 제안한 핵심 모듈. 비디오 내 객체(Node)와 객체 간의 관계(Edge)가 시간에 따라 어떻게 변화하는지(Dynamics)를 명시적으로 추적하고 모델링하는 아키텍처.NTrans (Node Transformer) & ETrans (Edge Transformer): DGT 내부에서 객체 자체의 시간적 외형 변화를 학습하는 모듈(NTrans)과, 객체들 사이의 상호작용이나 관계의 시간적 변화를 학습하는 모듈(ETrans).Disentangled QA Formulation: ..
