목록분류 전체보기 (280)
AI바라기의 인공지능
용어 설명F2C (Frames-to-Clips): 이 논문에서 제안하는 핵심 프레임워크. 개별 프레임(frame)이 아닌 시간적으로 연속된 클립(clip)을 선택하여 긴 비디오를 처리하는 training-free 방식입니다.Key Frames vs. Key Clips:Key Frames: 비디오의 내용을 대표하는 개별적인, 서로 떨어진 이미지 프레임. 시간적 연속성이 부족합니다.Key Clips: Key Frame을 중심으로 한 짧은 비디오 세그먼트. 시간적 연속성과 움직임 정보를 보존합니다.Anchor Key Frame: Key Clip의 중심이 되는, 의미적으로 가장 중요하다고 판단된 초기 Key Frame입니다.Adaptive Resolution Strategy: Key Clip을 사용함으로써 늘어..
VTPerception-R1: 학습 노트용어 설명Perceptual Grounding: 모델의 추론 과정이 이미지(visual)나 텍스트(textual)에서 비롯된 실제 '인식(perception)' 증거에 단단히 기반을 두는 것. 즉, '보고 이해한 내용'을 바탕으로 생각하는 능력.RLVR (Reinforcement Learning with Verifiable Rewards): 정답이 명확하여 보상(reward)을 검증하기 쉬운 환경에서의 강화학습. 주로 수학 문제 풀이나 코드 생성에 사용됨.VTPerception-R1: 이 논문에서 제안하는 프레임워크 이름. Visual-Textual Perception - Reasoning 1의 약자.Decouple Perception from Reasoning: ..
용어 설명VLM (Vision-Language Model): 이미지와 텍스트를 함께 이해하고 처리하는 multimodal model.RL (Reinforcement Learning): 보상(reward)을 최대화하는 방향으로 에이전트(model)를 학습시키는 방법.PeBR-R1: 이 논문에서 제안한 2-stage RL framework로 학습된 최종 vision-language model의 이름.Two-Stage Reinforcement Learning: 학습 과정을 'Perception' 단계와 'Reasoning' 단계로 명확히 분리하여 순차적으로 진행하는 이 논문의 핵심 framework.Dataset-level Sampling: 모델 응답의 정답률에 따라 전체 데이터셋을 Easy, Medium, ..
쉬운 설명이 논문의 핵심 아이디어는 MLLM에게 "이 그림에 무엇이 있니?" 라고 묻는 대신, "내가 이 그림을 퍼즐처럼 섞어 놨는데, 원래대로 다시 맞춰봐" 라고 시키는 것과 같습니다. 이 과정을 통해 모델은 단순히 그림 안의 객체를 인식하는 것을 넘어, 객체들 간의 공간적 관계(이미지), 사건의 시간적 순서(비디오), 또는 사물의 깊이(3D)와 같은 '구조적 정보' 를 스스로 터득하게 됩니다. 이는 마치 외국어를 배울 때 단어만 외우는 것이 아니라, 문법과 문장 구조를 함께 배워야 더 깊이 있는 이해가 가능한 것과 같은 원리입니다. 용어 설명 (Terminology)MLLMs (Multimodal Large Language Models): Text뿐만 아니라 Image, Video 등 여러 modal..
VideoChat-R1.5: 학습 노트용어 설명MLLM (Multimodal Large Language Model): Text 뿐만 아니라 Image, Video 등 여러 종류의 data를 함께 이해하고 처리할 수 있는 Large Language Model.VTTS (Visual Test-Time Scaling): 이 논문이 제안하는 핵심 framework. Inference(test) 시점에 perception(인식)을 위한 계산량을 동적으로 늘려 MLLM의 reasoning 성능을 향상시키는 방법.ITP (Iterative Perception): VTTS의 핵심 메커지즘. 전체를 보고, 중요한 부분을 예측하고, 다시 그 부분에 집중하여 점진적으로 이해를 정교화하는 반복적인 인식 과정.ROI (Regi..
NTER: Event Based Interpretable Reasoning for VideoQA 학습 노트용어 설명 (Terminology)Event Graph: 이 논문의 핵심 개념. 비디오를 구조화된 그래프 형태로 표현한 것.Nodes: 비디오 내의 개별적인 사건(event)들을 나타냅니다 (예: '사람이 걷는다', '차가 멈춘다').Edges: 사건들 간의 관계를 나타냅니다 (Temporal: 시간 순서, Causal: 인과 관계, Hierarchical: 포함 관계).Top-Down Approaches: 질문(Question)을 먼저 분석하여 reasoning plan(계획)을 세우고, 이 계획에 따라 비디오에서 정보를 찾는 방식. 해석 가능성(interpretability)이 높지만, 계획 단계..
TRACE: 학습 노트용어 설명 (Terminology)VTG (Video Temporal Grounding): 비디오 내에서 특정 텍스트 설명에 해당하는 시간적 구간(timestamp)을 찾아내는 작업. Moment retrieval, dense video captioning 등 다양한 하위 작업을 포함합니다.Causal Event Modeling: 이 논문에서 제안하는 핵심 이론 framework. 기존 LLM의 Causal Language Modeling (다음 '토큰' 예측)에서 나아가, 비디오 출력을 '이벤트'의 sequence로 보고 이전 이벤트, 비디오, instruction을 기반으로 다음 '이벤트'를 예측하는 방식입니다.Event Triplet ((tk, sk, ck)): Causal E..
용어 설명MECD (Multi-Event Causal Discovery): 본 논문에서 제안하는 새로운 task. 긴 비디오에 포함된 여러 event들 사이의 인과 관계를 파악하여 포괄적인 event-level causal graph를 구성하는 것을 목표로 함.VGCM (Video Granger Causality Model): MECD task를 해결하기 위해 제안된 모델. Granger Causality 원칙에 기반하여 비디오 내 event 간의 인과 관계를 추론.Event Granger Test: 특정 '원인' event를 가렸을 때(masked) '결과' event 예측이 더 어려워지는지를 비교하여 인과성을 판단하는 핵심 아이디어.Causality Confounding: 중간에 있는 다른 event..
PeBR-R1 학습 노트용어 설명 (Terminology)PeBR-R1 (Perception Before Reasoning-R1): 본 논문에서 제안하는 2단계 강화학습 프레임워크를 통해 최종적으로 학습된 Vision-Language Model의 이름입니다.Two-Stage Reinforcement Learning: 본 논문의 핵심 방법론으로, 모델의 능력을 'Perception'과 'Reasoning' 두 단계로 나누어 순차적으로 강화학습을 진행하는 프레임워크입니다.Dataset Sampling (Easy, Medium, Hard cases): RL 학습의 'vanishing advantage' 문제를 해결하기 위해 도입된 데이터 샘플링 전략입니다. 모델이 생성한 8개의 답변 정답 수에 따라 데이터를 ..
Structure-Aligned Protein Language Model 학습 노트용어 설명 (Terminology)pLM (Protein Language Model): 단백질 아미노산 서열(sequence)을 자연어처럼 학습하는 모델. (예: ESM2, AMPLIFY)pGNN (Protein Graph Neural Network): 단백질 3D 구조를 그래프 형태로 학습하는 모델. (예: GearNet)Inter-protein structural knowledge: 논문에서 정의한 용어로, 여러 단백질에 걸쳐 공통적으로 나타나는 잔기(residue) 수준의 구조적 패턴 지식. 본 논문에서는 pLM과 pGNN의 latent representation을 정렬(align)하여 학습.Intra-protein ..