목록전체 글 (325)
AI바라기의 인공지능
MoReVQA: Exploring Modular Reasoning Models for Video Question Answering용어 설명 (Terminology)MoReVQA (Modular Reasoning for Video Question Answering): 본 논문에서 제안하는 다단계 모듈러 추론 VideoQA 시스템.JCEF (Just Caption Every Frame): 본 논문에서 제안하는 단순하지만 강력한 VideoQA baseline. 비디오의 모든 프레임을 VLM으로 captioning하고, 이 caption들과 질문을 LLM에 입력하여 답변을 생성.ViperGPT(+): 기존의 대표적인 single-stage modular VideoQA 시스템. 본 논문에서는 이를 개선/재구현하여..
쉬운 설명Koopa는 마치 시계열 데이터를 "두 종류의 춤"으로 나눠서 보는 것과 같습니다. 어떤 춤은 "항상 추는 기본 스텝"(time-invariant)이고, 다른 춤은 "상황에 따라 바뀌는 즉흥 스텝"(time-variant)입니다. Koopa는 먼저 Fourier Filter라는 도구로 이 두 종류의 춤을 분리합니다. 그리고 "기본 스텝"은 미리 배워둔 하나의 큰 안무(K_inv)로 예측하고, "즉흥 스텝"은 매 순간의 분위기(lookback window)를 보고 즉석에서 안무(K_var)를 짜서 예측합니다. 이런 예측 블록(Koopa Block)을 여러 개 쌓아서 점점 더 정확하게 춤 동작을 맞춰나갑니다. 특히, Koopa는 과거 동작을 똑같이 따라 하는 연습(재구성 손실) 대신 오직 미래 동작..
Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series Forecasting 학습 노트용어 설명 (Terminology)MTS (Multivariate Time Series): 여러 변수(dimension)로 구성된 시계열 데이터. (예: 날씨 데이터의 온도, 습도, 풍속 등)Cross-Dimension Dependency: MTS에서 서로 다른 변수(dimension) 간의 상호 의존성. (예: 온도가 올라가면 습도가 변하는 관계)Cross-Time Dependency: MTS에서 시간 축(time step) 상의 값들 간의 의존성. (예: 오늘의 온도가 어제의 온도에 영향을 받는 관계)DSW (..
OPENTHINKIMG: Learning to Think with Images via Visual Tool Reinforcement Learning 학습 노트용어 설명 (Terminology)LVLMs (Large Vision-Language Models): 시각 정보와 텍스트 정보를 함께 이해하고 처리할 수 있는 대규모 AI model.Visual Tools: 이미지 내 객체 탐지(GROUNDINGDINO), 분할(SAM), 문자 인식(OCR), 이미지 자르기(CROP), 특정 지점 좌표 찾기(POINT), 선 그리기(DRAWHORIZONTALLINEBYY/DRAWVERTICALLINEBYX), 확대(ZOOMINSUBPLOT), 특정 지점 주변 분할(SEGMENTREGIONAROUNDPOINT) 등 시..
쉬운 설명 (Easy Explanation)TimeDART는 시간 순서대로 진행되는 이야기(time series)를 아주 잘 이해하는 똑똑한 AI를 만드는 방법과 같습니다.이야기의 큰 흐름 파악 (Autoregressive Causal Transformer): AI는 이야기의 앞부분부터 차근차근 읽으면서 전체적인 줄거리와 등장인물들의 관계 변화 같은 큰 흐름(global trends)을 파악합니다. 이때, 아직 읽지 않은 뒷부분 내용은 보지 않고(causal) 순서대로만 이해하려고 노력합니다.이야기의 세부 묘사 다듬기 (Patch-level Denoising Diffusion): 이야기를 작은 단락(patch)들로 나눕니다. 그리고 각 단락에 일부러 약간의 오타나 어색한 문장(noise)을 집어넣습니다...
쉬운 설명 (Easy Explanation)이 논문은 time-series data (예: 주가 변동, 심전도 신호)를 이해하는 새로운 방식을 제안합니다. 기존의 많은 AI 모델들은 "이 신호는 A 유형이다"라고 분류는 잘하지만, "왜 A 유형인지"는 설명하지 못했습니다. 마치 어떤 음악을 듣고 "이건 신나는 곡이네"라고는 알지만, 어떤 멜로디나 리듬 때문에 신나는지는 모르는 것과 같습니다.VQShape는 이 문제를 해결하기 위해, time-series를 "기본적인 모양 조각 (abstracted shapes)"들의 조합으로 보려고 합니다. 마치 레고 블록처럼, 미리 학습된 다양한 "모양 블록" (codebook)들을 가지고 있고, 어떤 time-series가 주어지면 "이 신호는 1번 모양 블록이 여기..
Unified Multimodal Understanding and Generation Models: 학습 노트용어 설명 (Terminology)Unified Multimodal Models: Text, image 등 다양한 modality의 입력을 이해하고 (understanding), 동시에 다양한 modality의 출력을 생성 (generation)할 수 있는 단일 모델. 이 논문의 핵심 주제.Architectural Paradigms for Unification:Diffusion-based Unified Models: Diffusion model을 기반으로 multimodal understanding과 generation을 통합하려는 접근 방식. (예: Dual Diffusion)Autoregres..
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning 학습 노트용어 설명 (Terminology)MLLM (Multimodal Large Language Model): Text, image, video 등 다양한 종류의 데이터를 이해하고 생성할 수 있는 대규모 언어 모델.RFT (Reinforcement Fine-Tuning): 강화학습(Reinforcement Learning)을 사용하여 사전 학습된 모델을 특정 작업에 맞게 미세 조정하는 과정.GRPO (Group Relative Policy Optimization): 여러 후보 응답 그룹 내에서 상대적인 보상을 통해 policy를 최적화하는 강화학습 알고리즘...
Video-R1: Reinforcing Video Reasoning in MLLMs 학습 노트용어 설명 (Glossary)MLLMs (Multimodal Large Language Models): Text 외에 image, video 등 다양한 modality의 정보를 이해하고 처리할 수 있는 Large Language Models.RL (Reinforcement Learning): Agent가 environment와 상호작용하며 reward를 최대화하는 방향으로 policy를 학습하는 machine learning 패러다임.Rule-based RL: 명시적으로 정의된 rule에 기반하여 reward를 계산하고 이를 통해 policy를 학습하는 RL 방식. DeepSeek-R1이 대표적.R1 Paradi..
Video-UTR 학습 노트TerminologyTemporal Hacking: Video MLLM이 전체 video narrative를 이해하는 대신, video의 일부 frame (e.g., 시작 또는 끝 frame)에만 의존하여 shortcut learning을 통해 proxy reward를 극대화하려는 현상. 이 논문에서 RL 관점으로 처음 정의함.Anti-scaling Law: Video MLLM 학습 시, data volume이나 model parameter를 늘렸을 때 오히려 성능이 저하되는 역효과 현상. 이 논문은 temporal hacking을 주요 원인으로 지목함.Temporal Perplexity (TPL): Temporal hacking의 정도를 정량화하기 위해 제안된 metric. ..
