목록2025/12/15 (8)
AI바라기의 인공지능
용어 설명 (Key Terms)Object Hallucination: LVLM이 입력 이미지에 존재하지 않는 객체를 텍스트로 생성하는 현상.Epistemic Uncertainty: 데이터가 부족하거나 모델이 학습하지 못한 영역에서 발생하는 모델 내부의 불확실성. 이 논문에서는 Visual Encoder의 특정 토큰들이 갖는 불확실성을 의미함.Visual Encoder (VE): 이미지를 처리하여 feature vector로 변환하는 모듈 (예: CLIP-ViT).Adversarial Perturbation (PGD attack): 입력 이미지에 인간의 눈에는 보이지 않는 미세한 노이즈를 추가하여 모델의 오작동을 유도하는 기법. 이 논문에서는 이를 역이용하여 불확실한 토큰을 탐지함.MC (Monte Car..
이 논문 ARGenSeg: Image Segmentation with Autoregressive Image Generation Model의 핵심 내용을 정리한 학습 노트입니다.용어 설명 (Terminology)MLLM (Multimodal Large Language Model): 텍스트와 이미지를 모두 이해하고 처리할 수 있는 대규모 언어 모델. (예: LLaVA, InternVL)Autoregressive Image Generation: 이전 단계의 정보를 바탕으로 다음 단계의 이미지 부분(토큰)을 순차적으로 생성해내는 방식.VQ-VAE (Vector Quantized Variational AutoEncoder): 이미지를 연속적인 값이 아닌, 사전에 정의된 코드북(Codebook)의 이산적인(disc..
이 논문 Eagle 2.5에 대한 핵심 요약 노트입니다.TerminologyInformation-First Sampling: 시각적 정보와 텍스트 정보의 손실을 최소화하기 위해 제안된 Eagle 2.5의 핵심 데이터 처리 전략. **Image Area Preservation (IAP)**와 Automatic Degradation Sampling (ADS) 두 가지 기법으로 구성됨.Automatic Degradation Sampling (ADS): 고정된 visual token 수를 할당하는 기존 방식과 달리, Text token을 온전하게 보존하는 것을 최우선으로 하고 남은 context budget 내에서 visual content(frames/tiles)를 동적으로 최적화하여 채워 넣는 전략.Imag..
📝 KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models - 학습 노트📚 용어 설명 (Terminology)Knowledge Plausibility (KP): 이 논문에서 제안한 새로운 평가 metric. 편집된 이미지가 단순히 명령어(instruction)를 따랐는지를 넘어, 실제 세계의 물리 법칙, 화학 반응, 사회적 통념 등 지식(knowledge)에 부합하는 결과를 보여주는지 평가하는 척도.Knowledge Hint: VLM(GPT-4o 등)이 Knowledge Plausibility를 평가할 때 사용하는 보조 정보. 예를 들어 "물에 소듐을 넣으라"는 명령에 대해, "소듐은 물과 격렬하게 반응하여 열과 기포를 발생시킨다"라..
Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models - 학습 노트1. Terminology (용어 설명)SLM (Small Language Model): 일반적으로 5B(50억) 개 이하의 parameter를 가진 언어 모델. 모바일 기기나 edge device 구동을 목표로 함.Deep-Thin Architecture: 레이어 수(depth)는 늘리고 hidden size(width)는 줄여 parameter 효율을 높이는 구조. 기존 SLM(MobileLLM 등)에서 선호됨.Hybrid Model: Standard Transformer의 Attention과 Linear Attention/SSM (Mamba, DeltaNet 등)을..
용어 설명 (Terminology)Visual Jenga: 이 논문에서 제안한 새로운 Scene Understanding Task. 젠가 게임처럼 이미지 내의 구조적 안정성(Stability)을 해치지 않으면서 물체를 하나씩 순차적으로 제거(Deconstruction)하는 과제.Counterfactual Inpainting: "만약 이 물체가 없었다면 그 자리에 무엇이 있었을까?"라는 가정을 시각적으로 구현하는 기술. 물체를 마스킹하고 Generative Model로 채워 넣는 과정을 의미함.Structural Dependency: 물체 간의 물리적 지지 관계 (e.g., 컵은 테이블 위에 놓여 있다). 단순히 픽셀 상의 인접성이 아니라, 중력과 물리적 지지 구조에 기반한 의존성.Diversity Sco..
용어 설명 (Terminology)RIL (Unified Reinforcement and Imitation Learning): 이 논문에서 제안하는 통합 학습 프레임워크. 강화 학습(RL)의 보상 최적화와 모방 학습(IL)의 전문가 스타일 모사를 결합하여 VLM을 학습시킴.Dr.GRPO (Deep Reinforcement via Gradient Descent with Reference Policy Optimization): 기존 PPO 등의 복잡한 RL 알고리즘 대신, 참조 정책(Reference Policy)을 활용하여 더 안정적이고 효율적으로 그래디언트를 업데이트하는 RL 알고리즘. 본 논문의 RL 파트 베이스라인.GAIL (Generative Adversarial Imitation Learning)..
REOrdering Patches Improves Vision Models 학습 노트TerminologyRow-major (Raster-scan): 2D 이미지를 1D 시퀀스로 변환할 때 가장 보편적으로 사용되는 방식. 좌상단에서 시작해 한 줄씩 오른쪽으로 읽고 다음 줄로 넘어가는 순서.Permutation Equivariance: 입력의 순서가 바뀌면 출력의 순서도 그에 맞춰 똑같이 바뀌는 성질. Full Self-attention을 사용하는 표준 ViT는 이 성질을 가지므로 패치 순서가 모델 성능에 영향을 주지 않음.Inductive Bias: 모델이 학습하지 않은 데이터에 대해 예측할 때 사용하는 가정이나 구조적 제약. (예: Longformer의 locality, Mamba의 recurrence)..