목록전체 글 (317)
AI바라기의 인공지능
용어 설명 (Terminologies)Selective Underfitting (선택적 과소적합): 이 논문의 핵심 개념. Diffusion model이 데이터 공간 전체에서 empirical score를 과소적합(underfit)하는 것이 아니라, 학습 데이터가 존재하는 **Supervision Region에서는 과적합(overfit)**에 가깝게 학습하고, 데이터가 없는 Extrapolation Region에서는 과소적합한다는 이론.Supervision Region (지도 영역): 학습 데이터 주변의 매우 좁은 영역(thin shells). 학습 중에는 노이즈가 섞인 데이터가 이 영역 안에 위치하므로 모델이 직접적인 정답(score)을 학습할 수 있는 공간.Extrapolation Region (외삽..
Terminology이 논문을 깊이 있게 이해하기 위해 필요한 핵심 용어 정리입니다.RINS (Recursive INference Scaling): 저자들이 제안하는 새로운 방법론입니다. 모델 전체를 반복하는 것이 아니라, 모델을 두 부분(Block A와 Block B)으로 나누고, 앞부분인 Block A만 재귀적으로(recursively) 반복 수행한 후 그 출력을 Block B로 넘기는 구조입니다. (Signature: ArB)RAO (Repeat-All-Over): Mobile LLM 등 기존 연구에서 제안된 방식입니다. 모델 전체 구조를 입력에 대해 반복적으로 적용하는 방식입니다. 이 논문의 주요 비교 대상(baseline) 중 하나입니다.Signature & Degree: 저자들이 재귀적 아키텍..
용어 설명 (Terminology)Test-Time Scaling (Inference-Time Scaling): 모델 학습이 끝난 후, 추론(inference) 단계에서 추가적인 연산(compute)을 투입하여 결과물의 품질을 높이는 기법. Diffusion model에서는 노이즈를 반복적으로 최적화하거나 여러 번 샘플링하는 방식이 이에 해당함.Amortization (상각): 반복적으로 발생하는 비싼 비용(여기서는 Test-Time Compute)을 미리 한 번의 학습 과정(training)으로 흡수하여, 실제 사용할 때의 비용을 대폭 줄이는 것.Noise Hypernetwork: 이 논문에서 제안하는 핵심 모듈. 생성 모델(Generator) 자체를 수정하는 대신, 생성 모델에 들어갈 **초기 노이즈..
용어 설명 (Terminology)Discrete Diffusion Models (DDMs): 이미지 픽셀과 같은 연속적인(continuous) 데이터가 아니라, 텍스트 토큰이나 DNA 서열과 같이 이산적인(discrete) 구조를 가진 데이터를 생성하기 위한 Diffusion 모델.NFEs (Number of Function Evaluations): 샘플링 과정에서 모델(함수)을 호출하는 횟수. NFEs가 낮을수록 생성 속도가 빠름.Accumulated Error: DDMs에서 적은 스텝으로 샘플링할 때 발생하는 오류의 총합. 이는 독립적인 토큰 예측으로 인한 Compounding Decoding Error와 큰 step size로 인한 수치적 근사 오차인 Discretization Error가 합쳐진..
용어 설명 (Terminology)NCMemo (Node Classification Memorization): 이 논문에서 제안한 프레임워크로, Semi-supervised node classification 설정에서 특정 노드의 레이블이 모델에 의해 암기(memorization)되었는지를 정량화하는 방법. Feldman의 leave-one-out 방식을 그래프 데이터에 맞게 변형함.Graph Homophily (그래프 동질성): 연결된 노드끼리 비슷한 특성이나 레이블을 공유하는 성질. 반대는 Heterophily (이질성).Implicit Bias (암묵적 편향): 모델이 학습 과정에서 특정 유형의 해(solution)를 선호하는 경향. GNN은 그래프 구조(structure)를 활용하려는 강력한 im..
용어 설명 (Terminology)VLMs (Vision-Language Models): 이미지와 텍스트를 모두 이해하고 처리할 수 있는 인공지능 모델 (예: GPT-4o, Gemini, LLaVA).Color Perception: 입력된 이미지에서 색상을 정확하게 감지하고 해석하는 기초적인 시각 능력.Color Reasoning: 색상 정보를 단서로 삼아 사전 지식과 결합하여 논리적인 결론을 도출하는 능력 (예: 색상 비교, 색상 기반 물체 카운팅).Color Robustness: 이미지의 색상이 변경(recoloring)되었을 때도 모델이 일관된 정답을 내놓을 수 있는지 평가하는 척도.HSV Color Space: 색상(Hue), 채도(Saturation), 명도(Value)로 구성된 색 공간. 이 ..
TerminologiesOpen-Vocabulary Scene Graph Generation (OVSGG): 학습 데이터에 존재하지 않는 새로운 객체(Novel Object)나 관계(Novel Relation)까지 인식하여 이미지 내의 구조적 의미(Scene Graph)를 생성하는 과제.Knowledge Infusion & Transfer: VLM 기반 OVSGG의 일반적인 2단계 파이프라인. 대규모 데이터셋으로 VLM을 Pre-training하여 지식을 주입(Infusion)하고, Task-specific 데이터셋으로 Fine-tuning하여 지식을 전이(Transfer)하는 과정.Pseudo-supervision: Region-level annotation(bbox 등)이 부족한 데이터에서 캡션 등을..
용어 설명 (Terminology)VisionThink: 저자들이 제안한 새로운 VLM 패러다임. 저해상도 이미지로 먼저 추론을 시도하고, 불충분할 경우 고해상도 이미지를 요청하는 방식.General VQA (General Visual Question Answering): 정해진 정답이 있는 수학 문제뿐만 아니라, 자연어 설명이나 주관적 해석이 필요한 일반적인 시각적 질의응답 태스크.LLM-as-Judge: 강화 학습(RL)의 보상(Reward)을 계산할 때, 정답과의 단순 문자열 매칭 대신 거대 언어 모델(LLM)을 심판(Judge)으로 사용하여 의미론적 정확성을 판단하는 전략.GRPO (Group Relative Policy Optimization): Critic 모델 없이 그룹 내 출력들의 상대적 ..
용어 설명 (Key Terms)Object Hallucination: LVLM이 입력 이미지에 존재하지 않는 객체를 텍스트로 생성하는 현상.Epistemic Uncertainty: 데이터가 부족하거나 모델이 학습하지 못한 영역에서 발생하는 모델 내부의 불확실성. 이 논문에서는 Visual Encoder의 특정 토큰들이 갖는 불확실성을 의미함.Visual Encoder (VE): 이미지를 처리하여 feature vector로 변환하는 모듈 (예: CLIP-ViT).Adversarial Perturbation (PGD attack): 입력 이미지에 인간의 눈에는 보이지 않는 미세한 노이즈를 추가하여 모델의 오작동을 유도하는 기법. 이 논문에서는 이를 역이용하여 불확실한 토큰을 탐지함.MC (Monte Car..
이 논문 ARGenSeg: Image Segmentation with Autoregressive Image Generation Model의 핵심 내용을 정리한 학습 노트입니다.용어 설명 (Terminology)MLLM (Multimodal Large Language Model): 텍스트와 이미지를 모두 이해하고 처리할 수 있는 대규모 언어 모델. (예: LLaVA, InternVL)Autoregressive Image Generation: 이전 단계의 정보를 바탕으로 다음 단계의 이미지 부분(토큰)을 순차적으로 생성해내는 방식.VQ-VAE (Vector Quantized Variational AutoEncoder): 이미지를 연속적인 값이 아닌, 사전에 정의된 코드북(Codebook)의 이산적인(disc..