목록전체 글 (330)
AI바라기의 인공지능
Overall SummaryVision-R1은 human preference data나 별도의 reward model 없이 LVLM의 object localization 능력을 향상시키는 새로운 vision-guided reinforcement learning 방법입니다.핵심은 curated instruction data를 활용하고, bounding box 정확도 등 시각적 기준에 기반한 criterion-driven reward와 동적 학습 기준을 적용하는 progressive rule refinement 전략입니다.실험 결과, 기존 SOTA 모델 대비 현저한 localization 성능 향상과 우수한 일반화 성능을 달성했으며, general QA 능력은 유지했습니다.이 연구는 LVLM alignmen..
MLLM 기반 Visual Grounding을 위한 Visual Position Prompt 학습 노트연구 목적 (Purpose of the Paper)문제점: Multimodal Large Language Models (MLLMs)는 다양한 이미지 관련 task에서 뛰어난 성능을 보이지만, 정밀한 공간 추론 및 visual grounding에는 어려움을 겪음. 이는 명시적인 공간 참조가 부족하고, 미세한 공간 정보보다 전역적인 context를 우선시하기 때문.목표: 명시적인 위치 참조를 제공하여 MLLMs의 visual grounding 능력을 향상시키고, 텍스트 설명과 이미지 위치 간의 정확한 연관성을 가능하게 함.기존 연구와의 차별성: 더 큰 datasets이나 추가적인 decoders를 사용하는 ..
논문 학습 노트: Through the Magnifying Glass: Adaptive Perception Magnification for Hallucination-Free VLM DecodingPurpose of the Paper기존 vision-language models (VLMs)는 visual hallucination (visual input에 기반하지 않은 부정확한 응답 생성) 문제를 겪음.기존의 hallucination 완화 방법들은 language reasoning 능력을 저하시키는 trade-off가 존재.본 연구는 language reasoning 능력을 보존하면서 visual perception을 향상시켜 hallucination을 줄이는 새로운 visual decoding 방법인 P..
Spectral Clustering: Analysis and an algorithm 학습 노트 (한국어 기반)Purpose of the Paper목표: 기존 Spectral clustering 방법의 한계를 극복하고, 간단하면서도 분석 가능하고 효과적인 Spectral clustering 알고리즘을 제공하는 것.해결하고자 하는 문제점:기존 많은 Spectral clustering 알고리즘에 대한 이론적 보장 부족.구체적인 eigenvector 사용 및 클러스터 도출 방법에 대한 불일치 및 모호성.단일 eigenvector 방법에 국한된 단순화된 분석.Key ContributionsSimple Algorithm: MATLAB에서 쉽게 구현 가능한 Spectral clustering 알고리즘 제시.Theor..
Overall Summary:LMM-R1 논문은 3B LMMs의 reasoning 능력을 강화하기 위한 novel two-stage rule-based RL framework를 제안하고, text-only data 기반 FRE stage와 multimodal data 기반 MGT stage를 통해 효과적인 multimodal generalization 달성 가능성을 입증했습니다. Text-based reasoning enhancement를 통한 data-efficient multimodal learning paradigm 제시를 통해, costly high-quality multimodal training data에 대한 의존성을 낮추고, LMMs의 reasoning 능력 향상 및 real-world a..
Overall Summary본 논문은 CNN의 efficiency와 Transformer의 expressivity를 결합하여 high-resolution image synthesis를 위한 새로운 framework를 제시한다. VQGAN을 사용하여 context-rich visual parts의 codebook을 학습하고, Latent Transformer를 통해 그 composition을 모델링함으로써, megapixel resolution의 이미지를 생성하고 다양한 conditional synthesis tasks에서 state-of-the-art 성능을 달성했다. 쉬운 설명: 이 논문은 이미지를 작은 조각(context-rich visual parts)들로 나누고, 각 조각을 나타내는 "단어"(co..
Overall SummaryVQ-VAE는 vector quantisation을 VAE framework에 결합하여 discrete latent representation을 효과적으로 학습하는 새로운 generative model이다. "Posterior collapse" 문제를 해결하고, continuous latent variable을 사용하는 VAE와 동등한 성능을 달성하며, image, speech, video 등 다양한 modalities에서 유의미한 representation을 unsupervised 방식으로 학습할 수 있음을 보여주었다. 이 논문은 discrete latent variable model의 가능성을 제시하고, representation learning, generative mod..
Overall Summary본 논문은 "next-scale prediction" 기반의 새로운 Visual Autoregressive (VAR) modeling framework를 제안하여, 기존 image AR models의 문제점을 해결하고 scalability와 zero-shot generalization 능력을 확보했다. VAR는 ImageNet benchmarks에서 state-of-the-art image generation 성능을 달성했으며, 특히 diffusion models를 능가하는 결과를 보여주었다. 이러한 연구는 visual generation 분야에서 AR/VAR models의 가능성을 제시하고, unified learning 발전에 기여할 것으로 기대된다.쉬운 설명:이 논문은 그..
Overall SummaryConceptAttention은 multi-modal DiTs의 interpretability를 향상시키는 새로운 method. DiT attention layers를 repurpose하여 high-quality saliency maps를 생성하고, zero-shot segmentation benchmarks에서 state-of-the-art performance를 달성. DiT representations의 transferability를 입증하고, generative AI systems의 transparency, controllability, and trust를 증진하는 데 기여. 쉬운 설명: ConceptAttention은 마치 "숨은 그림 찾기"와 같습니다. Diffusi..
Overall SummaryVisual-RFT는 Reinforcement Fine-Tuning (RFT)을 visual tasks에 처음으로 적용하여, 적은 data로도 Supervised Fine-Tuning (SFT)보다 뛰어난 성능과 generalization을 달성했다. Visual perception tasks에서 data efficiency, reasoning, adaptability를 개선하는 새로운 방향을 제시하고, Large Vision-Language Models (LVLMs)의 잠재력을 확장했다. 쉬운 설명:Visual-RFT는 마치 선생님이 학생에게 문제를 풀게 하고, 정답 (ground truth)만 맞추는 것이 아니라, 풀이 과정 (reasoning)과 최종 답안의 정확도 (Io..
