목록전체 글 (322)
AI바라기의 인공지능
쉬운 설명:기존 방식은 원자 하나하나를 놓으려다 보니, 특히 반지(ring) 같은 복잡한 부분을 이상하게 만들거나 큰 분자를 잘 못 만들었습니다.이 논문 (HierDiff)은 **레고 블록(fragment)**처럼 분자를 조각내서, 먼저 큰 블록들의 대략적인 위치와 종류를 정하고 (Coarse-grained Diffusion), 그 다음 각 블록을 세밀하게 다듬고 서로 연결하는 방식 (Fine-grained Generation + Iterative Refinement)을 사용합니다.이렇게 하면 레고 블록 자체는 이미 모양이 잡혀있어(valid local structures) 이상한 구조가 덜 생기고, 큰 구조물도 더 안정적으로 만들 수 있습니다. 특히, **연결 부분을 반복해서 수정하는 과정(Iterat..
쉬운 설명:이 논문은 3D 분자를 레고 블록처럼 조립하는 새로운 방법을 제안합니다. 기존 방식은 아주 작은 원자(atom) 단위로 하나씩 붙여나가서 모양(특히 반지 모양 같은 복잡한 부분)이 쉽게 망가졌습니다. HierDiff는 먼저 큼직한 블록(fragment) 들의 대략적인 위치와 모양을 diffusion이라는 방법으로 정합니다(coarse-grained). 그런 다음, 이 큼직한 블록들을 더 정교하게 다듬고(fine-grained) 서로 어색하지 않게 잘 연결하는 과정을 거칩니다. 이때 Iterative Refinement라는 특별한 단계를 두어 블록들이 서로 부딪히거나 이상하게 연결되지 않도록 계속 수정합니다. 이렇게 하면 처음부터 작은 원자 하나하나 신경 쓰는 것보다 훨씬 안정적이고 제대로 된 ..
Overall SummaryVision-R1은 human preference data나 별도의 reward model 없이 LVLM의 object localization 능력을 향상시키는 새로운 vision-guided reinforcement learning 방법입니다.핵심은 curated instruction data를 활용하고, bounding box 정확도 등 시각적 기준에 기반한 criterion-driven reward와 동적 학습 기준을 적용하는 progressive rule refinement 전략입니다.실험 결과, 기존 SOTA 모델 대비 현저한 localization 성능 향상과 우수한 일반화 성능을 달성했으며, general QA 능력은 유지했습니다.이 연구는 LVLM alignmen..
MLLM 기반 Visual Grounding을 위한 Visual Position Prompt 학습 노트연구 목적 (Purpose of the Paper)문제점: Multimodal Large Language Models (MLLMs)는 다양한 이미지 관련 task에서 뛰어난 성능을 보이지만, 정밀한 공간 추론 및 visual grounding에는 어려움을 겪음. 이는 명시적인 공간 참조가 부족하고, 미세한 공간 정보보다 전역적인 context를 우선시하기 때문.목표: 명시적인 위치 참조를 제공하여 MLLMs의 visual grounding 능력을 향상시키고, 텍스트 설명과 이미지 위치 간의 정확한 연관성을 가능하게 함.기존 연구와의 차별성: 더 큰 datasets이나 추가적인 decoders를 사용하는 ..
논문 학습 노트: Through the Magnifying Glass: Adaptive Perception Magnification for Hallucination-Free VLM DecodingPurpose of the Paper기존 vision-language models (VLMs)는 visual hallucination (visual input에 기반하지 않은 부정확한 응답 생성) 문제를 겪음.기존의 hallucination 완화 방법들은 language reasoning 능력을 저하시키는 trade-off가 존재.본 연구는 language reasoning 능력을 보존하면서 visual perception을 향상시켜 hallucination을 줄이는 새로운 visual decoding 방법인 P..
Spectral Clustering: Analysis and an algorithm 학습 노트 (한국어 기반)Purpose of the Paper목표: 기존 Spectral clustering 방법의 한계를 극복하고, 간단하면서도 분석 가능하고 효과적인 Spectral clustering 알고리즘을 제공하는 것.해결하고자 하는 문제점:기존 많은 Spectral clustering 알고리즘에 대한 이론적 보장 부족.구체적인 eigenvector 사용 및 클러스터 도출 방법에 대한 불일치 및 모호성.단일 eigenvector 방법에 국한된 단순화된 분석.Key ContributionsSimple Algorithm: MATLAB에서 쉽게 구현 가능한 Spectral clustering 알고리즘 제시.Theor..
Overall Summary:LMM-R1 논문은 3B LMMs의 reasoning 능력을 강화하기 위한 novel two-stage rule-based RL framework를 제안하고, text-only data 기반 FRE stage와 multimodal data 기반 MGT stage를 통해 효과적인 multimodal generalization 달성 가능성을 입증했습니다. Text-based reasoning enhancement를 통한 data-efficient multimodal learning paradigm 제시를 통해, costly high-quality multimodal training data에 대한 의존성을 낮추고, LMMs의 reasoning 능력 향상 및 real-world a..
Overall Summary본 논문은 CNN의 efficiency와 Transformer의 expressivity를 결합하여 high-resolution image synthesis를 위한 새로운 framework를 제시한다. VQGAN을 사용하여 context-rich visual parts의 codebook을 학습하고, Latent Transformer를 통해 그 composition을 모델링함으로써, megapixel resolution의 이미지를 생성하고 다양한 conditional synthesis tasks에서 state-of-the-art 성능을 달성했다. 쉬운 설명: 이 논문은 이미지를 작은 조각(context-rich visual parts)들로 나누고, 각 조각을 나타내는 "단어"(co..
Overall SummaryVQ-VAE는 vector quantisation을 VAE framework에 결합하여 discrete latent representation을 효과적으로 학습하는 새로운 generative model이다. "Posterior collapse" 문제를 해결하고, continuous latent variable을 사용하는 VAE와 동등한 성능을 달성하며, image, speech, video 등 다양한 modalities에서 유의미한 representation을 unsupervised 방식으로 학습할 수 있음을 보여주었다. 이 논문은 discrete latent variable model의 가능성을 제시하고, representation learning, generative mod..
Overall Summary본 논문은 "next-scale prediction" 기반의 새로운 Visual Autoregressive (VAR) modeling framework를 제안하여, 기존 image AR models의 문제점을 해결하고 scalability와 zero-shot generalization 능력을 확보했다. VAR는 ImageNet benchmarks에서 state-of-the-art image generation 성능을 달성했으며, 특히 diffusion models를 능가하는 결과를 보여주었다. 이러한 연구는 visual generation 분야에서 AR/VAR models의 가능성을 제시하고, unified learning 발전에 기여할 것으로 기대된다.쉬운 설명:이 논문은 그..
