목록전체 글 (327)
AI바라기의 인공지능
Spectral Clustering: Analysis and an algorithm 학습 노트 (한국어 기반)Purpose of the Paper목표: 기존 Spectral clustering 방법의 한계를 극복하고, 간단하면서도 분석 가능하고 효과적인 Spectral clustering 알고리즘을 제공하는 것.해결하고자 하는 문제점:기존 많은 Spectral clustering 알고리즘에 대한 이론적 보장 부족.구체적인 eigenvector 사용 및 클러스터 도출 방법에 대한 불일치 및 모호성.단일 eigenvector 방법에 국한된 단순화된 분석.Key ContributionsSimple Algorithm: MATLAB에서 쉽게 구현 가능한 Spectral clustering 알고리즘 제시.Theor..
Overall Summary:LMM-R1 논문은 3B LMMs의 reasoning 능력을 강화하기 위한 novel two-stage rule-based RL framework를 제안하고, text-only data 기반 FRE stage와 multimodal data 기반 MGT stage를 통해 효과적인 multimodal generalization 달성 가능성을 입증했습니다. Text-based reasoning enhancement를 통한 data-efficient multimodal learning paradigm 제시를 통해, costly high-quality multimodal training data에 대한 의존성을 낮추고, LMMs의 reasoning 능력 향상 및 real-world a..
Overall Summary본 논문은 CNN의 efficiency와 Transformer의 expressivity를 결합하여 high-resolution image synthesis를 위한 새로운 framework를 제시한다. VQGAN을 사용하여 context-rich visual parts의 codebook을 학습하고, Latent Transformer를 통해 그 composition을 모델링함으로써, megapixel resolution의 이미지를 생성하고 다양한 conditional synthesis tasks에서 state-of-the-art 성능을 달성했다. 쉬운 설명: 이 논문은 이미지를 작은 조각(context-rich visual parts)들로 나누고, 각 조각을 나타내는 "단어"(co..
Overall SummaryVQ-VAE는 vector quantisation을 VAE framework에 결합하여 discrete latent representation을 효과적으로 학습하는 새로운 generative model이다. "Posterior collapse" 문제를 해결하고, continuous latent variable을 사용하는 VAE와 동등한 성능을 달성하며, image, speech, video 등 다양한 modalities에서 유의미한 representation을 unsupervised 방식으로 학습할 수 있음을 보여주었다. 이 논문은 discrete latent variable model의 가능성을 제시하고, representation learning, generative mod..
Overall Summary본 논문은 "next-scale prediction" 기반의 새로운 Visual Autoregressive (VAR) modeling framework를 제안하여, 기존 image AR models의 문제점을 해결하고 scalability와 zero-shot generalization 능력을 확보했다. VAR는 ImageNet benchmarks에서 state-of-the-art image generation 성능을 달성했으며, 특히 diffusion models를 능가하는 결과를 보여주었다. 이러한 연구는 visual generation 분야에서 AR/VAR models의 가능성을 제시하고, unified learning 발전에 기여할 것으로 기대된다.쉬운 설명:이 논문은 그..
Overall SummaryConceptAttention은 multi-modal DiTs의 interpretability를 향상시키는 새로운 method. DiT attention layers를 repurpose하여 high-quality saliency maps를 생성하고, zero-shot segmentation benchmarks에서 state-of-the-art performance를 달성. DiT representations의 transferability를 입증하고, generative AI systems의 transparency, controllability, and trust를 증진하는 데 기여. 쉬운 설명: ConceptAttention은 마치 "숨은 그림 찾기"와 같습니다. Diffusi..
Overall SummaryVisual-RFT는 Reinforcement Fine-Tuning (RFT)을 visual tasks에 처음으로 적용하여, 적은 data로도 Supervised Fine-Tuning (SFT)보다 뛰어난 성능과 generalization을 달성했다. Visual perception tasks에서 data efficiency, reasoning, adaptability를 개선하는 새로운 방향을 제시하고, Large Vision-Language Models (LVLMs)의 잠재력을 확장했다. 쉬운 설명:Visual-RFT는 마치 선생님이 학생에게 문제를 풀게 하고, 정답 (ground truth)만 맞추는 것이 아니라, 풀이 과정 (reasoning)과 최종 답안의 정확도 (Io..
Overall SummaryThis paper introduces a new framework (PromViL) which is a novel framework integrating multi-granular language-vision training with progressive reasoning, allowing models to ground and reason in scenarios with intricate textual information and multiple visual relations.Also Introduces a dataset construction pipeline to create a new dataset of nested compositional V-L pairs curated..
ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search 학습 노트 Overall SummaryReST-MCTS*는 process reward guided tree search (MCTS*)를 통해 LLM self-training을 수행하는 새로운 framework. MCTS*를 통해 자동으로 inferred process reward를 생성하고, 이를 value target 및 high-quality trace selection에 활용하여 policy model과 reward model을 동시에 개선한다. 실험 결과는 기존 reasoning 및 self-training baselines보다 우수한 성능을 보였으며, 이는 process-le..
Overall Summary이 논문은 MLLMs의 interpretability와 complex visual inputs 처리 능력을 향상시키기 위해 visual CoT reasoning을 도입하고, 이를 위한 comprehensive dataset과 benchmark를 제안함. VisCoT framework는 dynamic focused visual inputs를 처리하고 interpretable reasoning stages를 제공하며, extensive experiments를 통해 기존 MLLMs보다 significantly improved performance를 달성함. 이 연구는 visual CoT reasoning 분야의 further exploration을 위한 promising starti..
