목록전체 글 (320)
AI바라기의 인공지능
PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning 정리 노트Purpose of the Paper기존의 visual reasoning benchmarks는 주로 object-level에 중점을 두어 object-centric reasoning에 편향되어 있었습니다. 하지만, human visual perception의 중요한 부분은 visual scenes를 individual objects와 object parts로 parse하여 part-whole hierarchies를 형성하는 것입니다. 이러한 composite structures는 rich set of semantic concepts와 relations를 유..
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models 논문 정리 노트Purpose of the Paper기존 Multimodal Large Language Models (MLLMs)은 single image에 대한 fine-grained visual grounding과 multi-image에 대한 이해 능력은 발전했지만, 복잡한 multi-image 시나리오에서 정확한 grounding을 수행하는 데는 여전히 어려움을 겪고 있었습니다. 특히, 기존 연구들은 대부분 single-image visual grounding에 초점을 맞추고 있었고, multi-image visual gr..
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial ConstraintsPurpose of the Paper기존 Vision-Language Models (VLM)은 high-level commonsense reasoning에는 뛰어나지만, 정교한 로봇 제어에 필수적인 fine-grained 3D spatial understanding 능력이 부족했습니다. VLM을 로봇 데이터셋으로 fine-tuning하여 Vision-Language-Action Models(VLA)를 만드는 것은 데이터 수집 비용과 generalization 문제로 어려움을 겪었습니다. 본 논문은 이러한 한..
논문 정리 노트: Self-Improvement in Language Models: The Sharpening MechanismPurpose of the Paper기존 language model 연구는 외부 피드백(external feedback) 없이 모델 스스로 성능을 향상시키는 "self-improvement" 가능성을 제시했지만, model 내부에 이미 존재하지 않는 정보를 생성하는 것은 불가능하다는 점에서 이러한 self-improvement가 어떻게 가능한지에 대한 근본적인 의문이 존재했습니다. 본 논문은 이러한 의문을 해결하기 위해 "sharpening" 이라는 새로운 theoretical perspective를 제시합니다.즉, language model은 정답을 생성하는 능력보다 정답 여부..
CoVLM: Composing Visual Entities and Relationships in Large Language Models via Communicative DecodingPurpose of the Paper기존 vision-language foundation models (VLMs) 은 "bag-of-words" 방식과 같이, visual entities와 그들 간의 관계를 정확하게 나타내는 단어를 구성하지 못하여 compositional reasoning 능력이 부족했습니다. 이 논문은 large language model (LLM) 이 visual entities와 relationships를 텍스트로 명시적으로 구성하고, vision encoder 및 detection network와 동..
Multimodal Autoregressive Pre-training of Large Vision Encoders 논문 리뷰Purpose of the Paper기존 vision model pre-training은 discriminative approach가 주를 이루었지만, parameter efficiency는 높았지만 scalability와 학습 안정성이 떨어지는 단점이 있었어. 반면, generative pre-training은 language modeling에서 scalability와 성능 면에서 우수함을 보였지만, vision 분야에서는 discriminative methods에 비해 뒤처지는 모습을 보였지. 특히, El-Nouby et al. (2024)의 연구는 LLMs pre-trainin..
LlamaV-01: Rethinking Step-by-step Visual Reasoning in LLMs개요 (Abstract)본 논문은 Large Language Models (LLMs)에서 step-by-step visual reasoning을 발전시키기 위한 종합적인 프레임워크를 제시합니다. 특히, visual contexts에서 복잡한 multi-step 문제를 해결하는 데 필요한 추론(reasoning) 능력을 향상시키는 데 중점을 둡니다. 이를 위해 세 가지 핵심적인 기여를 합니다.VRC-Bench: Multi-step reasoning tasks를 평가하기 위해 특별히 설계된 visual reasoning chain benchmark를 새롭게 소개합니다. VRC-Bench는 복잡한 visu..
정리 노트: MAXINFORL: Boosting Exploration in Reinforcement Learning through Information Gain MaximizationPurpose of the Paper기존 Reinforcement Learning (RL) 알고리즘들은 undirected exploration, 즉, 임의의 action sequence를 선택하는 방식에 의존하여 sample efficiency가 떨어지는 문제가 있었습니다. 특히, sparse rewards나 local optima가 존재하는 환경에서 성능 저하가 두드러졌습니다. 본 논문은 이러한 문제를 해결하기 위해, directed exploration을 가능하게 하는 새로운 framework인 MAXINFORL을 제안..
정리 노트: Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language GroundingPurpose of the Paper기존의 generalist robot policies는 대부분 visual 및 proprioceptive observations에 의존하여 robot actions을 예측하도록 trained 되었습니다. 이로 인해 vision이 제한되는 partially-observable scenes에서는 tasks를 완전히 수행하는 데 한계가 있었습니다. 특히, touch나 audio와 같은 heterogeneous sensor modalities를 포함하는 large-scale dataset..
Geometric Trajectory Diffusion Models 논문 정리 노트Purpose of the Paper기존의 generative models은 molecule 및 protein design과 같은 3D geometric system을 생성하는 데 큰 가능성을 보여주었지만, 대부분 static structures에만 초점을 맞추고 physical systems의 dynamic nature를 간과했습니다. 이 논문은 최초로 diffusion model을 사용하여 3D geometric trajectories의 temporal distribution을 모델링하는 Geometric Trajectory Diffusion Models(GeoTDM)를 제안합니다. 이를 통해 complex spatia..
