목록전체 글 (317)
AI바라기의 인공지능
Abstract 환경과 장기간 상호 작용할 수 있는 AI 시스템을 만드는 것은 인간의 인지와 유사하게 오랜 연구 목표였습니다. 최근 multimodal large language models (MLLMs)의 발전은 open-world understanding에 상당한 진전을 이루었습니다. 그러나 continuous and simultaneous streaming perception, memory, and reasoning이라는 과제는 아직까지 크게 탐구되지 않은 영역입니다. 현재 MLLMs는 sequence-to-sequence architecture에 의해 제약을 받는데, 이는 마치 인지하는 동안 생각할 수 없는 것처럼 입력을 처리하고 동시에 응답을 생성하는 능력을 제한합니다. 또한 long conte..
그림 1. 다양한 관계의 수에 따라 text-to-image (T2I) model인 SDXL [31]과 구조적 어노테이션 지침이 있는 T2I 모델인 SDXL-SG에서 생성된 이미지. 하나 또는 두 개의 관계의 경우, 두 모델 모두 정확하게 생성할 수 있습니다. 세 개 또는 네 개의 관계를 다룰 때, T2I model은 "hold" 및 "facing" 관계를 생성하지 못합니다. 네 개 이상의 관계가 있는 경우, T2I model의 한계가 더욱 두드러집니다. (e)와 (f)에서 각각 세 개와 두 개의 관계가 잘못 생성되었습니다. 이에 비해 SDXL-SG는 생성된 이미지에서와 같이 관계를 정확하게 포착합니다. Abstracttext-to-image (T2I) 생성의 최근 발전은 텍스트로부터 고품질 이미지를 ..
Abstract 본 논문에서는 generative vision foundation model인 Florence-2 [45]에 의해 생성된 풍부한 visual representation을 가진 새로운 multimodal large language models (MLLMs) 제품군인 Florence-VL을 제시합니다. contrastive learning으로 학습된 널리 사용되는 CLIP-style vision transformer [35]와 달리, Florence-2는 다양한 downstream task에 더 쉽게 적용할 수 있는 다양한 수준과 측면의 visual features를 포착할 수 있습니다. 우리는 Florence-2의 visual features를 Phi 3.5 및 LLama 3와 같은 pre..
VisionZip: Longer is Better but Not Necessary in Vision Language Models 논문 리뷰Purpose of the Paper기존의 Vision-Language Models (VLMs)은 visual tokens의 수를 늘려 성능을 향상시키는 데 집중해 왔습니다. 그러나 이는 text tokens에 비해 visual tokens의 수가 지나치게 많아져 computational cost를 크게 증가시키는 문제를 야기했습니다. 본 논문은 visual tokens에 상당한 redundancy가 존재한다는 점에 착안하여, informative tokens만을 선별하여 language model에 입력함으로써, VLM의 성능은 유지하면서도 효율성을 크게 개선하는 것..
Abstract 오늘날 가장 발전된 vision-language models (VLMs)는 여전히 독점적입니다. 가장 강력한 open-weight 모델은 좋은 성능을 달성하기 위해 독점 VLMs의 합성 데이터에 크게 의존하며, 사실상 이러한 closed VLMs를 open VLMs로 distillation합니다. 결과적으로, 커뮤니티는 처음부터 성능이 뛰어난 VLMs를 구축하는 방법에 대한 기본적인 지식이 부족했습니다.저희는 openness 등급에서 최첨단 기술을 자랑하는 새로운 VLMs 제품군인 Molmo를 선보입니다. 저희의 핵심 기여는 PixMo라고 하는 새로운 데이터 세트 모음으로, 여기에는 사전 훈련을 위한 매우 상세한 이미지 캡션 데이터 세트, 미세 조정을 위한 자유 형식 이미지 Q&A 데이터..
AbstractReverse thinking은 인간 추론에서 중요한 역할을 합니다. 인간은 문제에서 해결책으로 추론할 수 있을 뿐만 아니라 그 반대로, 즉 해결책에서 시작하여 문제를 향해 추론할 수도 있습니다. 이를 통해 사고의 앞뒤를 일관성 있게 확인할 수 있으므로 전반적인 추론 성능이 향상되는 경우가 많습니다. Large Language Models (LLM)이 Reverse thinking을 수행할 수 있도록 하기 위해 데이터 augmentation 및 학습 목표로 구성된 프레임워크인 Reverse-Enhanced Thinking (REVTHINK)을 소개합니다. REVTHINK에서 (1) 원래 질문, (2) 순방향 추론, (3) 역방향 질문, (4) 역방향 추론으로 구성된 teacher model..
HourVideo: 1-Hour Video-Language Understanding Abstract저희는 긴 비디오에 대한 언어 이해를 위한 벤치마크 데이터셋인 HourVideo를 소개합니다. 이 데이터셋은 요약, 인지 (회상, 추적), 시각적 추론 (공간적, 시간적, 예측적, 인과적, 반사실적), 그리고 탐색 (방에서 방으로, 객체 검색) 작업을 포함하는 새로운 task suite로 구성됩니다. HourVideo는 Ego4D 데이터셋에서 20분에서 120분까지의 길이를 가진 500개의 수동으로 선별된 egocentric 비디오를 포함하며, 12,976개의 고품질 5지선다형 질문을 특징으로 합니다. 벤치마킹 결과는 GPT-4 및 LLaVA-NeXT를 포함한 multimodal models가 무작위 선택..
Abstract 다양한 control 관점들이 controllable text generation에서 연구되어 왔습니다. Structure-controlled summarization은 최근 유용하고 흥미로운 연구 방향으로 제시되었습니다. 그러나 현재의 structure-controlling methods는 원하는 structure를 적용하는 데 효과가 제한적입니다. 이러한 한계를 해결하기 위해, 저희는 sentence-level beam search generation method (SentBS)를 제안합니다. 이 방법에서는 generation process 전반에 걸쳐 평가를 수행하여 후속 generation에 적합한 sentence를 선택합니다. SentBS에서 sub-components로 사용될 ..
Abstract Large language models는 reasoning capabilities, 특히 inference-time scaling을 통해 상당한 발전을 보여주었으며, OpenAI의 o1과 같은 모델들이 그 예시입니다. 그러나 현재 Vision-Language Models (VLMs)는 복잡한 visual question-answering tasks를 처리할 때 체계적이고 구조적인 reasoning을 수행하는 데 어려움을 겪는 경우가 많습니다. 본 연구에서는 자율적인 multistage reasoning을 수행하도록 설계된 새로운 VLM인 LLaVA-CoT1을 소개합니다. chain-of-thought prompting과 달리 LLaVA-CoT는 summarization, visual in..
최근 GPT-o1 출시 이후 추론 모델이 오픈소스로 하나둘씩 나오기 시작하였습니다. qwq와 같은 오픈소스도 있지만 Marco-o1은 그 중 먼저 공개된 paper 이기 때문에 먼저 리뷰를 시작합니다. abstract현재 OpenAI의 o1은 large reasoning models (LRM) 연구에 대한 관심을 급증시키고 있습니다. 이러한 추세를 기반으로 Marco-o1은 수학, 물리학, 코딩과 같이 reinforcement learning (RL)에 적합한 표준 답변이 있는 분야뿐만 아니라 개방형 해결에 더 중점을 둡니다. 우리는 "o1 모델이 명확한 기준이 없고 보상을 정량화하기 어려운 광범위한 영역으로 효과적으로 일반화될 수 있을까?"라는 질문에 답하고자 합니다. Marco-o1은 복잡한 실제 ..