목록전체 글 (317)
AI바라기의 인공지능
AbstractMM-REACT를 제안합니다. 이는 ChatGPT와 다수의 vision experts를 통합하여 multimodal reasoning 및 action을 달성하는 시스템 패러다임입니다. 본 논문에서는 기존 vision 및 vision-language models의 능력을 넘어서는 흥미롭지만 해결하기 어려운 고급 vision tasks 목록을 정의하고 탐구합니다. 이러한 고급 시각 지능을 달성하기 위해 MM-REACT는 텍스트 설명, textualized spatial coordinates 및 이미지 및 비디오와 같은 dense visual signals에 대한 aligned file names를 나타낼 수 있는 textual prompt design을 도입합니다. MM-REACT의 promp..
AbstractLarge language models (LLMs)은 중간 추론 체인을 생성하는 chain-of-thought (CoT) prompting을 활용하여 복잡한 추론 작업에서 인상적인 성능을 보여왔습니다. 그러나 기존 CoT 연구는 주로 언어 modality에 중점을 두었습니다. 우리는 언어 (텍스트) 및 vision (이미지) modality를 rationale 생성과 answer inference를 분리하는 two-stage framework에 통합하는 Multimodal-CoT를 제안합니다. 이를 통해 answer inference는 multimodal 정보를 기반으로 더 잘 생성된 rationales를 활용할 수 있습니다. ScienceQA 및 A-OKVQA benchmark data..
Abstract 움직임이 풍부한 동작이나 정교한 시각 효과와 같은 고도의 역동적인 비디오를 만드는 것은 인공지능 분야에서 상당한 과제입니다. 안타깝게도 현재 최첨단 비디오 생성 방법들은 주로 텍스트-비디오 생성에 초점을 맞추고 있어, 높은 충실도를 유지하지만 움직임이 거의 없는 비디오 클립을 생성하는 경향이 있습니다. 저희는 비디오 생성에 있어 텍스트 지시에만 의존하는 것은 불충분하며 최적이 아니라고 주장합니다. 이 논문에서는, 비디오 생성을 위해 텍스트 지시와 함께 첫 번째 및 마지막 프레임에 대한 이미지 지시를 통합하는 확산 모델 기반의 새로운 접근 방식인 PixelDance를 소개합니다. 종합적인 실험 결과는 공개 데이터로 학습된 PixelDance가 복잡한 장면과 정교한 움직임을 가진 비디오를 합..
Abstract텍스트-투-비디오(T2V) 합성은 커뮤니티에서 점점 더 많은 관심을 받고 있으며, 최근 등장한 diffusion models(DMs)는 과거 접근 방식보다 더 강력한 성능을 보여주고 있습니다. 기존의 최첨단 DMs는 고해상도 비디오 생성을 달성할 수 있지만, 비디오 합성의 핵심 중 하나인 복잡한 시간적 역학 모델링과 관련하여 주요 한계(예: action occurrence disorders, crude video motions)를 겪을 수 있습니다. 본 연구에서는 고품질 T2V 생성을 위해 DMs의 비디오 역학 인식 강화를 조사합니다. 인간의 직관에서 영감을 얻어, 혁신적인 dynamic scene manager(Dysen) 모듈을 설계했습니다. 이 모듈은 (1단계) 입력 텍스트에서 주요..
한줄 요약 : Meteor는 Traversal of Rationale를 활용하여 복잡한 시각적 문제를 효율적으로 해결하는 새로운 LLVM Abstract대규모 언어 및 비전 모델(LLVMs)의 급속한 발전은 visual instruction tuning의 발전에 의해 주도되어 왔습니다. 최근, 오픈 소스 LLVMs는 고품질의 visual instruction tuning 데이터 세트를 선별하고 추가적인 vision encoder 또는 여러 computer vision 모델을 활용하여 강력한 closed-source LLVMs와의 성능 격차를 줄였습니다. 이러한 발전은 기본적인 이미지 이해, 상식 및 비객체 개념(예: 차트, 다이어그램, 기호, 표지판 및 수학 문제)에 대한 실제 지식, 복잡한 질문 해결..
Abstract본 논문에서는 검색 증강 생성(RAG)을 위한 범용 미세 조정 레시피를 살펴봅니다. RAG 모델은 언어 생성을 위해 사전 훈련된 모수 및 비모수 메모리를 결합한 모델입니다. 모수 메모리는 사전 훈련된 seq2seq 모델이고 비모수 메모리는 사전 훈련된 신경 검색기를 사용하여 접근하는 Wikipedia의 고밀도 벡터 인덱스인 RAG 모델을 소개합니다. 전체 생성 시퀀스에서 동일한 검색된 구절을 조건으로 하는 RAG 공식과 토큰별로 다른 구절을 사용할 수 있는 RAG 공식 두 가지를 비교합니다. 다양한 지식 집약적인 NLP 작업에 대해 모델을 미세 조정하고 평가하며, 세 가지 공개 도메인 QA 작업에서 최첨단 기술을 설정하여 모수 seq2seq 모델 및 작업별 검색 및 추출 아키텍처를 능가합니..
Abstract대규모 사전 학습에서 데이터 큐레이션은 필수적인 요소입니다. 본 연구에서는 데이터 배치를 공동으로 선택하는 것이 개별 예제를 선택하는 것보다 학습에 더 효과적임을 보여줍니다. 다중 모드 대조 학습 목표는 데이터 간의 의존성을 드러내므로 자연스럽게 배치의 공동 학습 가능성을 측정하는 기준을 제공합니다. 본 연구는 이러한 배치를 선택하기 위한 간단하고 다루기 쉬운 알고리즘을 도출하며, 이는 개별적으로 우선순위가 지정된 데이터 포인트를 넘어 학습을 크게 가속화합니다. 더 큰 슈퍼 배치에서 선택함으로써 성능이 향상됨에 따라, 최근 모델 근사화의 발전을 활용하여 관련 계산 오버헤드를 줄입니다. 결과적으로, 본 연구의 접근 방식인 공동 예제 선택을 통한 다중 모드 대조 학습(JEST)은 최대 13배..
Abstract대규모 언어 모델(LLM)과 시각-언어 모델(VLM)은 다양한 작업과 영역에서 괄목할 만한 성능을 보여주었습니다. 하지만 이러한 가능성에도 불구하고, 인간 인지의 핵심 요소인 공간 이해 및 추론 능력은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 관계 이해, 탐색, 계산 등 공간 추론의 다양한 측면을 다루는 새로운 벤치마크를 개발했습니다. 그리고 경쟁력 있는 언어 모델과 시각-언어 모델을 포괄적으로 평가했습니다.본 연구 결과는 기존 연구에서 간과되었던 몇 가지 반직관적인 통찰을 제시합니다. (1) 공간 추론은 경쟁 모델들이 무작위 추측보다 뒤처질 수 있는 상당한 어려움을 제기합니다. (2) 추가적인 시각적 입력에도 불구하고, VLM은 종종 LLM보다 성능이 떨어집니다. (3) 텍스트 및..
Abstract VLM은 엄선된 웹 데이터셋에서 수천 시간 동안 GPU 학습을 받습니다. 최근에는 데이터 큐레이션이 중요해지면서, '원시' 데이터에서 '고품질' 하위 집합을 유지하는 전략을 개발하는 연구가 활발히 진행되고 있습니다. 예를 들어, LAION 공개 데이터셋은 크롤링된 전체 데이터의 10%만 유지했습니다. 그러나 이러한 전략은 일반적으로 학습에 사용할 수 있는 컴퓨팅 리소스와는 별개로 개발됩니다. 본 논문에서는 먼저 필터링 결정을 학습 컴퓨팅과 독립적으로 만드는 것이 종종 최적이 아님을 보여줍니다. 제한된 고품질 데이터는 반복될수록 빠르게 효용성을 잃어 결국 '보이지 않지만 품질이 낮은' 데이터를 포함해야 합니다. 이러한 품질-수량 트레이드오프(QQT) 문제를 해결하기 위해, 본 논문에서는..
Evaluating Language Models for Mathematics through Interactions Abstract 대규모 언어 모델(LLM) 기반 문제 해결 비서 구축에 대한 기대가 높지만, 기존의 정적인 입출력 쌍에 의존하는 평가 방법은 LLM의 적절한 활용 환경을 판단하기에 부족합니다. 정적 평가는 LLM 배포의 핵심 요소인 상호작용을 고려하지 않아 언어 모델의 능력을 제한적으로 이해하게 합니다. 본 연구에서는 인간이 LLM과 상호작용하고 평가할 수 있는 적응형 플랫폼인 CheckMate를 소개합니다. CheckMate를 활용하여 InstructGPT, ChatGPT, GPT-4 등 세 가지 언어 모델을 대학 수학 증명 보조 도구로 평가하며, 학부생부터 수학 교수까지 다양한 참가자와 ..