목록전체 글 (317)
AI바라기의 인공지능
AbstractGenerative LLM의 높은 연산 및 메모리 요구 사항으로 인해 저렴하게 서비스를 제공하기가 어려움. 이 논문에서는 일반 인스턴스보다 훨씬 저렴한 가격으로 여분의 GPU 리소스에 대한 액세스를 제공하지만 언제든지 클라우드 제공업체에 의해 선점될 수 있는 최신 클라우드의 preemptible GPU 인스턴스를 활용하여 LLM 서비스의 비용을 절감하는 것을 목표로 합니다. Preemptible 인스턴스에서 LLM을 서비스하려면 빈번한 인스턴스 선점으로 인한 문제와 이러한 선점을 처리하기 위해 인스턴스를 마이그레이션해야 하는 문제를 해결해야 합니다. 이 논문에서는 preemptible 인스턴스에서 최초의 분산 LLM 서비스 시스템인 SpotServe를 제시합니다. SpotServe의 몇 가..
Abstract프로그래밍은 종종 상세하고 복잡한 명세를 코드로 변환하는 작업을 수반하며, 이 과정에서 개발자들은 일반적으로 시각적 보조 도구를 활용하여 개념을 더 효과적으로 전달합니다. 최근 Large Multimodal Models의 발전은 시각적 추론 및 수학적 작업에서 놀라운 능력을 보여주었지만, 이러한 모델들이 시각적 요소를 효과적으로 해석하여 코드를 생성할 수 있는지에 대한 연구는 거의 없습니다. 이를 위해, 시각적으로 풍부한 맥락에서 알고리즘 문제 해결 능력을 평가하기 위한 최초의 multimodal 코딩 데이터셋인 MMCode를 소개합니다. MMCode는 개의 코드 경쟁 웹사이트에서 수집된 실제 프로그래밍 과제에서 얻은 개의 질문과 개의 이미지를 포함하며, 추론 능력에 대한 극도의 요구로 ..
Abstract본 논문에서는 Sequence-to-Sequence 모델의 사전 훈련을 위한 denoising autoencoder인 BART를 소개합니다. BART는 (1) 텍스트를 임의의 noising function으로 손상시키고, (2) 원본 텍스트를 복원하도록 모델을 학습시키는 방식으로 훈련됩니다. BART는 표준 Transformer 기반 neural machine translation architecture를 사용하며, 단순함에도 불구하고 BERT(bidirectional encoder 덕분에), GPT(left-to-right decoder를 통해), 그리고 다른 최근의 pretraining scheme들을 일반화하는 것으로 볼 수 있습니다. 다양한 noising 접근 방식을 평가한 결과, ..
Abstract 최근 diffusion models의 발전은 text-to-image 생성 능력을 크게 향상시켰습니다. 그러나 text-to-video 생성은 훨씬 더 큰 데이터셋과 높은 계산 비용으로 인해 text-to-image 생성보다 훨씬 어려운 작업입니다. 기존의 대부분의 video 생성 방법은 시간 차원을 고려하는 3D U-Net architecture 또는 autoregressive generation을 사용합니다. 이러한 방법들은 큰 데이터셋을 필요로 하며, text-to-image 생성에 비해 계산 비용 측면에서 제한적입니다. 이러한 문제를 해결하기 위해, 우리는 architecture에 시간 차원을 포함하지 않고도 text-to-video 생성을 가능하게 하는 간단하지만 효과적인 n..
중심극한정리:표본의 크기가 충분히 크면, 모집단의 분포 모양과 상관없이 표본 평균들의 분포는 정규분포에 가까워진다.의미:다양한 현상을 정규분포로 모델링 가능: 많은 자연 현상이나 사회 현상은 여러 요인들의 복합적인 작용으로 나타나는데, 이러한 현상들은 중심극한정리에 의해 정규분포로 근사하여 분석할 수 있습니다. 덕분에 통계적 추론이나 예측 등 다양한 분야에 정규분포를 활용할 수 있습니다. 주의사항:표본의 크기: 표본의 크기가 충분히 커야 중심극한정리가 적용됩니다. 일반적으로 표본의 크기가 30 이상이면 충분하다고 간주하지만, 모집단의 분포 형태에 따라 필요한 표본 크기는 달라질 수 있습니다.예시:전 국민의 키: 각 개인의 키는 다양한 유전적, 환경적 요인의 영향을 받지만, 충분히 많은 사람들의 키를 표..
Abstract모델 기반 평가는 성공적인 모델 개발의 핵심입니다. 훈련을 위한 보상 모델로서, 그리고 인간 평가를 대체하는 수단으로 사용됩니다. 이러한 평가자를 훈련시키는 표준적인 접근 방식은 모델 응답에 대한 방대한 양의 인간 선호도 판단을 수집하는 것이지만, 이는 비용이 많이 들고 모델이 개선됨에 따라 데이터가 쓸모없게 됩니다. 이 연구에서는 인간 주석 없이 합성 훈련 데이터만 사용하여 평가자를 개선하는 것을 목표로 하는 접근 방식을 제시합니다. 레이블이 지정되지 않은 지침에서 시작하여, 반복적인 자기 개선 체계는 대조적인 모델 출력을 생성하고 LLM-as-a-Judge를 훈련하여 추론 추적 및 최종 판단을 생성하며, 개선된 예측을 사용하여 각각의 새로운 반복에서 이 훈련을 반복합니다. 레이블이 지..
Abstract최근 Large Vision-Language Models (LVLMs)의 발전은 실제 적용 가능성으로 인해 AI 분야에서 점점 더 많은 관심을 받고 있습니다. 하지만, "hallucination" 또는 더 구체적으로 말하면, 실제 시각적 콘텐츠와 그에 상응하는 텍스트 생성 사이의 불일치는 LVLMs 활용에 있어 상당한 어려움을 야기합니다. 이 포괄적인 조사에서는, LVLMs 관련 hallucinations를 분석하여 개요를 정립하고 향후 완화 노력을 촉진하고자 합니다. 먼저, LVLMs에서 hallucinations의 개념을 명확히 하고 다양한 hallucination 증상을 제시하며 LVLM hallucinations에 내재된 고유한 문제들을 강조합니다. 이어서 LVLMs에 특화된 hal..
Abstract이미지와 텍스트를 입력으로 받고 텍스트를 출력하는 vision-language models (VLMs) 분야는 빠르게 발전하고 있으며, 데이터, architecture, 훈련 방법 등 개발 파이프라인의 몇 가지 핵심 측면에 대한 합의가 아직 이루어지지 않았습니다. 이 논문은 VLM 구축에 대한 튜토리얼로 볼 수 있습니다. 먼저 현재 state-of-the-art 접근 방식에 대한 포괄적인 개요를 제공하고, 각 접근 방식의 강점과 약점을 강조하며, 이 분야의 주요 과제를 해결하고, 탐구되지 않은 영역에 대한 유망한 연구 방향을 제시합니다. 그런 다음 이전 모델인 Idefics2-8B보다 훨씬 뛰어난 성능을 발휘하면서도 효율적으로 훈련되고, open datasets만 사용하며, 간단한 파이프라..
Abstract LLaVA와 같은 LMM은 시각-언어 추론에서 강력한 성능을 보여주었습니다. 이 모델들은 먼저 이미지를 고정된 다수의 visual token으로 임베딩한 다음, LLM에 입력합니다. 그러나 이러한 설계는 고해상도 이미지 및 비디오와 같은 밀집된 시각 시나리오에서 과도한 수의 token을 발생시켜 비효율성을 초래합니다. token pruning 및 merging 방법이 존재하지만, 각 이미지에 대해 단일 길이 출력을 생성하며 정보 밀도와 효율성 사이의 균형을 유연하게 조절할 수 없습니다. Matryoshka Dolls의 개념에서 영감을 받아, M3: Matryoshka Multimodal Models를 제안합니다. 이는 시각적 콘텐츠를 여러 coarse-to-fine granularitie..
Abstract Large language models은 최근 몇 년 동안 큰 성공을 거두었고, vision 분야에서도 그 변형 모델들이 마찬가지입니다. 기존의 vision-language models은 이미지를 자연어로 설명하거나, 시각 관련 질문에 답하거나, 이미지에 대한 복잡한 추론을 수행할 수 있습니다. 그러나 word grounding 또는 referring localization과 같은 localization 작업을 large language models을 사용하여 어떻게 수행할 수 있는지는 아직 명확하지 않습니다. 이 연구에서는 위치(예: 점 또는 상자 집합)를 입력 또는 출력으로 사용할 수 있는 vision-language model을 개발하는 것을 목표로 합니다. 위치를 입력으로 사용할..