목록전체 글 (317)
AI바라기의 인공지능
Abstract주어진 unconditional diffusion model과 target property에 대한 predictor (e.g., classifier)를 가지고, training-free guidance의 목표는 추가적인 training 없이 desirable target property를 가진 sample을 생성하는 것입니다. 기존의 방법들은 다양한 개별적인 application에서 효과적이지만, theoretical grounding과 광범위한 benchmark에 대한 엄격한 테스트가 부족한 경우가 많습니다. 결과적으로, 간단한 task에서도 실패할 수 있으며, 새로운 문제에 적용하는 것이 불가피하게 어려워집니다. 본 논문에서는 기존 방법들을 special case로 포괄하는 새로운 al..
Abstract텍스트 기반 diffusion 모델 (TGDMs)을 few-shot 액션 이미지 생성에 맞춤화하기 위해 액션과 행위자를 분리하는 새로운 방법인 TwinAct를 제안합니다. TwinAct는 기존 방법들이 적은 수의 예시 이미지로 인해 효과적인 귀납적 편향을 가지지 못하여 액션을 다른 의미론적 요소 (예: 행위자의 외모)로부터 분리하는 데 어려움을 겪는다는 한계를 해결합니다.본 연구에서는 액션에만 집중하는 텍스트 임베딩 공간인 공통 액션 공간을 도입하여 행위자 관련 세부 정보 없이 정확한 맞춤화를 가능하게 합니다. 구체적으로 TwinAct는 세 가지 주요 단계를 포함합니다.1) 대표적인 액션 구문 집합을 기반으로 공통 액션 공간 구축,2) 액션 공간 내에서 맞춤형 액션 모방,3) 액션 유사성 ..
용어 설명 PCIe (Peripheral Component Interconnect Express): 컴퓨터 내부에서 CPU와 주변 장치들을 연결하는 고속 버스, 그래픽 카드, 네트워크 카드, SSD 등 다양한 장치들이 PCIe를 통해 연결 GPU 클러스터: 여러 개의 GPU를 연결하여 하나의 시스템처럼 동작하도록 구성한 것 GPU 간 통신: GPU 클러스터에서 각 GPU는 서로 데이터를 주고받으며 작업을 수행 Abstract - 용어 설명 1. Collective communication primitives:여러 개의 프로세스나 GPU가 동시에 참여하는 통신 방식을 말합니다.예를 들어, 여러 GPU가 각자 계산한 결과를 모두 합치거나, 특정 데이터를 모든 GPU에 전달하는 등의 작업이 이에 속합니다...
Abstract "누가 오른쪽에 있는 악기를 발명했는가?"와 같은 복잡한 visual task를 해결하려면 공간 이해, 악기 인식, 사전 지식 검색 등 여러 skills를 조합해야 합니다. 최근 연구에서는 large language model (LLM)을 사용하여 이러한 task를 specialized vision model을 호출하는 실행 가능한 program으로 분해함으로써 가능성을 보여주었습니다. 그러나 생성된 program은 오류가 발생하기 쉽습니다. 필요한 단계를 생략하거나, 불필요한 단계를 포함하거나, specialized model이 잘못된 출력을 제공할 때 복구할 수 없습니다. 또한 여러 model을 로드해야 하므로 latency가 높아지고 계산 비용이 많이 듭니다.저희는 single fo..
Abstract 기저(bases)는 feature extractor 또는 미래 참조 역할을 수행하는 능력 덕분에 최신 딥 러닝 기반 시계열 예측 모델의 필수적인 부분이 되었습니다. 효과적인 기저는 특정 시계열 데이터 세트에 맞춰져야 하고 세트 내의 각 시계열과 뚜렷한 상관관계를 나타내야 합니다. 그러나 현재 최첨단 방법들은 이러한 두 가지 요구 사항을 동시에 충족하는 능력이 제한적입니다. 이러한 문제를 해결하기 위해, 본 논문에서는 학습 가능하고 해석 가능한 기저를 활용하는 end-to-end 시계열 예측 architecture인 BasisFormer를 제안합니다.이 architecture는 세 가지 구성 요소로 이루어져 있습니다. 첫째, 시계열의 과거 및 미래 부분을 두 개의 별개의 view로 취급하고..
ABSTRACT 텍스트 조건부 diffusion model은 neural video generation을 위한 유망한 도구로 부상했습니다. 그러나 현재 모델들은 여전히 복잡한 시공간적 프롬프트에 어려움을 겪고 있으며 제한적이거나 잘못된 움직임을 생성하는 경우가 많습니다. 이러한 한계를 해결하기 위해 LLM-grounded Video Diffusion (LVD)을 소개합니다. LVD는 텍스트 입력에서 직접 비디오를 생성하는 대신 먼저 large language model (LLM)을 활용하여 텍스트 입력을 기반으로 동적 scene layout을 생성하고, 이후 생성된 layout을 사용하여 video generation을 위한 diffusion model을 안내합니다.LLM은 텍스트만으로 복잡한 시공간적..
Abstract 최근 텍스트-투-비디오 (T2V) 생성 방법은 상당한 발전을 이루었습니다. 그러나 이러한 연구의 대부분은 단일 이벤트의 짧은 비디오 클립 (즉, 단일 장면 비디오)을 생성하는 데 중점을 둡니다. 한편, 최근 대규모 언어 모델 (LLM)은 downstream visual module을 제어하기 위한 레이아웃 및 프로그램을 생성하는 능력을 입증했습니다. 이는 중요한 질문을 제기합니다. 시간적으로 일관된 긴 비디오 생성을 위해 이러한 LLM에 내장된 지식을 활용할 수 있을까요? 이 논문에서 우리는 LLM의 지식을 비디오 콘텐츠 계획 및 grounded video generation에 사용하는 일관된 다중 장면 비디오 생성을 위한 새로운 프레임워크인 VIDEODIRECTORGPT를 제안합니다. ..
Abstract 최근 Vision-Language Models (VLMs)의 발전과 고품질 멀티모달 정렬 데이터의 부족은 합성 VLM 데이터 생성에 대한 많은 연구를 이끌어 냈습니다. 기존의 VLM 데이터 구축 방식은 캡션 및 OCR 전문가를 혼합하거나 더 강력한 VLM API와 값비싼 human annotation을 사용합니다. 본 논문에서는 최종 생성 출력을 Python 코드 형식으로 구성하는 멀티모달 데이터 구축 파이프라인인 World to Code (W2C)를 제시합니다. 이 파이프라인은 VLM 자체를 활용하여 다양한 프롬프트를 통해 cross-modal 정보를 추출하고 consistency filtering 전략을 통해 생성된 출력을 다시 필터링합니다. 실험 결과, W2C는 다양한 VLM에서 ..
Abstract 초대규모 데이터셋에서 단어의 연속 벡터 표현을 계산하기 위한 두 가지 새로운 모델 architecture를 제안합니다. 이러한 표현의 품질은 단어 유사성 작업에서 측정되며, 그 결과는 다양한 유형의 neural networks를 기반으로 이전에 가장 우수한 성능을 보인 기술과 비교됩니다. 훨씬 낮은 계산 비용으로 정확도가 크게 향상되었음을 확인했습니다. 즉, 16억 단어 데이터 세트에서 고품질 단어 벡터를 학습하는 데 하루도 걸리지 않습니다. 또한 이러한 벡터가 구문 및 semantic 단어 유사성을 측정하기 위한 테스트 세트에서 state-of-the-art 성능을 제공함을 보여줍니다. 1 Introduction 많은 현재 NLP 시스템과 기술은 단어를 atomic unit으로 취급합..
World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering: 더보기1. 이미지를 보고 VLM을 통해 캡션 생성VLM(Vision-Language Model)을 사용하여 짧은 일반 캡션(General Caption)과 디테일한 세부 캡션(Detail Caption)을 생성합니다.짧은 캡션: 이미지 전체를 요약하는 한두 문장. (예: "A park with a tree and a dog.")디테일 캡션: 이미지 내의 가능한 모든 객체와 속성을 최대한 상세히 설명하는 문장. (예: "A large green tree stands near a small brown dog.")2. 캡션에서 ..