AI바라기의 인공지능
Diffusion : 논문 리뷰 : Grid Diffusion Models for Text-to-Video Generation 본문
Abstract
최근 diffusion models의 발전은 text-to-image 생성 능력을 크게 향상시켰습니다. 그러나 text-to-video 생성은 훨씬 더 큰 데이터셋과 높은 계산 비용으로 인해 text-to-image 생성보다 훨씬 어려운 작업입니다.
기존의 대부분의 video 생성 방법은 시간 차원을 고려하는 3D U-Net architecture 또는 autoregressive generation을 사용합니다. 이러한 방법들은 큰 데이터셋을 필요로 하며, text-to-image 생성에 비해 계산 비용 측면에서 제한적입니다. 이러한 문제를 해결하기 위해, 우리는 architecture에 시간 차원을 포함하지 않고도 text-to-video 생성을 가능하게 하는 간단하지만 효과적인 novel grid diffusion과 큰 텍스트-비디오 쌍 데이터셋을 제안합니다. 우리는 video를 grid image로 표현함으로써 프레임 수에 관계없이 고정된 GPU 메모리 양을 사용하여 고품질 video를 생성할 수 있습니다. 또한, 우리의 방법은 video의 차원을 image의 차원으로 줄이기 때문에, image manipulation에서 text-guided video manipulation과 같이 다양한 image 기반 방법을 video에 적용할 수 있습니다. 우리가 제안한 방법은 정량적 및 정성적 평가 모두에서 기존 방법보다 뛰어난 성능을 보여, 실제 video 생성 작업에 대한 우리 모델의 적합성을 입증합니다.
Introduction
Diffusion models의 발전은 text-to-image models의 성능을 크게 향상시켰습니다.
GAN-based models과 달리, diffusion model은 학습이 더 쉽고 distribution coverage, stationary training objective, easy scalability와 같은 바람직한 특성을 제공합니다. 이러한 강점을 바탕으로 diffusion을 사용하여 텍스트에서 이미지를 조작하거나 생성하는 다양한 연구가 진행되고 있으며, 텍스트에서 비디오를 생성하는 연구 또한 활발하게 진행되고 있습니다. 그러나 video generation은 videos가 더 높은 dimensions를 가지고 있고, text-video datasets가 부족하며, text에서 image를 생성하는 것보다 더 높은 비용이 발생하기 때문에 image generation보다 더 어렵습니다. 이전 연구들은 videos의 temporal consistency와 resolution을 유지하기 위해 additional temporal dimensions과 super-resolution models을 사용하여 video를 생성합니다. Videos의 이러한 특성은 video generation에서 efficiency를 중요한 문제로 만들며, 이것이 많은 video generation 연구들이 efficiency에 초점을 맞추는 이유 중 하나입니다. 기존의 video generation paradigm과 달리, 우리는 videos의 high dimensionality를 images의 dimensionality로 줄여 상당한 GPU memory costs와 large paired dataset 없이도 high-quality video generation을 가능하게 하는 새로운 grid diffusion models를 제안합니다. 우리는 diffusion의 강점을 적극 활용하여 텍스트에서 비디오를 생성합니다.