AI바라기의 인공지능
Diffusion : 논문리뷰 : Dysen-VDM:Empowering Dynamics-aware Text-to-Video Diffusion with LLMs 본문
Diffusion : 논문리뷰 : Dysen-VDM:Empowering Dynamics-aware Text-to-Video Diffusion with LLMs
AI바라기 2024. 8. 16. 13:07Abstract
텍스트-투-비디오(T2V) 합성은 커뮤니티에서 점점 더 많은 관심을 받고 있으며, 최근 등장한 diffusion models(DMs)는 과거 접근 방식보다 더 강력한 성능을 보여주고 있습니다. 기존의 최첨단 DMs는 고해상도 비디오 생성을 달성할 수 있지만, 비디오 합성의 핵심 중 하나인 복잡한 시간적 역학 모델링과 관련하여 주요 한계(예: action occurrence disorders, crude video motions)를 겪을 수 있습니다. 본 연구에서는 고품질 T2V 생성을 위해 DMs의 비디오 역학 인식 강화를 조사합니다. 인간의 직관에서 영감을 얻어, 혁신적인 dynamic scene manager(Dysen) 모듈을 설계했습니다.
이 모듈은 (1단계) 입력 텍스트에서 주요 actions를 적절한 시간 순서로 추출하고,
(2단계) action schedules를 dynamic scene graph(DSG) 표현으로 변환하며,
(3단계) DSG의 scenes를 충분하고 합리적인 세부 정보로 풍부하게 만듭니다.
기존의 강력한 LLMs(예: ChatGPT)를 in-context learning을 통해 활용하여, Dysen은 (거의) 인간 수준의 시간적 역학 이해를 실현합니다. 마지막으로, 풍부한 action scene 세부 정보를 가진 비디오 DSG는 fine-grained spatio-temporal features로 인코딩되어 백본 T2V DM에 통합되어 비디오 생성에 사용됩니다. 인기 있는 T2V 데이터셋에 대한 실험은 Dysen-VDM이 이전 기술보다 consistently 뛰어난 성능을 보여주며, 특히 복잡한 actions가 있는 시나리오에서 상당한 개선을 보여줍니다.
Introduction
최근 AI-Generated Content (AIGC)는 ChatGPT, DELLE-2 및 Stable Diffusion (SD)와 같은 흥미로운 발전과 놀라운 진보를 보여주었습니다. 생성 주제 중 하나인 텍스트-투-비디오(T2V) 합성은 제공된 텍스트 설명을 준수하는 비디오 콘텐츠를 생성하며 커뮤니티에서 점점 더 많은 관심을 받고 있습니다. 이전 연구에서는 generative adversarial networks (GANs), variational autoencoders (VAEs), flow-based models 및 auto-regressive models (ARMs)을 포함하여 T2V를 위한 다양한 방법을 개발했습니다. 최근에는 diffusion models (DMs)이 T2V의 새로운 패러다임을 제공하기 위해 등장했습니다. 이전 모델과 비교하여 DMs는 탁월한 생성 품질과 대규모 데이터셋에 대한 확장 능력을 갖추고 있어 이 분야에서 큰 잠재력을 보여줍니다.
현재 state-of-the-art (SoTA) 생성 성능을 달성했지만 DM 기반 T2V는 여전히 몇 가지 일반적이지만 무시할 수 없는 문제에 직면해 있습니다. 그림 1에 요약된 것처럼 낮은 프레임 해상도, 부드럽지 않은 비디오 전환, 조잡한 비디오 모션 및 action occurrence disorder와 같은 네 가지 일반적인 문제를 diffusion 기반 T2V 모델에서 찾을 수 있습니다. 최신 DM 기반 T2V 탐색은 고해상도 이미지 생성과 같은 비디오 프레임 품질 향상에 많은 노력을 기울였지만, 고품질 비디오 합성의 진정한 핵심인 복잡한 비디오 시간 역학 모델링, 즉 마지막 세 가지 유형의 문제를 완화하는 것을 크게 간과할 수 있습니다. 우리의 관찰에 따르면 핵심적인 병목 현상은 비디오-텍스트 modality heterogeneity의 본질에 뿌리를 두고 있습니다. 언어는 몇 개의 간결하고 추상적인 단어(예: predicates 및 modifiers)로 복잡한 actions를 설명할 수 있는 반면, 비디오는 특정하고 종종 중복되는 프레임이 필요합니다. action을 렌더링합니다.
우리가 주어진 지시에서 영화를 만들 때마다 항상 먼저 지시에서 핵심 actions를 시간 순서대로 이벤트 재생 목록으로 추출한다고 상상해 보십시오. 그런 다음 우리는 간단한 이벤트를 더 가능성 있는 특정 장면, 즉 상상력으로 풍부하게 만듭니다. 이러한 완전한 시나리오를 통해 전체 비디오를 성공적으로 투사하는 것은 쉬울 수 있습니다. 이와 같이 위의 직관에서 우리는 효과적인 T2V 모델링, 특히 복잡한 역학 시나리오를 위한 네 가지 핵심 포인트를 도출할 수 있습니다.
첫째, 순차적 언어는 반드시 물리적 발생 순서와 일치하지 않을 수 있는 일련의 움직임을 언급하므로 이벤트의 의미적 발생 순서를 적절하게 구성하는 것이 중요합니다.
둘째, 프롬프트 텍스트가 모든 action 장면을 다루지는 않으므로 세부적인 움직임이 있는 섬세한 비디오를 제작하려면 비디오 장면을 합리적으로 풍부하게 만드는 것이 필수적입니다.
셋째, 위의 프로세스는 제어 가능한 동적 장면의 상상력을 유지하기 위해 구조화된 의미의 효과적인 표현을 기반으로 수행되어야 합니다.
마지막으로, 시간적으로 일관된 비디오 생성을 위해 세밀한 시공간 features 모델링이 실현되어야 합니다.
위의 관찰을 바탕으로 이 연구에서는 비디오 역학에 대한 인식을 강화하여 고품질 T2V 생성을 달성하기 위한 틈새 시장 타겟팅 솔루션을 제시합니다. 그림 2와 같이 dynamics-aware T2V diffusion 모델을 제안합니다. 먼저 기존 SoTA 비디오 DM(VDM)을 백본 T2V 합성으로 사용하고 동시에 비디오 역학 모델링을 위한 혁신적인 dynamic scene manager(Dysen) 모듈을 고안합니다. 비디오에 대한 인간 수준의 시간 역학 이해를 실현하기 위해 현재 가장 강력한 LLM, 예를 들어 OpenAI ChatGPT(GPT3.5/GPT4)를 활용합니다. ChatGPT를 Dysen의 action planning 및 scene imagination 컨설턴트로 취급합니다.
구체적으로
1단계에서는 입력 텍스트에서 핵심 actions를 추출하여 물리적으로 발생하는 순서대로 적절하게 배열합니다.
2단계에서는 이러한 정렬된 actions를 순차적 dynamic scene graph (DSG) 표현으로 변환합니다. DSG는 의미 체계 구조에서 비디오의 고유한 시공간 특성을 나타내므로 효과적이고 제어 가능한 비디오 장면 관리가 가능합니다.
3단계에서는 DSG의 장면을 충분하고 합리적인 세부 정보로 풍부하게 만듭니다. in-context learning을 통해 ChatGPT에서 지식을 이끌어냅니다.
마지막으로, 잘 풍부해진 장면 세부 정보를 가진 결과 DSG는 새로운 recurrent graph Transformer로 인코딩되며, 여기서 학습된 섬세한 fine-grained 시공간 features는 고품질 유창한 비디오 생성을 위해 백본 T2V DM에 통합됩니다.
UCF-101, MSR-VTT 및 action-complex ActivityNet를 포함한 인기 있는 T2V 데이터 세트에서 프레임워크를 평가합니다. 여기서 모델은 자동 및 인간 평가 모두에서 기존 SoTA 방법보다 지속적으로 뛰어난 성능을 보입니다. 상당한 차이. Dysen-VDM 시스템은 더 높은 모션 충실도, 더 풍부한 동적 장면 및 더 유창한 비디오 전환으로 비디오를 생성할 수 있으며 특히 복잡한 작업이 있는 시나리오를 개선한다는 것을 보여줍니다. 방법의 각 부분이 어떻게 발전하는지 더 잘 이해할 수 있도록 심층 분석이 추가로 제시됩니다.
전반적으로 이 논문은 diffusion 모델에서 모션 역학 모델링을 강화하여 고품질 T2V 합성의 핵심을 다룹니다. 우리는 여러 측면에서 기여합니다.
(i) 우리가 아는 한, 이것은 LLM을 활용하여 action planning 및 scene imagination을 수행하고 T2V 생성을 위한 인간 수준의 시간 역학 이해를 실현하는 첫 번째 시도입니다.
(ii) dynamic scene graph 표현의 안내를 통해 diffusion 기반 T2V 합성에서 동적 장면 제어 가능성을 향상시킵니다.
(iii) 우리 시스템은 경험적으로 벤치마크 데이터 세트에서 T2V 합성의 현재 기술을 발전시킵니다. 저희 코드는 나중에 커뮤니티를 돕기 위해 공개될 예정입니다.
Related Work
주어진 텍스트 지시에서 비디오를 합성하는 T2V는 오랫동안 생성 AI의 핵심 주제 중 하나였습니다. 이전 작업 순서는 T2V를 위한 다양한 generative neural models를 제안했습니다.
초기에는 많은 시도가 GANs 모델을 이미지 생성에서 비디오 생성으로 확장했습니다. GAN은 종종 mode collapse 문제로 인해 확장성이 어려운 반면, 다른 접근 방식은 VAEs, flow-based models 및 ARMs와 같은 GAN 기반 접근 방식보다 더 나은 mode coverage 및 비디오 품질로 distribution을 학습할 것을 제안했습니다.
최근에 diffusion models가 등장했는데, 이 모델은 Gaussian distribution에서 data distribution까지 점진적인 반복 denoising 프로세스를 학습하여 광범위한 mode coverage로 고품질 샘플을 생성합니다. Diffusion 기반 T2V 방법은 보다 안정적인 training으로 더 나은 결과를 얻는 데 도움이 됩니다. 또한 latent diffusion models (LDMs)은 저차원 latent space에서 data distribution을 학습하여 계산 비용을 충분히 줄일 수 있도록 제안되었으며, 따라서 T2V 합성에 대한 관심이 높아지고 있습니다. 이 작업에서는 LDM의 발전을 계승하고 이를 백본 T2V synthesizer로 채택합니다.
주로 고충실도 해상도의 static visions 생성에 중점을 두는 text-to-image (T2I) 생성과 비교하여 T2V는 특히 scene dynamics를 포함하여 spatial&temporal semantics 모델링 모두에 더 중점을 둡니다. 이전에 일부 T2V 연구에서는 더 높은 temporal fluency 및 복잡한 모션과 같은 고품질 비디오를 생성하기 위해 비디오 역학 모델링을 탐색했지만, spatiotemporal convolutions와 같은 coarse-level 작업으로 크게 제한될 수 있습니다. DM 기반 T2V 라인에서 대부분의 방법은 dynamics 인식보다는 프레임 해상도를 향상시켜 비디오 품질을 개선하는 것을 고려합니다. 대부분의 LDM 기반 T2V 작업은 또한 3D-UNet decoder에서 spatiotemporal factorized convolutions를 사용합니다. 예를 들어 temporal shift operation을 통해 motion awareness를 강화하려고 시도합니다. 불행히도 이러한 모든 시도는 coarse-grained 모델링 유형으로 볼 수 있습니다. 이 작업에서는 DSG 표현을 기반으로 fine-grained spatiotemporal feature 모델링을 수행합니다. diffusion의 action dynamics에 대한 인식을 향상시키는 체계적인 솔루션을 제안합니다.
