AI바라기의 인공지능

Vision : 논문리뷰 : Object-Centric Slot Diffusion 본문

논문리뷰

Vision : 논문리뷰 : Object-Centric Slot Diffusion

AI바라기 2024. 10. 10. 10:20

논문 설명에 앞선 object-centric learning에 대해서 설명.

더보기

Object-Centric Learning이란?

Object-Centric Learning (OCL)은 이미지나 장면을 전체적으로 처리하는 대신, 개별 객체 중심으로 이해하고 표현하는 인공지능 학습 방식입니다. 마치 사람이 세상을 인지할 때 사물 단위로 구분하고 이해하는 것과 유사하다고 볼 수 있습니다.

전통적인 컴퓨터 비전에서는 이미지를 픽셀의 집합으로 처리하여 객체의 의미론적인 정보를 파악하는 데 어려움을 겪었습니다. 반면 OCL은 이미지를 구성하는 객체들을 개별적으로 인식하고, 각 객체의 특징, 관계, 그리고 동작을 학습하여 장면에 대한 더욱 심층적인 이해를 가능하게 합니다.

OCL의 주요 목표는 다음과 같습니다.

  • 장면 이해: 이미지 또는 비디오에서 객체를 식별하고 분할합니다.
  • 객체 표현: 각 객체의 속성, 관계 및 동작을 나타내는 표현을 학습합니다.
  • 추론 및 예측: 학습된 객체 표현을 기반으로 장면에서 객체의 미래 행동을 예측하거나 장면에 대한 추론을 수행합니다.

OCL의 장점:

  • 합성성: 객체 중심 표현은 장면을 구성 요소로 분해하여 새로운 장면을 생성하거나 기존 장면을 수정하는 데 유용합니다.
  • 일반화: OCL 모델은 학습 중에 보지 못한 새로운 객체나 장면에도 일반화할 수 있습니다.
  • 효율성: 객체 중심 표현은 장면의 복잡성을 줄여 학습 및 추론을 더 효율적으로 만듭니다.

OCL의 주요 개념 및 기술:

  • 객체 감지 및 분할: 이미지에서 객체의 위치를 파악하고 배경과 분리하는 기술입니다.
  • 슬롯 어텐션 (Slot Attention): 이미지에서 객체를 나타내는 슬롯(slot)이라는 고정된 수의 표현을 학습하는 메커니즘입니다.
  • 객체 관계 추론: 객체 간의 관계 (예: 공간적 관계, 상호 작용)를 모델링하는 기술입니다.
  • 장면 그래프 (Scene Graph): 객체와 관계를 그래프 형태로 표현하여 장면에 대한 구조적 정보를 제공합니다.

OCL의 응용 분야:

  • 로봇 공학: 로봇이 주변 환경을 이해하고 객체를 조작하는 데 활용됩니다.
  • 자율 주행: 자율 주행 차량이 도로 환경을 인지하고 다른 차량이나 보행자와 상호 작용하는 데 사용됩니다.
  • 이미지 캡셔닝: 이미지 내용을 설명하는 자연어 문장을 생성합니다.
  • 비디오 분석: 비디오에서 객체의 움직임을 추적하고 행동을 분석합니다.

OCL은 컴퓨터 비전 분야에서 핵심적인 연구 주제이며, 인공지능 시스템이 인간과 유사한 방식으로 세상을 이해하고 상호 작용하는 데 중요한 역할을 할 것으로 기대됩니다.

 
 
 
 

 

 

 

Abstract

 

Transformer 기반 이미지 생성 모델이 object-centric learning에서 최근 거둔 성공은 복잡한 장면을 처리하기 위한 강력한 이미지 생성기의 중요성을 강조합니다. 그러나 이미지 생성에서 diffusion model의 높은 표현력에도 불구하고 object-centric learning에 대한 통합은 이 분야에서 거의 연구되지 않았습니다. 본 논문에서는 diffusion model을 object-centric learning에 통합하는 것의 타당성과 잠재력을 탐구하고 이 접근 방식의 장단점을 조사합니다.

저희는 Latent Slot Diffusion (LSD)이라는 새로운 모델을 소개합니다. 이 모델은 두 가지 목적을 수행합니다.

 

첫째, 기존의 slot decoder를 object slot을 조건으로 하는 latent diffusion model로 대체한 최초의 object-centric learning 모델입니다.

둘째, 텍스트와 같은 supervised annotation 없이 작동하는 최초의 unsupervised compositional conditional diffusion model입니다.

 

FFHQ 데이터셋을 이 분야에 처음으로 적용하는 것을 포함하여 다양한 object-centric task에 대한 실험을 통해 LSD가 특히 더 복잡한 장면에서 state-of-the-art transformer 기반 decoder보다 훨씬 뛰어난 성능을 보이고 우수한 unsupervised compositional generation 품질을 나타냄을 입증했습니다. 또한 LSD에서 pre-trained diffusion model의 통합에 대한 예비 조사를 수행하고 실제 이미지 분할 및 생성에서 효과를 입증했습니다.

 

 

Introduction

물리적 세계의 기본 구조는 구성적이고 모듈식입니다. 이러한 구조는 토큰이나 단어 형태의 언어와 같은 일부 데이터 양식에서는 자연스럽게 드러나지만, 이미지와 같은 다른 양식에서는 이러한 구조를 발견하기가 쉽지 않습니다. 그러나 이러한 표현의 구성성과 모듈성은 지식 조각을 체계적으로 조작하여 고급 인지 능력을 달성해야 하는 다양한 응용 분야에 필수적입니다. 여기에는 추론, 인과 추론, 그리고 분포 외 일반화가 포함됩니다.

 

Object-centric learning은 관련 features를 결합하여 unsupervised 방식으로 유용한 토큰을 형성함으로써 비정형 관찰에서 잠재적인 구성 구조를 발견하는 것을 목표로 합니다. 이미지의 경우 가장 널리 사용되는 접근 방식 중 하나는 Slot Attention encoder를 통해 이미지를 auto-encode하는 것입니다. Slot Attention은 경쟁적인 spatial attention을 적용하여 이미지를 개별 로컬 영역으로 분할한 다음 각 영역에서 slot이라는 표현을 얻습니다. 그런 다음 decoder는 재구성 오류를 최소화하기 위해 slot에서 이미지를 생성합니다. slot 용량이 제한되어 있고 slot 간에 경쟁이 있기 때문에 각 slot은 객체와 같은 재사용 가능하고 구성적인 엔터티를 캡처하도록 권장됩니다.

 

Unsupervised object-centric learning 프레임워크에 남아 있는 주요 과제는 복잡한 자연주의적 장면 이미지에 대해 작동하도록 만드는 것입니다. 최근까지 대부분의 object-centric model은 mixture decoder라는 특수한 유형의 decoder를 채택했습니다. 약한 slot-wise decoder는 비교적 단순한 장면 이미지에서 object-centric representation의 출현을 촉진하는 데 효과적이기 때문에 이 mixture decoder에서 주로 사용되지만, 추가 연구에서는 이러한 강력한 사전 지식이 복잡한 자연주의적 장면 이미지를 처리하는 것을 더 어렵게 만들 수 있음을 보여주었습니다.

기존의 통념과는 달리, Singh et al.은 최근 이러한 low-capacity mixture-decoder 접근 방식에서 벗어나 object-centric learning에서 expressive transformer 기반 autoregressive 이미지 생성기를 사용할 것을 제안했습니다. 이 프레임워크에서 복잡하고 자연스러운 장면을 처리하려면 decoder 용량을 늘리는 것이 중요한 것으로 나타났습니다.

 

Object-centric learning에서 transformer 기반 이미지 생성 모델링의 성공은 자연스럽게 다음과 같은 질문으로 이어집니다. 고도로 expressive한 생성 기능으로 유명한 최신 딥 생성 모델링의 또 다른 축인 diffusion model도 object-centric learning에 도움이 될 수 있을까요? Diffusion model은 확률적 denoising 프로세스를 기반으로 하며 다양한 이미지 생성 task에서 인상적인 성능을 보여주었으며, 때로는 transformer 기반 autoregressive model을 능가하기도 합니다. 또한 diffusion model은 transformer 기반 autoregressive model이 제공할 수 없는 고유한 모델링 기능을 가지고 있습니다. 그러나 잠재력에도 불구하고 unsupervised object-centric learning에 대한 diffusion model의 적용 가능성은 아직 많이 연구되지 않았습니다. 따라서 이 접근 방식의 타당성을 검토하고 관련 이점과 한계를 파악하는 것이 중요합니다.

 

 

본 논문에서는 Latent Slot Diffusion (LSD)이라는 새로운 모델을 도입하여 이 질문에 답합니다. LSD 모델은 두 가지 관점에서 해석할 수 있습니다. Object-centric learning의 관점에서 LSD는 기존의 slot decoder를 conditional latent diffusion model로 대체한 최초의 모델로 볼 수 있으며, 여기서 조건은 Slot Attention에서 제공하는 object-centric slot입니다. Diffusion model의 관점에서 볼 때, 우리의 접근 방식은 최초의 unsupervised compositional conditional diffusion model입니다. 기존의 conditional diffusion model은 구성 생성을 위해 이미지에 대한 텍스트 설명과 같은 supervised annotation이 필요하지만 LSD는 unsupervised object-centric learning을 통해 이미지에서 추출한 시각적 개념으로 구성 설명을 구성할 수 있는 diffusion model입니다.

 

실험에서 unsupervised object segmentation, downstream property prediction, compositional generation, 이미지 편집을 포함한 다양한 object-centric task에서 제안된 모델을 평가합니다. LSD 모델은 state-of-the-art 모델, 즉 transformer 기반 autoregressive 생성 모델에 비해 훨씬 뛰어난 성능을 제공함을 보여줍니다. 제안된 모델의 주목할 만한 특징은 장면 복잡성이 증가함에 따라 autoregressive transformer에 대한 LSD의 성능 이점이 증가한다는 것입니다. 특히 LSD를 사용하면 기존 object-centric model의 생성 기능을 능가하는 고해상도 및 고품질 얼굴 이미지 모음인 FFHQ 데이터 세트에 대한 object-centric model의 적용 가능성을 처음으로 탐색할 수 있습니다.

또한 CLEVR 데이터 세트의 이미지와 같이 매우 단순한 장면 이미지에서 LSD가 직면한 overfitting 문제에 대해 논의하고 이 문제를 해결하기 위한 제안을 제공합니다.

 

 

 

 

 

 

요약본 올립니다.

 

더보기

1. 연구 목적:
이 논문의 목적은 디퓨전 모델을 오브젝트 중심 학습에 통합하는 가능성을 탐구하고, 이를 통해 복잡한 이미지 생성 및 분할 작업에서 기존 방법들보다 더 나은 성능을 보이는 Latent Slot Diffusion (LSD) 모델을 제안하는 것입니다.

  • research purpose: 디퓨전 모델과 오브젝트 중심 학습의 통합 가능성 탐구 및 새로운 LSD 모델 제안

2. 학문적 및 산업적 기여:

  • 학문적 기여: LSD 모델은 기존 트랜스포머 기반 디코더보다 우수한 성능을 보이며, 비지도 학습을 통해 오브젝트 중심의 이미지 생성과 세분화 작업에서 중요한 성과를 냄.
  • 산업적 기여: LSD 모델은 복잡한 이미지 생성 및 객체 분할 작업에서 고품질의 성과를 보여, 실세계 응용에서 컴퓨터 비전 및 이미지 생성 관련 분야에 적용될 수 있음.

3. 사용된 방법론:

  • Object-Centric Encoder: Slot Attention을 사용하여 입력 이미지를 N개의 슬롯으로 분해하고, 각 슬롯이 이미지 내에서 개별적인 컴포넌트를 나타내도록 학습.
  • Latent Slot Diffusion Decoder: 디퓨전 모델을 이용해 슬롯에서 이미지를 재구성하는 방식을 제안. 슬롯 기반의 조건부 디퓨전 과정을 통해 이미지를 생성함.
  • Pre-Trained Image Auto-Encoder: 사전 학습된 이미지 오토인코더를 사용하여 이미지를 저차원 잠재 공간으로 인코딩하고, 이를 통해 고해상도의 이미지를 복원.
  • Slot-Conditioned Diffusion: 슬롯에 조건을 건 디퓨전 과정을 통해 이미지의 잠재 공간을 순차적으로 디노이징하여 원본 이미지를 복원하는 방식.

4. 연구의 독창성:

  • 오브젝트 중심 학습에 디퓨전 모델 도입: 기존의 슬롯 기반 디코더를 디퓨전 모델로 대체한 최초의 모델.
  • 비지도 합성 생성 가능성 탐구: 텍스트 등 지도 학습의 도움 없이 슬롯 기반 개념 프롬프트를 통한 이미지 합성 가능성 제시.

5. 연구의 한계:

  • 성능 평가의 제약: 실세계 데이터에 대한 평가가 일부 제한적임.
  • 학습 비용: LSD 모델은 훈련에 높은 메모리와 계산 자원을 요구함.

 

 

 

 

 

1. Object-Centric Encoder (오브젝트 중심 인코더)

  • 설명: Slot Attention을 기반으로 한 인코더는 입력 이미지를 여러 개의 '슬롯'으로 분해합니다. 각 슬롯은 이미지 내에서 별개의 객체(또는 개념)를 나타냅니다. 이 과정은 경쟁적 주의(attention) 메커니즘을 사용해 이미지의 다른 영역을 독립적으로 추출하여, 각 슬롯이 특정한 물리적 객체를 나타내도록 학습합니다.
    • Slot Attention: 입력 이미지를 특징 벡터로 변환한 후, 여러 개의 슬롯이 각 특징 벡터에 대해 주의를 집중하여 객체별로 분리된 표현을 얻습니다. 초기 슬롯은 무작위로 초기화되며, 반복적인 주의 메커니즘을 통해 각 슬롯이 적합한 영역에 대한 정보를 수집합니다.
    • 비지도 학습 가능 이유: 슬롯 주의 메커니즘은 사전 레이블이나 지도 정보 없이 이미지 내의 유사한 특징을 자동으로 그룹화해 객체를 학습합니다. 이미지 재구성 과정에서 슬로팅된 객체들이 이미지 내에서 분리되기 때문에 객체 중심의 표현이 비지도 방식으로 학습됩니다.

2. Latent Slot Diffusion Decoder (잠재 슬롯 디퓨전 디코더)

  • 설명: 디퓨전 모델을 기반으로 한 디코더는 슬롯 Attention에서 나온 정보를 사용하여 이미지를 재구성합니다. 이 과정은 이미지 생성의 한 종류로, 디노이징(diffusion) 과정을 거쳐 이미지를 복원하거나 새롭게 생성할 수 있습니다.
    • 디퓨전 모델은 노이즈가 점차 더해지는 과정에서 그 노이즈를 제거하는 방식으로 학습되며, 여기서 슬롯을 조건으로 삼아 슬롯에 맞는 이미지를 생성합니다.
    • 비지도 학습 가능 이유: 디퓨전 과정에서 지도 학습에 필요한 레이블(예: 텍스트 설명) 없이 이미지 자체의 특징을 통해 학습이 이루어집니다. 디코더가 슬롯을 기반으로 이미지를 복원하므로, 슬롯이 객체를 적절히 표현할 수 있도록 인코더와 함께 학습됩니다. 이 과정은 이미지의 재구성 오차를 최소화하는 목표로 작동하므로, 별도의 지도 정보 없이도 모델이 작동할 수 있습니다.

3. Pre-Trained Image Auto-Encoder (사전 학습된 이미지 오토인코더)

  • 설명: 사전 학습된 오토인코더는 이미지를 저차원 잠재 공간으로 압축하고, 이를 다시 원래의 고해상도 이미지로 복원하는 역할을 합니다. LSD 모델에서는 이미지를 이 잠재 공간으로 변환한 후, 이를 디퓨전 모델의 입력으로 사용합니다. 이렇게 하면 고해상도 이미지를 직접 처리하지 않고도 효율적으로 복원이 가능해집니다.
    • 비지도 학습 가능 이유: 오토인코더는 원본 이미지와 복원된 이미지 사이의 차이를 최소화하는 방식으로 학습됩니다. 이는 지도 데이터 없이도 학습될 수 있으며, 각 객체(슬롯)의 잠재 표현을 사용해 이미지를 복원하기 때문에 비지도 학습이 가능합니다.

4. Slot-Conditioned Diffusion (슬롯 기반 조건부 디퓨전)

  • 설명: 슬롯 기반 조건부 디퓨전 모델은 객체 중심의 슬롯을 조건으로 사용하여 이미지를 복원하는 방식입니다. 이 과정에서 디퓨전 모델은 이미지의 잠재 벡터(z0)를 슬롯 정보로 조건화하여 디노이징 과정을 수행하고, 점차적으로 노이즈를 제거하면서 원본 이미지를 복원합니다.
    • 슬롯이 제공하는 정보는 객체별로 나뉘어 있으며, 이를 기반으로 각 객체를 표현한 후 전체 이미지를 복원할 수 있습니다.
    • 비지도 학습 가능 이유: 디퓨전 모델은 슬롯에 조건을 걸어 이미지를 재구성합니다. 이 과정에서 별도의 지도 정보 없이도 슬롯을 통해 각 객체가 재구성되며, 슬롯 자체가 비지도 학습을 통해 학습되기 때문에 지도 학습 없이 작동합니다.

5. Compositional Generation (합성 생성)

  • 설명: 학습된 슬롯을 사용해 새로운 이미지를 생성하는 방법입니다. 슬롯은 비지도 학습을 통해 각 객체의 개념을 학습하게 되고, 이를 조합하여 새로운 이미지의 각 객체에 해당하는 슬롯을 설정하여 이미지 생성을 할 수 있습니다.
    • 예를 들어, 얼굴 이미지의 경우 머리카락, 얼굴, 옷, 배경 등 각각의 요소에 대한 슬롯을 조합하여 새로운 얼굴 이미지를 생성할 수 있습니다.
    • 비지도 학습 가능 이유: 이 과정은 이미지의 각 객체를 나타내는 슬롯을 학습하고, 이를 조합하여 새로운 이미지를 생성할 수 있기 때문에 지도 학습 없이도 가능한 방식입니다.