AI바라기의 인공지능

Vision : 논문리뷰 : Object-Centric Learning for Real-World Videos by Predicting Temporal Feature Similarities 본문

논문리뷰

Vision : 논문리뷰 : Object-Centric Learning for Real-World Videos by Predicting Temporal Feature Similarities

AI바라기 2024. 10. 10. 11:19

Abstract

 

레이블이 지정되지 않은 대규모 비디오 컬렉션에서 구조화된 표현을 학습하는 비지도 학습 기반의 video-based object-centric learning은 유망한 접근 방식이지만, 이전 방법들은 제한된 영역의 실제 데이터 세트에만 적용 가능했습니다. 최근, 사전 학습된 self-supervised features를 재구성하면 제약 없는 실제 이미지 데이터 세트에서 object-centric 표현을 얻을 수 있다는 것이 밝혀졌습니다. 이러한 접근 방식을 기반으로, 본 논문에서는 사전 학습된 features를 temporal feature similarity loss 형태로 사용하는 새로운 방법을 제안합니다.

 

손실 함수는 이미지 패치 간의 semantic 및 temporal correlations를 인코딩하며 object discovery를 위한 motion bias를 도입하는 자연스러운 방법입니다. 본 논문에서는 이 손실 함수가 까다로운 합성 MOVi 데이터 세트에서 state-of-the-art 성능을 달성함을 보여줍니다. feature reconstruction loss와 함께 사용할 경우, 제안된 모델은 YouTube-VIS와 같은 제약 없는 비디오 데이터 세트에 적용 가능한 최초의 object-centric 비디오 모델입니다.

 

 

 

 

 

introduction

 

자율 시스템은 독립적인 개체 단위로 자연 세계를 이해할 수 있어야 합니다. 이를 위해 비지도 학습 기반의 object-centric learning 방법들은 원시 감각 데이터만을 사용하여 장면을 객체 표현으로 구조화하는 법을 학습합니다. 대규모 데이터 세트를 활용함으로써, 이러한 방법들은 자연 세계에 대한 강력한 객체 기반 이해를 얻을 수 있는 잠재력을 가지고 있습니다.

특히 최근에는 비디오 기반 방법들이 많은 관심을 받고 있는데, 이는 비디오의 시간적 정보가 object discovery에 유용한 편향을 제공하기 때문입니다. 그러나 이러한 접근 방식은 아직까지 제한된 복잡도의 데이터에 국한되어 있으며, 제한된 영역의 closed-world 데이터 세트에서만 자연 비디오에서 객체를 성공적으로 찾아냅니다.

 

본 논문에서는 다양한 영역을 포괄하는 제약 없는 실제 데이터 세트에 video object-centric learning을 적용할 수 있는 Video Slot Attention Using temporal feature similaRity (VideoSAUR) 방법을 제시합니다. 이를 위해 이미지 기반 object-centric learning의 최근 발전을 토대로 합니다. 특히, Seitzer et al. 은 DINO 또는 MAE와 같은 self-supervised 방법으로 얻은 사전 학습된 features를 재구성하면 복잡한 실제 이미지에서 최첨단 object discovery를 얻을 수 있음을 보여주었습니다. 본 논문에서는 이 feature reconstruction 목표를 video object-centric model과 결합하면 실제 YouTube 비디오에서도 유망한 결과를 얻을 수 있음을 보여줍니다.

 

 

또한, 현재 비지도 학습 video object-centric 아키텍처의 학습 목표에서 약점을 파악합니다. 널리 사용되는 reconstruction loss는 비디오 데이터에 존재하는 시간적 상관 관계를 객체 그룹화에 활용하지 않습니다. 이 문제를 해결하기 위해 시간 정보를 명시적으로 통합하는 새로운 self-supervised loss를 제안합니다 (그림 1 참조).

 

Figure 1은 VideoSAUR 모델의 핵심 아이디어인 temporal similarity loss를 설명하는 그림입니다.

이 그림은 모델이 현재 프레임의 각 패치 (작은 이미지 조각) 에 대해 k 스텝 이후의 미래 프레임에서 해당 패치와 의미적으로 유사한 패치들이 어디로 이동했는지 예측하는 것을 보여줍니다.

 

 

 

이 손실 함수는 현재 프레임과 미래 프레임의 features 간 유사성에 대한 분포를 예측하여 작동합니다. 이러한 분포는 개별 이미지 패치의 움직임에 대한 정보를 인코딩합니다. slot bottleneck을 통해 이러한 움직임을 효율적으로 예측하기 위해 모델은 유사한 움직임을 가진 패치를 동일한 slot으로 그룹화하도록 유도되어, 객체에 속하는 패치가 일관되게 움직이는 경향이 있으므로 더 나은 객체 그룹화를 얻을 수 있습니다. 실험 결과, 이러한 temporal similarity loss는 까다로운 합성 비디오 데이터 세트에서 최첨단 성능을 달성하고 feature reconstruction loss와 함께 사용할 때 실제 비디오에서 성능을 크게 향상시키는 것으로 나타났습니다.

 

비디오 처리에서 모델 효율성은 특히 중요합니다. 따라서 최근 3D 객체 모델링을 위해 제안된 SlotMixer decoder를 비디오 디코딩에 적용하여 효율적인 object-centric video architecture를 설계했습니다. 이전 decoder 디자인과 비교하여 SlotMixer decoder는 slot 수에 따라 효율적으로 확장되지만 객체 그룹화에 대한 귀납적 편향이 약합니다. 이러한 약한 편향은 기존 reconstruction loss와 함께 사용할 때 최적화 문제로 나타나지만 제안된 temporal similarity loss를 사용하면 안정적으로 학습됩니다. 이는 유사성 손실의 self-supervised 특성 때문입니다. 재구성과 비교하여 입력에 직접 포함되지 않은 정보를 예측해야 합니다. 더 어려운 작업은 SlotMixer decoder의 약한 편향을 보완하는 것으로 보입니다.

 

요약하자면, 본 논문의 기여는 다음과 같습니다.

(1) temporal feature similarity를 기반으로 object-centric learning을 위한 새로운 self-supervised loss를 제안합니다.

(2) 이 손실 함수를 SlotMixer decoder 기반의 효율적인 비디오 아키텍처와 결합하여 최적화 문제를 시너지 효과로 줄입니다.

(3) 제안된 모델이 합성 MOVi 데이터 세트에서 최첨단 기술을 크게 향상시키는 것을 보여줍니다.

(4) 완전히 비지도 학습 상태를 유지하면서 YouTube-VIS 데이터 세트에서 video object-centric 표현을 학습할 수 있음을 보여줍니다. 본 논문은 비디오에 대한 제약 없는 실제 object-centric learning을 향한 큰 발걸음을 내딛습니다.

 

 

 

 

요약본도 함꼐 올립니다.

더보기

1. 연구 목적

저자들의 연구 목적은 비지도 학습을 통해 현실 세계의 비디오 데이터에서 객체 중심의 표현을 학습하는 새로운 방법을 제시하는 것입니다. 이를 위해 사전 학습된 자가 지도 비전 트랜스포머(ViT)를 활용하여 시간적 특징 유사성 손실을 통해 객체를 발견하고, 기존 방법들보다 더 복잡한 데이터셋에서도 성능을 발휘할 수 있는 객체 중심 비디오 모델을 개발하는 것입니다.

  • 연구 목적: 비지도 학습을 통한 객체 중심 비디오 학습 방법 개발

2. 학문적 및 산업적 기여

  • 학문적 기여: 새로운 시간적 특징 유사성 손실을 도입하여 객체 발견에 있어 중요한 시간적 정보를 활용할 수 있게 함. 이는 기존의 객체 중심 비디오 학습에서 발생하는 한계를 극복하는 데 기여.
  • 산업적 기여: YouTube-VIS와 같은 대규모 실제 비디오 데이터셋에 적용할 수 있는 객체 중심 학습 모델을 제시하여, 자율주행 및 컴퓨터 비전 관련 산업에서 객체 인식 및 추적 기술의 향상을 기대할 수 있음.

3. 연구 방법론

  • Slot Attention for Videos with Dense Self-Supervised Representations: 비디오 프레임에서 객체 중심 슬롯을 추출.
  • Temporal Similarity Loss: 시간적 유사성 분포를 예측하여 객체 그룹화.
  • SlotMixer Decoder: 비디오의 객체 정보를 효율적으로 디코딩하는 모듈.

4. 연구의 독창성

  • 새로운 손실 함수 도입: 시간적 유사성 손실을 통해 객체 발견을 개선.
  • 실세계 데이터셋 적용: YouTube-VIS와 같은 복잡한 현실 세계 비디오 데이터셋에서 성능을 발휘할 수 있는 모델 제안.

5. 연구 한계

  • 슬롯 재할당 문제: 긴 비디오에서 슬롯이 객체나 배경에 잘못 할당되는 문제가 발생할 수 있음.
  • 고정된 슬롯 개수: 슬롯 개수를 사전에 고정해야 하는 한계가 있음.
  • 제한된 데이터셋: 실제 데이터셋이 제한된 환경에서 이루어져, 완전히 열린 세계의 상황을 다루지는 못함.

 

 

 

연구 방법론 설명

  1. Slot Attention for Videos with Dense Self-Supervised Representations
    이 방법론은 비디오 데이터를 효율적으로 처리하기 위해 **비전 트랜스포머(ViT)**를 기반으로 한 자가 지도 학습된 프레임 특징을 사용하여 각 프레임을 작은 패치 단위로 나눕니다. 각 패치에서 객체 중심의 "슬롯"을 추출하는데, 이 슬롯은 비디오 프레임의 시간적 정보를 활용하여 프레임 간에 일관성 있게 객체를 추적할 수 있도록 하는 역할을 합니다.
    • ViT가 각 프레임을 처리하여 여러 패치(feature vectors)를 생성.
    • 이 패치들은 Slot Attention 모듈을 통해 객체별로 그룹화되며, 이전 프레임에서 계산된 슬롯을 활용해 현재 프레임의 객체 표현을 업데이트.
  2. Temporal Similarity Loss
    Temporal Similarity Loss는 비디오 데이터에서 객체의 시간적 움직임을 예측하는 손실 함수입니다. 각 프레임에서 객체로 분류된 패치가 시간의 흐름에 따라 어떻게 이동하는지를 예측하게 만듭니다. 이때, 단순히 픽셀의 움직임만 예측하는 것이 아니라, 객체의 의미론적 일관성을 유지하는 방향으로 학습이 진행됩니다. 예를 들어, 같은 의미를 지닌 패치들이 시간이 지나도 비슷하게 묶여있도록 하는 원리입니다.
    • 현재 프레임과 미래 프레임 간의 코사인 유사도를 기반으로 패치들 사이의 유사성을 계산한 후, 해당 패치들이 같은 객체에 속하는지를 예측.
    • 유사도 행렬을 소프트맥스 함수로 변환하여 시간적 이동 확률을 예측.
    • 패치들이 같은 객체로 그룹화될 수 있도록 유사도 기반의 손실을 적용.
  3. SlotMixer Decoder
    SlotMixer는 비디오 데이터를 디코딩하는데 필요한 계산량을 줄이면서도 높은 성능을 유지할 수 있도록 설계된 디코더입니다. 기존 디코더는 객체별로 여러 번 디코딩을 해야 했으나, SlotMixer는 이를 한 번만 수행해 메모리 사용량과 계산 시간을 줄입니다. 이 디코더는 ViT에서 생성된 프레임 패치를 시간적 일관성을 유지하면서 객체별로 묶어주는 역할을 하며, 이를 통해 더 효율적인 객체 분리와 추적이 가능합니다.

 

 

 

 

Temporal Similarity Loss가 Reconstruction Loss보다 더 나은 이유

Reconstruction Loss는 주어진 입력을 재구성하는 것을 목표로 하는 손실 함수로, 영상의 각 프레임을 정확히 재현하기 위해 학습이 진행됩니다. 이는 프레임 간의 시간적 정보를 고려하지 않으며, 단지 픽셀 단위로 현재 프레임을 복원하는데 초점을 맞춥니다. 따라서 Reconstruction Loss는 프레임 간의 관계객체의 움직임을 반영하지 못하고, 단순한 이미지 복원에 머무르는 경향이 있습니다.

반면 Temporal Similarity Loss는 프레임 간에 시간적 일관성을 보존하는 방식으로 학습을 유도합니다. 구체적으로는, 다음과 같은 이유로 Temporal Similarity Loss가 더 효과적입니다:

  1. 시간적 일관성 학습
    Temporal Similarity Loss는 단순히 한 프레임 내에서 이미지를 복원하는 것보다 객체의 이동 경로를 학습하게 만듭니다. 이는 시간에 따라 변화하는 객체의 모션 정보를 바탕으로 일관된 객체 그룹화를 가능하게 합니다. 예를 들어, 같은 의미의 패치들이 시간이 지남에 따라 어디로 이동하는지를 예측함으로써, 객체 간의 시간적 상호작용을 학습합니다.
    • Reconstruction Loss는 프레임 간의 관계를 고려하지 않지만, Temporal Similarity Loss는 미래 프레임을 예측함으로써 객체의 움직임에 따른 일관성을 확보합니다.
  2. 객체의 의미적 정보 반영
    Temporal Similarity Loss는 단순한 픽셀 재구성 대신 의미론적 유사성을 활용합니다. 이는 각 패치가 단순히 모양이나 색상의 변화가 아니라, 객체로서 의미 있는 정보로 처리되도록 만듭니다. 결과적으로, 비슷한 패치들이 같은 객체로 묶이고, 서로 다른 객체는 더욱 분리되는 형태로 학습이 이루어집니다.
    • 예를 들어, Reconstruction Loss는 배경과 객체를 구분하는 데 어려움을 겪을 수 있지만, Temporal Similarity Loss는 객체의 움직임을 기반으로 배경과 객체를 분리하여 더 나은 그룹화 성능을 발휘합니다.
  3. 시간적 일관성이 없는 경우에도 유용
    또한, Temporal Similarity Loss는 프레임 간의 카메라 움직임이나 객체의 움직임이 거의 없는 경우에도 성능을 발휘할 수 있습니다. 이는 단순한 움직임 예측이 아닌 의미론적 유사성을 반영하여 객체 간의 상관성을 학습하기 때문입니다.
    • Reconstruction Loss는 움직임이 거의 없거나 카메라 이동에 의한 변화에 민감하게 반응할 수 있지만, Temporal Similarity Loss는 의미적 정보를 더 많이 반영하므로 보다 강력한 객체 분리 성능을 보장합니다.

결론적으로, Temporal Similarity Loss는 Reconstruction Loss보다 시간적 일관성을 반영하고, 의미적 정보를 통합하며, 움직임이 적은 상황에서도 유리한 학습을 할 수 있기 때문에 더 나은 성능을 발휘할 수 있습니다.