AI바라기의 인공지능
Vision : 논문리뷰 : Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos 본문
Vision : 논문리뷰 : Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos
AI바라기 2024. 10. 9. 20:33Abstract
Self-supervised 방법은 high-level semantics 및 low-level temporal correspondence를 학습하는 데 있어 놀라운 발전을 보여주었습니다. 이러한 결과를 바탕으로, 우리는 한 단계 더 나아가 이 두 가지 특징을 통합하여 object-centric representations를 향상시킬 가능성을 탐구합니다. 예비 실험 결과, query slot attention은 RGB feature map에서 서로 다른 semantic components를 추출할 수 있는 반면, random sampling 기반 slot attention은 프레임 간의 temporal correspondence cues를 활용하여 instance 식별을 지원할 수 있음을 나타냅니다.
이러한 동기에서, 우리는 fused semantic features 및 correspondence map 위에 novel semantic-aware masked slot attention을 제안합니다. 이는 shared learnable Gaussian distributions 세트를 사용하는 두 개의 slot attention stage로 구성됩니다. 첫 번째 stage에서는 mean vector를 slot initialization으로 사용하여 잠재적인 semantics를 분해하고 iterative attention을 통해 semantic segmentation mask를 생성합니다. 두 번째 stage에서는 각 semantics에 대해 해당 Gaussian distribution에서 slot을 무작위로 sampling하고 semantic 영역 내에서 masked feature aggregation을 수행하여 instance 식별을 위한 temporal correspondence pattern을 활용합니다.
우리는 temporally coherent object-centric representations를 장려하기 위해 semantic 및 instance-level temporal consistency를 self-supervision으로 채택합니다. 우리의 모델은 semantic structure를 가진 여러 object instance를 효과적으로 식별하여 unsupervised video object discovery에서 유망한 결과를 얻습니다. 또한, dense label propagation task에서 state-of-the-art 성능을 달성하여 object-centric analysis의 잠재력을 보여줍니다.
Introduction

그림 1(a)는 RGB feature map 위에 적용된 query slot attention의 결과를 보여줍니다. 낙타와 울타리와 같이 서로 다른 semantics를 성공적으로 분해합니다.
그림 1(b)는 PCA 차원 축소 후 correspondence map을 시각화하여 서로 다른 instance가 서로 다른 correspondence pattern을 가지고 있음을 보여줍니다. 그리고 random sampling을 사용한 slot attention은 약간의 중복된 경계를 가진 두 마리의 낙타를 대략적으로 구분합니다. 컬러로 보는 것이 가장 좋습니다.
인간은 기본적인 인지 능력 중 하나로, 시간적으로 연속적인 관찰로부터 서로 다른 물체를 쉽게 구별하고, visual correspondence를 설정하며, object-centric analysis를 수행합니다. 이러한 능력은 high-level semantic discrimination과 low-level temporal correspondence라는 두 가지 필수적인 시각 메커니즘 덕분에 가능하며, 인간이 세상을 효과적으로 이해하고 상호 작용할 수 있게 합니다.
이에 동기를 얻어, 컴퓨터 비전 연구자들은 object-centric perception을 향상시키기 위해 기계에 이러한 능력을 부여하려고 합니다. 이러한 목표를 달성하기 위해 초기 연구들은 object semantics를 인지하고, 기하학적 위치를 식별하며, temporal correspondence를 설정하기 위해 인간의 주석이나 weak supervision에 의존했지만, 일반화 능력이 제한적입니다. 최근에는 semantic discrimination이나 spatiotemporal correspondence를 위한 강력한 representations를 학습하기 위한 완전히 unsupervised된 방법들이 많이 등장하여 유망한 성능을 달성했습니다. 이러한 고무적인 결과를 바탕으로, 우리는 자연스럽게 다음과 같은 질문을 떠올리게 됩니다. 인간의 주석 없이 semantics와 correspondence를 jointly 활용하여 object instance를 발견하고 object-centric representations를 추출할 수 있을까요?
이 문제와 관련하여, 우리의 직관은 high-level semantics는 top-down 방식으로 의미 있는 전경 영역을 묘사하는 반면, 더 많은 프레임을 볼 때 low-level correspondence는 bottom-up 방식으로 coherent object를 시간적으로 연결하고 개별 instance를 분리한다는 것입니다. 예를 들어, 축구 장면에서 semantic cue는 여러 선수를 포함하는 전경을 구분하는 반면, temporal correspondence는 역동적인 움직임과 기하학적 관계를 통해 서로 다른 선수를 연결합니다. 이러한 두 가지 측면은 object-centric representations에 공동으로 기여합니다. 안타깝게도 기존 연구의 대부분은 이러한 특징 중 하나에만 집중합니다. 몇몇 연구들은 high-level semantics를 개발하는 데 성공했지만, 이러한 추상적인 semantics만으로는 instance를 구별하기에 충분하지 않습니다. 반면, 다른 연구들은 detailed correspondence에 탁월하지만 semantic structure가 부족하여 redundancy와 ambiguity를 초래합니다.
본 논문에서는 RGB sequence에서 object-centric representations를 추출하기 위해 semantics와 temporal correspondence를 jointly 활용하는 새로운 architecture인 Semantics Meets Temporal Correspondence (SMTC)를 제안합니다. 구체적으로, 먼저 frame-wise visual features를 semantic representation으로 추출합니다. 그런 다음 인접한 프레임 간의 dense feature correlation을 temporal relationships을 encoding하는 correspondence map으로 계산합니다. object-centric knowledge를 얻기 위해, 우리는 기존 연구에서 영감을 얻어 다양한 slot attention formulations을 사용하는 것을 연구했습니다. 예비 실험 결과, RGB feature map에서 random sampling을 사용한 original slot attention은 실제 비디오에서 복잡한 장면 구성 요소로 인해 어려움을 겪는 반면, 수정된 query slot attention은 그림 1(a)와 같이 서로 다른 semantic components를 분해할 수 있음을 보여줍니다. correspondence map의 경우, 서로 다른 object는 다양한 temporal correspondence pattern을 나타냅니다. semantic features와 비교하여 이러한 pattern은 low-level geometric relationships을 나타내며, 이는 비교적 단순하지만 특정 장면에 따라 다릅니다. 따라서 query slot attention은 실패하지만 random sampling 기반 formulation은 그림 1(b)와 같이 놀랍도록 잘 수행되어 약간의 중복된 경계를 가진 서로 다른 object 영역을 대략적으로 분리합니다.
이러한 동기에서 우리는 fused semantic 및 correspondence representations 위에 learnable mean 및 standard deviation vector를 가진 Gaussian distributions 세트로 구성된 semantic-aware masked slot attention을 개발합니다. 직관적으로 mean vector는 잠재적인 semantic center를 나타낼 수 있으며, 이는 query slot attention과 유사하게 semantic components를 분리하는 역할을 합니다. 반면 deviation vector는 semantic center 주변에 perturbation을 도입하여 서로 다른 instance의 고유한 temporal correspondence pattern을 포착합니다.
기술적으로 우리는 이 목표를 달성하기 위해 두 개의 slot attention stage를 구성합니다.
첫째, mean vector를 slot initialization으로 사용하여 semantic segmentation mask를 생성합니다.
둘째, 각 semantics에 대해 Gaussian distribution에서 slot vector를 무작위로 sampling한 다음 해당 semantic mask 영역 내에서 iterative attention 및 masked aggregation을 수행하여 instance를 구별합니다.
temporal coherency를 향상시키고 object-centric representations를 개선하기 위해 semantic mask와 object instance slot에 temporal consistency를 적용합니다. 비디오의 object-centric learning에 대한 기존 연구와 비교할 때, 우리의 모델은 미리 계산된 motion이나 depth prior가 필요하지 않으며 semantic structure를 가진 여러 object를 명시적으로 식별합니다.
요약하면, 우리의 contribution은 다음과 같습니다.
(1) 비디오에서 object-centric representations를 추출하기 위해 semantic discrimination과 temporal correspondence를 통합하는 새로운 self-supervised architecture를 제안합니다.
(2) semantic features와 함께 사용할 때 simple feature correlation이 temporal correspondence cues를 효과적으로 나타낼 수 있음을 보여줍니다. 이러한 관찰을 바탕으로, motion이나 depth prior에 의존하지 않고 semantic structure를 가진 여러 object instance를 구별하기 위해 fused visual features 및 correspondence map에서 작동하는 semantic-aware masked slot attention을 개발합니다.
(3) single 및 multiple object 시나리오 모두에서 unsupervised object discovery에 대한 유망한 결과를 달성하고, label propagation task에서 state-of-the-art 성능을 달성하여 discriminative하고 temporally consistent한 object-centric representations를 학습했음을 보여줍니다.
요약본입니다.
연구 목적:
연구 목적은 고수준의 의미적 구분과 저수준의 시간적 대응을 결합하여 객체 중심의 표현을 향상시키는 방법을 탐구하는 것입니다.
학문적 및 산업적 기여:
- 학문적 기여: 의미적 구분과 시간적 대응을 결합하여 객체 중심 학습에서의 자율 지도 학습 모델 성능을 개선합니다.
- 산업적 기여: 객체 중심 분석 기술이 향상되어 비디오 기반 객체 발견 및 레이블 전파와 같은 실제 응용에서의 성능을 높일 수 있습니다.
사용된 방법론:
- Slot Attention: RGB 피처 맵에서 의미를 분해하는 쿼리 기반의 Slot Attention.
- Random Sampling: 시간적 대응 패턴을 활용해 객체 인스턴스를 구분하는 임의의 Slot Attention.
- Semantic-aware Masked Slot Attention: 의미와 대응을 결합하여 객체 중심 표현을 개선하는 새로운 구조.
- Temporal Consistency: 시간적으로 일관된 객체 중심 표현을 보장하기 위한 시간적 일관성 적용.
연구의 독창성:
- 의미와 시간적 대응의 통합: 고수준 의미적 정보와 저수준 시간적 대응을 결합한 객체 중심 표현 학습.
- 두 단계의 Slot Attention: 의미적 분해와 시간적 대응을 각각 처리하는 Slot Attention 메커니즘 제안.
연구의 한계:
- 경계의 정확도 부족: 객체의 경계를 정확하게 구분하는 데 있어 한계가 있으며, 작은 객체에 대한 처리 성능이 부족함.
1. Slot Attention (슬롯 어텐션)
Slot Attention은 객체 중심의 학습에서 사용되는 주요 기법으로, 입력 영상에서 객체를 구분하기 위해 여러 개의 "슬롯"을 사용하여 피처를 학습합니다. 이 기법의 특징은 각 슬롯이 영상 내의 특정 객체나 의미를 "캡처"하여 반복적으로 업데이트되면서 의미 있는 객체 표현을 만들어낸다는 점입니다.
- RGB 피처 맵에서 쿼리 기반 Slot Attention:
쿼리 기반의 Slot Attention은 RGB 이미지 피처 맵에서 각 객체의 의미적 정보를 추출하는 데 사용됩니다. 영상의 각 객체는 의미적 구분을 통해 구분되며, 예를 들어 이미지 내에서 서로 다른 동물이나 사물들을 구별할 수 있습니다. 쿼리 기반의 Slot Attention은 각 슬롯이 의미적 영역을 담당하도록 학습되어, 다양한 객체가 추출됩니다. - 예시: 이미지에서 낙타와 울타리 같은 서로 다른 객체를 분리하는 데 이 기법이 사용됩니다.
2. Random Sampling Slot Attention (랜덤 샘플링 기반 슬롯 어텐션)
RGB 피처 맵을 통한 의미적 구분만으로는 객체를 시간적으로 일관되게 구분하기 어렵기 때문에, 시간적인 연속성을 활용하여 객체를 구분하는 추가적인 방법이 필요합니다. 이때 랜덤 샘플링 기반 Slot Attention이 사용됩니다. 랜덤 샘플링은 각 슬롯이 시간적 대응 패턴을 바탕으로 개별 객체를 구분하도록 돕습니다.
- 시간적 대응 패턴 추출:
영상에서 연속된 프레임 간의 시간적 상관관계를 활용해 객체를 추적하고, 개별 인스턴스를 구분합니다. 각 객체는 움직임이나 시간에 따른 위치 변화 등 시간적 특성에 의해 구분됩니다. - 예시: 움직이는 낙타 두 마리가 시간적 패턴에 따라 구분되며, 객체 간 경계를 구분할 때 중복이 있을 수 있지만 기본적으로 시간적 대응을 기반으로 객체를 식별합니다.
3. Semantic-aware Masked Slot Attention (의미 인식 기반 마스크 슬롯 어텐션)
이 논문에서 제안하는 가장 중요한 기법은 Semantic-aware Masked Slot Attention입니다. 이 방법론은 의미적 구분과 시간적 대응을 결합한 방식으로, 객체 중심의 표현을 더욱 정교하게 학습할 수 있게 합니다.
- Gaussian 분포를 이용한 슬롯 초기화:
이 기법은 여러 개의 Gaussian 분포를 사용하여 각 슬롯을 초기화합니다. 각 Gaussian 분포의 평균 벡터는 객체의 잠재적 의미 중심을 나타내며, 이를 기반으로 의미적 구분을 수행합니다. - 두 단계의 Slot Attention 구조:
- 첫 번째 단계: 슬롯 초기화 후 각 슬롯은 의미적 분할을 수행합니다. 즉, 영상 내에서 다양한 객체들이 의미적 정보를 바탕으로 구분됩니다. 이를 통해 객체의 의미적 영역이 생성됩니다.
- 두 번째 단계: 각 의미적 영역 내에서 랜덤 샘플링을 통해 슬롯을 다시 초기화하고, 각 슬롯은 객체의 시간적 대응 패턴을 활용하여 인스턴스(동일한 의미 영역 내에서도 여러 객체)를 구분합니다.
- 시간적 일관성 강제:
의미적 마스크와 객체 인스턴스 슬롯 모두에서 시간적 일관성을 강제하여, 시간이 흐르더라도 동일한 객체가 일관되게 표현되도록 학습합니다. 이를 통해 객체 중심의 표현이 시간에 따라 일관성 있게 유지됩니다.
4. Temporal Consistency (시간적 일관성)
시간적 일관성은 객체 중심 학습에서 매우 중요한 요소입니다. 이 논문에서는 의미적 마스크와 객체 인스턴스 표현이 시간이 지남에 따라 일관되게 유지되도록 설계되었습니다. 프레임 간의 시간적 일관성을 유지하면서 각 객체가 일관된 위치와 의미를 가지도록 자기지도 학습이 적용됩니다.
- 자기지도 학습:
모델은 라벨이나 사전 지식 없이도 스스로 의미적 구조와 시간적 대응 패턴을 학습하며, 이를 통해 비디오 내에서 객체를 안정적으로 구분할 수 있습니다.
요약
- Slot Attention: RGB 피처 맵에서 의미적 구분을 위해 사용됨.
- Random Sampling Slot Attention: 시간적 대응 패턴을 바탕으로 객체 인스턴스를 구분.
- Semantic-aware Masked Slot Attention: 의미와 시간적 대응을 결합하여 객체 중심 표현을 강화.
- Temporal Consistency: 시간적으로 일관된 객체 표현을 유지하기 위한 자기지도 학습.
