논문리뷰

dataset : 논문리뷰 : PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning

AI바라기 2025. 1. 14. 20:00

 

PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning 정리 노트

Purpose of the Paper

기존의 visual reasoning benchmarks는 주로 object-level에 중점을 두어 object-centric reasoning에 편향되어 있었습니다. 하지만, human visual perception의 중요한 부분은 visual scenes를 individual objects와 object parts로 parse하여 part-whole hierarchies를 형성하는 것입니다. 이러한 composite structures는 rich set of semantic concepts와 relations를 유도하여 visual signals의 interpretation과 organization, 그리고 visual perception과 reasoning의 generalization에 중요한 역할을 합니다.

이 논문은 기존의 object-centric reasoning의 한계를 넘어, full part-whole hierarchy에 기반한 visual reasoning을 위한 새로운 benchmark dataset인 PTR을 제안하는 데 목적이 있습니다. PTR은 finer-grained concepts, richer geometry relations, more complex physics를 포함하여 object-centric reasoning보다 훨씬 더 challenging한 part-based conceptual, relational, and physical reasoning을 가능하게 합니다.

Key Contributions

  • Part-based reasoning을 위한 새로운 large-scale diagnostic visual reasoning dataset인 PTR을 제안했습니다. PTR은 약 70,000개의 RGBD synthetic images와 ground truth object 및 part-level annotations를 포함하며, semantic instance segmentation, color attributes, spatial and geometric relationships, 그리고 stability와 같은 physical properties를 포함합니다.
  • 700,000개의 machine-generated questions을 제공합니다. 이 questions는 various types of reasoning을 다루며, visual reasoning models의 좋은 testbed가 됩니다.
  • PTR dataset에 대한 여러 state-of-the-art visual reasoning models의 성능을 분석하고, humans가 쉽게 정답을 유추할 수 있는 상황에서도 여전히 많은 surprising mistakes를 범한다는 것을 관찰했습니다.

Novelty

  • Part-whole hierarchy를 visual reasoning에 도입했습니다. 기존 datasets는 object-level features에만 집중했지만, PTR은 detailed part-level understanding을 강조합니다.
  • Part-level attributes를 사용하여 objects를 discriminate하고 interconnect하는 새로운 challenges를 제시합니다.
  • Highly composite part-whole hierarchies를 기반으로 더 rich하고 complex한 visual reasoning tasks를 정의했습니다. Parts의 도입은 visual perception과 question understanding의 diversity를 높이고, simple spatial relations를 넘어선 geometric relations와 analogical reasoning, 그리고 physical reasoning을 가능하게 합니다.

Experimental Highlights

  • 다양한 state-of-the-art visual reasoning models (heuristic models, end-to-end neural networks, neural-symbolic models)을 PTR dataset에서 평가했습니다.
  • Neural-symbolic model인 NS-VQA가 다른 models보다 우수한 성능을 보였지만, object and part masks, visual attributes와 같은 additional supervision에 크게 의존하는 것으로 나타났습니다.
  • 모든 models의 성능이 human performance보다 크게 뒤떨어져, human-like hierarchical perceptual and reasoning abilities를 갖춘 machines를 개발하기 위해서는 아직 갈 길이 멀다는 것을 보여주었습니다.
  • Data efficiency와 cross-category generalization에 대한 실험을 통해, part-based reasoning을 위한 data의 중요성과 current models의 한계를 분석했습니다.
  • NS-VQA에 대한 ablative studies를 통해, ground-truth part-segmentations가 주어졌을 때 geometric and physical reasoning에서의 어려움을 확인했습니다.

Limitations

  • Synthetic data를 사용했습니다. Real-world images에 비해 complexity가 제한적일 수 있습니다.
  • Current models은 part-whole hierarchies를 효과적으로 represent하지 못합니다. 특히, physical reasoning에서 낮은 성능을 보입니다.

Future Work

  • Depth image를 활용하여 RGBD-based visual perception models로 확장할 수 있습니다.
  • Part-whole hierarchies를 더 잘 represent할 수 있는 novel neural networks의 개발이 필요합니다. (예: Hinton [19]의 제안 참고)
  • Physics engines를 visual reasoning models와 통합하여 physical reasoning 능력을 향상시킬 수 있습니다.
  • Unsupervised part detection을 위한 testbed로 활용될 수 있습니다.

 

 

Abstract

인간의 시각 인지 능력의 중요한 측면은 시각적 장면을 개별 객체로, 더 나아가 객체 부분으로 분석하여 부분-전체 계층을 형성하는 능력입니다. 이러한 복합 구조는 풍부한 의미론적 개념과 관계를 유도할 수 있으므로, 시각 신호의 해석 및 구성뿐만 아니라 시각 인지 및 추론의 일반화에 중요한 역할을 합니다. 그러나 기존의 visual reasoning 벤치마크는 대부분 부분보다는 객체에 초점을 맞추고 있습니다. 전체 부분-전체 계층에 기반한 visual reasoning은 더 세분화된 개념, 더 풍부한 기하학적 관계, 더 복잡한 물리학으로 인해 객체 중심 추론보다 훨씬 더 어렵습니다. 따라서 부분 기반의 개념적, 관계적, 물리적 추론을 더 잘 지원하기 위해, 우리는 PTR이라는 새로운 대규모 진단 visual reasoning dataset을 소개합니다. PTR은 semantic instance segmentation, 색상 속성, 공간 및 기하학적 관계, 안정성과 같은 특정 물리적 특성에 대한 ground truth 객체 및 부분 레벨 annotation이 포함된 약 7만 개의 RGBD 합성 이미지를 포함합니다. 이러한 이미지는 다양한 유형의 추론을 다루는 70만 개의 기계 생성 질문과 짝을 이루어, visual reasoning model을 위한 훌륭한 테스트베드가 됩니다. 우리는 이 dataset에서 여러 state-of-the-art visual reasoning model을 검토하고, 인간이 정답을 쉽게 추론할 수 있는 상황에서도 여전히 놀라운 실수를 많이 한다는 것을 관찰했습니다. 우리는 이 dataset이 부분 기반 추론을 위한 새로운 기회를 열어줄 것이라고 믿습니다. PTR dataset과 baseline model은 공개적으로 이용 가능합니다.

 

 

 

 

1 Introduction

인공 지능 분야의 오랜 과제는 기계가 시각적 장면에 대해 추론하고 질문에 답할 수 있도록 하는 것입니다. 이 과제를 해결하기 위해 여러 dataset이 제안되었습니다. 이 dataset들은 주로 객체 레벨의 feature에 중점을 두며, 세부적인 부분 레벨의 이해는 크게 강조하지 않습니다. 그러나 인간은 시각적 장면을 부분-전체 계층(예: 장면에서 객체로, 객체에서 부분으로)으로 parsing한다는 강력한 심리학적 증거가 있으며, 이는 현재 기존 dataset에서는 누락되어 있습니다.

"전체는 부분의 합보다 크다"는 아리스토텔레스의 말에서 영감을 받아, 심리학에서는 Gestalt 심리학자들로부터 시작하여 부분과 전체가 어떻게 연관되어 있는지에 대한 오랜 연구 역사가 있습니다. 또한 최근에는 이러한 부분-전체 계층을 neural network를 사용하여 어떻게 표현할 것인지에 대한 연구도 진행되고 있습니다. visual reasoning에 부분-전체 계층을 도입하면 두 가지 고유한 과제가 발생합니다. 첫 번째는 부분 레벨의 속성을 사용하여 객체를 어떻게 구별할 것인가입니다. 객체 범주와 같은 전체적인 속성을 기반으로 객체를 지칭하는 이전 연구와 달리, 객체와 그 부분의 특정 온톨로지적 특성은 세부적인 연구가 필요합니다. 두 번째는 부분 레벨의 속성을 활용하여 객체를 어떻게 상호 연결할 것인가입니다. 다양한 범주의 객체는 몇 가지 공통 부분(예: 다리, 중앙 지지대, 받침대)을 통해 상호 연결됩니다. 따라서 한 범주에서 수행된 추론은 공유된 부분을 가진 보이지 않는 범주에 대한 추론으로 쉽게 일반화될 수 있습니다. 인간은 이러한 모듈식이지만 상호 연결된 지각 시스템을 갖추고 있습니다. 그들은 그림 1 [I]의 두 테이블을 상판과 서랍의 차이를 기반으로 쉽게 구별할 수 있을 뿐만 아니라 다리의 유사성으로 인해 침대와 의자 사이의 연관성을 관찰할 수 있습니다. 기계가 동일한 계층적 지각 능력을 가지고 있는지는 아직 연구가 더 필요합니다.

매우 복합적인 부분-전체 계층을 기반으로 visual reasoning 작업은 더 풍부하고 복잡하며 더 어려워질 수 있습니다. 첫째, 부분의 도입은 visual perception과 질문 이해의 다양성을 풍부하게 합니다. 색상 및 범주와 같은 기본적인 객체 레벨 속성 외에도 시각적 장면과 자연어 질문은 객체 부분의 속성으로 확장되며, 그 구성은 이미지-질문 쌍을 더욱 구별되게 만듭니다. 둘째, 부분 간의 관계는 단순한 공간 관계를 넘어섭니다. 부분은 종종 방향성 있는 기하학적 기본 요소(예: 선, 면)로 근사화될 수 있으며, 이러한 기본 요소 사이에는 "수직" 및 "평행"과 같은 풍부한 기하학적 관계가 자연스럽게 존재합니다(예: 그림 1[II]의 Q2). 이러한 관계가 주어지면 유추 추론도 성립될 수 있습니다. 셋째, 부분에 대한 추론은 물리학과 같은 객체의 암시적 속성에 대한 이해를 가능하게 합니다. 예를 들어, 부분의 배열과 기하학적 관계는 객체의 안정성에 영향을 미칩니다(예: 그림 1[I]의 Q3, Q4).

본 논문에서는 부분 기반의 개념적, 관계적, 물리적 추론을 위한 벤치마크인 대규모 ParT Reasoning dataset, 즉 PTR을 소개합니다. 여기에는 부분-전체 구조를 포함하는 70만 개의 질문과 짝을 이루는 약 7만 개의 장면이 포함됩니다. 우리는 장면을 구성하기 위해 풍부한 기하학적, 구조적 변형을 가진 5가지 객체 범주(의자, 테이블, 침대, 냉장고, 카트)에 걸쳐 PartNet dataset에서 1만 개 이상의 객체를 포함합니다. 우리 dataset은 개념, 기하학, 유추, 산술, 물리학의 5가지 유형의 질문으로 구성됩니다. 우리는 ground-truth 위치, segmentation 및 모든 객체와 부분에 대한 속성, 모델 진단을 위한 모든 객체-객체 및 부분-부분 관계를 포함하는 장면 그래프 annotation을 제공합니다. 또한 질문과 짝을 이루는 기능 프로그램도 제공합니다.

우리는 PTR dataset에서 여러 state-of-the-art visual reasoning model을 분석한 결과, 이들 모두 특히 관계, 유추 및 물리적 추론에서 어려움을 겪는다는 것을 발견했습니다. 하나의 oracle neural symbolic model은 다른 모델보다 성능이 우수하지만 객체 및 부분 mask와 시뮬레이션의 visual attribute와 같은 추가 supervision에 크게 의존합니다. 또한 모든 모델의 성능은 인간의 성능보다 훨씬 떨어지므로 기계에 인간과 같은 계층적 지각 및 추론 능력을 장착하기까지는 아직 갈 길이 멀다는 것을 알 수 있습니다.

 

 

 

2 Related Work

2.1 Visual Reasoning

vision과 language에 대한 이해와 추론 능력을 평가하기 위해 최근 몇 년 동안 다양한 벤치마크가 만들어졌습니다. 데이터 입력 측면에서 우리 dataset은 주로 CLEVR dataset과 유사합니다. CLEVR 역시 합성 이미지, 템플릿 기반 질문, 그리고 compositional 프로그램으로 구성된 진단용 dataset입니다. 그러나 CLEVR 장면에 등장하는 객체는 단순한 모양이며 복잡한 논리적 추론 체인을 형성하는 부분을 포함하고 있지 않습니다. VQA dataset은 대규모 crowd-sourced 실제 이미지와 사람이 생성한 질문을 포함합니다. 이는 완전히 제어된 합성 dataset이 아니기 때문에 본질적으로 큰 편향을 보입니다. Visual Commonsense Reasoning (VCR)은 상식 지식에 대한 추론에 중점을 둡니다. GQA dataset은 실제 이미지와 합성된 compositional 질문을 짝지어 제공합니다. 그러나 이러한 dataset 중 어느 것도 부분 기반의 dense annotation과 질문을 제공하지 않습니다. RAVEN은 계층적 representation에서 vision을 구조적, 관계적, 유추적 추론과 연관시킵니다. 이 dataset은 모델에게 유추에 따라 이미지를 선택하도록 요청합니다. 그러나 그들의 이미지는 다소 단순하며 주로 원과 삼각형과 같은 2D 모양으로 구성되어 있으며 이미지와 자연어 질문을 짝지어 제공하지 않습니다.

수많은 visual reasoning dataset이 제안되었지만, 이러한 dataset의 경우 추론 체인은 일반적으로 객체 수준에서 종료됩니다. 이는 전체적인 feature나 공간 관계를 기반으로 객체를 단순하게 참조하기 때문입니다. 또한 이전 dataset은 공간 관계를 기반으로 한 추론을 강조하는 반면, 인간은 유추, 기하학, 산술, 물리학을 포함한 다양한 추론 능력을 보유하고 있습니다. 이러한 측면은 visual reasoning에 쉽게 통합되어 인간의 지적 수준에 더 가까이 다가가는 벤치마크를 구성할 수 있습니다. 따라서 우리는 부분-전체 관계에 대한 여러 측면의 추론에 중점을 둔 새로운 visual-reasoning dataset을 만듭니다. 표 1에서 우리 dataset과 이전 visual reasoning dataset을 비교합니다.

많은 visual reasoning model이 제안되었습니다. 특히 MAC은 compositional 추론을 위해 multi-modal attention을 결합했습니다. LCGN은 관계형 추론을 지원하기 위해 객체에 대한 상황별 representation을 구축했습니다. 이러한 방법은 neural network에 내장되어 있지만 추론 과정을 암시적으로 모델링합니다. Neural-symbolic 방법은 객체 representation과 language representation에 대해 명시적으로 symbolic 추론을 수행합니다. 최근에는 transformer를 기반으로 하는 방법이 end-to-end 객체 detector를 활용하여 visual reasoning 작업에서 놀라운 성능을 달성했습니다. 이 논문에서는 부분 기반 visual reasoning에 대한 이러한 baseline model의 실험을 수행하고 강점과 약점을 평가합니다.

2.2 Part-based 3D Understanding

3D 부분을 이해하는 것은 컴퓨터 비전과 그래픽 분야에서 오랫동안 다루어진 문제입니다. 이는 여러 가지 이유로 중요합니다. 첫째, 상세한 객체 기하학과 구조를 설명하는 부분과 그 배열은 객체 구별 목적에 유용합니다. 둘째, 부분은 일반적으로 action 핸들이며 그 형태는 객체 기능을 나타낼 수 있으므로 객체와 상호 작용하는 데 중요합니다. 셋째, 기능적으로 관련된 객체 부분은 일반적으로 유사한 형태를 공유하므로 부분을 서로 다른 객체를 연결하고 지식 전달을 촉진하며 일반화 가능한 학습을 촉진하는 데 적합하게 만듭니다. 마지막으로, 부분은 3D generation 및 content editing 목적으로 자주 사용됩니다.

부분 기반 3D 이해를 용이하게 하기 위해 다양한 부분 중심 3D dataset이 문헌에서 제안되었습니다. ShapeNet 부분 dataset은 16개 범주에 걸쳐 semantic 부분 segmentation을 사용하여 ShapeNet의 31,963개 모양에 annotation을 답니다. 그리고 각 모양에는 2~5개의 부분으로 annotation이 달려 있습니다. PartNet은 부분의 세분성을 더욱 높여 24개 객체 범주에 걸쳐 26,671개 모양에 대한 573,585개의 세분화된 부분 instance annotation을 제공합니다. 의미론적 이해를 넘어, 여러 dataset은 또한 부분의 기능 및 관절 측면에 중점을 둡니다. 그러나 이러한 dataset의 대부분은 부분 기반의 개념적, 관계적, 물리적 추론보다는 부분 식별을 목표로 합니다. Chang 등은 90개 객체 범주를 다루는 2,278개 모델에서 27,477개 부분 instance를 수집하여 개념적 부분 기반 추론 연구에 중점을 두었습니다. ShapeGlot은 부분 레벨의 개념적 추론이 암시적으로 고려된 객체 참조 dataset을 제시합니다. Want 등은 의자 부분에 대한 질문을 포함하는 PartNet-Chairs를 제안합니다. 이러한 dataset은 개념적 추론에 국한되는 반면, 우리의 PTR은 더 넓은 추론 유형을 포괄하는 더 넓은 범위를 가지고 있습니다.

기존 대규모 dataset의 annotation에 의해 제한되어 이전의 부분 기반 3D 이해 작업은 주로 개별 3D 객체에 대한 부분 식별 및 부분 관계에 중점을 둡니다. 여러 방법은 또한 3D 부분의 더 복잡한 계층 구조를 고려합니다. 더욱이 이러한 작업은 일반적으로 강력한 범주적 사전 지식을 가정하고 범주 간 일반화 가능성이 떨어지는 경향이 있습니다. 그러나 우리 인간은 알려진 범주의 객체에 대해 단순히 부분 식별이나 단일 객체 부분 관계 이해 이상의 작업을 쉽게 수행할 수 있습니다. 우리는 서로 다른 객체 instance의 부분 간의 관계를 추론하고, 유추를 하고, 암산을 수행하고, 심지어 물리적 사실성 또는 안정성을 추론할 수 있습니다. 이러한 작업은 현재 dataset에서 잘 지원되지 않습니다. 따라서 우리는 이 갭을 메우고 이러한 인간과 같은 상식에 대한 연구를 더 잘 지원하기 위해 PTR을 제시합니다.

 

 

핵심: 기존 visual reasoning 연구는 객체 레벨에만 머물렀지만, 이 논문은 부분-전체(part-whole) 관계에 대한 추론 능력을 평가하는 PTR dataset을 제시함으로써 한계를 돌파하고자 한다.

기존 연구의 한계 (PTR의 차별점):

  • 객체 레벨 추론에 집중:
    • 대부분의 visual reasoning dataset (CLEVR, VQA, GQA 등)은 객체 단위의 feature와 공간 관계에 기반한 추론에 집중한다.
    • RAVEN과 같은 데이터 셋은 계층적 representation을 사용하지만, 이미지와 자연어 질문의 복잡성이 떨어진다.
    • 객체의 holistic feature나 공간 관계에만 의존하여, 부분(part) 단위의 디테일한 이해 및 추론 능력을 평가하기 어렵다.
  • 제한적인 추론 유형:
    • 기존 연구들은 주로 공간 관계 추론에 치중되어 있다.
    • PTR은 유추, 기하학, 산술, 물리학 등 인간의 다양한 추론 능력을 포괄하는 5가지 추론 유형(개념, 기하학, 유추, 산술, 물리학)을 다룬다.
  • 3D Part Understanding 연구와의 연계 부족:
    • 3D part understanding 연구는 주로 개별 객체의 part identification 또는 part relation 파악에 집중한다. (ShapeNet, PartNet 등)
    • 범주 일반화(generalizability)가 떨어지는 경향을 보인다.
    • PTR은 다양한 객체 instance 간 part 관계 추론, 유추, 산술, 물리적 안정성 추론 등을 포함하여, 기존 3D part understanding 연구의 한계를 극복한다.

PTR의 특징 (요약):

  • Part-whole 관계에 대한 visual reasoning dataset
  • 5가지 추론 유형: 개념, 기하학, 유추, 산술, 물리학
  • 70k 이미지와 700k 질문
  • PartNet 기반 10k 이상 객체, 5개 카테고리 (의자, 테이블, 침대, 냉장고, 카트)
  • 객체 및 part에 대한 ground-truth annotation (위치, segmentation, 속성, 관계)

결론:

PTR은 기존 visual reasoning 연구의 한계를 넘어, 부분(part) 단위의 디테일한 이해다양한 추론 능력을 평가할 수 있는 새로운 벤치마크를 제시한다. 특히, 3D part understanding 연구와의 연계를 통해, 더욱 심층적인 visual reasoning 연구를 가능하게 할 것이다.

 

 

 

 

3 The PTR Dataset

PTR dataset은 부분 기반 visual reasoning을 수행하는 기계의 능력을 평가하는 것을 목표로 합니다. 우리는 이 dataset을 완전히 제어된 합성 환경에서 신중하게 설계하고 이 복잡한 추론 작업에 대한 모델 진단을 가능하게 합니다. 각 이미지에는 객체 및 부분의 위치, 방향, 속성, 객체 mask 및 부분 mask에 대한 ground-truth annotation이 있습니다. 또한 향후 우리 dataset에서 3D 모델을 사용할 수 있도록 깊이 이미지, 카메라 위치 및 방향을 제공합니다. 부분의 기하학적 관계에 대한 추론을 위해 기하학적 선 또는 평면으로 간주될 수 있는지 여부를 나타내는 부분의 기하학적 정보와 선 방정식 또는 평면 방정식을 포함합니다. 물리적 추론을 위해 각 객체의 안정성 정보를 포함합니다. 이미지는 개념, 관계, 유추, 산술 및 물리학의 5가지 유형의 질문과 쌍을 이룹니다. 질문에는 연관된 기능 프로그램이 있습니다.

 

3.1 Image Generation

PTR은 훈련을 위한 약 52,000개의 이미지, 검증을 위한 9,000개의 이미지, 테스트를 위한 10,000개의 이미지를 포함합니다. 이미지는 Blender를 통해 렌더링됩니다. 물리적 정보를 얻기 위해 Bullet을 적용하여 각 객체의 미래 모션 궤적을 시뮬레이션합니다.

 

장면, 객체 및 부분. PTR 유니버스에는 PartNet dataset의 5가지 범주의 객체(의자, 테이블, 침대, 냉장고, 카트)가 포함되어 있습니다. 이러한 범주를 선택한 이유는 다음과 같습니다. 1) 실생활 장면에서 흔히 볼 수 있는 객체입니다. 2) 객체는 많은 일반적인 부분(예: 다리, 다리 막대, 중앙 지지대, 받침대, 문, 바퀴 등)을 공유합니다. 3) 객체는 부분의 구성에 따라 풍부한 물리적 구성을 가집니다. 각 객체는 임의의 수의 부분을 가질 수 있습니다. 각 부분은 8가지 색상(회색, 빨간색, 파란색, 녹색, 갈색, 청록색, 보라색, 노란색) 중 하나를 취합니다. PTR dataset에 사용된 구체적인 개념은 그림 2에 나열되어 있습니다. 장면에 있는 부분 수의 분포는 그림 3c에 나와 있습니다.

 

장면을 구성할 때 먼저 기하학적 및 물리적 정보를 풍부하게 하기 위해 임의의 텍스처의 바닥과 세 개의 벽을 배치합니다. 카메라와 램프의 위치와 방향에 지터를 추가합니다. 모든 장면에는 3~6개의 객체가 있습니다. 객체를 배치하기 위해 (객체가 쌓여 있는 물리적 장면을 제외하고) 객체가 겹치지 않도록 합니다. 또한 객체 감지에 큰 부담이 되지 않도록 객체의 방향이 적절한지 확인합니다. 훈련 dataset과 테스트 dataset에는 공유된 3D 객체 모델이 없습니다(즉, PartNet 3D 모델은 분할 간에 공유되지 않지만 의미는 공유됨).

 

물리적 장면에는 기울어지거나 벽 쪽으로 기대거나 다른 객체 위에 쌓인 객체가 포함됩니다. 우리는 Bullet 물리 엔진을 사용하여 물리적 효과를 시뮬레이션합니다. 객체의 안정성을 결정하기 위해 시간 단계에 따른 객체 위치 및 방향의 변화를 계산합니다. 위치 및 방향의 변화가 임계값 이내이면 객체가 안정적인 것으로 간주될 수 있습니다. 불안정한 객체의 경우 객체가 안정적으로 변할 수 있는 가능성을 고려하여 원래 위치를 중심으로 4방향(앞, 뒤, 왼쪽, 오른쪽)으로 객체를 이동합니다. 이러한 가능한 변화를 놓치지 않도록 각 방향에 대해 객체를 배치할 4개의 이동 거리를 정의합니다.

관계 PTR에는 객체의 공간 관계, 부분의 기하학적 관계, 객체와 부분의 동일 속성 관계의 세 가지 유형의 관계가 있습니다.

객체는 4가지 관계(왼쪽, 오른쪽, 앞, 뒤)를 통해 공간적으로 관련됩니다. 공간 관계는 카메라 시점에 따라 달라집니다.

부분은 무시할 수 있는 두께로 1D 선 또는 2D 평면으로 간주될 수 있는 경우 기하학적 관계를 갖습니다(예: 그림 1 [II]의 다리와 다리 막대는 선으로 취급될 수 있고 문은 평면으로 취급될 수 있음). 이러한 기하학적 기본 요소를 감지하기 위해 각 부분에 대해 원시 3D 데이터에서 선의 경우 2개 점, 평면의 경우 3개 점을 1000번 무작위로 샘플링합니다. 매번 샘플링된 점에서 선 방정식 또는 평면 방정식을 도출합니다. 노이즈를 줄이기 위해 점 사이의 거리가 부분의 크기에 대해 충분히 충분한지 확인합니다. 그런 다음 최종 선 또는 평면 방정식은 방정식을 평균화하여 근사화됩니다. 그런 다음 3D 데이터에서 2500개의 점을 추가로 샘플링하여 대다수의 점이 방정식에 부합하는지 확인합니다. 그렇지 않으면 부분은 선이나 평면으로 간주될 수 없습니다. 동일 속성 관계는 객체 간의 동일 범주 관계와 부분 간의 동일 범주 및 동일 색상 관계를 포함합니다.

 

3.2 Question Generation

각 이미지를 실행 가능한 기능 프로그램과 결합된 기계 생성 질문과 짝을 이룹니다. PTR은 훈련을 위한 약 520,000개의 질문, 검증을 위한 90,000개의 질문, 테스트를 위한 100,000개의 질문을 포함합니다. 모든 질문은 개방형이며 한 단어로 대답할 수 있습니다. 샘플 질문과 자세한 분포는 그림 1과 그림 3에서 찾을 수 있습니다.

개념 개념 질문은 기본 부분-전체 관계를 이해하고 추론하는 모델의 능력을 평가합니다. 추론 작업은 객체 레벨과 부분 레벨 속성의 구성 공간 내에 기반을 둡니다. 객체의 전체적 속성을 기반으로 객체를 참조하는 이전의 visual reasoning dataset과 달리 PTR은 부분의 존재와 부분의 속성으로 객체를 구별합니다. 부분-전체 계층의 상호 연결된 특성을 조명하기 위해 객체 범주를 지정하지 않고 공통 부분 범주만 지정하는 질문도 있습니다(예: 그림 1 [I]의 Q1은 다리가 있는 객체에 대해 질문하여 침대와 의자를 연결합니다). 개념 질문에는 객체 범주 쿼리, 부분 범주 쿼리, 부분 색상 쿼리, 객체 수, 객체 존재, 부분 수와 같은 여러 하위 유형이 포함됩니다.

 

관계 관계 질문은 객체의 공간 관계, 부분의 기하학적 관계, 객체와 부분의 동일 속성 관계에 대해 질문합니다. 공간 관계에 대해 질문할 때 질문은 개념 질문의 6가지 하위 유형을 취하지만 객체는 공간 정보를 사용하여 필터링됩니다.

기하학적 관계의 경우 먼저 선이나 평면으로 간주될 수 있는 부분을 감지하고 색상을 사용하여 부분을 참조한 다음 이 부분과 특정 기하학적 관계가 있는 다른 객체의 부분 존재/수/색상을 쿼리합니다. 그림 2에 나열된 총 6가지 유형의 기하학적 관계가 있습니다. 그림 1 [II]의 Q2는 기하학적 질문의 예입니다. 파란색 다리 막대를 선으로 간주하고 보라색 문을 평면으로 간주하면 두 부분이 수직임을 쉽게 알 수 있습니다.

 

동일 속성 관계는 세 가지 형식을 취합니다. 첫 번째는 모델에 두 객체/부분의 두 속성을 비교하고 "예/아니오" 대답을 반환하도록 요청합니다(예: 그림 1 [II]의 Q1). 두 번째는 다른 객체와 "동일 범주" 관계가 있는 객체를 참조합니다. 세 번째는 객체가 다른 객체와 동일한 부분 속성(예: 다리의 동일한 색상)을 가지고 있는지 여부를 감지합니다.

유추 유추 질문은 공간 관계와 기하학적 관계에 대한 유추를 쿼리합니다. 구체적으로, B가 A와 특정 관계가 있는 객체 또는 부분 A, B, C가 주어지면 모델은 C와 동일한 관계를 갖는 객체 또는 부분 D를 선택해야 합니다. 질문은 D의 존재/수/속성에 대해 쿼리할 수 있습니다. 예시 질문은 그림 1 [II] Q3에 나와 있습니다. 이 질문에서 A는 의자의 다리 막대이고 B는 냉장고의 문입니다. 우리는 두 부분이 "선-평면 수직" 관계를 가지고 있음을 발견했습니다. C는 테이블의 다리이고 질문은 A와 B와 동일한 관계를 갖도록 D의 색상을 쿼리합니다.

 

산술 산술 질문은 두 객체에 있는 두 가지 유형의 부분의 양을 취하고 그 양에 두 가지 유형의 연산을 적용합니다. 첫 번째 유형은 "정수 비교"입니다. 모델은 두 양이 "같음/보다 큼/보다 작음" 관계를 따르는지 예측하고 "예/아니오" 대답을 반환하도록 요청받습니다. 다른 유형은 두 숫자의 합 또는 차이를 쿼리하는 "합/차"입니다(예: 그림 1 [I] Q2). 우리는 신경 모델의 훈련을 용이하게 하기 위해 답이 10보다 크거나 0보다 작지 않도록 합니다.

물리학 물리적 질문은 객체의 안정성에 대해 질문합니다. 예를 들어 그림 1 [I]의 Q3은 얼마나 많은 객체가 안정적인지 묻습니다. 객체가 불안정한 경우 그림 1 [I] Q4와 같이 객체를 안정적으로 만들기 위해 객체 위치에 대한 가능한 변경 사항에 대해 추가 질문을 할 수 있습니다.

 

프로그램 PTR에서 각 질문은 그림 1의 기능 프로그램에 표시된 것처럼 계층적 트리 구조 기능 프로그램으로 구문 분석될 수 있습니다. 이전 dataset과 달리 PTR에는 객체 레벨 추론과 부분 레벨 추론 간의 유연한 전환을 가능하게 하는 expand parts, filter part exist, filter part count의 세 가지 핵심 기능이 있습니다. 추론 절차가 객체 레벨에서 부분 레벨로 전환될 때 expand parts는 모든 객체를 가져와 객체의 부분을 반환합니다. filter part exist는 객체에 특정 부분이 존재하는지 여부를 검사하여 객체를 필터링하고 filter part count는 객체의 특정 부분 수로 객체를 필터링합니다. 프로그램 모듈 목록은 보충 자료에서 찾을 수 있습니다.

편향 제어 질문은 사전 정의된 템플릿에서 생성되고 장면의 연관된 객체 레벨 및 부분 레벨 속성을 사용하여 자연어 질문으로 변환됩니다. 우리는 질문 생성을 위해 58개의 템플릿을 수동으로 정의합니다. 균형 잡힌 질문 분포를 보장하기 위해 질문을 생성할 때마다 질문 유형과 템플릿을 정렬합니다. 편향을 피하기 위해 기각 샘플링을 통해 각 질문 유형에 대해 균일한 응답 분포를 강제합니다. 구체적으로, 질문-답변 쌍을 샘플링할 때 답변 수가 해당 유형의 모든 답변의 중간 개수보다 크면 질문-답변 쌍을 버립니다.

 

 

 

 

핵심: PTR dataset은 part-based visual reasoning에 특화되어 있으며, 이를 위해 1) 정교한 이미지/질문 생성 방식, 2) 5가지 추론 유형, 3) 새로운 프로그램 모듈을 도입하여 기존 데이터셋과 차별화된다.

3.1 Image Generation - 디테일에 집중:

  • Part-level 제어:
    • PartNet dataset의 5개 카테고리(의자, 테이블, 침대, 냉장고, 카트) 객체를 사용하며, 객체뿐만 아니라 part 단위의 속성(8가지 색상, 기하학적 형태 등)까지 제어한다.
    • 객체 간 part 공유(예: 다리, 지지대)를 통해, part를 매개로 한 객체 간 추론이 가능하다.
  • 기하학적/물리적 추론 지원:
    • Geometric primitives: part를 1D line 또는 2D plane으로 근사하여, "수직", "평행"과 같은 기하학적 관계 추론을 가능하게 한다. (line/plane equation 제공)
    • Bullet 물리 엔진: 객체 안정성(stability) 시뮬레이션을 통해, 물리적 추론을 위한 데이터를 제공한다. (불안정한 객체의 경우, 안정화될 수 있는 위치 변화까지 고려)
  • 데이터 분할:
    • Train/validation/test dataset 간 3D 객체 모델을 공유하지 않는다. (PartNet ID는 다르지만, semantics는 공유)

3.2 Question Generation - 다양성과 복잡성 확보:

  • 5가지 추론 유형:
    • Concept: part-whole 관계 이해 (예: "다리가 있는 객체는?")
    • Relation: 공간/기하학/동일 속성 관계 (예: "파란색 다리 막대와 수직인 문은 몇 개인가?")
    • Analogy: 관계 유추 (예: "A와 B의 관계가 C와 D의 관계와 같을 때, D는?")
    • Arithmetic: 수 연산 (예: "테이블 다리 개수 + 의자 다리 개수 = ?")
    • Physics: 물리적 안정성 (예: "안정적인 객체는 몇 개인가?")
  • 새로운 프로그램 모듈:
    • expand parts: 객체 → part
    • filter part exist: part 존재 여부로 객체 필터링
    • filter part count: part 개수로 객체 필터링
    • 위 모듈을 통해 객체-part 간 유연한 추론을 지원한다.
  • Bias control:
    • 템플릿 기반 질문 생성 및 답변 분포 균등화를 통해 bias를 최소화한다.

결론:

PTR은 part-level의 정교한 제어, 기하학/물리적 추론 지원, 5가지 추론 유형, 새로운 프로그램 모듈을 통해, 기존 visual reasoning dataset의 한계를 극복하고, 더욱 심층적이고 복잡한 part-based visual reasoning 연구를 가능하게 하는 새로운 벤치마크를 제시한다.