robotics : 논문리뷰 : OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

논문리뷰

robotics : 논문리뷰 : OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

AI바라기 2025. 1. 13. 19:08

OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

Purpose of the Paper

기존 Vision-Language Models (VLM)은 high-level commonsense reasoning에는 뛰어나지만, 정교한 로봇 제어에 필수적인 fine-grained 3D spatial understanding 능력이 부족했습니다. VLM을 로봇 데이터셋으로 fine-tuning하여 Vision-Language-Action Models(VLA)를 만드는 것은 데이터 수집 비용과 generalization 문제로 어려움을 겪었습니다. 본 논문은 이러한 한계를 극복하고자 object-centric representation을 제안하여 VLM의 high-level reasoning과 로봇 제어에 필요한 low-level precision 사이의 간극을 메우는 것을 목적으로 합니다. 특히, object의 functional affordances에 의해 정의되는 canonical space를 활용하여 interaction primitives (points, directions)를 구조화하고, 이를 통해 VLM의 commonsense reasoning을 actionable 3D spatial constraints로 변환하는 새로운 방법을 제시합니다.

Key Contributions

Novel object-centric interaction representation: VLM의 high-level commonsense reasoning과 low-level robotic manipulation 사이의 갭을 메울 수 있는 새로운 object-centric interaction representation을 제안합니다.
Dual closed-loop, open-vocabulary manipulation system: VLM fine-tuning 없이 planning과 execution 모두에서 closed-loop 제어가 가능한 open-vocabulary robotic manipulation system을 최초로 제시합니다.
Strong zero-shot generalization: 다양한 manipulation tasks에서 strong zero-shot generalization 성능을 입증했으며, robotic manipulation data generation 자동화 가능성을 제시합니다.

Novelty

Object's canonical space 활용: Object의 functional affordances를 기반으로 정의된 canonical space를 활용하여 interaction primitives를 정의함으로써, VLM의 reasoning 능력을 보다 효과적으로 활용하고, robust하고 generalizable한 manipulation 전략을 수립할 수 있도록 합니다.
Interaction rendering 및 resampling을 통한 self-correction: VLM reasoning의 hallucination 문제를 해결하기 위해 interaction rendering과 primitive resampling 기반의 self-correction 메커니즘을 도입하여 closed-loop reasoning을 가능하게 합니다.
6D pose tracking을 통한 robust real-time control: 6D pose tracking을 통해 execution 단계에서 closed-loop 제어를 구현하여 dynamic 환경에서도 robust하고 정확한 로봇 제어를 가능하게 합니다.

Experimental Highlights

12가지 real-world manipulation tasks 평가: Rigid object manipulation과 articulated object manipulation을 포함한 12가지 real-world tasks에서 OmniManip의 성능을 평가했습니다.
State-of-the-art 베이스라인 대비 우수한 성능: VoxPoser, CoPa, ReKep 등 state-of-the-art 베이스라인 대비 significantly 높은 success rate를 달성했습니다 (e.g., rigid object manipulation에서 68.3% vs. 45.0%).
Closed-loop planning 및 execution의 효과 입증: Closed-loop planning을 통해 open-loop planning 대비 15% 이상의 성능 향상을 확인했으며, closed-loop execution을 통해 dynamic 환경에서도 robust한 제어 성능을 입증했습니다.
Viewpoint consistency 및 sampling efficiency 검증: OmniManip의 object-centric representation이 viewpoint 변화에 강건하며, targeted sampling strategy가 uniform sampling 대비 높은 efficiency를 보임을 실험적으로 확인했습니다.
Behavior cloning을 통한 demonstration generation: OmniManip을 사용하여 수집한 demonstration data로 학습된 behavior cloning policy가 높은 success rate를 달성하여, automatic demonstration generation 가능성을 입증했습니다.

Limitations

Deformable object 처리 불가: Pose representation의 한계로 인해 deformable object를 다룰 수 없습니다.
3D AIGC 품질 의존성: 3D AIGC의 mesh quality에 성능이 의존적입니다.
Computational cost: Multiple VLM 호출로 인해 computational cost가 높으며, parallel processing에도 불구하고 여전히 개선의 여지가 있습니다.

Future Work

Deformable object manipulation 지원: Deformable object를 다룰 수 있도록 representation 및 method를 확장할 계획입니다.
3D AIGC 품질 개선: 3D AIGC의 mesh quality를 향상시켜 OmniManip의 성능을 더욱 개선할 수 있습니다.
Computational efficiency 향상: VLM 호출 횟수를 줄이거나, 보다 efficient한 VLM을 활용하여 computational cost를 개선할 계획입니다.
Scalable imitation learning: OmniManip을 활용하여 대규모 robotic manipulation data를 자동으로 수집하고, 이를 통해 scalable imitation learning을 수행하는 연구를 진행할 수 있습니다.
Real-world deployment: OmniManip을 실제 로봇 시스템에 적용하여 real-world 환경에서의 성능 및 robustness를 검증하고 개선할 계획입니다.

Abstract

구조화되지 않은 환경에서 조작할 수 있는 범용 로봇 시스템의 개발은 중요한 도전 과제입니다. Vision-Language Models(VLM)은 high-level의 상식적인 추론에서 뛰어나지만, 정밀한 조작 작업에 필요한 정교한 3D 공간 이해가 부족합니다. 로봇 datasets에 VLM을 fine-tuning하여 Vision-Language-Action Models(VLA)를 만드는 것이 잠재적인 해결책이지만, 높은 데이터 수집 비용과 일반화 문제로 인해 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 VLM의 high-level 추론과 조작에 필요한 low-level 정밀도 사이의 격차를 해소하는 새로운 object-centric 표현을 제안합니다. 우리의 핵심 아이디어는 객체의 기능적 어포던스에 의해 정의된 객체의 표준 공간이 포인트 및 방향과 같은 상호 작용 기본 요소를 설명하는 구조화되고 의미론적으로 의미 있는 방법을 제공한다는 것입니다. 이러한 기본 요소는 VLM의 상식적 추론을 실행 가능한 3D 공간 제약 조건으로 변환하는 다리 역할을 합니다. 이러한 맥락에서, 우리는 이중 closed-loop, open-vocabulary 로봇 조작 시스템을 소개합니다. 하나는 기본 요소 재샘플링, 상호 작용 렌더링 및 VLM 검사를 통한 high-level 계획을 위한 것이고, 다른 하나는 6D 포즈 추적을 통한 low-level 실행을 위한 것입니다. 이 설계는 VLM fine-tuning 없이도 견고하고 실시간 제어를 보장합니다. 광범위한 실험은 다양한 로봇 조작 작업 전반에 걸쳐 강력한 zero-shot 일반화를 보여주며, 대규모 시뮬레이션 데이터 generation을 자동화하기 위한 이 접근 방식의 잠재력을 강조합니다.

핵심 아이디어 & 차별점:

Object-Centric Representation: VLM의 high-level reasoning과 조작에 필요한 low-level 정밀도를 연결하는 새로운 object-centric 표현을 제안합니다.
- 기존 연구들이 VLM을 로봇 데이터셋으로 fine-tuning하여 VLA를 생성하려 했다면, 이 논문은 VLM과 로봇 조작 사이의 "의미론적 격차"를 해소하는 새로운 표현 방식에 초점을 맞춥니다.
- Object's Canonical Space: 객체의 기능적 어포던스(affordances)를 기반으로 정의된 표준 공간 개념을 도입하여 상호 작용 기본 요소(interaction primitives)를 구조화되고 의미론적으로 표현합니다.
- Interaction Primitives as a Bridge: 포인트 및 방향과 같은 기본 요소들을 VLM의 추론과 3D 공간 제약 조건을 연결하는 "다리"로 활용합니다.
Dual Closed-Loop System: 두 개의 상호 보완적인 루프로 구성된 로봇 조작 시스템을 제안합니다.
- High-Level Planning Loop: VLM을 활용하여 high-level 계획을 수립합니다. Primitive resampling, interaction rendering, VLM checking 단계를 거칩니다.
- Low-Level Execution Loop: 6D 포즈 추적을 통해 정밀한 low-level 실행을 담당합니다.
- No VLM Fine-tuning: VLM fine-tuning 없이 실시간 제어와 robust한 성능을 달성합니다.

기대 효과 & 의의:

Zero-Shot Generalization: 다양한 로봇 조작 작업에 대한 강력한 zero-shot 일반화 능력을 실험적으로 입증했습니다.
Automation of Large-Scale Simulation Data Generation: 대규모 시뮬레이션 데이터 생성을 자동화할 수 있는 잠재력을 제시합니다.

결론적으로, 이 논문은 VLM을 로봇 조작에 효과적으로 활용하기 위한 새로운 패러다임을 제시합니다. Object-centric representation과 dual closed-loop 시스템은 VLM fine-tuning 없이도 정교한 로봇 조작을 가능하게 하며, 이는 로보틱스 분야에 큰 기여를 할 것으로 예상됩니다.

1. Introduction

범용 로봇 조작 시스템을 개발하는 것은 주로 현실 세계의 복잡성과 가변성으로 인해 오랫동안 어려운 과제였습니다. 인터넷 데이터의 방대한 양을 활용하여 풍부한 상식 지식을 얻는 Large Language Models (LLM) 및 Vision-Language Models (VLM)의 빠른 발전에 영감을 받아, 연구자들은 최근 로봇 공학에 대한 응용 프로그램을 탐구하는 데 관심을 돌렸습니다.

대부분의 기존 연구는 의미론적 추론과 같은 high-level 작업 계획에 이러한 지식을 활용하는 데 중점을 둡니다. 이러한 진전에도 불구하고, 주로 광범위한 2D visual 데이터에 대해 trained 된 현재의 VLM은 정밀하고 low-level의 조작 작업에 필요한 3D 공간 이해 능력이 부족합니다. 이 한계는 구조화되지 않은 환경 내에서의 조작에 문제를 제기합니다.

이 한계를 극복하는 한 가지 접근 방식은 VLM을 대규모 로봇 datasets에 fine-tuning하여 VLA로 변환하는 것입니다. 그러나 이는 두 가지 주요 문제에 직면합니다. 1) 다양하고 고품질의 로봇 데이터를 획득하는 것은 비용이 많이 들고 시간이 많이 걸립니다. 2) VLM을 VLA로 fine-tuning하면 특정 로봇에 맞춤화된 agent-specific representations이 생성되어 일반화 가능성이 제한됩니다. 유망한 대안은 로봇 action을 interaction primitives (예 : 포인트 또는 벡터)로 추상화하고 VLM reasoning을 활용하여 이러한 primitives의 공간적 제약 조건을 정의하는 동시에, 기존 planning 알고리즘이 실행을 처리하도록 하는 것입니다. 그러나 primitives를 정의하고 사용하는 기존 방법에는 몇 가지 제한 사항이 있습니다. primitive 제안을 생성하는 프로세스는 task-agnostic 하므로 적절한 제안이 부족할 위험이 있습니다. 또한 제안을 후처리하기 위해 수동으로 설계된 규칙에 의존하면 불안정성이 발생합니다. 이는 자연스럽게 중요한 질문으로 이어집니다. VLM의 high-level reasoning과 정밀한 low-level 로봇 조작을 연결하는 보다 효율적이고 일반화 가능한 representations을 어떻게 개발할 수 있을까요?

이러한 문제를 해결하기 위해, 우리는 객체의 표준 공간 내에 interaction points와 directions을 통합하는 새로운 object-centric 중간 representation을 제안합니다. 이 representation은 VLM의 high-level 상식 추론과 정밀한 3D 공간 이해 사이의 격차를 해소합니다. 우리의 핵심 통찰력은 객체의 표준 공간이 일반적으로 기능적 어포던스를 기반으로 정의된다는 것입니다. 결과적으로, 우리는 객체의 표준 공간 내에서 객체의 기능을 보다 구조화되고 의미론적으로 의미 있는 방식으로 설명할 수 있습니다. 한편, 범용 객체 포즈 추정의 최근 발전으로 광범위한 객체를 표준화하는 것이 가능해졌습니다.

구체적으로, 우리는 범용 6D 객체 포즈 추정 model을 사용하여 객체를 표준화하고 상호 작용 중 객체의 rigid transformations을 설명합니다. 동시에, single-view 3D generation 네트워크는 자세한 객체 meshes를 생성합니다. 표준 공간 내에서 interaction directions은 초기에 객체의 주요 축을 따라 샘플링되어 대략적인 상호 작용 가능성 집합을 제공합니다. 한편, VLM은 interaction points를 예측합니다. 그 후, VLM은 task-relevant primitives를 식별하고 그들 사이의 공간적 제약 조건을 추정합니다. VLM reasoning의 hallucination 문제를 해결하기 위해, 우리는 interaction rendering 및 primitive resampling을 통한 self-correction 메커니즘을 도입하여 closed-loop reasoning을 가능하게 합니다. 최종 전략이 결정되면, constrained optimization을 통해 actions이 계산되고, 포즈 추적은 closed-loop 실행 단계에서 견고하고 실시간 제어를 보장합니다. 우리 방법은 몇 가지 주요 이점을 제공합니다. 1) 효율적이고 효과적인 Interaction Primitive Sampling: 객체의 표준 공간을 활용함으로써, 우리 접근 방식은 interaction primitives의 효율적이고 효과적인 샘플링을 가능하게 하여 시스템의 추론 능력을 향상시킵니다. 2) Dual Closed-Loop, Open-Vocabulary Robotic Manipulation System: 제안된 object-centric 중간 representation의 이점을 활용하여, 우리 방법은 이중 closed-loop 시스템을 구현합니다. 렌더링 및 재샘플링 프로세스는 의사 결정을 위한 reasoning loop를 구동하는 반면, 포즈 추적은 action 실행을 위한 closed loop를 보장합니다.

요약하면, 우리의 기여는 세 가지입니다.

우리는 VLM의 high-level 상식 추론과 low-level 로봇 조작 사이의 격차를 해소하는 새로운 object-centric interaction representation을 제안합니다.
우리가 아는 한, 우리는 VLM fine-tuning 없이 planning 및 execution dual closed-loop open-vocabulary 조작 시스템을 최초로 제시합니다.
광범위한 실험은 다양한 조작 작업 전반에 걸쳐 우리 방법의 강력한 zero-shot 일반화를 보여주며, 로봇 조작 데이터 generation을 자동화할 수 있는 잠재력을 강조합니다.

기존 연구의 한계:

VLM의 3D 공간 이해 부족: 기존 VLM은 주로 2D visual 데이터에 trained 되어, 정밀한 조작에 필수적인 3D 공간 이해 능력이 부족합니다.
VLA Fine-tuning의 문제점:
- 데이터 수집: 다양하고 고품질의 로봇 데이터 수집은 비용과 시간이 많이 소요됩니다.
- 일반화 제한: Agent-specific representations 생성으로 인해 일반화가 어렵습니다.
기존 Interaction Primitives 추상화 방식의 한계:
- Task-Agnostic 제안 생성: 적절한 제안(proposals)이 부족할 위험이 존재합니다.
- 수동 설계 규칙 의존: 제안 후처리를 위한 수동 설계 규칙은 불안정성을 야기합니다.

핵심 질문:

"VLM의 high-level reasoning과 정밀한 low-level 로봇 조작을 연결하는 효율적이고 일반화 가능한 representations은 무엇인가?"

제안하는 방법 (핵심 아이디어):

Object-Centric Intermediate Representation:
- 객체의 표준 공간(Canonical Space) 내에 interaction points와 directions을 통합한 새로운 표현 방식을 제안합니다.
- VLM의 추론과 3D 공간 이해 사이의 "다리" 역할을 합니다.
Canonical Space & Functional Affordances:
- 객체의 기능적 어포던스 기반으로 정의된 표준 공간을 활용하여, 상호 작용을 구조적/의미론적으로 표현합니다.
- 범용 6D 객체 포즈 추정 모델을 통해 객체를 표준화합니다.
Interaction Primitives Sampling & VLM Reasoning:
- 표준 공간에서 주요 축을 따라 interaction directions을 샘플링하고, VLM이 interaction points를 예측합니다.
- VLM은 task-relevant primitives를 식별하고 공간적 제약 조건을 추정합니다.
Self-Correction with Interaction Rendering & Resampling:
- VLM 추론의 hallucination 문제를 해결하기 위해, interaction rendering과 primitive resampling을 통한 self-correction 메커니즘을 도입합니다.
Dual Closed-Loop System:
- Reasoning Loop: 렌더링 및 재샘플링을 통해 의사 결정을 위한 추론 루프를 구동합니다.
- Execution Loop: 포즈 추적을 통해 정밀한 실행을 위한 폐루프 제어를 보장합니다.

차별점 & 의의:

VLM Fine-tuning 불필요: VLM을 직접 fine-tuning하지 않고도 로봇 조작에 활용합니다.
Dual Closed-Loop Open-Vocabulary 조작 시스템 최초 제안: Planning과 execution을 위한 이중 폐루프 시스템을 통해 정교한 제어를 달성합니다.
Zero-Shot 일반화 & 자동화된 데이터 생성: 다양한 조작 작업에 대한 zero-shot 일반화 능력을 보이며, 로봇 조작 데이터 생성 자동화의 가능성을 제시합니다.

결론적으로, 이 논문은 object-centric representation과 dual closed-loop 시스템을 통해 VLM을 로봇 조작에 효과적으로 활용하는 새로운 방식을 제안합니다. 이는 기존 연구의 한계를 극복하고, 범용 로봇 조작 시스템 개발에 한 걸음 더 다가가는 중요한 연구입니다.

2. Related Work

Foundation Models for Robotics

foundation models의 등장은 로봇 공학 분야, 특히 환경 이해와 high-level 상식 추론에 탁월한 vision-language models의 적용에 큰 영향을 미쳤습니다. 이러한 models은 새롭고 구조화되지 않은 환경에서 일반적인 작업을 수행하기 위해 로봇을 제어할 수 있는 잠재력을 보여줍니다. 일부 연구에서는 로봇 datasets에 VLM을 fine-tuned하여 로봇 궤적을 출력하는 VLA models을 생성했지만, 이러한 노력은 데이터 수집의 높은 비용과 일반화 문제로 인해 제한됩니다. 다른 접근 방식은 visual foundation models을 사용하여 operation primitives를 추출한 다음, 이를 VLM을 위한 visual 또는 language prompts로 사용하여 high-level 상식 추론을 수행하고, motion planners와 결합하여 low-level 제어를 수행합니다. 그러나 이러한 방법은 3D primitives를 VLM에 필요한 2D 이미지 또는 1D 텍스트로 압축하는 것의 모호성과 VLM 자체의 hallucination 경향에 의해 제한되어, VLM에 의해 생성된 high-level plans이 정확한지 확인하기 어렵습니다. 이 연구에서, 우리는 이러한 과제, 특히 정교한 3D 이해와 large model의 hallucination을 완화하는 데 있어 OmniManip의 고유한 이점을 입증합니다.

Representations for Manipulation

구조적 representations은 조작 방법의 기능과 효율성을 결정합니다. 다양한 유형의 representations 중에서 keypoints는 유연성, 일반화 및 가변성 모델링 능력으로 인해 널리 사용되는 선택입니다. 그러나 이러한 keypoints 기반 방법은 action을 생성하기 위해 수동으로 task-specific annotations이 필요합니다. zero-shot open-world 조작을 가능하게 하기 위해, 일부 연구에서는 keypoints를 VLM을 위한 visual prompts로 변환하여 high-level planning 결과의 자동 생성을 용이하게 했습니다. 이러한 장점에도 불구하고, keypoints는 불안정할 수 있습니다. 즉, occlusion에 어려움을 겪고 특정 keypoints의 추출 및 선택에 문제가 있습니다. 또 다른 일반적인 representation은 6D 포즈로, 조작을 위한 객체 간의 장거리 종속성을 효율적으로 정의하고 occlusion에 대한 어느 정도의 견고성을 제공합니다. 그러나 이러한 방법은 기하학적 관계의 사전 모델링을 필요로 하며, 포즈의 희소성으로 인해 정교한 기하학을 제공할 수 없습니다. 이 한계는 클래스 내 변형으로 인해 서로 다른 객체에 대한 조작 전략의 실패로 이어질 수 있습니다. 이러한 문제를 해결하기 위해, OmniManip은 keypoints의 정교한 기하학과 6D 포즈의 안정성을 결합합니다. VLM을 사용하여 객체의 표준 좌표계 내에서 자세한 기능적 points와 directions을 자동으로 추출하여 정밀한 조작을 가능하게 합니다.

A. Foundation Models for Robotics:

VLM의 활용:
- High-Level Task Planning: VLM은 환경 이해와 상식 추론 능력을 바탕으로 로봇 조작을 위한 high-level planning에 활용됩니다.
- VLA 모델: 로봇 데이터셋으로 VLM을 fine-tuning하여 로봇 궤적을 출력하는 VLA 모델 연구들이 존재하지만, 데이터 수집 비용과 일반화 문제에 직면합니다.
- Visual/Language Prompts: VLM을 활용한 high-level 추론을 위해 operation primitives를 추출하여 visual/language prompts로 변환하는 접근 방식이 있습니다.
기존 연구의 한계:
- 3D-to-2D/1D 변환 문제: VLM 입력을 위해 3D primitives를 2D 이미지나 1D 텍스트로 변환하는 과정에서 정보 손실, 모호성, 표현력의 한계가 발생합니다.
- VLM의 Hallucination: VLM은 부정확한 정보를 생성하는 경향이 있어, high-level planning의 신뢰도를 저하시킵니다.
OmniManip의 차별성:
- 정교한 3D 이해: OmniManip은 이러한 한계를 극복하고, 특히 정교한 3D 이해와 large model hallucination 완화에 있어 강점을 보입니다.

B. Representations for Manipulation:

Keypoints:
- 장점: 유연성, 일반화, 가변성 모델링에 효과적입니다.
- 단점: 수동 task-specific annotations 필요, 불안정성(occlusion 취약), 추출/선택의 어려움이 존재합니다.
- VLM과의 결합 시도: Keypoints를 visual prompts로 변환하여 VLM을 활용한 high-level planning 자동화 연구들이 있었지만, keypoints 자체의 한계는 여전히 존재합니다.
6D Pose:
- 장점: 장거리 종속성 표현, occlusion에 대한 견고성을 제공합니다.
- 단점: 기하학적 관계의 사전 모델링 필요, 정교한 기하학 표현 부족, 클래스 내 변형에 취약합니다.
OmniManip의 제안:
- Keypoints + 6D Pose: 두 representation의 장점을 결합하여, 정교한 기하학과 안정성을 모두 확보하고자 합니다.
- VLM을 활용한 자동화: VLM을 사용하여 객체의 표준 좌표계 내에서 기능적 points와 directions을 자동으로 추출하여, 수동 annotation 없이 정밀한 조작을 가능하게 합니다.

결론:

기존 연구들은 VLM을 로봇 조작에 활용하려는 시도를 해왔지만, 3D 정보의 2D/1D 변환 문제, VLM의 hallucination, 효과적인 representation의 부재 등의 한계에 직면했습니다.
OmniManip은 object-centric representation과 VLM을 활용한 자동화된 feature extraction을 통해 이러한 한계를 극복하고, 정교한 3D 이해와 안정적인 조작을 가능하게 하는 새로운 접근 방식을 제안합니다.
본 논문은 특히 3D 공간 이해 능력과 hallucination 완화 측면에서 기존 연구 대비 OmniManip의 강점을 강조하고 있습니다.

한 줄 요약: OmniManip은 VLM 기반 로봇 조작 연구의 고질적인 문제점(3D 이해, hallucination, representation)을 새로운 object-centric representation과 자동화 전략으로 해결하여, 기존 연구와의 차별성을 확보하고 더 정교하고 안정적인 조작을 가능하게 합니다.

3. Method

여기서는 다음을 논의합니다: (1) 공간 제약 조건으로서 interaction primitives를 사용하여 로봇 조작을 어떻게 공식화하는가(3.1절)? (2) 일반적이고 open vocabulary 방식으로 표준 interaction primitives를 추출하는 방법(3.2절)? (3) OmniManip이 이중 closed-loop 시스템을 달성할 수 있는 이유(3.3절)?

3.1. Manipulation with Interaction Primitives

우리 공식에서, 복잡한 로봇 작업은 단계별로 분해되며, 각 단계는 공간 제약 조건이 있는 객체 interaction primitives로 정의됩니다. 이 구조화된 접근 방식은 작업 요구 사항을 정확하게 정의하고 복잡한 조작 작업의 실행을 용이하게 합니다. 이 섹션에서는, interaction primitives가 어떻게 공간 제약 조건의 기초 역할을 하여 견고한 조작을 가능하게 하는지 자세히 설명합니다.

Task Decomposition. 그림 2에서 볼 수 있듯이, 조작 작업 T(예: 컵에 차 따르기)가 주어지면, 먼저 GroundingDINO와 SAM, 두 가지 Visual Foundation Models (VFMs)을 활용하여 [49]처럼 장면의 모든 전경 객체를 visual prompt로 표시합니다. 그 후, VLM을 사용하여 task-relevant 객체를 필터링하고 작업을 여러 단계 S = {S1, S2, . . . , Sn}로 분해합니다. 여기서 각 단계 Si는 Si = {Ai, Oactive i, Opassive i}로 공식화될 수 있습니다. Ai는 수행할 action(예: 잡기, 따르기)을 나타내고, Oactive i 와 Opassive i는 각각 상호 작용을 시작하는 객체와 작용되는 객체를 나타냅니다. 예를 들어, 그림 2에서 주전자를 잡는 단계에서는 주전자가 passive 객체이고, 차를 컵에 따르는 단계에서는 주전자가 active 객체이고 컵이 passive 객체입니다.

Object-Centric Canonical Interaction Primitives. 우리는 조작 작업 중 객체가 상호 작용하는 방식을 설명하기 위해 표준 interaction primitives를 사용한 새로운 object-centric representation을 제안합니다. 구체적으로, 객체의 interaction primitives는 표준 공간에서의 interaction point와 direction으로 특징지어집니다. interaction point p ∈ R3은 상호 작용이 발생하는 객체의 주요 위치를 나타내고, interaction direction v ∈ R3은 작업과 관련된 주요 축을 나타냅니다. 이들은 함께 interaction primitive O = {p, v}를 형성하며, 작업 제약 조건을 충족하는 데 필요한 본질적인 기하학적 및 기능적 특성을 캡슐화합니다. 이러한 표준 interaction primitives는 표준 공간을 기준으로 정의되어, 다양한 시나리오에서 일관성을 유지하며, 보다 일반화되고 재사용 가능한 조작 전략을 가능하게 합니다.

Interaction Primitives with Spatial Constraints. 각 단계 Si에서, 공간 제약 조건 집합 Ci는 active 객체와 passive 객체 간의 공간적 관계를 제어합니다. 이러한 제약 조건은 interaction points 간의 거리를 조절하는 거리 제약 조건 di와 interaction directions의 적절한 정렬을 보장하는 각도 제약 조건 θi의 두 가지 범주로 나뉩니다. 이러한 제약 조건은 함께 정밀한 공간 정렬 및 작업 실행에 필요한 기하학적 규칙을 정의합니다. 각 단계 Si에 대한 전체 공간 제약 조건은 다음과 같습니다:

Ci = {Oactive i, Opassive i, di, θi} (1)

제약 조건 Ci가 정의되면, 작업 실행은 최적화 문제로 공식화될 수 있습니다.

3.2. Primitives and Constraints Extraction

이 섹션에서는 각 단계에 대한 interaction primitives와 그 공간 제약 조건 C를 추출하는 프로세스에 대해 자세히 설명합니다. 그림 2에서 볼 수 있듯이, 우리는 먼저 single-view 3D generation을 통해 task-relevant active 및 passive 객체 모두에 대한 3D 객체 meshes를 얻은 다음, Omni6DPose를 사용한 포즈 추정으로 객체 표준화를 수행합니다. 다음으로, task-relevant interaction primitives와 해당 제약 조건을 추출합니다.

Grounding Interaction Point. 그림 3에서 볼 수 있듯이, interaction points는 Visible and Tangible (예: 주전자 손잡이) 또는 Invisible or Intangible (예: 주전자 입구의 중심)로 분류됩니다. interaction points grounding을 위한 VLM을 개선하기 위해, SCAFFOLD visual prompting 메커니즘이 사용되며, 이는 입력 이미지에 Cartesian grid를 오버레이합니다. Visible points는 이미지 평면에 직접 위치가 지정되는 반면, Invisible points는 제안된 표준 객체 representations을 기반으로 multi-view reasoning을 통해 추론됩니다(그림 3 참조). 추론은 primary viewpoint에서 시작하여, 모호함은 orthogonal view로 전환하여 해결합니다. 이 접근 방식은 보다 유연하고 신뢰할 수 있는 interaction point grounding을 가능하게 합니다. 잡기와 같은 작업을 위해, 여러 interaction points에서 히트 맵이 생성되어, 잡기 모델의 견고성을 향상시킵니다.

Sampling Interaction Direction. 표준 공간에서, 객체의 주요 축은 종종 기능적으로 관련이 있습니다. 그림 4에서 볼 수 있듯이, 우리는 주요 축을 후보 interaction directions으로 간주합니다. 그러나, 이러한 directions과 작업의 관련성을 평가하는 것은 현재 VLM의 제한된 공간 이해로 인해 어렵습니다. 이를 해결하기 위해, 우리는 VLM caption 및 LLM scoring 메커니즘을 제안합니다. 먼저, VLM을 사용하여 각 후보 축에 대한 의미론적 설명을 생성한 다음, LLM을 사용하여 이러한 설명과 작업의 관련성을 추론하고 점수를 매깁니다. 이 프로세스는 작업 요구 사항과 가장 일치하는 정렬된 후보 directions 집합을 생성합니다. 궁극적으로, 제약 조건이 있는 interaction primitives는 VLM으로 생성되어, 각 단계 Si에 대한 제약 조건이 있는 interaction primitives의 정렬된 목록 Ki = {C(1)i, C(2)i, . . . , C(N)i}를 생성합니다.

3.3. Dual Closed-Loop System

3.2절에서 설명한 대로, 우리는 active 객체와 passive 객체의 interaction primitives (각각 Oactive 및 Opassive로 표시됨)와 그들의 공간적 관계를 정의하는 공간 제약 조건 C를 얻습니다. 그러나, 이것은 open-loop 추론이며, 본질적으로 시스템의 견고성과 적응성을 제한합니다. 이러한 제한은 주로 1) large models의 hallucination 효과와 2) 실제 환경의 동적 특성이라는 두 가지 원인에서 발생합니다. 이러한 문제를 극복하기 위해, 우리는 그림 2와 같이 이중 closed-loop 시스템을 제안합니다.

Algorithm 1 Self-Correction Algorithm via RRC

Input: Task T, Stage Si, Initial List of Primitives with Constraints Ki = {C(1)i, C(2)i, . . . , C(N)i}

Output: Successful Constraints Cˆi or Task Failure

1: k ← 1, maxSteps ← N, refine ← False

2: while k ≤ maxSteps do

3: k ← k + 1

4: Render: Ii ← Render(C(k)i)

5: Check: state ← VLM(T, Si, Ii, C(k)i, refine)

6: if state = ‘Refine’ and refine = False then

7: Resample: Update Ki ← Resample(C(k)i)

8: k ← 1, maxSteps ← M, refine ← True

9: else if state = ‘Success’ then

10: return C(k)i

11: end if

12: end while

13: return Task Failed

Closed-loop Planning. interaction primitives의 정확도를 개선하고 VLM의 hallucination 문제를 완화하기 위해, 우리는 Resampling, Rendering, and Checking (RRC)을 기반으로 하는 self-correction 메커니즘을 도입합니다. 이 메커니즘은 visual language model (VLM)의 실시간 피드백을 사용하여 상호 작용 오류를 감지하고 수정하여, 정밀한 작업 실행을 보장합니다. RRC 프로세스는 초기 단계와 정제 단계의 두 단계로 구성됩니다. 전체 RRC 메커니즘은 알고리즘 1에 요약되어 있습니다. 초기 단계에서, 시스템은 3.2절에 정의된 active 객체와 passive 객체 간의 공간적 관계를 지정하는 interaction constraints Ki를 평가합니다. 각 제약 조건 C(k)i에 대해, 시스템은 현재 configuration을 기반으로 interaction image Ii를 렌더링하고 검증을 위해 VLM에 제출합니다. VLM은 성공, 실패 또는 정제의 세 가지 결과 중 하나를 반환합니다. 성공이면 제약 조건이 허용되고 작업이 진행됩니다. 실패이면 다음 제약 조건이 평가됩니다. 정제이면 시스템은 추가 최적화를 위해 정제 단계에 들어갑니다. 정제 단계에서, 시스템은 객체의 기능적 축과 기하학적 축 사이의 misalignment를 수정하기 위해 예측된 interaction direction vi 주위에서 미세 조정된 resampling을 수행합니다. 시스템은 vi 주위에서 6개의 정제된 directions v(j)i를 균일하게 샘플링하고 평가합니다.

Closed-loop Execution. 각 단계에 대한 interaction primitives와 해당 공간 제약 조건 C가 정의되면, 작업 실행은 최적화 문제로 공식화될 수 있습니다. 목표는 end-effector의 목표 포즈 Pee∗를 결정하기 위해 손실 함수를 최소화하는 것입니다. 최적화 문제는 다음과 같이 표현될 수 있습니다:

Pee∗ = arg minPee { ΣNj=1 Lj(Pee) }, s.t. L = {LC, Lcollision, Lpath} (2)

여기서, 제약 손실 LC는 action이 작업의 공간 제약 조건 C를 준수하도록 보장하며, 다음과 같이 정의됩니다:

LC = ρ(C, Pactive t, Ppassive t), where Pactive t = Φ(Pee t) (3)

여기서, ρ(·)는 active 객체 Pactive t와 passive 객체 Ppassive t의 현재 공간 관계와 원하는 제약 조건 C 간의 편차를 측정하는 반면, Φ(·)는 end-effector 포즈를 active 객체의 포즈에 매핑합니다. 충돌 손실 Lcollision은 end-effector가 환경의 장애물과 충돌하는 것을 방지하며 다음과 같이 정의됩니다:

Lcollision = ΣNj=1 max (0, dmin − d(Pee, Oj))2 (4)

여기서 d(Pee, Oj)는 end-effector와 장애물 Oj 간의 거리를 나타내고, dmin은 최소 허용 안전 거리입니다. 경로 손실 Lpath는 부드러운 모션을 보장하며 다음과 같이 정의됩니다:

Lpath = λ1dtrans(Pee t, Pee) + λ2drot(Pee t, Pee) (5)

여기서 dtrans(·) 및 drot(·)는 각각 end-effector의 translational 및 rotational displacements를 나타내고, λ1 및 λ2는 translation과 rotation의 influence의 균형을 맞추는 가중치입니다. 이러한 손실 함수를 최소화함으로써, 시스템은 end-effector 포즈 Pee를 동적으로 조정하여, 충돌을 피하고 부드러운 모션을 유지하면서 성공적인 작업 실행을 보장합니다.

식 3은 interaction primitives와 해당 공간 제약 조건이 실행 가능한 end-effector 포즈를 최적화하는 데 어떻게 활용될 수 있는지 간략하게 설명하지만, 실제 작업 실행에는 종종 중요한 동적 요소가 포함됩니다. 예를 들어, 잡기 작업 중 잡기 포즈의 편차는 의도하지 않은 객체 이동을 초래할 수 있습니다. 더욱이, 특정 동적 환경에서는 대상 객체가 변위될 수 있습니다. 이러한 과제는 그러한 불확실성을 처리하는 데 있어 closed-loop 실행의 critical importance를 강조합니다. 이러한 문제를 해결하기 위해, 우리 시스템은 제안된 object-centric interaction primitives를 활용하고, 식 4에서 요구하는 대로 off-the-shelf 6D 객체 포즈 추적 알고리즘을 직접 사용하여 active 객체 Pactive t와 passive 객체 Ppassive t의 포즈를 실시간으로 지속적으로 업데이트합니다. 이 실시간 피드백은 end-effector의 목표 포즈에 대한 동적 조정을 가능하게 하여, 견고하고 정확한 closed-loop 실행을 가능하게 합니다.

이 논문의 Method 섹션은 "어떻게 하면 로봇이 복잡한 조작 작업을 정밀하게 수행할 수 있을까?" 라는 질문에 대한 답을 object-centric interaction primitives와 dual closed-loop 시스템이라는 두 가지 핵심 아이디어를 통해 제시합니다.

1. Manipulation with Interaction Primitives (Sec 3.1):

핵심 아이디어: 복잡한 조작 작업을 여러 단계(stages)로 나누고, 각 단계를 object-centric interaction primitives와 spatial constraints로 정의합니다.
- Task Decomposition: VLM을 활용하여 조작 작업(예: 차 따르기)을 여러 단계로 분해하고, 각 단계는 action, active object, passive object로 구성됩니다. (예: {잡기, 손, 주전자}, {따르기, 주전자, 컵})
- Object-Centric Canonical Interaction Primitives: 객체와의 상호작용을 표준 공간(canonical space)에서의 interaction point(p)와 interaction direction(v) 으로 표현합니다.
  - p (interaction point): 객체에서 상호작용이 일어나는 지점 (예: 주전자 손잡이, 컵 입구)
  - v (interaction direction): 작업과 관련된 주요 축 (예: 주전자를 기울이는 방향, 컵을 놓는 방향)
  - O = {p, v}: 이 둘을 묶어 interaction primitive를 정의하고, 이는 객체의 본질적인 기하학적/기능적 속성을 나타냅니다.
- Spatial Constraints: 각 단계에서 active/passive 객체 간의 상호작용을 정의하는 거리 제약 조건(distance constraints, d) 과 각도 제약 조건(angular constraints, θ) 을 설정합니다.
  - Ci = {O^active_i, O^passive_i, d_i, θ_i}: 각 단계 i에 대한 공간 제약 조건을 정의하여, 정밀한 공간 정렬과 작업 실행을 가능하게 합니다.

2. Primitives and Constraints Extraction (Sec 3.2):

핵심 아이디어: VLM과 3D generation 모델, 그리고 제안하는 알고리즘을 활용하여 자동으로 object-centric interaction primitives와 spatial constraints를 추출합니다.
- 3D Object Meshes & Canonicalization: single-view 3D generation과 pose estimation (Omni6DPose)을 통해, task-relevant 객체들의 3D meshes를 얻고 표준화(canonicalization)합니다.
- Grounding Interaction Point:
  - SCAFFOLD visual prompting + Cartesian grid: VLM이 interaction point를 더 잘 찾도록 돕습니다.
  - Visible/Tangible vs. Invisible/Intangible: 직접 보이는 points와 보이지 않는 points(예: 컵의 중심)를 구분하여 처리합니다.
  - Multi-view reasoning: 보이지 않는 points는 여러 시점에서의 추론을 통해 찾아냅니다.
- Sampling Interaction Direction:
  - Principal axes as candidates: 객체의 주요 축들을 후보 interaction directions으로 간주합니다.
  - VLM captioning + LLM scoring: 각 후보 direction에 대해 VLM으로 설명을 생성하고, LLM으로 작업과의 관련성을 평가하여 가장 적합한 direction을 찾습니다.
- Ordered list of constrained interaction primitives (K_i): VLM을 통해 각 단계에 대한 제약 조건이 포함된 interaction primitives 목록을 생성합니다.

3. Dual Closed-Loop System (Sec 3.3):

핵심 아이디어: VLM의 hallucination과 실제 환경의 동적 변화에 대응하기 위해 planning과 execution에 모두 closed-loop를 적용합니다.
- Open-Loop Inference의 한계: VLM의 hallucination, 실제 환경의 불확실성으로 인해 open-loop 추론만으로는 한계가 있습니다.
- Closed-loop Planning (with RRC):
  - RRC (Resampling, Rendering, Checking): 제안된 interaction primitives와 constraints를 검증하고 개선하는 메커니즘입니다.
  - Algorithm 1: RRC 알고리즘은 VLM을 사용하여 interaction image를 평가하고, 필요시 resampling을 통해 primitives를 조정합니다. 이를 통해 hallucination에 의한 오류를 줄입니다.
- Closed-loop Execution:
  - Optimization Problem: interaction primitives와 constraints를 이용해 end-effector의 최적 pose를 계산합니다.
  - Constraint Loss (L_C): action이 정의된 constraints를 따르도록 합니다.
  - Collision Loss (L_collision): 장애물과의 충돌을 방지합니다.
  - Path Loss (L_path): 부드러운 움직임을 보장합니다.
  - 6D Object Pose Tracking: off-the-shelf 6D pose tracker를 사용하여 active/passive 객체의 pose를 실시간으로 업데이트하고, 이를 바탕으로 end-effector의 target pose를 조정하여 동적 환경에 대응합니다.

이 논문만의 차별화된 핵심:

Object-Centric Canonical Interaction Primitives: 로봇 조작을 위한 새롭고 효과적인 representation을 제안합니다.
VLM을 활용한 자동화된 Primitives/Constraints Extraction: 수동 annotation 없이도 정밀한 조작을 위한 정보를 자동으로 추출합니다.
Dual Closed-Loop System: Planning과 execution 모두에 closed-loop를 적용하여, VLM의 hallucination과 동적 환경에 강인한 시스템을 구축합니다.
RRC 메커니즘: VLM hallucination에 대응하기위한 구체적이고 새로운 방법을 제시합니다.

결론적으로, 이 논문은 object-centric interaction primitives와 dual closed-loop 시스템이라는 독창적인 방법론을 통해, VLM 기반 로봇 조작의 정확도와 신뢰도를 크게 향상시키는 데 기여하고 있습니다.