AI바라기의 인공지능

robotics : 논문 리뷰 : Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding 본문

논문리뷰

robotics : 논문 리뷰 : Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding

AI바라기 2025. 1. 11. 18:08

정리 노트: Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding

Purpose of the Paper

기존의 generalist robot policies는 대부분 visual 및 proprioceptive observations에 의존하여 robot actions을 예측하도록 trained 되었습니다. 이로 인해 vision이 제한되는 partially-observable scenes에서는 tasks를 완전히 수행하는 데 한계가 있었습니다. 특히, touch나 audio와 같은 heterogeneous sensor modalities를 포함하는 large-scale datasets의 부족은 generalist robot policies의 발전을 저해하는 주요 요인이었습니다.

이 논문은 이러한 한계를 극복하기 위해 FuSe라는 새로운 approach를 제안합니다. FuSe는 natural language를 common cross-modal grounding으로 활용하여, large datasets가 readily available 하지 않은 heterogeneous sensor modalities (e.g., touch, audio)에 대해 visuomotor generalist policies를 finetuning 할 수 있도록 합니다. 이를 통해 partially-observable scenes에서도 challenging multimodal 및 cross-modal prompting tasks를 수행하고, zero-shot descriptions of objects를 generate 할 수 있는 generalist robot policies를 개발하는 것이 이 논문의 핵심적인 목적입니다.

Key Contributions

  • FuSe Framework 제안: Heterogeneous sensor modalities (touch, audio)를 generalist robot policies에 통합하기 위한 finetuning recipe인 FuSe를 제안합니다.
  • Language Grounding: Natural language를 common cross-modal grounding으로 사용하여, heterogeneous sensory data를 pre-trained generalist robot policies의 semantic knowledge와 연결합니다.
  • Auxiliary Losses: Multimodal contrastive loss와 sensory-grounded language generation loss를 결합하여 high-level semantics를 encode하고, modalities 간의 joint reasoning을 가능하게 합니다.
  • Zero-Shot Capabilities: Multimodal prompting, compositional cross-modal prompting, zero-shot descriptions of objects와 같은 challenging tasks를 zero-shot setting에서 수행할 수 있음을 보였습니다.
  • 다양한 Generalist Policies에 적용 가능: Diffusion-based generalist policies와 large vision-language-action (VLA) models를 포함한 다양한 generalist policies에 FuSe가 적용될 수 있음을 보였습니다.
  • Real-World Experiments: Real-world experiments를 통해 FuSe가 기존 baselines 대비 20% 이상의 success rates 향상을 달성함을 입증했습니다.
  • Dataset 공개: Vision, touch, audio, proprioception, language instructions을 포함한 27K robot trajectories dataset을 공개하여 후속 연구를 지원합니다.

Novelty

  • Language as a Bridge: Natural language를 heterogeneous sensor modalities와 pre-trained semantic knowledge를 연결하는 bridge로 활용한 최초의 연구입니다.
  • Zero-Shot Generalization to New Modalities: Touch와 audio와 같은 unseen sensor modalities에 대한 zero-shot generalization을 달성했습니다.
  • Compositional Cross-Modal Reasoning: Vision, touch, sound를 jointly reasoning하는 compositional cross-modal prompting을 zero-shot setting에서 가능하게 했습니다.
  • Open-Source VLA Finetuned on Heterogeneous Sensors: Heterogeneous (non-visual) sensory inputs에 finetuned 된 최초의 open-source VLA (FuSe)를 제공합니다.

Experimental Highlights

  • 세 가지 Real-World Robotic Manipulation Tasks: Tabletop grasping, shopping bag grasping, button pressing tasks를 사용하여 FuSe의 effectiveness를 검증했습니다.
  • 다양한 Evaluation Scenarios: 각 task에 대해 different objects와 distractors를 포함한 다양한 scenarios에서 evaluation을 진행했습니다.
  • Baseline과의 비교: FuSe를 vision data로만 finetuned 된 baselines 및 heterogeneous sensory data로 scratch부터 trained 된 baselines와 비교했습니다.
  • Ablation Study: Proposed auxiliary cross-modal language grounding losses의 중요성을 확인하기 위해 ablation study를 수행했습니다.
  • PaliGemma FuSe 3B VLA Model: FuSe가 large vision-language-action (VLA) models에도 적용될 수 있음을 입증하기 위해 PaliGemma FuSe 3B VLA model을 trained하고 evaluated 했습니다.
  • Quantitative Results: FuSe가 모든 considered baselines 대비 20% 이상의 success rates 향상을 달성했음을 quantitative results를 통해 보여주었습니다.
  • Qualitative Results: Multimodal prompting, compositional cross-modal prompting, zero-shot descriptions of objects와 같은 challenging tasks를 수행하는 FuSe의 capabilities를 qualitative results를 통해 입증했습니다.

Limitations

  • Training Resources: Additional modalities를 포함한 training은 training resources를 증가시키므로, 현재 observation history가 0.4s로 제한됩니다.
  • Short Observation History: Limited observation history로 인해 tactile data와 같은 sparse signals에 대한 reasoning 능력이 제한될 수 있습니다.

Future Work

  • Training Efficiency 개선: Longer context length를 가진 training을 가능하게 하여 tactile data와 같은 sparse signals에 대한 reasoning 능력을 향상시킬 것입니다.
  • 더욱 Complex한 Tasks로 확장: FuSe를 더욱 complex하고 long-horizon tasks에 적용하여 그 effectiveness를 검증할 것입니다.
  • 다른 Sensor Modalities로 확장: FuSe를 다른 sensor modalities (e.g., force, temperature)로 확장하여 더욱 general한 multimodal robot policies를 개발할 것입니다.
  • Real-World Applications: FuSe를 real-world applications (e.g., assistive robotics, industrial automation)에 적용하여 그 practical value를 입증할 것입니다.

 

 

 

Abstract

세상과의 상호작용은 다중 감각적 경험입니다. 효과적인 범용 상호작용을 달성하려면 부분적인 관찰로 인한 간극을 메우기 위해 vision, 촉각, 청각을 포함한 모든 사용 가능한 modalities를 활용해야 합니다. 예를 들어, vision이 가려져 가방 안으로 손을 뻗을 때, robot은 촉각과 청각에 의존해야 합니다. 그러나 state-of-the-art generalist robot policies는 일반적으로 visual 및 proprioceptive observations만으로 robot actions을 예측하기 위해 large datasets에서 trained 됩니다. 이 연구에서 우리는 FuSe라는 새로운 접근 방식을 제안합니다. 이 방식은 large datasets을 쉽게 구할 수 없는 heterogeneous sensor modalities에 대해 visuomotor generalist policies를 finetuning할 수 있도록 하며, 이를 위해 natural language를 공통적인 cross-modal grounding으로 활용합니다. 우리는 multimodal contrastive loss와 sensory-grounded language generation loss를 결합하여 high-level semantics를 encode 합니다. robot manipulation의 맥락에서, 우리는 FuSe가 multimodal prompting, compositional cross-modal prompting, 그리고 상호작용하는 물체에 대한 설명과 같이 zero-shot setting에서 vision, 촉각, 청각과 같은 modalities를 jointly reasoning 해야하는 challenging tasks를 수행할 수 있음을 보여줍니다. 우리는 동일한 방식이 diffusion-based generalist policies와 large vision-language-action (VLA) models를 포함한 매우 다양한 generalist policies에 적용될 수 있음을 보여줍니다. 실제 환경에서의 광범위한 실험을 통해 FuSe가 고려된 모든 baselines에 비해 성공률을 20% 이상 높일 수 있음을 보여줍니다.

 

 

 

 

Fig. 1: 우리는 FuSe를 소개합니다. 이 접근 방식은 large image-based pre-trained generalist policies (vision-language-action (VLA) models 포함)를 touch 또는 audio와 같은 heterogeneous robot sensor modalities에 대해 finetuning 할 수 있게 합니다. 이러한 modalities는 large datasets을 쉽게 구할 수 없지만, natural language를 공통적인 cross-modal grounding으로 활용합니다. 우리의 finetuning 방식은 부분적으로 관찰 가능한 장면에서 challenging multimodal 및 cross-modal prompting tasks를 가능하게 하고, 상호작용하는 물체에 대한 zero-shot descriptions를 generate 할 수 있습니다.

 

 

 

I. INTRODUCTION 지능을 가진 존재는 다양한 감각적 feedback을 원활하게 결합하여 물리적 세계와 효과적으로 상호작용할 수 있는 능력을 가지고 있습니다. 인간은 vision 외에도 물체를 조작하기 위해 촉각과 청각 feedback에 의존하는데, 이는 특히 가방 안의 열쇠 찾기와 같이 visual information만으로는 작업을 완료하기에 불충분할 때 물체 속성에 대한 풍부한 보완 정보를 제공하기 때문입니다. 이는 광범위한 작업을 수행하기 위해 방대한 양의 robotics datasets에서 knowledge를 흡수하지만 일반적으로 visual 및 proprioceptive observations에만 의존하는 state-of-the-art "generalist" robot policies와 대조적입니다.

진정으로 hetereogeneous data를 기반으로 하는 generalist robot policies 개발을 제한하는 주요 요인은 거의 모든 robotics datasets이 visual 및 proprioceptive information을 포함하지만 그중 소수만이 다른 modalities의 sensory data를 포함한다는 것입니다. 이는 다음과 같은 질문을 제기합니다. "대량의 데이터에 대해 pre-trained된 generalist robot policies의 generalization capabilities를 유지하면서, large datasets을 쉽게 구할 수 없는 heterogeneous sensory data와 그들의 semantic knowledge를 어떻게 연결할 수 있을까요?"

이전 연구에 따르면 natural language는 minimally overlapping data domains에서 trained된 경우에도 mixed-modal models 간의 공통 interface를 제공할 수 있습니다. 게다가, human language를 multimodal percepts 및 actions과 연관시키는 것은 자연스럽게 여러 distinct modalities의 concepts를 혼합한 open-vocabulary queries("부드럽고 붉은 물체를 집어라")를 사용하여 goals를 indexing 할 수 있게 합니다. 그럼에도 불구하고, touch 또는 audio와 같은 여러 sensing modalities를 robotic policies에 통합하는 것은 지금까지 data scarcity, 특히 multimodal percepts와 low-level robotic actions에 대한 joint reasoning을 포함하는 data의 부족으로 인해 어려운 과제로 입증되었습니다.

본 연구에서 우리는 이러한 과제를 해결하고, touch 및 sound와 같이 vision을 보완하는 modalities로 구성된 smaller-scale datasets에서 generalist robot policies를 finetune 하는 방법을 제시하고, 이 multimodal finetuning 절차를 통해 새로운 capabilities와 cross-modal semantic understanding이 unlocked됨을 보여줍니다.

우리의 핵심 insight는 auxiliary loss를 통해 모든 modalities를 단일 공통 natural-language modality에 grounding함으로써 모든 modalities에 대한 joint reasoning을 달성할 수 있다는 것입니다. 이를 통해 우리의 policy는 multimodal prompting, interaction 시 object descriptions generation, compositional cross-modal prompting을 가능하게 하는 zero-shot setting에서 vision, touch, sound에 대한 jointly reasoning이 필요한 challenging manipulation tasks를 수행할 수 있습니다. 실제로, 우리의 policy는 "부드럽게 느껴지고 큰 소리가 나는 빨간 물체를 집어라", "잡은 물체가 어떤 느낌인지 설명해라", "피아노를 연주하는 버튼과 같은 색깔의 물체를 집어라"와 같은 challenging task instructions를 성공적으로 수행할 수 있습니다.

우리의 결과는 multimodal data에 대해 finetuned된 pre-trained generalist robot policy를 활용하는 policies가 vision data에 대해서만 finetuned되거나 heterogeneous sensory data에 대해 scratch부터 trained된 baselines보다 consistently outperform 함을 보여줍니다. 우리는 동일한 일반적인 방법이 Open X-Embodiment (OXE) dataset에서 trained된 large transformer-based policy인 Octo와 PaliGemma vision-language-model VLM backbone을 가진 3B VLA와 같이 매우 다른 architectures를 가진 generalist policies에도 적용될 수 있음을 발견했습니다.

실험을 위해 우리는 세 가지 다른 real-world robotic manipulation tasks에 대한 vision, touch, audio, proprioception, language instructions을 포함하는 27K robot trajectories로 구성된 dataset을 수집했습니다. 우리가 아는 한, 이 dataset은 physically grounded multimodal tasks를 수행하는 데 핵심인 robot action data를 포함하는 최초의 dataset입니다. 우리는 이 분야의 future research를 지원하기 위해 모든 data, code, models를 open-source 합니다.

 

 

기존 연구의 한계:

  • State-of-the-art "generalist" robot policies는 방대한 robotics datasets에서 학습하지만, 주로 visual 및 proprioceptive observations에만 의존합니다.
  • Touch, audio와 같은 다른 modalities를 활용하는 데 어려움이 있습니다. 특히, multimodal percepts와 low-level robotic actions을 jointly reasoning 하는 data가 부족합니다.
  • 이는 heterogeneous data를 기반으로 한 generalist robot policy 개발을 제한합니다.

본 연구의 차별점 (핵심):

  • 문제 제기: 대규모 데이터 확보가 어려운 heterogeneous sensory data와 pre-trained generalist robot policy의 semantic knowledge를 어떻게 연결할 것인가?
  • 핵심 아이디어: Natural language를 모든 modalities를 연결하는 공통 interface (grounding)로 활용하여, auxiliary loss를 통해 joint reasoning을 달성합니다.
  • 새로운 접근법 (FuSe):
    • Heterogeneous sensor modalities (touch, audio 등)에 대해 generalist robot policy를 finetuning 합니다.
    • Multimodal finetuning을 통해 새로운 capabilities와 cross-modal semantic understanding을 확보합니다.
  • 구체적 성과:
    • Zero-shot setting에서 vision, touch, sound를 jointly reasoning 해야하는 challenging manipulation tasks 수행 (e.g., multimodal prompting, object description generation, compositional cross-modal prompting).
    • "부드럽고 큰 소리가 나는 빨간 물체를 집어라"와 같은 복잡한 지시를 이해하고 수행합니다.
    • Multimodal data로 finetuned된 policyvision data로만 finetuned된 policy 또는 heterogeneous data로 scratch부터 학습된 policy보다 우수한 성능을 보입니다.
    • Octo와 같은 transformer-based policy3B VLA (PaliGemma VLM backbone)다양한 architecture에 적용 가능합니다.
    • 27K robot trajectories (vision, touch, audio, proprioception, language instructions)로 구성된 dataset 수집 및 open-source 합니다. 이는 robot action data를 포함하는 최초의 physically grounded multimodal dataset 입니다.

결론:

  • FuSe는 natural language를 활용하여 다양한 modalities를 통합하고, 이를 통해 generalist robot policy가 complex real-world tasks를 수행할 수 있도록 하는 효과적인 방법론을 제시합니다.
  • 이 연구는 multimodal robotic learning 분야의 발전에 크게 기여할 것으로 예상됩니다.

 

 

 

II. RELATED WORK

A. Generalist Robot Policies

Generalist robot policies는 robotic tasks에서 generalization을 가능하게 하기 위해 다양한 large-scale data를 활용하는 가능성을 보여주었습니다. 이러한 policies는 최근 커뮤니티에서 사용할 수 있게 된 large robot dataset collections를 활용하며, task를 정의하는 language instructions로 쿼리되는 경우가 가장 많습니다. 어떤 경우에는 robot actions이 vision-language model (VLM) backbone과 fused되어 internet-scale data에 대한 pre-training 덕분에 generalization이 향상됩니다. 그러나 최근에 소개된 일부 models은 flexible observations를 자연스럽게 처리할 수 있지만, touch 또는 audio와 같은 다른 sensory modalities를 포함하는 datasets의 부족으로 인해 그 capabilities가 주로 visual inputs에 국한됩니다. 대조적으로, 우리의 연구는 추가적인 heterogeneous modalities를 포함하는 훨씬 적은 양의 robotic data로 이러한 capabilities를 향상시켜 zero-shot setting에서 vision, touch, sound와 같은 modalities에 대한 jointly reasoning을 가능하게 하는 방법을 보여줍니다.

B. Multimodal Reasoning in Robotics

Multimodality는 autonomous robot policies의 capabilities를 향상시키기 위해 서로 다른 sensors 간의 complementarity를 활용하는 것을 목표로 합니다. 그 장점은 문헌에서 반복적으로 입증되어 성능, generalization, 또는 robustness 향상으로 이어졌습니다.

이러한 증거에도 불구하고, 오직 소수의 연구만이 vision과 proprioception 외에 sensor modalities를 사용합니다. 이는 커뮤니티에서 사용할 수 있게 된 robotics datasets에 반영되어 있습니다. 예를 들어, robotics dataset의 가장 큰 collection인 Open X-Embodiment (OXE)는 default sensory modalities의 일부로 touch 또는 sound를 포함하지 않습니다. 몇 가지 주목할 만한 예외로는 perception tasks를 위해 vision, language, touch를 align하려는 최근 연구들이 있습니다. 그러나 이러한 연구를 통해 제공되는 사용 가능한 datasets의 대부분은 robot actions을 포함하지 않아 policy training 및 physically grounded multimodal tasks를 수행하기 위한 적용 가능성이 제한됩니다. 여기서 우리는 먼저 vision, touch, audio, inertial measurements, proprioception, 그리고 robot actions과 language instructions를 포함하는 multi-task dataset을 소개합니다. 그런 다음 이 dataset을 활용하여 large generalist robot models를 finetune하여 새로운 multimodal reasoning capabilities를 unlock합니다.

 

 

A. Generalist Robot Policies

  • 현황:
    • Generalist robot policies는 대규모 로봇 데이터셋을 활용하여 일반화 능력을 향상시키는 데 가능성을 보여주고 있습니다.
    • 주로 language instruction으로 쿼리되며, VLM backbone과의 융합을 통해 internet-scale data로 pre-training 되어 일반화 성능을 높입니다.
  • 한계:
    • 최근 모델들이 flexible observation을 처리 가능하지만, touch, audio와 같은 sensory modality를 포함하는 데이터셋이 부족하여 주로 visual input에 의존하게 됩니다.
  • 본 연구와의 차별성: * 소량의 heterogeneous modality data (touch, audio 등)를 활용하여 generalist policy의 capabilities를 확장하고 vision, touch, sound에 대한 zero-shot joint reasoning을 가능하게 합니다.

B. Multimodal Reasoning in Robotics

  • 현황:
    • Multimodality는 로봇의 성능, 일반화, 강건성 등을 향상시키는 것으로 알려져 있습니다.
    • 하지만, 실제 연구에서는 vision과 proprioception 외의 sensor modality 활용이 드뭅니다.
    • Open X-Embodiment (OXE)와 같은 대규모 로봇 데이터셋도 touch, sound를 기본 감각 modality로 포함하지 않습니다.
    • 일부 연구에서 vision, language, touch를 align하려는 시도가 있지만, 대부분 robot action data가 없어 policy training과 physically grounded multimodal task 수행에 제약이 있습니다.
  • 본 연구의 핵심:
    • Vision, touch, audio, inertial measurements, proprioception, robot actions, language instructions를 포함하는 multi-task dataset을 최초로 소개합니다.
    • 이 데이터셋을 활용하여 large generalist robot model을 finetuning하고 새로운 multimodal reasoning capabilities를 unlock합니다.

결론:

  • 본 연구는 기존 연구들이 간과했던 touch, audio와 같은 modalities를 generalist robot policy에 통합하여 multimodal reasoning 능력을 크게 향상시키는 데 중점을 둡니다.
  • 특히, robot action data를 포함한 새로운 multimodal dataset을 제시함으로써, physically grounded multimodal task 연구를 위한 기반을 마련합니다.
  • 이는 기존의 visual input에만 의존하던 generalist robot policy의 한계를 극복하고, 보다 robust하고 generalizable한 robot policy 개발에 기여할 것으로 예상됩니다.

 

 

 

III. FUSE FINETUNING

State-of-the-art generalist robot policies는 일반적으로 training modalities로 vision, language, robot actions에 의존하며, 이는 vision만으로는 task를 완료할 수 없는 partially-observable scenes에서의 적용 가능성을 제한합니다. 우리는 generalist robot policies에 heterogeneous sensory data를 Fuse 하기 위한 방법인 FuSe를 제안합니다. 구체적으로, 우리는 이러한 policies를 finetune하여 pre-trained knowledge를 유지하면서 touch 및 sound와 같은 추가적인 sensing modalities를 포함하도록 semantic understanding을 확장합니다. heterogeneous observations를 natural language와 contrast하고 observations에서 language를 generate하는 두 가지 auxiliary losses를 제안함으로써, 다양한 sensing modalities를 pre-trained generalist robot policies의 semantic knowledge와 연결할 수 있습니다. 우리는 이 논문의 주요 실험을 위해 transformer-based pre-trained policy인 Octo를 backbone model로 사용하지만, 동일한 finetuning 방법이 PaliGemma VLM backbone을 기반으로 하는 3B vision-language-action model에도 적용될 수 있음을 보여줍니다. training architecture는 Figure 2에 묘사되어 있습니다.

이 finetuning 전략은 세 가지 주요 과제를 도입합니다. (i) 새로운 modalities에 대한 feature extractors (encoders)의 weights는 일반적으로 작은 dataset에서 효과적으로 학습되어야 합니다. (ii) finetuned model은 경험적으로 pre-training modalities에 주로 의존하고 새로운 sensors를 무시하는 경향이 있습니다. (iii) 새로운 cross-modal prompting capabilities는 "the object feels soft and squishy"와 같은 modality specific annotations에 의존합니다. 아래에서 이러한 모든 과제를 해결하는 데 필요한 수정 사항을 자세히 설명합니다.

Tactile encoder. 작은 finetuning dataset 크기를 고려하여, pre-trained tactile encoder를 사용하고 backbone Octo architecture와 함께 finetune합니다. 특히, vision, language, tactile modalities에 대한 pairwise contrastive learning을 통해 pre-trained된 TVL encoder를 사용합니다. 모든 tactile images (우리 robot setup에서는 두 개)를 동일한 TVL encoder를 통해 개별적으로 공급합니다.

Audio encoder. raw audio waveform은 highly dimensional하고 noisy하기 때문에, 이전 연구에서 보고된 대로 audio data를 처리하여 spectrogram을 구축합니다. 그런 다음 spectrogram은 일반 image로 취급되어 ResNet26 encoder를 통과합니다.

Auxiliary losses. 앞서 언급했듯이, pre-trained generalist policies를 additional sensor data에 대해 conditioned 된 mean-square-error (MSE) imitation loss LBC로 finetuning하는 na¨ıve한 방법은 policy가 pre-training modalities에 지나치게 의존하고 새로운 modalities를 무시하게 만듭니다. 우리는 multimodality를 완전히 활용하고 pre-trained generalist policies의 semantic knowledge를 unseen sensor modalities와 연결하는 두 가지 additional losses를 도입하여 이러한 한계를 극복합니다.

  1. Multimodal Contrastive Loss: 우리는 다양한 language instructions를 observations와 align하는 것을 목표로 하는 loss를 도입합니다. 이는 CLIP-style contrastive learning을 사용합니다. 높은 수준에서, 이 loss는 동일한 scene의 서로 다른 modalities와 semantics 간의 mutual information을 최대화하는 것을 목표로 합니다. 구체적으로, 모든 modalities를 transformer를 통해 다시 한 번 공급하고 multi-head attention layer를 통해 결합하여 observation embedding을 구축합니다. 그런 다음 사용 가능한 다양한 modalities를 결합하여 생성된 각 가능한 instruction에 대한 CLIP-style loss를 계산합니다. 이러한 losses는 마지막으로 평균화되어 결합된 multimodal contrastive loss Lcontrast를 형성합니다.
  2. Multimodal Generative Loss: 우리는 backbone model에 add-on head로 기능하는 generative network를 설계합니다. 실제로, 각 가능한 modality 조합에 대해 위와 같이 observation embedding을 구축하고 generative head를 통해 공급합니다. 그런 다음 head output을 적절한 language instruction과 비교하여 auxiliary cross-entropy loss Lgen을 계산합니다. 우리는 input modalities를 구별하기 위해 modality tokens와 함께 모든 가능한 modality 조합에 대해 단일 transformer를 generative head로 사용합니다.

최종 loss는 L = LBC + βLgen + λLcontrast로 주어지며, 여기서 contrastive loss와 generative loss는 training 중에 MSE action loss에 더해집니다.

Language Rephrasing. 앞에서 논의한 바와 같이, cross-modal prompting capabilities는 "the object feels squishy and looks round"와 같은 modality specific annotations을 필요로 합니다. 우리는 수집한 robot trajectories를 heterogeneous sensors와 함께 after-the-fact language annotations으로 annotate합니다. 우리는 이러한 trajectories를 여러 sensor inputs를 기반으로 augmentations를 생성할 수 있는 templated language로 annotate합니다. 예를 들어 "the object feels squishy and is red" 또는 "the object feels metallic and sounds clinking"과 같습니다. 그러나 test time에는 사용자가 free-form language로 policy를 instruct하기를 원합니다. 가능한 input instructions의 범위를 늘리기 위해, large language model인 ChatGPT를 쿼리하여 dataset의 instructions를 augment하고 원래의 semantic meaning을 보존하는 원래 templates의 rephrased versions를 generate합니다.

Implementation Details. 우리는 batch size 1024로 v5e-128 TPU pod에서 모든 models을 50,000 steps 동안 train합니다. 2000 warmup steps와 peak value 3x10^-4를 가진 cosine learning rate scheduler를 사용합니다. 우리의 language rephrasing buffer는 각 가능한 modality 조합에 대해 20개의 서로 다른 templates를 포함합니다. 모든 실험에 대해 β = 1 및 λ = 1로 설정합니다.

 

 

목표:

  • Heterogeneous sensory data (touch, sound 등)를 generalist robot policy에 융합(Fuse)하여, partially-observable scene에서도 task를 수행할 수 있도록 semantic understanding을 확장합니다.
  • Pre-trained knowledge는 유지하면서, 새로운 sensing modality를 활용하도록 finetuning 합니다.

사용 모델:

  • Transformer-based pre-trained policy인 Octo를 backbone으로 사용합니다.
  • PaliGemma VLM backbone을 기반으로 하는 3B vision-language-action model에도 적용 가능함을 보입니다.

Finetuning 시 3가지 주요 과제:

  1. 새로운 modality에 대한 feature extractor (encoder)의 weight를 작은 dataset으로 효과적으로 학습시켜야 합니다.
  2. Finetuned model이 pre-training modality에 주로 의존하고 새로운 sensor를 무시하는 경향이 있습니다.
  3. Cross-modal prompting을 위해서는 "the object feels soft and squishy"와 같은 modality specific annotation이 필요합니다.

해결 방법:

  • Tactile encoder:
    • 작은 finetuning dataset 문제를 해결하기 위해 pre-trained tactile encoder (TVL encoder)를 사용하고, Octo와 함께 finetune 합니다.
    • TVL encoder는 vision, language, tactile modality에 대한 pairwise contrastive learning으로 pre-train 됩니다.
  • Audio encoder:
    • Raw audio waveform 대신 spectrogram을 사용하고, 이를 ResNet26 encoder로 처리합니다.
  • Auxiliary losses:
    • Naive한 finetuning (MSE imitation loss만 사용)은 policy가 pre-training modality에 과도하게 의존하게 만드는 문제를 해결하기 위해 2개의 additional loss를 도입합니다.
    1. Multimodal Contrastive Loss:
      • 다양한 language instruction과 observation을 CLIP-style contrastive learning으로 align합니다.
      • 서로 다른 modality와 semantics 간의 mutual information을 최대화합니다.
      • Observation embedding을 transformer와 multi-head attention으로 생성하고, 각 instruction에 대한 CLIP-style loss를 계산하여 평균을 냅니다.
    2. Multimodal Generative Loss:
      • Generative network를 backbone model의 add-on head로 사용합니다.
      • Observation embedding을 generative head에 통과시키고, auxiliary cross-entropy loss (Lgen)를 계산합니다.
      • Modality token과 함께 single transformer를 모든 modality 조합에 대한 generative head로 사용합니다.
    • 최종 loss: L = LBC + βLgen + λLcontrast (LBC는 MSE action loss)
  • Language Rephrasing:
    • Cross-modal prompting을 위한 modality specific annotation 문제를 해결하기 위해, 수집된 trajectory에 after-the-fact language annotation을 추가합니다.
    • Templated language를 사용하여 multiple sensor input 기반 augmentation을 생성합니다 (e.g., "the object feels squishy and is red").
    • Test time에 free-form language instruction을 사용하기 위해, ChatGPT를 활용하여 dataset instruction을 augment하고 rephrased version을 생성합니다.

Implementation Details:

  • 50,000 steps, batch size 1024, v5e-128 TPU pod, cosine learning rate scheduler (2000 warmup steps, peak 3x10^-4).
  • Language rephrasing buffer: modality 조합 당 20개 template.
  • β = 1, λ = 1

결론:

  • FuSe는 pre-trained generalist robot policy에 touch, sound와 같은 새로운 modality를 효과적으로 융합하는 finetuning 방법을 제시합니다.
  • Pre-trained encoder, auxiliary loss, language rephrasing 등의 기법을 통해 finetuning 시 발생하는 문제들을 해결하고, cross-modal reasoning 능력을 향상시킵니다.
  • 이 연구는 generalist robot policy가 real-world의 complex task를 수행하는 데 필요한 multimodal understanding 능력을 갖추도록 하는 데 기여할 것입니다.