AI바라기의 인공지능

Planning : 빠른 논문 리뷰 : Logically Constrained Robotics Transformers for Enhanced Perception-Action Planning 본문

논문리뷰

Planning : 빠른 논문 리뷰 : Logically Constrained Robotics Transformers for Enhanced Perception-Action Planning

AI바라기 2026. 5. 15. 17:06

용어 설명

  • Signal Temporal Logic (STL): 시간에 따른 연속적인 실수 값 신호의 속성을 정의하는 논리 언어. 모호한 자연어와 달리 로봇의 안전성(safety) 및 생존성(liveness) 제약 조건을 수학적으로 엄밀하게 명시하고 검증할 수 있음.
  • PASTEL (Perception Action Signal TEmporaL Transformer): 이 논문에서 제안한 모델의 이름. 상태(state), 행동(action), STL 명세 임베딩을 입력받아 제약조건을 만족하는 미래 궤적을 autoregressive하게 예측하는 모델.
  • PACT (Perception-Action Causal Transformer): 사전 학습된(pre-trained) autoregressive robotics transformer 모델. 이 논문의 baseline이자 구조적 기반이 됨.
  • Specification conditioned prediction: 매 타임스텝마다 예측할 state와 action 토큰에 STL 명세 토큰을 반복해서 이어 붙여(append), 모델이 generation 과정 내내 제약조건을 잊지 않게 만드는 기법.
  • Specification relevance loss: Cross-attention 출력값과 텍스트(STL) 임베딩 간의 코사인 유사도(cosine similarity)를 계산하여, 모델의 최종 출력이 주어진 명세의 의미를 얼마나 잘 반영했는지 평가하고 페널티를 주는 새로운 loss 함수.

Purpose of the Paper

  • 기존 연구의 한계: 기존의 cost function이나 reward function 기반 로봇 planning은 모델이 의도치 않은 꼼수(suboptimal)를 써서 점수만 높게 받을 위험이 있고, Natural Language (NL) 기반 지시는 모호성이 커서 자율주행 같은 safety-critical 환경에 적용하기에 부적합함.
  • 새로운 접근 방식 제안: 자연어 대신 수학적으로 엄밀한 STL 명세를 대규모 foundation models (autoregressive transformer)에 직접 통합하는 새로운 방식을 제안. 이를 통해 "data-driven planning의 강력한 성능"과 "명확한 제약 조건 만족(formal verification)의 안전성" 사이의 간극을 메우고자 함.

Key Contributions

  • Cross-attention 기반의 명세 강제 아키텍처 (PASTEL): PACT 구조에 Cross-attention 메커니즘을 도입하여, STL 명세 임베딩을 Query로, state 및 action 임베딩을 Key와 Value로 사용함. 모델이 단순히 state-action 데이터에만 과적합(overfitting)되지 않고 명세에 집중(attend)하도록 강제한다는 점에서 참신함.
  • Specification relevance loss 도입: 단순 예측 오차(MSE, MAE) 외에, 모델의 출력이 텍스트 명세의 의미적 의도에서 벗어나는 것을 방지하기 위해 코사인 유사도 기반의 새로운 loss를 고안함.
  • End-to-End Tokenizer Tuning: 기존처럼 STL을 단순히 Abstract Syntax Tree 기반의 텍스트로 치환하는 대신, 공간적 영역을 나타내는 수학적 표현을 잘 이해하도록 CLIP, BERT 등 SOTA text tokenizers를 전체 모델 학습 과정에서 end-to-end로 fine-tuning 함.
  • 로봇 제약조건 궤적 Dataset 구축: STLPy를 활용하여 다양한 초기 상태와 복잡한 행동 패턴(sequenced visit, stabilization 등)을 담은 20,000개의 state, action, specification trajectory dataset을 구축하여 제공함.

Experimental Highlights

  • SOTA 성능 달성 (Baseline 압도): PASTEL은 Vanilla PACT 대비 STL 명세 만족도(Percentage Satisfaction)에서 평균 74.3% 향상된 성능을 보임.
  • 복잡한 Task에서의 검증: 3가지 복잡도의 STL 명세(Phi 1, Phi 2, Phi 3)를 테스트한 결과, 2개의 하위 목표를 가진 Phi 2와 Phi 3에서 PACT는 41%, 46%의 만족도를 보인 반면, PASTEL은 각각 75%, 71%의 높은 만족도를 달성함.
  • 단순 암기(Memorization) 반증: Test time에 명세(text)를 학습 데이터와 다르게 임의로 변경했을 때 만족도가 급격히 하락하는 것을 확인. 또한, Attention matrix 시각화를 통해 state/action 토큰이 실제로 specification 토큰에 강하게 의존하고 있음을 증명하여 가설을 성공적으로 검증함.

Limitations and Future Work

  • Limitations: 시간 범위가 매우 길거나(long horizons) 논리합(OR) 조건이 중첩된 극도로 복잡한 태스크(논문 내 Phi 1)에서는 성능이 크게 하락함(26%). Autoregressive 모델 특성상 단일 타임스텝에서 방대한 조건적 문맥을 한 번에 추론하기 어렵기 때문임.
  • Future Work 1 (Incremental Decomposition): 위 한계를 극복하기 위해, 매 타임스텝마다 전체 STL 명세를 주는 대신 STL decomposition 기술을 활용하여 현재 타임스텝과 직접 연관된 명세 토큰만 업데이트하는 방식으로 개선할 예정.
  • Future Work 2 (External Feedback): 모델 generation 과정에 STL robustness (명세 만족/위반 수치 점수)를 외부 피드백으로 통합하여 성능을 더욱 끌어올릴 계획.
  • Future Work 3 (Real-world Deployment): 현재 2D 시뮬레이션 환경을 넘어, 실제 navigation 로봇에 탑재하여 field testing을 진행할 예정.

Overall Summary
이 논문은 로봇의 안전한 planning을 위해 수학적으로 엄밀한 제약 조건인 STL을 autoregressive transformer 모델에 통합한 PASTEL 프레임워크를 제안했습니다. 명세를 반복 주입하는 기법과 Cross-attention 및 새로운 relevance loss를 통해, 모델이 복잡한 논리적 제약 조건을 무시하지 않고 끝까지 따르도록 강제하여 기존 모델 대비 압도적인 제약 조건 만족도를 달성했습니다. 이는 모호한 자연어 지시의 한계를 넘어, 강력한 foundation models를 자율주행과 같은 safety-critical 로보틱스 분야에 신뢰하고 배포할 수 있는 강력한 연결 고리를 마련했다는 점에서 큰 의의가 있습니다.


쉬운 설명
이 논문은 로봇에게 "조심해서 목적지로 가"라는 모호한 말(자연어) 대신, "A구역을 지나기 전까지 절대 B장애물에 닿지 마"라는 아주 엄격한 수학적 계약서(STL)를 쥐어주는 것과 같습니다.
그리고 로봇의 뇌(Transformer)가 매 순간 다음 행동을 결정할 때마다 이 계약서를 억지로 다시 읽어보게 만들고(Cross-attention), 만약 예측된 행동이 계약서의 의도와 다르면 벌점(Specification relevance loss)을 줍니다. 결과적으로 방대한 데이터를 바탕으로 똑똑하게 움직이면서도, 절대 넘어서는 안 될 안전선은 확실하게 지키는 로봇 agent를 만드는 아이디어입니다.

 

 

 

 

더보기

1.  **데이터 준비:** `STLPy`로 뽑은 **'안전한 정답 궤적'**과 그에 대응하는 **'STL 문장'**을 준비한다.

2.  **수치화(Embedding):** STL 문장을 `CLIP/BERT`로 로봇이 이해할 수 있는 **숫자 뭉치(임베딩)**로 바꾼다.

3.  **입력 구성:** 이 숫자 뭉치를 그냥 한 번 주는 게 아니라, **매 타임스텝마다 복사해서** 상태/행동 데이터 옆에 찰딱 붙여서 트랜스포머에 넣는다. (**Specification Conditioned Prediction**)

4.  **연산(Cross-Attention):** 트랜스포머 내부에서 **명세(Query)**와 **상태 정보(Key/Value)**를 강제로 섞어주는 단계를 거친다.

5.  **예측 및 학습:** 다음 동작(State, Action)을 정답과 비교해서 맞추되, **"어텐션 결과물이 명세 임베딩이랑 닮았는지($L_{spec}$)"**까지 체크하며 학습한다.


:오호.... STL을 잘 넣어주고 잘 따르게 하자 인듯함. 점수는 생략