AI바라기의 인공지능

Diffusion : Generative Trajectory Stitching through Diffusion Composition 본문

논문리뷰

Diffusion : Generative Trajectory Stitching through Diffusion Composition

AI바라기 2026. 3. 26. 18:03


용어 설명

  • Trajectory Stitching: 에이전트가 수집한 짧은 길이의 여러 trajectory(경로/행동 데이터) 조각들을 이어 붙여서, 한 번도 본 적 없는 긴 목표 지점까지의 새로운 trajectory를 만들어내는 기법.
  • Diffusion Composition: 개별적으로 학습되거나 분할된 diffusion 모델들의 생성(denoising) 과정을 결합하여, 전체 시스템의 확률 분포나 제약 조건을 만족시키는 하나의 거대한 결과물(여기서는 긴 경로)을 만들어내는 생성 방식.
  • Noisy-Sample Conditioning: Diffusion 모델이 노이즈를 제거하는(denoising) 매 스텝마다, 인접한 trajectory 조각의 '노이즈가 낀 상태'를 조건(condition)으로 주어 서로 자연스럽게 연결되도록 유도하는 이 논문의 핵심 기법.
  • Autoregressive Sampling: Trajectory 조각들을 한 번에 모두 생성하는 것이 아니라, 이전 조각의 정보를 바탕으로 순서대로(causal) 다음 조각을 생성해 나가며 연결 부위의 물리적 정합성을 높이는 샘플링 방식.
  • Inverse Dynamics Model: 주어진 현재 state와 모델이 생성한 다음 목표 state를 보고, 그 사이를 실제로 이동하기 위해 agent가 환경에서 취해야 할 action을 예측하는 별도의 모델.

Purpose of the Paper

  • 기존 연구의 한계: 최근 generative planning 모델(예: Decision Diffuser)은 로봇 제어에 강력한 성능을 보이지만, 학습 데이터에서 본 길이(horizon)와 유사한 task만 해결할 수 있음. 모든 시작점과 목표점 조합을 아우르는 long-horizon 데이터를 수집하는 것은 현실적으로 불가능(sample-inefficient)함.
  • 새로운 문제 정의 및 접근: 짧은 trajectory 데이터만으로 모델을 학습시킨 뒤, inference 시점에 여러 개의 짧은 chunk를 유연하게 이어 붙여(stitching) 긴 horizon의 planning을 수행하는 CompDiffuser를 제안.
  • 차별점: 기존 RL 기반 stitching은 오직 상태가 겹치는 지점에서만 연결이 가능했지만, 이 논문은 diffusion 모델의 composition 특성을 활용하여 task에 종속된 미리 정의된 skeleton 없이도 zero-shot으로 길고 물리적으로 타당한 trajectory를 생성함.

Key Contributions & Novelty

Key Contributions

  • Noisy-sample conditioned diffusion framework: 단일 diffusion 모델 하나로 짧은 trajectory를 학습하고, inference 시 이를 K개의 overlapping chunk로 분할 생성하여 긴 trajectory를 완성하는 구조 설계.
  • Bidirectional information propagation (양방향 정보 전달): 인접한 chunk들이 denoising 과정 내내 서로의 상태 정보를 교환하도록 하여, 동적 일관성(dynamic consistency)을 잃지 않고 매끄럽게 연결되도록 함.
  • 유연한 Sampling 전략 도입: 연산 속도에 유리한 Parallel sampling과 인과적 정보 전달을 통해 생성 퀄리티를 극대화하는 Autoregressive sampling 두 가지 방식을 제시함.

Novelty

  • 단일 모델 내에서 trajectory 생성 과정을 시간 축으로 쪼갠 뒤, denoising 스텝마다 각 조각의 양끝(overlapping 영역) 정보가 서로를 가이드하게 만든 아이디어가 매우 독창적임. 이를 통해 복잡한 별도의 sub-model이나 휴리스틱한 search 알고리즘 없이도, 생성 과정 자체만으로 물리적 제약을 만족하는 trajectory stitching을 구현함.

Experimental Highlights

  • 핵심 실험 설정:
    • Datasets: PointMaze, AntMaze, HumanoidMaze, AntSoccer (Ghugare et al. 및 OGBench 데이터셋 사용)
    • Baselines: Decision Diffuser (DD), Generative Skill Chaining (GSC), GCBC, RvS, Decision Transformer (DT), HIQL, QRL 등 (generative 기반 및 offline RL 최신 기법들)
  • 주요 실험 결과 (State-of-the-Art 달성):
    • Long-horizon 성능 압도: 가장 맵이 크고 복잡한 PointMaze Giant 환경에서 DD나 GSC 등 기존 모델들은 021%의 성공률로 완전히 무너진 반면, CompDiffuser는 5068%의 성공률을 기록하며 압도적인 격차로 SOTA를 달성함.
    • High-dimensional Space 증명: 단순히 2D(x-y 좌표)를 넘어, 에이전트의 관절 위치 및 속도까지 포함된 15D, 29D의 매우 복잡한 state space에서도 안정적으로 작동함을 증명함.
    • 저품질 데이터에서의 강건성: 방향이 계속 무작위로 바뀌는 노이즈가 심한 Explore dataset에서도 파편화된 trajectory들을 성공적으로 엮어내어 목표 도달에 성공함 (GSC 대비 성공률 3~5배 이상 향상).
    • Ablation (Sampling & Replanning): Autoregressive sampling이 causal 정보 전달 덕분에 더 긴 플랜 생성에 유리함을 입증. 또한 에이전트 이탈 시 새로운 경로를 실시간으로 재성성하는 Replanning 기법을 결합하여 성공률을 극대화함.

Limitations and Future Work

  • Error Accumulation (오차 누적):
    • 한계점: 여러 개의 trajectory 조각을 길게 이어 붙일 때, 양방향 정보 전달이 길어지면 오차가 누적되어 최종적으로 에이전트가 벽을 통과하는 등 infeasible plan이 생성될 수 있음.
    • Future Work: 여러 개의 후보 plan을 생성한 뒤 도메인 지식 기반으로 유효한 것을 고르는 rejection sampling 기법이나, 더 정교한 MCMC 기반 샘플링을 결합하여 완화할 수 있음.
  • 수동적인 K값 설정 (Suboptimal K):
    • 한계점: 현재 방식은 inference 시점에 몇 개의 조각(K)을 이어 붙일지 사용자가 미리 지정해야 함. K가 너무 작으면 목적지에 닿지 못하고, 너무 크면 불필요한 동선을 낭비함.
    • Future Work: 생성된 plan의 퀄리티나 목표 도달 여부를 평가하여 K값을 점진적으로 늘려가는 등 자동으로 적절한 K를 추론하는 연구가 필요함.
  • Inverse Dynamics Model에 대한 의존성:
    • 한계점: 생성된 trajectory plan이 완벽하더라도, 이를 바탕으로 실제 모터 제어(action)를 수행하는 역역학 모델이 엉뚱한 행동을 내뱉으면 에이전트가 로컬 영역에 갇히는 실패가 발생함.

Overall Summary

이 논문은 로봇 planning 분야에서 가장 큰 병목 중 하나인 long-horizon 학습 데이터 부족 문제를 해결하기 위해, 짧은 trajectory 조각들을 결합해 긴 경로를 만들어내는 CompDiffuser를 제안했습니다. 핵심은 diffusion 모델의 denoising 과정 중 인접한 조각들끼리 노이즈 상태의 정보를 교환하게 만들어, 물리적으로 단절 없이 매끄럽게 이어지는 trajectory stitching을 구현한 것입니다. 최대 29D 차원의 복잡한 로봇 제어와 거대한 미로 환경 실험을 통해 기존 offline RL 및 generative 모델들을 압도하는 성능을 입증했으며, 고비용의 데이터 수집 없이도 복잡한 장기 태스크를 zero-shot으로 해결할 수 있는 강력한 프레임워크를 제시했다는 점에서 큰 의의가 있습니다.


쉬운 설명

이 논문의 방식은 마치 **"짧은 단어 카드만 배운 AI가, 카드들을 겹쳐놓고 전체 문맥을 계속 확인해가며 한 번도 본 적 없는 긴 소설을 매끄럽게 써 내려가는 것"**과 같습니다.

기존 AI들은 단어 카드 끝부분과 다음 카드 시작부분이 '우연히' 똑같을 때만 문장을 이을 수 있었습니다. 하지만 이 논문이 만든 AI는 다릅니다. 글을 완성해가는 과정(denoising) 내내 앞뒤 카드의 상태(noisy-sample)를 슬쩍슬쩍 컨닝합니다. 앞 카드의 흐름에 맞춰 뒤 카드의 내용을 조금씩 수정하고, 뒤 카드의 목적에 맞춰 앞 카드의 방향을 조율하면서, 결국 이음새가 전혀 티 나지 않는 완벽하고 긴 문장(long-horizon trajectory)을 완성해 내는 똑똑한 방식입니다.

 

 

 

 

 

 

 

 

 

더보기

2개 좌표 x 160 이렇게 인풋으로 들어감. (이게 하나의 청크) (앞뒤로 약간 겹치게 준비)
여기에 노이즈를 줌. 그러니 노이즈 단계도 들어가고
앞 스텝과 뒷스텝의 정보도 들어감 (청크의 일부)

그리고 원본 청크를 예측하게 해서 loss를 줌


실전에선 다음 청크가 없는데?

K개의 청크를 무작위로 만들어 놓고 하기땜에 큰 문제는 없다고 함