AI바라기의 인공지능

VLM : 논문 리뷰 : Joint Learning of Hierarchical Neural Options and Abstract World Model 본문

논문리뷰

VLM : 논문 리뷰 : Joint Learning of Hierarchical Neural Options and Abstract World Model

AI바라기 2026. 2. 17. 20:16

용어 설명 (Terminology)

  • Hierarchical Neural Options: 단순한 행동(action) 단위가 아니라, 여러 하위 스킬(sub-options)을 조합해 복잡한 상위 목표를 수행할 수 있도록 구성된 신경망 기반의 계층적 정책(policy) 구조임.
  • Abstract World Model: 복잡한 환경의 모든 세부 픽셀을 예측하는 대신, 상태(state)와 시간(time)을 핵심 요소 위주로 추상화하여 특정 스킬을 사용했을 때 미래가 어떻게 변할지 큰 그림으로 예측하는 세계 모델임.
  • AgentOWL (Option and World model Learning Agent): 본 논문에서 제안하는 핵심 시스템으로, abstract world model을 통한 계획(planning)과 hierarchical options를 통한 실행을 샘플 효율적으로 동시 학습(joint learning)하는 agent임.
  • PoE-World (Product of Experts World): 짧은 파이썬 코드 형태의 symbolic program들(experts)을 결합하여, 아주 적은 데이터로도 환경 내 객체 간의 인과 관계(causal mechanism)를 빠르게 학습하는 world model 구조임.
  • LLM-based sub-goal proposer: 새로운 목표가 주어졌을 때 맨땅에서 탐색하는 대신, LLM의 상식 추론을 활용해 기존에 가진 스킬들로 도달할 수 있는 유용한 중간 단계(preconditions, sub-goals)를 가설로 자동 제안하는 모듈임.
  • OCAtari (Object-Centric Atari): 픽셀 이미지가 아닌, 게임 내 객체(플레이어, 사다리, 열쇠 등)의 카테고리와 위치(bounding box) 정보 등 symbolic feature를 직접 제공하는 연구용 Atari 환경임.
  • Call-and-return paradigm: 하나의 option(스킬)이 호출되면, 그 목표(goal)를 성공적으로 달성하거나 타임아웃이 발생할 때까지 계속해서 자체적인 제어권을 가지고 실행된 후 상위로 돌아가는 실행 구조임.

Purpose of the Paper

  • 기존 연구의 한계: 기존의 model-free RL 기반 hierarchical option 학습은 에이전트가 새로운 목표(goal)와 스킬을 습득할 때마다 선택할 수 있는 action space가 기하급수적으로 넓어져, 학습에 막대한 양의 데이터가 필요하다는 치명적인 한계가 있었음.
  • 연구의 목적과 차별점: 이 연구는 "데이터 비효율성"이라는 근본적 문제를 해결하기 위해, 에이전트가 실제 환경에서 무작정 부딪히기 전에 추상화된 세계 모델(abstract world model) 내에서 미리 계획(planning)을 세우고 실패할 옵션을 사전에 배제하는 접근 방식을 제안함. 즉, 인간처럼 '내가 가진 스킬들의 조합'과 '머릿속 시뮬레이션'을 통해 새로운 기술을 빠르고 효과적으로 누적 학습할 수 있는 아키텍처(AgentOWL)를 구축하는 것이 핵심 목적임.

Key Contributions

  • Joint Learning Architecture (AgentOWL) 설계
    • Novelty: 세계 모델(world model)이 exploration을 가이드하여 policy 학습을 가속화하고, 반대로 policy가 수집한 성공적인 스킬의 결과가 다시 세계 모델을 정교하게 업데이트하는 '양방향 상호작용 구조'를 제안하여 기존 단방향 파이프라인의 한계를 극복함.
  • Data-efficient Abstract World Model 통합
    • Novelty: 방대한 데이터가 필요한 순수 신경망 대신, 기호학적(symbolic) 룰과 비모수적(non-parametric) 분포를 결합한 PoE-World를 활용함. LLM 기반 코드 합성과 frame axiom prior를 도입하여, 단 몇 분 분량의 플레이 데이터만으로도 시공간적 추상화가 가능한 강력한 world model을 구축함.
  • LLM-driven Sub-option Generation
    • Novelty: 무작위 탐색(random exploration)에 의존하여 하위 목표를 우연히 발견하길 기다리는 대신, LLM을 활용해 새로운 목표 달성에 필요한 하위 목표(sub-goals)를 논리적으로 가설 설정함으로써 거대한 search space를 유의미한 범위로 획기적으로 축소시킴.
  • Stable Hierarchical DQN Training 기법 도입
    • Novelty: 하위 스킬의 동작 방식이 계속 바뀌면 상위 스킬이 혼란을 겪는 고질적인 non-stationary environment 문제를 해결하기 위해, 하위 옵션이 충분한 샘플 수와 목표 달성률을 확보하여 '안정화(stable)'되기 전까지는 해당 에피소드를 상위 옵션의 학습 데이터(replay buffer)에 포함시키지 않는 필터링 기법을 고안함.

Experimental Highlights

  • 실험 설정: 극도의 탐색 난이도(hard exploration)로 악명 높은 3개의 OCAtari 게임(Montezuma's Revenge, Pitfall, Private Eye)을 datasets로 사용했으며, 일반 DQN, Goal-conditioned DQN, Hierarchical DQN을 baselines로 설정하여 성능을 비교함.
  • State-of-the-art Sample Efficiency 달성: 실험 결과, AgentOWL은 동일한 environment steps 내에서 baseline들보다 압도적으로 많은 수의 option을 마스터함. 특히 action sequence가 길어 baseline들이 전혀 도달하지 못하는 어려운 후반부 goal들도 고차원적인 abstract planning을 통해 성공적으로 학습해 냄.
  • Zero-shot Generalization 검증: 기존에 학습하지 않은 완전히 새로운 시작 위치(novel starting state)에서 테스트를 진행했을 때, AgentOWL은 추가적인 학습 데이터 없이도 머릿속 abstract world model에서의 planning과 기존 스킬의 조합만으로 목표를 zero-shot으로 완벽히 달성하는 놀라운 적응력을 보여줌.
  • Implicit Learning of Sub-options 입증: 최종 목표 달성에만 보상을 부여하는 환경에서도, world model이 성공적인 궤적(trajectory)을 계획함에 따라 궤적 상에 위치한 유용한 sub-option(하위 목표)들의 성공률이 명시적인 개별 훈련 없이도 암묵적(implicitly)으로 급격히 상승함을 증명함.

Limitations and Future Work

  • Limitation 1: 수동으로 정렬된 Curriculum에 의존
    • 현재 시스템은 주어지는 goal sequence가 쉬운 것부터 어려운 것 순으로 잘 정렬되어 있다고 가정함. 필수 선행 지식(sub-goals) 없이 어려운 목표에 바로 직면하면 에이전트가 실패할 확률이 높음.
    • Future Work: Curriculum learning 기법을 도입하여, 사전에 정해진 순서 없이 에이전트가 자율적으로 자신의 수준에 맞는 목표를 스스로 탐색하고 학습 순서를 정렬하도록 자동화(autonomously)하여 모델의 자율성을 크게 높일 수 있음.
  • Limitation 2: Goal 수 증가에 따른 연산 비용 확장성
    • 연구에서는 다루는 목표(goal)의 수를 100개 미만으로 제한함. 스킬과 목표가 늘어나면 실제 환경과의 interaction은 줄어들지 몰라도, 모델 내부에서 가능한 조합을 계산하는 compute 비용이 선형적으로 급증함.
    • Future Work: Option affordances (현재 상태의 맥락에 맞추어 실행 가능한 유의미한 옵션만 필터링하는 기술) 개념을 통합하여, action space를 동적으로 제한함으로써 막대한 연산량을 효과적으로 통제하고 대규모 스킬 셋으로 확장할 수 있음.
  • Limitation 3: Symbolic Input 의존성
    • 샘플 효율성을 극대화하기 위해 픽셀(pixel) 대신 미리 파싱된 객체 정보(OCAtari)를 받아들이는 symbolic input 환경에서만 검증됨.
    • Future Work: 최근 비약적으로 발전하는 순수 neural world model(예: diffusion 기반 생성 모델)이나 visual-predicator 같은 neurosymbolic world model을 AgentOWL 아키텍처에 통합하여, raw pixel 수준의 실세계 환경에서도 작동하도록 연구를 확장해야 함.

Overall Summary

이 논문은 복잡한 환경 내에서 에이전트가 수많은 스킬을 데이터 효율적으로 누적 학습할 수 있도록 설계된, Hierarchical Neural OptionsAbstract World Model의 결합 프레임워크인 AgentOWL을 제안함. LLM을 활용한 스마트한 sub-goal 생성과 극도로 적은 데이터로 동작하는 PoE-World 모델링을 통해, 극한의 탐색(hard exploration) 환경에서 기존 RL 방법론들을 아득히 뛰어넘는 state-of-the-art 샘플 효율성과 낯선 환경에서의 zero-shot generalization 능력을 입증했음. 이 연구는 스킬 학습(skill learning)과 세계 이해(world modeling)가 분리될 수 없는 핵심 요소임을 보여주며, 향후 AGI agent가 스스로 계획(planning)을 세우고 열린 세계의 낯선 환경에 유연하게 적응하는 데 필수적인 기반 architecture를 제시했다는 점에서 매우 큰 의의를 지님.


쉬운 설명

이 논문의 핵심 아이디어는 우리가 처음 '요리'를 배울 때의 과정과 완벽히 닮아있음. 요리를 처음 할 때 우리는 무작정 아무 재료나 냄비에 던져 넣으며 실패를 반복하지 않음(이것이 기존 RL의 random exploration임). 대신, 우리가 이미 할 줄 아는 '칼질하기', '불 조절하기' 같은 기본 기술(sub-options)들을 조합하여, 머릿속으로 '먼저 썰고 볶으면 되겠지?'라며 요리 순서를 미리 상상(abstract world model)해 봄.

이 논문이 만든 AgentOWL이라는 AI도 마찬가지임. 막막하고 어려운 게임 미션이 주어지면 섣불리 몸부터 움직이는 대신, LLM(똑똑한 조수)에게 "내가 가진 기술로 다음엔 뭘 하는 게 좋을까?" 힌트를 얻음. 그리고 그 힌트를 바탕으로 머릿속 시뮬레이션 세계에서 수많은 실패와 계획 수립을 미리 겪어본 뒤, "이렇게 하면 되겠다"라는 확신이 섰을 때만 실제 게임에서 행동함.

덕분에 맨땅에 헤딩하며 수백만 번을 죽어봐야 배우던 다른 AI들보다 압도적으로 적은 시도 횟수(sample efficient) 만으로 극악무도한 난이도의 게임을 척척 깨고, 심지어 처음 보는 맵의 낯선 위치에 떨어져도 당황하지 않고 목표를 찾아가는(zero-shot generalization) 눈부신 지능을 갖추게 된 것임.

 

 

더보기

OCAtari 라는 프로그램이 모든 객체의 좌표를 뽑아줌

이를 인코딩 시켜서 사용함.

 

기본적으로 현재 상태, 액션, 다음 상태, 보상 데이터를 가지고 있는데

 

목표 list 도 필요해서 사람이 정의를 미리 해둠.

 

목표를 채점하기 위한 방법도 사람이 정의를 해둠. (예: 플레이어가 특정 객체에 닿았는가?)

 

그럼 준비물은 끝.

 

 

가장 처음으로 모델에 입력되는건 현재 상태와 목표가 들어가게 됨.

 

그럼 인코딩된 데이터, 그리고 목표 정보(달성 여부 등 추상적 상태)가 피쳐로 같이 묶여서 DQN의 입력으로 사용됨.

DQN의 입력으로 사용 후 아웃풋을 뽑아냄. 아웃풋은 그 상황에서 할 수 있는 모든 액션에 대한 점수임.

 

그 점수와 실제 데이터가 수집한 보상을 기반으로 loss를 흘려서 각 스킬 전용 DQN을 학습 시킴.

 

그리고 동시에 **'추상 세계 모델(Abstract World Model)'**이라는 시뮬레이션을 돌리고 학습시킴.

시뮬레이션의 인풋은 현재 상태와 방금 한 액션(스킬)이 들어가는데, 모든 미세한 좌표를 다 예측하는게 아니라, 연산량을 줄이기 위해 "이 스킬을 쓰면 어떤 목표가 달성될까?"라는 '목표 달성 여부(추상적 상태)'만 예측함.

(시뮬레이션은 PoE기반으로 수많은 짧은 코드로 이루어짐 )

 

그래서 정답 상태에 가깝게 단순 소프트맥스 loss를 거는게 아니라, 데이터의 확률을 최대화하는 수학적 방식(최대 우도 추정, MLE)이나 사전 지식을 반영한 방식(MAP)으로 코드 전문가(Expert)들의 가중치를 업데이트함.

 

DQN 과 시뮬레이션을 확률적으로 사용해서 샘플링 해서 스텝을 이동하게됨.  (t->t+1로 스텝 이동)

 

이를 사람이 미리 정의해놓은 goal 채점 방식을 이용해서 꾸준히 채점 후 목표에 도달하면 다음 목표를 입력하게되고 (t+1이동후 goal 채점 방식을 이용해 채점)

 

(100걸음 동안 목표에 도달 못하면 실패. 일단 가중치는 업데이트 되었으므로 다시 해보자. 하고 시작지점으로 이동)

 

 

 

안정화가 되었는데도 목표에 도달하지 못할 시  (2만번 하거나 100판 성공률이 50퍼)

 

LLM의 도움을 필요.

 

현재 화면의 객체 정보

달성해야할 타켓목표

이 좌표 목록과 목표를 보고 가장 먼저 달성해야할 서브 목표를 2~4개정도 추천해줘. 라고 입력을 받아서

 

서브 목표를 출력받게됨.

 

이때 LLM은 채점 방식까지 같이 만들게됨.

단순 코드 실행이면 되니까 아주 간단.

 

그럼 목표 임베딩은 어떻게 하느냐. 새로운 무작위 깡통 벡터를 만들어서 학습때 배우게함.

 

이를 반복하며 DQN은 액션에 대한 점수를 잘 뽑게됨.

 

 

 

최종 정리 확인

  • 준비물: OCAtari를 통해 객체 좌표를 뽑고 인코딩함. 사람이 미리 정의한 목표 리스트와 채점 방식(예: 특정 객체 터치 시 보상 1)을 세팅함.
  • DQN 입력: 현재 상태 좌표와 목표 피쳐를 컨캣하여 입력함. 출력은 기본 움직임과 이미 배운 스킬들을 포함한 모든 액션의 점수(Q-value)임.
  • 스킬 전용 학습: 각 스킬마다 전용 DQN 모델과 전용 리플레이 버퍼를 가지고 개별적으로 학습함.
  • 추상 세계 모델(PoE): 모든 좌표를 다 예측하지 않고, "이 스킬이 끝나면 어떤 추상적 상태(목표 달성 등)가 될까?"만 예측함. 수많은 Python 코드 조각(Expert)들의 가중치를 MLE/MAP 방식으로 업데이트함.
     
  • 스텝 이동: 실제 환경 정책($\pi^{real}$)과 세계 모델 기반 정책($\pi^{wm}$)을 확률적으로 섞어($\epsilon$) 최적의 행동을 선택하고 이동함.
  • 판의 반복 (시작 지점): 100걸음(Max step) 안에 목표에 도달하지 못하면 실패로 간주하고 , **해당 스킬을 처음 실행했던 위치(시작 지점)**에서 다시 판을 시작함.
  • 안정화 판정: 훈련 샘플이 2만 개($n_{threshold}$) 쌓였거나, 최근 100판 성공률이 **50%($\delta_{threshold}$)**를 넘으면 "이 스킬은 안정화되었다"고 함.
  • LLM 개입: 하위 스킬들이 다 안정화되었는데도 타겟 목표 성공률이 낮으면 , LLM(Gemini 2.5 Flash)을 불러 징검다리 서브 목표와 채점 방식(Precondition) 아이디어를 제안받음.
  • 깡통 벡터: 새로운 목표를 위한 무작위 임베딩을 만들어 학습을 반복하며 점점 더 어려운 스킬을 정복함.

 

 

Abstract

Existing skills를 composing하여 new skills를 수행할 수 있는 agents를 구축하는 것은 AI agent research의 오랜 목표입니다. 이를 위해, 우리는 hierarchical neural options로 formalized된 sequence of skills를 효율적으로 획득하는 방법을 조사합니다.

그러나 기존의 model-free hierarchical reinforcement algorithms는 많은 data를 필요로 합니다.

우리는 AgentOWL(Option and World model Learning Agent)이라는 새로운 방법을 제안합니다. 이 방법은 abstract world model(states와 time 전반에 걸쳐 abstracting)과 set of hierarchical neural options를 sample efficient한 방식으로 jointly learns합니다.

우리는 subset of Object-Centric Atari games에서, 우리의 방법이 baseline methods보다 훨씬 적은 data를 사용하여 더 많은 skills를 학습할 수 있음을 보여줍니다.

 

 

1. Introduction

더보기

Decision-making agents에게 있어 중요한 목표는 new skills의 누적적 습득과, 그러한 skills가 outside world에 어떻게 영향을 미치는지에 대한 끊임없이 확장되는 지식을 함께 얻는 것입니다. 예를 들어, 우리는 agents가 먼저 objects를 집어 드는 것을 배우고, 그 다음 음료를 따르는 것을 배우며, 결국에는 커피 한 잔을 만드는 것을 배우기를 원합니다. 동시에 각 skill이 outside world에 어떻게 영향을 미치는지 학습하여, agent가 사람들로 가득 찬 방에 커피를 가져다주는 것과 같은 new goals를 달성하기 위해 plan할 수 있게 되기를 원합니다.

우리는 options framework를 사용하여 이러한 compositional skill learning을 formalize합니다: agent는 점점 더 어려워지는 goals, $g_{1:n}$을 달성하는 sequence of options $o_{1:n}$을 학습합니다. 각 option은 특정 goal을 달성하는 policy를 포함하며, 이전에 학습된 options를 사용할 수 있어 deep hierarchy of skills를 형성합니다 (Figure 1 right).

그러나 hierarchical options는 학습하기 까다로운데(challenging), 이는 우리가 더 많은 options를 획득함에 따라 효과적으로 action space를 확장하게 되고, 우리가 new goal에 직면할 때마다 policy learning을 덜 tractable하게 만들기 때문입니다. 이는 new skills를 빠르게 학습하는 것과 우리가 얼마나 많은 skills를 획득했는지 사이의 tradeoff를 가져옵니다. 따라서 option hierarchies 학습에 대한 standard model-free RL의 적용은 학습이 진행됨에 따라 점점 더 많은 samples를 필요로 합니다.

이 tradeoff를 해결하기 위해, 우리는 대신 model-based reinforcement learning으로 눈을 돌립니다. World model 내에서 effects of options와 planning을 modeling함으로써, 우리는 real world에서 시도하기 전에 많은 options를 배제할 수 있으며, 효과적으로 world model을 사용하여 sample efficiency를 향상시킬 수 있습니다. 게다가, modeling option effects는 temporally abstract world models를 생성하여 "one-step trap"을 극복하고 low-level world models보다 더 tractable planning을 약속합니다. 그러나 이 접근 방식이 실제로 sample efficiency를 향상시키기 위해서는, data-efficient한 world modeling approach 또한 필요합니다.

본 연구에서, 우리는 representation이 symbolic code와 non-parametric distributions를 결합한 novel world model을 제안하며, 이는 적은 data로부터 world model을 학습할 수 있게 합니다. 이 world model은 states와 time에 대해 abstracts합니다. 우리는 이것을 hierarchical options를 학습하는 방법과 결합합니다. 우리는 그 결과 시스템을 AgentOWL이라고 부르며, 이는 Option and World model Learning Agent를 의미합니다.

우리는 우리의 방법을 3가지 hard object-centric Atari (OCAtari) games, 즉 Montezuma’s Revenge, Pitfall, 그리고 Private Eye에 적용합니다. 우리는 AgentOWL이 다른 baselines와 비교하여 가장 많은 수의 skills를 획득함을 보여줍니다. 또한 우리는 AgentOWL이 baselines에는 없는 다양한 unique capabilities를 가지고 있음을 보여줍니다.

 

 

1. Introduction 핵심 정리 (Research Note)

  • Research Goal: Options framework를 활용한 Compositional skill learning. (goals)을 달성하기 위해 (sequence of options)을 누적적으로 학습하고, 각 skill이 outside world에 미치는 영향을 파악하여 planning에 활용.
  • Problem Identification (Tradeoff):
    • 기존 Model-free RL 기반의 hierarchical options 학습은 options(skills)의 수가 증가할수록 effective action space가 확장됨.
    • 이로 인해 new goal에 직면했을 때 policy learning이 intractable해지고, 학습이 진행될수록 더 많은 samples를 요구함 (Sample inefficiency).
  • Proposed Solution: AgentOWL (Option and World model Learning Agent)
    • Model-Based RL 도입: World model 내에서 options의 effects를 modeling하고 planning 수행. Real world 실행 전 불필요한 options를 사전 배제하여 sample efficiency 극대화.
    • Temporally Abstract World Models: Low-level world models의 문제인 "one-step trap"을 극복하고 더 tractable한 planning 제공.
  • Key Contribution (Novelty):
    • Sample efficiency를 위한 Data-efficient world modeling 제안.
    • Representation Strategy: Symbolic codenon-parametric distributions를 결합하여 적은 data로도 학습 가능한 novel world model 구축. 이는 statestime 모두에 대해 abstracting을 수행함.
  • Evaluation: Hard exploration이 요구되는 Object-Centric Atari (OCAtari) 3종(Montezuma’s Revenge 등)에서 baselines 대비 가장 높은 수의 skills 획득 입증.

쉬운 설명 :

  • 목표: 사람처럼 기초 동작(물건 집기)을 응용해 고차원 동작(커피 타기)을 배우는 AI를 만들고자 합니다.
  • 문제점: AI가 배운 기술(Options)이 많아질수록, 새로운 상황에서 "어떤 기술을 써야 할지" 일일이 다 시도해보다가 학습 속도가 너무 느려지는 문제가 발생합니다.
  • 해결책 (AgentOWL): 무턱대고 행동하는 대신, World model이라는 '상상 속 시뮬레이터'를 통해 결과를 미리 예측해보고 행동합니다.
  • 핵심 기술: 이 '상상 시뮬레이터'가 효율적으로 작동하려면 데이터가 적어도 똑똑해야 하는데, 저자들은 **Symbolic code(상징적 코드)**와 확률 분포를 결합한 독특한 방식을 사용하여, 시간과 상태를 압축해서 표현하는 모델을 만들었습니다. 덕분에 복잡한 게임에서도 다른 AI보다 훨씬 효율적으로 많은 기술을 배울 수 있습니다.

 

2. Background

더보기

Problem Setting. Environment는 goal-conditioned MDP $(S, A, T, G, \gamma)$로 기술될 수 있습니다. 우리는 states가 primitive features 으로 분해될 수 있다고 가정하며, 이는 state가 symbolic임을 의미하고, pixel inputs의 representation learning이라는 잘 알려진 challenges를 섞지 않고 skill learning problem에 집중할 수 있게 합니다. 집합 는 2d video games에서의 LEFT, RIGHT, UP 등과 같은 primitive actions를 나열합니다. Goals $G = (g_1, g_2, \cdot \cdot \cdot , g_m)$은 goal predicates의 ordered sequence이며, $g_i : S \rightarrow {0, 1}$이고, 각각은 reward function $R_{g_i} (s, a, s') = g_i(s')$를 정의합니다. 우리는 모든 goals에 대해 동일한 discount factor 를 사용하며, transition function 는 goal에 의존하지 않는다고 가정합니다. Episodes는 agent가 goal에 도달하거나 timeouts될 때 종료됩니다.

Options (Figure 1 right). Option은 learned skill입니다. Formally, option 는 tuple $(\pi_i, g_i)$로 구성되며, 여기서 policy 는 그 goal인 가 satisfied될 때까지 실행됩니다. Goal 는 option의 termination condition 역할을 합니다. 우리는 call-and-return paradigm (Sutton et al., 1999)을 따릅니다; option은 그 goal이 satisfied되거나 timeouts될 때까지 실행됩니다. Options는 hierarchy를 형성할 수 있습니다: Option 는 policy $\pi_i : S \rightarrow A \cup {o_j}_{j<i}$를 가지며, 이는 에 있는 primitive actions나 이전에 학습된 option  (단, )를 output할 수 있음을 의미합니다. 우리는 set of options를 로 표기합니다. MDP의 action space에 options를 추가하는 것은 Semi-MDP (Puterman, 1994)를 형성합니다.

State abstraction (Figure 1 left). Option은 state를 복잡한 방식으로 변경할 수 있으며, agent가 plan하기 위해서는 그러한 변화를 predict해야 합니다. 이 prediction problem을 tractable하게 만들기 위해, 우리는 state abstractions를 고려하는데, 이는 predict하기 어렵거나 unpredictable하거나 irrelevant features를 생략하는 functions of the state입니다 (Dean & Givan, 1997; Li et al., 2006). Formally, state abstraction $f(s)$는 state 의 function입니다. State가 context로부터 명확할 때, 우리는 $f(s)$를 의미하기 위해 라고 쓰는 abuse notation을 사용합니다.

Abstract world models (Figure 1 left). 이 연구의 context 내에서, abstract world model은 current state와 current option이 주어졌을 때 future abstract states를 predict합니다. 이는 immediate next state를 predict하는 대신 오직 abstract features만을, 그리고 current option이 terminates하는 시점에만 predict하기 때문에 temporal abstraction과 state abstraction을 구현합니다. 이 prediction은 $p_o(f' | s)$로 표기됩니다. 이는 abstract world model을 full state에 condition하지만 오직 future abstract state만을 predict합니다.

PoE-World (Figure 2 left). Piriyakulkij et al. (2025)는 적은 data로부터 structured world models를 학습하기 위한 framework인 PoE-World를 소개합니다. World models는 product-of-experts를 사용하여 represented되는데, 여기서 각 expert는 짧은 symbolic program입니다. 직관적으로, 각 program은 world 내의 independent causal mechanism을 model하며, 각 program을 snippet of Python으로 encoding함으로써, 그것들은 LLMs를 사용하여 learnable하게 됩니다. Current state 와 action 가 주어지면, next state $s'$는 다음을 따릅니다:

여기서 $j(i)$는 expert 에 의해 modeled되는 target feature dimension입니다. PoE-World를 사용한 Learning은 LLMs로 experts 를 generating하고 weights 를 estimating하는 것을 의미하며, 이는 fully parametric model을 학습하는 것이 아니기 때문에 적은 data (소수의  triples)를 필요로 합니다. 이 model은 state features가 conditionally independent하다고 가정합니다; 이는 partition function, 를 compute하는 것을 tractable하게 만들며, 따라서 우리는 gradient descent를 통해 weights의 maximum likelihood estimation (MLE)를 수행할 수 있습니다. Object-centric Atari (OCAtari) (Delfosse et al., 2023)에서, PoE-World는 working world model을 assemble하는 데 불과 몇 분의 gameplay만을 필요로 합니다. 우리는 abstract world model을 학습하기 위해 PoE-World를 사용합니다.

 

 

 

더보기

Figure 1: Hierarchical Planning and Execution

이 이미지는 AgentOWL이 목표를 달성하기 위해 머릿속으로 계획을 세우는 과정(왼쪽)과 실제로 행동을 수행하는 과정(오른쪽)을 비교하여 보여줍니다.

1. Left: Planning with Abstract World Model (추상 세계 모델을 이용한 계획)

  • High-level Planning: Agent는 픽셀 단위나 기본 동작(LEFT, JUMP 등) 단위로 계획을 세우는 것이 아니라, Abstract World Model을 사용하여 Option 단위로 계획을 세웁니다.
  • Tree Search: 그림의 트리 구조는 Agent가 현재 상태에서 가능한 High-level steps를 시뮬레이션하는 과정입니다.
    • 예: "왼쪽 방으로 이동" -> "줄(rope) 잡기" -> "목표 지점 도착"
  • Efficiency: 모든 경우의 수를 다 따지는 것이 아니라, 굵직한 사건(State transition) 위주로 경로를 탐색하므로 계산 효율이 매우 높습니다. 빨간색 화살표는 Agent가 찾아낸 성공적인 Short plan을 의미합니다.

2. Right: Execution with Hierarchical Options (계층적 옵션을 이용한 실행)

  • Hierarchical Structure: 왼쪽에서 세운 계획을 실제로 수행할 때, Option들이 어떻게 계층적으로 실행되는지를 보여줍니다.
    • Top-level Goal: "Get to the left platform in the left room" (가장 상위 목표)
    • Sub-options: 이를 위해 "Get to the rope...", "Get to the right platform..." 같은 하위 목표들이 호출됩니다.
    • Primitive Actions: 결국 가장 하위 레벨에서는 LEFT, LEFT, LEFT JUMP와 같은 Primitive actions가 실행되어 게임 속 캐릭터를 움직입니다.
  • Indentation (들여쓰기): 텍스트의 들여쓰기는 실행 스택(Stack)의 깊이를 나타냅니다. 상위 Option이 하위 Option을 호출하고, 그 하위 Option이 다시 Action을 호출하는 구조입니다.

💡 쉬운 설명:

  • 왼쪽 (뇌): "서울에서 부산으로 가자"라는 목표를 세울 때, "1. 서울역 가기, 2. KTX 타기, 3. 부산역 내리기"처럼 큼직한 계획만 세웁니다. 발을 몇 번 구를지는 미리 생각하지 않습니다.
  • 오른쪽 (몸): 실제로 이동할 때는 "서울역 가기"를 위해 "지하철 타기"를 실행하고, "지하철 타기"를 위해 "카드 찍기", "계단 내려가기" 같은 세부 동작을 순차적으로 수행합니다. 이것이 바로 Hierarchical Execution입니다.

 

 

더보기

Figure 2: Learning Mechanism

이 이미지는 AgentOWL이 어떻게 세상의 규칙을 배우고(왼쪽), 새로운 기술을 습득하는지(오른쪽)에 대한 알고리즘 흐름도입니다.

1. Left: Abstract World Model Learning (추상 세계 모델 학습)

  • Input Data: Option Transitions Data (어떤 상태에서 Option을 실행했더니 어떤 상태가 되었더라 하는 데이터)를 입력받습니다.
  • LLM Code Synthesis: 텍스트에는 자세히 안 나와 있지만(캡션 참조), LLM을 이용해 이 변화를 설명할 수 있는 **Symbolic Program (코드 조각)**을 생성합니다.
  • Weights Optimization: 생성된 규칙들(Experts) 중 어떤 것이 상황을 가장 잘 설명하는지 Gradient descent를 통해 가중치($\theta_i$)를 학습합니다.
  • Result: 결과적으로 생성된 모델은 픽셀을 예측하는 것이 아니라, "if player.touches(initial_platform)... then at_rope = True" 와 같은 논리적인 규칙(Rule)들의 집합이 됩니다.

2. Right: Hierarchical Option Learning (계층적 옵션 학습)

  • Initial State: Agent는 현재 목표 $o_g = \text{TO_ground}$를 배우고 싶어 합니다. 이미 가지고 있는 기술들(Sub-options $\Omega$)은 컨베이어 벨트로 가기, 플랫폼으로 가기 등이 있습니다.
  • Hypothesize (가설 수립): LLM-based-sampler에게 물어봅니다. "바닥으로 가려면($o_g$) 내가 가진 기술들을 어떻게 조합해야 할까?"
    • LLM은 "컨베이어 벨트에서 바닥으로 가기" 또는 "플랫폼에서 바닥으로 가기" 같은 새로운 Sub-options ($o_{h \to g}$)를 제안합니다.
  • Update & Train:
    • 제안된 가설을 Set of sub-options $\Omega$에 추가합니다.
    • Abstract World Model $T$를 업데이트하여, 이 새로운 행동을 했을 때 예상되는 결과를 예측하도록 합니다.
    • 실제로 게임을 하면서 상위 목표 $o_g$를 마스터하도록 훈련합니다. 이 과정에서 하위 옵션들도 암묵적으로 같이 훈련(Implicitly train)됩니다.
  • Feedback Loop: 실행 결과 데이터를 다시 수집하여 왼쪽의 Abstract World Model을 더 정교하게 업데이트합니다.

💡 쉬운 설명:

  • 왼쪽 (규칙 배우기): 게임을 몇 번 해보고 "아, 사다리에 닿은 상태에서 위로 가기를 누르면 위층으로 가지는구나"라는 **게임의 법칙(논리 코드)**을 깨닫습니다.
  • 오른쪽 (기술 배우기): "바닥으로 내려가기"라는 새로운 기술을 배우고 싶습니다.
    1. AI가 스스로 생각합니다(LLM). "아까 배운 '점프' 기술을 쓰면 되지 않을까?"
    2. 그 생각을 목록에 적어둡니다. "플랫폼에서 점프해서 바닥 가기"
    3. 실제로 해보면서 연습합니다. 성공하면 이 기술은 내 것이 되고, 실패하면 왜 실패했는지 다시 모델(왼쪽)을 수정합니다.

 

2. Background 핵심 정리 (Research Note)

  • Problem Setting: Symbolic Goal-Conditioned MDP
    • Environment는 Goal-conditioned MDP $(S, A, T, G, \gamma)$로 정의됨.
    • Key Assumption: State는 Primitive features의 조합인 $S = S_1 \times ... \times S_n$으로 분해 가능한 Symbolic state임.
    • Rationale: Pixel-level의 representation learning 이슈를 배제하고, Skill learning 문제 자체에 집중하기 위함.
  • Hierarchical Options & Call-and-Return
    • Option $o_i = (\pi_i, g_i)$ 구조. $g_i$는 termination condition이자 goal.
    • Hierarchy: Policy $\pi_i$Primitive actions $A$ 뿐만 아니라, 이전에 학습된 lower-level Options ${o_j}_{j<i}$를 호출할 수 있음.
  • Abstract World Models for Planning
    • Objective: Planning의 tractability를 위해 State abstraction $f(s)$를 도입. Unpredictable하거나 irrelevant features를 제거함.
    • Mechanism: $p_o(f' | s)$. Current state와 option이 주어졌을 때, option이 terminate되는 시점의 Future abstract state만을 예측함 (Temporal & State abstraction 동시 수행).
  • Core Backbone: PoE-World (Piriyakulkij et al., 2025)
    • Low-data regime에서 structured world model을 학습하기 위한 프레임워크.
    • Product-of-Experts (PoE) 구조: $p_\theta(s'|s, a) = \prod_j p(s'_j|s, a)$.
    • Symbolic Experts: 각 Expert는 independent causal mechanism을 모델링하는 **Short symbolic program (Python snippet)**이며, LLMs를 통해 생성(Generate)됨.
    • Efficiency: Fully parametric model이 아니며, state features의 conditional independence를 가정하여 Few samples만으로도 MLE (via gradient descent on weights $\theta$)가 가능. OCAtari에서 수 분 내 학습 가능.

쉬운 설명 :

  • 환경 설정 (게임판): 이 연구는 AI가 화면의 픽셀(점) 하나하나를 분석하는 것이 아니라, "열쇠", "문", "사다리"처럼 이미 의미 있는 물체(Symbolic) 단위로 세상을 본다고 가정합니다. 그래야 시력 검사(이미지 인식)가 아니라 지능 검사(기술 습득)에 집중할 수 있기 때문입니다.
  • 기술 (Options): AI가 배우는 기술을 말합니다. 예를 들어 "열쇠 줍기"라는 기술을 배우면, 나중에 "문 열기"라는 더 어려운 기술을 배울 때 "열쇠 줍기" 기술을 부품처럼 가져다 쓸 수 있습니다 (계층적 구조).
  • 세상 모델 (Abstract World Model): AI가 머릿속으로 상상하는 세상입니다. "내가 점프를 하면 정확히 3.5cm 이동하고 바람은 0.1m/s로 불 거야"라고 복잡하게 예측하는 대신, "점프하면 위층에 도착해"라고 **핵심적인 결과(Abstract state)**만 간단히 예측합니다.
  • PoE-World (핵심 엔진): 이 논문에서 사용하는 독특한 학습 방법입니다. 데이터를 왕창 때려 넣는 대신, **LLM(거대언어모델)**에게 "이 상황을 설명하는 짧은 파이썬 코드를 짜봐"라고 시킵니다. 마치 여러 명의 전문가(Experts)가 각자 맡은 부분의 규칙을 코드로 짜서 설명하는 것과 같아서, 아주 적은 데이터만 보고도 게임의 규칙을 금방 파악할 수 있습니다.

 

3. Method

더보기

우리는 goal-conditioned MDP와 sequence of goals ${g_i}$가 주어졌을 때, sequence of options ${o_i}$를 sample-efficient하게 학습하는 agent인 AgentOWL (Option and World model Learning Agent)을 제안합니다. 우리는 3.1절에서 AgentOWL에 embedded된 우리의 abstract world modeling approach를 설명하고, 이어서 3.2절에서 전체 AgentOWL을 설명합니다.

3.1. Abstract World Modeling

Options의 effects를 reason하기 위해 우리는 state를 어떻게 abstract해야 할까요? 각 option이 state를 어떻게 변환시키는지 성공적으로 capture하기 위해 각 goal predicate는 state abstraction에 포함되어야 합니다. 원칙적으로, abstract state가 충분히 informative하도록 더 많은 predicates를 포함하는 것이 중요할 수 있지만, abstract world model은 current state $s$에 condition하므로, 어떠한 추가적인 features도 여전히 current state로부터 extracted될 수 있음을 상기하십시오. 따라서 우리는 오직 goal predicates만을 사용하여 state abstraction을 정의합니다:

$$f(s) = (g_1(s), g_2(s), g_3(s), . . .)$$

다음으로, 우리는 model-based lookahead에 사용될 수 있는 abstract world model이 필요합니다. 우리는 PoE-World (Piriyakulkij et al., 2025)를 사용하여 $p_o(f'|s)$를 학습하는데, 왜냐하면 world의 abstract dynamics를 represent하기 위해 symbolic programs를 사용함으로써, 더 적은 examples로부터 더 강력하게 generalize할 수 있기 때문입니다. 실제로, symbolic rules는 오랫동안 coarse-grained world dynamics를 modeling하기 위한 매력적인 representation이었습니다.

그러나 symbolic programs를 사용하더라도, abstract states는 많은 abstract features를 포함하고 있어 학습에 많은 samples가 필요합니다. Sample efficiency를 유지하기 위해, 우리는 abstract world model에 "frame axiom prior"를 impose하여, option $o_i$ $f_i$를 변화시키는 경향이 있지만 ($g_i$를 달성함으로써), 보통 $j \neq i$에 대해 $f_j$는 변화시키지 않는다고 믿도록 bias를 줍니다. Frame axiom prior는 Equation (2)에 $p(\theta_i)$를 incorporating함으로써 구현되며, weight optimization을 MLE 대신 maximum a posteriori estimation (MAP)으로 바꿉니다. 우리는 $f_j$를 변화시키지 않는 experts에 대해서는 $\sigma = 0.1$이고 $\mu = 0.5$인 Gaussian priors $p(\theta_i) = N(\mu, \sigma^2)$를 사용하고, 변화시키는 experts에 대해서는 $\mu = 0.001$을 사용합니다. 이 "frame prior"는 planning community에서 흔히 사용되며, PDDL에서는 훨씬 더 강력한 형태로 채택됩니다.

PoE-World는 $p_o(f' | s)$를 yield하지만, 오직 이 conditional distribution만 학습하는 것은 불충분한데, 왜냐하면 여러 options를 chain together할 수 없기 때문입니다: State $s$에서 첫 번째 option을 실행한 후 우리는 $f'$에 도달하지만, 두 번째 option의 effect를 predict하는 데는 full state $s'$가 필요할 수 있습니다. 우리는 abstract state $f'$가 주어졌을 때 full states $s'$를 sample하는 kernel density estimator $w(s' | f')$를 사용하여 $f'$로부터 $s'$를 heuristically predict합니다:

$$p_o(s' | s) \approx \mathbb{E}_{f'\sim p_o(\cdot|s)} [w(s' | f')]$$

이것이 approximate함에 유의하십시오: $s'$는 일반적으로 $s$ $o$에 의존하며, 심지어 $f'$에 conditional하더라도 그렇습니다. 이 approximation은 hierarchical decision-making literature에서 일반적이며, 여기서 $w$는 weighting function이라고 불립니다. Weighting functions는 MDP transition function을 학습하지 않고, 그리고 raw state space에 대한 parametric generative model을 training하지 않고도 abstract state로부터 states를 sampling할 수 있게 해주며, 이 두 가지 모두 엄청난 data를 필요로 할 것입니다. Environment가 오직 state abstraction $f(s)$에만 의존하는 $p_o(f' | s)$를 사용하여 정확하게 modeled될 수 있는 한, 이 approximation은 exact해집니다. A.3절은 우리의 abstract world modeling approach의 implementation details를 포함합니다.

3.2. Joint Learning of Hierarchical Neural Options and Abstract World Model

이 world modeling setup을 사용하여, 우리는 이제 전체 AgentOWL을 소개합니다. 이는 Algorithm 1을 호출함으로써 next goal을 (그리고 그것의 world model 내에서) 달성하기 위한 next option을 iteratively하게 trains하며, 그 세 가지 주요 ideas는 아래에 설명되어 있습니다.

Model-based exploration. 직관적으로, 우리의 world model에서의 planning은 model-free policy에게 좋은 guidance를 제공해야 합니다; 우리는 real world에서 무엇을 시도할지 결정하기 전에 imagination 속에서 trajectories의 weight를 잴 수 있습니다. 구체적으로, 우리는 abstract world model에서 RL (특히, deep Q-learning (DQN))을 실행하여 policy $\pi_{wm}$을 yield합니다 (Algorithm 1 line 15). Abstract world model $T$는 large steps를 취하고 상당히 low-dimensional symbolic state space에 정의되어 있기 때문에 이는 computationally cheap하며, 이는 우리가 policy를 represent하기 위해 simple MLPs를 사용할 수 있게 해준다는 점에 유의하십시오.

그 결과 policy인 $\pi_{wm}$은 goal 달성을 학습하는 real world의 policy, $\pi_{real}$을 training하기 위한 exploration policy 역할을 합니다. 더 정확하게는, 각 option은 policy와 goal로 구성되며, $o = (\pi, g)$, 우리는 policy를 $\pi = (\pi_{real}, \pi_{wm}, \epsilon)$으로 더 분해하는데, 여기서 $\epsilon$은 exploratory actions(world model이 predict하는 actions)를 취할 probability입니다:

$$\pi(a | s) = (1 - \epsilon) \pi_{real}(a | s) + \epsilon \pi_{wm}(a | s)$$

이 decomposition은 imperfect world model을 가지고도 우리가 여전히 좋은 policy를 학습할 수 있도록 보장합니다. $\epsilon$을 1에서 0으로 annealing함으로써, agent는 결국 $\pi_{wm}$에 의존하는 것을 멈추고 $\pi_{real}$의 fully model-free RL learning으로 돌아갑니다. 우리가 이렇게 하는 이유는 model-based learning이 model inaccuracy에 민감하다고 알려져 있기 때문입니다. AgentOWL의 경우, 각 policy가 자신만의 weights set를 가지며; policies 간에 weight sharing이 없다는 점에 유의합니다.

Hypothesizing sub-options to achieve a target goal. 우리가 이미 그 goal에 도달하는 option, 즉 sub-option으로 기능할 수 있는 option을 가지고 있지 않다면, new goal을 달성하기 위한 Planning (또는 RL)은 challenging합니다. 그러한 sub-options가 없다면, agent는 자신의 low level actions가 어떻게 new goal에 도달하는 데 사용될 수 있는지 reason해야 하며, 이는 temporally abstract world model의 전체 point를 무산시킵니다. 예를 들어, 만약 우리가 "컵을 집어든다"는 sub-option과 "물로 컵을 채운다"는 target goal을 가지고 있다면, successful plan은 먼저 "컵을 집어든다"에 이어 긴 sequence of low level actions가 될 것입니다.

우리의 abstract plans를 줄이고, "plan in the now"를 돕기 위해, 우리는 agent가 특정 preconditions가 satisfied된다는 조건 하에 target goal을 달성하는 것을 목표로 하는 new sub-options를 hypothesize하도록 합니다. 우리는 LLMs를 사용하여 new option $o_{h\rightarrow g}$의 preconditions, $h$를 propose합니다. 그런 다음 이 new option과 그에 대응하는 hypothetical option model $p_{o_{h\rightarrow g}}$가 각각 set of options $\Omega$와 abstract world model $T$에 추가됩니다.

이 연구에서, 우리는 preconditions를 $h(s) = f(s)_i$ 형태로 제한하며, 이는 index $i$를 가진 sub-goal의 completion을 represent합니다. 구체적으로, 우리는 Gemini 2.5 Flash에게 agent가 기존 sub-options $\Omega$를 사용하여 이미 달성할 수 있는 sub-goals 중에서 target goal을 향해 useful할 sub-goal을 pick하도록 prompt합니다. Prompt에는 우리가 본 transitions $D_\Omega$ set에서 sampled state를 포함시킵니다. 만약 game이 여러 rooms를 가지고 있다면, 우리는 각 room마다 하나의 state를 sample합니다 (각 state는 "room number" object를 포함하므로 이는 쉽게 수행될 수 있습니다). 사용된 정확한 prompt는 Section A.4에서 찾을 수 있습니다.

Stable training of hierarchical options. Hierarchical option training은 hierarchical version of DQN을 사용하여 Algorithm 1 line 17에서 수행됩니다. 이는 typical DQN과 유사하게 진행됩니다: replay buffer에 data를 collect하기 위해 policy를 executing하고 replay buffer의 samples를 사용하여 policy를 optimizing합니다.

그러나, hierarchical DQN에서 execution은 hierarchical합니다 (Figure 1 right); agent는 root-level option $o_g$를 execute하고, 이는 primitive action이 executed될 때까지 재귀적으로 sub-options를 calls합니다. 우리는 또한 각 option에 자신의 policy로 collect한 data를 유지하기 위해 자신의 replay buffer를 할당합니다. 각 option이 충분한 new datapoints를 collect할 때마다, agent는 정해진 수의 steps 동안 option의 policy weights를 optimizes합니다. Hierarchical execution 때문에, 어떤 sub-option이든 data를 collect하고 그 weights를 update받을 수 있습니다. 우리는 hierarchical DQN에 대해 Section A.1에서 더 자세히 설명합니다.

그럼에도 불구하고, 각 higher-level option이 non-stationary environment에 직면하기 때문에 hierarchical DQN은 unstable할 수 있습니다: Lower level options를 training하는 것은 higher level options가 보는 transition dynamics를 변화시킵니다.

이 instability를 완화하기 위해, option의 policy는 충분한 samples로 trained되었거나, 또는 그것이 자신의 goals를 reliably achieves할 때 stabilize된다는 점에 유의하십시오. 따라서 우리는 $n_o < n_{threshold}$이고 $\delta_o < \delta_{threshold}$인 적어도 하나의 sub-option $o$의 execution을 포함하는 option training을 위한 episode data는 무시합니다. 여기서 $n_o$는 option이 trained된 samples의 수, $\delta_o$는 가장 최근 100 episodes에 대한 option의 goal completion rate, 그리고 $n_{threshold}$, $\delta_{threshold}$는 hyperparameters입니다. Stable Hierarchical DQN에 대한 더 자세한 내용은 Section A.1에서 찾을 수 있습니다.

 

3. Method 핵심 정리 (Research Note)

  • Abstract World Modeling (상태 추상화 및 전이 모델)
    • State Abstraction: 모든 특징을 예측하는 대신, 목표(Goal)의 달성 여부만을 나타내는 Predicate로 상태를 추상화함. $f(s) = (g_1(s), g_2(s), \dots)$. 세계 모델은 현재의 전체 상태 $s$를 조건부로 받기 때문에, 필요한 추가 정보는 $s$에서 추출 가능함.
    • Frame Axiom Prior 도입 (MAP Estimation): 추상화된 상태라도 여전히 예측해야 할 차원이 많아 발생하는 샘플 비효율성을 해결하기 위한 전략. 특정 옵션 $o_i$는 자신의 목표와 관련된 $f_i$만 변화시키고, 나머지 $f_j$($j \neq i$)는 거의 변화시키지 않는다는 강한 사전 지식(Prior)을 부여함. 이를 통해 최적화 과정을 파라미터에 대한 MLE에서 Gaussian prior를 적용한 MAP(Maximum a posteriori) 추정으로 전환.
    • Kernel Density Estimator를 통한 State Chaining: 추상 세계 모델은 $f'$를 예측하지만, 여러 옵션을 연속적으로 연결(Chain)하여 계획을 세우려면 다음 옵션의 결과를 예측하기 위해 전체 상태 $s'$가 필요함. 이를 위해 추상 상태 $f'$가 주어졌을 때 전체 상태 $s'$를 샘플링하는 가중치 함수 $w(s'|f')$를 사용하여 근사함: $p_o(s'|s) \approx \mathbb{E}_{f'\sim p_o(\cdot|s)}[w(s'|f')]$.
  • Joint Learning (계층적 옵션과 세계 모델의 통합 학습)
    • Model-based Exploration: 추상 세계 모델 내부에서 가벼운 MLP 기반의 DQN을 실행하여 탐색용 정책 $\pi_{\text{wm}}$을 저비용으로 획득함. 실제 환경을 학습하는 $\pi_{\text{real}}$과 혼합하여 사용하되($\pi = (1 - \epsilon)\pi_{\text{real}} + \epsilon\pi_{\text{wm}}$), $\epsilon$을 점진적으로 0으로 감소시켜 세계 모델의 오차(Inaccuracy)에 의한 성능 저하를 방지함.
    • LLM 기반 Sub-option 가설 수립 (Hypothesizing): 새로운 목표가 주어졌을 때 Low-level action부터 탐색하는 비효율을 막기 위해, LLM(Gemini 2.5 Flash)을 활용함. 현재 달성 가능한 기존 Sub-goals 중 새로운 목표 달성에 유용할 만한 것을 새로운 중간 단계의 전제 조건($h$)으로 제안받아, 새로운 Sub-option $o_{h\rightarrow g}$를 옵션 풀($\Omega$)과 세계 모델에 동적으로 추가함.
    • Stable Hierarchical DQN: 계층적 옵션 학습 시 발생하는 Non-stationarity 문제(하위 옵션이 학습됨에 따라 상위 옵션이 경험하는 환경의 Transition dynamics가 변하는 현상)를 해결하기 위한 안정화 기법. 하위 옵션이 충분히 학습되지 않았거나(샘플 수 $n_o < n_{\text{threshold}}$) 목표 달성률이 낮을 경우($\delta_o < \delta_{\text{threshold}}$), 해당 하위 옵션 실행이 포함된 에피소드 데이터는 상위 옵션의 학습에서 완전히 배제(Discard)함.

쉬운 설명 :

  • 핵심 아이디어: AI가 세상의 모든 것을 완벽하게 기억하려 하지 않고 핵심만 요약해서 배운 뒤, 새로운 미션을 받으면 챗GPT 같은 LLM에게 "내가 아는 기술로 어떻게 하면 될까?"라고 조언을 구하며 스스로 커리큘럼을 짜는 방법입니다.
  • 프레임 법칙 (Frame Axiom Prior): AI가 행동의 결과를 예측할 때 효율을 높이는 꼼수입니다. 예를 들어 "냉장고 문을 연다"는 행동을 하면 AI는 "냉장고 문이 열렸다"라는 사실 하나만 변한다고 강하게 믿게 만듭니다. 창밖의 날씨나 방 안의 조명 같은 나머지 수많은 정보는 변하지 않는다고 가정해버리기 때문에, 적은 데이터만 보고도 세상의 규칙을 아주 빠르게 눈치챕니다.
  • 상상 속 탐색 (Model-based Exploration): 현실에서 직접 맨땅에 헤딩하기 전에, AI가 자신이 머릿속에 만든 '상상 속 요약본 세상'에서 먼저 시뮬레이션을 돌려봅니다. 여기서 얻은 힌트를 바탕으로 현실에서 행동하지만, 나중에는 상상에 덜 의존하고 현실에서의 실전 경험을 더 믿도록 서서히 비중을 조절합니다.
  • LLM의 조언으로 중간 목표 세우기: "커피 만들기"라는 큰 목표가 생겼을 때, 행동을 하나하나 다 시도해보기엔 너무 오래 걸립니다. 이때 내장된 언어모델(LLM)에게 도움을 청합니다. "내가 지금 '컵 잡기'랑 '물 따르기'를 할 줄 아는데, 커피를 만들려면 이 기술들을 어떻게 조합해야 할까?"라고 물어보고, LLM이 추천해주는 쓸만한 중간 목표들을 새롭게 훈련 목록에 추가합니다.
  • 기초가 탄탄할 때만 학습 (안정성 확보): 하위 기술(예: 걷기)이 아직 미숙해서 계속 넘어지는 상태라면, 그 데이터를 바탕으로 상위 기술(예: 달리기)을 배우려 해봤자 오히려 혼란만 생깁니다. 따라서 하위 기술의 성공률이 일정 수준 이상으로 완벽해지기 전까지는, 그 시도들을 상위 기술을 배우기 위한 경험치로 반영하지 않고 과감히 버려서 학습의 안정성을 높입니다.

 

 

 

더보기

2점 / 5점

 

월드모델이라고 한다면 vision 기능이 핵심인데, 이 논문 역시 OCAtari에 의존성이 크다.
Scalability가 될지 의문.
논문 부록을 보면 Q-network를 학습할 때 맨해튼 거리(Manhattan distance) 기반의 휴리스틱을 더해서 사용했다는 충격적인 내용이 나옴. 하드 익스플로레이션(Hard exploration) 환경에서 목표까지의 '물리적 거리'를 알려준다는 것은 사실상 탐색 문제의 난이도를 강제로 낮춘 것이나 다름없음

이 논문은 AI가 스스로 기술을 조합해서 새로운 목표를 달성한다고 주장하지만, 순서는 연구진이 직접 난이도 순서대로 신중하게 배치해서 던져준 것

새로운 하위 옵션(Sub-option)을 만들거나 전제 조건(Precondition)을 짤 때, 게임 환경 자체의 물리법칙을 스스로 깨우치는 것이 아니라 프롬프트를 통해 외부의 LLM(Gemini)에게 물어보고 답을 구함



시각적 인지라는 본질적 난제를 피하기 위해 정제된 환경(OCAtari)으로 도피하고, 탐색의 어려움은 맨해튼 거리라는 노골적인 휴리스틱으로 우회한 '반쪽짜리 세계 모델'에 가까움.
미지의 공간을 스스로 탐험하며 물리법칙을 깨우치는 AI라기보다는, 연구자가 미리 좌표를 찍어준 내비게이션을 보고 따라가는 쪽