AI바라기의 인공지능

world model : 논문 리뷰 : Mastering Diverse Domains through World Models 본문

논문리뷰

world model : 논문 리뷰 : Mastering Diverse Domains through World Models

AI바라기 2026. 3. 19. 18:02


용어 설명

  • World Model: 에이전트가 환경과 직접 상호작용하기 전에, 머릿속으로 미래의 상태와 보상을 예측하고 시뮬레이션(imagination)하여 계획을 세울 수 있도록 학습된 환경의 내부 모델입니다.
  • RSSM (Recurrent State-Space Model): World Model을 구현하는 핵심 아키텍처로, 결정론적(deterministic) 순환 상태와 확률론적(stochastic) 표현을 결합하여 과거의 정보를 기억하고 미래를 예측합니다.
  • Symlog (Bi-symmetric Logarithmic) Transformation: 매우 큰 양수와 음수의 크기를 압축하면서도 0 근처에서는 원래 값을 유지하게 만드는 수학적 변환 기법입니다. 도메인마다 천차만별인 관측치나 보상의 크기를 동일한 알고리즘으로 안정적으로 처리하기 위해 도입되었습니다.
  • Symexp Twohot Loss: 연속적인 목표값(continuous targets)을 예측할 때, 지수적으로 간격이 벌어진 여러 구간(bins)에 대한 범주형 확률 분포(categorical distribution)를 예측하도록 하는 손실 함수입니다. 예측값의 크기와 그래디언트의 크기를 분리하여 학습을 안정화합니다.
  • Free Bits: World Model의 표현 학습(representation learning) 시, KL divergence loss가 특정 임계값(1 nat) 이하로 떨어지면 패널티를 주지 않는 정규화 기법입니다. 시각적으로 복잡한 환경과 단순한 환경 모두에서 의미 있는 정보를 추출할 수 있도록 밸런스를 맞춰줍니다.
  • Percentile-based Return Normalization: 보상이 매우 희소하거나(sparse) 조밀한(dense) 환경 모두에서 일정한 탐험(exploration)을 유지하기 위해, 단순 표준편차가 아닌 수익(return)의 하위 5%와 상위 95% 백분위수를 기준으로 스케일을 정규화하는 기법입니다.

Purpose of the Paper

  • 기존 연구의 한계 (Brittleness): PPO, SAC, MuZero 등 강력한 RL 알고리즘들이 존재하지만, 이들은 도메인(예: 2D 아케이드 vs 3D 로봇 제어, 조밀한 보상 vs 희소한 보상)이 바뀔 때마다 엄청난 시간과 인간의 전문 지식을 동원해 하이퍼파라미터를 세밀하게 튜닝해야만 성능이 나오는 치명적인 한계(작업 의존성)가 있었습니다.
  • 새로운 문제 정의 및 접근: 본 연구는 **"어떤 새로운 환경이 주어지든 단 하나의 고정된 하이퍼파라미터(single configuration)로 즉시 적용 가능한 General RL 알고리즘"**을 만드는 것을 목표로 합니다. 이를 위해 다양한 신호 크기와 보상 체계에 스스로 적응하는 강력한 World Model 기반의 DreamerV3를 제안합니다.

Key Contributions

  • Unprecedented Generality with Fixed Hyperparameters (초일반화 달성)
    • 기여: 8개의 완전히 다른 도메인(Atari, ProcGen, DMLab, BSuite, 연속 제어, Minecraft 등)의 150개 이상의 task에서 하이퍼파라미터 변경 없이 SOTA급 성능을 달성했습니다.
    • 참신성: 기존 RL이 환경에 맞춰 알고리즘을 튜닝했다면, DreamerV3는 알고리즘 튜닝 없이 Out-of-the-box 형태로 작동하여 범용 인공지능에 한 걸음 더 다가섰습니다.
  • Robust Prediction Mechanisms (강건한 예측 메커니즘 도입)
    • 기여: Symlog transformation을 통해 관측치와 보상을 압축하고, Symexp twohot loss를 통해 가치(value)와 보상을 예측하도록 모델을 설계했습니다.
    • 참신성: 기존의 Squared loss나 Running statistics는 큰 타겟값에서 발산하거나 비정상성(non-stationarity)을 유발했습니다. 이 대칭적 로그 스케일링 기법들은 모델이 "자신이 모르는 자릿수의 데이터"를 만나도 가중치 수정 없이 즉각적으로 적응하게 만드는 독창적인 해결책입니다.
  • Stable Actor-Critic Learning via Percentile Normalization (백분위수 기반 정규화)
    • 기여: Actor가 학습할 때, Return(수익)의 5th~95th percentile을 사용하여 정규화하고 고정된 Entropy scale을 사용합니다.
    • 참신성: 기존의 Advantage 정규화는 Sparse reward 환경에서 노이즈를 증폭시켜 탐험을 망치는 문제가 있었습니다. 백분위수 기반 극한치 배제 방식은 아웃라이어에 강건하며 Sparse/Dense 보상 환경을 가리지 않고 빠른 탐험과 수렴을 보장합니다.
  • Predictable Scaling Properties (예측 가능한 확장성 확인)
    • 기여: 파라미터 크기를 12M에서 400M까지 키우고 Replay ratio를 늘릴수록 성능과 Data-efficiency가 정확히 비례해서 증가함을 증명했습니다.
    • 참신성: 복잡한 튜닝 없이 단순히 Compute 자원을 더 투입하는 것만으로 성능을 무조건 끌어올릴 수 있는 구조를 확립했습니다.

Experimental Highlights

  • Minecraft SOTA (Diamond from Scratch): 인간의 데모 데이터나 사전 제작된 커리큘럼 없이, 오직 순수한 픽셀 데이터와 Sparse reward 만으로 마인크래프트에서 다이아몬드를 채굴하는 데 성공한 최초의 알고리즘입니다 (100M env steps 기준). 비교군인 PPO, IMPALA, Rainbow는 단 하나의 다이아몬드도 찾지 못했습니다(0%).
  • Data-Efficiency (DMLab): 3D 탐색 환경인 DMLab에서 DreamerV3는 단 100M step만으로 기존 대규모 분산 모델인 IMPALA와 R2D2+가 1B step(10배의 데이터)에서 달성한 성능을 압도했습니다 (데이터 효율성 1000% 향상).
  • Ablation Study on Learning Signals (중요 발견): Task-specific 보상이나 가치 예측의 그래디언트를 끊어버려도 성능 하락이 적은 반면, Task-agnostic 한 '관측치 복원(reconstruction) 손실'을 끊으면 성능이 급락했습니다. 이는 모델의 성능이 보상이 아닌 비지도 학습 기반의 World Model 자체에서 나옴을 입증한 핵심 실험입니다.

Limitations and Future Work

  • Limitations (마인크래프트 에피소드 성공률의 한계): 마인크래프트에서 다이아몬드를 캐는 데 성공하긴 했지만, 100M step 학습 예산 기준 개별 에피소드 내에서의 성공률은 0.4%에 불과합니다. 이는 무한히 생성되는 절차적 3D 오픈 월드에서 장기적인 시야(long-horizon)를 가지고 탐험하는 것이 RL 에이전트에게 여전히 극도로 어려운 과제임을 시사합니다.
  • Future Work (비지도 사전 학습으로의 확장): DreamerV3의 성능이 주로 World Model의 Unsupervised objective에서 비롯된다는 발견을 바탕으로, 향후 연구는 인터넷 비디오와 같은 방대한 Uncurated data를 통해 World Model을 Pre-training 하는 방향을 제시합니다. 특정 Task에 투입되기 전에 세상에 대한 일반적인 지식(World knowledge)을 미리 학습시킨다면, 오픈 월드에서의 극악한 탐험 난이도와 낮은 성공률을 극적으로 극복할 수 있을 것입니다.

Overall Summary

이 논문은 예측 대상의 크기 변화에 적응하는 Symlog 변환과 백분위수 정규화 등 일련의 강건화 기법을 도입하여, 하이퍼파라미터 튜닝 없이 150개 이상의 다양한 도메인을 정복한 DreamerV3를 제안했습니다. 이 알고리즘은 극악의 난이도를 자랑하는 마인크래프트 다이아몬드 채굴을 인간 데이터 없이 처음으로 달성했으며, 모델 사이즈에 비례하는 완벽한 확장성을 증명했습니다. 이는 특정 작업에 종속된 좁은 의미의 강화학습을 넘어, 단일 World Model로 세상의 다양한 법칙을 스스로 깨우치고 적응하는 일반화된 AI 에이전트(Generalist Agent) 개발을 위한 강력한 기초를 마련한 연구로 평가됩니다.


쉬운 설명

기존의 AI 플레이어들(기존 RL 모델)은 벽돌깨기를 잘하다가도 체스나 3D 미로찾기 게임으로 넘어가면 조이스틱 감도부터 점수 계산법까지 인간이 룰북을 백지상태에서 다시 세팅(하이퍼파라미터 튜닝)해 줘야만 제 실력을 낼 수 있는 "맞춤형 게임기"였습니다.

하지만 DreamerV3는 게임의 점수가 1점이든 100만 점이든 스스로 단위를 압축해 이해하고(Symlog), 픽셀 화면만 보고도 게임 세상의 물리법칙을 머릿속으로 시뮬레이션(World Model)할 수 있는 "만능 자동화 콘솔"입니다. 아무도 곡괭이 만드는 법을 알려주지 않은 마인크래프트 생야생에 던져져도, 머릿속으로 수없이 상상하고 시뮬레이션하며 스스로 다이아몬드를 캐는 법을 깨우쳤다는 것이 이 논문의 가장 놀라운 성과입니다.

 

 

 

더보기

입력이미지 임베딩

이전 타임의 h와 z와 a를 선형변환으로 gru에 넣어서 현재상태인 h로 업데이트
이를 바탕으로 미래가 될 잠재변수 z를 예측 (mlp로)

현재 h와 이미지 특징 벡터를 결합해서 실제 z 분포를 구함 (사실 그냥 mlp 태움)

z에서 하나 뽑음

h와 z를 결함해서 원래 이미지를 복원

h와 z를 결합해서 보상과 종료 여부 결정

디코더 복원오차, 리워드예측오차, 컨티뉴 오차를 더함


어쩌라고 ?

갑자기 롤아웃

월드 모델이 롤아웃 단계에 들어옴
s를 보고 a를 결정 s와 a를 받아서 s t+1를 예측 보상은 r_t 만큼 받을걸로 예측
롤아웃 진행.
15번 반복하는데

각 스텝마다 보상과 지속여부가 있게됨

s만 mlp 태워서 v를 뽑음

v랑 r들로 r을 업데이트 해서 보상 정답지를 만듬

v랑 r이랑 비교해서 loss

가중치 업데이트

r이 있으니 액터가 보상을 더 잘 받도록 업데이틀ㄹ 할 수 있게됨

r에서 v를 뺌

니 예상보다 얼마나 좋았는지 를 이점으로

그 이점이 높은 행동의 확률은 높게끔 반대는 낮게끔 loss를 줌



월드모델이 디코더 달고 쭉 학습하는게 아니라 업데이트 하면 그 스텝에 대해선 잘할테니 걔만 
실제 인퍼런스에서 무너지지 않게 하기 위해 롤아웃을 하면서 올바른 액션을 선택하게 학습이 되는데 그걸 이제 15번 정도의 앞을 보면서 할 수 있게됨.