AI바라기의 인공지능
robotics : 논문 리뷰 : MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization 본문
robotics : 논문 리뷰 : MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization
AI바라기 2025. 1. 11. 19:10
정리 노트: MAXINFORL: Boosting Exploration in Reinforcement Learning through Information Gain Maximization
Purpose of the Paper
기존 Reinforcement Learning (RL) 알고리즘들은 undirected exploration, 즉, 임의의 action sequence를 선택하는 방식에 의존하여 sample efficiency가 떨어지는 문제가 있었습니다. 특히, sparse rewards나 local optima가 존재하는 환경에서 성능 저하가 두드러졌습니다. 본 논문은 이러한 문제를 해결하기 위해, directed exploration을 가능하게 하는 새로운 framework인 MAXINFORL을 제안합니다. MAXINFORL은 information gain과 같은 intrinsic rewards를 최대화함으로써 informative transition을 찾아 exploration을 유도하고, Boltzmann exploration과 결합하여 value function 최대화와 state, rewards, action에 대한 entropy 최대화를 자연스럽게 조절합니다. 즉, 기존의 undirected exploration 방식의 한계를 극복하고, agent가 environment에 대한 정보를 더 효율적으로 수집하며 학습하도록 유도하는 것이 이 논문의 핵심적인 목적입니다.
Key Contributions
- MAXINFORL framework 제안: off-policy model-free RL algorithm을 위한 새로운 framework를 제시합니다. 이 framework는 기존 RL method에 directed exploration을 가능하게 하여 exploration 효율성을 향상시킵니다.
- Intrinsic 및 extrinsic exploration의 효과적인 결합: MAXINFORL은 intrinsic reward 최대화와 extrinsic reward 최대화를 Boltzmann exploration을 통해 결합하여, exploration과 exploitation 사이의 균형을 자동으로 조절합니다.
- Auto-tuning mechanism: Extrinsic 및 intrinsic objective 사이의 균형을 조절하는 temperature parameter를 자동으로 튜닝하는 방법을 제안하여, task에 따른 수동적인 조정 필요성을 줄였습니다.
- 이론적 분석: Continuous state-action space를 갖는 stochastic multi-armed bandit 환경에서 MAXINFORL이 sublinear regret을 달성함을 증명했습니다. 또한, MAXINFORL이 max-entropy RL algorithm (예: SAC)의 contraction 및 convergence 특성을 모두 가짐을 보였습니다.
- 실험적 검증: State-based 및 visual control task를 포함한 다양한 deep RL benchmark에서 MAXINFORL의 성능을 검증했습니다. 특히, exploration이 어려운 문제와 visual control task에서 기존 baseline 대비 우수한 성능을 보였습니다.
Novelty
- Information gain 기반 directed exploration: Information gain을 intrinsic reward로 사용하여, agent가 environment에 대한 불확실성을 줄이는 방향으로 exploration을 수행하도록 유도합니다.
- Boltzmann exploration과의 결합: Boltzmann exploration을 intrinsic reward를 고려하여 수정함으로써, value function 최대화와 exploration을 동시에 고려하는 새로운 exploration 전략을 제시합니다.
- 일반적인 framework: MAXINFORL은 특정 RL algorithm에 국한되지 않고, 다양한 off-policy model-free RL algorithm (SAC, REDQ, DrQ, DrQv2 등)에 적용 가능한 일반적인 framework입니다.
- 자동화된 exploration-exploitation 균형: Information gain을 위한 temperature parameter를 자동으로 튜닝하는 방법을 제안하여, task에 따른 수동적인 조정 필요성을 줄였습니다.
Experimental Highlights
- State-based control task: OpenAI gym 및 DeepMind Control (DMC) suite benchmark에서 MAXINFOSAC이 다른 baseline (DISAGREEMENT, CURIOSITY, SACINTRINSIC, SACEIPO) 대비 우수한 성능을 보였습니다. 특히, action cost가 추가된 hard exploration problem에서도 MAXINFOSAC은 강건한 성능을 유지했습니다.
- Visual control task: DMC suite의 visual control task에서 MAXINFODRQ, MAXINFODRQV2가 DrQ, DrQv2 대비 우수한 성능 및 sample efficiency를 보였습니다. 특히, challenging visual control task인 humanoid task에서 MAXINFODRQV2는 model-free RL algorithm 중 가장 높은 성능을 기록했습니다.
- Hard exploration problem: Action cost가 추가된 Pendulum, CartPole, Walker task에서 MAXINFOSAC이 기존 baseline 대비 우수한 성능을 보였습니다. 특히, MAXINFOSAC은 state space를 더 빠르게 coverage하며 Pendulum swing-up task를 더 빠르게 해결했습니다.
- 다양한 intrinsic reward와의 결합: Information gain 외에도 RND (Random Network Distillation)를 intrinsic reward로 사용했을 때도 MAXINFORL이 효과적임을 보였습니다.
- 다른 RL algorithm과의 결합: SAC 외에도 REDQ, OAC, DrM 등의 다른 RL algorithm과 결합했을 때도 MAXINFORL이 성능 향상을 이끌어냄을 보였습니다.
Limitations
- Forward dynamics model 학습 필요: Information gain을 계산하기 위해 forward dynamics model을 학습해야 하며, 이는 추가적인 computational cost를 발생시킵니다. (Appendix E Table 1 참고)
- Target policy 유지 필요: Information gain bonus를 위한 temperature를 auto-tuning하기 위해 target policy를 유지해야 합니다.
Future Work
- Computational cost 개선: Forward dynamics model 학습에 대한 computational cost를 줄이기 위한 연구 (예: 더 효율적인 uncertainty quantification 방법 적용).
- Model-based RL로의 확장: Forward dynamics model을 policy 학습에 활용하여 sample efficiency를 높이는 model-based RL로의 확장.
- 이론적 보장 확장: Bandit setting을 넘어 MDP 환경에서의 theoretical guarantee를 확장.
- 다양한 RL algorithm 및 task에 적용: 더 다양한 RL algorithm 및 task에 MAXINFORL을 적용하여 그 효용성을 검증.
핵심 문제 정의:
- 기존 RL 알고리즘은 undirected exploration (무작위 탐색)에 의존하거나, intrinsic rewards (내재적 보상)를 사용하지만, task rewards (작업 보상)와 intrinsic rewards 사이의 효과적인 균형을 찾기 어려웠습니다.
- 이는 특히 hard exploration problems (어려운 탐색 문제) 이나 visual control tasks와 같이 복잡한 환경에서 더욱 두드러집니다.
MAXINFORL 프레임워크의 핵심:
- Informative transitions (정보성 있는 상태 전이) 을 향해 탐색을 유도하는 새로운 접근 방식입니다.
- Information gain (정보 획득) 과 같은 intrinsic rewards를 최대화하여, underlying task (기저 작업)에 대한 정보를 극대화합니다.
- Boltzmann exploration 과 결합하여, value function (가치 함수) 최대화와 states, rewards, actions에 대한 entropy (엔트로피) 최대화 사이의 균형을 자연스럽게 조절합니다.
주요 기여 및 결과:
- Multi-armed bandits 환경에서 sublinear regret 을 달성함을 이론적으로 증명했습니다.
- Continuous state-action spaces 를 위한 off-policy model-free RL 에 적용하여, hard exploration problems 및 visual control tasks 에서 state-of-the-art 성능을 보이는 새로운 알고리즘을 개발했습니다.
핵심 차별점:
- 단순히 무작위 탐색이나 고정된 intrinsic rewards 방식에서 벗어나, underlying task에 대한 information gain을 직접적으로 최대화하는 새로운 탐색 전략을 제시합니다.
- 이론적 분석과 실험적 검증을 통해 MAXINFORL의 효과를 입증했습니다.
- 다양한 RL 환경에 적용 가능한 일반적인 프레임워크를 제공합니다.
결론적으로, 이 논문은 RL의 근본적인 탐색 문제를 해결하기 위한 새롭고 효과적인 프레임워크인 MAXINFORL을 제시하며, 이는 AI 연구자들에게 중요한 기여를 할 것으로 예상됩니다.
ABSTRACT Reinforcement learning (RL) 알고리즘은 현재 최상의 전략을 활용하는 것과 더 높은 보상으로 이어질 수 있는 새로운 옵션을 탐색하는 것 사이의 균형을 맞추는 것을 목표로 합니다. 가장 일반적인 RL 알고리즘은 undirected exploration, 즉 무작위 action sequences를 선택하는 방식을 사용합니다. 탐색은 curiosity 또는 model epistemic uncertainty와 같은 intrinsic rewards를 사용하여 directed 될 수도 있습니다. 그러나 task와 intrinsic rewards의 균형을 효과적으로 맞추는 것은 어렵고 종종 task에 따라 다릅니다. 이 연구에서 우리는 intrinsic 및 extrinsic exploration의 균형을 맞추기 위한 프레임워크인 MAXINFORL을 소개합니다. MAXINFORL은 underlying task에 대한 information gain과 같은 intrinsic rewards를 최대화하여 informative transitions를 향해 탐색을 유도합니다. 이 접근 방식을 Boltzmann exploration과 결합하면 value function의 최대화와 states, rewards 및 actions에 대한 entropy의 최대화를 자연스럽게 절충합니다. 우리는 우리의 접근 방식이 multi-armed bandits의 단순화된 설정에서 sublinear regret을 달성한다는 것을 보여줍니다. 그런 다음 이 일반적인 공식을 continuous state-action spaces를 위한 다양한 off-policy model-free RL 방법에 적용하여 어려운 탐색 문제와 visual control tasks와 같은 복잡한 시나리오에서 우수한 성능을 달성하는 새로운 알고리즘을 도출합니다.
핵심 문제 정의:
- 기존 RL 알고리즘은 undirected exploration (무작위 탐색)에 의존하거나, intrinsic rewards (내재적 보상)를 사용하지만, task rewards (작업 보상)와 intrinsic rewards 사이의 효과적인 균형을 찾기 어려웠습니다.
- 이는 특히 hard exploration problems (어려운 탐색 문제) 이나 visual control tasks와 같이 복잡한 환경에서 더욱 두드러집니다.
MAXINFORL 프레임워크의 핵심:
- Informative transitions (정보성 있는 상태 전이) 을 향해 탐색을 유도하는 새로운 접근 방식입니다.
- Information gain (정보 획득) 과 같은 intrinsic rewards를 최대화하여, underlying task (기저 작업)에 대한 정보를 극대화합니다.
- Boltzmann exploration 과 결합하여, value function (가치 함수) 최대화와 states, rewards, actions에 대한 entropy (엔트로피) 최대화 사이의 균형을 자연스럽게 조절합니다.
주요 기여 및 결과:
- Multi-armed bandits 환경에서 sublinear regret 을 달성함을 이론적으로 증명했습니다.
- Continuous state-action spaces 를 위한 off-policy model-free RL 에 적용하여, hard exploration problems 및 visual control tasks 에서 state-of-the-art 성능을 보이는 새로운 알고리즘을 개발했습니다.
핵심 차별점:
- 단순히 무작위 탐색이나 고정된 intrinsic rewards 방식에서 벗어나, underlying task에 대한 information gain을 직접적으로 최대화하는 새로운 탐색 전략을 제시합니다.
- 이론적 분석과 실험적 검증을 통해 MAXINFORL의 효과를 입증했습니다.
- 다양한 RL 환경에 적용 가능한 일반적인 프레임워크를 제공합니다.
결론적으로, 이 논문은 RL의 근본적인 탐색 문제를 해결하기 위한 새롭고 효과적인 프레임워크인 MAXINFORL을 제시하며, 이는 AI 연구자들에게 중요한 기여를 할 것으로 예상됩니다.

Figure 1: 우리는 MAXINFORL의 다양한 variants의 normalized performance를 요약합니다. state-based control을 위한 MAXINFOSAC와 visual control을 위한 MAXINFODRQV2 (자세한 내용은 Section 4 참조). 우리는 5개의 seeds에 대한 평균 성능을 1 standard error와 함께 보고합니다.
1 INTRODUCTION
Reinforcement learning (RL)은 games, robotics, large language models의 fine-tuning에 이르기까지 sequential decision-making 문제에서 수많은 응용 분야를 발견했습니다. 그러나 PPO와 같이 가장 널리 사용되는 RL 알고리즘은 본질적으로 sample-inefficient하여 학습을 위해 수백 시간의 환경 interactions이 필요합니다. SAC, REDQ 및 DroQ와 같은 Off-policy 방법은 보다 sample 및 compute efficient 한 대안을 제공하며 real-world learning에서 성공을 입증했습니다. 그럼에도 불구하고, 그들은 종종 dense reward signals을 필요로 하며 sparse rewards나 local optima가 있는 경우 어려움을 겪습니다. 이는 주로 ϵ-greedy 또는 Boltzmann exploration과 같은 naive exploration schemes를 사용하고 탐색을 위해 사실상 무작위 sequences of actions를 취하기 때문입니다. 이러한 전략은 기본적인 작업에서도 최적이 아닌 것으로 알려져 있지만, 단순성과 확장성으로 인해 여전히 인기가 있습니다. 여러 연구에서는 curiosity 또는 information gain과 같은 intrinsic reward signals를 사용하여 RL agents의 탐색을 개선합니다. 더욱이, information gain은 Bayesian experiment design에도 널리 적용되며 많은 active learning 방법의 기초입니다. RL에서 information gain을 최대화하는 탐색은 강력한 이론적 보장을 제공하고 state-of-the-art empirical performance를 달성합니다. 그러나 intrinsic exploration objectives와 naive extrinsic exploration algorithms을 효과적으로 균형을 맞추는 방법에 대한 이론적, 실제적 이해에는 여전히 상당한 격차가 있습니다. 이 연구의 목표는 이 격차를 해소하는 것입니다. 이를 위해 우리는 널리 사용되는 전통적인 Boltzmann exploration을 재검토하고 information gain과 같은 intrinsic rewards에서 파생된 exploration bonuses를 통합하여 이를 개선합니다. 우리의 접근 방식은 이론적 통찰력과 실질적인 동기에 기반을 두고 있으며, 여러 deep RL benchmarks에서 경험적으로 검증합니다. 이 연구의 주요 기여는 다음과 같이 요약됩니다.
Contributions
- 우리는 continuous state-action spaces를 위한 새로운 종류의 off-policy model-free algorithms인 MAXINFORL을 제안합니다. 이 알고리즘은 기존 RL 방법에 directed exploration을 더합니다. 본질적으로 MAXINFORL은 표준 Boltzmann exploration을 기반으로 하며 intrinsic reward를 통해 이를 안내합니다. 우리는 extrinsic 및 intrinsic objectives의 균형을 크게 단순화하는 실용적인 auto-tuning procedure를 제안합니다. 이를 통해 underlying MDP에 대한 maximum information gain을 달성하는 trajectories를 방문하여 탐색하는 동시에 작업을 효율적으로 해결하는 알고리즘이 생성됩니다. 결과적으로 MAXINFORL은 intrinsic rewards를 통한 directed exploration을 추가하면서도 기존 RL 방법의 단순성을 유지합니다. 또한, ϵ-greedy와 같은 다른 naive exploration techniques와 동일한 idea를 결합하는 방법을 보여줍니다.
- continuous spaces에서 stochastic multi-armed bandits의 단순화된 설정에서 MAXINFORL이 sublinear regret을 가짐을 보여줍니다. 또한 MAXINFORL이 SAC와 같은 max-entropy RL 알고리즘에 적용되는 contraction 및 convergence의 모든 이론적 특성으로부터 이점을 얻는다는 것을 보여줍니다.
- 실험에서 우리는 dynamics models의 ensemble을 사용하여 information gain을 추정하고 MAXINFORL을 SAC, REDQ, DrQ 및 DrQv2와 결합합니다. 우리는 state 및 visual control tasks에 대한 표준 deep RL benchmarks에서 이를 평가하고 MAXINFORL이 모든 tasks 및 baselines에서 가장 우수한 성능을 수행하고 challenging exploration problems에서도 가장 높은 성능을 얻는다는 것을 보여줍니다(여러 환경에서 MAXINFORL의 평균 성능은 그림 1 참조).
기존 RL 방법들의 한계:
- Sample-inefficiency: PPO와 같은 널리 쓰이는 알고리즘은 학습을 위해 막대한 양의 환경 interactions을 필요로 합니다.
- Naive Exploration: Off-policy 방법들 (SAC, REDQ, DroQ 등)은 real-world learning에서 진전을 보였지만, 여전히 ϵ-greedy, Boltzmann exploration과 같은 단순한 탐색 방법에 의존합니다.
- Sparse Rewards: 이러한 단순 탐색 방법은 sparse rewards 환경이나 local optima가 존재하는 환경에서 특히 취약합니다.
- Intrinsic Rewards 활용의 어려움: Intrinsic rewards (curiosity, information gain 등)를 활용한 연구들이 있었지만, intrinsic exploration objectives와 extrinsic exploration objectives 사이의 효과적인 균형을 찾는 것은 여전히 어려운 과제였습니다.
본 논문이 제시하는 솔루션: MAXINFORL
- Directed Exploration: 기존의 단순한 Boltzmann exploration을 intrinsic rewards (특히 information gain)로 유도 (guide) 하는 새로운 off-policy model-free 알고리즘입니다.
- Auto-tuning Procedure: Extrinsic objectives와 intrinsic objectives 간의 균형을 자동으로 조절하는 실용적인 방법을 제안하여, 하이퍼파라미터 튜닝의 부담을 줄입니다.
- Information Gain Maximization: Underlying MDP에 대한 maximum information gain을 달성하는 trajectories를 방문하도록 탐색함으로써, 효율적인 학습을 가능하게 합니다.
- Theoretical Foundation: Stochastic multi-armed bandits 환경에서 sublinear regret을 달성함을 증명하고, max-entropy RL 알고리즘 (SAC 등)의 이론적 이점을 유지합니다.
MAXINFORL의 핵심 차별점:
- 단순히 무작위 탐색이나 고정된 intrinsic rewards 방식에서 벗어나, underlying task에 대한 information gain을 직접적으로 최대화하는 새로운 탐색 전략을 제시합니다.
- Auto-tuning procedure를 통해 intrinsic rewards 활용의 실용성을 크게 개선했습니다.
- 이론적 분석과 실험적 검증(state 및 visual control tasks)을 통해 MAXINFORL의 우수성을 입증했습니다.
- 다양한 RL 알고리즘 (SAC, REDQ, DrQ, DrQv2) 및 환경에 적용 가능한 일반적인 프레임워크를 제공합니다.
결론적으로, 이 논문은 기존 RL의 한계를 극복하고, 더 효율적이고 강력한 학습을 가능하게 하는 새로운 프레임워크인 MAXINFORL을 제시합니다. 특히, information gain을 활용한 directed exploration과 auto-tuning procedure는 AI 연구자들에게 매우 유용한 도구가 될 것입니다.
2 BACKGROUND
RL의 핵심 과제는 agent가 현재 지식을 활용하여 보상을 최대화해야 하는지, 아니면 더 나은 솔루션을 찾기 위해 새로운 actions을 시도해야 하는지 여부를 결정하는 것입니다. 이러한 exploration과 exploitation 사이의 균형을 맞추는 것이 중요합니다. 여기에서는 먼저 problem setting을 소개한 다음, RL에서 가장 일반적으로 사용되는 두 가지 exploration strategies인 ϵ-greedy 및 Boltzmann exploration에 대해 논의합니다.
2.1 PROBLEM SETTING
우리는 infinite-horizon Markov decision process (MDP)를 연구합니다. 이 MDP는 튜플 (S, A, p, γ, r, ρ)로 정의되며, 여기서 state 및 action spaces는 continuous, 즉 S ⊂ R<sup>ds</sup>, A ⊂ R<sup>da</sup>이고, 알 수 없는 transition kernel p: S × S × A → [0, ∞)는 현재 state s<sub>t</sub> ∈ S와 action a<sub>t</sub> ∈ A가 주어졌을 때 다음 state s<sub>t+1</sub> ∈ S의 probability density를 나타냅니다. 환경의 각 단계 t에서 agent는 state s<sub>t</sub>를 관찰하고, policy π: A × S → [0, ∞)에서 action a<sub>t</sub> ∼ π(a|s<sub>t</sub>)를 sampling 하고, reward r: S × S × A → [-1/2 r<sub>max</sub>, 1/2 r<sub>max</sub>]를 받습니다. agent의 목표는 initial state distribution s<sub>0</sub> ∼ ρ에 대해 γ discounted reward를 최대화하는 policy π<sup>*</sup>를 학습하는 것입니다.
π<sup>*</sup> = arg max<sub>π∈Π</sub> J(π) = arg max<sub>π∈Π</sub> E<sub>s0,a0,...</sub> [∑<sup>∞</sup><sub>t=0</sub> γ<sup>t</sup> r<sub>t</sub>] (1)
다음으로, state-action value function Q<sup>π</sup>와 value function V<sup>π</sup>의 정의를 제공합니다.
Q<sup>π</sup>(s<sub>t</sub>, a<sub>t</sub>) = E<sub>st+1,at+1∼π,...</sub> [∑<sup>∞</sup><sub>l=0</sub> γ<sup>l</sup> r<sub>t+l</sub>], V<sup>π</sup>(s<sub>t</sub>) = E<sub>at∼π,st+1,at+1∼π,...</sub> [∑<sup>∞</sup><sub>l=0</sub> γ<sup>l</sup> r<sub>t+l</sub>]
2.2 ϵ–GREEDY AND EXPLORATION
ϵ-greedy strategy는 RL에서 exploration과 exploitation의 균형을 맞추기 위해 널리 사용되며, RL agent는 아래의 간단한 decision rule에 따라 actions을 선택합니다.
a<sub>t</sub> = ( a ∼ Unif(A) with probability ϵ<sub>t</sub>, arg max<sub>a∈A</sub> Q<sup>*</sup>(s<sub>t</sub>, a) else ) (2)
여기서 Q<sup>*</sup>는 optimal state-action value function의 추정치입니다. 따라서 각 단계 t에서 ϵ<sub>t</sub> 확률로 무작위 action a<sub>t</sub> ∼ Unif(A)가 sampling 되고, 그렇지 않으면 greedy action a<sub>t</sub> = max<sub>a∈A</sub> Q<sup>*</sup>(s<sub>t</sub>, a)가 선택됩니다. 이 전략은 continuous state-action spaces로 확장되어 value function을 최대화하고 exploration을 위해 무작위 Gaussian noise와 결합된 deterministic policy π<sub>θ</sub>를 학습합니다.
2.3 BOLTZMANN EXPLORATION
Boltzmann exploration은 많은 RL 알고리즘의 기초입니다. Boltzmann에 대한 policy distribution π는 다음과 같이 표현됩니다.
π(a|s) ∝ exp(α<sup>-1</sup> Q<sup>π</sup>(s, a)) (3)
여기서 α는 exploration을 조절하는 temperature parameter이고 Q<sup>π</sup>는 soft-Q function입니다. 단순화를 위해 정의에서 정규화 항 Z<sup>-1</sup>(s)는 무시합니다. α → 0이면 policy는 Q<sup>π</sup>(s, a)를 greedy하게 최대화합니다. 즉, exploitation하고, α → ∞이면 policy는 A의 모든 actions에 동일한 mass를 추가하여 사실상 uniform exploration을 수행합니다. 직관적으로 Boltzmann exploration은 ϵ-greedy의 더 부드러운 대안으로 해석될 수 있으며, α는 exploration 정도를 제어하는 데 ϵ과 유사한 역할을 합니다. 표준 Boltzmann exploration은 가장 단순한 설정에서도 최적이 아님을 보여줍니다. 그들은 Boltzmann exploration의 주요 단점은 추정치의 uncertainty를 고려하지 않는다는 점을 강조합니다.
전반적으로 ϵ-greedy와 Boltzmann exploration strategies는 모두 undirected입니다. 그들은 agent의 "lack of knowledge"를 고려하지 않으며 risk- 또는 knowledge-seeking behavior를 장려하지 않습니다. agent는 무작위 action sequences를 sampling하여 탐색하며, 이는 특히 continuous state-action spaces가 있는 challenging exploration tasks에서 최적이 아닌 성능으로 이어집니다.
2.4 INTRINSIC EXPLORATION WITH INFORMATION GAIN
Intrinsic rewards 또는 motivation은 agent를 MDP의 underexplored regions로 유도하는 데 사용됩니다. 따라서 RL agent는 앞서 언급한 naive exploration methods와 달리 보다 원칙적인 방식으로 정보를 획득할 수 있습니다. 효과적으로 agent는 γ-discounted intrinsic rewards를 최대화하는 policies를 선택하여 탐색합니다. intrinsic reward의 일반적인 선택은 information gain입니다. 따라서 이 논문의 나머지 부분에서는 information gain을 intrinsic reward로 사용하는 데 중점을 두고 derivations을 진행합니다. 그러나 우리의 접근 방식은 유연하며 RND와 같은 다른 intrinsic exploration objectives와 결합될 수도 있습니다(부록 D 참조).
우리는 다음과 같은 형태의 non-linear dynamical system을 연구합니다.
s˜<sub>t+1</sub> = f<sup>*</sup>(s<sub>t</sub>, a<sub>t</sub>) + w<sub>t</sub> (4)
여기서 s˜<sub>t+1</sub> = [s<sup>⊤</sup><sub>t+1</sub>, r<sub>t</sub>]<sup>⊤</sup>는 next state와 reward를 나타내고, f<sup>*</sup>는 MDP의 알 수 없는 dynamics와 reward function을 나타내고, w<sub>t</sub>는 process noise이며, 우리는 이것이 zero-mean i.i.d., σ<sup>2</sup>-Gaussian이라고 가정합니다. 이것은 continuous state-action spaces를 갖는 nonlinear systems의 매우 일반적인 표현이며 많은 RL 알고리즘의 기초입니다. 또한 underlying MDP의 모든 필수적이고 알려지지 않은 구성 요소인 transition kernel과 reward function을 모델링합니다.
Approximating information gain
transitions의 dataset D<sub>n</sub> = {(s<sub>i</sub>, a<sub>i</sub>, s˜'<sub>i</sub>)}<sup>n</sup><sub>i=0</sub> (예: replay buffer)이 주어지면, 우리는 알 수 없는 함수 f<sup>*</sup>의 Bayesian model을 학습하여 f<sup>*</sup>에 대한 posterior distribution p(f<sup>*</sup>|D<sub>n</sub>)을 얻습니다. 이 distribution은 Gaussian process models 또는 probabilistic ensembles와 같은 Bayesian neural networks를 통해 표현될 수 있습니다. 일반적인 model-based RL 설정과 달리, 우리의 학습된 model은 intrinsic reward를 결정하는 데만 사용됩니다. information gain I(s˜'; f<sup>*</sup>|s, a, D<sub>n</sub>)은 transition (s, a, s˜')을 관찰함으로써 알 수 없는 dynamics f<sup>*</sup>에 대한 uncertainty를 반영합니다. 또한, σ(s, a|D<sub>n</sub>) = [σ<sub>j</sub>(s, a)]<sub>j≤ds+1</sub>을 f<sup>*</sup>의 model epistemic uncertainty 또는 disagreement라고 표기합니다.
I(s˜'; f<sup>*</sup>|s, a, D<sub>n</sub>) = H(s˜'|s, a, D<sub>n</sub>) - H(s˜|s, a, f<sup>*</sup>, D<sub>n</sub>) ≤ ∑<sup>d</sup><sub>Xs+1</sub><sup>j=1</sup> log(1 + σ<sup>2</sup><sub>n-1,j</sub>(s<sub>t</sub>, a<sub>t</sub>)/σ<sup>2</sup>) | {z } Iu(s,a) (5)
여기서 H는 (differential) entropy를 나타내고, 식 (5)에서 등식은 p(f<sup>*</sup>|D<sub>n</sub>)이 Gaussian일 때 성립합니다. 위는 upper bound이지만, 이론적 관점에서 이 선택을 동기 부여하여 model-based setting에 대한 active learning algorithm의 수렴을 증명합니다. 이 연구에서 우리는 information gain의 upper bound를 실제 알고리즘에 사용합니다. upper bound는 자연스러운 해석을 갖는데, 이를 최대화하는 actions a<sub>t</sub>를 선택함으로써 우리는 알 수 없는 함수 f<sup>*</sup>에 대한 uncertainty가 높은 영역을 효과적으로 방문하여 state와 action space 모두에서 exploration을 수행하기 때문입니다.
Data dependence of intrinsic rewards
Information gain 및 기타 intrinsic rewards는 data D<sub>n</sub>에 의존하므로 본질적으로 nonstationary 및 non-Markovian입니다. 직관적으로 MDP의 underexplored areas는 일단 방문하면 덜 informative 해집니다. 그러나 RL에서 intrinsic rewards는 종종 extrinsic rewards와 유사하게 취급되며, 이는 실제로 매우 잘 작동하는 단순화입니다. 우리는 이 논문에서 유사한 접근 방식을 취하고 단순화를 위해 I의 D<sub>n</sub>에 대한 의존성을 생략하고 앞으로 I(s˜'; f<sup>*</sup>|s, a)를 사용합니다.
핵심 개념:
- Problem Setting:
- Infinite-horizon, continuous state and action spaces를 가진 Markov Decision Process (MDP) 를 가정합니다.
- Agent의 목표는 γ-discounted reward를 최대화하는 policy를 학습하는 것입니다.
- Exploration-Exploitation 딜레마:
- RL agent는 현재까지 학습한 지식을 활용(Exploitation)하여 당장의 보상을 극대화할지, 아니면 새로운 경험을 탐색(Exploration)하여 더 나은 policy를 찾을지 결정해야 합니다.
- 이 딜레마는 RL의 핵심 과제 중 하나입니다.
- 기존 Exploration 방법들의 한계:
- ϵ-greedy: 일정 확률(ϵ)로 무작위 action을 선택하는 방법으로, 단순하지만 비효율적입니다.
- Boltzmann Exploration: Action 선택 확률을 Q-value의 지수 함수(softmax)로 결정하는 방법으로, ϵ-greedy보다는 부드럽지만, 여전히 agent의 uncertainty를 고려하지 않습니다.
- 공통적인 한계: 두 방법 모두 undirected exploration이며, agent의 "lack of knowledge"를 고려하지 않고, 무작위 action sequences를 sampling하기 때문에 challenging exploration tasks에서 성능이 저하됩니다.
- Information Gain을 활용한 Intrinsic Exploration:
- Intrinsic Reward: Agent에게 새로운 정보를 얻도록 동기(motivation)를 부여하는 내부적인 보상입니다.
- Information Gain: 본 논문에서는 Intrinsic Reward로 Information Gain을 사용합니다. Information Gain은 특정 transition (s, a, s')을 관찰했을 때, 알 수 없는 MDP dynamics (f)에 대한 uncertainty가 얼마나 감소하는지를 나타냅니다.*
- 핵심 아이디어: Information Gain이 높은 transition을 방문하도록 유도함으로써, agent가 MDP의 underexplored regions를 탐험하도록 장려합니다.
이 논문만의 핵심:
- Intrinsic Reward로 Information Gain의 Upper Bound 사용:
- Information Gain을 직접 계산하는 대신, 계산이 용이한 upper bound를 사용합니다.
- Upper bound를 최대화하는 action을 선택하는 것은 state와 action space 모두에서 uncertainty가 높은 영역을 탐험하는 것과 같습니다.
- Non-linear Dynamical System:
- MDP dynamics를 s˜ t+1 = f * (s t, a t) + w t 와 같은 non-linear system으로 표현합니다.
- 이는 continuous state-action spaces를 가진 RL 문제에 적합한 일반적인 표현입니다.
- Data Dependence of Intrinsic Rewards:
- Information Gain은 data (D n)에 의존적이기 때문에 nonstationary하고 non-Markovian합니다.
- 본 논문에서는 단순화를 위해 이러한 data dependence를 무시하지만, 이는 여전히 중요한 고려 사항입니다.
결론:
본 섹션은 기존 exploration 방법들의 한계를 지적하고, Information Gain을 Intrinsic Reward로 활용하여 이 한계를 극복하고자 하는 논문의 핵심 아이디어를 제시합니다. 특히, Information Gain의 Upper Bound를 사용하고, Non-linear Dynamical System으로 MDP를 표현하는 등 실용적이고 효과적인 접근 방식을 제안합니다.
3 MAXINFORL
이 섹션에서는 intrinsic exploration과 classical exploration strategies를 결합하는 방법인 MAXINFORL을 제시합니다. MAXINFORL은 Boltzmann exploration을 기반으로 하지만, 여기서는 먼저 수학적 단순성과 exploration 및 exploitation 단계 간의 명확한 구분을 위해 ϵ-greedy strategy의 맥락에서 핵심 아이디어를 설명합니다. 이를 통해 얻은 통찰력을 바탕으로 Boltzmann exploration algorithms을 사용한 주요 방법인 MAXINFORL을 개발하고, Section 4에서 평가합니다.
3.1 MODIFYING ϵ–GREEDY FOR DIRECTED EXPLORATION
Section 2.2의 ϵ-greedy strategy를 수정하고 두 개의 critics, Q_<sup>*</sup>_ extrinsic 과 Q_<sup>*</sup>_ intrinsic 을 학습합니다. 여기서 Q_<sup>*</sup>_ extrinsic 은 extrinsic reward r의 state-action value function이고 Q_<sup>*</sup>_ intrinsic 은 intrinsic reward function r intrinsic (예: information gain(식 (5) 참조))의 critic입니다. 기존의 ϵ-greedy exploration과 달리, intrinsic rewards를 활용하여 Q_<sup>*</sup>_ intrinsic 을 최대화하는 actions을 선택함으로써 exploration을 보다 효과적으로 유도합니다. 이를 통해 무작위 sampling보다 더 informed exploration이 가능합니다. 각 단계 t에서, 우리는 1 - ϵ_<sub>t</sub>_ 의 확률로 Q_<sup>*</sup>_ extrinsic 을 최대화하는 greedy action을 선택하는 반면, exploration을 위해서는 intrinsic critic을 최대화하는 action, 즉 a_<sub>t</sub>_ = max a∈A Q_<sup>*</sup>_ intrinsic(s_<sub>t</sub>_, a)을 선택합니다.
a_<sub>t</sub>_ = { arg max a∈A Q_<sup>*</sup>_ intrinsic(s_<sub>t</sub>_, a) with probability ϵ_<sub>t,</sub> arg max a∈A Q_<sup>*</sup>_ extrinsic(s_<sub>t</sub>_, a) else } (6)
결과적인 exploration strategy를 ϵ-MAXINFORL이라고 부릅니다. 이 접근 방식은 continuous spaces에서 intrinsic rewards가 undirected random exploration보다 state-action spaces를 훨씬 더 효율적으로 다루기 때문에 일반적으로 exploration에 더 효과적이라는 통찰력에서 비롯되었습니다. 부록 A에서는 우리 접근 방식에 대한 이론적 직관을 제공하기 위해 multi-armed bandit (MAB)의 단순화된 설정에서 ϵ-MAXINFORL을 연구합니다. 우리는 더 많은 episodes가 진행될수록 최적의 솔루션에 더 가까워진다는 것, 즉 sublinear-regret을 갖는다는 것을 보여줍니다. ϵ-MAXINFORL의 핵심은 action spaces에서 entropy를 최대화하는 actions으로 탐험하는 대신(예: uniform sampling), 학습 중에 MDP에 대한 높은 information을 제공하는 policies를 선택한다는 것입니다. 다음으로, 이 아이디어를 활용하고 Boltzmann exploration의 target distribution을 수정하여 intrinsic exploration bonuses를 통합합니다. 또한, ϵ-MAXINFORL은 두 가지 실질적인 단점이 있습니다. (i) 두 개의 actor-critics를 학습해야 하고 (ii) 실제로 확률 ϵ_<sub>t</sub>_는 문제 설계자가 지정해야 합니다. 아래 섹션에서 이러한 두 가지 제한 사항을 모두 해결하고 주요 방법을 제시합니다.
3.2 MAXINFORL WITH BOLTZMANN EXPLORATION
Section 3.1에서는 exploration 중에 무작위로 actions을 선택하는 대신 intrinsic rewards가 높은 actions을 sampling하도록 ϵ-greedy를 수정했습니다. 동일한 원칙에서 출발하여 intrinsic reward I(s˜'; f_<sup>*</sup>_|s, a)로 Boltzmann exploration의 distribution을 보강하여 다음을 얻습니다.
π(a|s) ∝ exp(α_<sup>-1</sup>_ Q_<sup>π</sup>_(s, a) + I(s˜'; f_<sup>*</sup>_|s, a)) (7)
결과 distribution은 information gain에 대한 exploration을 장려하며, α는 식 (6)의 ϵ과 유사한 역할을 합니다. 따라서 식 (7)은 식 (6)의 soft formulation으로 볼 수 있습니다. 사실상, 무작위로 actions을 sampling하는 대신, temperature가 큰 값의 경우, 높은 information을 제공하는 actions을 선택하면서 더 작은 temperatures에 대해서는 exploitative behavior를 유지합니다. 이 distribution은 RL에서의 K-learning 및 probabilistic inference의 epistemic risk-seeking exponential utility function과 밀접한 관련이 있습니다. 다음에서 보듯이, 이 parameterization 선택은 policy에 대한 매우 직관적인 objective를 낳습니다. 이전 policy π old 와 Q π old 가 주어지면, 다음 policy π new 를 다음 최적화를 통해 선택합니다.
π new = arg min π∈Π D KL(π(·|s) || Z -1(s) exp(1/α Q π old(s, ·) + I(s˜'; f_<sup>*</sup>_|s, a))) = arg max π∈Π E a∼π(·|s) [Q π old(s, a) - α log(π(a|s)) + αI(s˜'; f_<sup>*</sup>_|s, a)] = arg max π∈Π E a∼π(·|s) [Q π old(s, a)] + αH(s˜', a|s) (8)
여기서 마지막 줄에서는 E a∼π(·|s) [- log(π(a|s)) + I(s˜'; f_<sup>*</sup>_|s, a)] = H(a|s) + H(s˜'|a, s) - H(s˜'|s, a, f_<sup>*</sup>_) = H(s˜', a|s) - H(w)임을 이용했습니다. 따라서 policy π new 는 value function과 states, rewards, actions의 entropy를 최대화하는 것을 절충합니다. 이 trade-off는 temperature parameter α를 통해 조절됩니다. 부록 C에서 control as inference의 관점에서 식 (8)에 대한 다른 관점을 제공합니다.
Separating exploration bonuses
MAXINFORL은 두 가지 exploration bonuses를 가집니다. (i) policy entropy, (ii) information gain (식 (5)). 두 항은 일반적으로 크기가 다르며 policy entropy에 대한 temperature를 조정하는 것은 RL에서 상당히 잘 연구되어 있습니다. 이를 위해 식 (8)을 수정하고 두 개의 개별 temperature parameters α 1 과 α 2 를 도입하여 bonuses를 분리합니다. 또한, information gain은 일반적으로 closed-form solution이 없으므로, 이전 연구와 유사하게 upper bound I u(s, a) (식 (5))를 대신 사용합니다.
J π old(π|s) = E a∼π(·|s) [Q π old(s, a) - α 1 log(π(a|s)) + α 2 I u(s, a)] π new(·|s) = arg max π∈Π J π old(π|s) (9)
α 1 에 대해서는 α 1 = 0인 deterministic policy를 사용하거나 제안된 대로 α 1 을 auto-tune할 수 있습니다. 특히, α 2 = 0이면 표준 max entropy RL methods를 얻습니다. 따라서 두 개의 개별 temperatures를 도입함으로써 information gain을 policy entropy에 더한 또 다른 exploration bonus로 취급하고 이를 어떤 RL algorithm과도 결합할 수 있습니다.
Auto-tuning the temperature for the information gain bonus
soft-Q learning 문제를 constrained optimization으로 공식화합니다.
π * (·|s) := arg max π∈Π E a∼π [Q π(s, a)] s.t., H(a|s) ≥ H¯ := arg max π∈Π min α1≥0 E a∼π [Q π(s, a) - α 1(log(π(a|s)) + H¯)]
그런 다음 entropy coefficient는 stochastic gradient descent (SGD)를 통해 이 최적화 문제를 점진적으로 해결하여 auto-tuned 됩니다. 비슷한 맥락에서, entropy와 information gain에 대한 temperatures를 auto-tune하기 위해 다음 constraints를 제안합니다.
π * (·|s) := arg max π∈Π E a∼π [Q π(s, a)] s.t., H(a|s) ≥ H¯, E a∼π [I u(s, a)] ≥ ¯I u(s) (10) := arg max π∈Π min α1,α2≥0 E a∼π [Q π(s, a) - α 1(log(π(a|s)) + H¯) + α 2(I u(s, a) - ¯I u(s))]
target entropy에 대해 간단한 heuristic H¯ = -dim(A)를 사용합니다. 그러나 학습된 Bayesian model p(f_<sup>*</sup>_)에 따라 달라지기 때문에 일반적인 desired information gain을 지정할 수 없습니다. 이것은 ¯I u 를 task에 따라 다르게 만듭니다. 실험을 위해 off-policy RL의 target critic과 유사하게 업데이트되는 target policy π¯를 유지하고 ¯I u 를 다음과 같이 정의합니다.
¯I u(s) := ∑ j=1 ^d ^Xs+1 E a∼π¯(·|s) [log(1 + σ -2 σ 2 n-1,j(s, a))] (11)
직관적으로, 이 constraint는 현재 policy π가 information gain에 대해 적어도 target policy π¯만큼 탐험하도록 강제합니다. 원칙적으로 α 2 를 최적화하기 위해 다른 어떤 constraint도 사용할 수 있습니다. 우리는 (i) 평가하기 쉽고, (ii) 다른 intrinsic rewards와 결합될 수 있으며, (iii) 모듈식, 즉 어떤 RL algorithm에도 추가될 수 있기 때문에 우리의 constraint를 고려합니다. 더욱이 MAXINFORL은 SAC 또는 DDPG와 같은 어떤 base off-policy RL algorithm과도 결합될 수 있으므로 이러한 방법의 단순성과 확장성으로부터 이점을 얻습니다. 또한 information gain을 directed exploration bonus로 도입하고, policy entropy와 유사하게 temperature를 자동으로 조정합니다. 따라서 naive extrinsic exploration methods의 강점과 intrinsic exploration의 directedness로부터 이점을 모두 얻습니다. 우리는 실험에서 이를 입증하며, 여기서 MAXINFORL을 SAC, REDQ, DrQ, DrQv2와 결합합니다.
Convergence of MAXINFORL
다음으로 수정된 Boltzmann exploration strategy를 연구하고, policy에 대한 Q function 및 update rules가 optimal policy π_<sup>*</sup>_ ∈ Π로 수렴한다는 것을 보여줍니다. 우리는 policy의 entropy와 model epistemic uncertainty가 모든 (s, a) ∈ S × A에 대해 모두 bounded라고 매우 일반적인 가정을 합니다.
Bellman operator T_<sup>π</sup>_를 다음과 같이 정의합니다.
T_<sup>π</sup>_Q(s, a) = r(s, a) + γE s'|s,a [V_<sup>π</sup>_(s')] (12)
여기서
V_<sup>π</sup>_(s) = E a∼π(·|s) [Q(s, a) - α 1 log(π(a|s)) + α 2 I u(s, a)] (13)
은 soft-value function입니다.
Theorem 3.1 (MAXINFORL soft Q learning). reward, 모든 π ∈ Π에 대한 entropy, model epistemic uncertainty σ n 이 모든 n ≥ 0, (s, a) ∈ S × A에 대해 모두 bounded라고 가정합니다. soft policy evaluation(식 (12))과 soft policy update(식 (9))를 어떤 π ∈ Π에 반복적으로 적용하면 모든 π ∈ Π, (s, a) ∈ S × A에 대해 Q π(s, a) ≤ Q π * (s, a)를 만족하는 π * ∈ Π로 수렴합니다.
Theorem 3.1은 Boltzmann exploration에 대해 재구성된 표현이 동일한 수렴 속성을 나타낸다는 것을 보여줍니다.
핵심 아이디어:
- Directed Exploration with Intrinsic Rewards: 기존의 ϵ-greedy나 Boltzmann exploration과 같은 undirected exploration 방법 대신, Intrinsic Reward (특히 Information Gain)를 활용하여 exploration을 유도(direct) 합니다.
- Information Gain Maximization: Agent가 MDP에 대한 Information Gain을 최대화하는 방향으로 탐험하도록 장려합니다. 즉, uncertainty가 높은 state-action 영역을 탐험하도록 유도합니다.
3.1. ϵ-GREEDY의 개선: ϵ-MAXINFORL
- 기존 ϵ-greedy의 한계: ϵ-greedy는 exploration 시 무작위 action을 선택하기 때문에 비효율적입니다.
- ϵ-MAXINFORL 제안:
- 두 개의 Critics 학습:
- Q*_extrinsic: Extrinsic reward를 위한 state-action value function.
- Q*_intrinsic: Intrinsic reward (Information Gain)를 위한 state-action value function.
- Exploration 시 Q*_intrinsic을 최대화하는 action 선택: Agent는 1-ϵ_t 확률로 Q*_extrinsic을 최대화하는 greedy action을 선택하고, ϵ_t 확률로 Q*_intrinsic을 최대화하는 action을 선택하여 exploration을 수행합니다.
- 장점: Continuous state-action spaces에서 intrinsic rewards가 undirected random exploration보다 효율적입니다.
- 이론적 근거: Multi-armed bandit (MAB) 환경에서 ϵ-MAXINFORL이 sublinear regret을 달성함을 증명합니다 (부록 A 참조).
- 두 개의 Critics 학습:
- 핵심: Exploration 시 단순히 무작위 action을 선택하는 대신, MDP에 대한 정보를 최대로 얻을 수 있는 action을 선택합니다.
- 한계:
- 두 개의 actor-critics를 학습해야 합니다.
- ϵ_t 값을 사용자가 지정해야 합니다.
3.2. Boltzmann Exploration 기반 MAXINFORL
- ϵ-MAXINFORL의 아이디어를 Boltzmann Exploration에 적용: Boltzmann exploration의 policy distribution에 Intrinsic Reward (Information Gain)를 결합하여 다음과 같은 새로운 policy distribution을 제안합니다.
- Information Gain을 고려한 Exploration: α 값이 클 때는 Information Gain이 높은 action을 선택하도록 유도하여 exploration을 장려하고, α 값이 작을 때는 Q-value를 최대화하는 action을 선택하여 exploitation을 장려합니다.
- Soft Formulation: 위 식은 ϵ-MAXINFORL (식 6)의 soft formulation으로 볼 수 있습니다.
- π(a|s) ∝ exp(α⁻¹ Q_π(s, a) + I(s˜'; f*|s, a)) (7)
- Policy Optimization: 위 policy distribution (식 7)은 다음과 같은 objective를 최대화하는 policy π_new를 찾는 것과 같습니다.
- Value Function과 Entropy의 Trade-off: Value function을 최대화하는 것과 states, rewards, actions의 entropy를 최대화하는 것 사이의 trade-off를 조절합니다.
- π_new = arg max_π∈Π E_a∼π(·|s) [Q_π_old(s, a)] + αH(s˜', a|s) (8)
- Exploration Bonuses 분리:
- Policy Entropy와 Information Gain, 두 가지 exploration bonuses를 분리하기 위해 두 개의 temperature parameters (α_1, α_2)를 도입합니다.
- Information Gain의 경우, closed-form solution이 없기 때문에 upper bound (I_u(s, a))를 사용합니다.
- Information Gain Bonus를 위한 Temperature Auto-tuning:
- Constrained Optimization 문제로 Formulation:
- π* (·|s) := arg max_π∈Π E_a∼π [Q_π(s, a)] s.t., H(a|s) ≥ H¯, E_a∼π [I_u(s, a)] ≥ ¯I_u(s) (10)
- Target Policy (π¯)를 활용: ¯I_u(s)를 target policy π¯를 통해 정의하여, 현재 policy π가 적어도 target policy만큼 exploration을 수행하도록 강제합니다.
- ¯I_u(s) := ∑_j=1 ^d ^Xs+1 E_a∼π¯(·|s) [log(1 + σ_-2 σ_2_n-1,j(s, a))] (11)
- MAXINFORL의 장점:
- 다양한 Off-policy RL 알고리즘 (SAC, DDPG 등)과 결합하여 사용할 수 있습니다.
- Information Gain을 directed exploration bonus로 활용합니다.
- Policy Entropy와 Information Gain Bonus의 temperature를 자동으로 조정합니다.
- Naive Extrinsic Exploration과 Directed Intrinsic Exploration의 장점을 모두 활용합니다.
3.3. MAXINFORL의 수렴성 (Convergence)
- Theorem 3.1: Reward, policy entropy, model epistemic uncertainty가 bounded일 때, MAXINFORL의 soft policy evaluation과 soft policy update는 optimal policy로 수렴합니다.
결론:
MAXINFORL은 Information Gain을 활용하여 directed exploration을 수행하는 새로운 RL 알고리즘입니다. Boltzmann Exploration을 기반으로 하며, 두 개의 temperature parameters를 사용하여 policy entropy와 information gain bonus를 분리하고, information gain bonus의 temperature를 자동으로 조정합니다. 이론적 분석과 실험을 통해 MAXINFORL의 효과를 입증했습니다.
