AI바라기의 인공지능
agent : 논문리뷰 : ANDROIDWORLD: A DYNAMIC BENCHMARKING ENVIRONMENT FOR AUTONOMOUS AGENTS 본문
agent : 논문리뷰 : ANDROIDWORLD: A DYNAMIC BENCHMARKING ENVIRONMENT FOR AUTONOMOUS AGENTS
AI바라기 2025. 1. 7. 11:04ANDROIDWORLD: A DYNAMIC BENCHMARKING ENVIRONMENT FOR AUTONOMOUS AGENTS 논문 정리 노트
Purpose of the Paper
기존 연구들은 autonomous agent가 human task를 수행하도록 하는 것에 중점을 두고 있었지만, 대부분의 연구는 static한 환경에서 진행되어 dynamic한 실제 환경에서의 성능을 평가하기 어려웠다. 또한, agent의 성능을 평가하기 위해 human demonstration과 비교하는 방식을 사용했지만, 이는 agent가 다양한 경로로 task를 해결할 수 있고, 환경이 non-deterministic하게 동작할 수 있다는 점을 고려하지 않았다. 이 논문은 이러한 한계를 해결하기 위해, dynamic하고 reproducible한 benchmark 환경인 ANDROIDWORLD를 제안하여, real-world application에서 autonomous agent의 성능을 realistic하고 reliable하게 평가하고자 한다. 특히, unlimited ways로 parameterize되고 natural language로 표현되는 task를 dynamic하게 생성하여, 훨씬 더 크고 realistic한 task suite에서 agent를 testing할 수 있도록 하는 데 중점을 두었다.
Key Contributions
- ANDROIDWORLD: 20개의 real-world Android application에서 116개의 programmatic task에 대한 reward signal을 제공하는 fully functional Android environment를 제안한다.
- Dynamic Task Generation: 각 task는 randomly generated parameter를 사용하여 dynamic하게 instantiate되어, agent에게 millions of unique task goals 및 condition을 제공한다.
- Reproducible Evaluation: task는 dedicated initialization, success-checking, teardown logic을 포함하여 device의 system state를 수정하고 검사함으로써 reproducibility를 보장한다.
- State-of-the-art Multimodal Agent (M3A): M3A를 개발하고 benchmark performance를 수립했다.
- Robustness Analysis: task variation이 agent performance에 큰 영향을 미칠 수 있음을 보여, agent performance metric이 practical challenge를 완전히 반영하지 못할 수 있음을 입증했다.
Novelty
- Real-world Mobile Environment: 기존의 desktop computing environment에 국한된 benchmark와 달리, billions of users가 사용하는 mobile platform인 Android를 위한 최초의 dynamic benchmark를 제시한다.
- Durable Rewards from System State: Android operating system의 state management capability를 활용하여, application state에서 reward를 안정적으로 추출하는 새로운 방식을 제안한다.
- Unlimited Task Variations: controlled random seed를 기반으로 task parameter를 dynamic하게 생성하여, agent의 robustness를 평가할 수 있는 사실상 infinite set of varying initial conditions 및 success criteria를 제공한다.
Experimental Highlights
- Baseline Agent Performance: M3A는 ANDROIDWORLD task의 30.6%를 완료하여, future work을 위한 충분한 여지를 남겼다.
- Cross-Platform Comparison: popular desktop web agent를 Android에 적용한 결과, mobile에서 덜 효과적임을 발견하여, universal cross-platform agent의 필요성을 시사했다.
- Impact of Multimodal Perception: multimodal perception이 성능을 향상시킬 수 있지만, text-only approach를 능가하지는 않는다는 것을 발견했다.
- Effect of Task Parameterization: task parameterization에 따라 agent performance가 크게 달라질 수 있음을 입증했으며, 특히 add expense 및 edit note task에서 통계적으로 significant difference를 보였다(p-value < 0.05).
- OS Version Variation: Android 12와 13 간 agent performance에 큰 차이가 없음을 확인하여, ANDROIDWORLD가 OS variation을 처리할 수 있음을 보여주었다.
Limitations
- 현재 >1M downloads를 가진 open-source Android app과 built-in system app만 지원한다.
- Open-source app은 덜 optimized된 UI로 인해 더 복잡한 interaction pattern을 요구할 수 있다.
- Agent가 malicious actor에 의해 security measure를 우회하거나 spamming과 같은 activity에 악용될 수 있는 potential risk가 있다.
Future Work
- 더 많은 real-world application과 task를 포함하도록 ANDROIDWORLD를 확장할 계획이다.
- Agent의 robustness와 generalization capability를 향상시키기 위한 연구를
ABSTRACT
컴퓨터를 제어하여 인간의 작업을 실행하는 Autonomous agents는 인간의 생산성과 애플리케이션 접근성을 향상시킬 수 있습니다. 그러나 이 분야의 발전은 현실적이고 재현 가능한 벤치마크에 의해 주도될 것입니다. 우리는 20개의 실제 Android 앱에서 116개의 프로그래밍 방식 작업에 대한 reward 신호를 제공하는 완전한 기능을 갖춘 Android 환경인 ANDROIDWORLD를 소개합니다. 정적인 테스트 세트를 제공하는 기존의 대화형 환경과 달리, ANDROIDWORLD는 무제한 방식으로 자연어로 매개변수화되고 표현되는 작업을 동적으로 구성하여 훨씬 더 크고 현실적인 작업 모음에서 테스트할 수 있도록 합니다. 재현성을 보장하기 위해 각 작업에는 전용 초기화, 성공 확인 및 종료 로직이 포함되어 있어 장치의 시스템 상태를 수정하고 검사합니다. 우리는 ANDROIDWORLD를 테스트하기 위해 baseline agents를 실험하고 벤치마크에 대한 초기 결과를 제공합니다. 우리의 최상의 agent는 ANDROIDWORLD 작업의 30.6%를 완료할 수 있어 향후 작업을 위한 충분한 여지를 남겨둡니다. 또한, 우리는 인기 있는 데스크톱 웹 agent를 Android에서 작동하도록 조정했으며, 이는 모바일에서 덜 효과적인 것으로 나타나 보편적이고 크로스 플랫폼 agent를 달성하기 위해 향후 연구가 필요함을 시사합니다. 마지막으로, 우리는 또한 견고성 분석을 수행하여 작업 변형이 agent 성능에 큰 영향을 미칠 수 있음을 보여주며, 이러한 테스트 없이는 agent 성능 지표가 실제 과제를 완전히 반영하지 못할 수 있음을 보여줍니다.
1 INTRODUCTION
자연어 지침을 해석하고 컴퓨팅 장치를 작동하는 Autonomous agents는 반복적인 작업을 자동화하고, 인간의 지능을 증강하며, 복잡한 워크플로우를 수행함으로써 사용자에게 막대한 가치를 제공할 수 있습니다. 그러나 이러한 agent를 실제 환경에서 현실적으로 평가하는 것이 여전히 중요한 연구 과제로 남아 있습니다. Autonomous agents 구축에 대한 열정이 커지고 있음에도 불구하고, 평가를 위한 대부분의 기존 접근 방식은 각 단계에서 agent의 action을 이전에 수집된 인간의 demonstration과 비교합니다. 이러한 방식으로 성능을 측정하는 것은 실제 환경에서 온라인으로 작업을 수행할 때 agent가 작업을 해결하기 위해 여러 경로를 택할 수 있고, 환경이 비결정적으로 동작할 수 있으며, agent가 실수로부터 동적으로 학습하여 자신의 action을 수정할 수 있기 때문에 오해의 소지가 있습니다. 이러한 이유로, 작업 결과에 대해 reward를 줄 수 있는 현실적인 환경에서 agent의 온라인 평가가 평가를 위한 표준을 제공합니다. 다양한 환경에서 이러한 필요성을 해결하기 위한 새로운 연구가 등장하고 있지만, 수십억 명의 사용자가 사용하는 Android와 같은 모바일 플랫폼을 위한 포괄적인 솔루션은 없으며, 따라서 자동화 agent가 매우 생산적으로 사용될 수 있는 환경을 대표합니다.
우리는 이를 해결하기 위해 ANDROIDWORLD를 소개합니다.
ANDROIDWORLD는 그 핵심에서 현실적인 모바일 환경에서 agent가 수행하는 작업에 대한 reward 신호를 얻는 신뢰할 수 있는 수단을 제공합니다. reward 신호는 작업의 기능적 정확성, 즉 명시된 목표가 달성되었는지 여부를 나타내는 정량적 지표입니다. 예를 들어, "Jane에게 내가 거기에 있을 것이라고 확인하는 문자 메시지를 보내기"라는 작업의 경우, 긍정적인 reward는 관련 메시지가 전송되었음을 나타냅니다. 시뮬레이션된 환경이나 게임과 달리, 실제 앱과 웹사이트는 본질적으로 명시적인 reward 신호를 제공하지 않습니다. 인간 또는 LLM-based 심사위원이 작업 결과에 대한 reward를 제공하는 데 사용될 수 있지만, 이러한 접근 방식은 확장성이 떨어지거나 각각 완전히 신뢰할 수 없습니다. 또는 복잡한 워크플로우에 대한 자동화된 ground-truth reward를 제공하는 Autonomous agents를 위한 환경이 개발되었습니다. 우리는 이러한 환경에서 두 가지 문제를 발견했습니다. 첫째, 그들은 데스크톱 컴퓨팅 환경에 국한되어 실제 세계에서 모바일 장치의 편재성과 다양성을 고려할 때 가장 중요한 모바일 영역을 간과하고 있습니다. 둘째, 그들은 실제 다양성과 규모가 제한적입니다. 결정적으로, 조건과 작업 입력이 매우 다양한 실제 시나리오와 달리, 이러한 환경은 정적인 테스트 사양만 지원하므로 작업 매개변수가 달라질 때 reward 신호가 깨질 가능성이 있습니다.
우리는 모바일 환경에서 자동화 agent를 평가하기 위해 위의 기존 접근 방식의 한계를 해결하는 포괄적인 벤치마크를 개발하고자 합니다. ANDROIDWORLD는 총 116개의 프로그래밍 방식 작업에 대해 20개의 Android 앱에 걸쳐 ground truth reward를 제공함으로써 이를 수행합니다. 기존 테스트 환경(MiniWoB++는 주목할 만한 예외)과 달리, ANDROIDWORLD의 각 작업은 무작위로 생성된 매개변수를 사용하여 동적으로 인스턴스화되어 수백만 개의 고유한 작업 목표와 조건으로 agent에게 도전합니다. MiniWob++는 단순하고 합성적인 웹사이트로 구성되어 있지만, ANDROIDWORLD는 실제 Android 애플리케이션을 활용합니다. ANDROIDWORLD가 해결해야 할 주요 과제는 실제 애플리케이션을 사용하고 작업 매개변수를 동적으로 변경할 때 reward 신호가 견고하도록 보장하는 방법입니다. ANDROIDWORLD의 핵심 통찰력은 앱 자체가 데이터를 저장하고 업데이트하는 데 사용하는 것과 동일한 메커니즘을 사용하여 Android 운영 체제의 광범위하고 일관된 상태 관리 기능을 활용하는 것입니다.
ANDROIDWORLD는 포괄적인 벤치마크를 제공하는 것 외에도 2GB의 메모리와 8GB의 디스크 공간만 필요로 하는 경량이며 편의성을 염두에 두고 설계되었습니다. 이 벤치마크는 무료로 제공되는 Android Emulator에 연결하기 위해 Python 라이브러리 AndroidEnv를 활용하여 agent를 Android OS에 연결합니다. 116개의 Android 작업 외에도 MiniWoB++ 벤치마크를 통합하여 웹 작업으로 ANDROIDWORLD를 확장합니다.
벤치마크로서 ANDROIDWORLD의 유용성을 입증하기 위해, 우리는 multimodal agent인 M3A(Multimodal Autonomous Agent for Android)를 구축 및 릴리스하고 ANDROIDWORLD에 대한 state-of-the-art 결과를 수립합니다. 우리는 multimodal 및 text-only 입력을 모두 사용하여 M3A의 성능을 분석하고, multimodal perception이 어떤 경우에는 성능을 향상시킬 수 있지만 일반적으로 text-only 접근 방식을 능가하지는 않는다는 것을 관찰합니다. ANDROIDWORLD에서 M3A는 30.6%의 성공률을 달성하며, 이는 Android에 맞게 조정된 웹 agent의 성공률을 능가하지만 80.0%의 인간 성공률보다는 현저히 낮습니다. 견고한 UI 제어 agent를 구축하기 위해, 우리의 연구는 다양한 실제 조건에서 포괄적인 테스트를 포함하며, 주로 의도 매개변수의 변화에 의해 발생하는 상당한 성능 변동을 보여줍니다.
전반적으로, 우리는 (i) 새롭고 매우 다양하며 현실적인 모바일 UI 제어 agent 환경의 생성, (ii) state-of-the-art multimodal agent를 사용한 벤치마크 성능 수립, (iii) model 및 환경 모두의 고유한 확률성으로 인해 가변적인 작업 매개변수 및 조건에서 agent를 평가해야 할 필요성을 보여주는 신중한 분석과 같은 기여를 합니다.
1 INTRODUCTION 정리 노트 (AI 연구자 대상)
핵심: 현실적인 모바일 환경에서 Autonomous Agent 평가를 위한 새로운 벤치마크, ANDROIDWORLD 제시
기존 연구/환경의 한계 (이 논문이 주목한 점)
- Human demonstration에 의존적인 Agent Action 평가: 실제 환경에서는 Agent가 다양한 경로로 문제를 해결하고, 환경이 비결정적으로 동작하며, Agent가 실수로부터 학습하여 Action을 수정할 수 있음. 따라서 demonstration과의 비교는 오해의 소지가 있음.
- Reward Signal 부재: 실제 앱과 웹사이트는 게임과 달리 명시적인 Reward Signal을 제공하지 않음. Human 또는 LLM-based 심사위원은 확장성이 떨어지거나 신뢰도가 낮음.
- 데스크톱 환경에 국한: 기존 Autonomous Agent를 위한 환경은 모바일 영역을 간과. 모바일 장치의 편재성과 다양성을 고려할 때 이는 매우 중요한 한계.
- 제한적인 다양성과 규모: 실제 시나리오와 달리 정적인 테스트 사양만 지원하여, 매개변수 변화에 따른 Reward Signal 오류 가능성이 높음.
ANDROIDWORLD의 차별점 (이 논문이 주장하는 점)
- 실제 Android 앱 기반: 20개의 실제 Android 앱에서 116개의 프로그래밍 방식 작업을 포괄.
- 동적 Task Instance 생성: 무작위로 생성된 매개변수를 사용하여 수백만 개의 고유한 작업 목표와 조건으로 Agent에게 도전. (MiniWoB++와 유사하지만, 실제 앱을 사용한다는 차별점이 존재)
- 견고한 Reward Signal: Android 운영 체제의 상태 관리 기능을 활용하여 실제 앱 사용 및 동적 매개변수 변화에도 견고한 Reward Signal 보장.
- 경량 및 편의성: 2GB 메모리, 8GB 디스크 공간만 필요. AndroidEnv를 통해 Android Emulator와 연결.
- MiniWoB++ 통합: 웹 Task로 확장 가능.
실험 및 결과 (이 논문이 보여주는 점)
- M3A (Multimodal Autonomous Agent for Android) 개발: ANDROIDWORLD에서 SOTA 달성 (30.6% 성공률).
- Multimodal vs. Text-only 입력 비교: Multimodal Perception이 특정 상황에서 성능을 개선할 수 있지만, 일반적으로 Text-only 접근 방식을 능가하지는 않음.
- Human과의 성능 격차: M3A는 Android에 맞게 조정된 웹 Agent보다 성능이 우수하지만, Human (80.0%) 대비 여전히 큰 격차 존재.
- 다양한 조건에서의 Agent 성능 테스트: Intent parameter 변화에 따른 성능 변동 확인 - 실제 환경에서의 Agent 평가 중요성 강조
결론 (그래서 이 논문이 하고 싶은 말)
- ANDROIDWORLD는 현실적이고 다양한 모바일 환경에서 Agent를 평가하기 위한 새로운 벤치마크를 제공.
- 실험 결과를 통해 SOTA Multimodal Agent의 성능과 한계를 보여주고, 실제 환경에서의 Agent 평가 중요성을 강조.
- 모바일 환경에서 Autonomous Agent 연구 발전에 기여할 것으로 기대.
참고:
- 이 정리 노트는 논문의 1. INTRODUCTION 부분을 바탕으로 작성되었습니다.
- 논문의 핵심 내용을 빠르게 파악하고자 하는 AI 연구자를 대상으로 작성되었습니다.
- 당연하거나 일반적인 내용보다는 이 논문만의 핵심과 차별점에 중점을 두었습니다.


2 RELATED WORK
표 1은 Autonomous UI Agent를 위한 기존 평가 환경들을 비교합니다.
2.1 INTERACTIVE EVALUATION ENVIRONMENTS
Autonomous Agent의 효과적인 평가는 실제 시나리오를 모방하는 벤치마크뿐만 아니라 작업 완료 시 reward 신호를 제공하는 대화형 환경을 필요로 합니다. 많은 기존 벤치마크 환경이 웹 브라우징을 대상으로 합니다. MiniWoB++는 무제한 작업 가변성을 허용하는 매개변수화 가능한 작업이 있는 작고 합성적인 HTML 페이지로 구성됩니다. WebShop은 시뮬레이션된 전자 상거래 환경을 제공하는 반면, WebArena와 VisualWebArena는 최대 6개 도메인에 걸쳐 시뮬레이션된 웹 사이트로 구성됩니다. WorkArena는 엔터프라이즈 소프트웨어를 위한 29개의 작업으로 구성됩니다. GAIA는 라이브 웹 환경과 상호 작용하는 agent의 능력을 테스트하는 정적 dataset입니다. MMInA는 compositional 인터넷 작업을 위한 agent를 평가하도록 설계된 multihop 및 multimodal 벤치마크입니다.
운영 체제(OS)를 제어하는 generalist agent를 구축하기 위해, OSWorld, WindowsAgentArena 및 AgentStudio는 각각 9개, 11개, 9개의 앱에 걸쳐 데스크톱 컴퓨터 사용 사례 및 사용자 정의 실행 기반 평가 스크립트에 대한 테스트 모음을 제공합니다. 모바일 영역에서 기존 벤치마크는 제한적이며 실제 모바일 상호 작용의 다양성을 포착하지 못하고, 복잡성이 낮은 작업 또는 제한된 수의 애플리케이션을 포함합니다. B-MoCA의 평가는 정규 표현식을 사용하여 검증된 4개의 앱에 걸친 6개의 간단한 작업(예: "911에 전화하기", "비행기 모드 켜기")을 기반으로 합니다. Mobile-Env는 단일 앱(WikiHow)에 대한 13개의 작업 템플릿으로 제한된 작업 재현성을 제공합니다.
ANDROIDWORLD는 B-MoCA 및 Mobile-Env와 모바일 OS에 중점을 공유하지만, 작업 복잡성과 지원하는 상호 작용의 다양성 측면에서 OSWorld(및 OSWorld를 기반으로 하는 WindowsAgentArena)와 더 비슷합니다. ANDROIDWORLD는 agent 실행의 시작 상태를 동적으로 구성하고 작업 매개변수를 무제한 방식으로 변경하여 OSWorld의 접근 방식을 향상시켜 다양한 실제 조건에서 새로운 유형의 평가를 허용합니다.
다른 연구에서는 자동 평가를 사용할 수 없는 작업에 대해 인간 평가를 활용합니다. 마지막으로, 새로운 연구에서는 agent 평가를 새로운 환경으로 일반화하기 위해 multimodal model의 잠재력을 탐구하지만, 이 영역은 수동으로 코딩된 reward와 비슷한 정확도를 달성하기 위해 추가 연구가 필요합니다.
AndroidEnv는 웹 환경을 위한 Playwright 및 Selenium과 유사하게 Android Emulator와의 통신을 관리하는 메커니즘을 제공합니다. ANDROIDWORLD는 이 기능을 활용하지만 reward 시스템에서 다릅니다. AndroidEnv의 접근 방식은 애플리케이션 소스 코드를 수정하고 작업별 로깅 문을 구현해야 하므로 성공 기준을 쉽게 확인할 수 있는 게임 환경에 적합합니다. 이와 대조적으로, ANDROIDWORLD는 비침해적 reward 메커니즘을 구현하여 소스 코드를 사용할 수 없는 앱에 대한 벤치마크 모음을 만들고 여러 앱에서 검증 구성 요소를 재사용할 수 있습니다. 이 접근 방식을 통해 ANDROIDWORLD는 더 광범위한 실제 모바일 작업을 다룰 수 있습니다.
2.2 STATIC DATASETS FOR UI AUTOMATION
인간 상호 작용에서 파생된 dataset은 실제 agent 성능과 상관 관계가 있는 프록시 메트릭을 제공합니다. 모바일 플랫폼에서 AitW, AndroidControl, PixelHelp, AndroidArena, LlamaTouch, UGIF 및 MoTIF는 Android 앱 및 모바일 웹 사이트 전반에 걸친 demonstrations으로 구성되며, 화면은 종종 accessibility trees를 통해 표시됩니다. 대조적으로, 데스크톱 웹 환경은 일반적으로 웹 사이트 콘텐츠를 나타내는 데 DOM을 사용하며, Mind2Web, OmniAct 등이 다양한 데스크톱 웹 사이트에 걸쳐 있습니다. 모바일 기반 dataset은 스크롤과 같이 전체 action space에 쉽게 액세스할 수 있는 DOM 기반 데스크톱 상호 작용에서는 유용하지 않은 더 복잡한 action을 수반하는 경우가 많습니다. 또한 API-Bank, ToolTalk 및 ToolBench와 같은 API 중심 dataset은 API를 통해 컴퓨터 시스템을 조작하는 agent의 능력을 평가합니다.
2.3 INTERACTIVE AGENTS
오늘날의 foundation models 이전에, 사용자 인터페이스 운영 agent를 개발하는 전통적인 접근 방식은 주로 reinforcement learning과 behavioral cloning을 사용하여 마우스 클릭 및 키보드 타이핑과 같은 상호 작용을 시뮬레이션했습니다. 최근 연구는 in-context learning (ICL) 및 fine-tuning이 적용된 off-the-shelf foundation models을 활용하는 경향이 있으며, 모바일, 데스크톱 웹 및 데스크톱 OS에 적용됩니다. 최근 연구는 탐색, 자체 평가 및 재시도 기능을 활용하여 지속적인 학습 및 적응을 가능하게 하는 시스템 상태를 반영하는 agent를 탐구합니다.
핵심: 기존 Autonomous UI Agent 연구의 한계를 지적하고, ANDROIDWORLD가 이를 어떻게 극복하는지 강조
기존 연구 분류 및 한계 (이 논문이 주목한 점)
2.1 INTERACTIVE EVALUATION ENVIRONMENTS (대화형 평가 환경)
- 웹 브라우징 중심: MiniWoB++, WebShop, WebArena, VisualWebArena, WorkArena, GAIA, MMInA 등은 웹 환경에 집중.
- 한계: 모바일 환경을 충분히 다루지 못함.
- 데스크톱 OS 제어 연구: OSWorld, WindowsAgentArena, AgentStudio는 데스크톱 사용 사례에 대한 테스트 스위트 제공.
- 한계: 모바일 OS에 대한 연구는 부족. B-MoCA와 Mobile-Env는 단순 작업, 제한된 앱에 국한.
- 모바일 OS 연구의 한계: B-MoCA (6개 단순 작업, 4개 앱, 정규 표현식 검증), Mobile-Env (1개 앱, 13개 작업 템플릿)
- 한계: 작업 복잡도 낮음, 실제 모바일 상호작용의 다양성 반영 부족, 제한된 작업 재현성
- Human/LLM 평가: 자동 평가가 어려운 경우 활용.
- 한계: Human 평가는 확장성 부족, LLM 평가는 정확도 개선 필요.
- AndroidEnv: Android Emulator와의 통신 메커니즘 제공.
- 한계: Reward 시스템이 앱 소스 코드 수정 및 작업별 로깅 필요. 게임 환경에 적합하지만, 실제 앱 적용 어려움.
ANDROIDWORLD의 차별점 (이 논문이 주장하는 점)
- 모바일 OS에 중점: B-MoCA, Mobile-Env와 공통점.
- 작업 복잡도 및 다양성: OSWorld, WindowsAgentArena와 유사.
- 동적 시작 상태 구성 및 무제한 작업 매개변수 변경: OSWorld의 접근 방식 개선, 다양한 실제 조건에서의 평가 가능.
- 비침해적 Reward 메커니즘: 소스 코드가 없는 앱에도 적용 가능, 여러 앱에서 검증 구성 요소 재사용. 더 광범위한 실제 모바일 작업 포괄.
2.2 STATIC DATASETS FOR UI AUTOMATION (UI 자동화를 위한 정적 데이터셋)
- 모바일 플랫폼: AitW, AndroidControl, PixelHelp, AndroidArena, LlamaTouch, UGIF, MoTIF.
- 특징: Accessibility trees를 통한 화면 표현, 스크롤 등 복잡한 Action 포함.
- 데스크톱 웹: Mind2Web, OmniAct 등.
- 특징: DOM을 통한 웹 콘텐츠 표현.
- API 중심 데이터셋: API-Bank, ToolTalk, ToolBench.
- 특징: API를 통한 시스템 조작 능력 평가.
한계 (이 논문은 직접적인 한계를 언급하진 않지만, 함축적으로 추론 가능)
- 실제 Agent와의 괴리: 정적 Dataset은 실제 Agent의 동적 행동을 포착하기 어려움.
2.3 INTERACTIVE AGENTS (대화형 에이전트)
- 과거: Reinforcement Learning, Behavioral Cloning을 통한 마우스/키보드 입력 시뮬레이션.
- 최근: Off-the-shelf Foundation Models 활용, ICL 및 Fine-tuning 적용 (모바일, 데스크톱 웹, 데스크톱 OS).
- 최신 연구 동향: 시스템 상태를 반영하는 Agent, 탐색, 자체 평가, 재시도 기능을 통한 지속적 학습 및 적응.
결론 (그래서 이 논문이 하고 싶은 말)
- 기존 연구는 웹 환경 또는 데스크톱 OS에 편중, 모바일 환경에 대한 연구는 제한적이고 단순 작업에 국한.
- ANDROIDWORLD는 동적 환경 구성, 다양한 실제 작업, 비침해적 Reward 시스템을 통해 기존 연구의 한계를 극복하고 모바일 Autonomous Agent 연구 발전에 기여.
- 정적 Dataset과 달리, ANDROIDWORLD는 실제 Agent의 동적 행동을 평가할 수 있는 환경 제공.
3 ANDROIDWORLD
3.1 ANDROID FOR AUTONOMOUS AGENTS
Android는 autonomous agents 개발에 이상적인 환경입니다. 전 세계적으로 가장 널리 사용되는 OS이며 연구를 위해 매우 유연하면서도, agent가 작동할 수 있는 2백만 개 이상의 앱과 열린 웹 환경을 제공합니다. 에뮬레이션을 사용하면 Android 환경은 배포가 쉽고, 특수 하드웨어가 필요하지 않으며, 노트북에서 실행할 수 있습니다. Android Virtual Devices 또는 Emulator 이미지는 자체 포함(self-contained)되어 있고, 배포가 쉬우며, 구성 가능하므로 연구에 적합합니다. 데스크톱 환경과 비교할 때 Android와 같은 모바일 환경은 컴퓨터 제어 agent에 고유한 연구 과제를 제기합니다. 한편으로, 모바일 UI는 화면 크기가 작기 때문에 데스크톱 UI보다 더 단순한 경향이 있습니다. 반면에 모바일 장치의 action space는 더 복잡하고 작업을 완료하는 데 더 많은 action이 필요할 수 있습니다. 회전식(carousel) 위젯 탐색, 위젯 길게 누르기, 확대/축소를 위한 멀티 핑거 제스처 수행과 같이 UI를 완전히 작동하려면 정밀한 제스처가 필요합니다. Android는 OS이기 때문에 웹 브라우저 전용 환경에 비해 완전히 개방된 환경입니다. Android의 유연성은 action space에도 반영됩니다. UI action(클릭, 스크롤, 입력 등) 외에도 Android는 예를 들어 문자 메시지 전송과 같은 function-calling API를 제공하여 컴퓨터 제어 agent가 더 넓은 action space를 활용할 수 있도록 합니다.
3.2 THE OBSERVATION AND ACTION SPACE
ANDROIDWORLD는 agent가 Android에서 observation을 수신하고 action을 실행할 수 있는 interface를 제공합니다. Android와 agent 간의 상호 작용을 용이하게 하기 위해 AndroidEnv와 Android Device Bridge를 사용합니다. observation space는 전체 해상도 스크린샷과 접근성을 위해 개발된 UI 트리 표현으로 구성됩니다. action space는 인간이 사용하는 것과 유사하며 제스처(예: 탭, 스와이프), 입력 및 탐색 버튼(예: 홈으로 이동, 뒤로 가기)으로 구성됩니다. 이러한 자연스러운 action 외에도 ANDROIDWORLD는 agent가 목표를 달성하는 데 도움이 되도록 문자 메시지 보내기와 같은 제한된 function calling API 세트를 노출합니다. 부록 C는 observation 형식과 action space에 대한 자세한 내용을 제공합니다.
3.3 REPRODUCIBLE AND PARAMETERIZED TASKS
ANDROIDWORLD는 20개의 다양한 애플리케이션에 걸쳐 116개의 작업 모음으로 구성됩니다(자세한 내용은 부록 D 참조). 이러한 작업은 메모 작성, 일정 예약, 메시징을 통한 의사 소통, 시스템 유틸리티와의 상호 작용을 포함한 실용적인 일상 활동을 시뮬레이션합니다. 이 모음은 설정(Settings) 및 연락처(Contacts)와 같은 오픈 소스 앱과 내장 Android 시스템 앱으로 구성됩니다. 인간이 평가한 대로 작업은 난이도, 기간 및 범주가 다양합니다(그림 2).
실제 시나리오에서 높은 수준의 재현성을 달성하기 위해 ANDROIDWORLD는 여러 가지 방법으로 OS 및 앱 상태를 정밀하게 제어합니다. Android OS는 Android 13을 실행하는 Pixel 6 에뮬레이터로 고정되어 있습니다. 각 작업이 시작될 때 ANDROIDWORLD는 장치 타임스탬프를 2023년 10월 15일 15:34 UTC로 재설정하여 모든 실행에서 일관된 시간 종속 동작을 보장합니다. ANDROIDWORLD의 모든 애플리케이션은 완전한 기능을 갖추고 있으며 오픈 소스 앱과 Android에 포함된 OS 수준 앱으로 구성됩니다. 오픈 소스 앱의 경우 ANDROIDWORLD는 F-Droid에서 가져온 각 앱의 고정 버전을 설치하여 일정한 환경을 유지합니다. OS 수준 앱의 버전은 고정된 Android OS에 의해 결정됩니다. 재현 가능한 환경을 유지하기 위해 ANDROIDWORLD는 로그인/인증이 필요 없고 장치에 애플리케이션 데이터를 저장할 수 있는 앱을 활용합니다.
앱 및 운영 체제의 상태를 관리하는 것 외에도 ANDROIDWORLD는 작업 실행 중 상태를 정밀하게 정의하고 제어합니다. 각 작업에는 고유한 설정, reward 결정 로직 및 teardown 절차가 있어(자세한 내용은 부록 D.2 및 D.3 참조) 완전히 재현 가능한 작업 모음을 보장합니다.
자동 작업 매개변수화는 현재 벤치마크가 지원하는 것보다 훨씬 더 크고 현실적인 작업 모음에서 agent를 평가하기 위해 ANDROIDWORLD에 고유한 중요한 메커니즘입니다. 이를 달성하려면 새로운 작업 매개변수를 무작위로 생성하는 것보다 훨씬 더 많은 노력이 필요한데, 이는 서로 다른 작업 인스턴스화에서 유효한 상태로 유지되는 평가 로직을 개발하는 것과 관련되기 때문입니다. 재현성 외에도 AndroidWorld가 reward 메커니즘이 올바르게 작동하도록 보장하는 것은 바로 신중한 상태 관리를 통해서입니다. 제어된 임의 시드를 기반으로 각 작업 시작 시 무작위로 초기화되는 작업 매개변수는 초기 상태를 지정하고 reward 결과에 영향을 미칩니다. MiniWoB++와 유사하게 ANDROIDWORLD는 실질적으로 무한한 다양한 초기 조건 및 성공 기준 집합으로 구성됩니다.
이 접근 방식은 실제 배포에 필수적인 속성인 agent의 적응성에 대한 보다 세분화된 분석을 제공합니다. 에이전트 견고성 테스트 외에도 작업의 동적 구성은 온라인 학습 방법론, 특히 reinforcement learning의 사용을 지원합니다. 또한 별개의 train/test datasets 생성을 단순화하여 supervised learning 실험을 용이하게 합니다.
3.4 DURABLE REWARDS FROM SYSTEM STATE
ANDROIDWORLD는 주로 Android Debug Bridge(adb)를 사용하여 애플리케이션 상태를 관리함으로써 reward 신호를 제공하는 동시에 적절한 경우 UI 요소 검증을 통합합니다. adb를 사용하면 ANDROIDWORLD는 파일 시스템, 애플리케이션 데이터베이스 및 시스템 설정을 포함한 시스템 리소스에 대한 완전한 액세스 권한을 갖습니다. 시스템 상태 검사가 비실용적인 작업의 경우 ANDROIDWORLD는 화면의 UI 요소를 검사하여 작업 완료를 검증합니다. 시스템 상태에서 reward 신호를 결정하는 데는 몇 가지 이점이 있습니다. 애플리케이션 자체가 활용하는 것과 동일한 메커니즘을 사용하여 애플리케이션의 상태를 신속하게 검사하고 조작할 수 있기 때문에 매우 정확합니다. 기본 시스템 상태를 사용하는 것은 표면적인 UI 변경 사항을 일치시키는 것보다 훨씬 더 견고합니다. 또한 동일한 기본 캐싱 메커니즘을 사용하는 경향이 있는 서로 다른 앱에서 쉽게 재사용할 수 있습니다. 예를 들어, 특정 파일의 존재 여부를 확인하는 로직은 파일 관리, 메모 작성, 미디어 재생을 포함한 관련 없는 많은 애플리케이션에서 사용됩니다. 일반적인 패턴인 SQLite 데이터베이스를 활용하는 애플리케이션의 경우 ANDROIDWORLD는 새 행과 삭제된 행의 존재를 확인하는 evaluator를 구현합니다. 표 2는 ANDROIDWORLD의 validator 예시를 보여줍니다. 모음의 모든 작업에 대한 전체 목록은 표 6을 참조하십시오. 추가 구현 세부 정보가 포함된 선별된 예는 표 5를 참조하십시오.
3.5 TASK COMPOSABILITY
정확하고 재사용 가능한 평가를 용이하게 하는 것 외에도 시스템 상태에서 작업의 성공을 유추하면 기존 작업을 결합하여 composite tasks를 쉽게 만들 수 있습니다. 예를 들어, "세부 정보가 포함된 캘린더 이벤트를 만들고 세부 정보를 연락처에 문자로 보내기" 작업은 캘린더 이벤트를 만들고 문자 메시지를 보내는 두 가지 기존 작업을 결합하여 만들어졌으며, 이는 각 작업 초기화 및 성공 감지 로직이 독립적(hermetic)이기 때문에 가능합니다. Composite tasks는 복잡성으로 인해 더 어려운 경향이 있지만, hill climbing을 용이하게 하기 위해 하위 작업 완료를 기반으로 부분 reward를 제공합니다. 표 2의 마지막 두 행은 composite tasks에 대한 검증 코드를 보여줍니다.
3.6 INTEGRATING MINIWOB++
우리는 ANDROIDWORLD 프레임워크에서 MiniWoB++를 구현하고 이를 MobileMiniWoB++라고 명명합니다. 각 MobileMiniWoB++ 작업은 표준 ANDROIDWORLD interface를 사용하여 인스턴스화되고, TaskEval 기본 클래스에서 상속되며, initialize state 및 is successful과 같은 메서드를 포함합니다. MiniWoB++는 작업 구성 및 성공 감지를 위해 JavaScript를 활용하기 때문에 Python과 앱 간에 통신하기 위해 WebView 앱을 구축했습니다. 예를 들어, 각 작업의 is successful 메서드는 Android intent를 통해 WebView 앱에서 reward 값을 검색합니다.
MobileMiniWoB++는 원래 벤치마크와 비교하여 observation과 action 모두에서 수정을 도입합니다. 예를 들어, HTML5 요소는 date-picker와 같은 기본 Android UI 위젯으로 렌더링되어(그림 4 참조) 작업의 사실감을 향상시킵니다. MobileMiniWoB++는 Android 작업(accessibility tree 및 스크린샷)과 동일한 observation space를 사용합니다. 특히 원래 구현과 같이 DOM은 포함하지 않습니다. ANDROIDWORLD의 action space는 유지됩니다. 우리는 각 작업이 해결 가능한지 확인하기 위해 수동으로 검토하고 테스트합니다. Android에서 올바르게 렌더링되지 않거나, 터치 인터페이스와의 호환성 문제가 있거나, 에뮬레이터에서 문제가 되는 거의 실시간 상호 작용이 필요한 원래 작업 중 12개를 제외했습니다.
전반적으로 ANDROIDWORLD는 92개의 MiniWoB++ 작업을 지원합니다. 자세한 내용은 부록 C.3을 참조하십시오.
핵심: Autonomous Agent 개발 및 평가를 위한 현실적이고 재현 가능하며 확장 가능한 Android 환경, ANDROIDWORLD 소개
3.1 ANDROID FOR AUTONOMOUS AGENTS (왜 Android인가?)
- 가장 널리 사용되는 OS: 전 세계 수십억 명이 사용.
- 연구에 적합한 유연성: 2백만 개 이상의 앱, 열린 웹 환경 제공.
- 쉬운 배포: 에뮬레이션 사용, 특수 하드웨어 불필요, 노트북에서 실행 가능.
- 자체 포함, 쉬운 배포, 구성 가능: Android Virtual Devices (Emulator 이미지)의 장점.
- 모바일 환경의 고유한 도전 과제:
- 단순한 UI: 데스크톱 대비 작은 화면 크기로 인해.
- 복잡한 Action Space: 정밀한 제스처 필요 (회전식 위젯, 길게 누르기, 멀티 핑거 제스처 등).
- 완전히 개방된 환경: OS로서 웹 브라우저 전용 환경과 차별화.
- Function-calling API: UI Action 외에도 문자 메시지 전송 등 더 넓은 Action Space 활용 가능.
3.2 THE OBSERVATION AND ACTION SPACE (Agent가 보고 행동하는 방식)
- AndroidEnv & Android Device Bridge 활용: Agent와 Android 간 상호 작용 용이.
- Observation Space: 전체 해상도 스크린샷 + UI 트리 표현 (접근성 목적).
- Action Space: 제스처 (탭, 스와이프), 입력, 탐색 버튼 (홈, 뒤로 가기) + 제한된 Function-calling API (문자 메시지 전송 등).
3.3 REPRODUCIBLE AND PARAMETERIZED TASKS (재현 가능하고 매개변수화된 Task)
- 116개 Task, 20개 앱: 메모, 일정, 메시징, 시스템 유틸리티 등 일상 활동 시뮬레이션.
- 다양한 난이도, 기간, 범주: Human 평가 기준 (그림 2).
- 높은 재현성:
- 고정된 OS: Pixel 6 에뮬레이터, Android 13.
- 고정된 타임스탬프: 2023년 10월 15일 15:34 UTC.
- 고정된 앱 버전: F-Droid에서 가져온 오픈 소스 앱, OS에 포함된 OS 수준 앱.
- 로그인/인증 불필요, 장치에 데이터 저장하는 앱 활용.
- 정밀한 Task 실행 제어: 각 Task는 고유한 설정, Reward 결정 로직, Teardown 절차 보유.
- 자동 Task 매개변수화 (ANDROIDWORLD의 핵심):
- 평가 로직 개발: 다양한 Task 인스턴스화에서 유효하도록 설계.
- 신중한 상태 관리: Reward 메커니즘의 올바른 작동 보장.
- 무작위 Task 매개변수: 제어된 임의 시드를 기반으로 초기 상태 및 Reward에 영향.
- 무한에 가까운 다양한 초기 조건 및 성공 기준: MiniWoB++와 유사.
- Agent 적응성 분석: 실제 배포에 필수적인 속성.
- Online Learning 및 Supervised Learning 지원: Reinforcement Learning, Train/Test Dataset 생성 용이.
3.4 DURABLE REWARDS FROM SYSTEM STATE (시스템 상태를 활용한 견고한 Reward)
- Android Debug Bridge (adb) 활용: 애플리케이션 상태 관리, 시스템 리소스 (파일 시스템, 앱 데이터베이스, 시스템 설정) 접근.
- UI 요소 검증: 시스템 상태 검사가 비실용적인 경우.
- 장점:
- 높은 정확도: 앱 자체의 메커니즘을 사용하여 상태 검사 및 조작.
- 견고함: 표면적인 UI 변경보다 기본 시스템 상태 사용.
- 쉬운 재사용: 서로 다른 앱에서 동일한 캐싱 메커니즘 활용. (예: 파일 존재 여부 확인 로직)
- SQLite 데이터베이스 지원: 새 행 및 삭제된 행 존재 확인 evaluator 구현.
3.5 TASK COMPOSABILITY (Task 구성)
- 시스템 상태 기반 Task 성공 유추: 기존 Task 결합하여 Composite Task 생성 용이.
- 예시: "캘린더 이벤트 생성 + 세부 정보 문자 전송" = "캘린더 이벤트 생성" + "문자 메시지 전송"
- 독립적인 Task 초기화 및 성공 감지 로직: Composite Task 생성 가능.
- 더 어려운 Task: 부분 Reward 제공하여 Hill Climbing 지원.
3.6 INTEGRATING MINIWOB++ (MiniWoB++ 통합)
- MobileMiniWoB++: ANDROIDWORLD 프레임워크에 MiniWoB++ 구현.
- 표준 ANDROIDWORLD Interface 사용: TaskEval 기본 클래스 상속, initialize_state, is_successful 메서드 포함.
- WebView 앱: JavaScript 기반 Task 구성 및 성공 감지를 위해 Python과 앱 간 통신.
- Observation 및 Action 수정:
- HTML5 요소: 기본 Android UI 위젯으로 렌더링 (사실감 향상).
- Observation Space: Accessibility tree + 스크린샷 (DOM 미포함).
- Action Space: ANDROIDWORLD와 동일.
- 수동 Task 검토 및 테스트: 해결 가능성 확인.
- 92개 MiniWoB++ Task 지원: 렌더링 오류, 호환성 문제, 실시간 상호 작용 문제 있는 Task 제외.
결론 (그래서 이 논문이 하고 싶은 말)
- ANDROIDWORLD는 현실적이고 재현 가능하며 확장 가능한 Android 환경을 제공하여 Autonomous Agent 개발 및 평가를 위한 새로운 표준 제시.
- 특히, 자동 Task 매개변수화와 시스템 상태 기반 Reward 시스템은 Agent의 적응성과 견고성을 평가하는 데 중요한 역할.
- MiniWoB++ 통합을 통해 웹 Task까지 포괄하는 종합적인 벤치마크 제공.
참고:
- 이 정리 노트는 논문의 3. ANDROIDWORLD 부분을 바탕으로 작성되었습니다.
- 논문의 핵심 내용을 빠르게 파악하고자 하는 AI 연구자를 대상으로 작성되었습니다.
- 당연하거나 일반적인 내용보다는 이 논문만의 핵심과 차별점에 중점을 두었습니다.
