AI바라기의 인공지능
agent : 논문리뷰 : Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction 본문
agent : 논문리뷰 : Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction
AI바라기 2025. 1. 6. 14:24논문 정리 노트: Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction
Purpose of the Paper
기존 Graphical User Interface (GUI) interaction 평가를 위한 benchmarks는 static datasets를 활용하거나, agent의 action sequence를 단순 비교하거나, LLM 또는 사람의 주관적 판단에 의존하는 등, trustworthy 하고 reproducible 한 evaluations를 제공하는데 한계가 있었습니다. 특히, real-world usage를 반영하기 위한 intermediate instructions와 rewards를 제공하지 못한다는 점에서 한계가 있었습니다.
이 논문은 이러한 한계를 극복하고, Android 모바일 환경에서 GUI benchmarks를 생성하기 위한 종합적인 toolkit인 Mobile-Env를 제안하여, LLM 및 VLM 기반 GUI agent의 reliable 하고 reproducible 한 evaluation을 가능하게 하는 데 그 목적이 있습니다. Mobile-Env는 isolated and controllable setting을 제공하며, intermediate instructions와 rewards를 수용하여 real-world usage를 보다 자연스럽게 반영할 수 있습니다.
Key Contributions
- Mobile-Env platform 개발: Android 모바일 환경에서 GUI benchmarks를 구축하기 위한 comprehensive toolkit을 제공합니다.
- Isolated and controllable environments를 제공하여 reliable 하고 reproducible 한 evaluation을 가능하게 합니다.
- Intermediate rewards를 지원하여 reinforcement learning과 같은 interactive learning methods를 효과적으로 활용할 수 있습니다.
- Intermediate instructions를 통해 conversational agents의 evaluation을 지원합니다.
- 두 가지 새로운 task sets 제안:
- Open world set: 다양한 real-world apps를 활용하여 74개의 task로 구성, agents의 raw performance를 평가합니다.
- Fixed world set (WikiHow): 13개의 templates에서 생성된 150개의 task로 구성, dynamic online contents를 fixing하여 absolutely controllable and reproducible evaluation을 가능하게 합니다.
- LLM 및 VLM agents에 대한 comprehensive evaluations 수행: Open world set과 fixed world set을 사용하여 advanced models (e.g., GPT-4V, LLaMA-3)의 performance를 평가하고, current models의 limitations를 분석합니다.
Novelty
- 최초로 intermediate instructions와 rewards를 모두 지원하는 interactive GUI environment를 제안합니다. 이를 통해 real-world usage를 보다 잘 반영하고, conversational agents와 reinforcement learning을 사용하는 agents의 evaluation을 가능하게 합니다.
- Replay server와 app certificate unpinning 기술을 활용하여 dynamic online contents를 fixing함으로써 absolutely controllable and reproducible evaluation을 위한 fixed world set (WikiHow)을 구축했습니다.
- 다양한 system signals (screen text, VH, system log, RHU)를 결합하여 reliable 하고 flexible 한 task state estimation을 수행합니다. Listener-style evaluator를 통해 intermediate rewards와 instructions를 agent의 execution에 영향을 주지 않고 제공합니다.
Experimental Highlights
- Advanced models (e.g., GPT-4V, LLaMA-3)도 simple tasks에서 어려움을 겪는다는 것을 실험적으로 입증했습니다.
- Open world set에서 LLaMA-3-70B는 text GPT-4와 comparable 한 performance (SR 40.54% vs. 43.24%)를 보였지만, VLMs는 significantly low performance (SR 2.70% for Claude-3-Opus, 3.04% for GPT-4V)를 보였습니다.
- Fixed world set (WikiHow)에서도 text LLMs의 highest success rate는 47.33%에 불과했습니다.
- Current models의 limitations를 분석했습니다.
- Common-sense GUI understanding 부족: icons, buttons, menus와 같은 visual elements를 이해하는 데 어려움을 겪습니다.
- Output format following 능력 부족: redundant "new line" characters를 output하거나 actual actions 없이 thoughts만 output하는 경우가 많습니다.
- QA tasks에서 HTML markups 사이의 text contents를 추출하는 데 어려움을 겪습니다.
- In-page tasks에서 long-range scrolling이나 dropdown menus를 effectively 다루는 데 어려움을 겪습니다.
- Multi-turn prompting이 single-turn prompting보다 input-output logic을 learning하는 데 clearer 하다는 것을 발견했습니다.
- VLMs는 GUI screenshots에서 accurately ground하는 데 어려움을 겪습니다.
Limitations and Future Work
- Data contamination 가능성: WikiHow가 LLM pretraining에 사용되었을 가능성이 있지만, WikiHow task set의 data formats (text-based, visual-based)은 pretraining에 사용된 data formats과 다르고, problem formulation도 pretraining tasks와 다릅니다. QA tasks의 경우 LLM이 underlying article을 refer하는 것이 아니라 parametric memory에 의존하여 answer를 generate할 latent risk가 존재합니다.
- VLM-based agents의 performance가 SoM preprocessor에 의해 영향을 받을 수 있습니다.
- 더 많은 environments와 task sets의 construction이 필요합니다.
Future Work
- Contamination detection method를 develop하여 data contamination 문제를 해결할 것입니다.
- Mobile-Env platform을 continuously maintain하고 develop할 것입니다.
- Community contribution을 encourage하여 diverse environments와 task sets를 build할 것입니다.
이 논문은 LLM/VLM 기반 GUI agent의 evaluation을 위한 qualified benchmark를 구축하는 데 중요한 contribution을 제공하며, current models의 limitations를 clearly 보여주고 future research directions를 제시합니다.
Abstract
Graphical User Interface (GUI)는 디지털 세계와의 효율적인 장치 제어와 복잡한 작업 수행을 가능하게 하는 인간 상호 작용의 핵심입니다. 최근 Large Language Models (LLMs)와 Vision Language Models (VLMs)의 발전은 고급 GUI agent를 만들 수 있는 기회를 제공합니다. 이러한 agent의 효율성을 보장하기 위해서는 신뢰할 수 있고 재현 가능한 평가를 제공하는 검증된 벤치마크가 시급합니다. 현재의 벤치마크는 이러한 과제를 해결하지 못하는 경우가 많습니다. 이 문제를 해결하기 위해, 우리는 Android 모바일 환경에서 GUI 벤치마크를 생성하기 위해 맞춤화된 종합 툴킷인 Mobile-Env를 소개합니다. Mobile-Env는 신뢰할 수 있는 평가를 위해 격리되고 제어 가능한 환경을 제공하고 실제 사용을 보다 자연스럽게 반영하기 위해 중간 지침과 보상을 수용합니다. Mobile-Env를 활용하여, 우리는 다양한 실제 앱에 걸친 open-world task 세트와 완전히 제어 가능하고 재현 가능한 평가를 위해 방대한 양의 동적 온라인 콘텐츠를 캡처하는 고정된 world 세트인 WikiHow를 수집합니다. 우리는 이러한 벤치마크를 사용하여 LLM agent에 대한 포괄적인 평가를 수행합니다. 우리의 연구 결과에 따르면, 고급 models (예 : GPT-4V 및 LLaMA-3)조차도 인간에게는 비교적 단순한 작업에 어려움을 겪는 것으로 나타났습니다. 이는 현재 models의 중대한 격차를 강조하고, 더욱 유능한 foundation models와 더욱 효과적인 GUI agent framework 개발의 중요성을 강조합니다.
1 Introduction
Graphical User Interface (GUI)는 휴대폰, 개인용 컴퓨터, 웹 페이지와 같은 디지털 장치와 상호 작용하는 주요 방법으로 사용됩니다. 사람들은 web browsing, 기사 읽기, 티켓 예약, 파일 수정과 같은 방대한 작업을 GUI를 통해 수행합니다. 이러한 작업의 대부분은 시간 소모적이고 반복적입니다. 이러한 GUI 작업을 위해 강력한 autonomous agent를 사용함으로써 작업량을 크게 줄이고 생산성을 높일 수 있습니다. 최근 Large Language Models (LLMs)와 Vision Language Models (VLMs)는 자연어와 구조화된 텍스트뿐만 아니라 multimodal contents를 이해하는 데 있어 인상적인 기능을 보여줍니다. 그들은 복잡한 multimodal structural GUI 환경과 상호 작용할 수 있는 큰 잠재력을 보여줍니다. 이러한 foundation models의 발전은 범용 GUI agent를 개발할 수 있는 유망한 기회를 제공합니다. 결과적으로, 광범위한 LLM/VLM-based agent의 기능을 공정하게 평가하기 위해서는 제어 가능한 방식으로 agent를 철저하고 신뢰할 수 있게 평가할 수 있는 GUI 상호 작용을 위한 벤치마크를 구축하는 것이 필수적입니다.
현재 GUI 상호 작용을 위한 벤치마크의 상당 부분은 static datasets입니다. 이러한 datasets는 고정된 ground-truth annotations를 제공하고 action sequence 매칭을 통해 model의 성능을 평가합니다. 따라서 작업을 완료하는 동안 다른 경로나 우회 경로가 있는 trajectories는 실수로 실패로 표시되어 잘못된 평가로 이어집니다. AndroidArena와 같은 interactive 벤치마크는 static datasets와 마찬가지로 action sequences의 유사성을 채택하므로 agent 성능을 적절하게 평가하지 못합니다. LLM-based GUI agent에 대한 최근 연구는 LLMs 또는 인간의 판단을 통해 평가를 수행합니다. 그러나 그들의 실험은 어떠한 격리나 제어 없이 완전히 개방된 환경에서 수행되므로 결과를 재현할 수 없고 비교할 수 없습니다.
또한 기존 interactive 환경에는 두 가지 중요한 기능인 중간 보상과 중간 지침이 없습니다. Interactive 환경은 Reinforcement Learning (RL)과 같은 더 많은 agent 설계 방법을 지원해야 합니다. 이러한 경우, 중간 보상은 복잡한 관찰과 광범위한 action space가 있는 GUI 환경에서 agent가 효율적으로 학습하는 데 필수적입니다. 또한 사용자가 모든 작업 세부 사항을 포함하는 포괄적인 명령을 한 번에 제공하는 것은 비현실적입니다. 따라서 새롭게 접하는 화면의 정보를 기반으로 작업 전반에 걸쳐 중간 지침이 제공되어야 하며, 이를 통해 보다 자연스럽고 실질적인 사용 사례를 만들 수 있습니다.
일반적으로 GUI 상호 작용을 위한 검증된 평가 벤치마크는 다음과 같은 몇 가지 특징을 가질 것으로 예상됩니다.
- 여러 개의 실행 가능한 trajectories가 존재할 수 있으므로 실행 trajectories가 아닌 실행 결과를 평가하는 신뢰할 수 있는 평가,
- agent의 잠재적인 위험한 행동이 실제 환경을 오염시키는 것을 방지하고 재현 가능한 평가와 공정한 비교를 보장하는 격리되고 제어 가능한 환경,
- interactive 학습 방법을 더 잘 지원하기 위한 중간 보상,
- 더 자연스럽고 현실적인 사용 사례를 지원하기 위한 중간 지침.
GUI 상호 작용을 위한 검증된 평가 벤치마크를 구축하기 위해, 우리는 GUI 벤치마크 구축을 위한 포괄적인 툴킷으로 Mobile-Env 플랫폼을 개발했습니다. 모바일이 소비자 전자 기기 중 가장 많은 시장 점유율을 차지하고 있다는 점에 주목하여, 우리는 Android™ 모바일 플랫폼을 기반으로 Mobile-Env를 구축합니다. Mobile-Env는 격리된 interactive 환경을 제공하고 가장 광범위한 작업을 신뢰할 수 있게 평가할 수 있는 유연한 framework를 설계합니다. 또한 Mobile-Env의 중간 보상은 효율적인 reinforcement learning을 가능하게 하고 중간 지침은 conversational agent의 개발을 용이하게 합니다. Mobile-Env의 도움으로 검증된 평가 벤치마크를 훨씬 쉽게 구축할 수 있습니다.
Mobile-Env를 기반으로, 우리는 여러 실제 앱에서 74개의 작업을 설계합니다. 우리는 또한 방대한 규모의 동적 온라인 콘텐츠를 고정하여 13개의 템플릿에서 생성된 150개의 작업을 포함하는 작업 세트인 WikiHow를 구축하여 절대적으로 제어 가능하고 재현 가능한 평가를 달성합니다. 현재의 진보된 LLMs와 VLMs를 사용하여 설계된 이러한 작업에 대한 광범위한 실험이 수행됩니다. 가장 진보된 models조차도 인간에게는 비교적 단순한 작업에 어려움을 겪는 것으로 나타났습니다. 이러한 결과는 신뢰할 수 있고 효과적인 GUI assistant로서 현재 LLMs와 VLMs의 결함을 드러내며, 더욱 유능한 foundation models와 knowledge-augmented agent 개발의 필요성을 강조합니다.
1. Introduction 핵심 정리 노트 (AI 연구자 대상)
이 논문의 핵심은 "GUI agent 평가를 위한 제대로 된 벤치마크가 없다!"는 문제 의식에서 출발합니다. 기존의 static datasets나 제어되지 않는 환경에서의 평가는 한계가 있고, LLMs/VLMs 기반의 GUI agent의 잠재력을 제대로 평가하기 위해선 신뢰성 있고, 재현 가능하며, 실제 사용 환경을 반영하는 새로운 벤치마크가 필요하다는 것이죠.
핵심 아이디어 & 차별점
- Mobile-Env: Android 기반의 격리되고 제어 가능한 GUI 벤치마크 툴킷을 제안합니다.
- 단순히 action sequence matching을 넘어 실제 실행 결과를 기반으로 평가합니다. (e.g., 웹 페이지 로딩 완료 여부, 앱 실행 여부 등)
- 중간 보상(intermediate rewards) 및 중간 지침(intermediate instructions) 기능을 제공하여, RL 기반 agent 학습이나 conversational agent 개발을 지원하고, 실제 사용 환경을 더 잘 반영할 수 있습니다.
- 격리된 환경을 통해 agent의 잠재적 위험 행동을 방지하고, 재현 가능한 평가 및 공정한 비교를 보장합니다.
- 실제 앱 기반 74개 task와 WikiHow 기반 150개 task로 구성된 벤치마크를 구축합니다.
- 특히 WikiHow task set은 동적 온라인 콘텐츠를 고정하여 완벽하게 제어 가능하고 재현 가능한 평가를 제공합니다.
기존 연구와의 차이점
- Static datasets 기반 벤치마크: 다른 경로나 우회 경로를 허용하지 않아 잘못된 평가를 야기할 수 있습니다.
- 제어되지 않는 환경에서의 평가: 결과를 재현할 수 없고, 공정한 비교가 불가능합니다.
- 기존 interactive 환경: 중간 보상 및 중간 지침 기능이 없어, RL 학습이나 실제 사용 환경 반영에 한계가 있습니다.
주목할 만한 실험 결과
- GPT-4V, LLaMA-3와 같은 최신 models 조차도 인간에게는 쉬운 task에서 어려움을 겪는다는 것을 보여줍니다.
- 이는 현재 LLMs/VLMs가 안정적이고 효과적인 GUI assistant로서 아직 부족하다는 것을 의미하며, 더 발전된 foundation models와 knowledge-augmented agent의 필요성을 강조합니다.
결론적으로, 이 논문은 Mobile-Env라는 새로운 벤치마크 툴킷을 통해 LLMs/VLMs 기반 GUI agent 연구에 중요한 기반을 제공하고, 앞으로의 연구 방향을 제시하고 있다고 볼 수 있습니다.

Figure 2: 점진적 지침(Progressive instructions) vs. 포괄적 지침(Comprehensive instruction). 모든 세부 사항을 다루는 단일 포괄적 지침은 일반적으로 장황하고 부자연스럽습니다. 실제 사용 사례에서 사용자의 의도는 처음에는 완전히 명확하지 않을 수 있지만 실행 과정에서 더 명확해집니다.
2 Background
2.1 Problem formulation
Fig. 1에서 볼 수 있듯이, GUI agent A는 인간 사용자의 지침을 받아 GUI 시스템(즉, 그림의 Android emulator)에서 작업을 완료합니다. "인간 사용자"와 GUI 시스템은 agent가 관찰을 통해 추론해야 하는 숨겨진 의도/내부 상태 st를 유지하는 환경으로 간주됩니다. 각 단계에서 agent가 수신하는 관찰 ot는 GUI 시스템의 화면 정보와 "인간 사용자"의 선택적 중간 지침으로 구성됩니다. 그런 다음 GUI 시스템을 조작하거나 "인간 사용자"에게 응답하기 위해 action at를 예측하여 상태 전환(st, at, st+1)을 일으킵니다. 선택적 보상은 전환을 평가하기 위해 제공될 수 있으며 agent를 개선하는 데 사용될 수 있습니다. 이러한 방식으로 관찰 수신과 action 수행이 번갈아 반복되어 작업이 성공 또는 실패할 때까지 계속됩니다.
2.2 Qualified benchmarks
이 하위 섹션에서는 기존 GUI 벤치마크의 현황과 검증된 벤치마크의 제안된 기능에 대해 논의합니다. 전체 비교는 Tab. 1에서 볼 수 있습니다.
- Reliable evaluation 기존 GUI interaction 벤치마크는 agent의 실행을 평가하는 데 많은 노력을 기울입니다. 대부분의 static benchmarks는 예측된 actions를 참조 action trajectory와 비교하여 단계별 평가를 수행합니다. 그러나 특정 task 목표에는 일반적으로 여러 가지 실행 가능한 솔루션이 있습니다. agent는 또한 task 완료로 직접 이어지지 않는 탐색을 수행할 수 있습니다. 신뢰할 수 있는 평가를 수행하기 위해 벤치마크는 실행 프로세스가 아닌 실행 결과를 검사해야 합니다. 구체적으로, task 목표는 항상 숨겨진 상태의 하위 집합으로 볼 수 있습니다. agent가 이러한 상태에 도달하는 한, 실행은 성공적인 것으로 간주됩니다. 숨겨진 최종 상태는 일련의 시스템 signals를 통해 추정되어야 합니다. 일반적으로 단일 유형의 signal은 모든 상태 전환을 포괄할 수 없습니다. 예를 들어, 양식 제출과 같은 몇 가지 변경 사항은 GUI에만 반영될 수 있지만 Toyama et al.에서 채택한 시스템 로그나 Rawles et al.에서 채택한 파일 및 database에는 반영되지 않습니다. 따라서 최종 상태를 종합적으로 평가하기 위해 다양한 시스템 signals가 활용되어야 합니다. Mobile-Env는 screen text, View Hierarchy (VH), system logs, agent의 Response to Human User (RHU)를 포함한 광범위한 signal 유형을 활용합니다. 또한 Mobile-Env는 여러 signals를 결합하는 유연한 메커니즘을 설계하여 신뢰할 수 있고 유연한 평가를 달성합니다.
- Isolated & controllable environments 검증된 벤치마크가 없기 때문에 LLM-based GUI agent에 대한 최근 연구는 어떠한 격리나 제어 없이 완전히 개방된 환경에서 실제 장치로 평가를 수행합니다. 이 접근 방식은 안전 위험, 재현 불가능한 평가, 불공정한 비교와 같은 여러 가지 문제를 야기합니다. 안전 위험은 환경 격리가 없으면 agent가 실수로 실제 장치나 데이터 리소스를 손상시킬 수 있다는 사실을 말합니다. 반면에 많은 앱은 시간과 장소에 따라 달라지는 온라인 콘텐츠에 의존합니다. 따라서 이러한 앱을 기반으로 구축된 환경은 재현 불가능한 평가를 초래합니다. 한편, 이러한 요소는 환경에서 task의 실제 난이도에도 영향을 미치고 agent 간의 불공정한 비교를 초래합니다. 예를 들어, agent는 미국에서는 Panda Express를 쉽게 찾을 수 있지만 중국에서는 그렇지 않을 수 있습니다. 결과적으로 재현 가능하고 공정한 평가를 설정하는 유일한 방법은 동적 온라인 콘텐츠를 고정하고 평가 중에 재생하여 진정으로 제어 가능한 환경을 구축하는 것입니다. 모바일 앱에 대한 공통 데이터 재생을 가능하게 하기 위해, 우리는 재생 서버 사용 및 앱 인증서 고정 해제를 위한 일련의 솔루션을 리버스 엔지니어링하고 개발했습니다.
- Intermediate rewards Reinforcement Learning (RL)은 지능형 agent를 구축하는 데 큰 잠재력을 가진 방법입니다. 광범위한 연구가 RL을 활용하여 디지털 agent를 구축하려고 노력하고 있습니다. 그러나 RL의 일반적인 과제는 보상 희소성이며, 이는 GUI 환경에서 점차 복잡해지는 관찰과 광범위한 action space로 인해 악화됩니다. 이 문제를 완화하는 한 가지 방법은 중간 보상을 도입하는 것입니다. Mobile-Env는 listener-style evaluator를 설계하고 GUI interaction task에 대해 안전하게 중간 보상을 생성합니다.
- Intermediate instructions Fig. 2에서 볼 수 있듯이 모든 세부 사항을 다루는 포괄적인 task 지침은 일반적으로 길고 장황합니다. 실제 사용자가 처음에 모든 가변 요소를 고려하는 것은 비현실적입니다. 현실적인 task 지침은 점진적이어야 합니다. 처음에는 사용자의 기본 의도를 개략적으로 설명하는 간단한 지침이 있습니다. task가 진행되고 새로운 정보가 나타남에 따라 사용자의 의도가 더 명확해지고 더 많은 세부 정보가 제공됩니다. 또한 중간 지침을 지원하는 것은 conversational GUI agents를 평가하고 agent와 사용자가 task 세부 정보 및 진행 상황에 대해 소통할 수 있도록 하는 데 중요합니다. 우리가 알기로, Mobile-Env는 중간 지침을 지원하는 최초의 interactive 환경으로, conversational GUI agents의 평가를 허용합니다.
이 섹션에서는 GUI agent 평가 벤치마크가 가져야 할 필수 요건들을 제시하고, Mobile-Env가 이를 어떻게 충족하는지를 중점적으로 설명합니다.
2.1 Problem Formulation (문제 정의)
- GUI agent는 사용자 지시를 받아 GUI system(e.g., Android emulator)에서 작업을 수행합니다.
- "사용자"와 "GUI system"은 agent가 관찰을 통해 추론해야 할 hidden state를 가진 환경으로 간주됩니다.
- Agent는 매 스텝 screen information과 선택적으로 intermediate instruction을 받고, action을 예측하여 GUI system을 조작하거나 사용자에게 응답합니다.
- State transition (st, at, st+1)이 발생하고, 선택적으로 reward가 주어져 agent를 개선할 수 있습니다.
2.2 Qualified Benchmarks (검증된 벤치마크의 조건)
이 논문은 기존 GUI 벤치마크의 한계를 지적하며, Mobile-Env가 제안하는 "Qualified Benchmark" 가 가져야할 4가지 핵심 요건을 제시합니다.
- Reliable Evaluation (신뢰할 수 있는 평가):
- 문제점: 기존 static benchmarks는 action sequence를 단순 비교하여 평가하기 때문에, 다양한 경로를 허용하지 않아 잘못된 평가를 야기할 수 있습니다.
- Mobile-Env: 실행 결과(execution result) 를 기반으로 평가합니다. 즉, task goal 달성 여부(hidden state의 특정 subset 도달 여부)를 다양한 system signals (screen text, VH, system logs, RHU)를 종합하여 판단합니다.
- Isolated & Controllable Environments (격리되고 제어 가능한 환경):
- 문제점: 제어되지 않는 환경에서의 평가는 안전 문제, 재현 불가능성, 불공정한 비교를 야기합니다. (e.g., 시간에 따라 변하는 온라인 콘텐츠, 지역별 서비스 차이)
- Mobile-Env: 동적 온라인 콘텐츠를 고정하고, 평가 중 재생(replay) 하여 진정으로 제어 가능한 환경을 구축합니다. 이를 위해 replay server 사용 및 앱 인증서 고정 해제를 위한 솔루션을 개발했습니다.
- Intermediate Rewards (중간 보상):
- 문제점: GUI 환경의 복잡한 관찰과 광범위한 action space는 RL의 reward sparsity 문제를 심화시킵니다.
- Mobile-Env: Listener-style evaluator를 통해 intermediate rewards를 제공하여 RL 기반 agent 학습을 지원합니다.
- Intermediate Instructions (중간 지침):
- 문제점: 한 번에 모든 세부 사항을 포함한 지침은 비현실적입니다. 실제로는 task가 진행됨에 따라 지침이 구체화됩니다.
- Mobile-Env: 최초로 intermediate instructions를 지원하여, conversational GUI agent 평가를 가능하게 합니다.
결론적으로, 이 섹션은 "제대로 된 GUI agent 평가를 위해서는 어떤 벤치마크가 필요하며, Mobile-Env는 이를 어떻게 구현했는가"를 명확히 보여줍니다. 특히, 실행 결과 기반 평가, 격리되고 제어 가능한 환경, 중간 보상, 중간 지침 이라는 4가지 핵심 요건은 이 논문이 제시하는 벤치마크의 차별점이자 강점이라고 할 수 있습니다.
3 Mobile-Env platform
Mobile-Env는 다양한 GUI 환경을 호스팅하고(§ 3.1) 검증된 GUI 벤치마크를 구축하기 위한(§ 3.2) 통일된 framework를 제공합니다. 이는 "emulator로 작업하여 이러한 환경을 구축하는" 일반적인 방법이므로, 부록 자료에서 내부 구성 요소와 구현 세부 정보를 소개하고, 이 섹션에서는 Mobile-Env의 사용 기능에 중점을 둡니다.
3.1 Universal hosting of GUI environments
Mobile-Env는 대부분의 실제 Android 앱을 호스팅할 수 있으며 모든 종류의 앱과 모바일 interaction task에 대한 통일된 interfaces를 제공합니다. 구체적으로, Mobile-Env 환경의 observation에는 screenshots와 VH (View Hierarchy) XML이 모두 포함됩니다. Mobile-Env의 raw GUI action space는 pixel 단위의 atomic TOUCH (손가락 누르기), LIFT (손가락 떼기), TEXT (token 입력)로, 다양한 앱과 상호 작용하기 위한 보편적이고 세분화된 interface를 보장합니다. 또한, 우리는 environment wrappers를 사용하여 action space를 수정하는 편리한 방법을 제공합니다. 예를 들어, 일련의 TOUCH actions에 LIFT를 추가하여 TAP을 생성할 수 있습니다. RHU (Response to Human User) action도 Mobile-Env에서 사용할 수 있습니다. Fig. 1에서 볼 수 있듯이, agent는 open-world 설정에서 또는 multi-turn instructions에 의해 조건부로 엄격하게 제어되는 world 내에서 Mobile-Env 환경과 상호 작용할 수 있습니다. 이를 통해 Mobile-Env는 다양한 모바일 interactive 환경과 agent를 위한 보편적인 플랫폼이 됩니다.
3.2 Creation of qualified GUI benchmarks
Mobile-Env는 검증된 GUI interaction 벤치마크를 구축하는 데 사용됩니다. 주목할 만한 첫 번째 특징은 구성 설정에 있습니다. 모든 설정 절차, 평가 방법, reward 메커니즘은 외부 task configuration file을 통해 구성됩니다. 이 파일은 Protocol Buffer의 텍스트 형식을 채택하여 복잡하고 중복된 프로그래밍 코드에 비해 이해하고 수정하기가 더 쉽습니다. 이어지는 부분에서는 (1) 격리되고 제어 가능한 환경을 구현하고 (2) 신뢰할 수 있는 평가와 즉각적인 rewards & instructions를 위한 정확한 task state estimation을 보장함으로써 검증된 벤치마크를 구축하기 위한 Mobile-Env의 방법론을 소개합니다.
3.2.1 Setup of isolated & controllable environments
Mobile-Env는 미리 정의된 Android OS (Operating System) image를 사용하여 환경을 설정하고 task configuration file에 정의된 일련의 ADB (Android Debug Bridge) commands를 실행합니다. 이 프로세스는 agent의 실행을 기다리기 전에 환경이 task에 대해 적절하게 준비되도록 합니다. 완전히 제어되는 "온라인" 환경을 구축해야 하는 경우, 크롤링된 앱 데이터를 위한 replay server를 미리 시작해야 합니다. 그러나 직접 재생은 실제 앱에서 인증서 고정 문제에 직면하게 되며, 이로 인해 replay proxy에서 발급한 SSL 인증서를 신뢰하지 못하여 데이터 재생이 실패합니다. 이 문제를 해결하기 위해, 우리는 리버스 엔지니어링의 결론에 따라 세 가지 솔루션을 구현하고 일련의 일반적인 실제 앱에서 이러한 솔루션을 검증했습니다. 이러한 솔루션에 대한 자세한 내용은 부록에 제공됩니다.
3.2.2 Accurate task state estimation
정확한 task state estimation은 신뢰할 수 있는 평가와 적시에 중간 rewards와 instructions로 agent를 안내하는 데 필수적입니다. Mobile-Env는 screen text, VH, system log, RHU를 포함한 다양한 signals를 활용하여 이러한 정확성을 보장합니다. 또한, task state estimation의 유연성을 높이기 위해 이러한 signals를 결합하는 세 가지 전략을 도입합니다(Fig. 3 참조).
(1) Conjunctive evaluation: 여러 signals가 동시에 발생해야 합니다. 예를 들어, 이메일은 수신자와 내용이 적절하게 입력된 경우에만 전송될 준비가 됩니다. (2) Disjunctive evaluation: 여러 대안 signals가 결합되어 성공 증거 누락을 방지합니다. 예를 들어, 모바일의 비행기 모드는 빠른 설정 메뉴나 시스템 설정 앱에서 전환할 수 있습니다. 최종 페이지는 다르지만 둘 다 비행기 모드가 켜져 있는지 여부를 나타냅니다. (3) Order constraint: 복잡한 task는 여러 단계로 구성되며, 일부는 다른 단계의 전제 조건 역할을 합니다. 예를 들어, 결제를 위해 주문을 하기 전에 원하는 항목을 장바구니에 추가해야 합니다.
앞서 언급한 방법을 사용하여 Mobile-Env는 보다 정확한 state estimation을 달성할 수 있습니다. task 평가에 대한 추가 예는 부록 자료에 자세히 설명되어 있습니다.
또한, Mobile-Env는 "listener-style" 접근 방식을 채택하여 runtime state나 agent의 actions를 방해하지 않고 task signals를 캡처합니다. 이 설계는 Xie et al.에서 설명한 "post-processing" evaluator와는 다르며, 열린 파일을 저장하거나 앱을 닫는 것과 같이 잠재적으로 환경 상태를 변경할 수 있는 actions를 포함할 수 있습니다. Mobile-Env에서 채택한 listener style은 agent의 진행 중인 실행을 방해하지 않으면서 안전하고 정확한 state evaluations와 중간 rewards 및 instructions를 보장합니다.
이 섹션에서는 Mobile-Env 플랫폼의 주요 특징과 기능, 그리고 이를 통해 어떻게 "Qualified" GUI 벤치마크를 구축하는지를 설명합니다.
핵심: Mobile-Env는 "제대로 된" GUI 벤치마크 제작을 위한 Universal & Customizable 플랫폼입니다.
3.1 Universal Hosting of GUI Environments (다양한 GUI 환경 호스팅)
- 핵심: 대부분의 실제 Android 앱을 호스팅하고, 다양한 interaction task에 대해 통일된 interface를 제공합니다.
- Observation: Screenshots + VH (View Hierarchy) XML 제공
- Action Space:
- Raw: Pixel 단위의 TOUCH, LIFT, TEXT (세밀하고 범용적인 제어)
- Customization: Environment wrappers를 통해 action space를 쉽게 변경 가능 (e.g., TAP action 생성)
- RHU (Response to Human User) action 지원
- 유연성: Open-world setting 또는 multi-turn instructions에 의해 제어되는 환경 모두 지원
- → 다양한 interactive 환경 및 agent에 적용 가능한 범용 플랫폼
3.2 Creation of Qualified GUI Benchmarks (검증된 GUI 벤치마크 구축)
핵심: Configuration File을 통한 유연한 설정 & Isolated/Controllable Environments & Accurate Task State Estimation
- Configuration File:
- 모든 설정, 평가 방법, reward 메커니즘이 외부 task configuration file (Protocol Buffer 형식)을 통해 정의됨 → 코드 수정 없이 설정 변경 용이, 가독성 향상
- 3.2.1 Isolated & Controllable Environments (격리되고 제어 가능한 환경):
- Predefined Android OS image 사용 & ADB commands를 통해 환경 사전 설정
- Replay Server: 동적 온라인 콘텐츠를 고정하고 평가 중 재생하여, 제어 가능한 "온라인" 환경 구축.
- 인증서 고정 문제 해결: 리버스 엔지니어링을 통해 3가지 솔루션 개발 및 검증
- 3.2.2 Accurate Task State Estimation (정확한 작업 상태 추정):
- 다양한 Signals 활용: Screen text, VH, system log, RHU
- 3가지 Signal 결합 전략 (Fig. 3):
- Conjunctive: 여러 signal 동시 발생 조건 (e.g., 이메일 전송 조건)
- Disjunctive: 여러 signal 중 하나라도 만족하는 조건 (e.g., 비행기 모드 확인)
- Order Constraint: 단계 간 의존성 고려 (e.g., 장바구니 담기 → 결제)
- "Listener-style" 접근 방식:
- Runtime state나 agent action을 방해하지 않고 task signal 캡처
- 안전하고 정확한 state evaluation 보장
- Intermediate rewards & instructions 제공 가능
