AI바라기의 인공지능
agent : 논문리뷰 : A3: Android Agent Arena for Mobile GUI Agents 본문
A3: Android Agent Arena for Mobile GUI Agents 논문 정리 노트
Purpose of the Paper
기존 모바일 GUI 에이전트 연구는 주로 정적 프레임 평가에 중점을 두어 실제 환경에서의 에이전트 성능을 종합적으로 평가하는 데 한계가 있었습니다. 특히, 기존 데이터셋은 스크린샷이나 UI 상태를 기반으로 단일 프레임에서 다음 행동을 예측하는 방식이었기 때문에, 실제 사용 환경에서 발생하는 동적이고 상호작용적인 작업 흐름을 반영하지 못했습니다. 또한, 컨텍스트 정보가 부족하여 멀티 스텝 작업이나 목표 지향적인 작업을 평가하는 데 어려움이 있었습니다.
이 논문은 이러한 한계를 극복하고, 실제 사용 환경을 반영한 동적이고 상호작용적인 환경에서 모바일 GUI 에이전트의 성능을 종합적으로 평가할 수 있는 새로운 평가 플랫폼인 Android Agent Arena (A3)를 제안합니다. A3는 실제 사용되는 21개의 서드파티 앱과 201개의 실제 시나리오 기반 작업을 포함하며, 에이전트가 다양한 작업을 수행하고 변화하는 앱 상태에 적응하며 예상치 못한 결과에 대응할 수 있는 능력을 평가하도록 설계되었습니다.
Key Contributions
- Android Agent Arena (A3) 구축: 21개의 주류 앱에서 추출한 201개의 실제 시나리오 기반 작업을 통합하고, 어떤 데이터셋 어노테이션 스타일로 훈련된 에이전트와도 호환되는 확장된 액션 공간을 지원하는 종합적인 평가 플랫폼을 도입했습니다.
- Novel Evaluation Approach: 비즈니스 레벨 LLM을 활용하여 확장 가능하고 자동화된 평가 프로세스를 가능하게 하는 새로운 평가 방식을 제안했습니다. 이를 통해 작업 평가에서 수동 작업의 필요성을 크게 줄였습니다.
- 다양한 작업 유형과 난이도 고려: 단순한 작동 작업 뿐만 아니라, 단일 프레임 쿼리, 멀티 프레임 쿼리 등 실제 사용 환경에서 중요한 정보 쿼리 작업을 포함하여 에이전트의 성능을 보다 다각적으로 평가할 수 있도록 합니다. 또한, 작업 난이도를 세 단계로 나누어 에이전트의 한계를 심층적으로 파악할 수 있도록 합니다.
Novelty
- 실제 사용되는 서드파티 앱 기반 평가: 기존 연구들이 구글 앱, F-Droid 앱(비주류 오픈 소스 앱), 오프라인 정적 앱에 국한된 것과 달리, A3는 21개의 널리 사용되는 서드파티 앱을 기반으로 평가를 진행하여 실제 사용 환경과의 격차를 줄였습니다.
- 확장된 액션 공간: 기존의 CLICK, SCROLL, TYPE 등의 기본 액션 외에도, Open, Long Press, WAIT와 같이 더 세분화된 액션을 지원하여, 다양한 데이터셋 어노테이션 스타일로 훈련된 에이전트들을 모두 테스트 할 수 있도록 합니다.
- 자동화된 비즈니스 레벨 LLM 기반 평가 시스템: 태스크 별 평가 함수를 수동으로 제작하는 대신, GPT-40, Gemini 1.5 Pro와 같은 비즈니스 레벨 LLM을 활용하여 자동으로 평가 함수를 생성하거나, 태스크 완료 여부를 직접 판단하도록 합니다. 이를 통해 평가 시스템 구축 및 확장에 드는 비용과 시간을 획기적으로 줄일 수 있습니다.
- 실시간 상태 평가: 모든 작업은 미리 정의된 오프라인 콘텐츠가 아닌 실시간 상태를 기반으로 평가되므로, 에이전트가 실제 환경에서 어떻게 작동하는지 더 정확하게 확인할 수 있습니다.
Experimental Highlights
- 다양한 에이전트 성능 비교: Fine-tuned Agent (InternVL2-8B)와 Business-level LLM (GPT-40, AppAgent)을 A3 환경에서 테스트하여 성능을 비교했습니다.
- Static vs. Dynamic 평가 비교: ANDROIDCONTROL 데이터셋의 정적 프레임 평가와 A3의 동적 평가 결과를 비교하여, 실제 환경에서의 성능 차이를 분석했습니다.
- LLM 기반 평가 시스템 검증: GPT-40을 통해 자동 생성된 평가 함수의 정확도와, GPT-40 및 Gemini 1.5 Pro를 활용한 태스크 완료 여부 판단의 정확도를 검증했습니다.
Limitations
- 특정 앱 버전에 의존적인 평가: 통합된 태스크와 평가 함수는 특정 버전의 앱을 기반으로 정의되었기 때문에, 앱 버전이 업데이트되면 평가 결과가 달라질 수 있습니다.
- 부분적인 자동 평가: 비즈니스 레벨 LLM은 전체 태스크의 완료 여부는 평가할 수 있지만, 액션 체인 내의 하위 목표(sub-goals)들이 완벽하게 수행되었는지는 판단하지 못합니다.
- 에이전트의 Self-correction 능력 부족: 현재 훈련된 에이전트는 잘못된 액션으로 인해 잘못된 상태로 진입했을 때, 스스로 수정하고 원래 경로로 돌아가는 능력이 부족합니다.
- 정보 쿼리 태스크 평가의 어려움: 기존 데이터셋에 정보 쿼리 유형의 데이터가 포함되어 있지 않아, 이와 관련된 에이전트의 성능을 평가하는 데 어려움이 있습니다.
Future Work
- 하위 목표 평가 자동화: 에이전트의 성능을 액션 체인 레벨에서 평가하기 위해, 하위 목표의 완료 여부를 자동으로 판단하는 방법을 연구해야 합니다.
- 다양한 앱 버전 지원: 앱 업데이트에 따른 평가 결과의 변화를 최소화하기 위해, 다양한 앱 버전을 지원하는 평가 시스템을 구축해야 합니다.
- Self-correction 능력 향상: 에이전트가 잘못된 상태에서 스스로 수정하고 원래 경로로 돌아갈 수 있는 능력을 향상시키는 연구가 필요합니다.
- 정보 쿼리 태스크를 위한 데이터셋 구축: 정보 쿼리 유형의 데이터를 포함한 새로운 데이터셋을 구축하여, 이와 관련된 에이전트의 성능을 평가하고 개선해야 합니다.
- 더욱 다양한 에이전트 아키텍처와 훈련 방식에 대한 실험: 다양한 에이전트의 성능을 A3를 통해 비교 분석하여, 어떤 아키텍처와 훈련 방식이 실제 환경에서 효과적인지 연구해야 합니다.
초록
최근 몇 년 동안 AI agents는 large language models (LLMs) 분야의 괄목할 만한 발전에 힘입어 점점 더 널리 보급되고 있습니다. AI agents의 하위 집합인 Mobile GUI agents는 모바일 장치에서 작업을 자율적으로 수행하도록 설계되었습니다. 많은 연구에서 mobile GUI agent 연구를 발전시키기 위해 agents, datasets 및 벤치마크를 도입했지만, 기존의 많은 datasets는 static frame 평가에 중점을 두고 있으며 실제 환경, 즉 in-the-wild 작업에서 성능을 평가하기 위한 포괄적인 플랫폼을 제공하지 못합니다.
이러한 격차를 해소하기 위해 우리는 새로운 평가 플랫폼인 Android Agent Arena (A3)를 제시합니다. 기존의 in-the-wild 시스템과 달리 A3는 다음과 같은 기능을 제공합니다.
- 실시간 온라인 정보 검색 및 운영 지침과 같은 의미 있고 실용적인 작업.
- 모든 dataset에서 trained 된 agents와의 호환성을 지원하는 더 크고 유연한 action space.
- 자동화된 비즈니스 수준의 LLM-based 평가 프로세스.
A3는 널리 사용되는 21개의 일반적인 타사 앱과 일반적인 사용자 시나리오를 대표하는 201개의 작업을 포함하여 실제 상황에서 mobile GUI agents를 평가하기 위한 강력한 기반과 적은 인력 및 코딩 전문 지식을 위한 새로운 자율 평가 프로세스를 제공합니다.
1 서론
Large Language Model (LLM) 분야의 괄목할 만한 발전은 AI agents의 개발을 촉진시켰으며, AI agents는 사용자의 지시에 따라 작업을 autonomously 완료할 수 있습니다. Siri, Xiao AI, Bixby와 같은 기존의 모바일 AI assistants는 모바일 agents가 사용자와 모바일 장치 간의 상호 작용을 촉진할 수 있는 잠재력을 보여주었습니다. 그러나 이러한 assistants는 API를 사용하여 task automation을 수행한다는 특성상 날씨 상태 보고 및 웹 검색 수행과 같은 일상적인 작업을 관리하는 데만 효과적입니다. AI agents의 기능을 확장하기 위해 연구자들은 GUI agents를 제안했습니다. 이는 API에 의존하지 않고 타사 일반 앱에서 작업을 효과적으로 완료하기 위해 multimodal large language models (MLLM)의 확장된 세계 지식과 강력한 기능을 활용합니다.
GUI agents의 유망한 발전에도 불구하고, 기존의 대다수의 GUI-control datasets는 주로 static frame 평가에 중점을 두고 있으며, 이는 심각한 한계가 있습니다. 이러한 datasets는 일반적으로 스크린샷 또는 UI 상태 모음을 제공하여 agents가 단일 고정 프레임을 기반으로 다음 작업을 예측하도록 요구합니다. 이러한 접근 방식은 agents가 일련의 작업을 탐색하고, 변화하는 앱 상태에 적응하고, 예상치 못한 결과를 처리해야 하는 실제 모바일 작업의 동적이고 상호 작용적인 특성을 포착하지 못합니다. 또한 static frame 평가는 종종 작업 흐름에 대한 contextual information이 부족하여 agents의 다단계 또는 목표 지향적 작업 수행 능력을 평가하기 어렵습니다. static frame 평가와 실제 사용 시나리오 사이의 이러한 단절은 현재 GUI agents의 기능과 실제 애플리케이션의 요구 사항 사이의 격차를 초래하여 보다 포괄적이고 상호 작용적인 평가 플랫폼의 필요성을 강조합니다.
최근의 여러 연구에서는 Android GUI agents를 위한 동적 평가 플랫폼을 도입했습니다. 이러한 노력은 상당한 진전을 나타내지만, 포괄적인 평가 벤치마크로서의 효과를 저해하는 중대한 한계가 있습니다. 예를 들어, 많은 플랫폼이 앱 선택을 Google 앱, F-Droid 앱 (비주류 open-source 앱) 또는 정적 오프라인 앱으로 제한하여 실제 사용의 다양성이나 복잡성을 반영하지 않습니다. 또한 이러한 플랫폼은 종종 제한된 다양성의 작업만 제공하거나 실질적인 agent 성능을 평가하는 데 필수적인 information query 작업을 포함하지 않습니다. 이러한 단점을 해결하기 위해 우리는 (i) 실제 앱 기능을 중심으로 설계된 21개의 널리 사용되는 타사 앱과 201개의 작업과의 통합, (ii) 세 가지 고유한 유형으로 분류된 다양한 작업 세트, (iii) 모든 dataset에서 trained 된 agents와의 호환성을 지원하는 더 큰 action space를 제공하는 새로운 평가 시스템인 Android Agent Arena (A3)를 제안합니다. 또한, 우리는 task evaluation을 자동화하기 위해 비즈니스 수준 large language models (LLMs)의 기능을 활용하는 새로운 평가 방법을 도입하여 human intervention 및 manual coding의 필요성을 크게 줄입니다. 표 1은 A3의 개요를 보여줍니다.
우리의 기여는 다음과 같이 요약할 수 있습니다.
- 우리는 모든 dataset annotation 스타일과 호환되는 확장된 action space를 지원하며, 실제 시나리오에서 21개의 주류 앱에 걸쳐 201개의 작업을 통합하는 포괄적인 평가 플랫폼인 Android Agent Arena (A3)를 소개합니다.
- 우리는 비즈니스 수준 LLMs를 활용하는 새로운 평가 접근 방식을 제안하여, task evaluation에서 manual effort의 필요성을 크게 줄이면서 확장 가능하고 자동화된 평가 프로세스를 가능하게 하는 두 가지 애플리케이션을 소개합니다.
핵심 주제:
- AI agents 의 발전과 Large Language Models (LLMs) 의 역할
- Mobile GUI agents 의 개념과 기존 모바일 AI assistants (Siri, Bixby 등)와의 차이점
- 기존 GUI-control datasets 의 한계: static frame 평가에만 집중
- 실제 환경 (in-the-wild) 에서의 mobile GUI agents 평가를 위한 새로운 플랫폼 Android Agent Arena (A3) 제안
기존 모바일 AI assistants의 한계:
- API를 사용한 task automation 에 의존
- 날씨 보고, 웹 검색 등 일상적인 작업에만 효과적
GUI agents 의 등장:
- Multimodal large language models (MLLMs) 의 확장된 지식과 기능을 활용
- API 없이도 타사 앱에서 작업 수행 가능
기존 GUI-control datasets 의 문제점:
- Static frame 평가 방식:
- 단일 스크린샷/UI 상태 기반으로 다음 동작 예측
- 실제 모바일 작업의 동적이고 상호 작용적인 특성 반영 불가
- Contextual information 부족으로 다단계/목표 지향적 작업 평가 어려움
- 실제 사용 시나리오와의 괴리 발생
Android Agent Arena (A3) 의 특징:
- 실제 사용되는 21개 타사 앱과 201개 작업 통합
- 세 가지 유형의 다양한 작업 제공
- 확장된 action space: 모든 dataset 에서 trained 된 agents 와 호환 가능
- 비즈니스 수준 LLMs 를 활용한 자동화된 평가 방식 도입
- 수동 작업 및 코딩 필요성 감소
A3 의 기여:
- 실제 시나리오를 반영한 포괄적인 평가 플랫폼 제공
- LLMs 를 활용한 확장 가능하고 자동화된 평가 프로세스 제안
전반적인 흐름:
- LLMs 발전에 따른 AI agents, 특히 mobile GUI agents 의 등장
- 기존 모바일 AI assistants의 한계와 GUI agents 의 잠재력
- 기존 GUI-control datasets 의 static frame 평가 방식 비판
- 실제 환경 평가를 위한 A3 플랫폼 제안 및 특징 소개
- A3 의 기여 요약
2. Related Work
2.1 GUI Agent
(Wang et al., 2023)은 large language models (LLMs)를 GUI 작업에 적용했지만, 그들의 초점은 여전히 단일 페이지 상호 작용에 국한되어 있어 end-to-end instructional tasks보다는 Question-answering 작업과 유사합니다. 최근의 발전은 LLMs의 광범위한 세계 지식과 강력한 reasoning 능력을 활용하기 시작했습니다. 주목할 만한 접근 방식은 GPT-4v와 같은 범용 비즈니스 레벨 models을 GUI-control agents로 사용하는 것입니다. (Zhang et al., 2023a; Zheng et al., 2024)와 같은 연구는 이러한 models이 복잡한 작업을 수행하도록 안내하기 위해 광범위한 prompt engineering을 사용합니다. 그러나 이러한 방법의 효율성은 만족스러운 결과를 얻기 위해 세심한 prompt 설계에 크게 의존합니다. 대안적인 연구 방향은 GUI-specific datasets를 사용하여 더 작은 LLMs를 fine-tuning하여 domain-specific knowledge를 주입함으로써 효율성과 작업 성능을 향상시키는 데 중점을 둡니다. 예를 들어, CogAgent는 여러 수준에서 image features를 결합하는 high-resolution cross-module을 통합하여 GUI 작업 성능을 향상시킵니다. 마찬가지로 MobileAgent는 input data structuring 및 sample 처리를 최적화하여 LLMs와 더 일관되고 호환되도록 합니다. SphAgent는 element functionalities를 활용하여 화면과 element 이해를 더욱 향상시킵니다. CoCo-Agent와 ANDROIDCONTROL은 스크린샷에만 의존하는 대신 accessibility trees 또는 view hierarchies의 element 레이아웃을 추가 입력으로 통합하는 다른 접근 방식을 취합니다. 이 접근 방식은 성능을 향상시키지만 많은 앱이 accessibility information이 없거나 최소한의 accessibility data만 제공하여 실제 시나리오에서의 적용 가능성을 제한한다는 한계에 직면합니다.
2.2 GUI-related Dataset
Rico dataset 시리즈의 도입은 GUI element classification 및 detection을 위한 기초적인 datasets를 제공함으로써 GUI 관련 연구에서 중요한 이정표를 세웠습니다. 후속 연구에서는 소규모 instruction-based GUI control datasets를 소개했습니다. 이들 중 UGIF는 8개 언어를 지원하는 다국어 dataset로 돋보입니다. AITW는 대규모 dataset로 분야를 확장했지만 지침에 상당한 중복성과 빈번한 오기가 있었습니다. 이를 해결하기 위해 AITZ는 Chain-of-Action-Thought re-annotation을 적용하여 AITW를 개선했지만 훨씬 더 작은 dataset이 되었습니다. ANDROIDCONTROL은 AITW 및 AITZ와 비교하여 더 간단한 작업과 뚜렷한 action space를 가진 대규모 dataset를 추가로 도입했습니다. 한편, AMEX는 element functionality를 통합하여 agents가 모바일 GUI 디자인을 더 잘 해석할 수 있도록 GUI element annotation을 재정의하고 이전 datasets보다 더 복잡한 작업으로 경계를 넓혔습니다. 그러나 이러한 기여에도 불구하고 이러한 datasets는 agents가 단일 스크린샷, 지침 및 과거 작업의 정답 기록을 기반으로 작업을 예측하는 static frame 평가에 국한됩니다. 이 접근 방식은 과거 작업을 사용할 수 없고 단일 오류가 연속적으로 후속 성능에 심각한 영향을 미칠 수 있는 실제 시나리오의 동적이고 상호 작용적인 특성을 포착하지 못합니다. 이는 실제 작업 실행의 복잡성을 더 잘 반영하는 평가 시스템의 필요성을 강조합니다.
2.3 Dynamic Evaluation Benchmark
static frame 평가의 한계를 극복하기 위해 연구자들은 실제 환경을 더 잘 시뮬레이션하는 것을 목표로 하는 여러 동적 평가 시스템을 개발했습니다 (표 ?? 참조). 예를 들어, Mobile-Env는 더 넓은 범위의 일반 앱을 통합하지만 74개의 작업으로만 제한됩니다. AndroidArena는 cross-app 작업을 포함하여 더 많은 수의 작업을 도입하지만 Google 앱과 API 기반 assistants에서 이미 관리할 수 있는 내장 시스템 앱 (예: 설정 및 시계)으로 제한됩니다. B-Moca는 한국어 설정을 지원하지만 지나치게 단순하고 다양성이 부족한 작업을 제공합니다. AndroidWorld는 F-Droid의 open-source 앱을 사용하지만 이러한 앱은 주류 앱 디자인과 크게 다르기 때문에 실제 시나리오를 대표하지 않습니다. 특히 이러한 모든 시스템은 operational instructions 및 해당 평가에만 중점을 둡니다. AndroidLab은 information query instructions 및 평가를 통합한 최초의 시스템으로, 핵심 격차를 해결합니다. 그러나 앱 선택이 오프라인 및 정적 앱으로 제한되어 실제 사용성에 중요한 뉴스, 쇼핑, 이메일 및 음악과 같은 카테고리를 포함하지 않습니다. 구체적으로, 기존 시스템의 평가 방법은 주로 element matching 또는 미리 정의된 답변에 의존합니다.
2. Related Work (정리 노트)
2.1 GUI Agent
- 초기 연구 (Wang et al., 2023):
- LLMs 를 GUI 작업에 적용
- 단일 페이지 상호작용에 국한, Question-answering 과 유사
- 최근 연구:
- LLMs 의 광범위한 지식과 reasoning 능력 활용
- 두 가지 접근 방식:
- 범용 비즈니스 레벨 models (e.g., GPT-4v) 활용:
- Prompt engineering 에 크게 의존 (Zhang et al., 2023a; Zheng et al., 2024)
- GUI-specific datasets 로 소규모 LLMs fine-tuning:
- CogAgent (Hong et al., 2024): high-resolution cross-module 로 image features 융합
- MobileAgent (Ding, 2024): LLMs 와의 호환성을 위한 input data structuring 최적화
- SphAgent (Chai et al., 2024): element functionalities 활용
- CoCo-Agent (Ma et al., 2024), ANDROIDCONTROL (Li et al., 2024): accessibility trees/view hierarchies 에서 element layouts 를 추가 입력으로 사용
- 한계: 많은 앱이 accessibility information 부족
- 범용 비즈니스 레벨 models (e.g., GPT-4v) 활용:
2.2 GUI-related Dataset
- Rico dataset 시리즈 (Deka et al., 2017; Sunkara et al., 2022):
- GUI element classification/detection 을 위한 기초 datasets 제공
- 소규모 instruction-based GUI control datasets:
- UGIF (Gubbi Venkatesh et al., 2024): 8개 언어 지원
- 대규모 datasets:
- AITW (Rawles et al., 2024b): 지침 중복, 오기 문제
- AITZ (Zhang et al., 2024): Chain-of-Action-Thought re-annotation 으로 AITW 정제, 크기 축소
- ANDROIDCONTROL (Li et al., 2024): 간단한 작업, AITW/AITZ와 다른 action space
- AMEX (Chai et al., 2024): element functionality 를 포함한 GUI element annotation 재정의, 더 복잡한 작업
- 한계: static frame 평가에 국한
- 단일 스크린샷, 지침, 정답 기록 기반 작업 예측
- 실제 환경의 동적, 상호작용적 특성 반영 불가
2.3 Dynamic Evaluation Benchmark
- Static frame 평가 한계 극복, 실제 환경 시뮬레이션
- Mobile-Env (Zhang et al., 2023b): 다양한 앱, 74개 작업으로 제한
- AndroidArena (Xing et al., 2024): cross-app 작업 포함, Google 앱/시스템 앱으로 제한
- B-Moca (Lee et al., 2024): 한국어 지원, 단순하고 다양성 부족한 작업
- AndroidWorld (Rawles et al., 2024a): F-Droid open-source 앱 사용, 실제와 동떨어짐
- AndroidLab (Xu et al., 2024): information query instructions/평가 최초 도입, 오프라인/정적 앱 한계
- 공통적 한계:
- Operational instructions 에만 집중
- 주로 element matching 또는 미리 정의된 답변에 의존하는 평가 방식
전반적인 흐름:
- GUI Agent 연구는 LLMs 활용, prompt engineering 또는 fine-tuning 방식으로 발전
- GUI-related datasets 은 element classification/detection 에서 instruction-based control 로, static frame 평가 방식으로 발전
- Dynamic evaluation benchmarks 는 static frame 평가를 극복하고 실제 환경을 시뮬레이션하려 했지만, 여전히 한계 존재
3. Android Agent Arena (A3)
3.1 개요
A3는 Android 및 iOS 장치를 제어하기 위한 open-source 프레임워크인 Appium2를 기반으로 구축된 경량 시스템입니다. 그림 2에서 볼 수 있듯이 A3는 GUI agent와 Android 장치 간의 다리 역할을 합니다.

A3는 작업과 해당 evaluation functions을 통합합니다. 프로세스는 컨트롤러가 스크린샷과 XML(Extensible Markup Language) 파일을 포함하는 장치의 현재 상태를 검색하는 것으로 시작됩니다. 이 상태와 작업 지침은 이전 스크린샷, XML 파일, 작업과 같은 추가 정보와 함께 agent로 전송됩니다. agent는 입력을 분석하고 현재 상태를 기반으로 수행할 다음 작업을 예측합니다. 예측된 작업은 번역기로 전달되어 장치 제어 명령으로 변환되어 장치와 상호 작용합니다. 이 루프는 agent가 작업 완료를 알리거나 미리 정의된 최대 단계 수에 도달할 때까지 계속됩니다. 프로세스가 끝나면 evaluator는 evaluation function을 사용하여 작업이 성공적으로 완료되었는지 여부를 결정합니다. 이 시스템은 유연성과 확장성을 갖도록 설계되어 사용자가 새로운 앱과 작업을 쉽게 추가할 수 있으며 모든 agent를 위한 범용 번역기 시스템도 제공합니다.
3.2 Action Space
AITW, AITZ 및 AMEX는 동일한 action space를 공유합니다: CLICK, SCROLL, TYPE, ENTER, BACK, HOME, COMPLETE, IMPOSSIBLE. 반면 ANDROIDCONTROL은 Open, Long Press 및 WAIT의 두 가지 추가 작업을 포함하는 다른 action space를 도입합니다. Open 작업은 앱을 직접 실행하도록 구체적으로 정의되고 WAIT 작업은 현재 상태가 여전히 로드 중이며 기다려야 함을 의미합니다. 그러나 기존의 어떤 evaluation system도 이러한 추가 작업을 지원하지 않으므로 ANDROIDCONTROL에서 trained 된 agents를 테스트할 수 없습니다. 이러한 한계를 해결하기 위해 A3를 확장하여 모든 datasets의 모든 작업 유형을 포함하는 더 큰 action space를 수용하여 모든 dataset에서 trained 된 agents와의 호환성을 보장합니다.
3.3 Task
기존 접근 방식과 달리 A3는 널리 사용되는 21개의 타사 애플리케이션에서 파생된 200개 이상의 작업을 통합하여 실제 시나리오의 범위와 다양성을 크게 확장합니다. 각 작업은 주어진 애플리케이션의 가장 일반적인 기능과 사용 사례를 나타내도록 신중하게 선택됩니다. 또한 모든 작업은 고유하며 작업과 의도의 반복을 최소화합니다. 포함된 작업 유형을 더 잘 특성화하기 위해 (i) operation tasks, (ii) single-frame query tasks, (iii) multi-frame query tasks의 세 가지 범주로 분류합니다.
- Operation tasks는 장치에서 작업 sequence를 완료하는 것과 관련이 있습니다. 예를 들어, "YouTube Music에서 'Taylor Swift'를 검색하고 구독"이라는 지침을 실행하려면 agent가 특정 작업 sequence를 실행해야 합니다. 이러한 작업은 미리 알림을 설정하거나 음악을 재생하는 것과 같이 일상 생활에서 흔히 볼 수 있습니다.
- Single-frame query tasks는 agent에게 요청된 작업을 완료한 후 정보를 반환하도록 요청합니다. 예를 들어, "12월 27일부터 12월 28일까지 베이징에 머무를 곳을 검색하고 가격을 낮은 순서대로 정렬한 다음 최저 가격을 제공하십시오"라는 지침이 주어지면 agent는 final state에서 최저 가격을 식별하고 이를 응답으로 제시해야 합니다. 이러한 작업은 레스토랑의 연락처 정보나 호텔의 1박 요금을 찾는 것과 같은 일반적인 실제 쿼리를 반영합니다.
- Multi-frame query tasks는 더 복잡하며 agent가 응답하기 전에 여러 단계에 걸쳐 정보를 수집하고 처리해야 합니다. 예를 들어, "다음 주에 Hilton Garden Inn Hong Kong에서 1개의 침대가 있는 객실에서 1박 숙박을 검색합니다. 가장 저렴한 요일과 해당 가격을 확인하십시오"라는 작업은 agent가 며칠 간의 데이터를 집계하고 가격을 비교한 다음 최적의 결과를 선택하도록 요구합니다. single-frame 쿼리와 달리 multi-frame tasks는 agent가 final state에만 의존하는 것이 아니라 여러 상호 작용에서 정보를 유지하고 조작해야 합니다.
모든 작업을 세 가지 난이도 계층으로 나눕니다. 사람이 4단계 이하로 완료할 수 있는 작업은 쉬운 것으로 간주되고 8단계 이하로 완료할 수 있는 작업은 중간으로 간주됩니다. 나머지 모든 operation tasks는 어려운 것으로 분류됩니다. 그림 3은 A3의 작업 분포를 보여줍니다. multi-frame query tasks는 기존 agents에게 매우 어렵기 때문에 agents의 능력을 더 잘 평가하기 위해 operation 및 single-frame query tasks에 더 많은 노력을 기울입니다. 또한 예약 앱과 같이 날짜를 선택할 수 있도록 날짜와 관련된 작업 지침이 동적으로 생성됩니다.
3.4 평가
A3에서는 (i) task-specific evaluation function 및 (ii) 비즈니스 수준 LLM evaluation system의 두 가지 평가 방법을 제시합니다. 이러한 방법은 독립적으로 작동하며 사용자가 선택할 수 있습니다. 전자는 미리 정의된 작업에 중점을 두고 후자는 다양한 앱에서 작업을 추가하기 위한 확장 가능한 솔루션을 제공합니다. 그리고 실제 시나리오를 모방하기 위해 모든 작업은 실시간 상태로 평가됩니다. 즉, 모든 콘텐츠는 실시간이며 미리 정의된 오프라인 콘텐츠가 아닙니다.
3.4.1 Evaluation Function
200개 이상의 작업에 대해 각 작업에 해당 evaluation function을 페어링합니다. 이 function은 agent가 다양한 방법을 통해 주어진 작업을 성공적으로 완료하는지 여부를 평가하는 데 사용됩니다. 각 작업에는 서로 다른 작업과 목표가 포함되므로 평가 기준도 그에 따라 다릅니다. 평가 방법은 크게 두 가지 유형으로 분류할 수 있습니다.
- Element matching은 가장 일반적으로 사용되는 평가 방법입니다. XML 트리에서 주요 요소를 식별하고 해당 속성을 정답 값과 비교하는 작업이 포함됩니다. 예를 들어, "Coursera에서 다운로드를 열고 사용된 저장 용량을 알려주세요"라는 작업을 고려하십시오. 이 경우 final state XML에는 앱에서 사용하는 총 저장 용량을 표시하는 요소가 포함되어야 합니다. 정답 값은 XML 트리를 구문 분석하여 추출한 다음 agent의 응답과 비교할 수 있습니다. 더 복잡한 시나리오에서는 여러 요소를 검색해야 할 수 있으며 agent의 응답이 정확한지 확인하기 위해 여러 조건을 충족해야 합니다. 또한 XML 데이터가 충분하지 않은 경우 XML 구문 분석을 대신하여 OCR(Optical Character Recognition)을 사용하여 요소에서 직접 텍스트 속성을 추출합니다.
- Action matching은 특정 위치를 확인해야 하는 평가에 사용됩니다. 예를 들어, "Wish 앱에서 손전등을 검색하고 100 미만의 가격으로 결과를 필터링한 다음 첫 번째 항목을 선택하여 위시리스트에 추가하십시오"라는 작업에서 agent는 검색 결과에 표시된 첫 번째 항목을 클릭해야 합니다. Action matching은 클릭 좌표가 첫 번째 항목의 경계 상자 내에 있는지 확인합니다.
더 복잡한 시나리오에서는 agent의 성능을 정확하게 평가하기 위해 element matching과 action matching이 모두 결합됩니다.
3.4.2 LLM Evaluation System
이전 온라인 평가 시스템이 직면한 과제 중 하나는 해당 evaluation functions과 함께 작업을 확장하기 어렵다는 것입니다. A3를 개발하는 동안 우리도 이 문제에 직면했습니다. 각 작업에는 특정 evaluation function이 필요하며, XML을 구문 분석하고 작업 성공을 위한 정확한 조건을 정의할 수 있는 코딩 전문가가 작성해야 합니다. 이러한 수동 코딩에 대한 의존도는 evaluation functions의 신속한 생성을 방해합니다. 이러한 한계를 해결하기 위해 GPT 및 Gemini와 같은 large language models (LLMs)의 고급 기능을 활용하여 반 자율 또는 완전 자율 task evaluation을 가능하게 하는 비즈니스 수준 LLM evaluation system을 제안합니다.
첫 번째 단계로 GPT-4o의 코딩 능력을 활용하여 작업에 대한 evaluation functions을 생성합니다. 구체적으로, 우리는 GPT에 XML 구문 분석 코드, 예제 evaluation function 및 작업 관련 prompts를 제공하여 필요한 evaluation functions을 생성합니다. GPT-4o는 강력한 코딩 능력을 보여주지만 때때로 논리 오류나 잘못된 조건을 생성할 수 있습니다. 예를 들어, Booking.com에서 호텔 검색을 평가할 때 검색 결과는 선택한 날짜에 따라 동적으로 변경됩니다. 그러나 GPT-4o는 "113 results"와 같은 정적 값을 일치시키려고 시도할 수 있지만 "results"라는 단어가 포함된 regex 패턴을 사용하여 검색 프로세스가 완료되었는지 여부를 식별하는 것이 올바른 방법입니다. GPT-4o의 성능을 정량화하기 위해 표 2는 작업 평가에 미치는 영향을 보여줍니다. 완전히 정확한 functions의 비율은 상대적으로 낮지만 사람이 수정해야 하는 줄의 비율도 최소입니다. 이는 GPT-4o가 코딩 작업량을 크게 줄여 더 효율적이고 반 자율적인 평가 프로세스를 가능하게 함을 시사합니다.
첫 번째 평가 방법은 evaluation functions에 대한 사람의 검증으로 인해 정확한 결과를 제공합니다. 그러나 코딩 전문가에게 의존하며 이는 제약이 될 수 있습니다. 이를 극복하기 위해 우리는 완전한 LLM-based 평가 프로세스를 제안합니다. operation 및 single-frame query tasks의 경우 GPT-4o 및 Gemini 1.5 Pro에 작업 지침과 해당 final state XML이 제공되어 작업 완료를 직접 평가할 수 있습니다. multi-frame query tasks의 경우 일련의 XML을 사용하여 더 복잡한 시나리오를 처리하는 능력을 평가합니다. 표 3은 두 LLMs의 평가 정확도를 강조하며 약 80%의 정확도를 보여줍니다. 신뢰성을 향상시키기 위해 두 LLMs의 출력을 결합하는 교차 검증 프로세스를 도입합니다. 두 models가 동일한 결과를 생성하면 오판 확률이 약 0.03으로 감소하여 높은 신뢰도를 보장합니다. 의견이 일치하지 않는 경우 사람의 평가가 적용됩니다. 이 접근 방식은 첫 번째 방법에 비해 사람의 노동에 대한 의존도를 크게 줄이면서 코딩 전문 지식의 필요성도 없앱니다.
3. Android Agent Arena (A3) (정리 노트)
3.1 개요
- A3: Appium 기반 경량 시스템
- 역할: GUI agent 와 Android 장치 간 중개자 역할
- 구성 요소:
- Controller: 장치 상태 (스크린샷, XML) 획득 및 제어
- Translator: agent 의 예측 액션과 장치 제어 명령 간 변환
- Evaluator: 작업 완료 여부 평가 (evaluation function 사용)
- 프로세스:
- Controller가 장치 상태 획득
- 상태, 작업 지침, 이전 정보 등이 agent 에게 전달
- Agent 가 입력 분석, 다음 액션 예측
- Translator가 액션을 장치 제어 명령으로 변환
- 작업 완료 또는 최대 단계 도달까지 반복
- Evaluator가 작업 성공 여부 평가
- 특징: 유연성, 확장성, 범용 translator 시스템
3.2 Action Space
- 기존 datasets: AITW, AITZ, AMEX는 CLICK, SCROLL, TYPE, ENTER, BACK, HOME, COMPLETE, IMPOSSIBLE 공유
- ANDROIDCONTROL: Open, Long Press, WAIT 추가
- 기존 evaluation system 은 추가된 액션 미지원
- A3: 모든 datasets 의 액션 포함하는 확장된 action space 제공
- 모든 dataset 에서 trained 된 agents 와 호환
3.3 Task
- 21개 타사 앱에서 추출한 200개 이상 작업 포함
- 일반적인 기능과 사용 사례를 대표하도록 신중하게 선택
- 작업의 중복 최소화
- 세 가지 카테고리:
- Operation tasks: 장치에서 작업 sequence 완료 (e.g., 음악 검색 및 구독)
- Single-frame query tasks: final state 에서 정보 추출하여 응답 (e.g., 최저가 호텔 검색)
- Multi-frame query tasks: 여러 단계에 걸쳐 정보 수집 및 처리 (e.g., 특정 호텔의 가장 저렴한 날짜 및 가격 검색)
- 난이도: Easy (≤ 4 steps), Medium (≤ 8 steps), Hard (나머지 operation tasks)
- Multi-frame query tasks 는 어려우므로 operation 및 single-frame query tasks 에 더 집중
- 날짜 관련 작업 지침은 동적 생성
3.4 평가
- 두 가지 평가 방법:
- Task-specific evaluation function:
- 200개 이상 작업에 1:1 매칭
- 두 가지 유형:
- Element matching: XML에서 주요 요소 식별, 속성 비교
- Action matching: 특정 위치 확인 (e.g., 클릭 좌표)
- 복잡한 경우, 두 방식 결합
- LLM evaluation system:
- 목표: 확장성 문제 해결, 수동 코딩 의존도 감소
- 방법 1: GPT-4o 로 evaluation function 생성
- XML 파싱 코드, 예제 함수, 작업 관련 prompts 제공
- 가끔 논리 오류 발생, semi-autonomous 방식
- 방법 2: 완전한 LLM-based 평가
- Operation/single-frame query tasks: GPT-4o/Gemini 1.5 Pro에 작업 지침, final state XML 제공
- Multi-frame query tasks: XML sequence 제공
- 정확도 약 80%, 교차 검증으로 신뢰도 향상 (오판 확률 ≈ 0.03)
- 불일치 시, 사람 평가
- 코딩 전문 지식 불필요
- Task-specific evaluation function:
- 모든 작업은 real-time 상태를 기반으로 평가
핵심:
- A3는 GUI agents 평가를 위한 유연하고 확장 가능한 플랫폼
- 다양한 datasets 와 호환되는 action space
- 실제 사용 사례를 반영한 다양한 tasks
- Task-specific evaluation functions 과 LLM-based 평가 시스템 제공
- LLM 활용으로 확장성 문제 해결 및 자동화 수준 향상
기존 연구의 한계:
- Static Frame 평가: 기존의 많은 datasets 와 평가 방법들은 스크린샷과 같은 정적인 frame 에 의존했습니다. 이는 dynamic 하고 interactive 한 실제 모바일 사용 환경을 제대로 반영하지 못했습니다.
- 제한적인 작업: 기존 평가 플랫폼들은 주로 Google 앱, F-Droid 앱(비주류 open-source 앱) 또는 정적인 오프라인 앱에 국한된 작업들을 사용했습니다. 이는 실제 사용자들이 빈번하게 사용하는 다양한 앱들을 포괄하지 못했습니다.
- 단순한 작업 유형: Operational instructions 에만 치중하고, 정보 검색과 같이 실생활에서 중요한 query tasks 를 다루지 않는 경우가 많았습니다.
- 확장성 부족: 새로운 작업과 앱을 추가할 때, 각 작업에 맞는 evaluation function 을 수동으로 작성해야 하는 번거로움이 있었습니다.
- 제한적인 Action Space: 기존 플랫폼들이 특정 datasets 에서 정의한 action space 만을 지원하여, 다른 datasets 에서 trained 된 agents 를 평가하기 어려웠습니다.
이 논문의 목표 (A3 플랫폼):
- 실제 모바일 사용 환경을 더 잘 반영하는 dynamic 평가 플랫폼을 제공하는 것입니다.
- 다양한 타사 앱과 복잡한 작업을 포함하여 평가의 범위를 확장하는 것입니다.
- Operational tasks 뿐만 아니라 single-frame 및 multi-frame query tasks 를 포함하여 평가의 다양성을 높이는 것입니다.
- LLMs 를 활용하여 평가 프로세스를 자동화하고 확장성을 개선하는 것입니다.
- 다양한 datasets 에서 trained 된 agents 를 평가할 수 있도록 범용적인 action space 를 제공하는 것입니다.
이 논문의 컨트리뷰션 (A3 플랫폼의 특징):
- 현실적인 작업 환경 제공: 21개의 주류 타사 앱에서 추출한 201개의 작업을 포함하여 실제 사용 시나리오를 반영했습니다. 또한 이 작업들을 Operation, Single-frame query, Multi-frame query 세 가지 유형으로 분류하여 평가를 세분화했습니다.
- 확장된 Action Space: 모든 주요 datasets 의 action 들을 포함하는 범용 action space 를 제공하여, 어떤 dataset 에서 trained 된 agent 라도 평가할 수 있도록 했습니다.
- 자동화된 평가 시스템:
- Task-specific evaluation functions: 각 작업에 맞는 평가 함수를 제공하여 정밀한 평가를 가능하게 합니다.
- LLM-based evaluation system: LLMs (GPT-4o, Gemini 1.5 Pro)를 활용하여 평가를 자동화했습니다.
- evaluation functions 생성 자동화 (일부 수동 검증 필요)
- LLMs 가 직접 작업 완료 여부 평가 (교차 검증으로 신뢰도 향상)
- Dynamic Evaluation: 모든 평가는 real-time 상태를 기반으로 이루어져, 실제 사용 환경을 더 잘 시뮬레이션합니다.
정리:
이 논문은 "Android Agent Arena (A3)" 라는 새로운 mobile GUI agent 평가 플랫폼을 제안했습니다. A3 는 기존 평가 방식의 한계를 극복하고, 실제 사용 환경에 더 가까운 평가를 가능하게 합니다. 특히, LLMs 를 활용한 자동화된 평가 시스템은 이 플랫폼의 핵심적인 기여 중 하나이며, 향후 GUI agent 연구의 발전에 크게 기여할 것으로 기대됩니다.
