AI바라기의 인공지능

agent : 논문리뷰 : AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents 본문

논문리뷰

agent : 논문리뷰 : AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents

AI바라기 2025. 1. 7. 12:54

AndroidLab 논문 정리 노트

Purpose of the Paper:

기존의 Android agent 연구는 오픈소스 및 클로즈드소스 모델에 대한 체계적인 연구가 부족했고, 대부분 정적인 환경에 의존하거나, prompt-based 개선에만 집중하여 모델의 행동 분석이나 강화 학습 실험에 제약이 있었습니다. 본 논문은 이러한 한계를 극복하기 위해, 체계적인 Android agent 프레임워크인 ANDROIDLAB을 제시하고, 오픈소스와 클로즈드소스 모델 모두를 포괄하는 재현 가능한 벤치마크를 제공하여 모델의 성능을 종합적으로 평가하고 개선하는 것을 목적으로 합니다.

Key Contributions:

  1. ANDROIDLAB 프레임워크: 표준 운영 환경과 벤치마크를 포함하는 체계적인 Android agent 평가 및 훈련 프레임워크를 개발했습니다. LLMs과 LMMs 모두를 동일한 액션 공간에서 지원하며, XML 모드와 SoM 모드를 통해 다양한 모달리티의 모델을 비교 평가할 수 있도록 설계되었습니다. ReAct와 SeeAct 프레임워크도 통합하여 모델의 추론 능력을 더욱 향상시키고자 했습니다.
  2. ANDROIDLAB 벤치마크: 9개의 앱에서 138개의 과제로 구성된 재현 가능하고 도전적인 벤치마크를 제공합니다. UI 트리 구조 매칭을 통한 정확한 과제 완료 평가 및 다양한 지표 (reversed redundancy, reasonable operation 등)를 활용하여 에이전트의 효율성을 종합적으로 평가합니다.
  3. Android Instruction 데이터셋: ANDROIDLAB 환경을 사용하여 생성된 Android Instruction 데이터셋 (10.5k traces, 94.3k steps)을 공개합니다. 이 데이터셋은 텍스트 기반 및 다중 모달 모델 모두를 위한 fine-tuning에 활용되며, 오픈소스 모델의 성능 향상에 크게 기여합니다.

Novelty:

ANDROIDLAB은 오픈소스 및 클로즈드소스 모델을 통합적으로 평가하는 최초의 체계적인 Android agent 벤치마크 프레임워크입니다. 다양한 모달리티(텍스트, 이미지)와 추론 프레임워크(ReAct, SeeAct)를 지원하고, 세분화된 평가 지표를 통해 모델의 성능과 효율성을 종합적으로 평가합니다. 또한, 대규모 Android Instruction 데이터셋을 공개하여 오픈소스 모델의 성능 향상에 기여했습니다.

Experimental Highlights:

  • 다양한 오픈소스 및 클로즈드소스 LLMs과 LMMs를 ANDROIDLAB 벤치마크에서 평가하여 그 성능을 비교 분석했습니다.
  • Android Instruction 데이터셋을 이용한 fine-tuning을 통해 오픈소스 모델의 성능을 크게 향상시켰습니다 (LLMs의 평균 성공률 4.59%에서 21.50%로, LMMs의 평균 성공률 1.93%에서 13.28%로 향상).
  • ReAct와 SeeAct 프레임워크의 효과를 실험적으로 분석했습니다. 특히 XML 모드에서 ReAct 프레임워크가 성능 향상에 효과적임을 확인했습니다.
  • 화면 크기가 에이전트 성능에 미치는 영향을 실험적으로 분석했습니다.

Limitations:

  • 현재 벤치마크에 포함된 앱의 종류와 과제의 수가 제한적일 수 있습니다. 향후 더 다양한 앱과 과제를 추가하여 벤치마크의 포괄성을 높일 필요가 있습니다.
  • 모델의 추론 시간 및 자원 소모에 대한 분석이 부족합니다. 향후 모델의 효율성을 더욱 개선하기 위해 추론 시간 및 자원 소모에 대한 분석이 필요합니다.

Future Work:

  • 더욱 다양한 앱과 과제를 추가하여 벤치마크의 범위를 확장하고, 더욱 복잡하고 다양한 시나리오를 포함하는 과제를 개발할 수 있습니다.
  • 다른 모바일 운영체제 (예: iOS)에 대한 지원을 추가하여 프레임워크의 호환성을 높일 수 있습니다.
  • 모델의 효율성을 더욱 개선하기 위해 모델 경량화 및 최적화 기술을 연구할 수 있습니다.
  • 강화 학습 기법을 활용하여 에이전트의 학습 효율을 높이는 연구를 수행할 수 있습니다.
  • 다른 모바일 에이전트 벤치마크와의 비교 분석을 통해 ANDROIDLAB의 강점과 약점을 더 명확히 파악할 수 있습니다.

 

 

 

Abstract

Autonomous agents는 현실 세계와 상호 작용하는 데 점점 더 중요해지고 있습니다. 특히, Android agents는 최근 자주 언급되는 상호 작용 방법입니다. 그러나 Android agents를 training하고 evaluating하기 위한 기존 연구는 open-source 및 closed-source models에 대한 체계적인 연구가 부족합니다. 이 작업에서 우리는 체계적인 Android agent framework인 ANDROIDLAB을 제안합니다. 여기에는 다양한 modalities, action space 및 재현 가능한 benchmark가 있는 operation environment가 포함됩니다. 동일한 action space에서 large language models (LLMs)와 multimodal models (LMMs)를 모두 지원합니다. ANDROIDLAB benchmark에는 사전 정의된 Android 가상 장치와 이러한 장치에 구축된 9개의 앱에 걸친 138개의 tasks가 포함됩니다. ANDROIDLAB environment를 사용하여 Android Instruction dataset을 개발하고 6개의 open-source LLMs 및 LMMs를 train하여 LLMs의 평균 성공률을 4.59%에서 21.50%로, LMMs의 평균 성공률을 1.93%에서 13.28%로 높였습니다.

 

 

 

 

1 Introduction

Autonomous agents가 모바일 운영 체제 내에서 인간의 지시를 실행하도록 개발하는 것은 오랫동안 연구자들의 목표였습니다. 최근에는 large language models (LLMs) 및 large multimodal models (LMMs)를 이러한 agents의 backbone으로 사용하는 데 중점을 둔 중요한 연구 라인이 등장했습니다.

상당한 진전에도 불구하고, mobile agents를 training하고 evaluating하는 것은 체계적인 탐구가 부족하여 어려움을 겪고 있습니다. 이전 benchmarks는 재현 가능하지만 정적인 환경에 의존하는 경우가 많았는데, 여기서 agents는 실제 상호 작용 없이 screenshots을 기반으로 작업을 예측해야 했습니다. AndroidEnv는 mobile agents를 위한 최초의 대화형 환경을 도입했으며 이후의 노력으로 재현성이 향상되었지만 여전히 한계가 있었습니다. 또한, 이러한 benchmarks는 체계적인 평가가 부족한데, 이는 주로 거의 모든 최근 benchmarks가 closed-source models에서만 prompt 기반 개선을 테스트하고 구현했기 때문입니다. 이러한 한계는 model 행동을 분석하고, 통찰력을 통합하고, reinforcement learning 실험을 효과적으로 수행하는 능력을 제한합니다. 다양한 modalities에 걸쳐 open-source 및 closed-source models를 비교하는 통합 benchmark가 없다는 점은 이 문제를 더욱 악화시켜 open-source 솔루션을 개선할 기회를 제한합니다.

이러한 문제들이 새로운 Android agent evaluation 및 training framework를 개발하도록 동기를 부여했습니다. 이 논문에서 우리는 Android 장치와 상호 작용하는 agents를 위한 표준 운영 환경과 benchmark를 포함하는 ANDROIDLAB을 제안합니다. 우리는 모바일 시스템의 서로 다른 관찰 내에서 작업과 객체를 정렬하여 LLMs 및 LMMs 전반에 걸쳐 기본 작업 모드를 정의합니다. XML과 screenshots를 각각 XML 모드와 SoM 모드라고 합니다. 또한 각 기본 모드에 대해 ReAct와 SeeAct의 두 가지 모드를 도입합니다.

 

Node 정보는 set-of-mark를 사용하여 screenshots에 대한 XML에 주석이 달려 있어 공정한 비교를 위해 모드 전반에 걸쳐 동일한 작업을 보장합니다. 이 환경을 기반으로 ANDROIDLAB benchmark는 9개의 서로 다른 앱에 걸쳐 138개의 tasks를 포함합니다. 미리 로드된 앱 운영 기록과 오프라인 데이터가 있는 Android 가상 장치를 활용하여 ANDROIDLAB은 재현성을 보장하고 외부 네트워크나 시간 의존성을 제거합니다.

 

이전 benchmarks는 평가 지표에 단점이 있었는데, 일반적으로 표준화된 작업 sequence 또는 장치 상태를 평가 지표로 제공하여 task 경로의 다양성을 제한하고 task 유형을 특정 장치 상태로 표현되는 task로 제한할 수 있습니다. ANDROIDLAB에서 각 task는 정확한 순회를 확인하는 UI 트리 구조 일치와 함께 하위 목표로서 여러 필수 페이지 상태로 나뉩니다. 이를 통해 task 완료 및 진행 상황을 정확하게 평가하고 시스템 상태 표현의 한계에 구애받지 않고 거의 모든 task를 평가할 수 있습니다. 또한 작업 효율성을 평가하기 위해 reversed redundancy 및 reasonable operation과 같은 지표를 도입합니다.

우리는 ANDROIDLAB benchmark를 사용하여 17개의 open-source 및 closed-source models를 평가했습니다. GPT 시리즈는 XML 및 SoM 모드 모두에서 30% 이상의 성공률을 달성했지만, open-source models는 성능이 좋지 않아 최고 수준이 약 5%의 성공률에 그쳤습니다. 더 복잡한 reasoning frameworks를 통해 mobile agent 성능을 향상시키려는 초기 시도는 추론 시간이 크게 증가했음에도 불구하고 미미한 개선으로 이어졌습니다. 따라서 소규모 open-source models를 fine-tuning하면 closed-source 성능과의 격차를 해소하여 mobile agent 접근성을 향상시킬 수 있습니다.

ANDROIDLAB의 작업 모드와 action space를 사용하여 Android Instruct dataset을 구성했습니다. 우리는 동일한 action space를 가진 온라인 주석 도구를 개발하여 주석자로부터 10.5k traces와 94.3k steps를 수집했습니다. 이 중 6208 steps는 ANDROIDLAB benchmark에 포함된 앱에서 파생되었으며, 우리는 이 데이터 부분을 사용하여 model을 fine-tune합니다. 이 dataset에는 tasks, phone screen states, XML 정보 및 작업이 포함되어 있으며 6개의 text-only 및 multimodal models를 fine-tune하는 데 사용되었습니다. 그림 2와 같이 우리 dataset으로 fine-tuning하면 LLMs의 평균 성공률이 4.59%에서 21.50%로, LMMs의 평균 성공률이 1.93%에서 13.28%로 향상됩니다. 추가 분석에 따르면 fine-tuning이 Android agents의 운영 정확도, 효율성을 개선하고 중복성을 줄입니다.

기여는 다음과 같이 요약됩니다.

  • 우리는 표준 운영 환경과 benchmark를 포함하는 ANDROIDLAB 제품군을 설계합니다. 이 제품군은 그림 1과 같이 Android Agents의 evaluation 및 training을 통합합니다.
  • 우리는 mobile agent 기능을 평가하기 위한 재현 가능하고 도전적인 benchmark인 ANDROIDLAB benchmark를 개발합니다. 여기에는 text-only 또는 multimodal 입력을 기반으로 하는 그림 3과 같이 시뮬레이션된 evaluation 환경과 138개의 tasks가 포함됩니다. ANDROIDLAB benchmark는 선도적인 model인 GPT-4o가 31.16%만 달성할 정도로 상당한 도전을 제시합니다. AndroidLab benchmark의 SoM 모드의 일부는 VAB-Mobile 구성 요소로 VisualAgentBench에도 포함됩니다.
  • 우리는 fine-tuning을 위한 94.3k 작업 기록을 포함하는 Android Instruct dataset을 구성합니다. 이 dataset은 표 1과 같이 text-only 및 multimodal training을 모두 지원하여 LLM 및 LMM models에서 경쟁력 있는 결과를 제공합니다. 또한 fine-tuned models가 비슷한 점수를 달성하고 효율성과 정확성의 최상의 균형을 제공한다는 것을 보여줍니다.

 

 

 

 

주요 문제의식:

  • 기존 Mobile Agent 연구는 체계적인 평가 및 학습 프레임워크가 부족했습니다.
  • 기존 벤치마크는 재현 가능하지만 정적인 환경에 의존하거나, Closed-source 모델에만 집중하여 모델 개선 및 분석에 한계가 있었습니다.
  • Open-source와 Closed-source 모델을 다양한 Modality에서 비교할 수 있는 통합 벤치마크가 없었습니다.

ANDROIDLAB 제안 (핵심):

  • 체계적인 Android Agent 프레임워크를 제공합니다.
    • 다양한 Modalities(XML, Screenshot), Action space, 재현 가능한 벤치마크를 포함한 표준 운영 환경을 제공합니다.
    • LLMs와 LMMs를 동일한 Action space에서 지원합니다.
  • ANDROIDLAB 벤치마크:
    • 138개의 Tasks와 9개의 Apps로 구성된 실질적이고 재현 가능한 벤치마크입니다.
    • Android 가상 장치와 오프라인 데이터를 활용하여 재현성을 높이고 외부 의존성을 제거했습니다.
    • UI 트리 구조 매칭을 통해 정밀한 Task 완료 평가 및 거의 모든 Task를 평가할 수 있습니다.
    • Reversed Redundancy, Reasonable Operation과 같은 새로운 지표를 도입하여 Action 효율성을 평가합니다.

주요 실험 및 결과:

  • 17개의 Open-source 및 Closed-source 모델 평가:
    • GPT 시리즈는 30% 이상의 성공률을 보였지만, Open-source 모델은 여전히 성능이 매우 낮습니다 (최고 약 5%).
  • Fine-tuning의 중요성:
    • Android Instruct Dataset (94.3k Operation Records) 구축 및 공개합니다.
    • Dataset을 활용한 Fine-tuning 결과, LLMs는 4.59%에서 21.50%, LMMs는 1.93%에서 13.28%로 성능이 대폭 향상되었습니다.
    • Fine-tuning은 Operation 정확도, 효율성을 개선하고 중복성을 줄이는 데 효과적입니다.

핵심 기여:

  • ANDROIDLAB: 표준 운영 환경과 벤치마크를 포함한 통합 Android Agent 프레임워크 제공합니다.
  • ANDROIDLAB 벤치마크: Mobile Agent 평가를 위한 재현 가능하고 도전적인 벤치마크를 개발하였습니다.
  • Android Instruct Dataset: Text-only 및 Multimodal 훈련을 지원하는 대규모 Operation Records 데이터셋을 제공합니다.

이 논문이 왜 중요한가?:

  • Mobile Agent 연구의 체계적인 발전을 위한 기반을 마련했습니다.
  • Open-source 모델의 성능 향상 가능성을 제시하고, Mobile Agent 개발의 접근성을 높였습니다.
  • 실질적이고 재현 가능한 벤치마크를 통해 Mobile Agent 연구의 발전을 가속화할 것으로 기대됩니다.
  • VisualAgentBench (VAB-Mobile) 에도 기여하여, 광범위한 연구 커뮤니티에 기여하고 있습니다.

 

 

 

 

 

 

2 Related Work

Agents를 위한 Benchmarks. 최근 large foundation models의 발전은 이러한 models에 맞춘 새로운 agent benchmarks로 이어졌습니다. Agents는 주로 코드 작성 또는 API 호출을 통해 외부 환경과 상호 작용합니다. 운영 체제와의 상호 작용을 위해 특별히 설계된 benchmarks는 데스크톱과 모바일로 분류되었습니다. 데스크톱의 경우, 정적 benchmarks는 가상 환경 없이 단일 단계 작업 또는 작업 sequence로 agents를 평가합니다. 반면, 동적 benchmarks는 대화형 웹 브라우저 또는 Unix와 유사한 시스템 가상 환경을 제공하여 평가를 보다 유연하고 현실적으로 만듭니다.

Android용 모바일 benchmarks는 PixelHelp 및 MetaGUI와 같은 정적 시스템으로 시작하여 5백만 개 이상의 이미지를 제공한 AITW를 통해 나중에 확장되었습니다. AndroidEnv는 동적 평가를 도입했고 Android Arena는 교차 앱 평가를 추가했습니다. 작업 다양성이 제한되었지만 B-MOCA는 Android Virtual Device를 표준화했습니다. AndroidWorld는 20개의 실제 앱에 걸쳐 116개 tasks에 대한 reward signals을 제공하지만 instruction-tuning 데이터 구성을 지원하지 않습니다.

대화형 시스템을 위한 Agents. 웹 환경의 경우, WebGPT 및 WebGLM은 향상된 question-answering을 위해 LLMs를 통합합니다. MindAct, WebAgent 및 AutoWebGLM은 복잡한 대화형 tasks 실행에 중점을 둡니다. 모바일 agents에서 Android 시스템에 대한 초기 작업은 여러 실행 모듈을 활용했습니다. PixelHelp는 작업을 이미지에 매핑한 반면, Auto-GUI는 CoT 출력을 위해 이미지 및 텍스트 인코더를 LLMs와 함께 사용했습니다. CogAgent는 작업 예측을 위한 모듈을 결합하여 AITW에서 SOTA를 달성했습니다. GPT-4V를 사용하는 최근의 zero-shot 모바일 agents는 강력한 결과를 보여주었지만 계획 복잡성으로 인해 추론 속도와 보안 제한으로 인한 실제 배포 가능성이 제한됩니다.

 

크게 2가지 연구 카테고리로 구분:

  1. Agents를 위한 Benchmarks:
    • 기존 연구: 주로 코드 작성 또는 API 호출을 통한 Agent-환경 상호작용에 집중했습니다.
    • Desktop vs. Mobile:
      • Desktop: 정적 벤치마크는 가상 환경 없이 단일/다중 스텝 작업을 평가, 동적 벤치마크는 가상 환경(웹 브라우저, Unix-like 시스템)을 제공하여 유연하고 현실적인 평가를 제공합니다.
      • Mobile (Android):
        • 초기: PixelHelp, MetaGUI 등 정적 시스템 위주였습니다.
        • 발전: AITW는 대규모 이미지 데이터셋을 제공, AndroidEnv는 동적 평가 도입, Android Arena는 교차 앱 평가 추가했습니다.
        • 한계: B-MOCA는 Android Virtual Device를 표준화했지만, 여전히 Task 다양성이 제한적입니다.
        • AndroidWorld: 20개 앱, 116개 Tasks에 대한 Reward Signal을 제공하지만, Instruction-tuning 데이터 구성을 지원하지 않습니다. (본 논문과의 차별점)
  2. 대화형 시스템을 위한 Agents:
    • Web Agents: WebGPT, WebGLM은 Question-answering에 LLMs를 활용, MindAct, WebAgent, AutoWebGLM은 복잡한 대화형 Task 수행에 초점을 맞춥니다.
    • Mobile Agents (Android):
      • 초기: 여러 실행 모듈을 활용 (e.g., PixelHelp는 이미지를 활용, Auto-GUI는 이미지/텍스트 인코더 + LLMs + CoT 활용).
      • CogAgent: AITW에서 SOTA를 달성했지만, 여전히 모듈 기반 구조입니다.
      • 최근: GPT-4V 기반 Zero-shot Mobile Agents는 우수한 성능을 보이지만, 계획 복잡성으로 인한 추론 속도 및 보안 제한으로 인한 배포 문제가 존재합니다. (본 논문과의 차별점)

핵심 요약 및 본 논문과의 연관성:

  • 기존 Mobile Agent 벤치마크는 정적 환경, 제한된 Task 다양성, Closed-source 모델 중심 평가, Instruction-tuning 데이터 부재 등의 한계가 있었습니다.
  • 최근 Zero-shot Mobile Agents는 성능은 우수하지만, 실용성 측면에서 여전히 개선이 필요합니다.
  • 본 논문은 ANDROIDLAB을 통해 이러한 한계를 극복하고, 보다 체계적이고 실용적인 Mobile Agent 연구를 위한 프레임워크를 제공하고자 합니다. 특히, Instruction-tuning을 위한 데이터셋 구축을 강조한다는 점에서 기존 연구와 차별화됩니다.

 

 

3 ANDROIDLAB

3.1 The Operation Environment

ANDROIDLAB은 action spaces 집합과 두 가지 operation modes를 정의하여 ANDROIDLAB environment를 구성합니다. 이전 연구의 주요 action space를 채택하고 model return value (finish action)를 추가합니다. 두 가지 기본 operation modes는 SoM과 XML-only이며, agent가 phone screen의 snapshot에 접근할 수 있는지 여부에 따라 다릅니다. 비교를 위해 ReAct와 SeeAct도 구현합니다. 이 framework는 실제 및 가상 Android 장치를 지원하며 Android와 유사한 모바일 운영 체제와 호환됩니다.

Action Space. AppAgent 및 Android Env의 action spaces를 기반으로 Tap, Swipe, Type, Long Press의 네 가지 기본 phone operations과 Home 및 Back의 두 가지 shortcut keys를 핵심 action space로 정의합니다. 마지막 단계로 Finish action을 추가하여 agent가 실행 결과나 답변을 반환할 수 있도록 합니다. 이 action space는 모든 모드에 적용됩니다.

XML Mode. XML 모드는 text-only 입력 models (LLM)에 맞게 조정됩니다. Android Arena에서 영감을 받아 화면 정보를 전달하기 위해 XML 압축 알고리즘을 재설계합니다. LLM은 operations을 위해 해당 요소를 직접 선택합니다.

SoM Mode. SoM 모드는 Set-of-Mark method를 기반으로 하는 multimodal 입력 models (LMM)용입니다. 클릭 가능하거나 focusable한 각 요소에는 일련 번호가 할당되고 LMM은 번호로 요소를 선택합니다. SoM 모드에서 선택된 요소는 압축된 XML 목록의 요소와 일치하므로 두 모드 모두 동일한 action space 및 객체와 상호 작용할 수 있습니다.

이러한 기본 operation modes는 agent가 operation commands를 직접 출력하도록 요구합니다. 이 두 가지 방법을 기반으로 두 가지 새로운 agent frameworks인 ReAct와 SeeAct를 추가로 테스트합니다. 이 두 frameworks는 agent가 환경을 관찰하고 반성하거나 실행할 특정 tasks를 더 쉽게 선택할 수 있도록 합니다. operation modes에 대한 자세한 내용은 부록 B를 참조하십시오.

ReAct modes. 위의 두 가지 모드를 기반으로, model이 단계별로 생각하고 사고와 추론 과정을 출력할 수 있도록 model을 prompt합니다.

SeeAct modes. 단일 작업에서 두 라운드 동안 상호 작용하도록 models에 지시합니다. models는 원하는 작업에 대한 자세한 설명을 생성하고 실제 작업을 각각 출력해야 합니다.

3.2 The Reproducible Benchmark

이 환경을 기반으로 ANDROIDLAB benchmark는 결정적이고 재현 가능한 evaluation platform을 제공하여 사용자가 Android agent 기능에 대한 공정하고 challenging comparisons을 수행할 수 있도록 합니다. ANDROIDLAB benchmark는 다음 설계를 도입합니다.

  • 재현성을 보장하기 위해 9개의 앱에서 138개의 tasks를 수집했습니다. 일반적인 모바일 시나리오에서 파생된 이러한 tasks는 두 가지 유형으로 나뉩니다. (a) Operation Tasks, agent가 목표를 달성하기 위해 일련의 작업을 완료해야 하는 경우, (b) Query Tasks, agent가 phone 정보를 기반으로 질문에 답하는 경우.
  • phone XML 데이터를 사용하여 task 완료를 고유하게 정의하는 화면 정보를 식별하여 task 완료를 주요 지표로 삼습니다. 또한 유효한 작업의 비율과 성공적인 작업 sequence의 중복성과 같은 보조 지표를 선택합니다.

3.2.1 Task Formulation

각 task 입력을 4-tuple로 공식화합니다: Task(E, I, F, M). 여기서 E는 task의 실행 환경을 나타내며, benchmark 테스트의 맥락에서는 사전 패키지된 AVD(Android 가상 장치) 이미지입니다. 여기에는 고정된 phone screen 크기, Android 버전, API 수준 및 고정된 앱 사용 상태가 포함됩니다. I는 task에 대한 특정 자연어 지시를 나타냅니다. 테스트 중 혼동을 피하기 위해 자연어로 task를 완료하는 데 필요한 앱을 지정합니다. F는 agent testing framework를 나타냅니다. 마지막으로 M은 task를 수행하는 데 사용되는 backbone model을 나타내며, 주로 LLMs 또는 LMMs를 지칭합니다.

따라서 ANDROIDLAB에 포함된 두 가지 유형의 tasks를 공식적으로 정의할 수 있습니다.

  • Operation Task. T(E, I, F, M) → (S1, . . . , Sn). 이 유형의 task의 출력은 연속적인 Android 가상 머신 상태의 sequence입니다.
  • Query Task. T(E, I, F, M) → (S1, . . . , Sn, A). 이 유형의 task는 탐색 후 상태 sequence를 기반으로 특정 질문에 답하는 agent의 능력을 평가합니다. model은 환경을 탐색하여 답을 찾고 올바른 응답을 출력해야 합니다.

위의 공식을 기반으로 93개의 Operation Tasks와 45개의 Query Tasks를 포함하여 138개의 tasks를 설계합니다. 자세한 내용은 부록 A를 참조하십시오.

3.2.2 Reproducible Designs

평가가 적절한 수준의 난이도와 완전한 재현성을 갖춘 실제 agent 사용 시나리오를 반영하도록 하기 위해 다음과 같은 고려 사항을 고려하여 tasks를 설계합니다.

  • 고정된 평가 시간 및 공간: 평가를 시작할 때 ADB 명령을 사용하여 시스템의 시간과 가상 위치 정보를 미리 결정된 값으로 설정합니다.
  • 오프라인 테스트: 모든 테스트 앱은 오프라인으로 작동하며, 인터넷 연결 없이 정상적인 사용성을 보장하기 위해 AVD 이미지에 사용 기록이 미리 로드되어 있습니다.
  • 사전 정의된 답변: query 기반 tasks의 경우 해당 앱에서 사전에 작업을 수행하여 고유하게 결정된 올바른 결과를 보장합니다.

3.2.3 Metrics

가상 환경을 사용한 이전 평가는 단일 단계 정확도 및 작업 경로 일치와 같은 간접적인 지표에 의존하여 부정확한 평가로 이어졌습니다. 이에 대응하여 ANDROIDLAB benchmark는 장치 및 화면 상태에서 직접 판단하는 task 완료 기반 evaluation system을 도입합니다. 주요 지표는 다음과 같습니다.

  • Success Rate: Operation Tasks의 경우, 완전한 task를 여러 하위 목표로 나누고 각 하위 목표 완료에 대한 특정 페이지 정보를 식별했습니다. 특정 UI 트리 요소를 확인하고 일치시킴으로써 각 하위 목표 완료 상태를 개별적으로 평가합니다. 모든 하위 목표가 완료되면 task가 성공적으로 실행된 것으로 간주됩니다. 또한 장치 상태를 사용하여 올바르게 완료되었는지 여부를 직접 확인할 수 있는 몇 가지 tasks를 설정했습니다. Query Tasks의 경우, 고급 LLMs는 model의 예측 결과가 표준 답변과 일치하는지 확인하여 직접적인 문자열 비교로 인한 오류를 방지합니다. 그림 4에 예시를 제공합니다.
  • Sub-Goal Success Rate: Tasks는 하위 목표로 분해되고 완료 여부는 순차적으로 평가됩니다. 이 더 세분화된 지표는 더 강력한 이해 및 운영 능력을 가진 models에 보상을 제공합니다. Operation Tasks에만 Sub-Goal Success Rate가 포함됩니다.
  • Reversed Redundancy Ratio: 이전 연구와 마찬가지로 중복성은 model의 작업 경로 길이를 인간 benchmark와 비교하여 측정됩니다. 완료된 tasks에 대해 이를 계산하고 역수를 취하므로 값이 높을수록 중복성이 낮음을 나타냅니다. 완료된 tasks가 너무 적어 적은 수의 특수 값에 의해 영향을 받을 수 있으므로 SR < 5는 보고하지 않습니다. 또한 이 지표는 인간 작업 단계가 반드시 최적은 아니기 때문에 100을 초과할 수 있음을 강조해야 합니다.
  • Reasonable Operation Ratio: 이 지표는 화면이 변경된 작업의 비율을 평가합니다. 변경되지 않은 화면은 작업이 비효율적이었음을 나타내므로 불합리한 것으로 간주됩니다.

이러한 지표를 통합함으로써 우리의 evaluation system은 지정된 tasks를 완료하는 agent의 성능에 대한 포괄적이고 정확한 평가를 제공합니다.

 

 

 

ANDROIDLAB = Operation Environment + Reproducible Benchmark

3.1 The Operation Environment:

  • 핵심: LLMs와 LMMs를 모두 지원하는 유연한 Action Space와 Operation Mode를 정의합니다.
  • Action Space:
    • 기존 연구(AppAgent, Android Env) 기반 + Finish Action 추가 (Agent가 결과 반환을 명시).
    • Tap, Swipe, Type, Long Press, Home, Back 등 핵심 Action 포함.
  • Operation Modes:
    • XML Mode (Text-only, LLMs): XML 압축 알고리즘 재설계, LLMs가 직접 Element 선택.
    • SoM Mode (Multimodal, LMMs): Set-of-Mark 기반, LMMs가 번호로 Element 선택, XML Mode와 동일한 Action Space 및 객체와 상호작용.
    • ReAct 및 SeeAct Mode:
      • ReAct: Model이 단계별로 생각하고 추론 과정을 출력하도록 유도.
      • SeeAct: Reasoning과 Element Grounding 분리, 두 라운드로 상호작용 지시 (원하는 Action 설명 생성 -> 실제 Action 출력).
  • 핵심 차별점:
    • LLMs와 LMMs를 위한 통합된 Action Space를 제공하여 공정한 비교가 가능합니다.
    • ReAct와 SeeAct를 통해, Agent의 Reasoning 능력을 향상시키고, 세부적인 Task Selection을 가능하게 합니다.

3.2 The Reproducible Benchmark:

  • 핵심: 재현 가능하고, 도전적이며, 실제 사용 시나리오를 반영하는 벤치마크를 제공합니다.
  • 주요 특징:
    • 138개 Tasks, 9개 Apps: 일반적인 모바일 시나리오를 반영하는 Operation Tasks와 Query Tasks로 구성.
    • Task 완료 기반 평가:
      • UI 트리 구조 매칭을 통한 정밀한 Sub-goal 단위 평가를 제공합니다.
      • 직접적인 String 비교가 아닌 LLMs를 활용한 Query Task 정답 검증을 수행합니다.
    • 재현성을 위한 설계:
      • 고정된 평가 시간 및 공간: ADB 명령으로 시간 및 가상 위치 정보 설정.
      • 오프라인 테스트: AVD 이미지에 사용 기록을 미리 로드하여 인터넷 연결 없이 테스트 가능.
      • 사전 정의된 답변: Query Tasks에 대한 정답을 사전에 정의하여 일관성 확보.
  • 평가 지표 (Metrics):
    • Success Rate: 전체 Task 완료 여부 평가.
    • Sub-Goal Success Rate: Sub-goal 단위 완료 여부 평가 (Operation Tasks에만 해당).
    • Reversed Redundancy Ratio: (Model Operation Path Length / Human Benchmark)의 역수로, 값이 높을수록 중복성이 낮음을 의미.
    • Reasonable Operation Ratio: 화면 변경을 유발한 Operation의 비율을 측정.
  • 핵심 차별점:
    • 단순 정확도나 경로 일치를 넘어, Task 완료 여부를 중심으로 실질적인 Agent 성능을 평가합니다.
    • Sub-goal 단위 평가를 통해, Agent의 세부적인 능력을 파악할 수 있습니다.
    • 재현성을 위한 철저한 설계를 통해, 공정하고 신뢰할 수 있는 평가를 보장합니다.

결론:

ANDROIDLAB은 LLMs와 LMMs를 모두 지원하는 유연한 환경과 재현 가능하고 실질적인 벤치마크를 통해, Mobile Agent 연구의 발전을 가속화할 핵심적인 도구로 기능할 것입니다. 특히, Task 완료 기반 평가와 Sub-goal 단위 분석은 기존 벤치마크와 차별화되는 강점이며, ReAct와 SeeAct 모드는 Agent의 Reasoning 능력을 향상시키는 새로운 방향성을 제시합니다.