AI바라기의 인공지능

agent : 논문리뷰 : MOBILE-AGENT: AUTONOMOUS MULTI-MODAL MOBILE DEVICE AGENT WITH VISUAL PERCEPTION 본문

논문리뷰

agent : 논문리뷰 : MOBILE-AGENT: AUTONOMOUS MULTI-MODAL MOBILE DEVICE AGENT WITH VISUAL PERCEPTION

AI바라기 2025. 1. 6. 11:00

Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception

Purpose of the Paper

기존 Multimodal Large Language Models (MLLM) 기반 모바일 디바이스 에이전트는 스크린 내 operation의 정확한 위치 파악에 어려움을 겪는다는 한계가 존재했다. 기존 연구들은 이러한 문제를 해결하기 위해 Android 애플리케이션의 XML 파일이나 웹 애플리케이션의 HTML 코드를 활용하여 localization을 시도했지만, 이러한 방식은 해당 파일에 대한 접근 권한이 없는 경우 적용할 수 없다는 한계가 존재한다.

본 논문은 이러한 한계를 극복하기 위해 visual perception tools을 활용하여 오직 스크린샷만으로 operation을 정확하게 localization 할 수 있는 자율적인 멀티모달 모바일 디바이스 에이전트, Mobile-Agent를 제안한다. 이를 통해 시스템 특정 customization 없이 다양한 모바일 운영 환경에 적용 가능한 vision-centric 방식을 제공하는 것이 본 논문의 핵심 목적이다.

Key Contributions

  • Visual perception tools을 활용한 새로운 localization 방법론 제안: Mobile-Agent는 text detection module과 icon detection module로 구성된 visual perception module을 통해 스크린샷만으로 operation을 정확하게 localization 할 수 있다.
  • Self-planning 및 self-reflection 기능 구현: GPT-4V의 contextual capabilities를 활용하여 스크린샷, 사용자 지시 및 operation history를 기반으로 작업을 전체적으로 계획하는 self-planning 기능을 구현하였다. 또한, 잘못된 operation과 불완전한 지시를 식별하는 self-reflection 방법을 도입하여 에이전트의 신뢰도를 향상시켰다.
  • 모바일 디바이스 에이전트 평가를 위한 새로운 벤치마크, Mobile-Eval 제안: Mobile-Eval은 10개의 주류 모바일 Apps를 기반으로 다양한 난이도의 instruction을 포함하여 에이전트의 성능을 종합적으로 평가할 수 있는 벤치마크이다.
  • Mobile-Agent의 효과 검증: Mobile-Eval 기반 평가를 통해 Mobile-Agent가 높은 instruction 완료율과 operation 정확도를 달성하며, 심지어 multi-app operations와 같은 challenging instructions도 완수할 수 있음을 입증하였다.

Novelty

  • XML 파일이나 시스템 메타데이터에 의존하지 않는 vision-centric 접근 방식: 기존 연구들과 달리 Mobile-Agent는 오직 스크린샷만으로 operation을 localization함으로써 시스템 종속성을 제거하고 다양한 모바일 환경에 대한 적응력을 높였다.
  • Visual perception tools과 LLM의 결합을 통한 localization 정확도 향상: Text detection 및 icon detection module과 GPT-4V의 추론 능력을 결합하여 스크린 내 operation의 위치를 정확하게 파악할 수 있도록 하였다.
  • Self-planning 및 self-reflection을 통한 에이전트의 자율성 및 신뢰도 향상: Mobile-Agent는 사용자 instruction과 스크린 context를 기반으로 스스로 operation을 계획하고, 오류를 탐지 및 수정함으로써 자율적이고 신뢰할 수 있는 모바일 디바이스 사용 경험을 제공한다.

Experimental Highlights

  • Mobile-Eval 벤치마크를 기반으로 Mobile-Agent의 성능을 정량적으로 평가하였다.
  • Mobile-Agent는 세 가지 instruction 유형에서 각각 91%, 82%, 82%의 completion rates를 달성하였다.
  • PS (Process Score) metric을 통해 Mobile-Agent가 약 80%의 operation 정확도를 달성함을 확인하였다.
  • RE (Relative Efficiency) metric을 통해 Mobile-Agent가 human-optimal operations의 80% 수준의 효율성을 달성함을 입증하였다.
  • Case study를 통해 Mobile-Agent의 instruction 이해, 자율 계획, self-reflection, multi-app operation, 다국어 처리 능력을 시각적으로 제시하였다.

Limitations

  • 현재 Android 운영 체제에서만 평가가 이루어졌으며, 추후 다른 운영 체제로 확장될 필요가 있다.
  • GPT-4V의 limitations, 특히 중국어 처리와 관련된 한계가 존재한다.
  • 실제 사용 환경에서 발생할 수 있는 다양한 변수를 고려하여 robustness를 더욱 개선해야 한다.

Future Work

  • 다른 운영 체제 (e.g., iOS)로의 확장 및 agent의 일반화 능력 향상.
  • GPT-4V를 포함한 MLLMs의 발전과 함께 Mobile-Agent의 성능 개선.
  • 사용자 feedback을 반영하여 agent의 robustness와 usability 향상.
  • 새로운 기능 및 application 영역으로의 확장 (e.g., 게임, 복잡한 workflows).

 

 

 

 

 

 

 

 

ABSTRACT

Multimodal Large Language Models (MLLM) 기반의 모바일 기기 agent가 인기 있는 어플리케이션으로 부상하고 있습니다. 본 논문에서는 자율적인 멀티모달 모바일 기기 agent인 Mobile-Agent를 소개합니다. Mobile-Agent는 먼저 visual perception 툴을 활용하여 앱의 프론트엔드 인터페이스 내의 visual 및 textual elements를 정확하게 식별하고 위치를 파악합니다. 그런 다음, 인지된 vision 컨텍스트를 기반으로 복잡한 운영 작업을 자율적으로 계획하고 분해하며, 단계별 작업을 통해 모바일 앱을 탐색합니다. 앱의 XML 파일이나 모바일 시스템 메타데이터에 의존하는 이전 솔루션과 달리, Mobile-Agent는 vision 중심 방식으로 다양한 모바일 운영 환경에 더 잘 적응할 수 있도록 하여, 시스템별 커스터마이징의 필요성을 제거합니다. Mobile-Agent의 성능을 평가하기 위해, 모바일 기기 운영을 평가하기 위한 벤치마크인 Mobile-Eval을 도입했습니다. Mobile-Eval을 기반으로, Mobile-Agent에 대한 종합적인 평가를 수행했습니다. 실험 결과, Mobile-Agent가 놀라운 정확도와 완료율을 달성한 것으로 나타났습니다. 멀티 앱 운영과 같은 어려운 지시 사항에서도, Mobile-Agent는 여전히 요구 사항을 완료할 수 있습니다.

 

 

 

 

Figure 1: Mobile-Agent는 모바일 기기를 조작하기 위한 자율적인 agent입니다. 사용자 지시에 따라, Mobile-Agent는 요구 사항을 완료하기 위해 일련의 작업을 계획할 수 있습니다.

 

 

 

 

 

1 Introduction

LLM-based agent는 다양한 툴을 활용하여 task planning과 reasoning에서 강력한 능력을 보여주었습니다. Multimodal Large Language Models (MLLM)가 빠르게 발전하고 놀라운 visual comprehension 능력을 보여줌에 따라, MLLM-based agent의 실현이 가능해졌고, 또한 다양하고 혁신적인 어플리케이션에 대한 잠재력을 불러일으켰습니다.

최근, 모바일 기기 agent는 MLLM-based agent의 새롭고 인기 있는 어플리케이션으로 부상했습니다. agent는 화면과 사용자 지시에 따라 모바일 기기를 조작해야 합니다. 이를 위해서는 agent가 visual perception과 semantic understanding 능력을 모두 갖추어야 합니다. 그러나 state-of-the-art GPT-4V를 포함한 기존 MLLM은 여전히 효과적인 agent 역할을 하기에는 충분한 visual perception 능력이 부족합니다. 비록 GPT-4V가 효과적인 작업을 생성할 수 있지만, 화면에서 이러한 작업의 위치를 정확하게 파악하는 데는 어려움을 겪는다는 점을 지적합니다. 이러한 한계는 advanced MLLM만을 통해서는 모바일 기기에서 작업을 수행하는 능력을 저해합니다.

이 문제를 해결하기 위해, 기존 연구들은 user interface 레이아웃 파일을 활용하여 GPT-4V의 localization을 지원하려고 시도했습니다. 안드로이드 어플리케이션 XML 파일에 접근하여 화면에서 작업 가능한 위치를 추출했습니다. 웹 어플리케이션의 HTML 코드를 사용하여 localization을 지원했습니다. 이러한 방법들은 기본 파일의 접근성에 의존합니다. 그러나 많은 시나리오에서 이러한 파일에 접근할 수 있는 권한이 없을 수 있으며, 이로 인해 이러한 방법들은 효과가 없게 됩니다.

기존 localization 방법에서 기본 파일에 대한 의존성을 제거하기 위해, 본 연구에서는 visual perception을 갖춘 자율적인 모바일 기기 agent인 Mobile-Agent를 제안합니다. Mobile-Agent는 visual perception 모듈을 통해 모바일 기기의 스크린샷만으로도 작업을 정확하게 localization할 수 있습니다. visual perception 모듈은 detection과 OCR models로 구성되며, 각각 localization된 화면 영역의 내용을 설명하고 화면 내의 텍스트를 식별하는 역할을 담당합니다. 신중하게 제작된 prompts를 통해, agent와 툴 간의 효과적인 상호 작용을 촉진하여 모바일 기기 운영의 자동화를 가능하게 합니다. GPT-4V의 강력한 contextual 능력을 활용하여, Mobile-Agent는 스크린샷, 사용자 지시 및 작업 기록을 기반으로 작업을 전체적으로 계획하는 self-planning 능력을 달성합니다. 잘못된 작업과 불완전한 지시를 식별하는 agent의 능력을 향상시키기 위해, self-reflection 방법을 도입합니다. prompts의 안내에 따라, agent는 지속적으로 유효하지 않거나 잘못된 작업을 반성하고, 지시가 완료되면 agent가 중지할 수 있습니다. Mobile-Agent의 능력을 종합적으로 평가하기 위해, 현재 주류 모바일 앱을 중심으로 한 벤치마크인 Mobile-Eval을 도입했습니다. Mobile-Eval은 다양한 난이도의 지시를 포함합니다. Mobile-Eval을 기반으로 Mobile-Agent에 대한 분석을 수행했으며, 그 안에 있는 몇 가지 사례를 보여주고 분석했습니다. 실험 결과는 Mobile-Agent가 놀라운 지시 완료율과 작업 정확도를 보여준다는 것을 나타냅니다. 여러 앱을 조작하는 것과 같은 어려운 지시에서도, Mobile-Agent는 작업을 성공적으로 완료할 수 있습니다.

요약된 기여는 다음과 같습니다.

  • 자율적인 모바일 기기 agent인 Mobile-Agent를 제안합니다. Mobile-Agent는 작업 localization을 위해 visual perception 툴을 활용합니다. 각 단계를 self-plan하고 self-reflection을 완료할 수 있습니다. Mobile-Agent는 시스템 코드 없이 기기 스크린샷에만 의존하며, 이는 순전히 vision-based 솔루션입니다.
  • 모바일 기기 agent를 평가하기 위해 설계된 벤치마크인 Mobile-Eval을 소개합니다. 이 벤치마크는 10개의 일반적으로 사용되는 앱과 세 가지 난이도의 지시를 특징으로 합니다.
  • Mobile-Eval을 기반으로 Mobile-Agent에 대한 종합적인 분석을 수행했습니다. 그 능력을 분석하기 위해 선별된 전형적인 사례들을 제시했습니다.

 

 

핵심 키워드: Mobile-Agent, Autonomous, MLLM, Visual Perception, Localization, Mobile-Eval, Vision-Based, System-Agnostic

기존 연구의 한계:

  • State-of-the-art MLLM (e.g., GPT-4V)은 여전히 모바일 기기 agent로서 충분한 visual perception 능력이 부족함. 특히, 작업 위치를 정확히 파악(localization)하는 데 어려움을 겪음.
  • 기존 연구들은 XML, HTML 등 user interface 레이아웃 파일에 의존하여 localization 문제를 해결하려 했음. 이는 파일 접근 권한이 없을 경우 무용지물이 되는 한계가 존재.

Mobile-Agent의 차별점:

  • Visual Perception 기반 Localization: Mobile-Agent는 visual perception 모듈(detection + OCR models)을 통해 스크린샷만으로 작업 위치를 정확하게 파악.
  • System-Agnostic: XML, HTML 등 시스템 코드에 의존하지 않고 오직 vision-based 솔루션으로 작동. 즉, 다양한 모바일 환경에 적용 가능하며, 시스템별 커스터마이징 불필요.
  • Self-Planning & Self-Reflection: GPT-4V의 contextual 능력을 활용하여 스크린샷, 사용자 지시, 작업 기록을 기반으로 task를 전체적으로 계획(self-planning). 또한, 프롬프트 기반 self-reflection을 통해 오류를 스스로 인지하고 보완.

Mobile-Eval 벤치마크:

  • 모바일 기기 agent 평가를 위한 새로운 벤치마크 제안.
  • 10개의 주류 모바일 앱과 3단계 난이도의 지시를 포함.

주목할 만한 점:

  • Mobile-Agent는 순수하게 visual information만으로 localization을 수행하는, 기존 연구와는 차별화된 접근 방식을 제시함.
  • 시스템 코드에 의존하지 않기 때문에, 다양한 모바일 환경에 쉽게 적용 가능하며 확장성이 높을 것으로 기대됨.
  • Mobile-Eval 벤치마크는 모바일 agent 연구에 중요한 기여를 할 것으로 예상됨.

한 줄 요약: Mobile-Agent는 visual perception 기반의 localization을 통해 시스템 코드에 의존하지 않는, 자율적이고 확장 가능한 모바일 기기 agent를 제안함.

 

 

 

 

2 Mobile-Agent

이 섹션에서는 Mobile-Agent 프레임워크를 소개합니다. 이 프레임워크는 state-of-the-art MLLM인 GPT-4V, 텍스트 localization을 위한 text detection 모듈, 그리고 아이콘 localization을 위한 icon detection 모듈로 구성됩니다. 먼저 visual 툴을 사용하여 GPT-4V에 의해 생성된 지시를 모바일 기기의 특정 위치로 포지셔닝하는 방법에 대해 설명하겠습니다. 그 후, Mobile-Agent의 워크플로우를 설명하겠습니다.

2.1 Visual Perception

GPT-4V는 Localization 능력이 부족합니다. GPT-4V는 지시와 스크린샷에 대한 올바른 작업을 제공할 수 있지만, 기존 연구에 따르면 GPT-4V는 작업이 발생하는 위치를 효과적으로 출력할 수 없습니다. 따라서 작업이 모바일 기기 화면에 출력될 수 있도록 GPT-4V의 작업 localization을 지원하는 외부 툴이 필요합니다.

Text Localization. agent가 화면의 특정 텍스트를 탭해야 할 때, OCR 툴을 사용하여 화면에서 해당 텍스트의 위치를 감지합니다. 세 가지 시나리오를 살펴보겠습니다.

  • OCR detection 결과에 지정된 텍스트가 포함되지 않은 경우, agent는 탭할 텍스트를 다시 선택하거나 대체 작업을 선택하도록 지시받습니다. 이 상황은 GPT-4V가 소수의 hallucination을 가질 수 있는 복잡한 시나리오에서 종종 발생합니다.
  • OCR detection 결과에 지정된 텍스트의 인스턴스가 하나만 있는 경우, 해당 텍스트 박스의 중앙 좌표를 클릭하는 작업을 직접 생성합니다.
  • OCR detection 결과에 지정된 텍스트의 인스턴스가 여러 개 포함된 경우, 결과의 수를 평가합니다. 인스턴스가 많으면 현재 화면에 유사한 내용이 너무 많아 agent가 선택하기 어렵다는 것을 나타냅니다. 이러한 경우, agent는 탭할 텍스트를 다시 선택하도록 요청받습니다. 인스턴스가 적은 경우, 이러한 영역을 잘라내고 그 위에 detection 박스를 그립니다. 그런 다음, 이러한 영역을 사용하여 agent가 클릭할 영역을 선택하도록 합니다. 자를 때, 텍스트 detection 박스를 바깥쪽으로 특정 범위만큼 확장한 다음, 잘라낸 이미지에 detection 박스를 그립니다. 이는 더 많은 정보를 보존하고 agent의 의사 결정 프로세스를 용이하게 하기 위해 수행됩니다. 이 프로세스는 Figure 2의 왼쪽 상단에 표시되어 있습니다.

Icon Localization. agent가 아이콘을 클릭해야 할 때, icon detection 툴과 CLIP을 사용하여 아이콘의 위치를 찾습니다. 구체적으로, 먼저 agent에게 클릭할 아이콘의 속성(색상 및 모양 포함)을 제공하도록 요청합니다. 그 후, "icon"이라는 prompt와 함께 Grounding DINO를 사용하여 스크린샷의 모든 아이콘을 식별합니다. 마지막으로, CLIP을 사용하여 감지된 모든 아이콘과 클릭 영역 설명 간의 유사도를 계산하여 클릭할 유사도가 가장 높은 영역을 선택합니다. 이 프로세스는 Figure 2의 오른쪽 상단에 표시되어 있습니다.

2.2 Instruction Execution

Operation. agent가 출력한 액션을 화면의 작업으로 더 잘 변환하기 위해, Mobile-Agent에 대한 8가지 작업을 정의합니다.

  • Open App (App): 데스크탑 페이지에서 특정 앱을 엽니다.
  • Click the text (Text): "Text" 텍스트가 있는 화면 영역을 클릭합니다.
  • Click the icon (Icon, Position): "Position"에서 "Icon"으로 설명된 영역을 클릭합니다. "Icon"은 탭 위치의 색상, 아이콘 모양 등과 같은 속성을 포함한 설명을 제공합니다. "Position"은 오류 가능성을 최소화하기 위해 상단, 하단, 왼쪽, 오른쪽 또는 중앙에서 하나 또는 두 개의 옵션으로 선택해야 합니다.
  • Type (Text): 현재 입력 박스에 "Text"를 입력합니다.
  • Page up & down: 현재 페이지를 위아래로 스크롤하는 데 사용됩니다.
  • Back: 마지막 페이지로 돌아갑니다.
  • Exit: 현재 페이지에서 데스크탑으로 직접 돌아갑니다.
  • Stop: 지시가 완료되면 전체 프로세스를 종료합니다.

Self-Planning. Mobile-Agent는 작업의 각 단계를 반복적으로 완료합니다. 반복이 시작되기 전에, 사용자는 지시를 입력해야 합니다. 지시에 따라 전체 프로세스에 대한 system prompt를 생성합니다. 각 반복이 시작될 때, 현재 모바일 화면의 스크린샷을 캡처하여 agent에게 제공합니다. agent는 system prompt, 작업 기록 및 현재 화면 캡처를 관찰하여 다음 단계의 작업을 출력합니다. agent의 출력이 프로세스를 종료하는 것이면 반복이 중지되고, 그렇지 않으면 새 반복이 계속됩니다. Mobile-Agent는 작업 기록을 활용하여 현재 작업 진행 상황을 인식하고, system prompt를 기반으로 현재 스크린샷에 대한 작업을 생성함으로써 반복적인 self-planning 프로세스를 달성합니다. 이 프로세스는 Figure 2의 하단에 표시되어 있습니다.

Self-Reflection. 반복하는 동안, agent는 오류가 발생하여 지시를 완료하지 못할 수 있습니다. 지시의 성공률을 높이기 위해, self-reflection 방법을 도입했습니다. 이 방법은 두 가지 상황에서 적용됩니다. 첫 번째는 agent가 잘못되거나 유효하지 않은 작업을 생성하여 프로세스가 멈추는 경우입니다. agent가 특정 작업 후에 스크린샷이 변경되지 않았거나 스크린샷에 잘못된 페이지가 표시됨을 인지하면, agent에게 대체 작업을 시도하거나 현재 작업의 매개변수를 수정하도록 지시합니다. 두 번째는 agent가 복잡한 지시의 특정 요구 사항을 간과할 수 있는 경우입니다. agent가 self-planning을 통해 모든 작업을 완료한 후, agent에게 작업, 기록, 현재 스크린샷 및 사용자 지시를 분석하여 지시가 완료되었는지 확인하도록 지시합니다. 그렇지 않은 경우, agent는 self-planning을 통해 작업을 계속 생성해야 합니다. 이 프로세스는 Figure 2의 하단에 표시되어 있습니다.

Prompt Format. 위에서 설명한 기능을 더 잘 구현하기 위해, ReAct에서 사용된 prompt 형식에서 영감을 얻었습니다. agent가 Observation, Thought, Action의 세 가지 구성 요소를 출력하도록 요구합니다. Observation은 현재 스크린샷과 작업 기록에 대한 agent의 설명입니다. 이는 agent가 스크린샷의 업데이트를 인지하고 기록 기록을 기반으로 오류를 신속하게 식별하는 데 도움이 됩니다. Thought는 Observation과 지시에서 생성된 다음 단계 작업에 대한 agent의 고려 사항을 나타냅니다. agent는 Thought에서 다가오는 작업을 설명해야 합니다. Action은 agent가 Thought를 기반으로 8가지 작업 중 하나와 매개변수를 선택하도록 요구합니다.

 

 

Mobile-Agent: 핵심 요약 정리 (AI 연구자 대상)

핵심 키워드: Visual Perception, Text Localization, Icon Localization, Instruction Execution, Self-Planning, Self-Reflection, GPT-4V, OCR, CLIP, Grounding DINO

2.1 Visual Perception: GPT-4V의 한계 극복

  • 문제 인식: GPT-4V는 정확한 operation을 생성할 수는 있지만, localization 능력은 부족.
  • 해결책: 외부 툴(detection & OCR models)을 활용하여 GPT-4V의 localization 능력 보완.

구체적인 방법론:

  • Text Localization:
    • OCR을 사용하여 텍스트 위치 파악.
    • 3가지 시나리오에 따른 대응:
      1. 검출 실패: 텍스트 재선택 또는 다른 작업 선택 유도 (GPT-4V hallucination 고려).
      2. 단일 결과: 텍스트 박스 중앙 클릭.
      3. 다중 결과: 결과 수에 따라 재선택 요청 또는 detection box를 그려 선택 유도 (contextual 정보를 보존하여 agent 의사 결정 지원).
  • Icon Localization:
    • Icon detection 툴 & CLIP 활용.
    • Agent에게 아이콘 속성(색상, 모양) 요청.
    • Grounding DINO로 스크린샷 내 모든 아이콘 식별 ("icon" prompt 사용).
    • CLIP으로 아이콘과 agent가 요청한 아이콘 속성 간 유사도 계산, 가장 유사한 영역 클릭.

2.2 Instruction Execution: 자율성과 효율성을 위한 설계

  • 8가지 기본 Operation 정의: Open App, Click the text, Click the icon, Type, Page up & down, Back, Exit, Stop.
  • Self-Planning:
    • 반복적 프로세스 (Iteration).
    • System prompt, operation history, current screenshot을 기반으로 다음 단계 operation 생성.
    • Agent의 출력이 "Stop"이면 프로세스 종료.
    • 작업 기록을 인지하여, 현재 task 진행 상황을 파악하고 self-planning 수행.
  • Self-Reflection:
    • 오류 개선 및 성공률 향상을 위한 메커니즘.
    • 두 가지 발동 조건:
      1. 잘못되거나 유효하지 않은 operation 생성: 스크린샷 변화 없음 인지 시, 다른 작업 시도 또는 파라미터 수정.
      2. 복잡한 지시 요구 사항 간과: 모든 operation 완료 후, 지시 완료 여부 재확인. 미완료 시, self-planning 지속.
  • Prompt Format: ReAct에서 영감을 받아 Observation, Thought, Action으로 구성.

이 논문만의 차별점:

  • GPT-4V의 localization 한계를 극복하기 위해, 구체적이고 실용적인 visual perception 기반 localization 방법론 제시 (Text & Icon).
  • 단순한 operation 실행을 넘어, self-planning과 self-reflection을 통해 자율성과 효율성을 높임.
  • 실제 모바일 환경을 고려한 8가지 operation 정의 및 구체적인 prompt format 제시.

한 줄 요약: Mobile-Agent는 visual perception 툴을 활용하여 GPT-4V의 localization 한계를 극복하고, self-planning과 self-reflection을 통해 자율적이고 효율적인 모바일 기기 operation을 수행하도록 설계됨.