AI바라기의 인공지능
agent : 논문리뷰 : Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration 본문
agent : 논문리뷰 : Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
AI바라기 2025. 1. 6. 11:20Mobile-Agent-v2: Effective Navigation via Multi-Agent Collaboration
Purpose of the Paper
기존 Multi-modal Large Language Models (MLLMs)은 training data의 제약으로 인해 모바일 디바이스 조작 어시스턴트로서 효과적으로 기능하는 데 한계가 있었습니다. Tool invocation을 통해 capabilities를 향상시킨 MLLM-based agent가 이 시나리오에 점차 적용되고 있지만, 모바일 디바이스 조작 task에서 발생하는 두 가지 주요 navigation challenges, 즉 task progress navigation과 focus content navigation은 기존 연구의 single-agent architecture로는 효과적으로 해결하기 어려웠습니다. 이는 지나치게 긴 token sequences와 interleaved text-image data format 때문입니다.
본 논문은 이러한 navigation challenges를 효과적으로 해결하기 위해 모바일 디바이스 조작 어시스턴트를 위한 multi-agent architecture인 Mobile-Agent-v2를 제안합니다. 즉, single-agent architecture의 한계를 극복하고, 복잡한 모바일 디바이스 조작 task를 multi-agent collaboration을 통해 효과적으로 수행하는 것을 목적으로 합니다.
Key Contributions
- Multi-Agent Architecture 제안: Mobile-Agent-v2는 planning agent, decision agent, reflection agent의 세 가지 specialized agent roles로 구성된 multi-agent architecture를 제안합니다. 이 architecture는 single-agent framework에서 발생하는 다양한 navigating difficulties를 완화하도록 설계되었습니다.
- 효과적인 Task Progress Navigation을 위한 Planning Agent: Planning agent는 lengthy, interleaved image-text history operations와 screen summaries를 pure-text task progress로 condense하여 decision agent에 전달합니다. 이를 통해 decision agent는 task progress를 더 쉽게 navigate할 수 있습니다.
- Focus Content 유지를 위한 Memory Unit: Task progress와 함께 업데이트되는 memory unit을 설계하여, decision agent가 operation을 생성할 때 focus content를 참조하고, screen에 focus content가 있는지 확인하여 memory unit을 업데이트할 수 있도록 합니다.
- Erroneous Operation 수정을 위한 Reflection Agent: Reflection agent는 decision agent의 operation 전후 screen을 관찰하여 operation이 expectation을 충족하는지 확인하고, 충족하지 않을 경우 적절한 조치를 취하여 operation을 수정합니다.
- 실험적 검증: 다양한 operating systems, language environments, applications에서 Mobile-Agent-v2의 dynamic evaluations을 수행하여 single-agent architecture 대비 task completion에서 30% 이상의 성능 향상을 달성했음을 보여줍니다.
Novelty
- 모바일 디바이스 조작 task에 multi-agent architecture를 최초로 적용: 기존 연구들이 multi-agent architecture를 다양한 task에 적용하여 성능 향상을 달성했지만, 모바일 디바이스 조작 task에 적용한 연구는 없었습니다. Mobile-Agent-v2는 이 분야에 multi-agent architecture를 최초로 적용하여 새로운 접근 방식을 제시합니다.
- Task Progress Navigation과 Focus Content Navigation 문제 동시 해결: 기존 single-agent architecture는 task progress와 focus content를 동시에 효과적으로 navigate하기 어려웠습니다. Mobile-Agent-v2는 planning agent와 memory unit을 통해 이 두 가지 문제를 동시에 해결합니다.
- Reflection Agent를 통한 Error Correction: Reflection agent를 도입하여 decision agent의 operation을 평가하고 수정함으로써, erroneous operation이나 ineffective operation을 방지하고, agent의 robust operation generation을 가능하게 합니다.
Experimental Highlights
- 다양한 환경에서의 Dynamic Evaluation: Harmony OS와 Android OS, non-English와 English scenarios, 5개의 system apps와 5개의 popular external apps, basic instructions와 advanced instructions 등 다양한 환경에서 dynamic evaluations을 수행했습니다.
- Single-Agent 대비 30% 이상의 Task Completion 성능 향상: Mobile-Agent-v2는 single-agent architecture인 Mobile-Agent 대비 basic instructions와 advanced instructions 모두에서 significant improvements를 보였으며, 특히 advanced instructions에서 success rate가 20%에서 55%로 크게 향상되었습니다.
- Knowledge Injection을 통한 추가 성능 향상: Manually injected operation knowledge를 통해 Mobile-Agent-v2의 성능을 더욱 향상시킬 수 있음을 검증했습니다.
- Planning Agent, Reflection Agent, Memory Unit의 중요성 확인: Ablation study를 통해 planning agent, reflection agent, memory unit이 Mobile-Agent-v2의 성능에 crucial role을 한다는 것을 확인했습니다.
- 다양한 MLLMs에 대한 Evaluation: GPT-4V, Gemini-1.5-Pro, Qwen-VL-Max 등 다양한 MLLMs를 Mobile-Agent-v2 framework에 적용하여 evaluation을 진행하였고, agent architecture와 결합된 GPT-4V가 가장 effective configuration임을 확인했습니다.
Limitations
- Knowledge Injection의 Manual Process: 현재 knowledge injection은 manual process에 의존하고 있어, agent의 operation capability를 최대한 활용하기 위해서는 automated generation of high-quality operation knowledge에 대한 연구가 필요합니다.
- 긴 Operation Sequence에 대한 Error 발생 가능성: Mobile-Agent-v2는 long sequences in UI operation tasks를 더 잘 처리하지만, 여전히 긴 operation sequence에서 error가 발생할 가능성이 있습니다.
- Visual Perception Module의 성능 의존성: Visual perception module의 성능에 따라 Mobile-Agent-v2의 성능이 영향을 받을 수 있습니다.
Future Work
- Automated Generation of High-Quality Operation Knowledge: Agent의 operation capability를 최대한 활용하기 위해, high-quality operation knowledge를 automatically generate하는 방법에 대한 연구가 필요합니다.
- 긴 Operation Sequence에서의 Robustness 향상: 긴 operation sequence에서도 agent가 안정적으로 동작할 수 있도록 robustness를 향상시키는 연구가 필요합니다.
- Visual Perception Module의 성능 개선: Visual perception module의 성능을 개선하여 Mobile-Agent-v2의 전반적인 성능을 향상시키는 연구가 필요합니다.
- 더욱 복잡한 Task와 다양한 Application으로의 확장: Mobile-Agent-v2를 더욱 복잡한 task와 다양한 application에 적용하여 agent의 generality를 확장하는 연구가 필요합니다.
Abstract
모바일 디바이스 조작 작업은 점차 인기 있는 multi-modal AI 애플리케이션 시나리오가 되고 있습니다. 현재의 Multi-modal Large Language Models (MLLMs)는 training data의 제약으로 인해 조작 보조 장치로서 효과적으로 기능하는 능력이 부족합니다. 대신, 툴 호출을 통해 기능을 향상시키는 MLLM-based agents가 이 시나리오에 점진적으로 적용되고 있습니다.
하지만, 모바일 디바이스 조작 작업의 두 가지 주요 탐색 과제(task progress 탐색 및 focus content 탐색)는 기존 작업의 single-agent architecture에서 효과적으로 해결하기 어렵습니다. 이는 너무 긴 토큰 시퀀스와 인터리브된 텍스트-이미지 데이터 형식으로 인해 성능이 제한되기 때문입니다.
이러한 탐색 문제를 효과적으로 해결하기 위해, 우리는 모바일 디바이스 조작 보조를 위한 multi-agent architecture인 Mobile-Agent-v2를 제안합니다. 이 architecture는 planning agent, decision agent, reflection agent의 세 가지 agents로 구성됩니다.
planning agent는 길고 인터리브된 이미지-텍스트 history 작업과 화면 요약을 순수 텍스트 task progress로 압축하여 decision agent에게 전달합니다. 이러한 context 길이의 감소는 decision agent가 task progress를 더 쉽게 탐색할 수 있도록 합니다.
focus content를 유지하기 위해, 우리는 decision agent에 의해 task progress와 함께 업데이트되는 memory unit을 설계합니다. 또한, 잘못된 작업을 수정하기 위해 reflection agent는 각 작업의 결과를 관찰하고 그에 따라 오류를 처리합니다.
실험 결과는 Mobile-Agent-v2가 Mobile-Agent의 single-agent architecture와 비교하여 task 완료에서 30% 이상의 개선을 달성했음을 보여줍니다.
1 Introduction
GPT-4v OpenAI와 같은 Multi-modal Large Language Models (MLLMs)는 다양한 영역에서 뛰어난 능력을 보여주었습니다. Large Language Models (LLMs) 기반 agents의 급속한 발전과 함께, 다양한 visual perception 툴을 통해 특정 애플리케이션 시나리오에서 MLLMs의 한계를 극복할 수 있는 MLLM-based agents가 연구의 초점이 되고 있습니다.
실용적인 multi-modal 애플리케이션 시나리오로서 모바일 디바이스의 자동화된 작업은 AI 스마트폰 개발에서 주요한 기술 혁명으로 부상하고 있습니다. 그러나 기존 MLLMs는 제한된 화면 인식, 조작 및 위치 파악 능력으로 인해 이 시나리오에서 어려움을 겪고 있습니다.
이를 해결하기 위해 기존 작업은 MLLM-based agent architecture를 활용하여 MLLMs에 모바일 디바이스 UI를 인식하고 조작하는 다양한 기능을 부여합니다. AppAgent는 디바이스 XML 파일에서 클릭 가능한 위치를 추출하여 MLLMs의 위치 파악 한계를 해결합니다. 그러나 UI 파일에 대한 의존성은 이 방법의 다른 플랫폼 및 디바이스로의 적용 가능성을 제한합니다.
기반 UI 파일에 대한 의존성을 없애기 위해 Mobile-Agent는 visual perception 툴을 통한 위치 파악 솔루션을 제안합니다. MLLM을 통해 화면을 인식하고 작업을 생성하며, visual perception 툴을 통해 해당 위치를 파악합니다.
모바일 디바이스 조작 작업은 다단계 순차 처리를 포함합니다. 작업자는 초기 화면부터 지시 사항이 완전히 실행될 때까지 디바이스에서 일련의 연속적인 작업을 수행해야 합니다. 이 과정에는 두 가지 주요 과제가 있습니다.

그림 1: 모바일 디바이스 조작 작업은 history 작업 시퀀스에서 focus content와 task progress를 탐색해야 하며, 여기서 focus content는 이전 화면에서 가져옵니다. 작업 수가 증가함에 따라 입력 시퀀스의 길이가 길어지므로, single-agent architecture가 이 두 가지 유형의 탐색을 효과적으로 관리하는 것은 매우 어렵습니다.
첫째, 작업 의도를 계획하기 위해 작업자는 history 작업에서 현재 task progress를 탐색해야 합니다. 둘째, 일부 작업은 history 화면에서 작업 관련 정보가 필요할 수 있습니다. 예를 들어, 그림 1의 스포츠 뉴스 작성에는 이전에 쿼리한 경기 결과 사용이 필요합니다. 우리는 이 중요한 정보를 focus content라고 부릅니다. focus content는 또한 history 화면에서 탐색되어야 합니다. 그러나 task가 진행됨에 따라, 그림 1과 같이 입력으로 들어오는 인터리브된 이미지 및 텍스트 history 작업과 화면의 긴 history는 single-agent architecture에서 탐색 효율성을 크게 저하시킬 수 있습니다.
본 논문에서는 multi-agent 협업을 통한 효과적인 탐색 기능을 갖춘 모바일 디바이스 조작 보조 장치인 Mobile-Agent-v2를 제안합니다. Mobile-Agent-v2는 planning agent, decision agent, reflection agent의 세 가지 특화된 agent 역할을 갖습니다.
planning agent는 history 작업을 기반으로 task progress를 생성해야 합니다. history 화면에서 focus content를 저장하기 위해, 우리는 작업 관련 focus content를 기록하는 memory unit을 설계합니다. 이 unit은 작업을 생성할 때 decision agent에 의해 관찰되며, 동시에 화면에 focus content가 있는지 확인하고 이를 memory에 업데이트합니다.
decision agent는 이전 화면을 관찰하여 reflect 할 수 없기 때문에, 우리는 reflection agent를 설계하여 decision agent의 작업 전후 화면 변화를 관찰하고 작업이 기대치를 충족하는지 여부를 판단합니다. 작업이 기대치를 충족하지 않는다고 판단되면, 작업을 다시 실행하기 위한 적절한 조치를 취합니다.
전체 프로세스는 그림 3에 설명되어 있습니다. 세 가지 agent 역할은 각각 progress, decision, reflection 단계에서 작동하며, 탐색의 어려움을 완화하기 위해 협력합니다.
요약된 기여는 다음과 같습니다.
- 우리는 모바일 디바이스 조작 작업을 위한 single-agent framework에 내재된 다양한 탐색 어려움을 완화하기 위해 multi-agent architecture인 Mobile-Agent-v2를 제안합니다. 우리는 history 작업을 기반으로 task progress를 생성하는 planning agent를 설계하여 decision agent에 의한 효과적인 작업 생성을 보장합니다.
- focus content 탐색 및 reflection 기능 손실을 방지하기 위해, 우리는 memory unit과 reflection agent를 모두 설계합니다. memory unit은 decision agent에 의해 focus content로 업데이트됩니다. reflection agent는 decision agent의 작업이 기대치를 충족하는지 여부를 평가하고 기대치를 충족하지 못할 경우 적절한 수정 조치를 생성합니다.
- 우리는 다양한 운영 체제, 언어 환경 및 애플리케이션에서 Mobile-Agent-v2에 대한 동적 평가를 수행했습니다. 실험 결과는 Mobile-Agent-v2가 상당한 성능 향상을 달성했음을 보여줍니다. 또한, 우리는 Mobile-Agent-v2의 성능이 수동 작업 지식 주입을 통해 더욱 향상될 수 있음을 경험적으로 검증했습니다.
Mobile-Agent-v2: Introduction 섹션 정리 노트 (AI 연구자 대상)
핵심: 모바일 디바이스 조작을 위한 Multi-Agent Architecture 제안, 특히 "탐색(Navigation)" 문제 해결에 집중
기존 연구 및 문제점:
- MLLM-based agent: 모바일 디바이스 조작 분야에서 MLLM의 한계(화면 인식, 조작, 위치 파악 등)를 극복하기 위해 visual perception 툴을 활용한 agent 연구 활발 (e.g., AppAgent, Mobile-Agent)
- Single-agent의 한계:
- 긴 입력 시퀀스: 모바일 디바이스 조작은 다단계 순차 처리. Task 진행에 따른 history 작업/화면 데이터(이미지+텍스트)가 인터리브된 긴 입력 시퀀스는 탐색 효율 저하.
- 탐색의 어려움: 두 가지 주요 탐색 과제 존재:
- Task progress 탐색: 작업 의도 계획을 위해 history 작업에서 현재 task progress 파악 필요.
- Focus content 탐색: 이전 화면에 존재하는 작업 관련 중요 정보(focus content) 탐색 필요 (예: 이전 경기 결과 참조하여 스포츠 뉴스 작성).
Mobile-Agent-v2 제안:
- Multi-agent architecture: 위의 탐색 문제를 효과적으로 해결하기 위해 Mobile-Agent-v2 제안.
- 3가지 agent 역할:
- Planning agent: 긴 history 작업/화면 요약을 순수 텍스트 task progress로 압축하여 decision agent에 전달. 입력 길이 축소 -> 탐색 효율 향상.
- Decision agent: task progress 기반 작업 생성. Memory unit 활용하여 focus content 관리.
- Reflection agent: Decision agent 작업 전/후 화면 변화 관찰 -> 작업의 기대 충족 여부 판단 및 오류 발생 시 수정 조치.
- Memory unit: Task 관련 focus content 저장. Decision agent가 작업 생성 시 관찰 및 업데이트.
주요 기여:
- Multi-agent architecture: 모바일 디바이스 조작 task를 위한 single-agent framework의 탐색 어려움 완화.
- Planning agent: Task progress 생성으로 decision agent의 효과적 작업 생성 지원.
- Memory unit & Reflection agent: Focus content 손실 방지 및 reflection 기능 제공.
결론:
Mobile-Agent-v2는 multi-agent 협업을 통해 모바일 디바이스 조작 시 발생하는 탐색 문제를 해결하는 새로운 접근 방식을 제시합니다. 특히 planning agent, memory unit, reflection agent를 통해 긴 입력 시퀀스, task progress 탐색, focus content 관리 문제를 효과적으로 개선합니다.
AI 연구자 관점에서 주목할 만한 점:
- 모바일 디바이스 조작이라는 구체적이고 실용적인 문제를 multi-agent system으로 해결하려는 시도.
- Task progress와 focus content라는 두 가지 핵심 탐색 과제를 명확히 정의하고, 이를 해결하기 위한 구체적인 agent 역할 및 메커니즘 제안.
- 실험을 통해 성능 향상 입증, 수동 지식 주입을 통한 추가 개선 가능성 제시.
이 논문은 multi-agent system, MLLM, 모바일 디바이스 조작 분야 연구자들에게 흥미로운 아이디어와 연구 방향을 제시할 것으로 기대됩니다.
2 Related Work
2.1 Multi-agent Application
Large Language Models (LLMs)의 강력한 이해 및 reasoning 능력은 LLM-based agents가 독립적으로 작업을 실행하는 능력을 보여줄 수 있도록 합니다. 인간 팀 협업에서 영감을 받아 multi-agent framework가 제안되었습니다.
Park는 샌드박스 환경에서 25개의 agents로 구성된 Smallville을 구축합니다. Li는 역할극 기반 multi-agent 협업 framework를 제안하여 서로 다른 역할을 수행하는 두 agents가 자율적으로 협업할 수 있도록 합니다.
Chen은 여러 expert agents의 협업을 조정하기 위한 효과적인 multi-agent framework를 혁신적으로 제안합니다. Hong은 획기적인 메타 프로그래밍 multi-agent 협업 framework를 제시합니다. Wu는 사용자가 agents 수, 상호 작용 모드 및 툴 세트를 구성할 수 있는 일반적인 multi-agent framework를 제안합니다.
Chan, Subramaniam, Tao는 다른 텍스트 또는 생성된 콘텐츠의 품질을 평가하는 것을 목표로 multi-agent 토론 framework 구현을 조사합니다. Abdelnabi, Xu, Mukobi는 게임 이론 전략과 multi-agent 상호 작용을 통합하여 협력 및 의사 결정 능력을 모두 향상시키는 것을 목표로 합니다.
2.2 LLM-based UI Operation Agent
UI agents의 고전적인 애플리케이션 시나리오인 웹 페이지는 웹 agents 연구에 대한 광범위한 관심을 끌었습니다. Yao와 Deng은 고품질 웹사이트 작업 datasets를 구축하여 실제 웹 페이지 작업에서 agents의 성능을 향상시키는 것을 목표로 합니다.
Gur는 pre-trained LLMs와 self-experience 학습을 활용하여 실제 웹사이트에서 작업 처리를 자동화합니다. Zheng은 visual understanding 및 웹 페이지 조작을 위해 GPT-4V를 활용합니다.
동시에 모바일 플랫폼용 LLM-based UI agents에 대한 연구도 큰 관심을 끌었습니다. Wen은 Graphical User Interface (GUI) 정보를 HTML 표현으로 변환한 다음 애플리케이션별 도메인 지식과 함께 LLM을 활용합니다.
Yan은 GPT-4V를 기반으로 한 multi-modal 지능형 모바일 agent를 제안하여 주석이 달린 화면 스크린샷을 인식하기 위해 GPT-4V를 직접 활용하는 방법을 탐구합니다. 디지털 라벨이 있는 화면에서 작동하는 이전 접근 방식과 달리, Zhang은 모바일 애플리케이션을 조작할 때 인간의 공간적 자율성을 모방하는 위치 파악 작업을 위해 애플리케이션의 XML 파일을 결합합니다.
Wang은 애플리케이션의 XML 파일에 대한 의존성을 제거하고 위치 파악 작업을 위해 visual module 툴을 활용합니다. 또한 Hong은 pre-trained vision-language models를 기반으로 한 GUI agent를 설계했습니다. Chen과 Li는 실제 디바이스에 배포하기 위한 소규모 클라이언트 측 models을 제안합니다.
Zhang은 Windows 운영 체제에 맞춘 UI multi-agent framework를 제안했습니다. 많은 작업에서 multi-agent architectures가 달성한 상당한 성능 개선에도 불구하고, 현재 모바일 디바이스 조작 작업에 multi-agent architectures를 사용하는 작업은 없습니다.
본 논문에서는 모바일 디바이스 조작 작업에서 long-context 탐색 문제를 해결하기 위해 multi-agent architecture인 Mobile-Agent-v2를 소개합니다.
핵심: 기존 Multi-agent 연구 및 UI Operation Agent 연구를 Mobile-Agent-v2와 연관 지어 분석하고, 이 논문만의 차별성 강조
1. Multi-agent Application:
- LLM-based agent의 독립적 task 수행 능력을 기반으로 한 multi-agent framework 연구 활발.
- 다양한 접근법 존재:
- Smallville: 25개 agent 기반 샌드박스 환경 (Park et al.)
- 역할극 기반 협업: 서로 다른 역할의 두 agent 협업 (Li et al.)
- Expert agent 협업: 여러 expert agent 조정 (Chen et al.)
- 메타 프로그래밍: 유연한 agent 구성 (Hong et al.)
- 일반적 framework: agent 수, 상호 작용, 툴 세트 구성 가능 (Wu et al.)
- 토론 framework: 텍스트/콘텐츠 품질 평가 (Chan et al., Subramaniam et al., Tao et al.)
- 게임 이론 통합: 협력 및 의사 결정 능력 향상 (Abdelnabi et al., Xu et al., Mukobi et al.)
- 다양한 접근법 존재:
- 시사점: 본 논문은 모바일 디바이스 조작이라는 특수한 task에 적합한 multi-agent framework를 제안함으로써 기존 연구를 확장.
2. LLM-based UI Operation Agent:
- 웹 페이지 (Web agent):
- 고품질 dataset 구축: 실제 웹 페이지 task 성능 향상 (Yao et al., Deng et al.)
- Self-experience 학습: pre-trained LLM 활용, task 자동화 (Gur et al.)
- GPT-4V 활용: visual understanding 및 웹 페이지 조작 (Zheng et al.)
- 모바일 플랫폼:
- GUI -> HTML 변환: LLM과 도메인 지식 활용 (Wen et al.)
- GPT-4V 기반 multi-modal agent: 스크린샷 인식 (Yan et al.)
- XML 파일 활용: 위치 파악, 인간의 공간적 자율성 모방 (Zhang et al.)
- Visual module 툴: XML 파일 의존성 제거, 위치 파악 (Wang et al.) - Mobile-Agent와 유사
- Pre-trained vision-language model 기반 GUI agent (Hong et al.)
- 소규모 클라이언트 측 model: 실제 디바이스 배포 (Chen and Li et al.)
- Windows OS 용 UI multi-agent framework (Zhang et al.)
- 시사점: 기존 모바일 UI agent 연구는 주로 위치 파악(localization) 기술에 초점. 본 논문은 "long-context 탐색"이라는 새로운 문제에 집중하고, 이를 multi-agent architecture로 해결하고자 함.
Mobile-Agent-v2의 차별성:
- Multi-agent architecture를 모바일 디바이스 조작 task에 적용한 연구는 현재까지 부재.
- Mobile-Agent-v2는 "long-context 탐색"이라는, 기존에 주목받지 못했던 문제를 multi-agent architecture로 해결하고자 함.
- 단순 위치 파악을 넘어 task progress와 focus content 탐색이라는 고차원적인 문제를 다룸.
결론:
Mobile-Agent-v2는 기존의 multi-agent 및 UI operation agent 연구를 발전시켜, 모바일 디바이스 조작 task에 특화된 multi-agent architecture를 제시합니다. 특히 "long-context 탐색" 문제에 대한 새로운 접근 방식을 제안한다는 점에서 차별성을 가집니다.
AI 연구자 관점에서 주목할 만한 점:
- 모바일 디바이스 조작 task에 대한 multi-agent architecture의 첫 적용 사례.
- Long-context 탐색이라는 새로운 문제 제기와 그에 대한 해결책 제시.
- 기존 UI operation agent 연구와의 연관성 속에서 Mobile-Agent-v2의 독창성 부각.
3 Mobile-Agent-v2
이 섹션에서는 Mobile-Agent-v2의 architecture에 대한 자세한 개요를 제공합니다. Mobile-Agent-v2의 운영은 반복적이며, 그 프로세스는 그림 2에 묘사되어 있습니다. Mobile-Agent-v2는 planning agent, decision agent, reflection agent의 세 가지 특화된 agent 역할을 갖습니다.
또한 agent의 화면 인식 능력과 history에서 focus content를 탐색하는 능력을 향상시키기 위해 visual perception module과 memory unit을 설계합니다. 먼저, planning agent는 task progress를 업데이트하여 decision agent가 현재 task의 progress를 탐색할 수 있도록 합니다. 그런 다음 decision agent는 현재 task progress, 현재 화면 상태 및 reflection(마지막 작업이 잘못된 경우)을 기반으로 작업합니다. 그 후, reflection agent는 작업 전후의 화면을 관찰하여 작업이 기대치를 충족하는지 여부를 판단합니다.
3.1 Visual Perception Module
화면 인식은 state-of-the-art MLLMs조차도 end-to-end로 처리할 때 여전히 어렵습니다. 따라서 화면 인식 능력을 향상시키기 위해 visual perception module을 통합했습니다. 이 모듈에서는 텍스트 인식 툴, 아이콘 인식 툴, 아이콘 설명의 세 가지 툴을 활용합니다. 이 모듈에 스크린샷을 입력하면 궁극적으로 화면에 있는 텍스트와 아이콘 정보 및 해당 좌표를 얻을 수 있습니다. 이 프로세스는 다음 수식으로 표현됩니다.
Pt = VPM(St)
여기서 Pt는 t번째 반복에서 화면의 perception 결과를 나타냅니다.
3.2 Memory Unit
planning agent에 의해 생성된 task progress는 텍스트 형식이므로, history 화면에서 focus content를 탐색하는 것은 여전히 어렵습니다. 이 문제를 해결하기 위해, 우리는 history 화면에서 현재 task와 관련된 focus content를 저장하는 memory unit을 설계합니다. memory unit은 task가 진행됨에 따라 업데이트되는 단기 메모리 모듈 역할을 합니다. memory unit은 여러 앱과 관련된 시나리오에 중요합니다. 예를 들어, 그림 3과 같이 decision agent가 관찰한 날씨 정보는 후속 작업에 활용됩니다. 이 시점에서 날씨 앱의 페이지와 관련된 정보가 memory unit에 업데이트됩니다.
3.3 Planning Agent
우리는 별도의 agent를 사용하여 의사 결정 중 긴 history 작업에 대한 의존도를 줄이는 것을 목표로 합니다. 우리는 각 라운드의 작업이 서로 다른 페이지에서 발생하고 다르지만, 종종 여러 작업의 목표가 동일하다는 것을 관찰합니다. 예를 들어, 그림 1에 설명된 예에서 처음 네 가지 작업은 모두 경기 결과를 검색하는 것입니다. 따라서 우리는 history 작업을 요약하고 task progress를 추적하는 planning agent를 설계합니다.
t번째 반복에서 decision agent에 의해 생성된 작업을 Ot로 정의합니다. decision agent가 결정을 내리기 전에, planning agent는 마지막 반복에서 decision agent의 작업 Ot-1을 관찰하고 task progress T Pt-1을 T Pt로 업데이트합니다. task progress에는 이미 완료된 하위 task가 포함됩니다. task progress를 생성한 후, planning agent는 이를 decision agent에게 전달합니다. 이는 decision agent가 아직 완료되지 않은 task의 내용을 고려하여 다음 작업 생성을 용이하게 하는 데 도움이 됩니다.
그림 3과 같이 planning agent의 입력은 사용자 지시(Ins), memory unit의 focus content(F Ct), 이전 작업(Ot-1), 이전 task progress(T Pt-1)의 네 부분으로 구성됩니다. 위의 정보를 기반으로 planning agent는 T Pt를 생성합니다. 이 프로세스는 다음 수식으로 표현됩니다.
T Pt = PA(Ins, Ot-1, T Pt-1, F Ct-1)
여기서 PA는 planning agent의 LLM을 나타냅니다.
3.4 Decision Agent
decision agent는 decision 단계에서 작동하여 작업 O를 생성하고 이를 디바이스에서 구현하며, memory unit의 focus content F C를 업데이트하는 역할도 담당합니다. 이 프로세스는 그림 3의 Decision Stage에 설명되어 있으며 다음 수식으로 표현됩니다.
Ot = DA(Ins, T Pt-1, F Ct-1, Rt-1, St, Pt)
여기서 DA는 decision agent의 MLLM을 나타내고 Rt는 reflection agent의 reflection 결과를 나타냅니다.
Operation Space. 작업의 복잡성을 줄이기 위해, 우리는 operation space를 설계하고 decision agent가 이 공간 내에서만 작업을 선택하도록 제한합니다. 탭 및 스와이프와 같이 자유도가 높은 작업의 경우, 특정 콘텐츠를 찾거나 처리하기 위해 추가 매개변수 공간을 통합합니다. 다음은 operation space에 대한 자세한 설명입니다.
- Open app (app name). 현재 페이지가 홈 페이지인 경우, 이 작업을 사용하여 "app name"이라는 앱을 열 수 있습니다.
- Tap (x, y). 이 작업은 좌표 (x, y)의 위치를 탭하는 데 사용됩니다.
- Swipe (x1, y1), (x2, y2). 이 작업은 좌표 (x1, y1)의 위치에서 좌표 (x2, y2)의 위치로 스와이프하는 데 사용됩니다.
- Type (text). 현재 키보드가 활성 상태인 경우, 이 작업을 사용하여 입력 상자에 "text"의 내용을 입력할 수 있습니다.
- Home. 이 작업은 어떤 페이지에서든 홈 페이지로 돌아가는 데 사용됩니다.
- Stop. decision agent가 모든 요구 사항이 충족되었다고 생각하는 경우, 이 작업을 사용하여 전체 작업 프로세스를 종료할 수 있습니다.
Memory Unit Update. decision agent가 수행하는 각 작업은 task와 관련성이 높고 현재 페이지의 visual perception 결과를 기반으로 하기 때문에, 화면 페이지 내에서 task 관련 focus content를 관찰하는 데 적합합니다. 따라서 우리는 decision agent에게 memory unit을 업데이트하는 기능을 부여했습니다. 의사 결정을 내릴 때, decision agent는 현재 화면 페이지에 task 관련 focus content가 있는지 여부를 관찰하라는 메시지를 표시합니다. 이러한 정보가 관찰되면, decision agent는 후속 의사 결정에서 참조하기 위해 이를 memory에 업데이트합니다. 이 프로세스는 다음 수식으로 표현됩니다.
F Ct = DA(Ins, F Ct-1, St, Pt)
3.5 Reflection Agent
visual perception module이 있더라도 Mobile-Agent-v2는 여전히 예상치 못한 작업을 생성할 수 있습니다. 일부 특정 시나리오에서 MLLMs는 심각한 hallucination을 생성할 수도 있습니다. 가장 진보된 MLLM인 GPT-4V조차도 그렇습니다. 따라서 우리는 decision agent의 작업 전후 화면 상태를 관찰하여 현재 작업이 기대치를 충족하는지 여부를 판단하는 reflection agent를 설계합니다. 이 프로세스는 다음 수식으로 표현됩니다.
Rt = RA(Ins, F Ct, Ot, St, Pt, St+1, Pt+1)
여기서 RA는 reflection agent의 MLLM을 나타냅니다.
그림 3과 같이 reflection agent는 작업 실행 후 세 가지 유형의 reflection 결과(erroneous operation, ineffective operation, correct operation)를 생성합니다. 다음은 이 세 가지 reflection 결과에 대해 설명합니다.
- Erroneous operation은 디바이스를 task와 관련 없는 페이지로 이동시키는 작업을 말합니다. 예를 들어, agent는 메시징 앱에서 연락처 A와 채팅하려고 했지만 실수로 연락처 B의 채팅 페이지를 엽니다.
- Ineffective operation은 현재 페이지에 어떠한 변경도 초래하지 않는 작업을 말합니다. 예를 들어, agent는 아이콘을 탭하려고 했지만 대신 아이콘 옆의 빈 공간을 탭합니다.
- Correct operation은 decision agent의 기대치를 충족하고 사용자 지시의 요구 사항을 충족하는 단계 역할을 하는 작업을 말합니다.
erroneous operation의 경우, 페이지는 작업 전 상태로 되돌아갑니다. ineffective operation의 경우, 페이지는 현재 상태로 유지됩니다. erroneous operation과 ineffective operation은 agent가 이러한 작업을 따르는 것을 방지하기 위해 작업 history에 기록되지 않습니다. correct operation의 경우, 작업은 작업 history에 업데이트되고 페이지는 현재 상태로 업데이트됩니다.
핵심: Mobile-Agent-v2의 Architecture 상세 분석, 특히 Planning, Decision, Reflection Agent와 Memory Unit, Visual Perception Module의 역할 및 상호 작용에 집중
Mobile-Agent-v2 개요:
- 반복적 운영: 그림 2 참조.
- 3가지 Agent: Planning, Decision, Reflection.
- 보조 모듈: Visual Perception Module, Memory Unit.
3.1 Visual Perception Module:
- 목적: End-to-end 처리가 어려운 MLLM의 화면 인식 능력 향상.
- 구성: 텍스트 인식 툴, 아이콘 인식 툴, 아이콘 설명.
- 기능: 스크린샷 입력 -> 텍스트, 아이콘 정보 및 좌표 출력.
- 수식: Pt = VPM(St) (Pt: t번째 반복에서의 perception 결과).
- 핵심: state-of-the-art MLLM도 어려워하는 정교한 스크린샷 인식을 위해 별도의 비전 모듈 사용
3.2 Memory Unit:
- 목적: History 화면에서 task 관련 "focus content" 저장 (단기 메모리 역할).
- 배경: Planning agent의 task progress는 텍스트 형식 -> focus content 탐색 어려움.
- 중요성: 여러 앱 관련 시나리오 (예: 날씨 정보 활용).
- 핵심: 단순 텍스트 요약을 넘어, 이전 화면의 중요 시각적 정보(Focus Content)를 관리
3.3 Planning Agent:
- 목적: 긴 history 작업에 대한 의존도 감소, task progress 요약 및 추적.
- 배경: 여러 작업의 목표가 동일한 경우가 많음 (예: 경기 결과 검색).
- 기능: 이전 작업(Ot-1) 기반 task progress(T Pt) 업데이트, Decision agent에 전달.
- 입력: 사용자 지시(Ins), focus content(F Ct), 이전 작업(Ot-1), 이전 task progress(T Pt-1).
- 수식: T Pt = PA(Ins, Ot-1, T Pt-1, F Ct-1) (PA: Planning agent의 LLM).
- 핵심: 긴 History를 요약/압축하여 Decision Agent의 입력을 간소화, 효율적인 의사결정 지원
3.4 Decision Agent:
- 기능:
- 작업(O) 생성 및 디바이스에서 실행.
- Memory unit의 focus content(F C) 업데이트.
- 입력: 사용자 지시(Ins), task progress(T Pt-1), focus content(F Ct-1), reflection 결과(Rt-1), 현재 화면(St), perception 결과(Pt).
- 수식:
- 작업 생성: Ot = DA(Ins, T Pt-1, F Ct-1, Rt-1, St, Pt) (DA: Decision agent의 MLLM).
- Focus Content 업데이트: F Ct = DA(Ins, F Ct-1, St, Pt).
- Operation Space: 복잡성 감소를 위해 작업 공간 제한 (Open app, Tap, Swipe, Type, Home, Stop).
- 핵심:
- Planning Agent가 요약한 Task Progress와 Memory Unit의 Focus Content를 활용하여 작업 생성.
- 현재 화면에서 Task 관련 Focus Content를 "직접" 관찰하고 Memory Unit 업데이트.
3.5 Reflection Agent:
- 목적: Decision agent 작업 전/후 화면 상태 관찰 -> 작업의 기대 충족 여부 판단.
- 배경: MLLM의 오류 및 hallucination 가능성.
- 기능: 3가지 reflection 결과 생성 (erroneous, ineffective, correct).
- 입력: 사용자 지시(Ins), focus content(F Ct), 작업(Ot), 작업 전/후 화면 및 perception 결과(St, Pt, St+1, Pt+1).
- 수식: Rt = RA(Ins, F Ct, Ot, St, Pt, St+1, Pt+1) (RA: Reflection agent의 MLLM).
- 핵심:
- Decision Agent의 한계를 보완, 오류/비효율적 작업 감지 및 수정.
- "Erroneous"와 "Ineffective" 구분을 통해 정교한 오류 처리.
결론:
Mobile-Agent-v2는 Planning, Decision, Reflection Agent의 협업을 통해 모바일 디바이스 조작 task를 수행합니다. 특히 Visual Perception Module과 Memory Unit을 통해 각각 정교한 스크린 인식과 focus content 관리를 가능하게 합니다.
AI 연구자 관점에서 주목할 만한 점:
- Planning Agent: History 작업 요약을 통한 Decision Agent 입력 간소화 및 효율성 향상.
- Memory Unit: 단순 텍스트 요약을 넘어, 시각적 정보(focus content)를 관리하는 독창적인 메커니즘.
- Decision Agent의 Focus Content 직접 관찰: 현재 화면 정보를 Memory Unit 업데이트에 활용.
- Reflection Agent: 오류 및 hallucination에 대한 정교한 대응.
