agent 논문리뷰 : CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation

논문리뷰

agent 논문리뷰 : CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation

AI바라기 2025. 1. 4. 20:45

CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation 논문 정리 노트

Purpose of the Paper

기존 Multimodal large language models (MLLMs)은 real-world 환경, 특히 graphical user interface (GUI) automation에서 human-like autonomous language agents로서 놀라운 잠재력을 보여주었지만, exhaustive perception과 reliable action response를 포함한 comprehensive cognition 능력이 부족하다는 한계가 있었습니다.

본 논문은 이러한 한계를 극복하고, 스마트폰 GUI automation을 위한 comprehensive cognition 능력을 갖춘 MLLM agent, CoCo-Agent를 제안합니다. 특히, 기존 GUI agent들이 (i) 강력한 (M)LLMs에 의존하고 (ii) 불충분한 GUI environment modeling을 가진다는 두 가지 vital challenges를 해결하는 데 중점을 둡니다.

Key Contributions

Comprehensive Cognitive LLM Agent, CoCo-Agent를 제안합니다. CoCo-Agent는 두 가지 novel approaches를 통해 GUI automation performance를 systematically 향상시킵니다.
- Comprehensive Environment Perception (CEP): screenshots, complementary detailed layouts (visual channel), historical actions (textual channel) 등 different aspects and granularity를 통해 GUI perception을 facilitate합니다.
- Conditional Action Prediction (CAP): action prediction을 action type prediction과 action target prediction (conditioned on the action type)으로 decompose하여 sub-problems를 해결합니다.
AITW and META-GUI benchmarks에서 state-of-the-art performance를 달성하여 realistic scenarios에서의 promising abilities를 보여줍니다.
GUI automation에 대한 systematic study를 위한 extensive analyses를 제공하며, element ablation, visual module selection, future action prediction을 포함한 deep analyses를 통해 significant effectiveness와 realistic potential을 보여줍니다.

Novelty

CEP: 기존 연구들이 screenshots에만 의존하거나 general image semantics (e.g., captioning)에만 초점을 맞춘 반면, CEP는 screenshots, layouts, historical actions를 integrated하여 fine-grained details and intricate semantic connections를 포착합니다. 이를 통해 GUI environment를 보다 comprehensively modeling합니다.
CAP: 기존 연구들이 complex and redundant GUI action commands를 directly predicted하는 반면, CAP는 action prediction을 action type과 action target으로 decompose하고, natural language-like expressions를 사용하여 accuracy를 유지하면서도 flexibility를 높입니다.
Combined CEP and CAP: CEP와 CAP를 결합하여 GUI agent의 perception and action response 능력을 synergistically enhance합니다.

Experimental Highlights

Datasets: AITW (application manipulation, web operation, dialogues 포함) and META-GUI (diverse tasks in realistic scenarios) benchmarks를 사용합니다.
Baselines:
- Uni-modal/Multimodal API-based methods: PaLM-2, ChatGPT, MM-Navigator (GPT-4V based)
- Training-based methods: Behavioural Cloning, LLaMA-2, Auto-UI, CogAgent
- META-GUI baselines: LayoutLMs, BERT, m-BASH
Results:
- CoCo-Agent는 AITW and META-GUI benchmarks에서 state-of-the-art performance를 달성했습니다. (Single subset 제외)
- Unified model은 separate training보다 consistent advances를 보여 generalizability를 입증합니다.
- Ablation study는 CEP의 각 element (goal, image, layout, history)가 significant improvement를 가져온다는 것을 보여줍니다. 특히 layout (+5.82%) and action history (+5.63%)의 효과가 큽니다.
- Replacement experiment는 layouts and action history가 wrong information에 민감하며, accurate modeling의 중요성을 보여줍니다.
- CoCo-Agent는 integrated CLIP with projector를 사용하며, 이는 learnable queries를 사용하는 visual LMs보다 GUI tasks에 더 적합합니다.
- Future action prediction (n=3)은 여전히 challenging task임을 보여줍니다.
- Dataset analysis는 action type categories의 unbalanced distribution과 realistic scenarios와의 disparity를 보여줍니다.

Limitations

Resource consumption: large amount of data로 인해 training process는 zero-shot methods에 비해 computational resources를 많이 소모합니다.
More complex settings: future action predictions은 여전히 개선이 필요하며, ultimate goal은 simulated GUI environment 또는 realistic device에서 full episodes를 operate하는 것입니다.
Unbalanced category distributions: dataset의 action type categories가 unbalanced distribution을 보입니다.
Underestimation of agent performance: benchmarks는 randomness로 인해 realistic scenarios와 disparity가 있어 agent performance를 underestimate할 수 있습니다.

Future Work

Generalization ability: new instructions, new applications, new operating systems를 지원하기 위한 generalization ability를 향상시켜야 합니다.
Improved multimodal training strategies: GUI perception을 vision-language pre-training 또는 instruction tuning에 integrated하여 multimodal LLMs를 strengthen해야 합니다.
Comprehensive measurements: practical scenarios에서 different paths for the same goal을 반영하도록 measurements를 개선해야 합니다.
Performance improvement: AITW (79.05%) and META-GUI (88.27%) dataset에서 performance를 더욱 향상시키고, full-episode prediction을 위한 future action reasoning and planning 능력을 개선해야 합니다.
Ethics Statement: Data Privacy, System Security, Potential Social Impacts에 대한 고려 사항을 논의합니다.

Abstract

Multimodal large language models (MLLMs)는 특히 graphical user interface (GUI) 자동화와 관련하여 실제 환경과 상호 작용하는 인간과 유사한 autonomous language agents로서 놀라운 잠재력을 보여주었습니다. 그러나 이러한 GUI agents는 포괄적인 인식 및 신뢰할 수 있는 작업 반응을 포함한 종합적인 인지 능력을 요구합니다. 우리는 GUI 자동화 성능을 체계적으로 개선하기 위해 두 가지 새로운 접근 방식인 comprehensive environment perception (CEP)와 conditional action prediction (CAP)을 갖춘 Comprehensive Cognitive LLM Agent, CoCoAgent를 제안합니다. 첫째, CEP는 visual channel을 위한 screenshots과 보완적인 세부 layouts, textual channel을 위한 historical actions을 포함하여 다양한 측면과 세분성을 통해 GUI 인식을 용이하게 합니다. 둘째, CAP는 action prediction을 하위 문제로 분해합니다. action type prediction과 action type에 따른 action target입니다. 우리의 기술 설계로, 우리 agent는 AITW 및 METAGUI benchmarks에서 새로운 state-of-the-art 성능을 달성하여 실제 시나리오에서 유망한 능력을 보여줍니다.

CoCoAgent: A Comprehensive Cognitive LLM Agent for GUI Automation - 핵심 정리 노트

한 줄 요약: GUI 자동화를 위한 똑똑한 MLLM Agent, CoCoAgent 등장! Comprehensive Environment Perception (CEP)과 Conditional Action Prediction (CAP)으로 state-of-the-art 성능 달성!

이 논문이 왜 중요해?

기존 MLLMs는 GUI 자동화에 쓰이긴 했지만, 인간 수준의 GUI 인지 및 행동 능력에는 한계가 있었음.
이 논문은 GUI 자동화 에이전트의 인지 능력을 크게 향상시키는 새로운 접근법을 제시함.

그래서, 뭐가 새로운데?

Comprehensive Environment Perception (CEP): GUI를 더 잘 이해하게 만들자!
- 단순히 스크린샷만 보는 게 아니라, visual 정보(스크린샷 + 세부 레이아웃) 와 textual 정보(과거 행동 기록) 를 모두 활용해서 GUI를 다각도로 파악함.
- 마치 사람이 GUI를 볼 때 화면 구성 요소와 이전에 했던 작업들을 종합적으로 고려하는 것처럼!
Conditional Action Prediction (CAP): 다음 행동을 더 정확하게 예측하게 만들자!
- Action prediction을 두 단계로 쪼갬:
  1. Action type prediction: 먼저 어떤 종류의 행동을 해야 할지 예측 (예: 클릭, 입력, 스크롤)
  2. Action target prediction: Action type이 정해지면, 그 행동을 어디에 해야 할지 예측 (예: 어떤 버튼을 클릭할지, 어떤 텍스트 필드에 입력할지)
- 마치 사람이 행동을 계획할 때 "뭘 할까?"를 먼저 생각하고, 그 다음에 "어디에다 할까?"를 정하는 것처럼!

그래서, 뭐가 좋아졌는데?

AITW와 METAGUI 벤치마크에서 state-of-the-art 성능 달성!
실제 시나리오에서도 잘 작동하는 유망한 MLLM 에이전트를 보여줌.

결론:

CoCoAgent는 CEP와 CAP이라는 혁신적인 방법을 통해 MLLM 기반 GUI 자동화 에이전트의 성능을 한 단계 끌어올렸음.
이 연구는 더 똑똑하고 유능한 autonomous agents 개발에 중요한 발걸음이 될 것임.

1 Introduction

Graphical user interface (GUI) 자동화는 인간의 노력 대신 artificial intelligence를 사용하여 운영 체제에서 인간과 유사한 작업을 수행하는 것을 목표로 합니다. Large language models (LLMs)는 인간과 유사한 agent로서 훌륭한 성능을 보여주었으며, 인식(Yao et al., 2022), reasoning (Li et al., 2023b; Park et al., 2023), 행동(Wang et al., 2023; Richards, 2023)과 같은 새로운 능력을 보여주었습니다. Multimodal 기능이 강화되면서, MLLM agents는 인간 운영자를 대신하여 복잡한 작업을 처리하는 유망한 autonomous GUI assistants가 되었습니다. GUI 환경과 상호 작용하기 위해 이러한 agents는 포괄적인 인식 및 신뢰할 수 있는 작업 반응을 포함한 종합적인 인지 능력을 요구합니다.

Autonomous agents의 현재 주요 과제는 두 가지 측면에 있습니다. 하나는 (i) 강력한 (M)LLMs에 대한 의존성이고, 다른 하나는 (ii) 불충분한 GUI 환경 모델링입니다.

GPT-4V (OpenAI, 2023) 및 ChatGPT (Ouyang et al., 2022)와 같은 강력한 (M)LLMs가 autonomous agents의 개발에 불을 붙였지만, 실제 사용에는 단점이 있습니다. 첫째, GUI commands와 natural languages 사이에는 큰 차이가 있기 때문에 alignment에는 신뢰할 수 있는 domain transfer가 필요합니다. GUI agents는 실행 가능한 GUI commands로서 정확하고 잘 구성된 응답을 생성해야 하며, 이는 zero-shot prompting에서는 쉽지 않은 일입니다. 예를 들어, "{action: click, touch_point:[y0, x0], touch_point:[y1, x1], typed_text: ''}"와 같은 commands를 허용하는 GUI가 주어지면, "휴대폰에서 주소록 열기"와 같이 의미적으로 동등한 생성이 타당하지만 사용할 수는 없습니다. 둘째, black-box APIs는 예기치 않은 안전 문제를 일으킬 수 있습니다. 개인 장치 권한을 black-box API에 부여할 때 개인 정보 및 무결성에 대한 위험이 발생할 수 있습니다. 이는 현실적인 유용성을 크게 떨어뜨립니다. 셋째, 성능은 주로 prompt design에 의존합니다. 위에서 언급한 문제들은 이러한 agents를 위한 prompt lines 설계에 큰 부담을 줍니다. 필요한 환경 설명 외에도, prompts (및 사후 처리)는 다양한 상황에서 domain alignment, instruction following 및 security risk mitigation을 강화하기 위해 정교해야 합니다.

둘째, GUI agents는 informative environment의 모델링을 위해 포괄적인 multimodal perception을 필요로 합니다. Vision language models에 대한 기존 방법은 주로 vision과 language modalities (Dai et al., 2023; Ye et al., 2023; Zhao et al., 2023) 간의 semantic alignment에서 유리한 능력을 부여받았습니다. 그러나 GUI는 세분화된 세부 사항과 복잡한 semantic connections을 포함하고 있어 agents가 이해하는 데 어려움을 줍니다 (Rawles et al., 2023; Li et al., 2023a). 일반적으로 "검색"이라는 의미가 전달되는 돋보기 아이콘이 포함된 스크린샷을 고려해 보십시오. 픽셀 크기가 작더라도 암시적 의미를 통해 잠재적인 행동을 암시합니다. 따라서 캡션과 같은 일반적인 image semantics만 활용하는 것은 GUI 환경 모델링에 충분하지 않습니다. 또한 환경 정보 인식은 finite input window에 의해 제한되며, 여기서 visual feature length와 textual feature length 간의 균형을 맞춰야 합니다.

본 연구는 스마트폰 GUI 자동화를 위해 위에서 언급한 과제를 해결하기 위한 Comprehensive Cognitive MLLM Agent인 CoCo-Agent를 제안합니다. CoCo-Agent는 LLaVA (Liu et al., 2023)의 multimodal backbone을 채택하고 포괄적인 인식을 더욱 강화하여 각각 철저한 인식과 신뢰할 수 있는 행동 반응을 제공합니다. 제안된 두 가지 접근 방식은 comprehensive environment perception (CEP)와 conditional action prediction (CAP)입니다. 구체적으로, CEP는 textual goal, historical action, high-level 및 detailed description of the vision channel의 GUI 인식 요소를 통합합니다. CAP는 복잡하고 중복적인 GUI action commands를 하향식 순서에 따라 하위 문제로 분해합니다. 우리의 실험은 application manipulation, web operation, dialogues를 포함하여 두 가지 GUI benchmarks인 AITW (Rawles et al., 2023) 및 META-GUI (Sun et al., 2022a)의 다양한 tasks를 다룹니다. CoCo-Agent는 제한된 parameter size로 SOTA 성능을 달성합니다.

이후, 우리는 element ablation, visual module selection, future action prediction을 포함한 심층 분석을 제시합니다. 우리는 각 인식 요소의 중요한 효과와 visual module의 적절한 선택을 보여줍니다. 또한 기존 datasets의 한계를 분석하고 실제 시나리오를 위한 CoCo-Agent의 추가 잠재력을 설명합니다.

우리의 기여는 다음과 같이 요약됩니다.

우리는 GUI를 위한 포괄적인 인지 기능을 갖춘 autonomous agent인 CoCo-Agent를 제안합니다. 이 agent는 comprehensive environment perception (CEP) 및 conditional action prediction (CAP)이라는 새로운 접근 방식을 통해 인식과 행동 반응을 향상시킵니다.
CoCo-Agent는 대표적인 GUI benchmarks에서 state-of-the-art 성능을 달성하여 우수한 성능을 입증합니다.
GUI 자동화에 대한 체계적인 연구를 위한 광범위한 분석은 우리의 중요한 효과와 현실적인 잠재력을 보여줍니다.

CoCoAgent: A Comprehensive Cognitive MLLM Agent for GUI Automation - Introduction 핵심 정리

들어가기 전에: 이 논문은 GUI 자동화를 위한 똑똑한 MLLM 에이전트, CoCoAgent에 대한 내용을 다룹니다.

1. 기존 GUI 자동화 연구의 문제점은 뭐였어?

강력한 (M)LLMs에 대한 의존성:
- GPT-4V, ChatGPT 같은 모델들이 뛰어나긴 하지만, 실제 사용에는 한계가 있었음.
- Domain Transfer 문제: GUI 커맨드와 자연어 사이의 간극이 커서, 모델이 GUI를 제대로 이해하고 조작하기 어려웠음.
- Black-box API 문제: 보안 및 개인 정보 보호 문제가 발생할 수 있음.
- Prompt Engineering 의존성: Prompt를 잘 설계해야만 성능이 잘 나왔음.
불충분한 GUI 환경 모델링:
- 기존 Vision-language models는 이미지와 텍스트 간의 의미 연결(semantic alignment)은 잘했지만, GUI의 세밀한 디테일과 복잡한 의미 관계를 포착하는 데는 부족했음.
- 제한된 입력 정보: 이미지와 텍스트 정보 사이의 균형을 맞추면서 GUI를 잘 이해시키는 것이 어려웠음.

2. 그래서 이 논문은 뭘 제안하는데?

CoCo-Agent: Comprehensive Cognitive MLLM Agent
- 스마트폰 GUI 자동화를 위한 새로운 MLLM 에이전트
- LLaVA multimodal backbone을 기반으로, 포괄적인 인지 능력(comprehensive cognition) 을 강화함.
핵심 아이디어 1: Comprehensive Environment Perception (CEP)
- GUI를 더 잘 이해시키기 위해, 텍스트 목표, 과거 행동, 이미지의 high-level 및 detailed description 등 다양한 정보를 통합적으로 활용함.
핵심 아이디어 2: Conditional Action Prediction (CAP)
- 복잡한 GUI action 명령을 하향식(top-down) 으로 분해하여, 더 정확하고 효율적으로 행동을 예측함.

3. 이 논문, 왜 읽어야 하는데?

GUI 자동화 분야의 중요한 문제들을 해결하기 위한 새로운 접근법을 제시함.
CEP와 CAP이라는 독창적인 아이디어를 통해 MLLM 에이전트의 GUI 인지 및 행동 능력을 향상시킴.
AITW와 META-GUI 벤치마크에서 state-of-the-art 성능을 달성하며 실용성을 입증함.
더 똑똑하고 유능한 autonomous agents 개발에 기여할 잠재력을 가지고 있음.

한 줄 요약: CoCoAgent는 CEP와 CAP를 통해 GUI를 더 잘 이해하고 조작하는 똑똑한 MLLM 에이전트이며, 기존 연구의 한계를 극복하고 GUI 자동화 분야에 새로운 가능성을 제시한다!

2 Related Work

이 섹션에서는 autonomous language agents와 LLMs의 multimodal perception에 대한 연구를 소개합니다.

2.1 Autonomous Language Agents

최근 연구(Li et al., 2023b; Richards, 2023)에서는 환경 또는 다른 agents와 상호 작용하고 문제를 해결하는 language models를 지칭하기 위해 language agent라는 용어를 사용합니다. 이 논문은 환경을 인식한 다음 환경에 작용하는 autonomous language agents를 조사합니다.

한 연구 라인은 (M)LLMs의 강력한 기본 역량에 의존합니다. ChatGPT 또는 GPT-4를 기반으로, autonomous agents는 잘 작성된 prompts만으로 구축할 수 있습니다. 기존 연구는 GPT-based agents의 reasoning, planning, generalizing 능력을 입증했습니다. 예를 들어, AutoGPT (Richards, 2023), BabyAGI (Nakajima, 2023), AgentGPT (Reworkd, 2023), HuggingGPT (Shen et al., 2023), MM-Navigator (Yan et al., 2023) 등이 있습니다.

그러나 실용성과 신뢰성을 기대할 때, 우리는 주어진 환경에 맞게 맞춤화하고 비공개화할 수 있는 trainable language agent를 추구합니다 (Shao et al., 2023). 따라서 또 다른 연구 라인은 open-source language models에 대한 trainable methods로 전환합니다. m-BASH (Sun et al., 2022b)는 ROI pooling을 채택하여 BERT-based multi-task system에서 GUI 아이콘을 제시했습니다. AutoUI (Zhang and Zhang, 2023)는 multimodal T5 (Raffel et al., 2020)에서 trained 되었으며, GUI 상호 작용을 first-principal VQA 형식으로 공식화했습니다. CogAgent (Hong et al., 2023)는 alignment pre-training을 통해 attention-based high-resolution visual module을 추가로 통합했습니다. 이 논문은 trainable, open-source language agent를 논의하기 위해 두 번째 연구 라인을 따릅니다.

2.2 Multimodal Perception

Language modeling을 넘어, 최근 연구는 다른 modalities의 channels과의 융합을 연구했습니다. LLMs의 개발로 인해 주류 방법은 일반적으로 language-centric framework를 따릅니다. 즉, 다른 modalities의 정보를 language embedding space로 encoding합니다. 이러한 models은 pre-trained encoder of other modalities, a language model, 그리고 adapter (또는 projector)로 구성됩니다. 예를 들어, LLaVA (Liu et al., 2023)는 linear layer를 사용하여 CLIP에서 vision encoding을 매핑하는 반면, BLIP-2 (Li et al., 2023c)는 Q-former를 채택하여 이미지를 나타내는 query vector를 학습합니다. 이러한 노력은 Flamingo (Alayrac et al., 2022), mPLUG (Ye et al., 2023), MiniGPT-4&v2 (Zhu et al., 2023; Chen et al., 2023), Video-LLaMA (Zhang et al., 2023b), SpeechGPT (Zhang et al., 2023a)와 같은 다양한 multimodal LLMs의 출현을 가져왔습니다.

그러나 multimodal perception은 GUI agents에게 훨씬 더 어렵습니다. GUI는 관례적인 의미를 전달하는 매우 작은 아이콘과 같이 복잡한 semantic connections을 가진 광범위한 상세 정보를 포함하기 때문입니다(그림 1 참조). 기존 visual modules와 GUI agents에 필요한 인식 사이에는 여전히 격차가 있습니다.

CoCoAgent: A Comprehensive Cognitive MLLM Agent for GUI Automation - Related Work 핵심 정리

들어가기 전에: 이 논문은 GUI 자동화를 위한 MLLM 에이전트, CoCoAgent에 관한 것이며, 이 섹션에서는 관련 연구들을 짚어봅니다.

1. Autonomous Language Agents 연구는 크게 두 갈래로 나뉜다!

첫 번째 갈래: (M)LLMs의 강력한 능력에 의존하는 방식 (주로 Closed-source)
- 장점: ChatGPT, GPT-4 같은 강력한 기반 모델을 활용하여, 잘 짜여진 프롬프트만으로도 꽤 똑똑한 에이전트를 만들 수 있음.
- 예시: AutoGPT, BabyAGI, AgentGPT, HuggingGPT, MM-Navigator
- 단점:
  - 실용성과 신뢰성 측면에서 한계: 실제 GUI 환경에 적용하고, 믿고 맡기기에는 부족함.
  - 커스터마이징 및 비공개화 어려움: 특정 환경에 맞게 튜닝하거나, 보안을 강화하기 어려움.
두 번째 갈래: 학습 가능한 (Trainable) Open-source Language Models에 집중하는 방식 (이 논문이 택한 방식!)
- 장점:
  - 실용성과 신뢰성 향상: 모델을 직접 훈련시켜 특정 GUI 환경에 최적화하고, 더 안정적으로 만들 수 있음.
  - 커스터마이징 및 비공개화 용이: 필요에 따라 모델을 수정하고, 보안을 강화할 수 있음.
- 예시: m-BASH, AutoUI, CogAgent
- CoCoAgent는 이 갈래에 속함!

2. GUI Agents를 위한 Multimodal Perception은 왜 어려울까?

기존 Multimodal LLMs (e.g., Flamingo, mPLUG, MiniGPT-4&v2, Video-LLaMA, SpeechGPT) 연구들은 주로 Language-centric:
- 다른 모달리티(e.g., 이미지, 비디오, 음성)의 정보를 Language embedding space로 인코딩하는 데 중점을 두었음.
하지만, GUI는 일반적인 이미지/비디오와는 다름!:
- 작은 아이콘 하나에도 중요한 의미가 담겨 있을 수 있음 (e.g., 돋보기 = 검색).
- GUI 요소들 간의 복잡한 의미적 연결(semantic connections)을 이해해야 함.
결론: 기존 Visual Modules는 GUI Agents가 필요로 하는 정교한 인지 능력을 제공하기에는 부족함.

3. 그래서 이 논문은?

Trainable, Open-source Language Agent 연구 방향을 따름.
GUI 환경에 특화된, 더 정교한 Multimodal Perception 능력을 갖춘 CoCoAgent를 제안함!

한 줄 요약: CoCoAgent는 기존 연구들이 간과했던 GUI의 특성을 고려하여, 더 똑똑하고 실용적인 GUI 자동화 에이전트를 만들기 위한 새로운 접근법을 제시한다!

3 Methodology

이 섹션에서는 먼저 GUI 자동화 task를 공식화한 다음, 우리의 CoCo-Agent를 제안합니다. 구체적으로, GUI 자동화 성능을 체계적으로 개선하기 위해 포괄적인 환경 인식(CEP)과 조건부 작업 예측(CAP)이라는 인지 기술 설계를 설명합니다. 그림 1은 전체 그림을 보여줍니다.

Figure 1: CoCo-Agent의 개요로, 시간 단계에 따른 인식 및 행동 반응을 보여줍니다. CEP는 표시된 세분화된 요소들을 통합합니다. 예측된 행동들은 CAP를 따라 구성됩니다.

3.1 Task Formalization

GUI 자동화 task는 interactive sequence generation 문제로 정의됩니다. 먼저, 사용자는 agent에게 여러 단계로 GUI 환경에서 달성할 수 있는 목표 g를 지시합니다. 각 단계에서 agent는 먼저 현재 GUI 상태 st를 인식하고 다음 작업 at를 예측하여 다음 GUI 상태 st+1로 이어집니다. 목표를 달성하는 순차적 (s, a)는 episode를 형성합니다. interaction record는 다음과 같이 공식화됩니다.

RECORD = (g, [(st, at)] (n, t=1)) (1)

작업 공간은 제한된 parameters를 가진 유한한 operation command 집합입니다. 예시는 표 1에 나와 있습니다. 상태 공간에는 스마트폰에서 가능한 모든 display가 포함됩니다. agent의 output 수신자는 인간이 아니라 GUI이기 때문에, natural language와 같은 유연한 표현 대신 정확한 작업이 예상됩니다.

3.2 Backbone

우리의 backbone은 LLM의 generalization을 vision modality로 확장하는 LLaVA (Liu et al., 2023)를 따릅니다. LLaVA는 Llama-2-chat-7B (Touvron et al., 2023), a vision encoder (ENCODERimage), CLIP (Radford et al., 2021), 그리고 image features를 language embedding (EMBEDtext) 공간으로 연결하는 one-layer linear projector (PRJ)로 구성됩니다. 입력은 text Xtext와 image Ximage를 포함하는 X로 표시되고, 출력은 Y로 표시됩니다. backbone은 다음과 같이 공식화할 수 있습니다.

Htext = EMBEDtext( Xtext ◦ Yˆ (0:t−1) ),
Zimage = ENCODERimage( Ximage ),
Himage = PRJ( Zimage ),
HDecoder_t = DECODER( Himage ◦ Ht_text),
Pt = LMhead( HDecoder_t ),
L = Σ (t) CE( Pt, Yt ), (2)

여기서 ◦는 concatenation 연산을 나타냅니다. 훈련 목표 L은 cross entropy (CE)입니다.

3.3 Comprehensive Environment Perception

환경 인식은 action responses를 위한 중요한 전제 조건입니다. 환경은 GUI screenshot (Zhang and Zhang, 2023)만으로 단순화될 수 있지만, 이는 vision encoder의 상한 능력에 크게 좌우됩니다. 그러나 vision channel에는 병목 현상이 있습니다. 첫째, encoder의 크기가 224 × 224와 같이 상대적으로 낮은 해상도로 제한됩니다. 둘째, vision encoders에 대한 기존 pretraining 목표는 주로 image captioning (Radford et al., 2021; Li et al., 2023c)에 중점을 두고 있으며, 이는 일반적이고 high-level semantic modeling입니다. 따라서 화면의 세분화된 정보는 high-level perception을 보완하기 위해 강화되어야 합니다.

우리가 제안하는 comprehensive environment perception은 "ICON_SETTINGS: [0.1783, 0.8701]"와 같이 읽을 수 있는 textual hints가 있는 세분화된 layouts를 제공하는 optical character recognition (OCR)과 같은 도구를 완전히 활용합니다. 전체 목표 g 외에도 환경 상태는 현재 screenshot, Ximage, OCR의 layouts, L, 현재 episode의 이전 작업 at−h:t−1의 세 가지 측면에서 인식됩니다. 총 입력은 다음과 같이 나타낼 수 있습니다.

Xtext = PROMPT( g, L, at−h:t−1 ), Ximage, (3)

여기서 PROMPT는 prompt template (부록 A)를 나타냅니다. h는 관련된 action histories의 수를 나타냅니다. layouts L은 (item name, item coordinate)로 나열되며, 여기서 items는 OCR 결과를 나타냅니다.

3.4 Conditional Action Prediction

Action response와 관련하여, 우리는 사고 순서에 따라 GUI actions을 재구성할 것을 제안합니다. 표 1의 왼쪽에 표시된 것처럼 기존 GUI actions에는 action type, 시작 좌표, 종료 좌표, 가능한 입력 텍스트를 포함하여 각 command의 중복 parameters가 포함됩니다. 그러나 이러한 parameters는 서로 독립적이지 않고 중요한 관계를 나타냅니다. 예를 들어, 좌표는 action type을 기반으로 합니다. 작업이 아이콘을 클릭하는 것이면 터치 및 해제 좌표가 그에 따라 결정됩니다. 이러한 JSON 형식 parameters를 예측하는 것은 노력 낭비일 것입니다.

따라서 우리는 conditional action prediction을 제안합니다. GUI actions은 표 1에 설명된 대로 관계 분해를 위해 재구성됩니다. actions은 (i) action type prediction과 (ii) action type prediction을 조건으로 하는 선택적 action target prediction의 두 가지 하위 문제로 분해됩니다. 또한 정확성을 손상시키지 않으면서 natural language와 유사한 표현을 사용합니다. 표 1에 설명된 것처럼, 우리는 작업을 단계별로 prompt line으로 변경하여 이러한 작업을 명시적으로 분해하고 명확히 합니다. 특히, dual_point 작업은 (i) 시작점과 끝점이 임계값(Rawles et al., 2023)보다 멀리 떨어져 있는 경우 scroll action, (ii) 탭 지점이 bounding box에 속하는 경우 item name을 포함하는 click action, (iii) scroll action은 아니지만 bounding box와 일치하지 않는 경우 tap action의 세 가지 유형으로 세분화됩니다.

이러한 방식으로 action prediction은 하향식 순서를 따릅니다. 먼저 agent는 action types를 결정하고, 이를 조건으로 agent는 target item과 좌표를 추가로 결정합니다.

Normalization. CEP와 CAP를 기반으로 actions은 노이즈를 완화하기 위해 정규화되며, 이는 실제 데이터에서 불가피합니다. 구체적으로, click actions의 target coordinates는 OCR에서 가져온 bounding box의 중심으로 정규화됩니다. scroll actions은 4방향 스와이프(Zhang and Zhang, 2023)로 정규화됩니다.

CoCoAgent: A Comprehensive Cognitive MLLM Agent for GUI Automation - Methodology 핵심 정리

들어가기 전에: 이 논문은 GUI 자동화를 위한 똑똑한 MLLM 에이전트, CoCoAgent를 제안하며, 이 섹션에서는 CoCoAgent의 핵심 방법론을 설명합니다.

1. GUI 자동화 Task는 어떻게 정의되는가? (3.1)

Interactive Sequence Generation 문제:
- 사용자가 에이전트에게 목표(goal, g)를 주면, 에이전트는 여러 단계(step)에 걸쳐 GUI와 상호작용하며 목표를 달성함.
- 각 단계에서 에이전트는 현재 GUI 상태(state, st)를 인식하고, 다음 행동(action, at)을 예측하여 다음 GUI 상태(st+1)로 넘어감.
- 목표를 달성하기 위한 일련의 (상태, 행동) 쌍이 하나의 에피소드(episode)를 구성함.
- 핵심: 에이전트의 출력은 사람이 아니라 GUI를 대상으로 하기 때문에, 자연어처럼 유연한 표현보다는 정확한 행동이 중요함!

2. CoCoAgent의 Backbone은 무엇인가? (3.2)

LLaVA를 기반으로 함:
- LLaMA-2-chat-7B (LLM) + Vision Encoder (CLIP) + Linear Projector
- Linear Projector는 Vision feature를 Language embedding 공간으로 연결해줌.
- 수식은 중요하지 않고, LLaVA를 뼈대로 사용했다는 것만 기억!

3. CoCoAgent의 핵심 아이디어 1: Comprehensive Environment Perception (CEP) (3.3)

왜 필요할까?
- 기존 Vision Encoders의 한계:
  - 낮은 해상도: 입력 이미지 해상도가 제한적임 (e.g., 224x224).
  - 일반적인 Image Captioning에 편향: 세밀한 GUI 정보를 파악하기 어려움.
그래서, CEP는 뭘 하는데?
- 다양한 정보를 통합하여 GUI를 더 잘 이해하게 만듦:
  - 현재 스크린샷 (Ximage): 전반적인 GUI 화면 정보.
  - OCR을 통한 Layout 정보 (L): "ICON_SETTINGS: [0.1783, 0.8701]" 와 같이 세밀하고 구체적인 텍스트 정보 (아이콘 이름, 위치 좌표 등).
  - 이전 행동 기록 (at-h:t-1): 현재 에피소드에서 이전에 수행했던 행동들의 기록.
  - 사용자 목표 (g): 에이전트가 달성해야 할 목표.
- PROMPT 함수를 사용: 위 정보들을 템플릿에 맞게 조합하여 모델에 입력으로 제공 (자세한 템플릿은 부록 A 참고).

4. CoCoAgent의 핵심 아이디어 2: Conditional Action Prediction (CAP) (3.4)

왜 필요할까?
- 기존 GUI Action 형식의 비효율성: Action type, 시작 좌표, 종료 좌표, 입력 텍스트 등 불필요하게 중복되는 정보가 많음.
그래서, CAP는 뭘 하는데?
- Action Prediction을 두 단계로 나누어 더 효율적이고 정확하게 예측:
  1. Action Type Prediction: 어떤 종류의 행동을 할지 먼저 예측 (e.g., 클릭, 스크롤, 텍스트 입력).
  2. Action Target Prediction: Action type이 정해지면, 그 행동의 대상(target)을 예측 (e.g., 어떤 아이콘을 클릭할지, 어디에 스크롤할지, 무슨 텍스트를 입력할지).
- 자연어와 유사한 표현을 사용: "Click on the settings icon" 처럼 사람이 이해하기 쉬운 형태로 Action을 표현하면서도 정확도는 유지함.
- Dual-point Action (e.g., 스크롤, 드래그)을 더 세분화:
  1. Scroll: 시작점과 끝점이 멀리 떨어진 경우.
  2. Click: 탭 지점이 특정 아이콘의 Bounding box 안에 있는 경우.
  3. Tap: Scroll도 아니고, 특정 아이콘을 클릭한 것도 아닌 경우.
Normalization:
- Click Action: target 좌표를 OCR로 인식된 Bounding box의 중심으로 정규화.
- Scroll Action: 4방향 (상, 하, 좌, 우) 스크롤로 정규화.
- 목적: 데이터의 노이즈를 줄이고, 모델의 학습을 도움.

5. Figure 1 다시 보기:

CoCoAgent가 어떻게 GUI를 인식하고(CEP), 행동을 예측하는지(CAP) 한눈에 보여주는 그림.
CEP: 스크린샷, OCR Layout, 이전 행동, 목표 등 다양한 정보를 통합.
CAP: Action Type을 먼저 예측하고, 그 다음에 Target을 예측.

한 줄 요약: CoCoAgent는 CEP를 통해 GUI를 더 잘 이해하고, CAP를 통해 더 효율적이고 정확하게 행동을 예측하는 똑똑한 MLLM 에이전트다!