AI바라기의 인공지능

agent : 논문리뷰 : GUICourse: From General Vision Language Model to Versatile GUI Agent 본문

논문리뷰

agent : 논문리뷰 : GUICourse: From General Vision Language Model to Versatile GUI Agent

AI바라기 2025. 1. 6. 17:04

 

GUICourse: From General Vision Language Model to Versatile GUI Agent 논문 정리

Purpose of the Paper

기존 Vision Language Models (VLMs)OCR(Optical Character Recognition)grounding 능력과 GUI 요소의 기능 및 제어 방법에 대한 지식 부족으로 인해 실용적인 GUI agent 로서의 역할 수행에 어려움을 겪었습니다. 본 논문의 목적은 이러한 문제점을 해결하고, 일반적인 VLMsGUI navigation 작업을 효율적으로 수행할 수 있도록 학습시키는 GUICourse 데이터셋을 구축하는 것입니다. 특히, 기존 VLMs 이 고해상도 이미지에서 작은 크기의 텍스트를 인식하고 지정된 영역의 위치를 픽셀 레벨에서 정확하게 파악하는 능력이 부족하다는 점과 GUI 시스템에 대한 포괄적인 이해가 부족하다는 점을 중점적으로 개선하고자 했습니다.

Key Contributions

  • GUICourse 라는 새로운 데이터셋을 제안합니다. 이 데이터셋은 GUIEnv, GUIAct, GUIChat 의 세 가지 하위 데이터셋으로 구성되어, VLMsOCRgrounding 능력 향상, GUI 시스템 지식 강화, GUI agent 의 상호작용 능력 개선을 목표로 합니다.
  • GUIEnv 데이터셋은 VLMsOCRgrounding 능력을 향상시키기 위해 1,000만 개의 웹페이지-주석 쌍과 70만 개의 region-text QA 쌍을 포함합니다.
  • GUIAct 데이터셋은 웹사이트와 안드로이드 환경에서의 GUI navigation 데이터셋으로, 6만 7천 개의 단일 스텝 및 1만 5천 개의 멀티 스텝 action instruction을 포함하여 VLMsGUI 시스템에 대한 지식을 강화합니다.
  • GUIChat 데이터셋은 GUI agent 의 상호작용 능력을 개선하기 위한 대화형 데이터셋으로, 텍스트가 풍부한 이미지와 경계 상자가 포함된 4만 4천 개의 단일 턴 QA 쌍과 6천 개의 멀티 턴 대화를 포함합니다.
  • 다양한 VLMs (Qwen-VL, Fuyu-8B, MiniCPM-V) 을 기반으로 GUI agent 를 학습시키고, Mind2WebAITW 와 같은 일반적인 GUI 작업에서 baseline VLMs 보다 우수한 성능을 달성했습니다.
  • Ablation study 를 통해 GUIEnv 데이터셋의 양, 이미지 해상도, GUIChat 데이터의 혼합 여부가 GUI agent 의 성능에 미치는 영향을 분석합니다.

Novelty

  • GUICourseVLMsGUI agent 로 학습시키기 위한 전체 파이프라인을 포괄하는 최초의 대규모 데이터셋입니다.
  • GUIEnv 데이터셋은 고해상도 웹사이트 스크린샷을 기반으로 VLMsOCRgrounding 능력을 향상시키는 데 중점을 둡니다. 이는 기존 연구들이 다루지 않았던 새로운 시도입니다.
  • GUIAct 데이터셋은 웹사이트와 안드로이드라는 두 가지 시나리오를 모두 포함하며, 단일 스텝 및 멀티 스텝 action instruction을 모두 제공합니다. 이는 기존 GUI navigation 데이터셋들과 차별화됩니다.
  • GUIChat 데이터셋은 텍스트가 풍부한 이미지와 경계 상자를 포함하여 GUI agent 의 자연어 상호작용 능력을 향상시키는 데 중점을 둡니다.

Experimental Highlights

  • Mind2Web 작업에서 Qwen-GUIbaseline Qwen-VL 과 비교하여 step success rate (StepSR) 에서 2~5 포인트의 괄목할 만한 개선을 보였습니다.
  • AITW 작업에서도 GUI agent 들이 baseline VLMs 보다 우수한 성능을 보였습니다.
  • Ablation study 결과, GUIEnv 데이터의 양이 많을수록 OCRgrounding 능력이 향상되었고, 이는 GUI navigation 작업 성능 향상으로 이어졌습니다.
  • 높은 이미지 해상도는 GUI navigation 작업 성능 향상에 중요하며, 특히 "web-single" 및 "smartphone" 작업에서 큰 개선을 보였습니다.
  • GUIChat 데이터를 혼합하여 학습했을 때 "web-single" 및 "web-multi" 작업에서 "StepSR" 이 2~3 포인트 향상되었습니다.

Limitations

  • 현재는 웹사이트와 안드로이드 환경에 대한 GUI navigation 데이터만 제공하고 있습니다. 컴퓨터 시스템 및 전문 소프트웨어와 같은 다양한 GUI 환경에 대한 데이터가 부족합니다.
  • Pre-trainingsupervised fine-tuning 방식에 의존하고 있으며, reinforcement learning 과 같은 advanced methods를 사용하면 더욱 향상된 성능을 얻을 수 있을 것으로 예상됩니다.
  • GUIEnv 데이터셋의 스크린샷은 C4 에서 수집되었기 때문에 불쾌한 콘텐츠가 포함되어 있을 가능성을 완전히 배제할 수 없습니다.

Future Work

  • 컴퓨터 시스템 및 전문 소프트웨어와 같은 다양한 GUI 환경에 대한 데이터를 추가하여 general GUIAgent 를 구축하고자 합니다.
  • RLHF 와 같은 reinforcement learning methods를 적용하여 GUI agent 의 성능을 더욱 향상시킬 계획입니다.
  • GUICourse 데이터셋을 지속적으로 개선하고 확장하여 GUI agent 연구 발전에 기여하고자 합니다.

 

 

 

 

 

 

Abstract

Graphic User Interface (GUI)를 활용한 인간-컴퓨터 상호 작용은 다양한 디지털 툴에 접근하는 데 필수적입니다. Vision Language Models (VLMs)의 최근 발전은 인간이 GUI 탐색 작업을 완료하는 데 도움을 줄 수 있는 다재다능한 agent를 개발할 수 있는 강력한 잠재력을 보여줍니다. 그러나 현재 VLMs는 기본적인 능력(OCR 및 grounding)과 GUI 지식(GUI 요소의 기능 및 제어 방법) 측면에서 어려움을 겪고 있으며, 이는 그들이 실질적인 GUI agent가 되는 것을 방해합니다. 이러한 문제를 해결하기 위해, 우리는 일반적인 VLMs에서 visual 기반 GUI agent를 train하기 위한 datasets 모음인 GUICourse를 제안합니다. 첫째, 우리는 VLMs의 OCR 및 grounding 능력을 강화하기 위해 GUIEnv dataset을 소개합니다. 그런 다음 GUI 구성 요소 및 상호 작용에 대한 지식을 풍부하게 하기 위해 GUIAct 및 GUIChat datasets을 소개합니다. 실험은 우리의 GUI agent가 baseline VLMs보다 일반적인 GUI 작업에서 더 나은 성능을 보인다는 것을 보여줍니다. 심지어 작은 크기의 GUI agent(3.1B parameters)도 단일 단계 및 다단계 GUI 작업에서 잘 작동할 수 있습니다. 마지막으로, 우리는 ablation study를 통해 이 agent의 training 단계에서 다양한 차이점을 분석합니다.

 

 

 

 

 

1 Introduction

Graphical User Interfaces (GUIs)는 인간-컴퓨터 상호 작용을 촉진하는 중추적인 매체로, 다양한 애플리케이션에서 중요한 역할을 합니다. 서로 다른 GUI 시스템(예: 웹사이트 및 스마트폰)은 일반적으로 일관된 아이콘과 운영 로직을 사용하여 사용자가 기본 프로세스의 복잡성을 무시하고 서로 다른 시스템 간의 기술 이전을 촉진합니다. GUI 탐색 작업을 위해 구축된 GUI agent는 인간을 지루하고 반복적인 작업에서 해방시킬 뿐만 아니라 GUI 툴을 사용하는 중요한 방법으로 간주될 수 있으므로 large language models (LLMs)의 기능을 확장합니다.

 

최근 연구들은 컴퓨터 제어, 웹 브라우징, 및 스마트폰 탐색과 같은 다양한 시나리오에서 GUI agent를 training하는 방법을 탐구했습니다. 이러한 agent는 입력 modalities에 따라 텍스트 기반(예: HTML, 소스 코드) GUI agent와 visual 기반(예: 스크린샷) GUI agent로 분류할 수 있습니다. 우리는 visual 기반 GUI agent가 텍스트 기반 방법에 비해 두 가지 이점이 있다고 주장합니다. (1) 획득 용이성: GUI 시스템의 스크린샷을 얻는 것은 간단하지만 iOS 시스템 이면의 코드와 같은 구조화된 텍스트에 접근하는 것은 어렵습니다. (2) 향상된 전이성: GUIs는 일반적으로 서로 다른 시스템에서 유사한 기능을 나타내기 위해 유사한 visual 요소를 활용합니다.

 

vision 기반 agent의 성능은 현재 Vision Language Models (VLMs)의 기본적인 능력과 내부 지식에 크게 의존합니다. 비록 VLMs가 이미지 캡셔닝 및 visual question answering과 같은 다양한 작업에서 인상적인 능력을 보여주지만, 이러한 능력이 효율적인 visual 기반 GUI agent를 개발하는 데 충분하지 않을 수 있습니다. 예를 들어, 우리는 강력한 open-sourced VLM인 Qwen-VL-Chat을 조사하여 GUI 탐색 지침을 완료하는 능력을 확인했습니다. 그림 1에서 볼 수 있듯이, 이는 현재 VLMs의 두 가지 과제를 보여줍니다. (1) 그들의 OCR 및 grounding 능력은 웹사이트 요소나 지정된 텍스트를 정확하게 찾는 데 지원되지 않습니다. (2) 그들은 웹사이트 위젯의 기능과 제어 메커니즘에 대한 포괄적인 이해가 부족합니다.

 

본 연구에서 우리는 VLMs의 기본적인 능력과 GUI 지식을 향상시키는 데 도움이 되는 완전한 datasets 그룹인 GUICourse를 제안합니다. GUICourse는 세 가지 datasets으로 구성됩니다. (1) GUIEnv는 VLMs의 OCR 및 grounding 능력을 향상시키기 위한 large-scale dataset으로, 10M개의 웹사이트 페이지-주석 쌍을 pre-training 데이터로, 0.7M개의 region-text QA 쌍을 SFT 데이터로 포함합니다. (2) GUIAct는 웹사이트 및 안드로이드 시나리오에서 GUI 시스템에 대한 VLMs의 지식을 향상시키기 위한 GUI 탐색 dataset으로, 67k개의 단일 단계 및 15k개의 다단계 작업 지침을 포함합니다. (3) GUIChat은 GUI agent의 상호 작용 기술을 향상시키기 위한 대화형 dataset으로, 44k개의 단일 턴 QA 쌍과 텍스트가 풍부한 이미지 및 bounding boxes가 포함된 6k개의 다중 턴 대화를 포함합니다. 제안된 dataset을 기반으로, 우리는 서로 다른 VLMs (Qwen-VL, Fuyu-8B 및 MiniCPM-V)를 기반으로 여러 GUI agent를 train합니다.

 

우리는 우리의 GUI agent가 Mind2Web 및 AITW에서 baseline VLMs보다 더 나은 성능을 보인다는 것을 입증합니다. 그런 다음, 우리는 GUI agent인 MiniCPM-GUI에 대한 ablation study를 수행하여 다양한 GUIEnv pre-training 데이터 양, 이미지 해상도 및 혼합된 GUIChat 데이터의 영향을 비교합니다. 우리는 GUIEnv 데이터가 VLMs의 OCR 및 grounding 능력을 향상시키는 데 효과적이라는 것을 입증합니다. 이러한 능력은 고해상도와 함께 GUI 작업의 성능을 크게 향상시킵니다.

 

 

 

 

이 논문의 핵심은 기존 Vision Language Models (VLMs)를 GUI 네비게이션에 활용하는 데 있어 발생하는 한계점을 극복하고, 실용적인 GUI agent 개발을 위한 새로운 데이터셋과 방식을 제시하는 것입니다.

주목해야 할 포인트:

  1. 기존 VLMs의 한계:
    • OCR 및 Grounding 능력 부족: 웹사이트 요소나 텍스트를 정확하게 인식하고 위치를 파악하는 능력이 떨어짐.
    • GUI에 대한 이해 부족: 웹사이트 위젯의 기능과 작동 방식에 대한 포괄적인 지식이 부족.
  2. GUICourse: 새로운 데이터셋 제안:
    • GUIEnv: VLMs의 OCR 및 Grounding 능력 강화를 위한 large-scale 데이터셋 (pre-training 용 웹사이트 페이지-주석 쌍 10M 개, SFT용 region-text QA 쌍 0.7M 개)
    • GUIAct: 웹사이트 및 안드로이드 환경에서 GUI 시스템에 대한 VLMs의 이해를 높이기 위한 GUI 네비게이션 데이터셋 (단일/다단계 작업 지침 67k/15k 개)
    • GUIChat: GUI agent의 상호작용 기술 향상을 위한 대화형 데이터셋 (단일/다중 턴 QA 쌍 44k/6k 개, 텍스트 정보가 풍부한 이미지 및 bounding box 포함)
  3. Visual-based GUI Agent의 강점:
    • 획득 용이성: 스크린샷 획득 용이 (iOS 코드와 같은 구조화된 텍스트 접근의 어려움 해소)
    • 전이성 향상: GUI는 시스템 간 유사한 시각 요소를 활용
  4. 실험 및 결과:
    • 다양한 VLMs (Qwen-VL, Fuyu-8B, MiniCPM-V) 기반 GUI agent 훈련
    • Mind2Web, AITW 벤치마크에서 baseline VLMs 대비 성능 향상 입증
    • Ablation study를 통해 GUIEnv 데이터의 효용성 및 고해상도의 중요성 확인

결론:

이 논문은 GUI 네비게이션에 특화된 새로운 데이터셋 GUICourse를 제안함으로써, 기존 VLMs의 한계를 극복하고 실용적인 visual-based GUI agent 개발의 가능성을 제시합니다. 특히 OCR 및 Grounding 능력 향상에 초점을 맞춘 GUIEnv 데이터셋과, GUI 시스템에 대한 이해를 높이는 GUIAct 및 GUIChat 데이터셋은 주목할 만한 기여입니다.

 

 

 

 

2 Related Works

2.1 Vision Language Models

현재 대부분의 Vision-Language Models (VLMs)는 CLIP-ViT와 같은 vision encoder와 Vicuna 및 Qwen과 같은 language model을 연결하는 bridge module을 사용합니다. bridge module은 LLaVA에 의해 예시된 MLP layer 또는 BLIP-2 및 Qwen-VL과 같은 attention 기반 resampler를 사용하여 vision encoder의 visual features를 large language model의 embedding space로 매핑합니다. 독특하게도, Fuyu-8B는 외부 vision encoder를 제거하고 텍스트 토큰과 픽셀 정보를 위한 통합 공간을 갖춘 decoder 전용 transformer architecture를 사용하여 Fuyu-8B가 모든 해상도의 이미지를 처리할 수 있도록 합니다. 이를 기반으로, 후속 연구 노력은 visual detail 인식, 신뢰할 수 있는 응답, object grounding, 다국어 기능, model 효율성을 포함한 다양한 영역에서 VLMs를 개선하려고 시도합니다. 그러나 많은 VLMs는 여전히 (1) 고해상도 이미지에서 작은 크기의 텍스트를 인식하고 (2) 픽셀 수준에서 지정된 영역의 정확한 위치를 제공할 때 단점이 있습니다. 본 연구에서는 고해상도 웹사이트 스크린샷을 사용하여 VLMs의 OCR 및 grounding 능력을 향상시키기 위한 GUIEnv dataset을 제공합니다.

 

2.2 GUI Agents

GUI agent는 단순화된 웹사이트, 시뮬레이션된 환경 또는 실제 웹사이트 및 스마트폰과 같은 다양한 GUI 시스템에서 인간이 작업을 완료하도록 돕는 역할을 합니다. 현재 GUI agent는 Large Models (LMs), Big Data 및 데이터 기반 방법 덕분에 빠르게 발전하고 있습니다. 일부 agent는 train-free 방법을 사용하고 closed-sourced LMs (예: GPT4 및 GPT-4V)에 의존하여 전략 설계 및 prompt engineering을 통해 GUI 탐색을 수행합니다. 또한 일부 agent는 데이터 기반 방법(예: supervised fine-tuning)을 사용하여 소규모 open-sourced model을 기반으로 GUI 작업을 완료합니다.

인식과 제어는 GUI agent에게 중요한 두 가지 포인트입니다. 환경의 인식 modalities에 따라 GUI agent는 텍스트 전용, 이미지-텍스트 결합, vision 전용 방법으로 나눌 수 있습니다. 제어와 관련하여 GUI agent는 위치 무관(position-free) 및 위치 필요(position-needed) 방법으로 나눌 수 있습니다. 위치 무관 방법은 일반적으로 GUI 시스템의 모든 요소에 대한 인덱스를 제공하며, agent는 다중 선택으로 작업을 완료할 수 있습니다. 반면 위치 필요 방법은 "클릭" 및 "탭"과 같은 일부 작업을 완료하기 위해 agent가 위치 정보를 제공해야 함을 의미합니다. 본 연구에서는 데이터 기반 방법을 사용하여 vision 전용 입력과 위치가 필요한 작업을 갖춘 GUI agent를 train하는 것을 목표로 합니다.

데이터 기반 방법을 사용하여 visual 기반 GUI agent를 train하려면 visual modal 정보(예: 스크린샷)가 포함된 많은 GUI 탐색 데이터가 필요합니다. 일부 연구는 visual modal 정보가 포함된 GUI 탐색 datasets을 제공하지만, 해당 datasets은 일반적으로 다음 문제 중 하나 이상을 가지고 있습니다. (1) GUI 환경이 너무 쉬우며 실제 시나리오와 거리가 멉니다. (2) datasets이 좁은 도메인 또는 시나리오에 초점을 맞추고 있습니다. (3) datasets의 크기가 GUI agent를 train하기에 너무 작습니다. 본 연구에서는 이러한 세 가지 문제를 해결하기 위해 GUIAct dataset을 제안합니다. 그 외에도 GUI agent의 자연어 상호 작용 능력을 향상시키기 위해 GUIChat dataset도 제공합니다.

 

 

 

 

이 섹션은 기존 Vision Language Models (VLMs)와 GUI Agents 연구 동향을 짚어보며, 본 논문이 어떤 차별점을 가지고 기여하는지 이해하는 데 도움을 줍니다.

2.1 Vision Language Models

  • 대부분의 VLMs 구조:
    • Vision encoder (e.g., CLIP-ViT) + Language Model (e.g., Vicuna, Qwen) + Bridge Module (e.g., MLP layer in LLaVA, attention-based resampler in BLIP-2, Qwen-VL)
    • Fuyu-8B의 차별점: 외부 vision encoder 없이, 텍스트 토큰과 픽셀 정보를 통합된 공간에서 처리하는 decoder-only transformer architecture 사용 → 모든 해상도의 이미지 처리 가능
  • 최근 연구 동향:
    • Visual detail 인식, 신뢰할 수 있는 응답, object grounding, 다국어 기능, 모델 효율성 등 다양한 영역에서 VLMs 개선 노력
  • 기존 VLMs의 한계 (본 논문에서 집중하는 부분):
    • 고해상도 이미지 내 작은 크기 텍스트 인식 어려움 (OCR 성능 부족)
    • 픽셀 레벨의 정확한 위치 지정 능력 부족 (Grounding 성능 부족)
  • 본 논문의 기여:
    • GUIEnv 데이터셋을 통해 고해상도 웹사이트 스크린샷을 활용하여 VLMs의 OCR 및 Grounding 능력 향상

2.2 GUI Agents

  • GUI Agent의 역할: 다양한 GUI 시스템에서 작업 수행을 도움
  • 최근 발전: Large Models (LMs), Big Data, 데이터 기반 방법론 덕분에 빠르게 발전
  • 두 가지 접근 방식:
    • Train-free: Closed-source LMs (e.g., GPT-4, GPT-4V) 활용, 전략 설계 및 프롬프트 엔지니어링에 의존
    • Data-driven: 소규모 open-source 모델 기반, supervised fine-tuning 등의 데이터 기반 방법 사용
  • GUI Agent의 핵심 요소:
    • 인식 (Perception): 텍스트 전용, 이미지-텍스트 결합, vision 전용 방식으로 나뉨
    • 제어 (Control): 위치 무관 (position-free, 요소에 인덱스 부여, 다중 선택), 위치 필요 (position-needed, "클릭", "탭" 등에 위치 정보 필요) 방식으로 나뉨
  • 본 논문의 접근 방식:
    • Vision 전용 입력
    • 위치 필요 (position-needed) 제어
    • 데이터 기반 방법 사용
  • 기존 GUI Navigation 데이터셋의 문제점 (본 논문에서 해결하고자 하는 부분):
    • 단순한 환경: 현실 시나리오와 괴리
    • 좁은 영역/시나리오에 국한
    • 데이터셋 크기가 작음
  • 본 논문의 기여:
    • GUIAct 데이터셋: 위의 세 가지 문제점 해결
    • GUIChat 데이터셋: GUI agent의 자연어 상호 작용 능력 향상

결론:

이 논문은 기존 VLMs의 OCR 및 Grounding 능력 한계기존 GUI Navigation 데이터셋의 문제점을 지적하며, 이를 해결하기 위한 새로운 데이터셋 (GUIEnv, GUIAct, GUIChat) 을 제안합니다. 즉, Vision-only, position-needed GUI Agent 개발을 위한 고품질 데이터셋을 제공하여 해당 분야 연구 발전에 기여하고자 합니다.

 

 

 

 

 

 

 

3 GUICourse Construction

이 섹션에서는 VLMs의 OCR 및 grounding 능력을 향상시키고, VLMs의 GUI 시스템 지식을 강화하며, GUI agent의 상호 작용을 돕기 위한 datasets 그룹인 GUICourse를 소개합니다. 표 1에서 볼 수 있듯이, GUICourse는 일반적인 VLMs에서 GUI agent를 train하기 위한 전체 파이프라인을 위한 최초의 large-scale corpus이며, 여기에는 GUIEnv, GUIAct 및 GUIChat이 포함됩니다.

3.1 GUIEnv: A Large Scale Dataset for Fundamental Abilities

OCR과 grounding은 visual 기반 GUI agent의 인식 및 제어를 위한 두 가지 기본적인 능력입니다. 이러한 능력을 향상시키기 위해, 우리는 약 10M개의 pre-training 데이터 GUIEnv-global과 0.7M개의 SFT 데이터 GUIEnv-local로 구성된 large-scale dataset인 GUIEnv를 생성합니다.

 

그림 2: 우리 GUIEnv datasets의 데이터 형식을 보여주는 몇 가지 예시. GUIEnv-global 작업은 오직 웹사이트 스크린샷만 제공하며, model은 레이아웃 순서에 따라 모든 텍스트와 그 위치를 예측해야 합니다. GUIEnv-local 작업은 model이 지정된 텍스트가 주어지면 영역(좌상단 점과 우하단 점으로 표현되는 박스)을 예측하거나, 지정된 박스가 주어지면 텍스트를 예측하도록 요구합니다.

 

 

 

그림 2에서 볼 수 있듯이, GUIEnv-global의 각 샘플은 텍스트, grounding 정보 및 레이아웃 순서를 포함하여 전체 페이지에서 설명 가능한 모든 콘텐츠가 포함된 긴 텍스트입니다. GUIEnv-local의 각 샘플은 "text2bbox" 또는 "bbox2text" 작업으로 설계된 영역에 대한 QA 쌍입니다.

데이터 수집. 우리는 C4에서 4M개의 URL을 수집하고 렌더링을 위해 Playwright3를 사용하여 궁극적으로 10M개의 주석이 달린 스크린샷을 생성했습니다. 10M개의 주석이 달린 스크린샷은 GUIEnv-global 데이터의 10M 샘플에 해당합니다. GUIEnv-local 데이터의 경우, C4에서 해당 요소와 함께 약 50k개의 웹사이트 스크린샷을 선택합니다. 이러한 스크린샷은 일반적으로 웹사이트의 전체 콘텐츠를 포함하기 때문에 거대합니다. 우리는 세 단계로 데이터를 처리합니다. (1) 1920x1080 해상도 미만의 더 작은 파티션으로 자릅니다. (2) 요소가 10개 미만인 이미지를 제거합니다. (3) 각 스크린샷에서 텍스트와 위치가 있는 10개의 요소를 "text2bbox" 및 "bbox2text" 작업의 데이터로 무작위로 단순화합니다. 마지막으로 GUIEnv-local 데이터에 대한 0.7M개의 지침을 획득했습니다.

3.2 GUIAct: A Multi-Scenario Dataset for GUI Knowledge

GUI 요소의 기능과 제어 방법을 포함하는 GUI 시스템의 지식은 GUI agent에게 중요합니다. VLMs와 GUI agent 간의 격차를 해소하는 것을 목표로, 우리는 GUI 지식을 향상시키기 위해 GUIAct dataset을 제안합니다. GUIAct dataset은 두 가지 시나리오(웹사이트 및 스마트폰)의 GUI 탐색 작업을 포함하며, "web-single", "web-multi" 및 "smartphone"의 세 파티션으로 나눌 수 있습니다. GUI 탐색 작업은 그림 3과 같이 작업 지침에 따라 agent가 작업을 사용하여 GUI 환경과 상호 작용하도록 요구합니다. 이 작업에서 우리는 이미지만 있는 환경과 상호 작용하는 GUI agent만 고려합니다. 우리는 인간이 사용하는 것과 동일한 환경을 사용하는, 보이지 않는 요소가 없는 뷰포트의 GUI 시스템 스크린샷만 사용합니다. 서로 다른 GUI 시스템은 일반적으로 다양한 작업(예: "클릭"은 웹사이트에서 일반적이지만 "탭"은 스마트폰에서 일반적임)을 가집니다. 우리는 서로 다른 GUI 시스템에 대해 11가지 유형의 작업을 포함하는 통일된 작업 공간을 정의하며, 세부 정보는 부록 A.1에 나와 있습니다.

데이터 수집. 우리는 네 단계로 GUIAct (web-single) dataset을 구축합니다. (1) 웹사이트 선택. 우리는 GPT-4를 사용하여 인터넷 사용의 다양한 시나리오(예: 온라인 쇼핑 및 E-learning)와 URL을 수집합니다. 그런 다음 이러한 URL을 시드로 사용하여 해당 하이퍼링크로 새 웹사이트를 확장합니다. 이 단계에서 50개의 도메인과 13k개의 웹사이트를 획득합니다. (2) 캡처 획득. 우리는 웹 스냅샷 도구를 사용하여 해당 URL을 기반으로 웹사이트 HTML, 대화형 요소 및 스크린샷에 응답합니다. (3) LLM-Auto Annotation. 우리는 각 웹사이트에 대한 단일 단계 instruction-action 쌍을 얻기 위해 GPT-4V를 사용합니다. 각 요청에서 GPT-4V에 두 개의 이미지를 제공합니다. 원본 스크린샷과 대화형 요소 식별이 포함된 수정된 스크린샷입니다. 13k개의 웹사이트 스크린샷을 기반으로 약 70k개의 instruction-action 쌍을 얻습니다. (4) 데이터 확인. 우리는 자동 instruction-action 쌍의 품질을 확인하기 위해 주석자를 고용합니다. 주석자는 부정확한 항목을 수정하거나 수정하기 어려운 경우 폐기하도록 요청받습니다. 그 후 샘플링된 결과를 기반으로 GUIAct (web-single) 데이터의 정확도가 55%에서 92%로 향상됩니다. 마지막으로 웹사이트 시나리오에서 약 67k개의 단일 단계 작업 지침을 얻었으며, 이는 67k개의 training 샘플에 해당합니다.

우리는 세 단계로 GUIAct (web-multi) dataset을 구축합니다. (1) 웹사이트 선택. 우리는 정보 검색을 위한 8가지 최상위 웹 시나리오(쇼핑, 다이어트, 숙박, 여행, 교육, 건강, 직업 및 엔터테인먼트)를 구상합니다. 8개의 최상위 시나리오를 기반으로 32개의 하위 시나리오와 121개의 잘 알려진 웹사이트를 수집합니다. (2) 질문 획득. 우리는 각 웹사이트에 대한 지침을 생성하기 위해 LLMs (GPT-3.5 및 Claude2)를 사용합니다. 해당 웹사이트에서 특수 정보를 검색하기 위한 8k개의 high-level 지침을 수집합니다. 각 지침을 완료하려면 웹사이트와의 다중 턴 상호 작용이 필요합니다. (3) Crowd-sourced Annotation. 우리는 웹 브라우저 플러그인으로 주석 도구를 개발합니다. 그런 다음 주석자를 고용하여 해당 웹사이트에서 지침을 완료하기 위한 연산자를 실행합니다. 지침이 부정확하거나 답변이 없는 경우 주석자는 이를 수정하거나 폐기합니다. 마지막으로 웹사이트 시나리오에서 5,696개의 다중 단계 작업 지침을 얻었으며, 이는 44k개의 training 샘플에 해당합니다.

우리는 AITW dataset의 하위 집합을 사용하여 GUIAct (smartphone) dataset을 구축합니다. "일반" 태그가 있는 데이터를 선택하고 하단 탐색 모음이 없는 스크린샷을 필터링합니다("뒤로 가기" 및 "홈으로" 작업을 "탭"으로 변환할 것이기 때문). 그런 다음 원래 작업을 우리의 작업 공간으로 변환합니다. 마지막으로 스마트폰 시나리오에서 9,157개의 다중 단계 작업 지침을 얻었으며, 이는 67k개의 training 샘플에 해당합니다.

3.3 GUIChat: A Text-Rich Multi-Modal Dataset for Interaction

자연어 상호 작용은 GUI agent를 더 잘 사용하는 데 중요합니다. 더 나은 상호 작용을 위해 GUI agent의 training 단계에서 대화 데이터를 혼합하는 것이 필요합니다. 우리는 대화에 텍스트가 풍부한 웹사이트 스크린샷과 grounding boxes가 많이 포함된 GUIChat dataset을 소개합니다. 이 dataset에는 시각 정보 쿼리, 인간 중심 문제, 세계 지식 문의 및 복잡한 reasoning 작업의 네 가지 측면에서 약 44k개의 단일 턴 QA 쌍과 6k개의 다중 턴 대화가 있습니다.

데이터 수집. 우리는 세 단계로 이 dataset을 구축합니다. (1) 웹 페이지 스크린샷 획득. GUIEnv의 수집 프로세스와 동일하게 Playwright를 활용하여 웹 페이지를 렌더링하고 스크린샷을 얻습니다. (2) 텍스트 표현 추출. 중복된 DOM 트리에서 좌표와 함께 필수 구조화된 정보와 텍스트를 추출합니다. (3) Question-Answer 쌍 생성. GPT-4를 활용하여 현재 웹사이트의 텍스트 표현에서 question-answer 쌍을 구성합니다. 텍스트 표현에는 위치 정보가 있는 웹사이트의 요소가 포함됩니다. 정확한 텍스트 표현이 주어지면 GPT-4가 GPT-4V보다 더 높은 정확도를 얻을 수 있기 때문에 이 단계를 달성하기 위해 GPT-4V가 아닌 GPT-4를 사용합니다.

 

 

 

 

 

핵심 요약:

  • GUICourse: 일반적인 VLMs를 GUI Agent로 훈련하기 위한 전체 파이프라인을 다루는 최초의 대규모 데이터셋
  • 세 가지 하위 데이터셋으로 구성:
    • GUIEnv: VLMs의 OCR 및 Grounding 능력 향상에 초점
    • GUIAct: VLMs의 GUI 시스템 지식(기능, 제어 방법) 강화에 초점
    • GUIChat: GUI Agent의 자연어 상호작용 능력 향상에 초점

각 데이터셋의 핵심:

3.1 GUIEnv: Large Scale Dataset for Fundamental Abilities (OCR & Grounding)

  • 목표: VLM 기반 GUI Agent의 핵심 능력인 OCR과 Grounding 성능 향상
  • 두 가지 데이터:
    • GUIEnv-global (10M): 웹 페이지 스크린샷과 텍스트, 위치, 레이아웃 순서 정보가 포함된 긴 텍스트 쌍으로 구성 (Pre-training 용)
      • 차별점: 스크린샷 내 모든 텍스트와 위치 정보를 레이아웃 순서대로 제공하여, 모델이 웹 페이지 구조를 이해하도록 유도
    • GUIEnv-local (0.7M): 지정된 영역에 대한 QA 쌍 ("text2bbox", "bbox2text")으로 구성 (SFT 용)
      • 차별점: 텍스트를 기반으로 정확한 bounding box를 예측하거나, bounding box를 기반으로 텍스트를 예측하는 task를 통해 정밀한 Grounding 능력 학습
  • 데이터 수집:
    • C4에서 4M URL 수집 후 Playwright로 렌더링하여 10M 스크린샷 생성
    • GUIEnv-local은 50k 스크린샷을 1920x1080 이하로 자르고, 요소가 적은 이미지를 제거하고, 텍스트와 위치가 있는 10개 요소를 무작위로 샘플링하여 생성

3.2 GUIAct: Multi-Scenario Dataset for GUI Knowledge (GUI 시스템 이해)

  • 목표: 웹사이트와 스마트폰 환경에서의 GUI 탐색 작업을 통해, VLM에게 GUI 시스템(기능, 제어 방법)에 대한 지식 학습
  • 세 가지 데이터:
    • web-single (67k): 단일 단계 instruction-action 쌍
    • web-multi (5,696개, 44k 샘플): 다중 단계 instruction-action 쌍
    • smartphone (9,157개, 67k 샘플): AITW 데이터셋의 하위 집합을 정제하여 생성
  • 데이터 수집 (web-single):
    • GPT-4로 다양한 시나리오와 URL 수집 → 하이퍼링크로 웹사이트 확장 (50개 도메인, 13k개 웹사이트)
    • 웹 스냅샷 도구로 HTML, 인터랙티브 요소, 스크린샷 캡처
    • GPT-4V로 각 웹사이트에 대한 단일 단계 instruction-action 쌍 생성 (70k 쌍)
    • 사람이 데이터 검수하여 정확도 향상 (55% → 92%)
  • 데이터 수집 (web-multi):
    • 8개 상위 시나리오(쇼핑, 여행 등) 기반 32개 하위 시나리오, 121개 웹사이트 선정
    • GPT-3.5, Claude2로 각 웹사이트에 대한 다중 턴 상호작용이 필요한 instruction 생성 (8k개)
    • 웹 브라우저 플러그인을 활용한 크라우드 소싱 방식으로 사람이 직접 instruction 수행 및 데이터 수집
  • 차별점:
    • 11가지 유형의 통일된 action space 정의: 다양한 GUI 시스템(웹사이트, 스마트폰)에 적용 가능
    • 실제 사용 환경과 유사하게 unseen element가 없는 viewport 스크린샷만 사용
    • 자동화(GPT-4V)와 크라우드 소싱을 결합하여 효율적이고 정확하게 데이터 수집

3.3 GUIChat: Text-Rich Multi-Modal Dataset for Interaction (자연어 상호작용)

  • 목표: GUI Agent의 자연어 상호작용 능력 향상
  • 데이터: 44k개의 단일 턴 QA 쌍과 6k개의 다중 턴 대화, 텍스트가 풍부한 웹사이트 스크린샷과 grounding box 정보 포함
  • 4가지 대화 유형: 시각 정보 쿼리, 인간 중심 문제, 세계 지식 문의, 복잡한 추론 작업
  • 데이터 수집:
    • Playwright로 웹 페이지 스크린샷 획득 (GUIEnv와 동일)
    • DOM 트리에서 좌표와 함께 구조화된 정보와 텍스트 추출
    • GPT-4로 텍스트 표현에서 QA 쌍 생성
  • 차별점:
    • 텍스트가 풍부한 웹사이트 스크린샷과 grounding box 정보를 대화 데이터에 포함하여, GUI 관련 자연어 이해 능력 향상에 기여

결론:

GUICourse는 기존 VLM의 약점(OCR, Grounding, GUI 시스템 이해, 자연어 상호작용)을 체계적으로 보완하기 위해 고안된 최초의 대규모, 다목적 GUI Agent 훈련용 데이터셋입니다. 특히, 데이터 수집 과정에서 자동화와 크라우드 소싱을 효율적으로 결합하고, 실제 사용 환경을 반영한 데이터 구성(viewport 스크린샷, 통일된 action space) 을 통해 실용적인 GUI Agent 개발에 기여할 것으로 기대됩니다.