AI바라기의 인공지능

agent : 논문리뷰 : SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents 본문

논문리뷰

agent : 논문리뷰 : SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents

AI바라기 2025. 1. 6. 13:07

SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents

Purpose of the Paper

기존 Graphical User Interface (GUI) agent들은 주로 structured text (e.g., HTML)를 통해 환경과 상호작용 해왔어. 하지만 structured text는 desktop application과 iOS에선 얻기 힘들고, 너무 길고 비효율적이며, layout, image, icon과 같은 중요한 시각적 정보를 놓칠 수 있다는 단점이 있었지. 본 논문은 이러한 한계를 극복하고자 screenshots만을 기반으로 GUI를 이해하고 작업을 수행하는 새로운 visual GUI agent인 SeeClick을 제안하고자 해. 이를 통해 structured text에 의존하지 않고도 다양한 GUI 환경에서 보편적으로 작동할 수 있는 agent를 개발하는 것이 본 논문의 핵심적인 목적이야.

Key Contributions

  • Unified visual GUI agent SeeClick 개발: SeeClick은 오직 interface screenshots만을 input으로 받아 clicking과 typing actions을 수행하며, 다양한 GUI platforms (mobile, desktop, web)에 적용될 수 있는 최초의 unified visual GUI agent야.
  • GUI grounding 개념 정립 및 pre-training strategy 제안: Visual GUI agent 개발의 핵심 과제인 GUI grounding 능력을 향상시키기 위해, web 및 mobile UI datasets를 활용한 automated curation method를 고안하고, 이를 바탕으로 SeeClick에 GUI grounding pre-training을 적용했어.
  • GUI grounding benchmark ScreenSpot 구축: 다양한 GUI platforms (iOS, Android, macOS, Windows, webpages)에서 1200개 이상의 instructions를 포함하는 최초의 realistic GUI grounding benchmark인 ScreenSpot을 구축하여, visual GUI agent의 GUI grounding 능력을 객관적으로 평가할 수 있는 기반을 마련했어.
  • GUI grounding과 downstream agent tasks 성능 간의 상관관계 입증: ScreenSpot 및 3개의 agent tasks (MiniWob, AITW, Mind2Web)에 대한 실험을 통해, GUI grounding 능력 향상이 downstream agent tasks 성능 향상으로 이어진다는 것을 입증했어.

Novelty

  • Screenshots만을 input으로 사용하는 최초의 visual GUI agent: 기존 GUI agent들이 structured text 또는 screenshots와 structured text를 함께 사용했던 것과 달리, SeeClick은 오직 screenshots만을 input으로 사용하여 GUI를 이해하고 작업을 수행하는 최초의 visual GUI agent야.
  • GUI grounding pre-training: Large Vision-Language Models (LVLMs)에게 GUI grounding 능력을 부여하기 위해 web 및 mobile UI datasets를 활용한 pre-training 방법을 제안했어. 이는 natural images에 대한 grounding 능력은 있지만 GUI contexts에 대한 이해가 부족했던 기존 LVLMs의 한계를 극복한 새로운 접근 방식이야.
  • 다양한 GUI platforms를 포괄하는 benchmark: 기존 연구들이 특정 platform (e.g., Android)에 국한된 dataset을 사용했던 반면, ScreenSpot은 iOS, Android, macOS, Windows, webpages 등 다양한 GUI platforms를 포괄하는 최초의 realistic GUI grounding benchmark야.

Experimental Highlights

  • ScreenSpot에서의 우수한 성능: SeeClick은 GUI grounding 능력을 평가하는 ScreenSpot benchmark에서 기존의 대표적인 LVLMs (MiniGPT-v2, Qwen-VL, GPT-4V, Fuyu, CogAgent) 대비 뛰어난 성능을 보였으며, 특히 GUI-specific model인 CogAgent보다 작은 model size로 더 높은 accuracy를 달성했어.
  • Downstream agent tasks에서의 효과 검증: Mobile 및 web agent tasks (MiniWob, AITW, Mind2Web)에 SeeClick을 적용한 결과, GUI grounding pre-training을 통해 agent의 task 수행 능력이 크게 향상됨을 확인했어. 특히, MiniWob에서는 purely vision-based agent임에도 불구하고 HTML과 screenshots를 모두 사용하는 strong baseline인 WebGUM을 능가하는 성능을 보였어.
  • GUI grounding과 agent task performance 간의 상관관계 분석: 여러 checkpoints의 ScreenSpot scores와 downstream tasks scores를 비교 분석하여, GUI grounding 능력 향상이 agent task performance 향상과 직접적인 연관이 있음을 보여주었어.

Limitations

  • Action space의 제약: SeeClick은 현재 clicking과 typing actions에 중점을 두고 있으며, dragging, double-clicking과 같은 complex actions은 다루지 않아.
  • Open-source LVLMs 성능에 따른 의존성: Multi-step tasks를 수행하기 위해서는 agent-specific data에 대한 training이 필요하며, 이는 open-source LVLMs의 성능에 영향을 받을 수 있어.

Future Work

  • Complex actions (e.g., dragging, double-clicking) 지원: Action space를 확장하여 보다 realistic한 GUI agent를 개발할 예정이야.
  • Real-world applicability 향상: 더욱 다양한 real-world GUI environments에 대한 adaptability를 높이기 위해 연구를 진행할 계획이야.
  • Unification of GUI agent tasks: Vision-based solutions를 통해 다양한 GUI agent tasks를 통합하는 unified agent를 개발하고자 해.
  • Ethical considerations: GUI agents의 안전하고 윤리적인 사용을 위한 지속적인 연구 및 개발 노력을 기울일 예정이야.

 

 

 

Abstract

Graphical User Interface (GUI) agent는 스마트폰, 데스크톱과 같은 디지털 기기에서 복잡한 작업을 자동화하기 위해 설계되었습니다. 대부분의 기존 GUI agent는 추출된 구조화된 데이터(예: HTML)를 통해 환경과 상호 작용하는데, 이 데이터는 상당히 길 수 있고 때때로 접근이 불가능할 수 있습니다(예: 데스크톱). 이 문제를 완화하기 위해, 우리는 스크린샷에만 의존하여 작업을 자동화하는 새로운 visual GUI agent인 SeeClick을 제안합니다. 예비 연구에서, 우리는 visual GUI agent 개발의 핵심 과제인 GUI grounding, 즉 지침에 따라 화면 요소를 정확하게 찾는 능력을 발견했습니다. 이 과제를 해결하기 위해, 우리는 SeeClick을 GUI grounding pre-training으로 강화하고 GUI grounding 데이터 큐레이션을 자동화하는 방법을 고안했습니다. 이러한 노력과 함께, 우리는 모바일, 데스크톱, 웹 환경을 포괄하는 최초의 현실적인 GUI grounding 벤치마크인 ScreenSpot을 만들었습니다. pre-training 후, SeeClick은 다양한 baseline에 비해 ScreenSpot에서 상당한 개선을 보여줍니다. 더욱이, 세 가지 널리 사용되는 벤치마크에 대한 종합적인 평가는 GUI grounding의 발전이 downstream GUI agent 작업의 성능 향상과 직접적으로 관련이 있다는 우리의 발견을 일관되게 뒷받침합니다.

 

 

 

1 Introduction

머신 인텔리전스의 영원한 주제는 Siri 및 Copilot과 같은 Graphical User Interface (GUI) agent 시스템을 개발하여 컴퓨팅 장치에서 복잡한 작업을 자동화하고, 이로써 인간의 작업량을 줄이는 것입니다. GPT-4와 같은 Large Language Models (LLMs)의 최근 발전은 GUI agent의 발전을 크게 촉진했습니다. 이러한 agent는 웹 페이지의 HTML과 같은 구조화된 텍스트를 해석하여 환경과 상호 작용하며, planning, reasoning, execution을 위해 LLM을 유도합니다. 그러나, GUI agent는 구조화된 텍스트에 의존하여 세 가지 고유한 한계에 직면합니다. (1) 특히 iOS 또는 데스크톱 애플리케이션과 같이 이러한 정보를 얻기 어려운 곳에서는 구조화된 텍스트에 항상 접근할 수 있는 것은 아닙니다. (2) 구조화된 텍스트의 장황한 특성은 LLM에 비효율적인 context를 구성하는 동시에 layout, 이미지, icon과 같은 중요한 정보를 생략합니다. (3) HTML, DOM, Android VH를 포함한 다양한 구조화된 텍스트는 작업별 observation 및 action space의 큐레이션을 필요로 합니다. 텍스트 기반 접근 방식의 이러한 고질적인 결함은 대안적인 솔루션을 요구합니다.

 

 

Figure 1: Text-based agent는 구조화된 텍스트에서 대상 요소를 선택하며, 때때로 스크린샷으로 보강됩니다. SeeClick은 스크린샷에만 의존하여 action 위치를 예측하는 vision-based 방법론을 사용합니다.

 

 

 

 

 

본 논문에서는 Large Vision-Language Models (LVLMs)를 기반으로 구축된 visual GUI agent인 SeeClick을 소개합니다. 그림 1에 나타난 것처럼 인간과 GUI의 상호 작용에서 영감을 받아, SeeClick은 인터페이스 스크린샷을 직접 관찰하여 clicking 또는 typing과 같은 low-level action을 수행하도록 설계되었습니다. 이 혁신적인 접근 방식은 번거로운 구조화된 텍스트와의 상호 작용을 우회하여 SeeClick이 다양한 GUI 플랫폼에 보편적으로 적응할 수 있도록 합니다. 이러한 visual agent를 구축하는 데는 근본적인 과제가 있습니다. 바로 GUI grounding입니다. 이는 현재 LVLM에는 없는, 지침에 따라 화면 요소를 정확하게 찾는 능력입니다. 이 과제를 해결하기 위해 SeeClick은 LVLM을 GUI grounding pre-training 전략으로 강화합니다. 우리는 웹 grounding 데이터 큐레이션을 자동화하고 공개 모바일 UI datasets를 조정하여 모바일 grounding 데이터를 얻는 방법을 고안했습니다. SeeClick은 위에서 큐레이션된 dataset을 사용하여 LVLM의 continual pre-training에 사용하며, 이를 통해 다양한 GUI 환경에서 텍스트, 위젯, icon과 같은 요소를 정확하게 찾을 수 있습니다.

GUI grounding은 GUI agent에게 기본적이면서도 아직 충분히 탐구되지 않은 능력이기 때문에, 우리는 다양한 GUI 플랫폼 전반에 걸친 최초의 현실적인 GUI grounding 평가 벤치마크인 ScreenSpot을 구축합니다. ScreenSpot은 iOS, Android, macOS, Windows, 웹 페이지에서 가져온 600개 이상의 스크린샷과 1200개의 지침을 포함하며, 특히 텍스트 기반 요소와 다양한 위젯 및 icon을 모두 포함합니다. 평가 결과는 현재 LVLM에 비해 SeeClick의 우월성을 확인하고 GUI grounding pre-training의 효과를 입증합니다.

마지막으로, 우리는 SeeClick을 MiniWob, AITW, Mind2Web을 포함한 모바일 및 웹 agent 작업에 적용합니다. 순수 vision-based agent로서 SeeClick은 인상적인 성능을 달성합니다. 이는 단지 0.3%의 training data만 사용하면서도 강력한 visual baseline인 Pix2Act를 능가합니다. 더욱이, 이 세 가지 벤치마크에 대한 실험 결과는 GUI grounding의 개선이 agent 작업 성능 향상과 직접적으로 연관되어 있다는 우리의 발견을 일관되게 뒷받침합니다.

우리의 주요 기여는 다음과 같습니다.

  • 우리는 인터페이스 스크린샷에만 의존하여 다양한 GUI 플랫폼에서 clicking 및 typing action을 수행하는 통합 visual GUI agent인 SeeClick을 개발했습니다.
  • 우리는 visual GUI agent를 위한 GUI grounding을 사전에 탐구하고, 제안된 GUI grounding pre-training 전략으로 SeeClick을 강화했습니다.
  • 우리는 다양한 GUI 플랫폼에서 1200개 이상의 지침을 포괄하는 현실적인 GUI grounding 벤치마크 ScreenSpot을 만들었습니다.
  • ScreenSpot과 세 가지 agent 작업에 대한 실험 결과는 agent의 grounding 능력을 향상시키는 것이 downstream agent 작업에서 성능을 개선하는 데 핵심임을 보여줍니다.

 

 

 

핵심: Visual GUI Agent "SeeClick" 개발 및 GUI Grounding 능력의 중요성 강조

기존 GUI Agent의 한계:

  • 구조화된 텍스트(예: HTML) 의존성:
    • 접근성 문제 (iOS, 데스크톱 앱)
    • LLM에게 비효율적인 context (장황함, 레이아웃/이미지/아이콘 정보 누락)
    • 다양한 형식(HTML, DOM, Android VH)으로 인한 작업별 observation/action space 큐레이션 필요

SeeClick: Vision-Based 접근법

  • Large Vision-Language Models (LVLMs) 기반: 스크린샷만으로 clicking, typing 등의 low-level action 수행 (Figure 1 참고)
  • 구조화된 텍스트와의 상호작용 우회: 다양한 GUI 플랫폼에 보편적 적용 가능

GUI Grounding: 핵심 과제 및 해결책

  • GUI Grounding: 지침에 따라 화면 요소를 정확히 위치시키는 능력 (visual agent의 핵심 과제)
  • SeeClick의 해결책:
    • GUI Grounding pre-training으로 LVLM 강화
    • 웹/모바일 grounding 데이터 자동 큐레이션 방법 고안
    • 다양한 GUI 환경(텍스트, 위젯, 아이콘)에서 요소 위치 파악 능력 향상

ScreenSpot: 새로운 GUI Grounding 벤치마크

  • 다양한 GUI 플랫폼(iOS, Android, macOS, Windows, 웹)을 아우르는 최초의 현실적 벤치마크
  • 600개 이상 스크린샷, 1200개 이상 지침 (텍스트, 위젯, 아이콘 포함)

주요 성과 및 시사점

  • SeeClick은 기존 LVLM 대비 ScreenSpot에서 우월한 성능 입증 (GUI Grounding pre-training 효과 검증)
  • SeeClick은 MiniWob, AITW, Mind2Web 등의 agent 작업에서 적은 training data(0.3%)로 visual baseline(Pix2Act) 능가
  • 결론: GUI Grounding 능력 향상은 downstream agent 작업 성능 개선의 핵심

AI 연구자들을 위한 핵심 요약:

  • 본 논문은 구조화된 텍스트에 의존하는 기존 GUI agent의 한계를 극복하고자, **vision-based GUI agent "SeeClick"**을 제안합니다.
  • **"GUI Grounding"**이라는 새로운 문제를 정의하고, pre-training자동화된 데이터 큐레이션을 통해 해결책을 제시합니다.
  • **"ScreenSpot"**이라는 새로운 벤치마크를 통해 SeeClick의 성능을 검증하고, GUI Grounding의 중요성을 강조합니다.
  • 이 연구는 visual GUI agent 개발에 있어 GUI Grounding이라는 새로운 방향성을 제시하고, 관련 연구를 촉진할 것으로 기대됩니다.

 

2 Related Work

Autonomous GUI Navigation

초기 연구는 단순화된 웹 및 모바일 UI에서의 작업 자동화를 탐구했습니다. LLM(특히, GPT-4, LLaMA-2)의 발전과 함께, LLM 중심 agent가 지배적인 패러다임이 되었습니다. 일련의 연구는 in-context learning 및 self-refine을 통해 웹 작업을 위해 ChatGPT 및 GPT-4를 prompting하는 데 중점을 두었습니다. 다른 연구에서는 LLM을 특수 agent로 training하는 방법을 탐구했습니다. Deng et al.은 복잡한 HTML 내에서 대상 요소를 식별하기 위한 2단계 방법을 고안했습니다. Gur et al.은 프로그래밍을 통해 웹사이트와 상호 작용하는 것을 제안했습니다.

텍스트만 처리할 수 있는 LLM의 제약 조건을 고려하여, 최근에는 vision-based GUI 탐색을 시도하고 있습니다. 이러한 방법은 주로 GPT-4V를 활용하며 입력으로 GUI 메타데이터도 필요로 합니다. 본 논문에서는 GUI 메타데이터 없이도 다양한 GUI 플랫폼에서 작동할 수 있는, open-source LVLM을 커스터마이징하여 보편적인 visual GUI agent SeeClick을 구축합니다.

Large Vision-Language Models

최근 연구는 이미지와 텍스트를 공동으로 처리할 수 있는 LVLM을 구축하는 데 엄청난 노력을 기울였습니다. connecting layer를 통해 vision encoder를 LLM과 통합하여 LLM의 언어 및 reasoning 기술을 상속하여 vision-language 작업을 수행합니다. 일련의 연구는 응답을 생성할 때 객체에 대한 bounding box를 제공하는 것과 같은 LVLM을 사용한 grounding에 중점을 두었습니다. 그럼에도 불구하고 이러한 노력은 주로 자연 이미지를 다루었으며 GUI context를 탐구하지 않았습니다. 이 논문은 GUI에서의 grounding에 중점을 두고 visual agent로서 LVLM의 잠재력을 탐구합니다.

 

 

 

3 Approach

우리의 예비 연구는 visual GUI agent 개발의 주요 과제인 GUI grounding, 즉 지침에 따라 화면 요소를 찾는 능력을 강조합니다. 최근 LVLM이 자연 이미지에 대한 grounding 능력을 주장했지만, GUI 스크린샷은 dense text와 수많은 icon 및 위젯으로 인해 상당히 다릅니다. 이러한 차이는 기존 LVLM의 GUI context에서의 grounding 성능을 저하시키고 visual GUI agent로서의 잠재력을 제한합니다. 이 논문은 LVLM에 GUI grounding 기술을 활용하여 스크린샷에만 의존하여 지침을 실행하는 visual GUI agent의 길을 열어줍니다. 그림 2와 같이 SeeClick은 GUI를 위한 foundation model이며 agent 작업에 맞게 조정됩니다. 다음으로, 우리는 GUI grounding task 공식화, continual pre-training 데이터 구성, training 세부 사항을 포함하여 SeeClick의 탄생을 소개합니다.

3.1 GUI Grounding for LVLMs

GUI grounding은 SeeClick의 핵심 기능이므로 먼저 language generation을 위해 LVLM을 training하여 grounding task를 수행하는 방법을 설명합니다. 인터페이스 스크린샷 s와 그 위에 있는 요소 모음 {(x<sub>i</sub>, y<sub>i</sub>)|i} 가 주어지면, 여기서 x<sub>i</sub>는 i 번째 요소의 텍스트 설명을 나타내고 y<sub>i</sub>는 요소의 위치를 나타냅니다(bounding box 또는 점으로 표시됨). 그림 2(a)와 같이 LVLM은 인터페이스 스크린샷 s와 텍스트 설명 x를 기반으로 요소의 위치 y를 예측합니다. 즉, p(y|s, x)를 계산합니다.

잠재적인 과제는 LVLM이 language generation 형식으로 수치 좌표를 어떻게 예측하는가입니다. 이전 연구에서는 이미지를 1000개의 bin으로 나누고 x 및 y 좌표를 나타내기 위해 새로운 1,000-token vocabulary {<p<sub>0</sub>>, <p<sub>1</sub>>, ..., <p<sub>999</sub>>}를 만들었습니다. 이 작업에서 우리는 추가적인 tokenization이나 전처리/후처리 없이 수치 값을 자연어로 취급하는 LVLM에서 사용되는 보다 직관적인 방식을 채택합니다. 예를 들어, 그림 2(a)에서 스마트폰 스크린샷과 "Jony J의 새 앨범 보기" 지침에 대해 쿼리 프롬프트를 작성합니다. "UI에서 내가 원한다면 어디를 클릭해야 합니까?". 그 후, 우리는 일반적으로 model output과 ground truth "click (0.49, 0.40)" 사이의 cross-entropy loss를 계산하여 LVLM을 최적화합니다.

 

 

3.2 Data Construction

우리는 세 가지 데이터 모음을 사용하여 SeeClick을 training합니다. 인터넷에서 crawled된 웹 UI 데이터, 공개 datasets에서 재구성된 모바일 UI 데이터, 일반적인 vision-language instruction-following 데이터입니다.

Web Data. 웹 UI는 웹사이트마다 다양한 layout과 디자인 스타일을 특징으로 하므로, 다양한 GUI context에서 LVLM의 일반적인 인식 및 grounding 능력을 training하는 데 이상적입니다. 우리는 최신 Common Crawl 저장소에서 약 30만 개의 웹 페이지를 수집하여 웹 UI에 대한 training data로 사용합니다. 각 웹 페이지 s에 대해 그림 3과 같이 HTML 코드에서 두 가지 유형의 요소를 수집합니다. (1) visible text content를 표시하는 요소, (2) 마우스를 가져가면 설명 텍스트를 표시하는 특수 "title" 속성이 있는 요소. 이 방법을 사용하면 광범위한 텍스트 및 icon 요소를 포괄하면서 일련의 상호 작용 가능한 요소 y와 해당 지침 x를 수집할 수 있습니다. grounding task p(y|s, x) 외에도 좌표를 기반으로 텍스트 설명을 예측하는 웹 OCR task p(x|s, y)도 포함합니다.

 

Mobile Data. 모바일 UI의 경우 위젯 캡셔닝, 모바일 UI grounding, 모바일 UI 요약의 세 가지 유형의 데이터를 포함합니다. 위젯 캡셔닝 dataset는 모바일 UI 요소에 대한 언어 설명을 제공합니다. 예를 들어, 음악 플레이어 인터페이스의 재생 버튼에 대한 "음악 재생" 설명입니다. 우리는 거의 2만 개의 스크린샷, 4만 개의 위젯, 10만 개의 설명을 포함하는 (Li et al., 2020b)에서 제공하는 dataset의 training split을 활용합니다. 우리는 위젯 캡셔닝 프로세스를 반대로 하여 언어 설명을 지침으로, 해당 위젯을 대상 요소로 취급하여 모바일 UI grounding 데이터를 도출합니다. 다양성을 높이기 위해 RICO에서 자동으로 수집된 요소와 지침도 통합합니다. 모바일 데이터는 다양한 요소와 지침을 포함하여 다양한 GUI context에 대한 SeeClick의 grounding 능력의 일반화를 용이하게 합니다. 우리는 전반적인 인터페이스 이해를 향상시키기 위해 마지막으로 모바일 UI 요약 데이터 (Wang et al., 2021)를 포함합니다.

 

General Data. 자연 이미지에 대한 LVLM의 일반적인 능력을 유지하기 위해 대화, 자세한 설명, 복잡한 reasoning을 다루는 LLaVA의 일반적인 vision-language instruction-following 데이터를 통합합니다.

마지막으로, 위의 데이터를 혼합하고 추가된 각 GUI 작업에 대해 30개의 작업별 프롬프트를 작성하여 1M dataset를 만들어 SeeClick을 training합니다.

3.3 Training Details

우리는 grounding 능력과 448*448의 더 높은 해상도를 가진 최신 고급 LVLM인 Qwen-VL에 continual pre-training을 통해 SeeClick을 구축합니다. 우리는 우리가 구성한 dataset(3.2절에 설명됨)에서 약 1만 단계(약 1 epoch) 동안 Qwen-VL을 training하여 GUI base model SeeClick을 얻습니다. training 중에 우리는 LoRA를 사용하여 visual encoder와 LLM을 모두 fine-tuning합니다. 자세한 내용과 작업 예는 부록 A에 나와 있습니다.

 

 

3. Approach 정리 노트 (AI 연구자 대상)

핵심: LVLM에 GUI Grounding 능력 부여를 통한 Visual GUI Agent "SeeClick" 개발

GUI Grounding 능력 확보를 위한 전략:

  1. GUI Grounding Task 정의:
    • 스크린샷(s)과 텍스트 지시문(x) 기반, 타겟 요소 위치(y) 예측: p(y|s, x) 계산
    • 좌표 예측: 수치값을 자연어로 취급 (별도 토큰화/전후처리 불필요)
  2. Data Construction (SeeClick 학습을 위한 3가지 데이터 소스):
    • Web Data:
      • Common Crawl에서 30만 웹 페이지 crawling
      • HTML에서 (1) visible text content, (2) "title" 속성 요소 수집 (다양한 텍스트/아이콘 포괄)
      • Grounding task (p(y|s, x)) 및 Web OCR task (p(x|s, y)) 포함
    • Mobile Data:
      • 위젯 캡셔닝 (Li et al., 2020b): 2만 스크린샷, 4만 위젯, 10만 설명 (e.g., "음악 재생" -> 재생 버튼)
      • 위젯 캡셔닝 역변환 -> 모바일 UI Grounding 데이터 생성
      • RICO 활용, 자동 수집 요소/지침 추가
      • 모바일 UI 요약 데이터 (Wang et al., 2021) 추가
    • General Data:
      • LLaVA의 vision-language instruction-following 데이터 (자연 이미지 일반 능력 유지 목적)
  3. Training Details:
    • Continual pre-training: Qwen-VL (높은 해상도, Grounding 능력 보유) 기반
    • 약 1만 step (1 epoch) 학습 -> SeeClick (GUI base model)
    • LoRA 활용, visual encoder 및 LLM fine-tuning

AI 연구자를 위한 핵심 요약:

  • 본 논문은 LVLM에 GUI Grounding 능력을 부여하여, 스크린샷 기반 Visual GUI Agent **"SeeClick"**을 개발합니다.
  • 수치값을 자연어로 처리하는 직관적 방식으로 GUI Grounding Task를 정의합니다.
  • Web, Mobile, General Data를 결합하고, 자동화된 데이터 수집/변환을 통해 효율적으로 학습 데이터를 구축합니다.
  • Continual pre-trainingLoRA를 활용하여, 기존 LVLM(Qwen-VL)을 GUI에 특화된 SeeClick으로 fine-tuning합니다.
  • 이 연구는 Visual GUI Agent 개발에 있어 GUI Grounding 능력의 중요성을 강조하고, 실질적인 구현 방법론을 제시합니다.