AI바라기의 인공지능
agent : 논문리뷰 : Navigating the Digital World as Humans Do: UNIVERSAL VISUAL GROUNDING FOR GUI AGENTS 본문
agent : 논문리뷰 : Navigating the Digital World as Humans Do: UNIVERSAL VISUAL GROUNDING FOR GUI AGENTS
AI바라기 2025. 1. 6. 18:06
Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents 논문 리뷰
Purpose of the Paper
대부분의 기존 Graphical User Interface (GUI) agent는 HTML 또는 accessibility tree와 같은 text-based representation에 의존하여 GUI를 인식하고, 이는 noise, 불완전성 및 계산 overhead를 야기합니다. 본 논문의 특별한 목적은 인간처럼 시각적으로만 환경을 인식하고 pixel-level operation을 직접 수행하는 GUI agent를 위한 Universal Visual Grounding model을 개발하는 것입니다. 기존 GUI agent는 text-based input에 의존하여 grounding 성능이 제한적이었지만, 본 논문에서는 web-based synthetic data와 LLaVA architecture를 활용하여 다양한 platform에서 GUI element의 referring expression을 정확하게 coordinate로 mapping하는 visual grounding model을 구축하고자 합니다. 이를 통해 text-based representation에 의존하지 않고 visual perception만으로 GUI를 이해하고 조작하는 agent의 가능성을 제시합니다.
Key Contributions
- Human-like Embodiment를 갖춘 GUI Agent를 위한 Framework 제시: 시각적으로만 디지털 세계를 인식하고 pixel-level operation을 수행하는 GUI agent를 위한 SeeAct-V framework를 제안합니다. 이 framework는 기존의 text-based representation에 의존하는 SeeAct framework를 개선하여, visual observation만을 사용하는 agent를 구현합니다.
- 효과적인 GUI Visual Grounding을 위한 간단하면서도 강력한 Recipe 제시: Web-based synthetic data와 LLaVA architecture의 slight adaptation을 통해 GUI visual grounding을 위한 효과적인 방법을 제안합니다. 이를 통해 10M GUI element와 referring expression, 1.3M screenshot으로 구성된 GUI visual grounding을 위한 largest dataset을 구축하고, Universal Visual Grounding Model인 UGround를 훈련합니다.
- 포괄적인 Evaluation을 통한 UGround의 우수성 입증: Grounding, offline agent, online agent의 3가지 카테고리에 걸쳐 6개의 benchmark를 사용하여 포괄적인 evaluation을 수행합니다. 이를 통해 UGround가 기존 visual grounding model 대비 **최대 20%**의 성능 향상을 보이며, UGround를 탑재한 SeeAct-V agent가 text-based input을 추가로 사용하는 state-of-the-art agent 대비 최소 동등하거나 더 우수한 성능을 달성함을 입증합니다.
Novelty
- Visual-Only GUI Agent: 기존 연구들이 HTML, accessibility tree 등 text-based representation에 의존했던 것과 달리, 본 논문은 visual observation과 pixel-level operation만으로 작동하는 GUI agent를 위한 framework와 grounding model을 제시합니다.
- Web-Based Synthetic Data를 활용한 Universal Visual Grounding Model: Webpage의 dual representation과 다양한 metadata를 활용하여 대규모의 diverse referring expression을 합성하고, 이를 통해 다양한 platform (web, desktop, mobile)에 적용 가능한 universal visual grounding model을 훈련합니다.
- LLaVA Architecture의 Adaptation: GUI grounding에 적합하도록 LLaVA architecture를 input-output formulation, image resolution 측면에서 개선하여 visual grounding 성능을 향상시킵니다.
Experimental Highlights
- ScreenSpot Benchmark: UGround는 ScreenSpot benchmark에서 기존 SOTA visual grounding model (SeeClick) 대비 평균 20% (agent setting에서는 29%) 더 높은 grounding accuracy를 보입니다. 특히, desktop UI에서 뛰어난 성능을 보이며, 이는 UGround가 desktop screenshot으로 훈련되지 않았음에도 불구하고 달성한 결과라는 점에서 주목할 만합니다.
- Offline Agent Evaluation (Multimodal-Mind2Web, AndroidControl, OmniACT): UGround를 탑재한 SeeAct-V agent는 text-based input을 추가로 사용하는 기존 SOTA agent 대비 전반적으로 우수한 성능을 보입니다. 특히, Multimodal-Mind2Web에서는 GPT-4, UGround 조합이 Image+Text, Choice 조합과 Image+Text, SoM 조합과 비교했을 때 각각 2.5%, 17.2% 더 높은 element accuracy를 보입니다.
- Online Agent Evaluation (Mind2Web-Live, AndroidWorld): UGround를 탑재한 SeeAct-V agent는 Mind2Web-Live에서 text-only baseline agent 대비 completion rate는 3.1%, 1.6%, task success rate는 **2.0%, -2.9%**의 성능을 보입니다. AndroidWorld에서는 text-only baseline agent 대비 1.4%, 7.4% 더 높은 task success rate를 보입니다.
- Training Data Analysis: Web-Hybrid data만으로 훈련된 UGround는 다른 data (e.g., AndroidControl, Widget Caption, UIBert, AITZ)만으로 훈련된 모델 대비 더 우수한 성능을 보입니다. 특히, icon과 widget에서 더 큰 성능 차이를 보이며, 이는 Web-Hybrid data가 visual feature와 function을 더 잘 포착한다는 것을 의미합니다.
Limitations
- Data Efficiency: UGround는 대규모 synthetic data로 훈련되지만, webpage 간 element의 유사성과 반복성을 고려할 때, data grouping 및 deduplication과 같은 방법을 통해 data efficiency를 개선할 여지가 있습니다.
- Long-Tail Element: Mobile 및 desktop UI에서 자주 등장하는 특정 icon은 training data에 포함되기 어려워, long-tail element에 대한 대응이 부족합니다.
- Desktop UI Data Scarcity: Desktop UI data의 부족으로 인해, desktop UI에 대한 성능이 제한적입니다.
- Planner Dependency: UGround는 external planner에 의존하며, downstream task에 대한 training 없이는 독립적인 GUI agent로 작동할 수 없습니다.
Future Work
- Data Efficiency 개선: Data grouping, deduplication 등의 방법을 통해 data efficiency를 개선합니다.
- Long-Tail Element 대응: Mobile 및 desktop UI에서 자주 등장하는 specific icon에 대한 semantics를 포착하기 위한 방법을 연구합니다.
- Desktop UI Data 확보: Desktop UI에 대한 성능 향상을 위해, 더 포괄적인 desktop UI dataset을 구축합니다.
- End-to-End Model 개발: UGround를 planner와 통합하여 end-to-end visual-only agent를 개발하고, downstream task에 대한 grounding capability를 향상시킵니다.
ABSTRACT
Multimodal large language models (MLLMs)은 그래픽 사용자 인터페이스(GUI) agents의 능력을 변화시키고 있으며, 통제된 시뮬레이션에서 다양한 플랫폼에 걸친 복잡한 실제 애플리케이션으로의 전환을 촉진하고 있습니다. 그러나 이러한 agents의 효율성은 grounding 능력의 견고성에 달려 있습니다. 현재 GUI agents는 주로 HTML 또는 accessibility trees와 같은 텍스트 기반 표현을 활용하는데, 이는 유용성에도 불구하고 종종 노이즈, 불완전성 및 계산 오버헤드 증가를 초래합니다. 본 논문에서는 GUI 환경을 전적으로 visually 하게 인식하고 GUI에서 직접 픽셀 수준의 작업을 수행하는, 인간과 유사한 구현을 GUI agents에 적용하는 것을 지지합니다. 핵심은 다양한 플랫폼에서 GUI 요소에 대한 다양한 referring expressions를 GUI의 좌표에 정확하게 매핑할 수 있는 visual grounding models입니다. 웹 기반 synthetic data와 LLaVA architecture의 약간의 수정을 포함하는 간단한 레시피가 이러한 visual grounding models을 training 하는데 놀라울 정도로 효과적임을 보여줍니다. 우리는 130만 개의 스크린샷에 걸쳐 1,000만 개의 GUI 요소와 그들의 referring expressions를 포함하는, 지금까지 가장 큰 GUI visual grounding을 위한 datasets을 수집하고, 이를 사용하여 GUI agents를 위한 강력한 universal visual grounding model인 UGround를 training 합니다. 세 가지 카테고리(grounding, offline agent, online agent)에 걸친 6개의 벤치마크에 대한 실험 결과는 1) UGround가 기존 GUI agents를 위한 visual grounding models을 최대 20%까지 절대적으로 능가하고, 2) UGround를 사용하는 agents는 기존 agents가 추가적인 텍스트 기반 입력을 사용하는 반면, 우리의 agents는 오직 visual perception만 사용한다는 사실에도 불구하고 state-of-the-art agents를 능가한다는 것을 보여줍니다. 이러한 결과는 인간이 디지털 세계를 탐색하는 것처럼 디지털 세계를 탐색하는 GUI agents의 실현 가능성과 가능성에 대한 강력한 지지를 제공합니다.
1 INTRODUCTION
GUI (graphical user interface) agents는 GUI를 조작하여 디지털 세계에서 작동하는 autonomous agents로, large language models (LLMs)와 함께 빠르게 발전해 왔습니다. 한편으로, (multimodal) LLMs의 일반적인 멀티미디어 이해 및 generation 능력은 GUI agents가 단순한 시뮬레이션 환경을 넘어 웹, 데스크톱, 모바일 운영 체제를 포함한 다양하고 복잡한 실제 환경으로 일반화할 수 있도록 합니다. 다른 한편으로, GUI agents는 LLMs를 위한 중요한 테스트베드가 되었으며, 지속적인 발전을 추진하는 데 필요한 폭과 깊이를 제공할 뿐만 아니라 상업적으로 실현 가능한 많은 자동화 애플리케이션으로의 경로를 제공합니다.
대부분의 인간은 디지털 세계를 visually 인식하고 키보드, 마우스 또는 터치스크린을 통해 행동합니다. 원칙적으로, GUI agent의 구현은 1) GUI 렌더링을 visually 인식하고, 2) 타이핑을 위한 키보드와 동등한 effector와 클릭 및 호버링과 같은 픽셀 수준 작업을 위한 마우스 또는 터치스크린과 동등한 effector를 가질 수 있다면 이미 완료된 것이어야 합니다. 그러나 현재 GUI agents는 그 이상을 가정합니다. 인식을 위해 대부분의 현재 agents는 HTML 또는 accessibility (a11y) trees와 같은 기본 text-based 표현을 읽는 데 의존합니다. multimodal LLMs (MLLMs)의 최근 발전으로 visual 인식이 광범위하게 실현 가능해졌지만, text-based 표현은 여전히 공동으로 사용됩니다. effector의 경우, 대부분의 현재 agents는 GUI에서 직접 픽셀 수준의 작업을 수행하는 대신 HTML 요소 또는 레이블이 지정된 bounding boxes와 같은 옵션 목록에서 선택하여 작동합니다. 이러한 옵션을 얻으려면 종종 text-based 표현 및/또는 객체와 텍스트를 감지하기 위한 별도의 models에 대한 액세스가 필요합니다.
그러나, 공짜 점심은 없으며 이러한 추가 요구 사항에는 한계가 있습니다. 한편으로, text-based 표현은 노이즈가 많고 불완전합니다. 전체 HTML은 상당한 양의 관련 없는 정보를 포함합니다. A11y trees는 더 작고 주로 semantic 정보를 포함하지만 자발적인 참여에 의존하는 다른 semantic 주석과 유사하게 불완전하고 잘못된 주석으로 광범위하게 어려움을 겪습니다. 반대로 visual 렌더링은 설계상 정보가 완전하고 사용자와 관련된 정보만 포함합니다. 다른 한편으로, 추가 입력은 지연 시간과 추론 비용을 증가시킵니다. HTML은 해당 visual보다 최대 10배 더 많은 토큰을 인코딩하는 데 사용할 수 있음을 발견했습니다. 한편, a11y tree를 얻는 것 자체는 특히 데스크톱 또는 모바일 환경에서 시간이 많이 소요될 수 있습니다. 모든 단계에서 추가된 지연 시간과 비용은 장기 agent 작업에서 더해져 사용자 경험과 실용성을 저하시킵니다.
이 작업에서 우리는 인간과 같은 구현, 즉 환경에 대한 visual 관찰과 픽셀 수준 작업만으로 GUI agents가 얼마나 멀리 갈 수 있는지에 관심이 있습니다. 몇 가지 시도가 있었지만 state-of-the-art 솔루션에는 거의 채택되지 않습니다. 우리는 주요 병목 현상이 grounding, 즉 (M)LLM에 의해 생성된 텍스트 계획을 GUI의 정확한 위치에 매핑하는 것임을 발견했습니다. GUI agent grounding model에는 세 가지 바람직한 요소가 있습니다. 1) 높은 정확도. 단일 grounding 오류로 인해 agent가 멈추고 전체 작업이 실패할 수 있습니다. 2) 강력한 일반화. 데스크톱(Windows, Linux, macOS), 모바일(Android, iOS), 다양한 웹사이트 등 다양한 GUI에서 작동해야 합니다. 3) 유연성. 특정 model과 밀접하게 결합되는 대신 다양한 MLLMs에서 플러그 앤 플레이가 되어야 합니다. GUI agents를 위한 기존 visual grounding 방법은 이러한 바람직한 요소를 충족하지 못하여 인간과 같은 구현을 가진 GUI agents로의 발전을 방해합니다.
이 작업의 주요 기여는 세 가지입니다.
- 우리는 디지털 세계를 완전히 visually 인식하고 GUI에서 픽셀 수준의 작업을 수행하는 인간과 같은 구현을 가진 GUI agents에 대한 신중한 주장과 강력한 사례를 제시하고, 인기 있는 SeeAct framework를 조정하여 이러한 agents를 구축하기 위한 일반적인 framework인 SeeAct-V를 제안합니다.
- 우리는 web-based 합성 데이터와 LLaVA architecture의 약간의 수정을 포함하는 간단한 방법이 GUI visual grounding에 놀라울 정도로 효과적임을 보여줍니다. 이 방법을 사용하여 130만 개의 GUI 스크린샷에 걸쳐 1,000만 개의 GUI 요소와 그 referring expressions를 포함하는 현재까지 가장 큰 GUI visual grounding datasets을 구성합니다. 또한 datasets에 대한 범용 visual grounding model인 UGround를 train하고 배포합니다.
- 우리는 세 가지 범주(그림 1)에 걸쳐 6개의 벤치마크를 포함하는 GUI agents에 대한 가장 포괄적인 평가를 수행합니다. grounding(데스크톱, 모바일 및 웹), offline agent 평가(데스크톱, 모바일 및 웹), online agent 평가(모바일 및 웹). 결과는 다음을 보여줍니다. 1) UGround는 GUI agents를 위한 기존 visual grounding models을 전반적으로 최대 20%까지 절대적으로 능가합니다. 2) UGround를 사용하는 SeeAct-V agents는 추가 text-based 입력을 사용하는 state-of-the-art agents보다 적어도 비슷하거나 종종 훨씬 더 나은 성능을 달성할 수 있습니다. 이러한 결과는 인간처럼 디지털 세계를 탐색하는 GUI agents의 타당성과 가능성에 대한 강력한 지지를 제공합니다.
논문 핵심 주제: Human-like Embodiment를 가진 GUI Agent
- 기존 GUI Agent의 한계를 지적하고, Visual Perception과 Pixel-level Operation만 사용하는, 인간과 유사한(Human-like) GUI Agent의 가능성을 탐구합니다.
- 이러한 접근 방식은 Grounding 능력이 핵심이며, 이를 위해 UGround라는 새로운 Universal Visual Grounding Model을 제안합니다.
기존 GUI Agent의 한계:
- Text-based Representation (HTML, a11y trees)에 대한 의존성:
- Noisy and Incomplete: HTML은 관련 없는 정보가 많고, a11y trees는 불완전하고 부정확한 주석 문제가 흔합니다.
- Increased Latency and Inference Costs: Text-based Representation 처리는 계산 비용이 높고, 특히 a11y tree 확보는 느릴 수 있습니다. 이는 긴 Horizon의 Agent Task에서 사용자 경험과 실용성을 저하시킵니다.
- Pixel-level Operation 대신 Option List (e.g., HTML elements, bounding boxes)에 의존: 이 역시 Text-based Representation 및 별도의 객체/텍스트 탐지 Model이 필요합니다.
본 논문이 제시하는 차별점:
- Human-like GUI Agent:
- Visual-only Perception: 오직 Visual Rendering만 사용하여 GUI를 인식합니다.
- Direct Pixel-level Operation: 키보드/마우스/터치스크린과 동등한 Effector로 GUI에서 직접 픽셀 수준의 작업을 수행합니다.
- UGround: Universal Visual Grounding Model:
- High Accuracy, Strong Generalization, Flexibility를 목표로 합니다.
- Web-based Synthetic Data와 LLaVA Architecture의 수정을 통해 훈련됩니다.
- 10M GUI 요소와 1.3M GUI 스크린샷을 포함하는 대규모 데이터셋으로 훈련되었습니다.
연구의 중요성:
- GUI Agent의 새로운 패러다임 제시: Text-based Representation에 의존하지 않는, 보다 효율적이고 인간과 유사한 GUI Agent의 가능성을 보여줍니다.
- 실용적인 Agent 개발 가속화: UGround는 다양한 플랫폼과 MLLMs에 적용 가능한 범용 Grounding Model로, Agent 개발을 용이하게 합니다.
핵심 요약:
- 이 논문은 Text-based Representation에 의존하는 기존 GUI Agent의 한계를 극복하고, Visual Perception과 Pixel-level Operation만을 사용하는 Human-like GUI Agent를 제안합니다.
- 이를 위해 UGround라는 새로운 Visual Grounding Model을 개발하고, 대규모 데이터셋으로 훈련하여 그 성능을 입증합니다.
- 이 연구는 GUI Agent의 새로운 패러다임을 제시하며, 실용적인 Agent 개발을 가속화할 것으로 기대됩니다.
2 METHOD
2.1 OVERVIEW
우리는 agent가 환경을 visual observation만 수행하고 직접 pixel-level operation을 수행하는, SeeAct-V (그림 2)로 인기 있는 SeeAct framework를 적용합니다. 원래 SeeAct는 planning과 grounding의 두 단계로 구성됩니다. MLLM은 planning과 grounding 모두에 사용됩니다. 각 단계에서, MLLM은 먼저 텍스트 계획을 생성하고, 그 다음 grounding은 MLLM에게 짧은 grounding 후보 목록에서 선택하도록 요청하여 수행됩니다. grounding 후보는 필터링된 HTML 요소 또는 스크린샷에 대한 Set-of-Mark (SoM) 주석 레이블이며, 둘 다 추가 입력으로 HTML 또는 a11y trees가 필요합니다. 대조적으로, SeeAct-V는 환경 관찰을 위해 스크린샷만 사용합니다. grounding을 위해, SeeAct-V는 agent가 행동해야 할 현재 화면의 좌표를 직접 생성하는 visual grounding에 특화된 별도의 model을 사용합니다.
따라서 강력한 visual grounding model은 SeeAct-V를 매력적인 framework로 만드는 핵심이 됩니다. 이상적으로는 플랫폼(예: 웹, 데스크톱, 모바일) 전반에 걸쳐 일반화되고 GUI 요소를 지칭하는 다양한 방법을 처리해야 합니다. MLLMs의 빠른 발전을 고려할 때, 이 grounding model은 다양한 MLLMs에 쉽게 연결되어 그들의 계획을 다양한 GUI 환경에 grounding하는 데 도움이 되어야 합니다. 마지막으로, GUI 스크린샷은 해상도와 방향이 크게 다를 수 있습니다. 따라서 grounding model은 광범위한 입력 해상도를 처리해야 합니다. 이 작업의 주요 기술적 기여는 이러한 범용 visual grounding models을 training하기 위한 놀랍도록 간단한 방법(데이터 및 모델링 포함)입니다. 우리는 §2.2에서 간단한 데이터 합성 전략을 소개하고, §2.3에서 모델링 고려 사항을 소개합니다. 이 간단한 방법을 사용하여, 우리는 현재까지 GUI grounding을 위한 가장 큰 training data를 구축하고 GUI agents를 위한 강력한 범용 visual grounding model인 UGround를 train합니다.
2.2 DATA CONSTRUCTION
우리는 visual grounding을 위한 training data로 크고, 고품질이며, 다양한 <screenshot, referring expression, coordinates> 세트를 합성합니다. 여기서 요소의 중심점 좌표를 예상 출력으로 사용합니다. 우리의 데이터 합성은 웹페이지를 기반으로 합니다. 웹페이지는 grounding data 합성에 이상적입니다. 왜냐하면 그들의 이중 표현 – 우리는 쉽게 전체 HTML, visual 렌더링, 그리고 둘 사이의 세밀한 대응(예: HTML 요소에서 정확한 bounding boxes까지)을 얻을 수 있기 때문입니다. HTML 요소는 또한 CSS 또는 accessibility 속성과 같은 풍부한 메타데이터를 포함하여 다양한 referring expressions (REs)를 합성하기 위한 수많은 기회를 제공합니다. 마지막으로, GUI 디자인은 플랫폼 전반에 걸쳐 많은 유사점을 공유하기 때문에, 우리는 웹 데이터로만 train된 visual grounding models이 여전히 데스크톱 및 모바일 UI와 같은 다른 플랫폼으로 일반화될 수 있다고 가정합니다.
GUI를 위한 일반적인 RE 유형. 사람들은 GUI 요소를 지칭하기 위해 다양한 방법을 사용합니다(그림 3). 이전 visual grounding 작업은 이러한 다양성의 차원을 충분히 고려하지 않았습니다. 우리는 GUI 요소에 대한 일반적인 RE를 세 가지 유형으로 분류합니다.
- Visual REs: 텍스트 또는 이미지 content, 요소 유형(예: 버튼 또는 입력 필드), 모양, 색상 등과 같은 두드러진 visual features.
- Positional REs: 페이지의 왼쪽 상단과 같은 절대 위치와 다른 요소에 대한 상대 위치(예: 요소 X의 오른쪽)를 모두 포함합니다. 직접적인 위치 정보 외에도, 상황별 참조(예: 항목 A의 경우, 섹션 X 아래)는 grounding이 더 어렵습니다. 왜냐하면 위치 관계와 요소 간의 semantic 관계(예: 좋아요 버튼이 제품과 연결됨)를 모두 이해해야 하기 때문입니다.
- Functional REs: 주요 기능으로 요소를 지칭합니다(예: 홈으로 이동, 내 카트로 이동). 이러한 유형 중 두 가지 이상을 결합하는 복합 유형도 일반적입니다. 특히 더 강력한 구분이 필요할 때 그렇습니다(예: 포켓몬 셔츠 아래의 하트 버튼을 클릭하여 즐겨찾기에 추가).
웹에서 하이브리드 RE 합성. 우리는 HTML 요소를 위한 다양한 RE를 생성하기 위해 신중하게 선별된 규칙과 LLMs를 모두 조정하는 새로운 하이브리드 합성 파이프라인을 제안합니다. 1) 기본 설명자: 우리는 HTML 요소의 속성에 포함된 풍부한 visual 및 기능적 정보를 추출합니다. 예를 들어, inner-text 및 alt와 같은 HTML 속성은 visual 단서(텍스트 content 포함)를 제공하는 반면, aria-label과 같은 accessibility 속성은 HTML 요소의 기능적 측면을 더 많이 드러냅니다. 그러나 HTML 속성은 종종 불완전합니다. HTML 속성을 넘어서는 visual 및 기능적 signals을 수집하기 위해, 우리는 open MLLM인 LLaVA-NeXT-13B를 사용합니다. 우리는 HTML 요소의 visual 렌더링을 사용 가능한 속성과 함께 MLLM에 입력하고 다양한 RE를 생성하도록 prompt합니다. 이 프로세스는 종종 일부 HTML 속성과 visual features(예: 속이 빈 하트) 또는 MLLM의 새로운 지식(예: 파란색 새 아이콘은 Twitter를 나타냄)을 결합하는 복합 RE를 생성합니다. 우리는 또한 생성된 RE를 더 간결하게 만들기 위해 LLM(Llama-3-8B-Instruct)을 사용합니다. 우리는 다음 중 하나를 요소의 기본 설명자로 무작위로 선택합니다. visual HTML 속성, 기능적 HTML 속성 또는 LLMs에 의해 합성된 설명. 2) 위치 표현: 우리는 스크린샷에서 요소의 절대 위치와 이웃 요소와의 공간적 관계(예: 페이지 상단, 요소 A와 B 사이)에 따라 위치 RE를 생성하기 위해 규칙을 선별합니다. 우리는 또한 상황별 참조를 생성하기 위해 여러 규칙을 만듭니다. 예를 들어, 우리는 스크린샷에서 특정 유형의 요소(예: 라디오 버튼, 체크박스, 입력 필드)를 식별하고, 다른 요소와의 공간적 및 구조적 관계(예: DOM 트리의 계층 구조)에 따라 RE를 생성합니다(예: 생일 레이블이 지정된 입력 필드).
우리는 Common Crawl에서 스크린샷(다양한 해상도의 세로 및 가로 보기 혼합)과 웹 요소의 메타데이터(두드러진 HTML 속성, bounding box 좌표)를 수집한 다음, 데이터 합성 파이프라인을 적용하여 주요 training dataset(Web-Hybird)을 얻습니다. 자세한 내용은 부록 C.1에 남겨둡니다.
보충 데이터. Android를 위한 grounding data를 구성하는 데 있어 여러 가지 prior efforts가 있었기 때문에, 우리는 기존 datasets도 통합합니다. 우리는 또한 GPT-4o를 사용하여 웹 요소를 위한 작은 RE 세트를 직접 합성합니다. 더 개방형 RE(유형에 대한 제약 없음)와 기능적 RE(Web-Direct)에 중점을 둡니다. 이러한 추가는 더 다양한 RE를 제공하고 Android의 요소, 특히 웹에서 흔히 볼 수 없는 요소(예: 토글 버튼)를 포함하는 데 도움이 됩니다.
전체적으로, 우리는 총 1,000만 개의 UI 요소로 구성된 datasets을 컴파일합니다. 대다수(90%)는 하이브리드 합성 파이프라인(표 1)에서 가져온 것입니다. 동일한 스크린샷의 요소는 training을 가속화하기 위해 batch 처리됩니다.
핵심: Human-like GUI Agent를 위한 SeeAct-V Framework와 Universal Visual Grounding Model (UGround) 학습 방법론
2.1 OVERVIEW: SeeAct-V Framework
- 기존 SeeAct의 개선: Text-based Representation (HTML, a11y trees) 없이 Visual Observation과 Pixel-level Operation만 사용하는 SeeAct-V를 제안합니다.
- SeeAct-V의 두 단계 (Planning & Grounding):
- Planning: MLLM이 텍스트 계획을 생성합니다.
- Grounding: 별도의 Visual Grounding Model이 Agent가 행동해야 할 화면 좌표를 직접 생성합니다. (기존 SeeAct는 MLLM이 Grounding 후보 목록에서 선택)
- Visual Grounding Model의 중요성:
- Cross-Platform Generalization (Web, Desktop, Mobile)
- 다양한 Referring Expression 처리 능력
- 다양한 MLLMs와의 Plug-and-Play 호환성
- 다양한 입력 해상도 처리 능력
2.2 DATA CONSTRUCTION: UGround 학습을 위한 데이터 구축
- 핵심 Idea: Web-based Data Synthesis를 통해 대규모, 고품질, 다양한 <Screenshot, Referring Expression, Coordinates> Triplet Dataset을 구축합니다.
- Web Data의 장점:
- Dual Representation (HTML & Visual Rendering): HTML 요소와 Bounding Box 간의 Fine-grained Correspondence 확보 용이
- 풍부한 Metadata (CSS, Accessibility Attributes): 다양한 Referring Expression 생성을 위한 정보 활용
- Cross-Platform Generalization 가능성: GUI 디자인의 유사성 덕분에 웹 데이터로 훈련된 모델이 다른 플랫폼에도 적용될 것으로 기대
- Referring Expression (RE)의 세 가지 유형:
- Visual REs: 텍스트, 이미지, 요소 유형, 모양, 색상 등 시각적 특징
- Positional REs: 절대적/상대적 위치, Contextual References (e.g., "Item A의 경우", "섹션 X 아래")
- Functional REs: 주요 기능 (e.g., "홈으로 이동", "내 카트로 이동")
- 복합 유형: 위 유형들의 조합 (e.g., "포켓몬 셔츠 아래의 하트 버튼을 클릭하여 즐겨찾기에 추가")
- Hybrid RE Synthesis Pipeline:
- Primary Descriptors:
- HTML Attribute (Visual & Functional) 활용
- LLaVA-NeXT-13B를 사용하여 HTML Attribute를 넘어선 Visual & Functional Signal 확보 (e.g., "속이 빈 하트", "파란 새 아이콘은 Twitter를 나타냄")
- Llama-3-8B-Instruct를 사용하여 생성된 RE를 간결하게 다듬음
- Positional Expressions:
- 절대적 위치 및 이웃 요소와의 공간적 관계를 기반으로 규칙 기반 생성
- Contextual References 생성을 위한 규칙 (e.g., "생일 레이블이 지정된 입력 필드")
- Primary Descriptors:
- 데이터 수집: Common Crawl에서 스크린샷과 웹 요소 Metadata 수집 후, 데이터 합성 파이프라인 적용 (Web-Hybrid)
- Supplementary Data:
- 기존 Android Grounding Dataset 통합
- GPT-4o를 사용한 Web Element RE 직접 합성 (Web-Direct) - 개방형 및 기능적 RE에 중점
핵심 요약:
- SeeAct-V: Text-based Representation 없이 Visual-only로 작동하는 새로운 GUI Agent Framework를 제안합니다.
- UGround 학습: Web-based Data Synthesis와 Hybrid RE Generation Pipeline을 통해 대규모, 고품질 Grounding Dataset을 구축합니다.
- 다양성 확보: Visual, Positional, Functional RE를 포괄하고, Supplementary Data를 통해 Android 및 개방형/기능적 RE를 보완합니다.
- 이 연구는 Human-like GUI Agent 개발을 위한 실질적인 방법론을 제시하며, 강력한 Universal Visual Grounding Model 훈련을 위한 구체적인 Data Construction 전략을 제공합니다.