AI바라기의 인공지능

agent : 논문 리뷰 : ShowUI: One Vision-Language-Action Model for GUI Visual Agent 본문

논문리뷰

agent : 논문 리뷰 : ShowUI: One Vision-Language-Action Model for GUI Visual Agent

AI바라기 2025. 1. 3. 19:42

Purpose of the Paper

ShowUI는 Graphical User Interface(GUI)에서 인간처럼 시각적으로 인식하고 상호작용할 수 있는 GUI visual agents 개발을 목표로 합니다. 기존 언어 기반 GUI 에이전트는 HTML 또는 accessibility tree와 같은 텍스트 중심 메타데이터에 의존하지만, ShowUI는 실제 스크린샷을 활용한 시각적 접근 방식을 통해 더 높은 실용성을 제공합니다.


Key Contributions

  1. UI-Guided Visual Token Selection
    • 방법: GUI 스크린샷을 그래프 구조로 변환하고, 서로 중복되는 영역을 감지해 중요하지 않은 토큰을 제거함으로써 시각적 토큰 사용을 최적화.
    • 결과: 토큰 중복을 33% 줄이고, 학습 속도를 1.4배 향상.
  2. Interleaved Vision-Language-Action (VLA) Streaming
    • 방법: Vision, Language, Action 모달리티를 통합하여 GUI 작업에서 멀티턴(navigation 및 query-action sequence) 과제를 효율적으로 처리하는 프레임워크 설계.
    • 결과: 시각적 정보와 액션 히스토리를 결합하여 다양한 환경에서 훈련 효율성을 높임.
  3. High-Quality Instruction-following Dataset
    • 방법: GUI 데이터를 웹(Web), 모바일(Mobile), 데스크탑(Desktop) 플랫폼에서 수집하고 불균형을 해결하기 위해 resampling 전략 적용.
    • 결과: 적은 데이터(256K)로도 높은 성능의 zero-shot grounding 및 navigation 성능 달성.

Novelty

  1. 경량화된 모델 디자인
    • 기존보다 작은 2B 모델과 256K 데이터로 학습, zero-shot screenshot grounding에서 75.1%의 정확도로 state-of-the-art 달성.
  2. 효율적인 토큰 선택 전략
    • UI-Connected Graph를 활용한 시각적 토큰 선택으로 위치 정보를 유지하면서도 불필요한 계산을 줄임.
  3. 모달리티 통합 프레임워크
    • Vision, Language, Action을 통합하여 GUI의 시각적 탐색과 상호작용 과제를 단일 모델로 처리.

Experimental Highlights

  • Zero-Shot Grounding:
    ShowUI는 2B 모델로 대규모 모델을 능가하는 정확도를 달성하면서도 효율성을 유지.
  • Navigation Tasks:
    모바일, 웹 환경의 navigation benchmark에서 GPT-4 기반의 폐쇄형 API를 사용하는 모델보다 우수한 성능을 보임.
  • 데이터 품질 개선:
    텍스트 기반 요소를 필터링하여 시각적으로 중요한 데이터를 선별함으로써 데이터 효율성을 극대화.

Limitations and Future Work

  • 한계:
    ShowUI는 주로 offline 데이터에 의존하여 학습되었기 때문에 동적 온라인 환경에 적응하는 데 제한이 있음.
  • 향후 방향:
    Reinforcement Learning을 활용하여 온라인 환경에서 발생할 수 있는 새로운 시나리오에 효과적으로 대처할 수 있도록 개선.

 

 

 

 

 

 

 

 

Abstract

GUI(Graphical User Interface) assistant를 구축하는 것은 인간의 워크플로우 생산성을 향상시키는 데 있어 엄청난 잠재력을 가지고 있습니다. 대부분의 agent는 텍스트가 풍부한 메타 정보(예: HTML 또는 접근성 트리)를 가진 closed-source API에 의존하는 language-based이지만, 인간이 하는 것처럼 UI visuals를 인지하는 데 한계를 보이며, 이는 GUI visual agent의 필요성을 강조합니다. 본 연구에서는 디지털 세계에서의 vision-language-action model인 ShowUI를 개발하며, 다음과 같은 혁신적인 특징을 가지고 있습니다: (i) UI-Guided Visual Token Selection은 스크린샷을 UI 연결 그래프로 공식화하고, 중복 관계를 적응적으로 식별하여 self-attention 블록 동안 token selection의 기준으로 사용함으로써 계산 비용을 줄입니다. (ii) Interleaved Vision-Language-Action Streaming은 GUI tasks 내의 다양한 요구를 유연하게 통합하여 navigation에서 visual-action 기록을 효과적으로 관리하거나 스크린샷 당 multi-turn query-action sequences를 짝지어 training 효율성을 향상시킵니다. (iii) 신중한 데이터 큐레이션과 리샘플링 전략을 사용하여 중요한 데이터 유형 불균형을 해결함으로써 Small-scale High-quality GUI Instruction-following Datasets를 구성합니다. 이러한 구성 요소를 갖춘 ShowUI는 256K 데이터를 사용하는 경량 2B model로, zero-shot 스크린샷 접지에서 75.1%의 높은 정확도를 달성합니다. UI-guided token selection은 training 중 중복 visual tokens를 33% 추가로 줄이고 성능을 1.4배 향상시킵니다. 웹, 모바일, 온라인 환경 전반의 navigation 실험은 GUI visual agent를 발전시키는 데 있어 우리 model의 효과와 잠재력을 더욱 강조합니다.

 

 

 

ShowUI: GUI Visual Agent를 위한 Vision-Language-Action Model

핵심: 기존 language-based GUI agent의 한계를 극복하고, 인간처럼 UI visuals를 인지하는 visual agent 개발

ShowUI의 특징:

  1. UI-Guided Visual Token Selection:
    • 스크린샷을 UI 연결 그래프로 표현
    • 중복 관계를 파악하여 self-attention에서 중요한 토큰만 선택
    • 계산 비용 절감 (33% 중복 visual tokens 감소, 1.4배 속도 향상)
  2. Interleaved Vision-Language-Action Streaming:
    • GUI task에 필요한 다양한 요소 (visual, language, action)를 유연하게 통합
    • navigation에서 visual-action 기록 관리
    • 스크린샷 당 multi-turn query-action sequences 짝짓기 -> training 효율성 향상
  3. Small-scale High-quality GUI Instruction-following Datasets:
    • 신중한 데이터 큐레이션
    • 리샘플링으로 데이터 불균형 해소
    • 256K 데이터, 2B 경량 model로 75.1% zero-shot 스크린샷 접지 정확도

결론:

  • 웹, 모바일, 온라인 환경에서 navigation 실험을 통해 효과 검증
  • GUI visual agent 발전에 기여할 잠재력

간단 요약:

ShowUI는 스크린샷에서 중요한 visual tokens만 선택하고, vision, language, action을 효율적으로 통합하며, 고품질 데이터셋을 활용하여, 경량 model로도 높은 성능을 보이는 새로운 GUI visual agent입니다.

 

 

Introduction

GUI(Graphical User Interfaces)는 개인이 디지털 세계와 소통하는 데 중심적인 역할을 하며, 다양한 일상 활동을 위한 가상의 구현된 인터페이스 역할을 합니다. 한편, complex language instructions를 이해하고 도구를 원활하게 통합하는 능력을 갖춘 Large Language Models (LLMs)는 agent를 구축하여 복잡한 tasks를 수행하는 데 있어 상당한 잠재력을 보여주었습니다. 이러한 발전은 사용자 의도에 따라 인간의 워크플로우를 크게 간소화할 수 있는 지능형 GUI agent의 개발에 영감을 줍니다.

GUI 자동화의 초기 노력은 주로 GPT-4와 같은 closed-source, API-based LLMs에 의존하는 language agent 개발에 초점을 맞추었습니다. 이러한 agent는 탐색 및 기타 tasks를 수행하기 위해 HTML 입력 또는 접근성 트리와 같은 텍스트가 풍부한 메타데이터를 활용합니다. 그러나 텍스트 전용 접근 방식은 사용자가 일반적으로 기본 구조적 오라클 정보 에 접근하지 않고 스크린샷을 통해 시각적으로 사용자 인터페이스와 상호 작용하는 실제 애플리케이션에서 제한적입니다. 이러한 한계는 슬라이드 생성 지원과 같이 인간이 하는 것처럼 UI를 인식하고 상호 작용할 수 있는 GUI visual agent 개발의 필요성을 강조합니다.

그러나 GUI visual perception은 multi-modal chatbots의 일반적인 대화 능력보다는 UI element grounding 또는 action 실행과 같은 전문 기술을 요구하며, 자연 이미지 처리와 비교하여 고유한 과제를 제시합니다. 이러한 격차를 인식한 연구자들은 이러한 새로운 능력을 습득하기 위해 vision-language models을 training하기 시작했습니다. 예를 들어, 일부 연구에서는 웹 스크린샷 datasets를 활용하여 대규모 multi-modal models의 element-grounding 기능을 향상시킵니다. 한편, 다른 연구에서는 multi-step navigation을 위한 instruction tuning models를 통해 navigation tasks를 해결합니다.

 

이러한 발전에도 불구하고 GUI visual agent를 위한 multi-modal models training은 여전히 ​​modeling 및 training과 관련된 중요한 과제에 직면해 있습니다. (a) Expensive Visual Modeling: UI 스크린샷은 일반적으로 고해상도(예: 2K)이므로 긴 토큰 sequences가 발생하여 긴 컨텍스트 처리에 문제가 됩니다. 대부분의 기존 models은 이러한 고해상도 데이터에 최적화되지 않아 비효율성과 높은 계산 비용을 초래합니다. (b) Managing Interleaved Vision-Language-Action: action은 language modalities와 다르며 장치마다 다를 수 있습니다(예: 웹 인터페이스의 'Return'과 모바일 장치의 'Press home'). 또한 서로 다른 파라미터 설정에 맞춰 조정됩니다(예: 'Scroll' actions은 웹에서 두 방향, 모바일 플랫폼에서 네 방향). 따라서 action을 효과적으로 model링하는 방법이 불분명합니다. 또한 visual 및 query 데이터와 함께 action을 modeling하는 것이 중요합니다. 예를 들어, navigation 프로세스는 스크린샷 및 action 단계의 기록을 생성하여 models이 효과적으로 해석하고 관리해야 하는 복잡한 interleaved vision-language-action을 생성합니다. (c) Diverse Training Data: element grounding 및 navigation을 포함한 다양한 목적의 주석과 함께 웹 및 모바일과 같은 다양한 장치에 걸쳐 방대한 양의 GUI 데이터가 있으므로, 강력한 GUI visual models 개발을 위한 고품질 training 코퍼스를 효과적으로 선택하는 방법은 여전히 ​​불분명합니다. 이러한 중요한 과제는 충분히 탐구되지 않았지만 GUI agent를 위한 효과적인 visual models 개발에 필수적입니다.

 

본 연구에서는 앞서 언급한 과제를 해결하고 해결하는 것을 목표로 GUI visual agent를 위한 vision-language model을 개발하며, 다음과 같은 주요 기여를 합니다.

 

(i) UI-Guided Visual Token Selection: 우리는 UI 스크린샷의 고유성(즉, 필수 세부 정보와 혼합된 중복성)을 인식하고 UI 친화적인 visual token selection 접근 방식을 개발합니다. RGB 공간에서 각 patch를 노드로 표현하고 연결된 구성 요소를 식별하여 patches 간의 중복성을 modeling합니다. 이 관계는 visual encoders 또는 language models 내에서 self-attention 블록을 안내하여 token selection을 하고 효과적으로 계산을 줄입니다.

 

(ii) Interleaved Vision-Language-Action Streaming: 우리는 GUI actions의 다양성을 분석하고, JSON 형식으로 구조화하고, action 공간을 문서화하여 model의 action 해석을 돕습니다. 또한 action과 visual navigation 기록을 결합하고 multi-turn action과 텍스트 쿼리를 통해 visual token 길이를 조정하여 training 효율성을 향상시키는 것과 같이 modalities 간의 interleaved 이해가 필요함을 인식합니다. 우리의 model은 interleaved vision-language-action streaming으로 공식화되어 GUI 시나리오의 다양한 요구를 통합합니다.

 

(iii) Well-selected Instruction-following Dataset: 사용 가능한 모든 소스의 데이터를 활용하는 대신 각 데이터 유형의 속성에 대한 심층 분석을 수행합니다. 예를 들어, 웹 데이터에서 visual elements(예: 버튼)는 대부분의 VLMs가 강력한 OCR 기능을 가지고 있기 때문에 정적 텍스트(40%를 차지)보다 더 가치가 있습니다. 또한, 강력한 UI grounding 성능을 달성하는 작고 고품질의 instruction-following dataset를 소개합니다. 또한 UI 데이터의 상당한 불균형을 해결하기 위해 재조정된 샘플링 전략을 개발하여 다양한 설정에서 일관된 model 성능을 보장합니다.

 

앞서 언급한 혁신을 바탕으로 Qwen2-VL-2B를 개선하여 강력한 GUI visual agent인 ShowUI를 만듭니다. 그림 1과 같이, 이는 256K 데이터를 사용하는 경량 2B model로, zero-shot 스크린샷 접지에서 75.1%의 높은 정확도를 달성합니다. ShowUI는 또한 웹, 모바일 및 온라인 환경에서 경쟁력 있는 navigation 능력을 보여줍니다. 종합적인 제거 연구(그림 1)는 UI-guided token selection 접근 방식의 효과를 입증하여 중복 visual tokens를 33% 줄이고 training을 1.4배 가속화합니다. 또한 현재 성능 격차와 향후 방향에 대한 많은 토론으로 결론을 맺습니다.

 

1. 배경:

  • GUI는 디지털 세상과 소통하는 핵심 도구!
  • LLMs는 복잡한 tasks 처리에 유용하며, 똑똑한 GUI agent 개발에 대한 기대를 높임.

2. 기존 GUI 자동화의 한계:

  • 초기에는 주로 language agent (예: GPT-4)에 의존
    • 문제점: HTML 같은 오라클 정보가 있어야만 작동. 즉, 스크린샷만으로는 UI 파악 불가!
  • 사용자는 시각적으로 UI와 소통 -> 오라클 정보 없이도 UI를 이해하는 visual agent 필요! (예: 슬라이드 제작 보조)

3. GUI Visual Agent 연구 동향:

  • 새로운 능력 (UI element grounding, action 실행) 을 갖춘 vision-language models training 시작
    • 예: 웹 스크린샷 datasets로 multi-modal models의 element-grounding 능력 향상
    • 예: instruction tuning으로 multi-step navigation tasks 해결

4. 여전히 존재하는 과제:

  • (a) 비싼 Visual Modeling:
    • UI 스크린샷은 고해상도 -> 긴 토큰 sequences -> 긴 컨텍스트 처리 문제
    • 기존 models은 고해상도 데이터에 최적화 X -> 비효율, 높은 계산 비용
  • (b) 복잡한 Vision-Language-Action 융합:
    • action은 language와 다르고, 장치마다 다름 (예: 웹 'Return' vs 모바일 'Press home')
    • 다양한 파라미터 설정에 적응 필요 (예: 'Scroll' 방향)
    • action을 visual, query 데이터와 함께 효과적으로 modeling하는 방법은 불분명
    • navigation은 interleaved vision-language-action 기록 생성 -> 효율적인 해석 및 관리 필요
  • (c) 다양한 Training Data:
    • 웹, 모바일 등 장치별, 목적별(element grounding, navigation) 방대한 GUI 데이터
    • 고품질 training 데이터셋을 어떻게 효과적으로 선택?

5. 본 연구 (ShowUI)의 핵심 기여:

  • (i) UI-Guided Visual Token Selection:
    • UI 스크린샷 특성(중복 + 필수 정보) 고려 -> UI 친화적 visual token selection
    • RGB 공간에서 patch를 노드로, 연결된 구성 요소로 중복성 modeling
    • self-attention에서 중요한 토큰만 선택 -> 계산 효율 UP!
  • (ii) Interleaved Vision-Language-Action Streaming:
    • GUI action을 JSON으로 구조화, action 공간 문서화 -> model의 action 해석 지원
    • action + visual navigation 기록 결합, multi-turn action + 텍스트 쿼리로 visual token 길이 조정 -> training 효율 UP!
    • 다양한 GUI 요구를 통합한 interleaved vision-language-action streaming
  • (iii) 엄선된 Instruction-following Dataset:
    • 데이터 유형별 심층 분석 (예: 웹에서 visual elements가 정적 텍스트보다 중요)
    • 작지만 고품질 instruction-following dataset -> 강력한 UI grounding 성능
    • 데이터 불균형 해소를 위한 샘플링 전략 -> 일관된 성능

6. ShowUI의 성과:

  • Qwen2-VL-2B를 개선하여 강력한 GUI visual agent, ShowUI 개발
  • 256K 데이터, 2B 경량 model로 75.1% zero-shot 스크린샷 접지 정확도
  • 웹, 모바일, 온라인 환경에서 경쟁력 있는 navigation 능력
  • UI-guided token selection: 중복 visual tokens 33% 감소, training 1.4배 가속화

7. 결론:

  • 현재 성능 격차 및 향후 방향 논의

한 줄 요약:

ShowUI는 똑똑하게 필수 visual tokens만 선택하고, vision, language, action을 효율적으로 융합하며, 고품질 데이터로 학습하여, 가벼우면서도 강력한 성능을 보이는 새로운 GUI visual agent다!

 

 

 

2. ShowUI

그림 3에서 볼 수 있듯이, ShowUI는 vision-language model인 Qwen2-VL-2B를 기반으로 구축되었으며, GUI tasks에 최적화된 다음과 같은 주요 구성 요소를 통합합니다. (i) 효율적인 visual modeling을 위한 새로운 UI-guided visual token selection 전략, (ii) GUI tasks의 다양한 요구를 유연하게 통합하고 training 효과를 높이기 위한 interleaved vision-language-action streaming 설정, (iii) 개별 GUI 데이터 유형에 대한 자세한 분석을 통해 만들어진 training 데이터 레시피는 ShowUI가 더 작고 고품질인 코퍼스에서 training될 수 있도록 합니다. 다음 섹션에서는 각 구성 요소에 대해 자세히 소개합니다.

2.1. UI-Guided Visual Tokens Selection

고해상도 스크린샷은 표준 patching 후 많은 수의 visual tokens을 초래할 수 있습니다. 그림 4a에서 볼 수 있듯이, PC에서 1344 x 756 해상도는 14 x 14 patching으로 약 5184개의 원시 토큰을 생성하며, 2 x 2 병합 후에도 여전히 1296개의 토큰이 남아 self-attention 모듈 내에서 계산 문제를 야기합니다.

UI를 자연 vision과 구별하는 것은 무엇일까요? 의미와 텍스처가 풍부하여 실제 세계의 복잡성과 예측 불가능한 패턴을 포착하는 자연 이미지와 달리, UI 스크린샷은 본질적으로 가독성과 유용성을 위해 최적화된 명확한 레이아웃과 일관된 색 구성표로 구조화되어 있습니다. 이러한 차이는 UI 이미지가 필수 정보를 전달하지 않는 중복된 빈 공간이나 단순한 배경을 포함하는 경우가 많다는 것을 의미하며, 이는 최적화 또는 가지치기에 적합합니다. 또한, 아이콘이나 텍스트와 같이 작지만 기능적으로 중요한 요소는 상호 작용과 명확성에서의 역할 때문에 더 높은 중요도를 요구합니다.

따라서 유용성을 손상시키지 않으면서 관련 없는 visual tokens를 효과적으로 제거할 수 있도록 중복 및 필수 visual elements를 구별할 수 있는 전략이 필요합니다. 우리는 패턴 변형, 텍스트 글꼴이 RGB 값으로 쉽게 식별될 수 있기 때문에 RGB 공간이 이러한 목적에 유용한 지침 역할을 할 수 있음을 발견했습니다.

 

UI 연결 그래프(Connected Graph) 구성. 스크린샷을 규칙적인 patches로 나눈 후, 우리는 많은 이웃 patches가 정확히 동일한 RGB 값을 공유하고 따라서 중복된다는 것을 관찰했습니다. 이를 활용하기 위해 각 patch를 그래프의 노드로 표현합니다. 이웃 patches가 동일한 RGB 값을 가지면 해당 노드를 연결하여 연결된 구성 요소(connected components)를 형성합니다. 이를 통해 고유한 RGB 패턴으로 식별된 필수 visual elements는 보존하면서 중복 영역을 그룹화하고 단순화할 수 있습니다. 시각적으로 동일한 patches는 patch tensors 사이의 차이에 작은 임계값을 설정하여 쉽게 감지할 수 있습니다.

이러한 통찰력을 바탕으로 알고리즘 1에 설명된 대로 Union-Find 방법을 사용하여 이 UI 연결 그래프에서 연결된 구성 요소를 식별합니다. 이 알고리즘은 일반적으로 원래 patches 수 Gh x Gw보다 작은 K개의 연결된 구성 요소가 있는 그래프를 생성합니다.

각 노드를 해당 구성 요소에 할당하는 것을 기반으로 patches 간의 중복 관계를 modeling할 수 있습니다. 그림 4a와 같이, 이 방법은 더 적은 구성 요소(더 많은 중복 patches)를 사용하는 google 검색 페이지(1296 → 291)에서와 같이 시각적 정보에 따라 구성 요소 수를 적응적으로 조정하고, 텍스트가 많은 overleaf 스크린샷(1296 → 986)에서는 더 많은 구성 요소(더 많은 독립적인 patches)를 할당합니다.

그림 5에서는 우리 방법이 다양한 장치에서 UI 연결 그래프를 구성하는 방법을 보여줍니다. 동일한 초기 visual patch tokens(예: 1272)을 가진 동일한 해상도의 스크린샷이 주어지면, 우리 방법은 스크린샷의 정보량에 따라 연결된 구성 요소를 적응적으로 구성합니다.

 

Token Merging vs. Token Selection. 다음으로, 이 UI 연결 그래프를 활용하여 model 효율성을 향상시키는 방법을 살펴봅니다. 우리는 기존 vision-language models의 주요 계산 병목 현상이 계단식 self-attention layers에서 처리되는 긴 sequences에 있다는 것을 발견했으며, 이는 language models와 visual encoders 모두에 영향을 미칩니다.

간단한 접근 방식은 그림 4b의 왼쪽 절반에 표시된 대로 구성 요소 내의 모든 patches를 단일 토큰으로 나타내는 token merging 방법을 적용하는 것입니다. 그러나 실제로 이 접근 방식은 풀링된 토큰 sequence의 원래 위치 정보가 필연적으로 손실되기 때문에 위치 관계를 방해한다는 것을 발견했으며, 이는 정확한 UI element grounding에 필수적입니다.

위치 정보를 잃지 않고 self-attention 내에서 토큰 압축을 가능하게 하기 위해, 우리는 라우팅 메커니즘을 통해 토큰을 희소하게 샘플링하는 Mixture-of-Depth에서 영감을 얻었습니다. 우리의 경우, UI 연결 그래프는 효과적인 라우팅 기준을 제공합니다. 동일한 구성 요소 내의 토큰은 중복된 것으로 간주될 수 있으므로, training 중 각 구성 요소 내에서 토큰의 일부를 무작위로 건너뛰고, 필수 요소를 보존하기 위해 단일 patch 구성 요소는 영향을 받지 않도록 합니다. 선택된 토큰의 경우 원래 위치 임베딩을 유지하여 토큰 sequence가 적더라도 self-attention이 원래 위치 관계에서 작동하도록 합니다.

특히, 이 token selection 방법은 추가적인 학습 가능한 매개변수를 도입하지 않습니다. 따라서 training 중에는 고정된 비율로 무작위 token selection을 적용하는 반면, 추론 시에는 두 옵션 모두 전체 토큰 sequence 내에서 일관된 위치 관계를 유지하므로 token selection을 사용하거나 사용하지 않는 유연성을 제공합니다.

 

 

핵심: UI 스크린샷의 특징을 활용하여 중요한 visual tokens만 똑똑하게 선택함으로써, 계산 효율은 높이고, 정보 손실은 최소화하는 방법

문제점:

  • 고해상도 UI 스크린샷 -> 엄청나게 많은 visual tokens -> self-attention 계산 부담
  • (예시) 1344x756 해상도, 14x14 patching -> 5184개 raw tokens -> 2x2 병합 후에도 1296개 tokens

UI vs. 자연 이미지:

  • 자연 이미지: 현실의 복잡성, 불규칙 패턴 -> 풍부한 의미, 텍스처
  • UI: 명확한 레이아웃, 일관된 색 구성 -> 중복된 빈 공간, 단순한 배경 많음 -> 최적화/가지치기 가능
  • 작지만 중요한 아이콘, 텍스트 -> 상호작용, 명확성을 위해 높은 중요도

해결책: UI-Guided Visual Token Selection

  1. RGB 공간 활용:
    • 패턴 변화, 글꼴 -> RGB 값으로 쉽게 식별 가능
    • RGB 값이 똑같은 이웃 patches는 중복
  2. UI 연결 그래프(Connected Graph) 구성:
    • 각 patch = 그래프의 노드
    • RGB 값이 같은 이웃 patches = 노드 연결 -> 연결된 구성 요소(connected components) 생성
    • 중복 영역 단순화 + 고유 RGB 패턴으로 필수 visual elements 보존
    • (예시) Google 검색 페이지: 넓은 빈 공간 -> 구성 요소 적게 (1296 -> 291)
    • (예시) 텍스트 많은 Overleaf: 구성 요소 많게 (1296 -> 986)
    • 다양한 장치에서 UI 연결 그래프 구성 예시 (그림 5)
  3. Token Merging vs. Token Selection:
    • Token Merging (단순 병합): 구성 요소 내 모든 patches를 하나의 토큰으로 -> 위치 정보 손실 -> UI element grounding 정확도 저하
    • Token Selection (똑똑한 선택):
      • UI 연결 그래프 = 효율적인 라우팅 기준
      • 같은 구성 요소 내 토큰은 중복 -> training 중 일부 토큰 무작위 생략
      • 단일 patch 구성 요소는 생략 X (필수 요소 보존)
      • 선택된 토큰은 원래 위치 임베딩 유지 -> 위치 정보 보존, self-attention 정확
      • 추가 학습 파라미터 X
      • Training: 무작위 token selection
      • Inference: token selection 사용/미사용 선택 가능 (위치 관계 동일하게 유지)

결론:

UI-Guided Visual Token Selection은 UI 스크린샷의 특성을 똑똑하게 활용하여, 계산 효율은 높이고, 정보 손실은 최소화하는 방법입니다. RGB 값 기반의 UI 연결 그래프를 통해 중복 영역을 파악하고, token merging 대신 token selection을 사용하여 위치 정보를 보존하면서도 self-attention 계산량을 줄입니다.

 

 

 

 

2.2. Interleaved VLA Streaming

이 섹션에서는 action을 공식화하고 다른 modalities(예: visual 및 textual queries)와의 관계를 어떻게 설정하는지 다룹니다.

Action이 일반 텍스트와 다른 점은 무엇일까요? GUI model의 핵심 기능은 텍스트 쿼리를 조건으로 navigation을 수행하는 것이며, model이 올바른 action 유형(예: [CLICK] 또는 [TYPE])과 해당 action 매개변수(예: [CLICK]의 경우 좌표, [TYPE]의 경우 문자열)를 함께 예측해야 합니다. navigation의 주요 과제는 서로 다른 장치 간의 action 변형에서 발생합니다. (i) 장치별 action (예: 모바일에서는 [CLICK]을 사용할 수 없지만 웹에는 [PRESS HOME]이 없음). (ii) 매개변수가 다른 동일한 action (예: [SCROLL]은 웹에서 위/아래 두 방향이 있지만 모바일에서는 네 방향). (iii) training 중에는 접하지 못한 테스트 시의 새로운 action.

이러한 변형을 우리 model 내에서 관리하기 위해, 먼저 각 action을 JSON 형식(예: {‘action’: ‘action type’, ‘value’: ‘element’, ‘position’: [x,y]})으로 구조화합니다. 여기서 [x,y]는 0과 1 사이의 상대 좌표를 나타냅니다. 이를 통해 다양한 장치의 action을 통일된 형식으로 표준화할 수 있습니다. 둘째, 시스템 프롬프트에 각 action의 사용법을 설명하는 'README'를 model에 제공합니다(예: ‘CLICK’: 요소를 클릭합니다. 값은 적용되지 않으며 위치 [x,y]가 필요합니다.). 이 설정은 model이 고정된 action을 암기하기보다는 action 공간 문서를 해석하도록 유도하여, 함수 호출 방식과 유사하게 테스트 시에 action을 실행할 수 있도록 합니다. 다음으로, 그림 6과 같이 action과 다른 modalities 간의 관계에 대해 설명합니다.

Action with Visual: GUI navigation 프로세스는 일반적으로 multi-step 궤적을 포함하며, model이 현재 단계를 인식하고 상황에 맞는 다음 action을 결정해야 합니다. 이는 과거 action과 과거 관찰(스크린샷)을 모두 관리해야 하는 과제를 야기합니다. action은 수행된 작업을 나타내지만 visual 컨텍스트가 부족한 반면, 스크린샷은 visual 상태를 캡처하지만 수행된 action은 생략합니다. 완전한 기록 정보를 보장하기 위해 그림 3과 같이interleaved vision-action stream을 구성하여 visual 및 action 정보를 순차적으로 캡처합니다. i번째 action 후, 결과 (i + 1)번째 스크린샷은 이전에 실행된 i번째 action 다음에 대기열에 들어가고, model은 (i + 1)번째 action을 생성하도록 유도됩니다.

실제로 애플리케이션에 따라 visual 기록의 일부를 선택적으로 masking할 수 있습니다. 예를 들어, 소프트웨어 간 스크린샷 변경이 발생하는 Mobile에서는 visual 모양을 추적하기 위해 스크린샷을 유지하는 것이 필수적입니다. 반대로, 일련의 action에 걸쳐 정적 웹 페이지에서 스크린샷이 일반적으로 안정적으로 유지되는 Web의 경우 효율성을 위해 masking이 선호될 수 있습니다.

Action with Textual query: 1단계 navigation 또는 element grounding에서는 하나의 스크린샷에 여러 개의 병렬 action이 있거나 여러 개의 element가 있을 수 있습니다. 스크린샷은 고해상도인 경향이 있어 긴 토큰 sequence(예: 1-2K 토큰)가 발생합니다. 한편, UI element 이름 및 action(좌표)과 같은 쿼리는 일반적으로 훨씬 짧습니다(종종 10개 미만의 토큰). 이러한 불일치로 인해 action 당 하나의 이미지를 사용하는 접근 방식은 비효율적입니다. training 데이터 활용을 최적화하기 위해 multi-turn 대화 접근 방식을 채택하여 단일 전달 내에서 각 스크린샷에 대한 여러 action 주석을 예측합니다.

 

 

핵심: GUI agent가 시각(Vision), 언어(Language), 행동(Action)유기적으로 결합하여, 효과적으로 GUI를 탐색하고 조작하도록 돕는 방법

1. Action, 너는 누구냐? (Action의 특성)

  • 기존 언어(text)와는 다른 Action의 특징:
    • GUI model의 핵심은 navigation
    • 텍스트 쿼리에 따라 action 유형 (예: [CLICK], [TYPE])과 action 매개변수 (예: 좌표, 문자열)를 동시에 예측해야 함
    • 장치마다 action 종류가 다름 (예: 웹 - [CLICK], 모바일 - [PRESS HOME])
    • 같은 action도 장치마다 매개변수가 다름 (예: [SCROLL] 방향 - 웹: 2개, 모바일: 4개)
    • 학습 시 없던 새로운 action이 테스트 시 등장할 수 있음

2. Action, 길들이기 (Action을 다루는 방법)

  • (1) JSON으로 표준화:
    • 다양한 장치의 action을 통일된 형식으로 표현
    • {‘action’: ‘action type’, ‘value’: ‘element’, ‘position’: [x,y]}
    • [x,y]는 0과 1 사이의 상대 좌표
  • (2) 사용 설명서(README) 제공:
    • 시스템 프롬프트에 각 action의 사용법을 문서화
    • (예) ‘CLICK’: 요소를 클릭. 값은 필요 없고, 위치 [x,y]가 필요.
    • model이 action 공간을 이해하고, 함수 호출처럼 유연하게 action 실행
  • (3) Action과 다른 요소(Visual, Textual query)의 융합 (핵심!)

3. Action + Visual: 시각적 맥락과 행동의 연결

  • 문제점:
    • Navigation여러 단계로 이루어짐 -> 현재 단계 파악 + 다음 action 결정
    • 과거 action 기록 + 과거 관찰(스크린샷) 기록 관리 필요
    • Action만 보면 시각적 맥락이 없고, 스크린샷만 보면 무슨 action을 했는지 모름
  • 해결책: Interleaved Vision-Action Stream (그림 3)
    • 시각 정보와 action 정보를 순차적으로 결합
    • i번째 action -> (i+1)번째 스크린샷 -> (i+1)번째 action 예측
    • 선택적 visual history masking:
      • Mobile: 소프트웨어 간 스크린샷 변화 -> 스크린샷 유지 (시각적 정보 추적)
      • Web: 정적 웹 페이지, 스크린샷 변화 적음 -> masking (효율성)

4. Action + Textual Query: 효율적인 데이터 활용

  • 문제점:
    • 한 번에 여러 action이 필요한 경우 (예: 1단계 navigation, element grounding)
    • 스크린샷은 고해상도 -> 긴 토큰 sequence (1-2K 토큰)
    • 쿼리(UI element 이름, action)는 짧음 (10개 미만 토큰)
    • 이미지 하나 당 action 하나 처리 -> 비효율적
  • 해결책: Multi-turn Dialogue
    • 한 번에 여러 action 예측 -> 각 스크린샷에 대한 여러 action 주석 처리
    • 데이터 활용 최적화

결론:

Interleaved VLA Streaming은 Action을 JSON으로 표준화, 사용 설명서 제공, Visual 및 Textual Query와의 유기적 결합을 통해, GUI agent가 시각, 언어, 행동을 종합적으로 이해하고 효율적으로 GUI를 탐색하고 조작하도록 돕습니다.

 

 

 

 

2.3. GUI Instructional Tuning

커뮤니티에서 다양한 GUI datasets를 사용할 수 있습니다. 예를 들어 웹 데이터, 모바일 데이터가 주를 이루며, element 좌표나 사용자 궤적을 포함할 수 있습니다. 사용 가능한 모든 데이터 소스를 집계하는 대신, 각 dataset 유형을 분석하여 대표 데이터를 선택합니다. 선택된 데이터는 표 1에 나와 있습니다. 우리의 논의는 주로 UI grounding 데이터에 관한 것입니다. navigation을 위해 모바일 및 웹 장치가 포함된 GUIAct를 사용합니다.

(i) Web–visual elements: 웹은 HTML에서 쉽게 크롤링할 수 있는, 텍스트가 풍부하고 접근성이 뛰어난 UI 데이터 소스를 제공합니다. 통계 분석에 따르면 '정적 텍스트' 태그가 상당 부분(40%)을 차지합니다. 대부분의 VLMs가 이미 강력한 OCR 기능을 갖추고 있다는 점을 감안할 때, 우리는 시각적으로 풍부한 element를 수집하는 데 중점을 둡니다. 이를 위해 파서를 개발하고 22K개의 스크린샷을 수집하여 'Button' 또는 'Checkbox'와 같이 시각 관련 element만 유지했습니다. 정적 텍스트를 제거함으로써

(ii) Desktop–diverse query: Desktop 데이터는 자동으로 수집하기 어렵기 때문에 특히 중요합니다. 우리는 iOS, Windows 및 Linux 데스크톱에서 가져온 작은 크기(100개 이미지에 2K elements)의 수동 element를 포함하는 OmniAct를 식별했습니다. 해당 element는 'message ash'와 같은 원래 이름으로만 레이블이 지정됩니다. 이 dataset와 다양성을 강화하기 위해 역공학 기술을 사용하여 ground-truth 경계 상자와 해당 텍스트 element를 활용했습니다. 그런 다음 대상 element를 강조 표시하는 visual 프롬프트를 사용하여 GPT-4o에 프롬프트를 입력하여 세 가지 유형의 쿼리(모양, 공간 및 의도)를 도출했습니다. 이를 그림 7에 나타냈습니다. 이 방법으로 새로운 6K element를 생성했습니다. 자세한 프롬프트 및 토론은 Supp.를 참조하십시오.

그림 8에서는 GPT4o를 활용하여 원래 OmniAct-Desktop 주석을 모양, 공간 관계 및 의도를 기반으로 다양한 쿼리로 보강하는 방법에 대한 더 많은 예를 보여줍니다.

(iii) Mobile–Functionality: 모바일 데이터는 아이콘 캡션을 제공하는 Android와 같은 곳에서 쉽게 구할 수 있습니다. 특히, 단순한 원자 element 이름을 넘어서는 가치 있는 기능 설명으로 간주합니다.

샘플링을 통한 데이터 균형: 표 1과 같이 데이터 규모는 유형에 따라 크게 다릅니다(예: 데스크톱 샘플은 100개뿐). 각 유형에 대한 공정한 노출을 보장하기 위해 training 중 샘플링 전략을 개발하여 각 배치에 서로 다른 데이터 유형을 포함할 확률을 비슷하게 제공합니다.

 

 

2.3. GUI Instructional Tuning: 작지만 강한 데이터로 똑똑하게 학습하기

핵심: 다양한 GUI 데이터셋, 작지만 강한 고품질 데이터를 선별, 데이터 불균형 해소를 통해, 효율적이고 강력한 GUI agent 학습

1. 데이터, 무조건 많다고 좋을까? (기존 데이터셋 분석)

  • 다양한 GUI 데이터셋: 웹, 모바일, 데스크톱 등
  • 데이터 유형: element 좌표, 사용자 궤적 등
  • 문제점: 무분별한 데이터 수집 -> 학습 비효율, 성능 저하
  • 해결책: 각 데이터셋 유형 분석 -> 대표 데이터 선별 (표 1 참고)

2. 데이터 선별 기준: 작지만 강하게!

  • (1) Web – visual elements:
    • 장점: 텍스트 풍부, 접근성 높음, HTML 크롤링으로 쉽게 수집
    • 문제점: '정적 텍스트' 태그 많음 (40%)
    • 해결책:
      • 대부분 VLMs는 강력한 OCR 기능 보유 -> 정적 텍스트는 제거!
      • 시각적으로 풍부한 elements (예: 'Button', 'Checkbox')에 집중 -> 22K 스크린샷 수집
  • (2) Desktop – diverse query:
    • 장점: 자동 수집 어려움 -> 희소성, 고가치
    • 데이터셋: OmniAct (iOS, Windows, Linux 데스크톱, 100개 이미지, 2K elements)
    • 문제점: element에 원본 이름만 레이블 (예: 'message ash') -> 쿼리 다양성 부족
    • 해결책:
      • 역공학 기법: ground-truth 경계 상자, 텍스트 element 활용
      • GPT-4o: visual 프롬프트로 대상 element 강조 -> 세 가지 쿼리 유형 생성 (모양, 공간, 의도) (그림 7) -> 6K elements 추가
  • (3) Mobile – Functionality:
    • 장점: Android 등에서 쉽게 구할 수 있음, 아이콘 캡션 제공
    • 데이터셋: 단순 element 이름 이상의 기능 설명을 제공하는 데이터셋 선별

3. 데이터 불균형 해소: 고르게 학습시키자!

  • 문제점: 데이터 유형별 크기 차이 큼 (예: 데스크톱 샘플 100개) -> 학습 편향
  • 해결책: 샘플링 전략
    • 각 데이터 유형이 균등하게 학습되도록 샘플링
    • 각 배치(batch)에 다양한 데이터 유형 포함

결론:

ShowUI는 무분별하게 모든 데이터를 사용하는 대신, 각 데이터 유형을 면밀히 분석하여 작지만 고품질의 데이터를 선별하고, 데이터 불균형을 해소하는 샘플링 전략을 통해 효율적이면서도 강력한 GUI agent를 학습합니다.

 

 

 

 

 

 

3. Experiments

3.1. Benchmark Datasets

우리는 다음 benchmarks를 사용하여 model을 평가합니다.

Grounding: 우리는 세 가지 장치에 걸친 다양한 데이터로 구성된 zero-shot grounding 평가 benchmark인 Screenspot을 사용하여 텍스트와 위젯 인식을 별도로 평가합니다.

Navigation: 우리는 서로 다른 장치의 네 가지 datasets에서 navigation 성능을 평가합니다. (i) 세 가지 유형의 action을 포함하는 action space가 있는 Mind2Web의 웹. (ii) 11개의 action을 포함하는 action spaces가 있는 AITW의 모바일. (iii) 오프라인 benchmarks를 보완하고 대화형 환경에서의 성능을 테스트하기 위해 도입된 두 가지 유형의 action이 있는 온라인 환경인 MiniWob의 온라인. training 설정에 대한 자세한 내용은 보충 자료에 나와 있습니다.

3.2. Main Results

우리는 각 downstream tasks에 대한 실험을 구성하여 다음 질문을 해결합니다. Q1: 우리 model이 각 task에서 어떻게 수행됩니까? 기존 VLM baseline을 넘어 어떤 개선이 이루어졌습니까? Q2: 각 구성 요소의 효과와 개선 사항은 무엇입니까? Q3: 고유한 속성을 기반으로 각 benchmark에서 어떤 통찰력을 얻을 수 있습니까?

3.2.1 Grounding Tasks

표 2에서는 Screenspot에 대한 zero-shot grounding 결과를 제시합니다. 이는 각 설정의 단점에 대한 직접적인 신호를 제공합니다. 우리는 하나의 추가 변형인 ShowUI-G를 포함하며, 이는 training에 grounding 데이터만 사용했습니다. 우리의 발견은 다음과 같습니다. (i) 전체적으로 모든 방법에서 텍스트 트랙 점수가 아이콘 트랙보다 높으며, training 중에 덜 보였던 데스크톱 텍스트의 경우에도 마찬가지입니다. 이는 웹과 모바일에서 주로 학습된 텍스트 grounding 능력이 플랫폼 간에 전이될 수 있음을 시사합니다. (ii) 효과적인 샘플링 전략을 사용하면 navigation 데이터를 혼합해도 grounding 성능이 저하되지 않습니다. (iii) 아이콘 트랙은 visual grounding으로 인해 더 어렵습니다. 모바일 점수는 데스크톱 및 웹보다 훨씬 높으며, 이는 모바일 장치 이외의 visual UI grounding 데이터가 누락되었음을 강조합니다. (iv) 특히, 최소한의 training 데이터로 가장 가벼운 방법인 ShowUI는 state-of-the-art grounding 성능을 달성합니다.

3.2.2 Navigation Tasks

Mobile: AITW. 표 3에서는 다음과 같은 결과를 얻었습니다. (i) interleaved streaming이 없는 경우(즉, visual 기록이 없는 경우) ShowUI †는 VLM baseline에 비해 1.1%의 정확도 향상만 제공합니다. 그러나 visual 기록을 사용하면 ShowUI는 추가로 1.7%의 정확도 향상을 달성합니다. 이는 특히 모바일 플랫폼에서 큰 action 공간(11개) 내에서 빈번한 소프트웨어 변경에 적응하는 데 visual 컨텍스트가 중요하기 때문일 것입니다. (ii) GUIAct에서 학습한 ShowUI의 zero-shot navigation은 전이 가능성을 보여주며, 이는 navigation 구성 요소에 대한 추가 개선이 이루어질 수 있음을 시사합니다. (iii) ShowUI는 closed-source API 또는 HTML 정보를 활용하는 OmniParser 및 PaLM2-CoT를 능가하여 단일 model로서 standalone visual agent로서의 잠재력을 강조합니다.

Website: Mind2Web. 웹 navigation에 대한 표 4에서는 다음과 같은 결과를 얻었습니다. (i) Instruction-tuning은 상당한 효과가 있으며 Qwen2-VL-2B에 비해 평균 단계 SR이 4.6% 향상됩니다. 특히, ShowUI-2B의 zero-shot은 pre-trained 및 fine-tuning을 수행한 SeeClick-9.6B와 비슷하며, 비교적 높은 Op. F1 (80%+)을 달성합니다. (ii) 이 task에서 visual 컨텍스트는 AITW에서만큼 중요하지 않습니다. 이는 Mind2Web이 주로 단일의 시각적으로 유사한 웹 사이트에 중점을 두고 세 가지 action만 포함하기 때문일 수 있습니다. (iii) 교차 웹 사이트 및 교차 도메인 설정은 교차 task보다 어렵습니다. 이는 병목 현상이 텍스트 task 이해보다는 UI visual perception에 있음을 시사합니다(웹 사이트/도메인은 training에서 볼 수 없음). 개선을 위한 향후 노력 중 하나는 (시각적으로) 도메인 다양성이 우수한 training 데이터를 개발하는 것입니다.

Online: MiniWob. 표 5에서 이 benchmark는 온라인 환경에서의 model 동작을 보여줍니다. 우리의 주요 발견은 Miniwob UI의 단순성에도 불구하고 ShowUI의 zero-shot 성능(27.1%)과 fine-tuned Qwen-VL(48.4%) 사이의 격차가 크다는 것입니다. 반대로, ShowUI의 zero-shot은 Mind2Web에서 능가합니다. 이는 아마도 instruction-tuning 단계에서 out-of-distribution 오류가 적절하게 처리되지 않았기 때문일 것입니다. 이는 오프라인 instruction-tuning만으로는 충분하지 않다는 것을 시사합니다. 우리는 새로운 오류 사례를 처리할 수 있는 온라인 환경에 맞는 학습 전략을 개발해야 합니다.

3.3. Ablation Studies

UI-Guided Token Selection의 영향. 표 9a에서는 다음 변형을 통해 다양한 visual token 최적화 방법을 검토합니다. (i) Baseline: visual token 최적화 전략이 적용되지 않음. (ii) Token Merge: 2.1절에서 소개된 주류 방법으로, UI-Graph를 조건으로 함. (iii) Token Select.-Random: visual tokens의 하위 집합을 무작위로 선택하는 변형으로, 직접적인 baseline 역할을 함. (iv) Token Select.-UI-Graph: 토큰 선택을 위해 UI-Graph를 활용하는 우리가 제안한 방법.

표에서 볼 수 있듯이, Token Merge는 무작위 선택보다 성능이 떨어지며, 이는 토큰 간의 위치 관계를 보존하는 것이 중요하다는 것을 강조합니다. Token Selection - UI-Graph는 1.5배의 속도 향상과 경쟁력 있는 정확도로 적절한 균형을 제공합니다. 테스트 시에 적용하면 해상도 손실로 인해 정확도가 약간 감소하지만, 무작위 선택보다 여전히 더 신뢰할 수 있으며, 이는 UI 연결 그래프가 안내 기준으로 효과적임을 보여줍니다.

삽입 레이어 선택. 표 9b에서는 모든 레이어, 초기 또는 후기 X 레이어, 삽입 및 비삽입 레이어가 번갈아 가며 나타나는 교차 레이어 삽입을 포함한 다양한 삽입 전략에 대한 ablation study를 제시합니다. 삽입된 레이어 수가 같을 때, 교차 레이어 삽입은 초기 및 후기 삽입보다 훨씬 더 나은 성능을 보입니다.

다양한 선택 비율. 표 9c의 결과는 선택 비율이 속도 향상과 성능 간의 trade-off임을 보여주며, 0.5가 효과적인 선택임을 보여줍니다.

Interleaved Streaming의 영향. 우리는 그 효과를 연구하기 위해 grounding 및 navigation tasks에 interleaved streaming을 사용하여 반복에 따른 성능을 평가합니다. (i) Action-Query: 그림 10에서는 multi-turn streaming을 사용한 경우와 사용하지 않은 경우의 grounding training을 비교합니다. Multi-turn streaming은 특히 초기 웜업 단계에서 더 빠른 진행을 보이며 성능 격차를 유지하여 향상된 데이터 활용을 보여줍니다. (ii) Action-Visual: ShowUI † 변형이 있는 이전 표에서 볼 수 있듯이 visual 컨텍스트의 영향을 검증했습니다. 그림 11은 반복 단계에 따른 model 진행 상황을 보여 주며, 추세는 visual+action+multi-turn이 visual-action 및 action 전용 설정보다 우수함을 보여줍니다. 이는 interleaved streaming이 효과적이고 효율적인 전략임을 검증합니다.

Instruction-Tuning 데이터의 영향. 우리의 기여 중 하나는 2.3절에서 grounding task를 위한 training 데이터 분석입니다. 표 6에서는 각 변경 사항이 특정 장치 및 설정에 미치는 개별적인 영향을 조사하기 위해 자세한 ablation study를 제시합니다.

우리는 다음을 발견했습니다. (i) 데이터 품질이 중요합니다. OmniAct는 2K elements만으로도 웹 데이터와 비슷한 점수를 얻었으며, 다양한 쿼리를 위해 GPT4o로 보강했을 때 model 일반화를 향상시키고 데이터 사용 효율성을 최적화합니다. (ii) 우리가 수집한 22K 웹 데이터는 SeeClick의 270K 스크린샷보다 성능이 우수합니다. 또한 visual 기준으로 웹 데이터를 필터링하면 성능에 영향을 주지 않으면서 element 크기가 크게 줄어들며, 이는 정적 텍스트가 VLM에 내재된 속성인 덜 유익하다는 것을 시사합니다. (iii) 균형 잡힌 샘플링은 필수적이며, 3.7%의 정확도 향상을 제공하고 개별 설정에서 성능을 유지합니다.

3.4. Qualitative Examples

그림 12와 13에서는 Screenspot zero-shot grounding에 대한 몇 가지 예를 보여줍니다. 우리는 instruction tuning을 통해 ShowUI가 추상적인 기호들 사이에서 올바른 연산자를 구별하거나 그림 12 (b, e)와 같이 '도움말 보기'를 물음표와 연관시키는 것과 같은 몇 가지 visual reasoning을 수행할 수 있음을 발견했습니다. 그 외에도 그림 12 (d, f)와 같이 클릭 가능한 element가 여러 개 있을 수 있어 model 혼동을 일으킬 수 있는 몇 가지 실패 사례를 발견했습니다.