AI바라기의 인공지능

agent : 논문리뷰 : From Pixels to UI Actions: Learning to Follow Instructions via Graphical User Interfaces 본문

논문리뷰

agent : 논문리뷰 : From Pixels to UI Actions: Learning to Follow Instructions via Graphical User Interfaces

AI바라기 2025. 1. 5. 20:36

From Pixels to UI Actions: Learning to Follow Instructions via Graphical User Interfaces

Purpose of the Paper

기존의 graphical user interfaces (GUIs)를 위한 digital agents 연구는 주로 HTML이나 기타 구조화된 데이터 소스에서 파생된 text-based representations에 의존해 왔습니다. 이러한 text-based representations은 항상 사용 가능한 것은 아니며, custom, task-specific action spaces와 결합되는 경우가 많았습니다. 이 논문은 사람들이 일반적으로 사용하는 것과 동일한 개념적 interface, 즉 pixel-based screenshots와 keyboard 및 mouse actions에 해당하는 generic action space를 사용하여 digital world와 상호 작용하는 agents를 만드는 데 중점을 둡니다. 기존 연구들이 structured representations와 task-specific actions에 의존했던 것과 달리, 이 논문은 pixel-level visual representations와 generic low-level actions 만을 사용하여 agent가 GUI를 이해하고 작업을 수행하도록 하는 것을 목표로 합니다. 특히, pixel-based pretraining의 최근 발전을 기반으로 이러한 agent가 GUI-based instruction following tasks의 MiniWob++ benchmark에서 human crowdworkers를 능가할 수 있음을 처음으로 보여줍니다.

Key Contributions

  1. Pixel-only inputs와 generic action space를 사용하는 agent가 MiniWob++ benchmark에서 human crowdworkers를 능가할 수 있음을 처음으로 보여주었습니다. 이는 DOM 정보에 액세스하고 유사한 수의 human demonstrations를 사용하는 state-of-the-art agents와 유사한 성능을 달성하면서 이전 연구에 비해 크게 개선되었습니다.
  2. WebShop benchmark를 pixel-based observations와 general low-level actions를 사용하는 설정에 맞게 조정했습니다. 비록 HTML-based inputs와 task-specific actions를 사용하는 더 큰 language models에 비해 성능 격차가 존재하지만, 이 설정에서 첫 번째 baseline을 제시하였습니다.
  3. PIX2STRUCT의 screenshot parsing을 통한 pre-training이 pixel-based inputs를 사용한 GUI-based instruction following에 효과적임을 보여주었습니다. Behavioral cloning setting에서 pre-training은 MiniWob++에서 task scores를 17.1에서 66.5로, WebShop에서 1.1에서 46.7로 향상시켰습니다.
  4. MiniWob++에 대한 policy improvement을 위한 비교적 간단한 방법으로 tree search의 성공적인 적용을 보여주었습니다.

Novelty

  1. Pixel-based inputs와 generic action space만으로 GUI tasks를 수행하는 agent를 제안합니다. 기존 연구들이 HTML source, DOM trees, Android view hierarchies와 같은 structured representations에 의존하거나 task-specific representations of high-level actions을 사용한 반면, 이 논문은 사람이 GUI를 사용하는 방식과 유사하게 visual input과 generic mouse and keyboard actions만을 사용하여 agent를 학습시킵니다.
  2. PIX2STRUCT라는 screenshot parsing task로 pre-trained된 image-to-text Transformer model을 GUI instruction following에 적용합니다. 이 pre-training은 agent가 GUI의 visual layout, visually-situated natural language, visual elements 등을 이해하고 해석하는 데 도움이 됩니다.
  3. Tree search를 사용하여 agent의 policy를 개선하고, 이를 통해 human demonstrations와 environment interactions를 결합하여 새로운 expert trajectories를 생성합니다.

Experimental Highlights

  1. MiniWob++ benchmark에서 PIX2ACT는 human crowdworkers를 능가하고 DOM이 없는 CC-Net에 비해 task score를 거의 4배 향상시켰습니다. Ablation studies는 PIX2ACT의 성능에 pixel-based pre-training of PIX2STRUCT가 핵심적인 역할을 한다는 것을 보여줍니다.
  2. WebShop benchmark에서 PIX2ACT는 pixel-based observations와 generic low-level actions를 사용하는 설정에 대한 첫 번째 baseline을 수립했습니다.
  3. PIX2ACT는 pre-training을 통해 훈련 중에 관찰되지 않은 held-out tasks에 대해 non-trivial generalization(28.3)을 달성했습니다. 이는 randomly initialized model(7.6)과 비교했을 때 pre-training의 효과를 보여줍니다.
  4. Tree search를 사용한 policy improvement는 MiniWob++ scores를 향상시키는 데 효과적임을 입증했습니다.

Limitations

  1. Tree search는 절차적으로 생성된 MiniWob++ environment, instruction variations 및 reward signals에 의존합니다. 이러한 요소는 실제 환경에서는 사용 불가능할 수 있으며, 이러한 경우 잠재적인 instructions의 generative models과 task completion에 대한 approximate reward models가 필요할 수 있습니다.
  2. Tree search는 initial state로 environment를 reset하는 기능이 필요합니다.
  3. 본 논문에서는 offline environments에서만 models을 훈련하고 평가했습니다. Online services와 상호 작용하는 models을 배포하려면 추가적인 고려 사항이 필요합니다.
  4. PIX2ACT와 같은 models이 terms-of-service를 위반하거나 spam, fraud, abuse와 같은 악의적인 활동에 사용될 위험이 있습니다.

Future Work

  1. HTML 또는 DOM 정보를 사용할 수 없는 경우 외에도, GUI를 통한 instruction following을 위한 pixel-based representations의 잠재력을 더 잘 이해하기 위한 연구가 필요합니다.
  2. Tree search와 다른 search 및 RL algorithms을 비교하여 GUI-based environments에서 학습하기 위한 가장 효율적인 방법을 이해해야 합니다.
  3. PIX2ACT와 같은 models의 안전하고 책임감 있는 배포를 위한 기술과 정책을 개발해야 합니다.
  4. PIX2ACT의 접근 방식을 다른 유형의 GUI tasks 및 environments로 확장하는 연구가 필요합니다.
  5. Scaling 및 pre-training of vision or multimodal models의 발전을 통해 pixel-based setting에서도 large language models와 유사한 기능을 구현할 수 있을 것입니다.
  6. OCR systems과 UI elements의 location과 function을 예측하도록 trained된 models은 models을 large language models의 성능과 연결하는 데 도움이 될 수 있습니다.

 

 

 

 

Abstract

그래픽 사용자 인터페이스(GUI)를 위한 디지털 agent에 대한 이전의 많은 연구는 텍스트 기반 표현(HTML 또는 기타 구조화된 데이터 소스에서 파생됨)에 의존해 왔으며, 이는 항상 쉽게 이용 가능한 것은 아닙니다. 이러한 입력 표현은 종종 사용자 정의된, 작업별 action spaces와 결합되었습니다. 이 논문은 인간이 일반적으로 사용하는 것과 동일한 개념적 interface(pixel-based 스크린샷 및 키보드와 마우스 actions에 해당하는 일반적인 action space를 통해)를 사용하여 디지털 세계와 상호 작용하는 agent를 만드는 데 중점을 둡니다. pixel-based pretraining의 최근 발전을 기반으로, 우리는 처음으로 이러한 agent가 GUI-based instruction following tasks의 MiniWob++ benchmark에서 인간 크라우드 워커를 능가할 수 있음을 보여줍니다.

 

 

핵심: Pixel-based interface를 사용하는 GUI agent가 MiniWob++ benchmark에서 인간을 능가했다!

기존 연구와 차별점:

  • 대부분의 GUI agent 연구는 HTML 등의 텍스트 기반 표현을 사용했으나, 이 연구는 인간과 동일한 pixel-based interface (스크린샷)를 사용합니다.
  • 사용자 정의된, 작업별 action space 대신 일반적인 키보드 및 마우스 action space를 사용합니다.

주요 내용:

  • Pixel-based pretraining 기술을 기반으로 제작된 agent입니다.
  • MiniWob++ benchmark (GUI-based instruction following tasks)에서 인간 크라우드 워커의 성능을 뛰어넘었습니다. (최초 사례!)

시사점:

  • Pixel-based interface를 사용하는 GUI agent의 가능성을 제시합니다.
  • 텍스트 기반 표현에 의존하지 않아 범용성이 뛰어나고, 인간과 유사한 방식으로 디지털 세계와 상호작용할 수 있는 agent 개발의 초석이 될 수 있습니다.
  • Pixel-based pretraining의 효과를 입증합니다.

연구자들을 위한 추가적인 생각:

  • MiniWob++를 넘어선 더 복잡한 real-world GUI tasks에서도 성능을 검증할 필요가 있습니다.
  • 어떤 pixel-based pretraining 기법이 사용되었는지, 그 기법이 성능에 어떤 영향을 미쳤는지 궁금합니다.
  • 일반적인 action space를 어떻게 정의하고 학습시켰는지에 대한 자세한 설명이 필요합니다.

결론: 이 논문은 pixel-based interface를 사용하는 GUI agent 연구의 중요한 이정표가 될 것으로 예상됩니다.

 

 

Figure 1: 우리 agent는 Graphical User Interfaces (GUI)를 통해 instructions을 따르도록 학습합니다. GUI-based tasks를 위한 instruction following을 연구하는 대부분의 이전 연구와 달리, 우리 agent는 DOM 트리 또는 HTML 소스 코드에 해당하는 텍스트 기반 관찰이나 작업별 actions에 의존하지 않습니다. 대신, 우리 agent는 pixel-based 관찰을 수신하고 마우스 및 키보드 actions에 해당하는 출력을 생성합니다. 가능한 actions은 텍스트로 인코딩되어 그림 상단에 표시됩니다. 우리는 일반적인 Chrome-based 환경 프레임워크의 맥락에서 연구하기 위해 조정한 두 가지 benchmarks, MiniWob++(상단 행) 및 WebShop(하단 행)에 대한 다양한 에피소드의 관찰 예를 보여줍니다. 자세한 내용은 2절을 참조하십시오.

 

 

 

 

 

 

1 Introduction

그래픽 사용자 인터페이스(GUI)를 통해 작업을 완료하기 위해 instructions을 따를 수 있는 시스템은 지루한 작업을 자동화하고, 접근성을 개선하며, 디지털 assistant가 도구 및 서비스와 상호 작용할 수 있도록 함으로써 유용성을 확장할 수 있습니다. GUI의 시각적 특성에도 불구하고, 이전 연구는 주로 사용자 인터페이스의 구조화된 표현(예: HTML 소스, DOM(Document Object Model) 트리 및 Android 뷰 계층 구조)과 이러한 구조화된 표현을 기반으로 하는 high-level actions의 사용자 정의, 작업별 표현을 활용하는 데 중점을 두었습니다(6절 참조). 최근의 노력은 강력한 large language models의 발전 덕분에 긍정적인 결과를 얻었습니다.

 

구조화되고 작업별 표현이 유용할 수 있지만, 항상 사용 가능한 것은 아닙니다. 몇 가지 예로 광범위한 스크립팅을 사용하는 웹 애플리케이션, DOM에 대한 액세스가 제한된 샌드박스 환경, 기본 구조를 외부 모듈에 노출하지 않는 경우가 많은 모바일 애플리케이션이 있습니다. 구조화된 애플리케이션 소스 데이터를 사용할 수 있는 경우에도, 난독화 및 GUI에 실제로 나타나는 것과의 불일치로 인해 해석하기 어려울 수 있습니다. 마지막으로, 사람의 데모를 작업 종속적인 actions과 일치시키는 것은 종종 어렵습니다.

 

대조적으로, 사람들은 애플리케이션의 소스 코드에서 기능을 찾을 필요 없이 시각적 입력을 인식하고 일반적인 마우스와 키보드 actions을 사용하여 GUI와 상호 작용합니다. 그들은 구현 기술의 차이와 관계없이 익숙한 시각적 인터페이스를 제공하는 새로운 애플리케이션과 상호 작용하는 방법을 빠르게 배울 수 있습니다. 이 논문에서 우리는 묻습니다: GUI 상태의 pixel-level 시각적 표현과 일반적인 low-level actions에만 의존하면서 사용자를 위해 작업을 완료할 수 있는 agent를 만들 수 있을까요?

 

Pixel-only 입력을 기반으로 한 학습은 Atari와 같은 게임 플레이 환경에서 효과적인 것으로 입증되었습니다. 그러나 GUI-based instruction following tasks의 경우, pixel-only 입력과 일반적인 low-level actions을 결합한 학습은 몇 가지 과제를 야기합니다. GUI를 시각적으로 해석하려면 인터페이스 레이아웃을 이해하고, visually-situated natural language를 인식하고 해석하고, 시각적 요소를 식별하고, 그 기능과 상호 작용 방법을 예측해야 합니다. 일반적인 action space는 또한 high-level 텍스트 instructions과 해당 low-level actions의 sequences 사이의 더 복잡한 매핑이라는 과제를 제기합니다. 이러한 설정에서 난이도가 증가한 예로, 웹 GUI 상호 작용의 MiniWob++ benchmark에서 CC-Net은 스크린샷과 DOM 구조에 모두 액세스할 때 인간 수준의 정확도를 보여주지만, agent의 관찰에서 DOM 정보가 제거되면 성능이 75% 감소합니다.

 

여기서 우리는 pixel-based 스크린샷만 입력으로 사용하고 기본 마우스 및 키보드 기능에 해당하는 actions을 선택하는 model인 PIX2ACT를 제시합니다. 우리는 웹 규모 데이터에서 스크린샷을 HTML에서 파생된 구조화된 표현에 매핑하도록 pre-trained된 Transformer-based image-to-text model인 PIX2STRUCT를 기반으로 합니다. PIX2ACT는 사람의 데모와 환경 상호 작용의 조합을 사용하여 이 model을 tuning하고, tree search를 적용하여 훈련을 위한 새로운 expert trajectories를 반복적으로 생성합니다. 우리는 일반적인 브라우저 기반 환경 프레임워크를 개발하고, 두 가지 benchmark datasets인 MiniWob++와 WebShop을 통일된, 범용 관찰 및 action 형식으로 우리의 설정에 맞게 조정합니다.

MiniWob++에서 PIX2ACT는 인간 크라우드 워커를 능가하고 제안된 설정에서 이전 최고 결과(DOM이 없는 CC-Net)에 비해 작업 점수를 거의 4배 향상시킵니다. Ablations는 PIX2ACT의 성능을 위한 핵심 요소가 PIX2STRUCT의 pixel-based pre-training임을 보여줍니다.

우리의 기여는 다음과 같습니다:

  1. 우리는 pixel-only 입력과 일반적인 action space를 사용하는 agent가 MiniWob++ benchmark에서 인간 크라우드 워커를 능가하고, 이 설정에 대한 이전 작업을 크게 개선하고, DOM 정보에 액세스하고 비슷한 수의 사람 데모를 사용하는 state-of-the-art agents의 성능에 필적하는 성능에 도달할 수 있음을 처음으로 보여줍니다.
  2. 우리는 pixel-bas

핵심: Pixel-only 입력과 일반적인 action space를 사용하는 GUI agent (PIX2ACT) 개발!

기존 연구 한계 및 차별점:

  • 대부분의 기존 GUI agent 연구는:
    • HTML, DOM 트리 등 구조화된 (텍스트) 표현 사용
    • Task-specific actions 사용
  • 문제점:
    • 구조화된 표현이 항상 사용 가능한 것은 아님 (e.g., 스크립팅이 많은 웹 앱, 샌드박스 환경, 모바일 앱)
    • 난독화 등으로 해석이 어려울 수 있음
    • 사람의 데모를 task-dependent actions과 일치시키기 어려움
  • 본 연구는:
    • 인간과 마찬가지로 pixel-based 스크린샷만 입력으로 사용
    • 일반적인 (low-level) 마우스 및 키보드 actions 사용
    • PIX2ACT라는 새로운 agent 제시
      • PIX2STRUCT (Transformer-based image-to-text model) 기반
      • 인간 데모 + 환경 상호 작용으로 tuning
      • Tree search를 통해 expert trajectories 생성
  • 더 넓은 범용성, 인간과의 유사성, 실제 환경 적용 가능성을 목표로 함.

주요 내용 및 기여:

  1. Pixel-only 입력과 일반적인 action space를 사용하는 agent가 MiniWob++ benchmark에서 인간을 능가함 (최초). 성능은 DOM 정보를 사용하는 state-of-the-art agent와 유사한 수준.
  2. WebShop benchmark를 pixel-based 설정으로 조정하고, 첫 번째 baseline 설정. (아직 HTML 사용하는 LMMs 대비 성능 격차 존재)
  3. PIX2STRUCT의 screenshot parsing pre-training이 효과적임을 입증. Behavioral cloning에서 MiniWob++ (17.1 -> 66.5) 및 WebShop (1.1 -> 46.7) 성능 향상.
  4. MiniWob++에서 Tree search를 policy 개선 방법으로 성공적으로 적용.

결론: PIX2ACT는 pixel-based GUI agent 연구의 중요한 진전이며, 향후 연구에 많은 영감을 줄 것으로 기대됩니다.

 

 

 

2 Environment

강화 학습 문헌에 따라, 우리는 GUI 상호 작용을 Markov Decision Process (MDP)로 모델링합니다. 즉, 매 time step마다 우리 agent는 observation을 받고 action을 선택합니다. 우리는 브라우저 기반 tasks를 위한 공유된 observation 및 action 형식을 갖춘 공통 환경 프레임워크를 개발합니다. 웹 기반 agent에 대한 이전 연구와 유사하게, 우리는 Selenium을 사용하여 프로그래밍 방식으로 Google Chrome 브라우저와 상호 작용합니다.

Observations

Observation을 구성하기 위해 먼저 Selenium을 사용하여 현재 브라우저 창의 스크린샷을 찍은 다음 추가 정보로 보강합니다. 첫째, 아직 존재하지 않는 경우, 자연어 instruction을 스크린샷 상단에 렌더링합니다. 둘째, Selenium 스크린샷은 커서를 포함하지 않으므로(일반적으로 운영 체제에서 렌더링됨), 스크린샷에 커서를 그려 마우스 포인터 위치를 나타냅니다. 마지막으로, 마우스 버튼이 현재 눌려 있는지 여부를 나타내는 표시기를 렌더링합니다. 이는 드래그 actions에 유용합니다.

Actions

우리의 action space는 Figure 1에 표시된 것처럼 원시 마우스 및 키보드 actions으로 구성됩니다. 여기서 X와 Y는 이산 좌표 bin을 나타내고, K는 하나 이상의 키, M은 "shift"와 같은 선택적 수정 키, Z는 수직 스크롤 양을 나타내며 이산 bin으로도 표현됩니다. begin_drag 및 end_drag actions은 "클릭 앤 드래그" actions을 실행하는 데 사용할 수 있습니다. 우리는 수직 및 수평 축당 구성 가능한 수의 좌표 버킷을 사용합니다. 중요하게도, DOM 정보는 환경에서 제공되지 않으므로 어떤 식으로든 observations 또는 actions을 정의하는 데 사용되지 않습니다.

Episodes and Rewards

Episodes는 종료 상태 또는 구성 가능한 최대 단계 수에 도달할 때까지 계속됩니다. 우리가 고려하는 환경의 경우, agent는 종료 상태에서만 reward를 받습니다. 이는 작업이 성공적으로 완료되었는지 여부에 따라 바이너리 reward이거나 작업이 얼마나 잘 완료되었는지에 따라 부분 reward일 수 있습니다.

 

 

 

Figure 2: MiniWob++ use-colorwheel-2 task에 대한 우리 agent의 에피소드 예시입니다. 각 단계에서 agent는 새로운 observation을 받고 수행할 다음 action을 출력합니다. 스크린샷에는 agent가 에피소드를 성공적으로 완료하기 위해 따라야 할 렌더링된 instruction이 포함되어 있습니다. MiniWob++의 경우 위치를 지정하기 위해 32개의 수직 및 수평 좌표 bin을 사용합니다. 이 그림에서는 클릭 위치를 시각적으로 보여줍니다.

 

 

 

2 Environment 정리 노트 (AI 연구자 대상)

핵심: Pixel-based 입출력을 사용하는 agent를 위한, 일반적인(general) Chrome-based 환경 프레임워크 구축!

주요 특징:

  • MDP (Markov Decision Process) 기반: Agent는 매 time step마다 observation을 받고 action을 선택합니다.
  • 일반적인 환경 프레임워크:
    • 브라우저 기반 tasks에 적용 가능합니다.
    • Selenium을 사용하여 Chrome 브라우저와 상호 작용합니다.
    • Observation과 action 형식이 통일되어 있습니다.
  • Observation:
    • Pixel-based 스크린샷 사용
    • 자연어 instruction 렌더링 (스크린샷 상단)
    • 마우스 커서 위치 표시 (Selenium 스크린샷은 OS에서 렌더링하는 커서를 포함하지 않으므로, 별도 렌더링)
    • 마우스 버튼 눌림 상태 표시 (드래그 action을 위해)
  • Action:
    • 일반적인 (raw) 마우스 및 키보드 actions 사용 (Figure 1 참조)
      • click(x, y), move(x, y), type(K), key_down(K), key_up(K), scroll(Z), begin_drag, end_drag 등
      • x, y: 이산 좌표 bin (MiniWob++에서 32x32 사용)
      • K: 키
      • Z: 수직 스크롤 양 (이산 bin)
    • DOM 정보는 사용하지 않음!
  • Episode 및 Reward:
    • 종료 상태 또는 최대 step 수에 도달할 때까지 진행됩니다.
    • 종료 상태에서만 reward를 받습니다 (성공 여부에 따른 바이너리 또는 부분 reward).

 

 

3 Proposed Agent

우리의 agent인 PIX2ACT는 image Transformer encoder와 text Transformer decoder를 사용하는 PIX2STRUCT model을 기반으로 합니다. 이 architecture는 Vision Transformer와 T5를 기반으로 합니다. PIX2STRUCT는 스크린샷 구문 분석 작업, 즉 visually-masked regions이 있는 스크린샷에서 단순화된 HTML을 예측하는 작업에 대해 pre-trained됩니다. 이러한 pre-training은 스크린 요약 및 위젯 캡션과 같이 비대화형 환경에서 사용자 인터페이스를 이해하는 것과 관련된 tasks에 효과적인 것으로 입증되었습니다. 모든 실험에 282M parameters(encoder 12개 및 decoder layers 12개, hidden size 768)를 가진 PIX2STRUCT base variant를 사용합니다. 이 model은 time step당 한 번씩 호출됩니다.

Input

Model에 대한 유일한 입력은 환경에서 제공되는 pixel-based observation입니다. 여러 프레임을 연결하여 여러 이전 observations에 대해 조건을 지정할 수도 있습니다. 예비 실험에서 MiniWob++에 대한 과거 observations에 따른 조건 지정으로 인한 상당한 이득을 관찰하지 못했으므로, 실험에서는 현재 단계의 스크린샷만 사용합니다. 우리는 sequence 길이 제한 내에 여전히 맞는 고정 크기 patches의 최대 개수를 추출할 수 있도록 입력 이미지를 확대하거나 축소하여 PIX2STRUCT의 이미지 처리를 재사용합니다. MiniWoB++와 WebShop에 각각 160x210 및 800x600 해상도를 사용합니다.

Output

우리는 actions을 텍스트 토큰으로 인코딩하며, 이는 Transformer decoder에 의해 autoregressively 예측됩니다. 토큰에 대한 beam search를 사용하여 k-best actions을 출력합니다(자세한 내용은 부록 B.1 참조).

Greedy Policy

환경과 상호 작용하기 위해 각 단계에서 가장 높은 점수의 action을 선택하는 표준 greedy policy를 채택하고 한 가지 수정을 합니다. agent가 사이클에 갇히는 것을 방지하기 위해 주어진 observation에 대해 어떤 actions이 취해졌는지 추적하고, 현재 observation이 주어졌을 때 이전에 취해지지 않은 beam에서 가장 높은 확률의 action을 선택합니다. 이는 성능을 소폭 향상시킵니다.

3.1 Training

우리는 GUI를 통해 instructions을 따르도록 models을 training하기 위한 두 가지 방법을 탐구합니다. 첫째, 이전 연구와 유사하게, 우리는 human demonstrations 세트의 각 observation에 대해 주어진 action을 예측하도록 표준 supervised learning을 사용하여 model을 training하는 Behavioral Cloning (BC)을 사용합니다. 둘째, reward signals이 있는 환경에 대한 접근이 주어지면, 이전 연구에서는 agent 성능을 더욱 향상시키기 위해 Reinforcement Learning (RL)도 탐구했습니다. REINFORCE 및 PPO와 같은 일반적인 강화 학습 알고리즘의 대안으로, 우리는 policy 개선을 위한 간단한 방법으로 tree search를 적용합니다.

Tree Search

주어진 model parameters 세트에 대해, tree search는 환경의 결정론적 특성을 활용하여 가능한 actions의 결과를 미리 살펴보고, 단순히 actions을 선택하는 것보다 더 최적의 policy를 결정합니다.

우리는 초기 실험에서 더 단순한 search 알고리즘보다 성능이 좋았고 이전 연구에서 neural network policies와 성공적으로 통합된 Monte Carlo Tree Search (MCTS)를 채택합니다. 이 이전 연구와 유사하게, 우리는 주어진 state의 가치(즉, 예상되는 미래 rewards)를 예측하는 value function을 추정하도록 model을 training합니다. 불필요한 actions 없이 간결한 trajectories를 장려하기 위해 취한 단계 수에 불이익을 주는 대리 reward를 사용합니다. 우리는 agent에 사용된 것과 동일한 PIX2STRUCT architecture를 사용하여 이 value function 근사치를 구현합니다. 그러나 이 model은 actions을 예측하는 대신 이산 버킷에 매핑된 state-values를 예측합니다. MCTS 중 leaf states의 가치를 추정하기 위해 이 value function 근사치와 greedy policy를 사용한 롤아웃의 조합을 사용합니다. 추가 기술 세부 정보는 부록 B를 참조하십시오.

그런 다음 이 더 강력한 tree search policy로 찾은 성공적인 에피소드를 사용하여 model을 개선할 수 있습니다. 이 더 강력한 model은 더 효과적인 tree search policy를 산출하므로, 이 방법을 사용하여 model을 계속 반복적으로 개선할 수 있습니다. 특히, 이 접근 방식은 PIX2ACT의 fine-tuning 절차를 수정할 필요가 없습니다. 왜냐하면, 단순화를 위해 tree search policy의 에피소드를 표준 supervised learning을 사용하여 tuning하기 때문입니다.

 

 

 

 

3 Proposed Agent 정리 노트 (AI 연구자 대상)

핵심: PIX2STRUCT 기반의 pixel-only GUI agent (PIX2ACT) 제안 및 효과적인 학습 방법 제시!

PIX2ACT Agent:

  • PIX2STRUCT 기반:
    • Image Transformer encoder + Text Transformer decoder
    • 282M parameters (base variant)
    • Pre-trained on screenshot parsing (HTML 예측) - 사용자 인터페이스 이해 관련 tasks에 효과적
  • 입력:
    • Pixel-based observation (스크린샷) only
    • (선택) 이전 스크린샷들을 concatenate
    • PIX2STRUCT의 이미지 처리 재사용 (해상도 조정)
  • 출력:
    • Actions은 텍스트 토큰으로 autoregressive하게 예측
    • Beam search로 k-best actions 출력
  • Greedy Policy:
    • 기본적으로 가장 높은 점수의 action 선택
    • Cycle 방지: 동일 observation에서 이전에 선택된 action은 제외

PIX2ACT Training:

  1. Behavioral Cloning (BC):
    • Human demonstrations을 사용한 supervised learning
    • 주어진 observation에 대한 expert action 예측하도록 학습
  2. Tree Search (MCTS):
    • Policy improvement를 위한 간단하고 효과적인 방법
    • 환경의 결정론적 특성 활용, lookahead를 통해 최적 policy 탐색
    • Value function approximator 학습 (PIX2STRUCT architecture 사용)
      • State의 가치 (예상 미래 rewards) 예측
      • 불필요한 action을 줄이기 위한 surrogate reward 사용
    • MCTS에서 leaf state 가치 추정: Value function approximator + Greedy policy rollout
    • 반복적 개선: Tree search로 찾은 성공적인 에피소드로 model을 fine-tuning (supervised learning)

연구자들을 위한 추가적인 생각:

  • PIX2STRUCT의 screenshot parsing pre-training이 핵심 역할을 하는 것으로 보입니다. 정확히 어떤 메커니즘으로 성능 향상에 기여하는지 분석이 필요합니다 (e.g., visual, language, reasoning).
  • Tree search가 다른 policy improvement 방법 (e.g., PPO) 대비 어떤 장단점을 갖는지, 특히 pixel-based GUI task에서 어떤 이점이 있는지 궁금합니다.
  • Value function approximator의 학습 방식 (e.g., surrogate reward 설계, 데이터 수집)에 대한 자세한 설명이 필요합니다.
  • 반복적 개선 과정에서 발생할 수 있는 overfitting 문제는 어떻게 해결했는지 궁금합니다.

결론: PIX2ACT는 pixel-based GUI agent의 새로운 가능성을 제시하며, 특히 PIX2STRUCT pre-training과 Tree search를 결합한 학습 방법이 인상적입니다. 향후 관련 연구에 중요한 기반을 제공할 것으로 기대됩니다.

 

 

 

 

 

 

 

 

 

 

  • 이 논문은 pixel-based 스크린샷일반적인 마우스/키보드 actions을 사용하는 GUI agent (PIX2ACT) 를 제안합니다.
  • PIX2STRUCT 모델을 기반으로 하며, 스크린샷을 HTML로 변환하는 task로 pre-train하여 GUI의 시각적, 구조적 이해 능력을 향상시켰습니다.
  • Behavioral Cloning을 통해 human demonstrations로부터 초기 policy를 학습합니다.
  • MCTS (Monte Carlo Tree Search) 를 사용하여 장기적인 관점에서 가장 큰 reward를 얻을 수 있는 action sequence를 탐색하고, 이를 통해 policy를 개선합니다.
  • Value function approximator를 학습하여 MCTS의 탐색 효율성을 높이고, greedy policy rollout을 결합하여 leaf node의 가치를 추정합니다.