목록전체 글 (320)
AI바라기의 인공지능
AndroidLab 논문 정리 노트Purpose of the Paper:기존의 Android agent 연구는 오픈소스 및 클로즈드소스 모델에 대한 체계적인 연구가 부족했고, 대부분 정적인 환경에 의존하거나, prompt-based 개선에만 집중하여 모델의 행동 분석이나 강화 학습 실험에 제약이 있었습니다. 본 논문은 이러한 한계를 극복하기 위해, 체계적인 Android agent 프레임워크인 ANDROIDLAB을 제시하고, 오픈소스와 클로즈드소스 모델 모두를 포괄하는 재현 가능한 벤치마크를 제공하여 모델의 성능을 종합적으로 평가하고 개선하는 것을 목적으로 합니다.Key Contributions:ANDROIDLAB 프레임워크: 표준 운영 환경과 벤치마크를 포함하는 체계적인 Android agent 평가 ..
ANDROIDWORLD: A DYNAMIC BENCHMARKING ENVIRONMENT FOR AUTONOMOUS AGENTS 논문 정리 노트Purpose of the Paper기존 연구들은 autonomous agent가 human task를 수행하도록 하는 것에 중점을 두고 있었지만, 대부분의 연구는 static한 환경에서 진행되어 dynamic한 실제 환경에서의 성능을 평가하기 어려웠다. 또한, agent의 성능을 평가하기 위해 human demonstration과 비교하는 방식을 사용했지만, 이는 agent가 다양한 경로로 task를 해결할 수 있고, 환경이 non-deterministic하게 동작할 수 있다는 점을 고려하지 않았다. 이 논문은 이러한 한계를 해결하기 위해, dynamic하고 re..
B-MoCA: Benchmarking Mobile Device Control Agents Across Diverse Configurations 정리 노트Purpose of the Paper기존 mobile device control agents 연구는 agent의 generalization 능력을 간과하거나, 실제 사용에 필수적인 task(알람 설정, 응급 전화 걸기 등)를 평가 대상에서 제외하는 경향이 있었습니다. 또한, 이러한 한계를 포괄하는 통일된 benchmark의 부재는 해당 분야의 발전이 더뎌지는 원인이 되었습니다.이 논문에서는 diverse configurations 상황에서도 mobile device를 제어할 수 있는 agent를 평가하기 위한 새로운 benchmark인 B-MoCA를 제시..
Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents 논문 리뷰Purpose of the Paper대부분의 기존 Graphical User Interface (GUI) agent는 HTML 또는 accessibility tree와 같은 text-based representation에 의존하여 GUI를 인식하고, 이는 noise, 불완전성 및 계산 overhead를 야기합니다. 본 논문의 특별한 목적은 인간처럼 시각적으로만 환경을 인식하고 pixel-level operation을 직접 수행하는 GUI agent를 위한 Universal Visual Grounding model을 개발하는 것입니다. 기존 GUI..
GUICourse: From General Vision Language Model to Versatile GUI Agent 논문 정리Purpose of the Paper기존 Vision Language Models (VLMs) 은 OCR(Optical Character Recognition) 및 grounding 능력과 GUI 요소의 기능 및 제어 방법에 대한 지식 부족으로 인해 실용적인 GUI agent 로서의 역할 수행에 어려움을 겪었습니다. 본 논문의 목적은 이러한 문제점을 해결하고, 일반적인 VLMs 이 GUI navigation 작업을 효율적으로 수행할 수 있도록 학습시키는 GUICourse 데이터셋을 구축하는 것입니다. 특히, 기존 VLMs 이 고해상도 이미지에서 작은 크기의 텍스트를 인식하고..
논문 정리 노트: Understanding the Weakness of Large Language Model Agents within a Complex Android EnvironmentPurpose of the Paper기존 Large Language Model (LLM) agent는 browser, game과 같은 특정 software에서는 복잡한 task를 수행할 수 있도록 발전해왔지만, operating systems와 같은 general-purpose software system에서는 여전히 한계를 보입니다. 이러한 한계는 다음과 같은 세 가지 주요 challenge에서 기인합니다.Vast and Dynamic Action Space: operating systems은 실시간 internet d..
논문 정리 노트: Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI InteractionPurpose of the Paper기존 Graphical User Interface (GUI) interaction 평가를 위한 benchmarks는 static datasets를 활용하거나, agent의 action sequence를 단순 비교하거나, LLM 또는 사람의 주관적 판단에 의존하는 등, trustworthy 하고 reproducible 한 evaluations를 제공하는데 한계가 있었습니다. 특히, real-world usage를 반영하기 위한 intermediate instructions와 rewards를 제공하지 못한다는 점에서 한계..
AppAgent: Multimodal Agents as Smartphone Users 논문 정리 노트Purpose of the Paper기존의 large language models (LLMs) 은 주로 text-based 정보에 의존하여 smartphone 앱을 제어하는 데 한계가 있었습니다. 예를 들어, Siri 와 같은 intelligent phone assistants는 system back-end access 및 function calls를 통해 작동하기 때문에, universal applicability가 부족하고 deep system integration으로 인한 security 및 privacy 문제가 발생할 수 있습니다. 이 논문은 multimodal agent framework를 제시하..
SeeClick: Harnessing GUI Grounding for Advanced Visual GUI AgentsPurpose of the Paper기존 Graphical User Interface (GUI) agent들은 주로 structured text (e.g., HTML)를 통해 환경과 상호작용 해왔어. 하지만 structured text는 desktop application과 iOS에선 얻기 힘들고, 너무 길고 비효율적이며, layout, image, icon과 같은 중요한 시각적 정보를 놓칠 수 있다는 단점이 있었지. 본 논문은 이러한 한계를 극복하고자 screenshots만을 기반으로 GUI를 이해하고 작업을 수행하는 새로운 visual GUI agent인 SeeClick을 제안하고자 해..
Mobile-Agent-v2: Effective Navigation via Multi-Agent CollaborationPurpose of the Paper기존 Multi-modal Large Language Models (MLLMs)은 training data의 제약으로 인해 모바일 디바이스 조작 어시스턴트로서 효과적으로 기능하는 데 한계가 있었습니다. Tool invocation을 통해 capabilities를 향상시킨 MLLM-based agent가 이 시나리오에 점차 적용되고 있지만, 모바일 디바이스 조작 task에서 발생하는 두 가지 주요 navigation challenges, 즉 task progress navigation과 focus content navigation은 기존 연구의 sing..
