목록전체 글 (320)
AI바라기의 인공지능
Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual PerceptionPurpose of the Paper기존 Multimodal Large Language Models (MLLM) 기반 모바일 디바이스 에이전트는 스크린 내 operation의 정확한 위치 파악에 어려움을 겪는다는 한계가 존재했다. 기존 연구들은 이러한 문제를 해결하기 위해 Android 애플리케이션의 XML 파일이나 웹 애플리케이션의 HTML 코드를 활용하여 localization을 시도했지만, 이러한 방식은 해당 파일에 대한 접근 권한이 없는 경우 적용할 수 없다는 한계가 존재한다.본 논문은 이러한 한계를 극복하기 위해 visual perception tools을..
From Pixels to UI Actions: Learning to Follow Instructions via Graphical User InterfacesPurpose of the Paper기존의 graphical user interfaces (GUIs)를 위한 digital agents 연구는 주로 HTML이나 기타 구조화된 데이터 소스에서 파생된 text-based representations에 의존해 왔습니다. 이러한 text-based representations은 항상 사용 가능한 것은 아니며, custom, task-specific action spaces와 결합되는 경우가 많았습니다. 이 논문은 사람들이 일반적으로 사용하는 것과 동일한 개념적 interface, 즉 pixel-based ..
Auto-GPT for Online Decision Making: Benchmarks and Additional Opinions 논문 리뷰Purpose of the Paper기존 Large Language Models (LLMs)를 활용한 autonomous agent에 대한 연구들은 많았지만, 대부분 offline reasoning tasks에 집중되어 있었고, real-world online decision-making tasks에서의 효용성과 유연성에 대한 검증은 부족했습니다. 특히, Auto-GPT는 갑작스럽게 주목을 받았지만, 실제 작업을 수행하는 능력은 제한적이어서 그 실효성에 대한 의문이 남아있었습니다.이 논문은 Auto-GPT styled agent를 real-world 시나리오를 모방한 ..
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering 정리 노트Purpose of the Paper기존 과학 Question answering datasets은 정답에 대한 설명이 부족하거나, 텍스트로만 제공되거나, 규모가 작거나, 다루는 주제가 제한적이었다. 이 논문은 이러한 한계를 극복하고, AI 시스템의 multimodal 추론 능력과 설명 생성 능력을 향상시키기 위한 목적으로 대규모 multimodal 과학 Question answering dataset인 SCIENCEQA 를 제시한다. 특히, SCIENCEQA 는 21k 개의 multimodal 객관식 문제와 함께 정답에 대한 lecture..
CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation 논문 정리 노트Purpose of the Paper기존 Multimodal large language models (MLLMs)은 real-world 환경, 특히 graphical user interface (GUI) automation에서 human-like autonomous language agents로서 놀라운 잠재력을 보여주었지만, exhaustive perception과 reliable action response를 포함한 comprehensive cognition 능력이 부족하다는 한계가 있었습니다.본 논문은 이러한 한계를 극복하고, 스마트폰 GUI a..
Purpose of the Paper기존 모델의 한계기존의 Large Language Models (LLMs)은 HTML과 같은 텍스트 기반 입력을 처리하여 GUI와 상호작용하는 데 중점을 두었으나, GUI 특유의 시각적 요소(아이콘, 텍스트, 공간적 배열 등)를 효과적으로 이해하지 못했습니다. 특히, 고해상도 이미지를 효율적으로 처리하지 못해 작은 요소를 정확히 식별하기 어렵고, GUI 특화된 데이터셋이 부족하여 실제 환경에서의 일반화 성능이 제한적이었습니다.논문의 특별한 목적본 논문은 GUI의 시각적 신호를 직접 이해하고 조작할 수 있는 Visual Language Model(VLM) 기반 GUI 에이전트인 CogAgent를 제안합니다. 특히, 고해상도 입력 처리를 효율화하며, GUI 특화 데이터셋(..
A3: Android Agent Arena for Mobile GUI Agents 논문 정리 노트Purpose of the Paper기존 모바일 GUI 에이전트 연구는 주로 정적 프레임 평가에 중점을 두어 실제 환경에서의 에이전트 성능을 종합적으로 평가하는 데 한계가 있었습니다. 특히, 기존 데이터셋은 스크린샷이나 UI 상태를 기반으로 단일 프레임에서 다음 행동을 예측하는 방식이었기 때문에, 실제 사용 환경에서 발생하는 동적이고 상호작용적인 작업 흐름을 반영하지 못했습니다. 또한, 컨텍스트 정보가 부족하여 멀티 스텝 작업이나 목표 지향적인 작업을 평가하는 데 어려움이 있었습니다.이 논문은 이러한 한계를 극복하고, 실제 사용 환경을 반영한 동적이고 상호작용적인 환경에서 모바일 GUI 에이전트의 성능을 종합..
Purpose of the PaperShowUI는 Graphical User Interface(GUI)에서 인간처럼 시각적으로 인식하고 상호작용할 수 있는 GUI visual agents 개발을 목표로 합니다. 기존 언어 기반 GUI 에이전트는 HTML 또는 accessibility tree와 같은 텍스트 중심 메타데이터에 의존하지만, ShowUI는 실제 스크린샷을 활용한 시각적 접근 방식을 통해 더 높은 실용성을 제공합니다.Key ContributionsUI-Guided Visual Token Selection방법: GUI 스크린샷을 그래프 구조로 변환하고, 서로 중복되는 영역을 감지해 중요하지 않은 토큰을 제거함으로써 시각적 토큰 사용을 최적화.결과: 토큰 중복을 33% 줄이고, 학습 속도를 1.4배..
EgoTV 논문 정리 노트Purpose of the Paper기존의 vision-language models은 일상적인 작업을 이해하는 데 한계가 있었습니다. 특히, 자연어로 주어지는 복잡한 multi-step tasks를 이해하고, 이를 egocentric 비디오에서 검증하는 데 어려움을 겪었습니다. 이러한 한계를 극복하고자, 본 논문은 자연어 task descriptions를 기반으로 egocentric 비디오에서 task 수행 여부를 검증하는 새로운 benchmark인 Egocentric Task Verification (EgoTV)를 제안합니다. EgoTV는 기존 datasets에서 부족했던 causal, temporal, compositional reasoning 능력을 중점적으로 평가하며, r..
abstractLLM은 인공 지능 분야에 혁명을 일으켰고 많은 작업에서 사실상의 도구로 부상했습니다. 현재 확립된 LLM 기술은 토큰 수준에서 입력 처리 및 출력 생성을 수행하는 것입니다. 이는 정보를 분석하고 창의적인 콘텐츠를 생성하기 위해 단어 이상으로 여러 수준의 추상화 수준에서 작동하는 인간과는 극명한 대조를 이룹니다. 본 논문에서는 명시적인 더 높은 수준의 semantic representation, 즉 "concept"에서 작동하는 architecture에 대한 시도를 제시합니다. Concepts는 언어 및 modality에 구애받지 않으며 흐름에서 더 높은 수준의 idea 또는 action을 나타냅니다. 따라서 우리는 "Large Concept Model"을 구축합니다. 이 연구에서 타당성 ..
