목록전체 글 (317)
AI바라기의 인공지능
Florence: A New Foundation Model for Computer Vision AbstractCLIP, ALIGN 및 Wu Dao 2.0과 같은 기존 비전 기반 모델은 주로 이미지 및 텍스트 표현을 교차 모달 공유 표현에 매핑하는 데 중점을 두는 반면, 새로운 컴퓨터 비전 기반 모델인 Florence는 개략적(장면)에서 상세(객체) 표현, 정적(이미지)에서 동적(비디오) 표현, RGB에서 다중 모달(캡션, 깊이) 표현으로 확장합니다. 웹 규모 이미지-텍스트 데이터의 보편적인 시각-언어 표현을 통합함으로써 Florence 모델은 분류, 검색, 객체 감지, VQA, 이미지 캡션, 비디오 검색 및 동작 인식과 같은 다양한 컴퓨터 비전 작업에 쉽게 적용할 수 있습니다. 또한 Florence는..
Evaluating Large Vision-and-Language Models on Children’s Mathematical Olympiads Abstract 최근 몇 년 동안 ChatGPT, Gemini 등과 같은 대규모 비전 및 언어 모델(LVM)의 범용 문제 해결 능력이 크게 발전했습니다.그러나 현재 과학 문헌에는 비전 및 텍스트 추론에 대한 AI 능력의 체계적인 분석이 부족합니다. 본 논문에서는 이러한 격차를 해소하기 위해 어린이 올림피아드의 시각-언어 문제를 사용하여 최첨단 LVM의 수학적 및 알고리즘적 추론 능력을 평가합니다. 특히, 1~12학년 어린이를 대상으로 연령과 기술 수준에 맞는 퍼즐을 통해 수학적 능력을 평가하는 국제 대회인 'Math Kangaroo(MK) 올림피아드' 문제를 ..
Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? Abstract멀티모달 대규모 언어 모델(MLLM)은 시각적 맥락에서 뛰어난 성능을 보이며 주목받고 있지만, 시각적 수학 문제 해결 능력에 대한 평가와 이해는 부족한 상황입니다. 본 연구에서는 기존 벤치마크들이 텍스트 질문에 과도한 시각 정보를 포함하여 MLLM이 다이어그램을 제대로 해석하지 않고도 답을 추론할 수 있도록 돕는 문제를 지적합니다. 이를 해결하기 위해 MATHVERSE라는 새로운 시각적 수학 벤치마크를 제안합니다. 공개된 자료에서 엄선한 2,612개의 고품질 수학 문제와 다이어그램을 활용하여, 각 문제를 6가지 버전으로 변형하여 총 15,000개의 테스트 샘..
Visual Chain-of-Thought Prompting for Knowledge-Based Visual Reasoning Abstract지식 기반 시각적 추론은 시각 정보와 외부 지식을 종합적으로 활용해야 하므로 매우 어려운 과제입니다. 기존 연구들은 시각 인식과 언어 추론을 분리하여 처리하여 이러한 문제를 해결하지 못했습니다. 본 논문에서는 이를 극복하기 위해 시각적 사고 연쇄 프롬프트(Visual Chain-of-Thought Prompting, VCTP)를 제안합니다. VCTP는 다음 세 단계로 구성됩니다.보기(See): 이미지에서 시각적 개념 후보를 추출합니다.생각하기(Think): 언어 모델(LLM)을 활용하여 질문의 핵심 개념에 집중하고, 시각 정보를 텍스트로 변환하여 답변을 생성합니다..
AbstractVLM에 대한 관심이 증가하고 있지만 VLM 설계에 대한 중요한 결정들이 근거가 없다.이러한 근거 없는 결정은 어떤 선택이 성능을 향상 시켰는지 파악하기 어렵고 분야의 발전은 저해한다고 주장. -> 이 문제를 해결하기 위해 pretrained 모델, 아키텍쳐 선택, 데이터 및 학습 방법에 대한 광범위한 실험 수행 IntroductionVLM은 다음과 같은 작업에 유용하게 쓰인다. PDF 내의 검색차트, 다이어 그램 설명이미지 내 텍스트 인식이미지 속 객체 수 세기 이를 위해 연구자들은 다음과 같은 연구를 진행함. 이미지 인코더, 강력한 오픈 대규모 언어모델 그러나 많은 설계 및 실험들이 정당화되지 않거나 매우 간략한 경우가 대부분.이러한 상황은 모델 성능에 실제로 영향을 미치는 결정을..
atrous pooling을 pyramid처럼 쌓는다는 느낌으로 받아들이면 될 것 같습니다. atrous convolution을 통해서 receptive field를 확대했다고 하면, ASPP에서는 다른 dilation rate를 가진 atrous pooling layer를 중첩하여 multi scale에 더 잘 반응할 수 있도록 한 것입니다. ASPP(Atrous Spatial Pyramid Pooling)은 이미지 분류, 객체 탐지, 세그멘테이션 등 다양한 컴퓨터 비전 작업에서 사용되는 패치 피쳐맵을 위한 공간 피쳐맵 추출 기법입니다. ASPP는 다양한 크기의 필터와 비율을 사용하여 이미지의 다양한 스케일과 텍스처 정보를 추출합니다. ASPP는 다음과 같은 4가지 모듈로 구성됩니다. Atrous co..
Transformer 이전에는 RNN구조의 순차적으로 입력되는 데이터를 처리하였습니다. 하지만 Transformer의 경우 입력 데이터를 순차적으로 처리하지 않고 병렬로 한꺼번에 처리한다는 특징이 있습니다. 이와 같은 병렬 처리로 인한 장점이 있는 반면 데이터를 병렬 처리하면서 데이터가 입력된 순서에 대한 정보가 사라지게 됩니다. 이러한 문제를 개선하기 위해 Positional Encoding이라는 개념을 도입한 것 입니다. 위 그림처럼 4개의 단어가 있을때, 4개의 포지셔널 인코딩이 입력데이터를 임베딩한 결과에 더해집니다. 왜 Concat이 아니라 그냥 더하지? 라는 의문이 있을 수 있습니다. Concat을 하게 되면 과다한 메모리 낭비, 런타임 증가, 차원증가 등 이러한 문제점이 있을 수 있으며 이러..
세그멘테이션 분야에서는 아트로스 컨볼루션이 많이 왜 그런 것일까요? Atrous Convolution은 Dilated Convolution 또는 Hole Convolution이라고도 불리며, Convolutional Neural Network (CNN)에서 사용되는 컨볼루션 연산의 한 종류입니다. Atrous Convolution은 커널의 크기를 유지하면서 컨볼루션 연산을 수행하는 기법으로, 컨볼루션 연산의 Receptive Field(수용 영역)을 키울 수 있어서, 더 넓은 범위의 정보를 수집할 수 있습니다. 일반적인 컨볼루션 연산은 이미지 특징을 추출하는데 매우 효과적입니다. 그러나, 큰 이미지에서 특징을 추출하거나, 객체가 작거나 듬성듬성 분포하는 이미지에서 특징을 추출할 때, 컨볼루션 연산이 수용..
최적화란? 딥러닝에서 최적화는 모델의 학습을 통해 가중치(weight)와 편향(bias)을 조정하여 손실(loss) 함수를 최소화하는 과정을 말합니다. 이를 위해서는 최적화 알고리즘이 필요합니다. 즉 입력값을 통해서 예측값이 도출 되는데 이 예측값과 실제값의 차이를 줄이기 위한 방법입니다. 대표적인 최적화 알고리즘으로는 경사 하강법(Gradient Descent)이 있습니다. 가중치를 조정하면서 모델을 업데이트 하는 과정을 거칩니다. 즉 w에 따라 손실함수의 값이 결정 되는 것이죠 경사 하강법은 손실 함수의 기울기(gradient) 방향으로 가중치와 편향을 업데이트하는 방법입니다. 이 때, 학습률(learning rate)이 중요한데, 학습률이 크면 수렴 속도는 빨라지지만, overshooting이 발생..
주성분분석(PCA, Principal Component Analysis)은 다차원 데이터 분석에서 주로 사용되는 기법 중 하나로, 변수 간 상관관계를 이용하여 데이터를 변환하는 방법입니다. 이를 통해 데이터의 차원을 축소하고, 데이터의 구조를 파악하는 데에 유용합니다. PCA의 기본 아이디어는, 다차원 공간에서 변수들이 서로 상관관계가 있을 때, 이를 대표하는 새로운 변수를 찾아내는 것입니다. 이때 새로운 변수는 원래 변수들의 선형 결합으로 표현됩니다. 이렇게 새로운 변수를 찾는 과정에서, 원래 변수들의 분산을 최대로 보존하는 방향으로 새로운 변수를 선택합니다. 이를 주성분이라고 합니다. PCA는 다음과 같은 절차를 따릅니다. 데이터를 표준화합니다. 각 변수들의 스케일이 다르면, 분산이 큰 변수가 주성분..