목록전체 글 (320)
AI바라기의 인공지능
Abstract multimodal large language models (MLLMs)에서, vision transformers (ViTs)는 visual encoding을 위해 널리 사용되고 있습니다. 그러나, 보편적인 MLLM tasks를 해결하는 데 있어서 그 성능은 만족스럽지 않습니다. 우리는 이것이 language generation에 필요한 다양한 semantic granularity와의 alignment를 방해하는 다양한 visual levels로부터의 정보 부족 때문이라고 생각합니다. 이 문제를 해결하기 위해, 우리는 high-resolution feature pyramid를 구축하고 통합함으로써 다양한 visual granularity를 포착할 수 있게 하는 Hierarchical wi..
1 Introduction o1 model 시리즈는 chain of thought를 사용해 reasoning하도록 large-scale reinforcement learning으로 trained되었습니다. 이러한 advanced reasoning 능력은 models의 안전성과 견고성을 향상시키는 새로운 방법을 제공합니다. 특히, deliberative alignment을 통해 잠재적으로 안전하지 않은 프롬프트에 응답할 때, 우리 models는 컨텍스트에 있는 안전 정책에 대해 reasoning 할 수 있습니다. 이는 불법적인 조언 생성, 고정관념에 사로잡힌 응답 선택, 알려진 jailbreaks에 굴복하는 것과 같은 위험에 대한 특정 벤치마크에서 state-of-the-art 성능으로 이어집니다. 응답하..
초록이 리포트에서는 다양한 요구 사항을 충족하도록 설계된 종합적인 large language models(LLMs) 시리즈인 Qwen2.5를 소개합니다. 이전 모델과 비교하여 Qwen2.5는 pre-training 및 post-training 단계 모두에서 크게 개선되었습니다. pre-training 측면에서 우리는 고품질 pre-training datasets를 이전의 7조 토큰에서 18조 토큰으로 확장했습니다. 이는 일반 상식, 전문 지식 및 reasoning 능력에 대한 강력한 기반을 제공합니다. post-training 측면에서 우리는 100만 개 이상의 샘플로 복잡한 supervised finetuning과 offline learning DPO 및 online learning GRPO를 포함한 ..
Abstract 우리는 multimodal understanding과 generation 사이의 오랜 격차를 해소하는 새로운 통합 image tokenizer인 TokenFlow를 제시합니다. 이전 research에서는 이 두 가지 tasks를 통합하기 위해 단일 reconstruction-targeted Vector Quantization (VQ) encoder를 사용하는 것을 시도했습니다. 우리는 understanding과 generation이 근본적으로 다른 granularities의 visual information을 필요로 한다는 것을 관찰했습니다. 이것은 특히 multimodal understanding tasks에서 performance를 저하시키는 중요한 trade-off를 초래합니다...
Let's Verify Step by StepPurpose of the Paper기존 large language models은 complex multi-step reasoning을 수행하는 데 있어 여전히 logical mistakes를 자주 범했습니다. 이러한 문제를 해결하기 위해 본 논문에서는 outcome supervision과 process supervision을 비교하여 어떤 방식이 더 reliable models을 training 하는 데 효과적인지 연구했습니다. 특히, 기존 연구들이 주로 grade school math 수준의 비교적 단순한 문제들에 집중했던 반면, 본 논문에서는 challenging MATH dataset을 사용하여 더 복잡한 문제 해결 능력을 평가하고자 했습니다. 이를 통..
Abstract 우리는 visual 처리에 있어 기존의 미리 정해진 해상도 접근 방식을 재정의하는 Qwen-VL models의 고급 업그레이드 버전인 Qwen2-VL Series를 선보입니다. Qwen2-VL은 Naive Dynamic Resolution 메커니즘을 도입하여 models이 다양한 해상도의 이미지를 동적으로 처리하여 여러 개의 visual tokens로 만들 수 있게 합니다. 이 접근 방식은 models이 인간의 지각 과정과 밀접하게 일치하는 더 효율적이고 정확한 visual 표현을 생성할 수 있도록 합니다. 또한 이 model은 Multimodal Rotary Position Embedding (M-RoPE)을 통합하여 텍스트, 이미지, 비디오 전반에 걸쳐 위치 정보의 효과적인 융합을 촉..
Abstrack 우리는 임의의 시퀀스에서 이미지와 텍스트를 이해하고 생성할 수 있는 early-fusion 토큰 기반 mixed-modal models 제품군인 Chameleon을 제시합니다. 우리는 처음부터 안정적인 training 접근 방식, alignment 레시피, 그리고 early-fusion, 토큰 기반, mixed-modal 환경에 맞춤화된 architectural 파라미터화를 개략적으로 설명합니다. 이 models은 visual question answering, 이미지 캡셔닝, 텍스트 생성, 이미지 생성, 그리고 long-form mixed modal 생성을 포함한 광범위한 tasks에 대해 평가됩니다. Chameleon은 이미지 캡셔닝 tasks에서 state-of-the-art 성능을..
Abstract 강력한 visual backbone과 Large Language Model (LLM) reasoning의 결합은 Large Multimodal Models (LMMs)가 광범위한 vision 및 language (VL) tasks의 현재 표준이 되도록 이끌었습니다. 그러나 최근 연구에 따르면 가장 진보된 LMM조차도 객체 간의 속성 및 관계와 같은 compositional visual reasoning의 측면을 포착하는 데 여전히 어려움을 겪고 있습니다. 한 가지 해결책은 visual 및 textual 영역 간의 다리 역할을 해 온 객체와 그들의 관계 및 속성을 형식화한 scene graphs (SGs)를 활용하는 것입니다. 그러나 scene graph 데이터는 scene graph an..
Abstract질의 응답(QA) 작업은 추출 범위 선택, 다중 선택 등과 같은 다양한 형식을 사용하여 제기되었습니다. 이는 형식에 특화된 models로 이어졌고, 심지어 QA 커뮤니티 내의 암묵적인 분열로 이어졌습니다. 우리는 우리가 가르치고자 하는 추론 능력이 형식에 의해 좌우되지 않는다는 점을 고려할 때, 이러한 경계가 인위적이고 어쩌면 불필요하다고 주장합니다. 증거로서, 우리는 language modeling의 최신 발전을 활용하여 4가지의 다양한 형식을 포괄하는 20개의 QA 데이터 세트에서 뛰어난 성능을 보이는 단일 사전 훈련된 QA model인 UNIFIEDQA를 구축합니다. UNIFIEDQA는 개별 데이터 세트에서 자체적으로 훈련된 8개의 서로 다른 models와 동등한 성능을 보입니다. 관..
Abstract AI 시스템의 오랜 목표는 인간과 같은 복잡한 multimodal 추론을 수행하는 것입니다. 최근, large language models (LLMs)는 인간의 사고를 모방하기 위해 chain of thought (CoT)를 활용하여 언어 modality에 대한 이러한 다단계 추론에서 놀라운 발전을 이루었습니다. 그러나 이러한 발전들을 multimodal 맥락으로 이전하는 것은 노동 집약적인 annotation의 비현실적인 필요성과 유연성, 일반화 가능성 및 설명성 측면의 제한을 포함하되 이에 국한되지 않는 고조된 과제를 야기합니다. multimodality에서 CoT 추론을 유도하기 위해, 본 연구는 먼저 multimodality가 제기하는 이러한 과제에 대한 심층 분석을 수행하고 m..
