AI바라기의 인공지능

VLM : 논문리뷰 : Meteor: Mamba-based Traversal of Rationalefor Large Language and Vision Models 본문

논문리뷰

VLM : 논문리뷰 : Meteor: Mamba-based Traversal of Rationalefor Large Language and Vision Models

AI바라기 2024. 8. 16. 11:28

한줄 요약 : Meteor는 Traversal of Rationale를 활용하여 복잡한 시각적 문제를 효율적으로 해결하는 새로운 LLVM

 

Abstract

대규모 언어 및 비전 모델(LLVMs)의 급속한 발전은 visual instruction tuning의 발전에 의해 주도되어 왔습니다.

최근, 오픈 소스 LLVMs는 고품질의 visual instruction tuning 데이터 세트를 선별하고 추가적인 vision encoder 또는 여러 computer vision 모델을 활용하여 강력한 closed-source LLVMs와의 성능 격차를 줄였습니다.

 

이러한 발전은 기본적인 이미지 이해, 상식 및 비객체 개념(예: 차트, 다이어그램, 기호, 표지판 및 수학 문제)에 대한 실제 지식, 복잡한 질문 해결을 위한 단계별 절차 등 다양한 기능에 필요한 다면적인 정보 덕분입니다.

 

다면적인 정보를 바탕으로, 우리는 이해와 답변 능력을 향상시키기 위해 다면적인 추론을 활용하는 새로운 효율적인 LLVM, Mamba-based traversal of rationales (Meteor)을 제시합니다.

 

풍부한 정보를 포함하는 긴 추론을 포함하기 위해, 우리는 선형 시간 복잡도로 순차 데이터를 처리할 수 있는 Mamba architecture를 사용합니다. 우리는 추론의 효율적인 임베딩을 촉진하는 새로운 개념인 traversal of rationale을 소개합니다.

 

이후, backbone multimodal language model (MLM)은 추론의 도움을 받아 답변을 생성하도록 훈련됩니다.

이러한 단계를 통해 Meteor는 모델 크기를 늘리거나 추가적인 vision encoder 및 computer vision 모델을 사용하지 않고도 다양한 기능을 요구하는 여러 평가 벤치마크에서 vision language 성능을 크게 향상시킵니다.

 

 

Introduction

 

Instruction-tuned large language models (LLMs)의 zero-shot 성공 이후, visual instruction tuning은 large language and vision models (LLVMs)의 빠른 발전을 촉진했습니다.

GPT-4V, Gemini-Pro, Qwen-VL-Plus와 같은 closed-source LLVMs의 등장은 여러 연구들이 고품질의 question-answer visual instruction tuning 데이터 세트를 만들고,

open-source LLVMs의 모델 크기를 확장하여 scaling law를 활용하여 closed-source LLVMs와 경쟁하도록 자극했습니다.

 

최근 연구 동향은 이미지 인식 능력을 향상시키기 위해 이미지 해상도를 높이고, 이미지를 더 작은 부분으로 나누는 데 초점을 맞추고 있습니다. 또한 일부 연구에서는 EVA-CLIP, DINOv2, SAM, SigLIP과 같은 추가적인 vision encoder를 활용했습니다. segmentation, detection, scene graph generation, optical character recognition (OCR)과 같은 작업을 위해 다양한 computer vision 모델도 외부 인식 정보를 통해 LLVMs의 답변 능력을 향상시키기 위해 사용되었습니다.

 

이러한 노력들은 고품질의 visual instruction 데이터 세트의 선별과 함께 수많은 평가 벤치마크에서 open-source LLVMs와 closed-source LLVMs 간의 성능 격차를 현저히 줄였으며, 심지어 일부 벤치마크에서는 더 뛰어난 성능을 보이기도 했습니다. 이러한 성공적인 발전은 다양한 기능에 필요한 다면적인 정보 덕분입니다. 여기에는 기본적인 이미지 이해, 상식 및 비객체 개념(예: 차트, 다이어그램, 기호, 표지판 및 수학 문제)에 대한 실제 지식, 복잡한 질문 해결을 위한 단계별 절차가 포함됩니다.

 

다면적인 정보의 중요성에서 영감을 받아, 우리는 모델 크기를 늘리거나 추론 단계에서 추가적인 vision encoder 및 computer vision 모델을 사용하지 않고, 암묵적으로 다면적인 rationale 형태로 포함하는 효율적인 LLVMs를 설계할 가능성을 탐구합니다(자세한 내용은 부록 A 참조).

따라서 우리는 새로운 효율적인 LLVM인 Mamba-based traversal of rationale (Meteor)을 제시하며, 이는 두 가지 핵심 구성 요소로 이루어져 있습니다:

1. Mamba architecture

2. 사전 훈련된 large language model (LLM)을 기반으로 하는 multimodal language model (MLM)입니다.

 

 

다면적인 rationale은 다양한 기능을 달성하기 위한 풍부한 정보를 가지고 있으므로, 그 길이는 본질적으로 깁니다. 이것이 바로 우리가 긴 입력을 포함하는 이점을 활용하는 Mamba architecture(이하 Meteor-Mamba)를 사용하는 이유입니다.

 

이는 rationale을 위한 임베딩 모듈 역할을 하여, MLM 구성 요소인 Meteor-MLM이 이러한 임베딩된 rationale의 도움을 받아 질문을 처리할 수 있도록 합니다. Meteor-Mamba에서 Meteor-MLM으로 임베딩된 rationale의 지식을 전달할 때, 우리는 긴 순차적 rationale의 임베딩을 촉진하는 새로운 개념인 traversal of rationale을 도입합니다.

 

Meteor가 vision-language 작업(예: 이미지 이해, 상식, 차트, 다이어그램, 문서, 표지판, 기호 및 수학 문제)을 위한 다양한 기능을 포함하도록 하기 위해, 우리는 기존의 visual instruction tuning 데이터 세트인 ShareGPT4V-Caption/Instruct, MiniGemini-Instruct, Doc-Downstream/Reason, GLLaVA-Align/Instruct, Math-Vision/Instruct/Plus에서 210만 개의 질문-답변 쌍을 수집합니다. Subsequently, 우리는 가볍고 빠른 Claude Haiku API를 활용하여 수집된 210만 개의 질문-답변 쌍에 맞춘 상세하고 포괄적인 rationale을 생성합니다. 이러한 rationale은 GPT-4V의 도움을 받아 인간 검토자에 의해 신중하게 필터링되어, 110만 개의 질문-rationale-답변 triple을 생성합니다(부록 A).

 

선별된 110만 개의 triple에서 질문-rationale 쌍을 사용하여, 첫 번째 훈련 단계는 Meteor-Mamba 및 기타 projector(즉, vision projector 및 tor projector)를 훈련하는 것입니다. 훈련하는 동안, 우리의 기여는 두 가지 주요 측면으로 요약될 수 있습니다:

  • 우리는 traversal of rationale이라는 새로운 개념 하에 긴 순차적 rationale을 이해하고 rationale의 도움을 받아 답변을 예측하는 새로운 효율적인 large language and vision model (LLVM), Mamba-based traversal of rationale (Meteor)을 소개합니다.
  • 효율적인 모델 크기에도 불구하고, Meteor는 이미지 이해, 상식, 비객체 개념 등 다양한 기능을 요구하는 다양한 평가 벤치마크에서 상당한 발전을 보여줍니다.

 

Figure 1: 7B에서 110B 이상의 파라미터에 걸쳐, 이미지 이해, 상식, 비객체 개념 이해 등 다양한 능력을 요구하는 MME, AI2D, MathVista에서 Meteor와 다수의 open-source 및 closed-source LLVMs를 비교합니다.

 

 

Figure 2: Meteor와 다른 open-source 및 closed-source LLVMs의 전반적인 비교.

이 단계에서, Meteor-Mamba는 긴 순차적 rationale을 임베딩하도록 훈련됩니다. 두 번째 훈련 단계에서는, Meteor의 모든 구성 요소가 선별된 110만 개의 triple에서 질문-답변 쌍을 사용하여 훈련됩니다. 이러한 단계를 통해, 우리는 Meteor가 다양한 기능을 요구하는 수많은 벤치마크에서 다른 open-source 및 closed-source LLVMs와 비교하여 vision-language 성능을 크게 향상시킨다는 것을 보여줍니다 (그림 1 참조). 그림 2에서 보듯이, 이러한 결과는 모델 크기 확장, 추가 vision encoder 및 여러 computer vision 모델의 범위를 넘어 다면적인 rationale을 가진 효율적인 LLVMs를 구축할 가능성을 지지합니다.

 

 

 

Related Works

Rationale-Guided Prediction

 

Large language models (LLMs)의 답변 뒤에는, rationale은 다양한 형태로 수많은 natural language processing 및 vision language 작업에서 답변 능력을 향상시키는 데 중요한 역할을 해왔습니다. 그 형태는

(a) human annotation,

(b) knowledge distillation, 그리고

(c) chain-of-thought (CoT)입니다.

 

 

Rationale은 인간의 사고 과정을 모방하여 질문에 답하기 전에 설명이나 정당성을 제공합니다.

(a) Strout et al.과 Lu et al.은 human-annotated rationale을 LLMs와 통합하여 성능을 강화하고, human annotation을 통해 out-of-distribution 시나리오에 대한 모델의 견고성을 향상시킵니다.

 

(b) knowledge distillation에서는 rationale을 사용하여 LLMs를 더 작은 language model로 효과적으로 distillation합니다. 먼저 LLMs에서 rationale을 추출한 다음, 추출된 rationale을 사용하여 더 작은 language model을 fine-tune하고 다양한 평가 벤치마크를 통해 효율성을 입증합니다.

 

(c) rationale을 LLMs에 직접 적용하기 위해 연구자들은 Chain of Thought (CoT)라는 'think step-by-step' 프롬프트를 사용했습니다. few-shot learning과 결합될 때, CoT는 few-shot 예시로 사용되는 일련의 질문, rationale 및 답변 다음에 입력 질문에 대해 LLMs에서 직접 단계별 rationale을 이끌어냅니다.

이는 탐구된 CoT 프롬프트에서 rationale 생성을 자동화하여 few-shot 예시에 대한 human-annotated rationale의 필요성을 제거함으로써 더욱 간소화되었습니다.

 

(b)와 유사하게, 우리도 closed-source LLVMs의 힘을 활용하지만, 대조적으로, Meteor-MLM을 직접 훈련하여 생성된 rationale을 생성하는 대신, 다른 모델인 Meteor-Mamba를 사용하여 rationale을 임베딩합니다. 다시 말해, 우리는 Meteor-MLM이 답변을 생성하고 Meteor-Mamba가 rationale을 임베딩하는 모델의 역할을 분리합니다. rationale은 기본적인 이미지 이해, 상식적인 실제 지식 통합, 비객체 개념(예: 차트, 다이어그램, 기호, 표지판 및 수학) 이해, 복잡한 질문 해결을 위한 체계적인 단계별 절차 따르기와 같은 다양한 기능을 포함합니다. LLVMs와 함께 제공되면, 답변 기능은 rationale의 도움으로 향상될 것으로 예상됩니다.

 

 

 

Large Language and Vision Models

 

LLaVA와 InstructBLIP에 의해 생성된 visual instruction tuning 데이터 세트의 등장 이후, large language and vision models (LLVMs)는 빠르게 발전했습니다: Shikra, IDEFICS, Qwen-VL, MiniGPT-4, Otter, mPLUG-Owl, ShareGPT4V, LLaVA-XTuner, Intern-XC, MM1, MiniGemini, InternVL Families 등이 개발되었고, 다양한 목적을 위한 고품질의 visual instruction tuning 데이터 세트를 수집하거나 선별하려는 노력도 있었습니다: ShareGPT4V, ALLaVA, MiniGemini, mPLUG-DocOwl, GLLaVA, MathVision, MathInstruct, MathPlus 등이 있습니다.

 

최근에는 Otter-HD, Qwen-VL, CogVLM, mPLUG Families가 이미지 해상도를 높였습니다. 또한 LLaVA-NeXT, MM1, MiniGemini는 이미지를 더 작은 부분으로 나누고, LLaVA-UHD와 InternVL1.5는 이미지 크기에 따라 동적으로 이미지 분할을 사용합니다. 이러한 연구 동향은 이미지 인식 능력을 향상시켜 이미지와 자연어 지시에 대한 이해를 높이는 것을 목표로 합니다.

뿐만 아니라, BRAVE, DeepSeek-VL, OmniFusion, MoVA, AM-RADIO는 EVA-CLIP, DINOv2, SAM, SigLIP과 같은 추가적인 vision encoder를 활용했습니다. 이 외에도 SpatialVLM, ASMv2, LAR/LAF, CoLLaVO, MoAI는 segmentation, detection, scene graph generation, optical character recognition (OCR)과 같은 작업을 위해 여러 computer vision 모델을 사용합니다.

 

우리는 이러한 일련의 노력들을 LLVM의 다면적인 정보에 대한 지식 공간을 확장하는 절차로 봅니다. 새로운 관점에서, 우리는 다면적인 rationale 형태로 이를 임베딩하는 것이 효율적인 LLVMs를 개발하는 핵심이라고 믿습니다. 여기서 효율적인 LLVMs는 다양한 기능을 습득하는 데 필요한 심층적인 설명을 포함합니다. 이러한 관점에서, Meteor는 모델 크기를 늘리거나 추가적인 explicit vision encoder 및 computer vision 모델에 의존하지 않고도 다면적인 rationale을 내재적으로 임베딩하고 임베딩된 rationale의 도움으로 답변 능력을 향상시킬 것으로 기대됩니다.

 

 

Meteor: Mamba-based traversal of rationale

그림 3에서 보듯이, Meteor는 vision encoder, vision projector, Mamba architecture, tor projector, 그리고 사전 훈련된 large language model (LLM)을 기반으로 하는 backbone multimodal language model (MLM)으로 구성됩니다.

vision encoder로는, 텍스트 설명에 의해 강화된 이미지 이해 능력을 활용하는 텍스트 정렬 vision 모듈인 CLIP-L/14를 사용합니다.

vision projector 및 tor projector에는 GELU 활성화 함수를 가진 두 개의 fully-connected layer를 포함하는 MLP 모듈을 사용합니다.

다음으로, 계산 효율성을 위해 Mamba-130M architecture를 사용하고, RLHF에서 2T 토큰의 다국어 텍스트 데이터로 학습된 InternLM2-7B를 backbone large language model (LLM)으로 채택합니다.

 

 

Figure 3: Overview of Meteor architecture and its training steps.

 

 

Configuration of Visual Instruction Tuning Dataset.

visual instruction tuning 세트를 구축하기 위해, 우리는 기본적인 이미지 이해뿐만 아니라 다양한 능력도 포함합니다: 상식, 비객체 개념(예: 차트, 다이어그램, 문서, 표지판, 기호 및 수학 문제), 인지 추론, 다학문 작업 및 통합 능력 등이 있습니다.

question-answer visual instruction tuning 데이터 세트의 경우, ShareGPT4V-Instruct에서 LLaVA-Instruct-665K를 포함한 664K 질문-답변 쌍을 선택합니다. 또한 ShareGPT4V-Caption에서는 LAION, CC, SBU, MS-COCO, TextCaps 및 웹 이미지에서 랜드마크, 동물, 유명인, 예술, 텍스트 및 자연을 묘사하는 이미지에 대한 91K 이미지 설명을 선택합니다. 선택된 질문-답변 쌍은 주로 기본적인 이미지 이해 및 상식에 중점을 두고 있으며, 비객체 개념, 인지 추론, 다학문 작업 및 통합 능력을 다루는 데이터 샘플은 더 적습니다. 이러한 영역을 강화하기 위해 MiniGemini-Instruct에서 DocVQA, ChartQA, DVQA 및 AI2D의 27K 질문-답변 쌍을 선택적으로 수집합니다. 또한 Doc-Downstream/Reason에서 DeepForm, InfoVQA, DocVQA, KleisterCharity, TabFact, TextVQA, WikiTable, TextCaps 및 VisualMRC의 574K/27K 질문-답변 쌍을 사용합니다. 폭넓은 수학 지식 범위를 달성하기 위해 177K GLLaVA-Align/Instruct, 3K MathVision 및 Math-Instruct/Plus의 566K 텍스트 전용 샘플도 포함합니다.

요약하면, 755K 실제 이미지, 문서, 차트, 다이어그램, 표지판 및 기호에 대한 627K 이미지, 747K 수학 샘플(이미지 포함 180.5K 및 텍스트 전용 566.8K)을 수집합니다. 전반적으로 question-answer visual instruction tuning 샘플은 총 210만 개입니다.

 

 

 

Curating Rationale.

수집된 210만 개의 질문-답변 쌍을 사용하여, 우리는 가볍고 빠른 Claude Haiku API를 활용하여 상세하고 포괄적인 rationale을 생성합니다.

프롬프트 템플릿은 다음과 같습니다

: "Question: {}. Answer: {}. Based on the question and answer, carefully provide an explanation about how to answer the question in detail." 여기서 {}는 해당 언어 설명에 대한 placeholder를 나타냅니다.

그 후, 우리는 다음 템플릿을 사용하여 GPT-4V에서 rationale 점수를 평가합니다

: "Question: {}. Rationale: {}. Answer: {}. Based on the question, rationale, and answer, provide a score from 0 to 10, evaluating how well the rationale is described to solve the question. If the given rationale is insufficient, you should rigorously give a score below 5."

 

그 후, 생성된 rationale 중 5점 미만의 점수를 받은 것들을 걸러냅니다. 이 자동 평가를 통과한 rationale은 인간 검토자에게 전달되어 질문에 대한 적절한 설명을 제공하는지 여부를 Yes 또는 No로 판단합니다. 마지막으로, 이 일련의 과정을 통해 110만 개의 질문-rationale-답변 triple을 얻습니다. 여기에는 상식과 몇 가지 다양한 기능 샘플을 다루는 338K 실제 이미지, 문서, 차트, 다이어그램, 표지판 및 기호에 대한 379K 이미지, 342K 수학 샘플(이미지 포함 165K 및 텍스트 전용 177K)이 포함됩니다.

 

Mamba Architecture.

LLVMs가 복잡한 질문을 처리할 때 본질적으로 rationale을 갖도록 하기 위해, 우리는 질문-답변 쌍을 기반으로 포괄적인 rationale을 생성합니다.

그 후, 긴 rationale을 처리하면서도 계산 효율성을 유지할 수 있는 Mamba architecture의 능력을 활용합니다. 이 접근 방식을 통해, 선별된 110만 개의 질문-rationale 쌍의 평균 길이가 213 토큰으로, 일반적인 visual instruction tuning 데이터 세트에서 ground truth 답변의 평균 길이인 22 토큰보다 약 10배 더 긴 환경에서 rationale을 효과적으로 통합할 수 있습니다.

 

 

 

 

Traversal of Rationale

그러나 추론 단계에서는 API 기반 모델 없이 사용자 질문만 주어지기 때문에 rationale을 얻고 활용할 수 없다는 점에 유의해야 합니다. 따라서 우리는 추론 단계에서 외부 API의 도움 없이 Meteor-MLM에 rationale을 효과적으로 제공하기 위해 traversal of rationale이라는 새로운 개념을 제안합니다.

 

Retrieval-based knowledge에서 영감을 받아, 우리는 특수 토큰인 <TOR> (traversal of rationale의 약자)을 도입하고, 그림 3에서 설명된 대로 10개의 고정된 <TOR> 토큰을 균등하게 분배합니다. <TOR>가 심어진 rationale은 이미지 및 질문 토큰과 함께 Meteor-Mamba로 전파되고, Meteor-Mamba의 출력 특징은 Meteor-MLM으로 직접 전파됩니다. 여기서 우리는 Meteor가 특수 토큰 <TOR>를 볼 때마다 <TOR> 사이의 rationale 부분을 생성하도록 autoregressively 훈련시킵니다. 이 절차는 각 <TOR>가 다음 <TOR>를 만날 때까지 다음 rationale 부분을 나타내도록 보장합니다.

 

단일 <TOR> 토큰을 사용하여 rationale을 포함하는 것은 긴 rationale을 임베딩할 때 잘 작동하지 않을 수 있으며, rationale에 <TOR> 토큰을 분배하는 것을 고려하지 않으면 autoregressive 메커니즘의 망각 특성이라는 일반적인 문제로 인해 이후 토큰이 이전 토큰을 잘 참조하지 못합니다. 이것이 바로 하나 대신 여러 <TOR> 토큰을 rationale에 배치하는 이유입니다.

 

 

Training Strategy.

첫 번째 훈련 단계에서는, 선별된 110만 개의 triple에서 질문-rationale 쌍을 활용하여 Meteor-Mamba 및 기타 projector들을 훈련합니다.

이 단계 전체에서, 긴 순차적 rationale은 특수 토큰 <TOR> 사이의 rationale 부분을 autoregressively 생성함으로써 traversal of rationale을 통해 Meteor-Mamba에 임베딩됩니다. Meteor-MLM을 고정(freeze)함으로써, Meteor-Mamba는 rationale을 원활하게 통합합니다.

 

더보기
<tor> <tor> 사이의 rationale을 생성하게끔 해서 처리와 이해를 학습하는 느낌.

 

두 번째 훈련 단계에서는, 선별된 110만 개의 triple에서 질문-답변 쌍을 활용하여 Meteor-Mamba, Meteor-MLM 및 기타 projector들을 함께 훈련합니다. 여기서 여러 <TOR> 특수 토큰은 Meteor-Mamba에만 전파됩니다. 그런 다음 특수 토큰 <TOR>에 해당하는 Meteor-Mamba의 rationale-embedded 특징만 Meteor-MLM에 제공되어, 명시적인 rationale 설명이 없더라도 복잡한 질문에 능숙하게 답변할 수 있도록 합니다. 본질적으로, 이러한 단계를 통해 Meteor는 rationale의 도움을 받아 복잡한 질문을 효과적으로 처리하는 능력을 갖추게 됩니다.

더보기

이미 Meteor-Mamba가 토르 사이의 rationale을 잘 맞추게끔 학습이 되어서 특징에 잘 표현이 되어 있다고 볼 수 있는 듯함.