AI바라기의 인공지능

LLM : 논문리뷰 : UNITER: UNiversal Image-TExt Representation Learning 본문

논문리뷰

LLM : 논문리뷰 : UNITER: UNiversal Image-TExt Representation Learning

AI바라기 2025. 6. 14. 19:45

쉬운 설명 (Simple Explanation)

이 논문의 핵심 아이디어인 **Conditional Masking**은 학생에게 그림과 단어의 관계를 가르치는 방식에 비유할 수 있습니다.

  • 기존 방식 (Joint Masking): 학생에게 강아지 그림과 '강아지'라는 단어를 동시에 가리고 "이게 뭘까?"라고 묻는 것과 같습니다. 학생은 양쪽 정보가 모두 없어 추측하기 매우 어렵습니다.
  • UNITER 방식 (Conditional Masking): 학생에게 "한 남자가 그의 [ ]와 함께 있다" 라는 문장 전체를 보여주면서 강아지 그림만 가립니다. 학생은 문장의 맥락을 이용해 가려진 부분이 '강아지'일 것이라고 쉽게 추론할 수 있습니다. 반대로, 강아지 그림을 보여주면서 문장에서 '강아지'라는 단어만 가려도 마찬가지입니다.

이처럼 한쪽 정보를 온전히 힌트로 제공함으로써, 모델은 두 정보(이미지와 텍스트) 사이의 연관성을 훨씬 효과적이고 명확하게 학습하게 됩니다.

 

 

 

용어 설명 (Glossary)

  • UNITER (UNiversal Image-TExt Representation): 이 논문에서 제안하는, 다양한 Vision-and-Language (V+L) downstream task에 적용 가능한 범용 이미지-텍스트 representation 모델의 이름입니다.
  • Conditional Masking: 기존 모델들이 이미지와 텍스트 양쪽을 동시에 무작위로 masking했던 것과 달리, 한쪽 modality(예: 이미지)의 정보는 온전히 유지한 채 다른쪽 modality(예: 텍스트)의 일부만 masking하는 방식입니다. 이를 통해 모델이 한 modality를 조건(context)으로 삼아 다른 modality를 예측하도록 학습을 유도합니다.
  • WRA (Word-Region Alignment): 단어(word)와 이미지 내 특정 영역(region) 간의 세밀한(fine-grained) 정렬(alignment)을 학습시키기 위해 제안된 pre-training task입니다.
  • OT (Optimal Transport): 한 확률 분포를 다른 분포로 옮기는 데 필요한 최소 비용(cost)을 계산하는 수학적 이론입니다. 이 논문에서는 WRA task에서 단어 임베딩 분포와 이미지 영역 임베딩 분포 간의 'transport' 비용을 최소화하여 둘 사이의 alignment를 최적화하는 데 사용됩니다.
  • MRM (Masked Region Modeling): 이미지의 특정 영역(region)을 masking하고, 주변 영역과 전체 텍스트를 바탕으로 원래의 영역 feature를 예측하도록 하는 pre-training task입니다. 세 가지 변형(MRFR, MRC, MRC-kl)이 존재합니다.
  • ITM (Image-Text Matching): 주어진 이미지와 텍스트 쌍이 서로 의미적으로 일치하는지(positive sample) 아닌지(negative sample)를 이진 분류로 예측하는 pre-training task입니다.
  • Single-stream Architecture: 이미지 feature와 텍스트 feature를 초반에 합쳐서 하나의 Transformer encoder에 입력으로 넣어 처리하는 구조입니다. ViLBERTLXMERT 같은 two-stream 구조와 대조됩니다.

Purpose of the Paper

이 논문은 기존 Vision-and-Language (V+L) 연구들의 한계를 극복하고자 합니다. 기존 모델들은 다음과 같은 문제점을 가졌습니다.

  • Task-Specific Architecture: 대부분의 모델이 VQA, Image-Text Retrieval 등 특정 task에 과도하게 맞춰진(tailored) 구조를 가져 다른 task로의 일반화가 어려웠습니다.
  • Ineffective Pre-training: ViLBERT, LXMERT 등은 이미지와 텍스트 양쪽을 동시에 masking하는 'joint random masking' 방식을 사용했습니다. 이는 masking된 이미지 영역과 masking된 단어가 우연히 일치할 경우, 모델이 두 modality 간의 관계를 학습하기 어려운 'misalignment' 문제를 야기할 수 있었습니다.
  • Implicit Alignment: 단어와 이미지 영역 간의 세밀한(fine-grained) alignment를 별도의 task-specific loss를 통해서만 간접적으로 학습했으며, pre-training 단계에서 이를 명시적으로 학습시키려는 시도가 부족했습니다.

UNITER는 이러한 문제들을 해결하기 위해, **하나의 범용 모델(Universal model)**로 다양한 V+L task를 해결할 수 있는 더 효과적인 pre-training 전략(Conditional Masking, OT-based WRA)을 제안하는 것을 목표로 합니다.

Key Contributions & Novelty

  • Conditional Masking 제안:
    • Contribution: 이미지 전체를 보여주고 텍스트의 일부를 맞추거나, 텍스트 전체를 보여주고 이미지의 일부 영역을 맞추는 Conditional Masking을 도입했습니다.
    • Novelty: 기존의 'joint random masking' 방식이 야기하는 modality 간 잠재적 misalignment 문제를 해결하고, 한 modality를 명확한 context로 활용하여 다른 modality를 이해하는 능력을 강화했습니다. 이는 더 효과적인 cross-modal representation 학습으로 이어집니다.
  • Optimal Transport (OT) 기반 Word-Region Alignment (WRA) 제안:
    • Contribution: OT를 활용하여 단어와 이미지 영역 간의 fine-grained alignment를 명시적으로 학습하는 WRA pre-training task를 설계했습니다.
    • Novelty: 기존 모델들이 ITM을 통해 전체 이미지-텍스트 쌍의 global alignment만 학습한 것과 달리, WRA는 단어와 이미지 객체(region) 간의 local하고 세밀한 의미적 연결을 pre-training 단계에서 직접적으로 최적화합니다. 이는 VQA나 Referring Expression처럼 세부적인 이해가 필요한 task에서 특히 효과적입니다.
  • 네 가지 Pre-training Task의 최적 조합 탐색:
    • Contribution: MLM, MRM (3종), ITM, WRA라는 4가지 pre-training task를 설계하고, 철저한 ablation study를 통해 MLM + ITM + MRC-kl + MRFR + WRA가 최적의 조합임을 실험적으로 증명했습니다.
    • Novelty: 단순히 여러 task를 나열하는 것을 넘어, 각 task의 효과와 상호보완성을 체계적으로 분석하여 최상의 성능을 내는 pre-training 레시피를 제시했습니다.
  • 효율적인 Single-stream Architecture의 우수성 입증:
    • Contribution: 더 적은 파라미터를 가진 single-stream 구조로도 기존의 복잡한 two-stream 모델들(ViLBERT, LXMERT)을 압도하는 성능을 달성했습니다.
    • Novelty: pre-training 전략의 효율성이 모델 구조의 복잡성보다 더 중요할 수 있음을 보여주며, V+L pre-training의 새로운 방향성을 제시했습니다.

Experimental Highlights

  • State-of-the-Art 달성: 6개의 V+L downstream task (VQA, VCR, NLVR², Image-Text Retrieval, Referring Expression Comprehension, Visual Entailment)와 9개의 데이터셋에서 당시 SOTA 성능을 달성했습니다.
  • Ablation Study를 통한 핵심 아이디어 검증:
    • Table 2의 실험 결과, Conditional Masking을 적용했을 때(Row 10, Meta-Sum: 399.97) 적용하지 않았을 때(Row 12, Meta-Sum: 396.51)보다 일관되게 성능이 향상됨을 보였습니다.
    • WRA를 추가했을 때(Row 11) Meta-Sum 점수가 400.93으로 가장 높았으며, 특히 VQA와 RefCOCO+ 같은 fine-grained reasoning task에서 성능 향상이 두드러졌습니다.
  • 모델 효율성 증명: UNITER-base (86M 파라미터) 모델이 LXMERT (183M), ViLBERT (221M) 같은 훨씬 큰 모델들보다 대부분의 task에서 더 높은 성능을 기록했습니다. 이는 제안된 pre-training 방식의 우수성을 보여주는 강력한 증거입니다.
  • Task 적응 유연성: NLVR² task(이미지 2개 입력)에 대해서도, pre-trained 모델 위에 간단한 bi-attention layer를 추가하는 최소한의 수정만으로 SOTA를 달성하여 모델의 유연성과 범용성을 입증했습니다.

Limitations and Future Work

  • Limitations:
    • 모델의 시각적 입력이 raw image pixel이 아니라, 사전에 학습된 object detector(Faster R-CNN)를 통해 추출된 region feature에 의존합니다. 이는 object detector의 성능에 모델 전체 성능이 제약을 받고, 이미지와 텍스트 간의 더 초기 단계(low-level) 상호작용을 포착할 기회를 놓치게 만듭니다.
  • Future Work:
    • 위의 한계점을 극복하기 위해, **raw image pixel과 문장 token 간의 초기 상호작용(early interaction)**을 직접 학습하는 연구를 진행할 것을 제안합니다.
    • 현재 제안된 4가지 task 외에, V+L representation 학습을 위한 더 효과적인 pre-training task들을 개발하는 방향을 제시합니다.

Overall Summary

UNITER는 다양한 V+L task에 적용 가능한 범용(universal) representation을 학습하기 위한 pre-training 프레임워크입니다. 이 모델은 Conditional MaskingOptimal Transport 기반의 Word-Region Alignment라는 독창적인 pre-training task를 통해, 이미지와 텍스트 간의 세밀하고 정확한 alignment 학습 능력을 극대화했습니다. 그 결과, 더 적은 파라미터를 가진 효율적인 single-stream 구조만으로도 다수의 벤치마크에서 SOTA를 달성하며 V+L pre-training 연구의 새로운 기준을 제시했습니다.

 

 

 

Abstract

Joint image-text embedding은 대부분의 Vision-and-Language (V+L) tasks의 기반이며, 여기서는 multimodality inputs이 joint visual 및 textual understanding을 위해 동시에 처리됩니다. 본 paper에서는 네 개의 image-text datasets (COCO, Visual Genome, Conceptual Captions, SBU Captions)에 대한 large-scale pre-training을 통해 학습된 UNiversal Image-TExt Representation인 UNITER를 소개합니다. 이는 joint multimodal embeddings을 사용하여 이질적인 downstream V+L tasks를 지원할 수 있습니다.

우리는 네 가지 pre-training tasks를 design합니다: Masked Language Modeling (MLM), 세 가지 variants를 가진 Masked Region Modeling (MRM), Image-Text Matching (ITM), 그리고 Word-Region Alignment (WRA). 두 modalities에 joint random masking을 적용하는 이전 work와 달리, 우리는 pre-training tasks에 conditional masking을 사용합니다 (즉, masked language/region modeling은 image/text의 전체 관찰에 conditioned됩니다).

global image-text alignment를 위한 ITM 외에도, pre-training 중에 words와 image regions 간의 fine-grained alignment를 명시적으로 장려하기 위해 Optimal Transport (OT)를 사용하는 WRA를 제안합니다. 포괄적인 analysis는 conditional masking과 OT-based WRA 모두 더 나은 pre-training에 기여한다는 것을 보여줍니다. 우리는 또한 pre-training tasks의 optimal combination을 찾기 위해 철저한 ablation study를 수행합니다.

광범위한 experiments는 UNITER가 Visual Question Answering, Image-Text Retrieval, Referring Expression Comprehension, Visual Commonsense Reasoning, Visual Entailment, NLVR2를 포함한 6개의 V+L tasks (9개 이상의 datasets에 걸쳐)에서 새로운 state-of-the-art를 달성했음을 보여줍니다.

 

 

 

 

더보기

1. UNITER Model의 전체 구조

  • Input Embedders (좌측 & 우측 상단): 이미지는 Image Embedder를 통해, 텍스트는 Text Embedder를 통해 각각의 embedding으로 변환됩니다.
  • Transformer (중앙 상단): 이미지와 텍스트 embedding이 결합되어 Transformer의 입력으로 들어갑니다. Transformer는 이 결합된 sequence를 처리하여 이미지와 텍스트 간의 관계를 학습하고, 문맥을 이해하는 representation을 생성합니다.
  • Pre-training Tasks (하단): Transformer가 학습한 representation은 세 가지 유형의 pre-training tasks를 수행하는 데 사용됩니다.

2. 세부 구성 요소

Image Embedder (좌측 상단)

이미지를 feature로 변환하는 부분입니다.

  1. 이미지 내의 객체들(예: 사람, 가방, 개, 소파)을 R-CNN과 같은 model을 사용하여 탐지하고 각 객체 영역(region)의 Image Feature와 위치 정보(Location)를 추출합니다.
  2. 이 두 feature는 각각 FC (Fully Connected) layer를 통과한 후 합쳐지고 LN (Layer Normalization)을 거쳐 최종 image embedding이 됩니다.

Text Embedder (우측 상단)

문장("man with his dog on a couch")을 feature로 변환하는 부분입니다.

  1. 문장을 단어 단위(Token)로 분할하고 각 단어의 순서(Position) 정보를 얻습니다.
  2. Token과 Position 정보는 각각 Embedding layer (Emb)를 통해 vector로 변환된 후 합쳐지고, LN을 거쳐 최종 text embedding이 됩니다.

3. Pre-training Tasks

Transformer를 학습시키기 위한 네 가지 목표 tasks 중, 다이어그램은 아래 세 가지를 보여줍니다.

  1. Masked Language Modeling (MLM) (좌측 하단)
    • 입력 문장의 일부 단어(여기서는 'dog')를 특수한 [MASK] token으로 가립니다.
    • Model은 전체 이미지와 주변 단어들을 보고 가려진 단어가 무엇인지 예측하도록 학습합니다.
  2. Masked Region Modeling (MRM) (중간 하단)
    • 입력 이미지의 일부 영역(여기서는 'dog' 이미지)을 가립니다.
    • Model은 전체 텍스트와 주변 이미지 영역들을 보고 가려진 영역의 feature가 무엇인지 예측하도록 학습합니다.
  3. Word Region Alignment (WRA) + Image-Text Matching (ITM) (우측 하단)
    • ITM: Model이 주어진 이미지와 텍스트가 서로 연관이 있는지(0 또는 1)를 판단하도록 학습합니다.
    • WRA: 단어와 이미지 내 특정 영역 간의 세밀한 alignment(정렬)를 학습합니다. 다이어그램의 행렬은 어떤 단어가 어떤 이미지 영역과 가장 관련이 깊은지를 나타냅니다.

요약하자면, 이 다이어그램은 UNITER가 이미지와 텍스트를 각각의 embedding으로 변환하고, 이를 Transformer에 입력하여 강력한 joint representation을 학습하는 과정을 보여줍니다. 그리고 이 학습은 MLM, MRM, WRA, ITM과 같은 pre-training tasks를 통해 이루어집니다.

 

 

1 Introduction

더보기

대부분의 Vision-and-Language (V+L) tasks는 이미지와 텍스트의 visual 및 textual 단서 사이의 semantic gap을 메우기 위해 joint multimodel embeddings에 의존하지만, 이러한 representations는 일반적으로 특정 tasks에 맞춰져 있습니다. 예를 들어, MCB, BAN, DFAF는 Visual Question Answering (VQA)를 위한 고급 multimodal fusion methods를 제안했습니다. SCAN과 MAttNet은 Image-Text Retrieval과 Referring Expression Comprehension을 위해 words와 image regions 간의 latent alignment를 learning하는 것을 연구했습니다. 이 models 각각이 각자의 benchmarks에서 state of the art를 발전시켰지만, 그 architectures는 다양하고 학습된 representations는 매우 task-specific하여 다른 tasks에 generalizable되기 어렵습니다. 이는 다음과 같은 중요한 질문을 제기합니다: 모든 V+L tasks를 위한 universal image-text representation을 learn할 수 있을까?

이러한 정신으로, 우리는 joint multimodal embedding을 위한 large-scale pre-trained model인 UNiversal Image-TExt Representation (UNITER)를 소개합니다. 우리는 contextualized representations learning을 위해 설계된 우아한 self-attention mechanism을 활용하기 위해 Transformer를 우리 model의 핵심으로 채택합니다. large-scale language modeling을 통해 Transformer를 NLP tasks에 성공적으로 적용한 BERT에서 영감을 받아, 우리는 네 가지 pre-training tasks를 통해 UNITER를 pre-train합니다: (i) image에 conditioned된 Masked Language Modeling (MLM); (ii) text에 conditioned된 Masked Region Modeling (MRM); (iii) Image-Text Matching (ITM); (iv) Word-Region Alignment (WRA). MRM의 효과를 더 조사하기 위해, 우리는 세 가지 MRM variants를 제안합니다: (i) Masked Region Classification (MRC); (ii) Masked Region Feature Regression (MRFR); (iii) KL-divergence를 이용한 Masked Region Classification (MRC-kl).

Figure 1에서 볼 수 있듯이, UNITER는 먼저 Image Embedder와 Text Embedder를 사용하여 image regions (visual features와 bounding box features)와 textual words (tokens와 positions)를 공통 embedding space로 encodes합니다. 그런 다음, 잘 설계된 pre-training tasks를 통해 각 region과 각 word에 대한 generalizable한 contextualized embeddings을 learn하기 위해 Transformer module이 적용됩니다. multimodal pre-training에 대한 이전 work와 비교하여: (i) 우리의 masked language/region modeling은 두 modalities에 joint random masking을 적용하는 대신 image/text의 전체 관찰에 conditioned됩니다; (ii) 우리는 words와 image regions 간의 fine-grained alignment를 명시적으로 장려하기 위해 Optimal Transport (OT)를 사용하는 새로운 WRA pre-training task를 도입합니다. 직관적으로, OT-based learning은 한 distribution을 다른 distribution으로 transporting하는 cost를 minimizing하여 distribution matching을 optimize하는 것을 목표로 합니다. 우리의 context에서, 우리는 문장 내 image regions에서 words로 (또는 그 반대로) embeddings을 transporting하는 cost를 minimize하여 더 나은 cross-modal alignment를 향해 optimizing하는 것을 목표로 합니다. 우리는 conditional masking과 OT-based WRA가 images와 text 사이의 misalignment를 성공적으로 완화하여 downstream tasks를 위한 더 나은 joint embeddings로 이어진다는 것을 보여줍니다.

UNITER의 generalizable power를 입증하기 위해, 우리는 9개 datasets에 걸쳐 6개의 V+L tasks에서 evaluate합니다: (i) VQA; (ii) Visual Commonsense Reasoning (VCR); (iii) NLVR2; (iv) Visual Entailment; (v) Image-Text Retrieval (zero-shot setting 포함); (vi) Referring Expression Comprehension. 우리의 UNITER model은 네 개의 subsets으로 구성된 large-scale V+L dataset에서 trained됩니다: (i) COCO; (ii) Visual Genome (VG); (iii) Conceptual Captions (CC); (iv) SBU Captions. Experiments는 UNITER가 모든 9개의 downstream datasets에서 상당한 performance boost와 함께 새로운 state of the art를 달성했음을 보여줍니다. 더욱이, 추가적인 CC 및 SBU data(downstream tasks에서 보지 못한 images/text 포함)에 대한 training은 COCO와 VG에서만 training하는 것보다 model performance를 더욱 향상시킵니다.

우리의 contributions는 다음과 같이 요약됩니다: (i) V+L tasks를 위한 강력한 UNiversal Image-TExt Representation인 UNITER를 소개합니다. (ii) masked language/region modeling을 위한 Conditional Masking을 제시하고, pre-training을 위한 새로운 Optimal-Transport-based Word-Region Alignment task를 제안합니다. (iii) 우리는 광범위한 V+L benchmarks에서 새로운 state of the art를 달성하여 기존 multimodal pre-training methods를 큰 차이로 outperforming합니다. 우리는 또한 multimodal encoder training을 위한 각 pre-training task/dataset의 effectiveness에 대한 유용한 insights를 제공하기 위해 광범위한 experiments와 analysis를 제시합니다.

UNITER "Introduction" 섹션 정리노트 (For AI Researchers)

1. 문제 제기 (Problem)

  • 기존 Vision-and-Language (V+L) models은 특정 task (예: VQA, Image-Text Retrieval)에 고도로 특화(task-specific)되어 architecture가 파편화되어 있고, 다른 task에 대한 generalizable representation을 학습하지 못함.

2. 제안 해결책 (Proposed Solution)

  • 모든 V+L tasks에 적용 가능한 Universal Image-TExt Representation (UNITER) model 제안.
  • Transformer architecture를 기반으로 한 large-scale pre-trained model.

3. 핵심 차별점 및 기여 (Key Contributions & Differentiators)

  • Conditional Masking:
    • 기존 multimodal pre-training 방식들이 image와 text 양쪽에 joint random masking을 적용한 것과 차별됨.
    • Masked Language Modeling (MLM)은 전체 image를 condition으로, Masked Region Modeling (MRM)은 전체 text를 condition으로 하여 pre-training을 수행. 이는 cross-modal 문맥 이해를 더 효과적으로 학습시킴.
  • 새로운 Pre-training Task: Word-Region Alignment (WRA):
    • Optimal Transport (OT) 개념을 도입한 새로운 pre-training task.
    • Words와 image regions 사이의 fine-grained alignment를 명시적으로 학습하는 것을 목표로 함.
    • Image regions의 embedding을 text의 word embeddings으로 transporting 하는 cost를 최소화함으로써 cross-modal alignment를 최적화.
  • 네 가지 Pre-training Tasks 조합:
      1. Conditional MLM
      1. Conditional MRM (3가지 variants 제시: MRC, MRFR, MRC-kl)
      1. Image-Text Matching (ITM)
      1. Word-Region Alignment (WRA)
  • 대규모 학습 및 검증:
    • 4개의 대규모 datasets (COCO, VG, CC, SBU)를 통합하여 pre-training 수행.
    • 6개의 V+L tasks (VQA, VCR, NLVR2, Visual Entailment, Image-Text Retrieval, Referring Expression Comprehension)와 9개의 datasets에서 state-of-the-art를 달성하며 generalizable power를 입증함.

쉬운 설명 :

이 논문의 Introduction 섹션은 "하나를 배우면 열을 아는 AI"를 만들고 싶다는 이야기로 시작합니다.

기존에는 AI에게 '사진을 보고 질문에 답하는 법'(VQA)을 가르치면, 그 AI는 그 일만 잘할 뿐 '글에 해당하는 물건을 사진에서 찾는' 것과 같은 다른 일은 못 했습니다. 각기 다른 작업을 시키려면 완전히 새로운 AI를 따로 만들어야 했죠.

그래서 연구팀은 UNITER라는 "만능 AI"를 제안합니다. 이 AI는 하나의 model로 이미지와 텍스트를 함께 이해하는 범용적인 능력을 미리 학습합니다. 이렇게 pre-training된 model은 나중에 어떤 V+L 작업이 주어져도 약간의 추가 학습만으로 높은 성능을 낼 수 있습니다.

UNITER를 똑똑하게 만들기 위해 독특한 학습 방식을 사용합니다.

  1. 조건부로 가리고 맞추기: AI에게 사진 전체를 보여준 채 문장의 빈칸을 맞추게 하거나(MLM), 문장 전체를 보여준 채 사진의 일부를 가리고 그 부분이 무엇인지 맞추게 합니다(MRM). 한쪽의 전체 정보를 단서로 다른 쪽의 일부를 추론하게 만들어, 이미지와 텍스트의 관계를 더 깊이 이해하도록 훈련시키는 것입니다.
  2. 단어와 이미지 영역 짝지어주기: AI에게 사진과 문장을 주고, 문장의 각 단어가 사진의 어떤 부분과 가장 관련이 깊은지 '선을 긋는' 것과 같은 세밀한 alignment 학습(WRA)을 시킵니다. 이를 통해 단순히 '이 사진은 고양이 사진' 수준을 넘어 '사진 속 갈색 고양이가 소파 위에 있다'처럼 구체적인 연결고리를 학습하게 됩니다.

결론적으로, UNITER는 이런 특별한 학습법 덕분에 이미지와 텍스트 사이의 관계를 매우 깊고 세밀하게 이해하는 universal representation을 갖추게 되었고, 여러 종류의 task에서 최고의 성능을 보였습니다.

 

 

2 Related Work

더보기

Self-supervised learning은 원본 data를 자체 supervision의 소스로 활용하며, image colorization, jigsaw puzzles 풀기, inpainting, rotation prediction, relative location prediction과 같은 많은 Computer Vision tasks에 적용되어 왔습니다. 최근에는 ELMo, BERT, GPT2, XLNet, RoBERTa, ALBERT와 같은 pre-trained language models이 NLP tasks에서 큰 발전을 이끌었습니다. 그들의 성공에는 두 가지 핵심 요소가 있습니다: 대규모 language corpus에 대한 효과적인 pre-training tasks와, contextualized text representations를 learning하기 위한 Transformer의 사용입니다.

더욱 최근에는 large-scale image/video와 text pairs에 대해 pre-training한 후 downstream tasks에 finetuning하는 방식으로 multimodal tasks를 위한 self-supervised learning에 대한 관심이 급증하고 있습니다. 예를 들어, VideoBERT와 CBT는 video-text pairs로부터 video frame features와 linguistic tokens에 대한 joint distribution을 learn하기 위해 BERT를 적용했습니다. ViLBERT와 LXMERT는 두 개의 Transformers가 images와 text에 독립적으로 적용되고, 나중에 세 번째 Transformer에 의해 fused되는 two-stream architecture를 도입했습니다. 반면에 B2T2, VisualBERT, Unicoder-VL, VL-BERT는 단일 Transformer가 images와 text 모두에 적용되는 single-stream architecture를 제안했습니다. VLP는 pre-trained models을 image captioning과 VQA 모두에 적용했습니다. 더 최근에는 performance를 더욱 향상시키기 위해 multi-task learning과 adversarial training이 사용되었습니다. VALUE는 pre-trained models을 understand하기 위한 일련의 probing tasks를 개발했습니다.

Our Contributions

우리 UNITER model과 다른 methods 간의 주요 차이점은 두 가지입니다: (i) UNITER는 MLM과 MRM에 conditional masking을 사용합니다. 즉, 한 modality만 masking하고 다른 쪽은 그대로 둡니다. 그리고 (ii) Optimal Transport를 사용하는 새로운 Word-Region Alignment pre-training task가 있습니다. 반면 이전 work에서는 이러한 alignment가 task-specific losses에 의해서만 암묵적으로 강제되었습니다. 추가적으로, 우리는 철저한 ablation study를 통해 pre-training tasks의 최상의 combination을 검토하고, 여러 V+L datasets에서 새로운 state of the art를 달성했으며, 종종 이전 work를 큰 차이로 outperforming합니다.

 

 

 

 

UNITER "Related Work" 섹션 정리노트 (For AI Researchers)

1. 연구 동향 (Current Trends)

  • 이 연구는 NLP 분야에서 BERT와 같은 Transformer 기반 pre-trained language models의 성공을 Multimodal 영역으로 확장하려는 최신 연구 흐름에 속함.
  • 핵심 paradigm은 대규모 이미지-텍스트 쌍으로 self-supervised pre-training을 수행한 뒤, 특정 downstream tasks에 finetuning 하는 것임.

2. 기존 Multimodal Pre-training Architectures

  • 논문은 기존 연구들을 크게 두 가지 architecture로 분류함. UNITER는 single-stream에 속하며, 해당 계열 model들과 직접 비교됨.
    • Two-stream Architecture: Vision과 Language input을 각각 별도의 Transformer로 처리한 후, 후반 layer에서 cross-modal fusion을 수행. (예: ViLBERT, LXMERT)
    • Single-stream Architecture: Vision과 Language input features를 하나의 sequence로 합쳐 단일 Transformer로 처리. (예: VisualBERT, VL-BERT, Unicoder-VL)

3. UNITER의 핵심 차별점 (Key Differentiators from Prior Work)

  • 이 논문은 기존 single-stream models들과 비교하여 다음 두 가지 핵심적인 차별점을 강조함.
    1. 학습 방식의 차이: Conditional Masking
      • 기존 model들이 image와 text 양쪽에서 무작위로 masking을 수행하는 것과 달리, UNITER는 한쪽 modality는 온전하게 유지한 채 다른 한쪽 modality만 masking하는 Conditional Masking을 사용.
      • 이는 cross-modal 정보를 더 명확한 condition으로 활용하여 representation 학습의 효율성을 높임.
    2. 새로운 학습 목표: Optimal Transport 기반 Word-Region Alignment (WRA)
      • 기존 연구들에서 word-region alignment는 downstream tas k-specific losses를 통해 암묵적으로(implicitly) 학습되었음.
      • UNITER는 Optimal Transport를 이용해 alignment 자체를 명시적인(explicit) pre-training task로 설계함. 이는 fine-grained alignment 능력을 직접적으로 강화하기 위한 새로운 시도임.

4. 결론

  • UNITER는 기존 연구들, 특히 single-stream 계열 model들의 아이디어를 발전시키되, Conditional Masking과 명시적인 Alignment 학습(WRA)이라는 새로운 pre-training 전략을 도입함.
  • 철저한 ablation study를 통해 이 전략들의 효과를 증명하고, 다수의 벤치마크에서 기존 work들을 큰 차이로 능가하며 state-of-the-art를 달성했다고 주장함.

쉬운 설명 :

이 섹션은 UNITER가 어떤 연구 분야에 속해 있고, 기존의 다른 AI 모델들과 무엇이 다른지를 설명하는 부분입니다.

AI 연구의 큰 흐름 최근 AI 연구의 유행은 '스스로 학습(self-supervised learning)'하는 것입니다. 예를 들어 AI에게 인터넷의 모든 글을 읽게 하고 중간중간 빈칸을 뚫어놓고 맞추게 하면, AI는 스스로 문맥을 이해하는 법을 터득합니다. 이 방법은 글만 다루는 AI(NLP) 분야에서 엄청난 성공을 거두었습니다.

새로운 도전: 그림과 글을 함께 이해하기 이제 연구자들은 이 성공적인 방법을 그림과 글을 동시에 이해해야 하는 '멀티모달(multimodal)' 분야에 적용하고 있습니다. UNITER도 바로 이 분야의 최신 AI 모델 중 하나입니다.

기존 AI 모델들 (UNITER의 형제들) 이 분야에는 크게 두 종류의 AI가 있었습니다.

  1. 두뇌가 두 개인 AI (Two-stream): 한쪽 뇌는 그림만 보고, 다른 쪽 뇌는 글만 읽은 다음, 두 뇌가 서로 정보를 교환해서 결론을 내립니다.
  2. 두뇌가 하나인 AI (Single-stream): 하나의 강력한 뇌가 그림 조각들과 단어들을 한꺼번에 넣고 종합적으로 처리합니다. UNITER는 여기에 속합니다.

UNITER는 무엇이 특별한가? UNITER는 같은 '하나의 두뇌'를 가진 형제 AI들과 비교해 두 가지 결정적인 차이가 있습니다.

  1. 더 똑똑한 빈칸 맞히기 퀴즈 (Conditional Masking): 다른 AI들이 그림과 글 양쪽에서 마구잡이로 빈칸을 만들었다면, UNITER는 퀴즈를 더 전략적으로 냅니다. 그림 전체를 힌트로 주면서 문장의 빈칸을 맞추게 하거나, 문장 전체를 힌트로 주면서 그림의 가려진 부분을 맞추게 합니다. 이렇게 하면 힌트가 명확해서 더 잘 배울 수 있습니다.
  2. '숨은 그림과 단어 짝짓기' 훈련 (Word-Region Alignment): 기존 AI들은 '고양이'라는 단어가 사진 속 고양이와 관련 있다는 것을 여러 작업을 통해 눈치껏 배우길 바랐습니다. 하지만 UNITER는 아예 학습 과정에서 '고양이' 단어와 사진 속 고양이 그림을 직접 짝짓는 훈련을 명시적으로 받습니다. 덕분에 훨씬 더 정확하고 세밀한 이해가 가능해집니다.

결론적으로, 이 섹션은 UNITER가 기존 AI들의 좋은 점을 이어받으면서도, 더 효과적인 학습 방법들을 도입하여 성능을 크게 끌어올린, 한 단계 진화한 모델이라고 설명하고 있습니다.

 

UNITER "Representation" 섹션 정리노트 (For AI Researchers)

1. Model Architecture & Input Representation

  • Architecture: Single-stream Transformer 기반. Image와 Text embeddings를 concatenate하여 단일 Transformer에 입력.
  • Image Embedding:
    • Faster R-CNN으로 object regions(ROI features) 탐지.
    • 각 region의 visual feature와 7차원 location feature를 각각 FC layer로 project한 후, 합산하고 Layer Normalization (LN) 적용.
  • Text Embedding:
    • BERT와 동일. WordPiece tokenization 후, word embedding과 position embedding을 합산하고 LN 적용.

2. Pre-training Tasks (핵심 내용)

  • 전략: Mini-batch 마다 4개의 task 중 하나를 무작위로 sample하여 SGD update 당 하나의 objective로만 학습.
  • 핵심 아이디어: Conditional Masking
    • MLM과 MRM 수행 시, 한 번에 한 modality만 masking함. (예: MLM 시 image는 온전하게, MRM 시 text는 온전하게).
    • 이는 masked word와 masked region이 우연히 일치하여 signal이 손상되는 misalignment 문제를 방지하기 위함.
  • 4가지 Tasks 상세:
    1. Masked Language Modeling (MLM): Image 전체를 condition으로 masked word 예측. 표준적인 cross-entropy loss 사용.
    2. Image-Text Matching (ITM): [CLS] token의 final representation을 사용해 image-text 쌍이 일치하는지(positive) 불일치하는지(negative) 이진 분류. 표준적인 binary cross-entropy loss 사용.
    3. Word-Region Alignment (WRA) - Novelty:
      • Word embeddings와 region embeddings 사이의 fine-grained alignment를 명시적으로 학습.
      • Optimal Transport (OT) 문제로 alignment를 공식화. Image embedding distribution을 text embedding distribution으로 옮기는 최소 cost를 계산.
      • Cost 함수로는 cosine distance를 사용. 계산 효율성을 위해 IPOT algorithm으로 근사함. 이 OT distance 자체가 loss가 됨.
    4. Masked Region Modeling (MRM) - Novelty:
      • Text 전체를 condition으로 masked region의 visual feature를 복원. Visual feature는 연속적인 고차원 벡터이므로, 세 가지 objective를 제안 및 비교함.
      • MRFR (Feature Regression): Transformer output을 원본 ROI feature로 L2 regression.
      • MRC (Classification): Detector가 예측한 object class 중 가장 확률이 높은 하나를 hard label로 삼아 cross-entropy loss로 학습. (일종의 pseudo-labeling)
      • MRC-kl (Classification with KL): Detector가 예측한 class distribution 전체를 soft label로 사용. Detector의 지식을 distill하기 위해 KL-Divergence loss를 최소화.

3. Pre-training Datasets

  • 구성: 4개의 데이터셋(COCO, VG, CC, SBU)을 사용.
  • 분류:
    • In-domain: COCO, VG. 대부분의 downstream task가 이 데이터셋 기반이므로.
    • Out-of-domain: CC, SBU. 더 많은 데이터로 일반화 성능 향상 목적.
  • 데이터 처리: Downstream task의 validation/test set과 겹치지 않도록 image를 철저히 필터링하여 "공정한" split을 구성. 총 5.6M개의 image-text 쌍을 사용.

쉬운 설명 :

이 섹션은 UNITER라는 AI 모델의 "레시피"를 상세하게 설명하는 부분입니다. AI를 어떻게 만들고, 무엇을 가르치는지에 대한 이야기입니다.

1. 재료 손질 (Input 만들기)

AI에게 그림과 글을 그냥 줄 수는 없습니다. AI가 알아들을 수 있는 형태로 '손질'해야 합니다.

  • 그림 손질 (Image Embedder): 사진 속에서 중요한 물체(사람, 강아지 등)를 모두 찾아내고, 각 물체가 어떻게 생겼는지, 어디에 있는지를 숫자로 된 정보(feature)로 바꿉니다.
  • 글 손질 (Text Embedder): 문장을 단어 조각(WordPiece)으로 잘게 나누고, 각 단어의 의미와 문장에서의 순서 정보를 숫자로 바꿉니다.

2. 요리하기 (Transformer로 학습하기)

손질된 그림 정보와 글 정보를 하나의 거대한 믹서기(Transformer)에 함께 넣고 돌립니다. 이 믹서기는 두 재료를 아주 잘 섞어서, 어떤 단어가 그림의 어떤 부분과 관련이 있는지 깊은 관계를 학습하게 됩니다.

3. 특별 과외 시키기 (Pre-training Tasks)

AI를 더 똑똑하게 만들기 위해, 4가지 종류의 특별 과외(학습)를 시킵니다.

  1. 단어 빈칸 채우기 (MLM): 그림 전체를 보여주면서 "강아지를 안고 있는 남자"라는 문장에서 '[강아지]' 부분을 가리고 맞추게 합니다. AI는 그림을 보고 빈칸을 추론하며 단어와 그림의 관계를 배웁니다.
  2. 그림 빈칸 채우기 (MRM): 문장 전체를 보여주면서 그림의 '강아지' 부분을 지우고 그 부분이 무엇이었는지 맞추게 합니다. AI는 문장을 보고 그림의 내용을 상상하는 법을 배웁니다. 특히 이 논문에서는 그림을 맞추는 세 가지 다른 방법(특징 자체를 복원하기, 물체 이름 맞추기, 물체일 확률 맞추기)을 시도합니다.
  3. 짝꿍 찾기 게임 (ITM): 그림과 문장을 보여주고 "이 둘은 서로 짝이 맞니?"라고 물어봅니다. AI는 전체적인 맥락을 이해하는 법을 배웁니다.
  4. 꼼꼼하게 연결하기 (WRA): UNITER의 가장 독특한 과외 방식입니다. "문장의 '강아지'라는 단어는 그림의 어느 부분에 가장 가깝니?"처럼, 단어와 그림의 각 부분을 1대1로 연결하는 훈련을 시킵니다. 이는 AI가 매우 세밀하고 정확하게 내용을 이해하도록 돕습니다.

4. 교재 (학습 데이터)

이런 과외를 위해 수백만 장의 그림과 문장 쌍이 담긴 교재(Datasets)를 사용합니다. 일부는 VQA 같은 시험 문제와 비슷한 유형의 교재(In-domain)이고, 일부는 웹에서 가져온 더 다양하고 일상적인 내용의 교재(Out-of-domain)를 함께 사용해 실전 능력을 키웁니다.