AI바라기의 인공지능
LLM / VLM : 논문리뷰 : Pixel Aligned Language Models 본문
Abstract
Large language models은 최근 몇 년 동안 큰 성공을 거두었고, vision 분야에서도 그 변형 모델들이 마찬가지입니다.
기존의 vision-language models은 이미지를 자연어로 설명하거나, 시각 관련 질문에 답하거나, 이미지에 대한 복잡한 추론을 수행할 수 있습니다.
그러나 word grounding 또는 referring localization과 같은 localization 작업을 large language models을 사용하여 어떻게 수행할 수 있는지는 아직 명확하지 않습니다.
이 연구에서는 위치(예: 점 또는 상자 집합)를 입력 또는 출력으로 사용할 수 있는 vision-language model을 개발하는 것을 목표로 합니다.
위치를 입력으로 사용할 때 모델은 location-conditioned captioning을 수행하여 표시된 객체 또는 영역에 대한 캡션을 생성합니다.
위치를 출력으로 생성할 때, 우리 모델은 language model에 의해 생성된 각 출력 단어에 대해 픽셀 좌표를 회귀하여 dense word grounding을 수행합니다.
우리 모델은 사람의 attention에서 얻은 픽셀-단어 정렬 캡션을 포함하는 Localized Narrative dataset에서 사전 학습됩니다.
우리는 우리 모델이 referring localization, location-conditioned captioning 및 dense object captioning을 포함한 다양한 location-aware vision-language 작업에 적용될 수 있음을 보여주고, RefCOCO 및 Visual Genome에서 state-of-the-art 성능을 달성했음을 보여줍니다.
Introduction
아기가 손을 흔들고, 색색의 장난감을 가리키며, 장난감 이름을 외치는 모습을 상상해 보세요.
가리키고 이름을 말하는 것은 시각 세계를 묘사하고 시간에 따라 동기화되는 dense visual-language alignment를 제공하는 자연스럽고 편리한 방법입니다.
이러한 정보를 활용하여 vision-language alignment를 얻는 intelligent model을 설계할 수 있을까요?
이전 연구들은 다양한 vision-language 작업, 예를 들어 길고 상세한 설명을 생성하거나 대화를 생성하기 위해 시각 정보를 사전 학습된 LLMs에 정렬하려고 시도했습니다.
그러나 이러한 작업의 대부분은 전체 이미지를 입력으로 받아 모든 출력을 텍스트로 생성합니다. 특정 영역과 객체, 그리고 그것들의 정확한 위치에 대한 상세한 이해는 LLMs의 맥락에서 잘 연구되지 않았습니다.
우리는 이 목표를 달성할 수 있는 새로운 architecture와 training procedure를 제안하는 것을 목표로 합니다. 이는 중요한 연구 질문에 답하는 데 도움이 됩니다. large language models은 시각 세계로부터 spatial understanding과 reasoning을 얻을 수 있을까요? 만약 그렇다면, 어떻게?

그림 1. 우리는 large language models에 localization 능력을 부여하기 위해 Pixel-Aligned Language Model (PixelLLM)을 제안합니다.
이 모델은 각 단어에 픽셀 위치가 레이블링된 localized image captioning 데이터에서 사전 학습되어, 단어와 이미지 픽셀 간의 alignment를 학습합니다. PixelLLM은 다양한 localization tasks에 적용될 수 있습니다. 예를 들어, location을 입력으로 사용할 때 location-conditioned captioning을 수행하고, location을 출력으로 생성할 때 referring localization을 수행합니다.
이를 위해, 우리는 각 출력 단어를 픽셀 위치에 densely align하여 fine-grained localization 능력을 갖춘 vision-language model인 PixelLLM을 소개합니다.
language model의 word features 위에 작은 MLP를 추가하여 각 단어의 픽셀 위치로 regress하도록 함으로써 이를 실현합니다. language model의 weights는 frozen 상태로 유지되거나 Low-rank finetuning (LoRA)에 의해 업데이트될 수 있습니다. 또한, 우리 모델은 location prompt 또는 text prompt를 받아 prompt에 특정된 출력을 생성할 수 있습니다.
Fig. 1은 우리 모델이 수행하거나 적응할 수 있는 tasks를 보여줍니다.
우리는 Fig. 2에서 구체적인 architecture를 보여줍니다.

그림 2. PixelLLM architecture for pixel-aligned captioning 개요.
먼저 input location prompt (이 경우 global box prompt)와 input image를 각각 prompt encoder P와 image encoder V를 사용하여 인코딩합니다. 그런 다음 prompt feature l과 image feature f를 prompt feature extractor에 입력하여 location-specific visual feature fl을 추출합니다. 그 다음 large language model L은 이전 text tokens 및 visual feature를 조건으로 다음 text tokens를 auto-regressively 예측합니다. LLM의 vocabulary mapping layer 전에 token features에 간단한 MLP layer를 적용하여 각 text token의 좌표를 예측합니다. caption과 trace 사이의 alignment는 color gradient로 표현됩니다.
여기에는 image encoder, prompt encoder, 그리고 prompt-conditioned image features를 text embedding space에 매핑하는 prompt feature extractor가 포함됩니다.
이러한 prompt-conditioned image features와 선택적인 text prompt는 large-language model의 prefix로 직접 입력되며, 이 모델은 captioning과 per-word localization 출력을 생성합니다. 우리는 이 architecture가 일반적이며 language 또는 location을 입력 또는 출력으로 사용하는 다양한 vision-language tasks에 적응할 수 있음을 보여줍니다.
우리 모델은 학습을 위해 dedicated word-pixel aligned data를 필요로 하지만, 이러한 annotations은 이미 대규모로 존재한다는 점에 주목합니다. localized narratives dataset은 주어진 이미지를 설명하는 사람 annotator의 annotations과 설명하는 동안 annotator의 attention에 대한 mouse trajectory를 포함합니다. 이는 narration sentence의 모든 단어에 대해 synchronized locations를 제공하며, 이는 우리 모델을 학습하는 데 사용될 수 있습니다. 모든 word-location pair가 시각적으로 의미 있거나 정확한 것은 아니지만, 실제 사람의 attention에서 비롯된 것이므로 valuable하다고 주장합니다.
우리는 downstream datasets에 대한 fine-tuning과 architecture를 조정하여, RefCOCO의 referring localization, RefCOCO 및 Visual Genome의 location conditioned captioning, 그리고 Visual Genome의 dense object captioning을 포함한 인기 있는 vision tasks에 대해 모델을 평가합니다.
우리 모델은 모든 tasks에서 state-of-the-art 성능을 달성하며, RefCOCO referring localization에서 89.8 P@0.5, Visual Genome conditioned captioning에서 19.9 CIDEr, dense object captioning에서 17.0 mAP를 기록했습니다. RefCOCO에 대한 Ablations (Tab. 4)는 dense per-pixel localization formulation이 높은 성능의 핵심이며, alternative localization formulations에 비해 3.7 포인트 향상되었음을 보여줍니다.
우리의 contributions는 다음과 같이 요약됩니다.
- 우리는 입력 이미지에 대한 caption과 각 단어의 localization을 함께 출력하는 vision-language model인 PixelLLM을 소개합니다. PixelLLM은 이미지를 입력으로 받고, 선택적으로 location prompt 또는 text prompt를 받습니다.
- 우리 모델은 per-word localization을 위해 이미지 caption과 각 단어를 localize하는 trajectories를 포함하는 dedicated localized narrative dataset을 활용할 수 있습니다.
- 우리 모델은 유연하며 referring localization 및 segmentation, location-conditioned captioning, dense captioning을 포함한 다양한 vision-language tasks에 적용될 수 있으며, state-of-the-art 성능을 보입니다.
Related work
Large-scale vision and language models. 일반적으로 visual captioning 또는 question answering이 가능한 large vision and language models을 구축하는 것은 최근 연구 동향입니다.
Flamingo는 gating function을 통해 language models에 visual features를 삽입합니다.
BLIP는 learnable queries를 사용하여 vision features를 frozen large-language models에 연결합니다.
LLaVa는 instructional image-text pairs를 생성하여 large language models을 visual inputs에 distill합니다.
이러한 연구들의 대부분은 language-only outputs에 초점을 맞춥니다. language는 image-level tasks에 충분히 일반적이지만, region-level localization tasks는 더 어렵습니다. 우리의 연구는 기존의 vision-language models을 기반으로 하며, per-token regression head를 사용하여 localization 능력을 추가합니다.
Modeling locations in language models. large language models의 맥락에서 localization을 연구하는 것은 우리가 처음이 아닙니다.
PixSeq는 먼저 localization을 vocabulary의 spatial bin tokens로 모델링하고, object detection을 auto-regressive 문제로 다루는 것을 제안했습니다. 이 아이디어를 따라 UniTab은 bounding boxes bin tokens를 captions에 포함시켜, 출력에서 nouns를 볼 때 object locations를 예측할 수 있도록 합니다. Kosmos는 유사한 representation을 사용하고, grounding models을 distilling하여 interleaved location-caption datasets를 생성합니다. 우리 연구의 핵심적인 차이점은 localization representation입니다. 기존 연구들은 locations를 language model vocabulary의 단어로 모델링하려고 시도하는 반면, 우리는 regression representation을 사용합니다. 또한, 대부분의 기존 연구는 기존 모델에서 distilled data에 의존하는 반면, 우리의 representation은 Localized Narratives dataset에서 기존의 human annotation을 활용할 수 있도록 합니다.
Referring expression localization은 language and vision 분야에서 인기 있는 task이며, sentence query를 localize하는 것을 목표로 합니다. MDETR은 DETR 스타일의 cross-attention mechanism을 사용하여 이를 공식화하며, 여기서 language features는 queries이고 visual features는 keys입니다. UniTab은 box output을 language decoder의 follow-up spatial tokens로 통합합니다. Shikra는 large language model에 의해 생성된 raw string에서 직접 formatted bounding boxes를 추출합니다. 우리는 large-language model을 사용하여 language and vision features가 주어졌을 때 regression을 통해 이 task를 해결합니다.
Attention trajectory modeling은 localized narratives dataset에 의해 가능해진 새로운 task입니다. 이는 캡션을 annotate하는 동안 mouse trace에서 수집된 human attention의 trajectory에 길고 상세한 image caption을 align하는 것을 목표로 합니다. 이 task를 평가하는 유일한 기존 연구는 MITR이며, 이는 frozen region features에 linear layers를 학습시킵니다. 이는 효과적이지만, task-specific design으로 인해 MITR에서 학습된 knowledge는 다른 tasks로 transfer될 수 없습니다. 우리가 아는 한, 우리는 이 task를 위한 end-to-end training framework를 제안하고 대규모로 학습시키는 최초의 연구입니다.
Preliminary
입력 이미지 I가 주어졌을 때, 우리의 첫 번째 목표는 이미지 캡션 s, 즉 word tokens의 시퀀스를 생성하는 것입니다. 각 token wi는 vocabulary V를 indexing하는 정수입니다. 이 task는 image captioning으로 알려져 있으며, vision and language 연구에서 널리 연구되고 있습니다.
선택적으로, 모델이 집중해야 하는 영역이나 개념을 지정하기 위해 추가적인 prompt 입력을 받을 수 있습니다. prompts는 점들의 시퀀스 x 또는 box b, 또는 텍스트(word tokens의 시퀀스 t의 형태)로 표시되는 locations일 수 있습니다. 제안된 접근 방식을 소개하기 전에, standard image captioning 및 input prompt encoding에 대한 기존 기술을 검토합니다.
Image captioning은 입력 이미지 I가 주어졌을 때 sentence s를 생성합니다. 인기 있는 architectures는 먼저 image encoder V (예: ViT)를 사용하여 이미지를 feature f로 인코딩합니다. 여기서 N은 tokens의 수이고 C는 dimension size입니다. 그런 다음 f를 auto-regressive language model L에 입력합니다. language model은 vision feature 및 이전에 예측된 단어들을 조건으로 하여 단어 시퀀스를 한 번에 하나씩 생성합니다. language model의 architecture는 self-attention layers의 stack을 가진 decoder-only architecture이거나, cross-attention을 가진 encoder-decoder 쌍일 수 있습니다.
Prompt encoder. 이미지 입력 외에도, prompt encoders는 다른 입력 modalities를 image feature f와 동일한 feature space에 적용합니다. 우리는 SAM을 따라 sine-cosine position embedding과 linear layers로 구성된 location prompt encoder P를 사용하여 points 또는 box coordinates를 인코딩합니다. text prompt의 경우, GIT 및 BLIP를 따라 query word embedding을 visual features와 연결하여 language model의 prefix features로 사용합니다.
이러한 components를 사용하면 prompt-conditioned image captioning model을 구성할 수 있습니다. 그러나 아직 location outputs을 생성하는 것은 불가능합니다. 예를 들어, queried concept을 localize하거나 answer를 특정 region에 grounding하는 것 등입니다. 다음으로, per-token localization 능력을 vision-language models에 매끄럽게 통합하는 Pixel-Aligned Language Model을 소개합니다.
Pixel-Aligned Language Model
Localization은 컴퓨터 비전에서 다양한 형태로 연구되어 왔습니다. 예를 들어, vocabulary 집합이 주어졌을 때 모든 인스턴스를 localize하는 것 (object detection), natural language query를 localize하는 것 (referring localization), 또는 문장의 각 entity를 bounding box에 연결하는 것 (entity grounding) 등이 있습니다.
vision-language models 프레임워크 하에서, 우리는 localization을 출력 문장의 각 단어를 픽셀 위치에 align하는 것으로 공식화하는 것을 제안합니다. 구체적으로, 문장 출력 s 외에도, 우리는 문장과 동일한 길이의 점들의 시퀀스 p를 출력하며, 각 pi는 문장의 각각의 word token에 해당합니다. nouns만 region에 grounding될 수 있다고 하는 기존 연구와 달리, 우리는 모델이 non-visual tokens를 무시하도록 강제하지 않아서 모델이 "holding"과 같은 관계 용어도 학습할 수 있도록 합니다.
다음으로, 먼저 우리 architecture의 새로운 components를 소개합니다 (Sec. 4.1). 그런 다음 대규모 densely annotated datasets에서 어떻게 학습하는지 설명합니다 (Sec. 4.2). 마지막으로, 우리 architecture가 수정 없이 또는 약간의 수정만으로 다양한 localization tasks에 적용될 수 있음을 보여줍니다 (Sec. 4.3).
4.1. Architecture
Fig. 2는 우리 architecture의 개요를 제공합니다. 입력은 이미지 I와 선택적인 location prompt b입니다. location prompt가 제공되지 않으면, 이미지 전체의 global box prompt, 즉 b = (0, 0, H, W)를 사용합니다. 여기서 H와 W는 이미지 크기입니다. 그렇지 않으면, 모델은 prompt에 의해 표시된 locations에 집중할 것으로 예상됩니다. 출력은 sentence s와 그것의 aligned point trajectory p입니다.
위에서 소개된 image encoder V와 location prompt encoder P를 사용하여, image feature f = V(I)와 location prompt feature P(b)를 얻습니다. 여기서 f는 전체 이미지의 feature이며, prompt feature extractor E를 사용하여 location prompt에 의해 지정된 feature를 추출합니다.

여기서 fl은 location-specific visual feature입니다.
우리는 QFormer에서 영감을 받아, learnable tokens q를 가진 two-way transformer를 사용하여 prompt feature extractor E를 인스턴스화합니다. 구체적으로, two-way transformer는 각 layer에서 [P(b), q]와 f를 query 또는 key/value로 번갈아 사용하고, 마지막 layer에서 learnable token features를 사용합니다. 출력 feature fl은 location prompt b에 특정된 feature를 전달합니다. 개념적으로, prompt feature extractor는 ROIAlign과 유사한 기능을 하지만, learnable하며 feature interpolation 및 sampling을 필요로 하지 않습니다. 섹션 5.3.2에서 차이점을 비교하고 논의합니다.
Dense location outputs from language models. location-specific feature fl이 주어지면, auto-regressive decoding을 사용하여 language model에 입력하여 captioning을 수행할 수 있습니다: wi = L(fl, w1:i−1). language model의 마지막 linear layer는 vocabulary mapping layer이며, language feature space에서 one-hot vocabulary index로 매핑합니다. L−를 마지막 vocabulary mapping layer가 없는 language model이라고 하면, decoding process (간단하게 하기 위해 여기서는 greedy decoding을 보여줍니다)는 다음과 같이 다시 쓸 수 있습니다.

여기서 v는 linear vocabulary mapping layer의 weight입니다.
localization에 동일한 language features를 사용하기 위해, vocabulary mapping layer와 병렬로 작은 MLP를 추가하여 language feature를 2차원 location output에 매핑합니다.

원래 text decoding process에 영향을 주지 않도록 localization output을 auto-regressive decoding에 다시 입력하지 않습니다. location prediction은 language decoding과 함께 on the fly로 실행되며, computation overhead는 약간만 추가됩니다. 이 디자인은 language model에 구애받지 않으며, 원래 language generation 능력을 방해하지 않고 모든 language model에 적용될 수 있습니다. text prompt를 입력으로 사용하려면, text prompt word embeddings를 visual feature fl과 직접 연결합니다.
4.2. Training
우리는 human-annotated caption-location aligned dataset인 Localized Narrative (LN) 을 사용하여 모델을 학습시킵니다. Localized Narrative는 annotator들에게 주어진 이미지를 설명하는 동안 동시에 설명하는 영역 위로 마우스를 움직이도록 요청합니다. narration과 mouse trace는 동기화되어 narration의 각 단어의 위치를 제공합니다. mouse trace는 noisy할 수 있지만, dense location supervision을 얻는 저렴하고 효과적인 방법입니다. 따라서 이 dataset은 필요한 모든 triple annotations (I, s, p)를 포함합니다: 이미지 I, captioning sentence s, 그리고 location trajectory p.
우리는 captioning output을 학습하기 위해 standard label-smoothed cross-entropy loss를 사용하고, localization output을 학습하기 위해 L1 regression loss를 사용합니다:

여기서 pˆi는 i번째 단어에 대한 예측된 위치, λ는 localization loss weight, n은 caption 길이입니다.
4.3. Adapting to downstream vision tasks.
우리의 architecture는 text/location의 어떤 조합이든 입력 또는 출력으로 사용할 수 있으므로 다양한 location-related vision tasks에 적용될 수 있습니다. 이 섹션에서는 referring localization and segmentation, location-conditioned captioning, dense object captioning 세 가지 popular tasks에 대해 우리 architecture를 적용하는 예시를 보여줍니다.
Referring localization and segmentation은 이미지 I와 sentence query t를 입력으로 받아 query에 해당하는 bounding box ˆb를 생성하는 것을 목표로 합니다. 우리의 framework를 이 task에 적용하기 위해, location prompt를 global box로 설정하고 query sentence를 Eq. 3의 conditioned sentence로 사용합니다. 기본적으로 우리 모델은 single bounding box가 아닌 trajectory를 출력합니다. trajectory의 boundaries를 사용하여 bounding box를 형성할 수 있지만, trajectory boundaries는 평가에 필요한 tight object boundaries가 아니므로 이는 suboptimal하다는 것을 관찰했습니다. 따라서 token에서 정확한 object bounding box를 출력하도록 모델을 학습시키며, 동일한 regression MLP layers를 사용합니다. single box output을 로 사용합니다. 우리 모델은 이미 SAM 의 image backbone과 prompt encoder를 포함하고 있으므로, SAM의 mask decoder를 연결하기만 하면 segmentation mask를 얻을 수 있습니다. 따라서 우리 모델은 예측된 box ˆb 위에 mask를 생성하여 referring segmentation에도 사용될 수 있습니다.
Location-conditioned captioning은 이미지 I와 bounding box b를 location prompt로 받아 box query에서 표시된 object에 해당하는 caption sentence s_b를 생성합니다. 우리 모델은 per-word location output을 무시하면서 prompt encoder와 auto-regressive language model을 사용하여 이 task에 직접 적용될 수 있습니다.

Dense object captioning은 주어진 이미지에서 모든 objects를 먼저 detect한 다음 caption을 생성하는 것을 목표로 합니다. 우리의 framework는 기본적으로 objects를 detect하지 않습니다. bounding box candidates를 얻기 위해 image encoder 뒤에 proposal head를 추가합니다. 그런 다음 결과 bounding boxes를 location prompt에 각각 입력하여 각각에 대해 location-conditioned captioning을 수행합니다. 구체적으로, Simple Feature Pyramid [29]를 사용하여 visual features f를 pyramid of features로 upsample하고, detection을 위해 CenterNet [56] head를 사용합니다. detection losses와 caption losses를 함께 end-to-end 방식으로 모델을 fine-tune합니다.
방법론 총정리
