VLM : 논문리뷰 : Perception Tokens Enhance Visual Reasoning in Multimodal Language Models
Abstract
Multimodal language models (MLMs)은 여전히 전문화된 모델이 뛰어난 기본적인 visual perception 작업에서 어려움을 겪고 있습니다. 3D 구조에 대한 추론이 필요한 작업은 depth estimation의 이점을 얻고, 2D object instances에 대한 추론은 object detection의 이점을 얻습니다. 그러나 MLM은 추론할 intermediate depth 또는 boxes를 생성할 수 없습니다. 관련 데이터에 대한 MLM을 Finetuning하는 것은 일반화가 잘 되지 않으며, 전문화된 vision 도구에 계산을 맡기는 것은 compute-intensive하고 memory-inefficient합니다. 이를 해결하기 위해 language가 부족한 추론 작업을 지원하도록 설계된 intrinsic image representations인 Perception Tokens를 소개합니다. Perception tokens는 language model에서 chain-of-thought prompts와 유사하게 auxiliary reasoning tokens 역할을 합니다. 예를 들어, depth 관련 작업에서 perception tokens로 augmented된 MLM은 tokens로 depth map을 생성하여 추론함으로써 문제를 효과적으로 해결할 수 있습니다. visual input에 대한 추론을 개선하기 위해 MLM을 perception tokens로 augment하는 training method인 AURORA를 제안합니다. AURORA는 VQVAE를 활용하여 depth map과 같은 intermediate image representations를 tokenized format 및 bounding box tokens으로 변환하고, 이를 multi-task training framework에서 사용합니다. AURORA는 여러 counting benchmark에서 주목할 만한 개선을 달성했습니다. BLINK에서 +10.8%, CVBench에서 +11.3%, SEED-Bench에서 +8.3% 향상되었으며, 데이터 세트 전반의 일반화에서 finetuning approaches보다 성능이 뛰어납니다. 또한 BLINK에서 +6% 이상의 relative depth가 향상되었습니다. Perception tokens를 통해 AURORA는 language 기반 추론을 넘어 MLM의 범위를 확장하여 보다 효과적인 visual reasoning capabilities의 길을 열어줍니다.
1. Introduction
Multimodal language models (MLMs) 구축에 대한 관심이 높아지는 것과는 대조적으로, computer vision은 처음에는 단순히 2D 언어 패턴의 배열을 처리하는 것이 아니라, 이미지를 설명할 수 없는 3D intrinsics의 투영으로 해석하려고 시도했습니다. 이러한 노력을 향해 초기 vision 연구에서는 depth estimation을 통한 geometric reasoning과 bounding box grounding을 통한 instance reasoning을 가능하게 하는 일련의 intermediate image representations를 개발했습니다. 최근 연구에서 지적했듯이, 우리는 그러한 perceptual representations에 덜 집중하고 대신 제한적인 visual 개입이 필요한 추론 문제를 해결했습니다. 이는 많은 전통적인 vision task가 자연어를 통해 모호하게 남아 있기 때문일 것입니다. N개의 점 집합 중 어느 점이 카메라에서 가장 멀리 떨어져 있는지 식별하는 작업을 생각해 보십시오. 언어는 이 문제에 대해 추론하는 데 적합하지 않지만, depth estimation은 추론할 적절한 abstraction을 제공합니다.
MLM이 intrinsic image representations에 대해 추론할 수 있도록 하기 위한 수많은 시도가 있었습니다. 기본적인 접근 방식은 모델이 필요한 intrinsic representations를 암시적으로 학습하기를 바라면서, 특정 perception task에 맞는 데이터로 MLM을 finetuning하는 것입니다. 또 다른 옵션은 계산을 외부 도구에 맡기는 것입니다. MLM은 depth estimator 또는 object detector를 호출하여 적절한 intrinsic을 생성할 수 있습니다. 안타깝게도 외부 모델에 의존하면 작업의 계산 비용이 더 많이 들고 더 많은 메모리로 추가 모델을 로드해야 합니다. 마찬가지로, vanilla fine-tuning(LoRA와 같은 발전에도 불구하고)은 약간의 개선만 보였습니다.
개념적으로, 우리는 language가 부족한 추론을 돕는 intrinsic image representations인 Perception Tokens를 소개합니다. 앞서 언급한 작업을 해결하기 위해 perception tokens로 augmented된 MLM은 language model이 chain-of-thought를 사용하는 방식과 유사하게 작업을 해결할 수 있습니다. "The depth map is [ ]. Therefore, point D is closest to the camera." 와 같이 응답을 생성합니다. 여기서 [ ]는 이미지의 depth를 암시적으로 추정하는 tokens 집합입니다. 마찬가지로 counting task의 경우 모델은 먼저 원하는 object의 관련 bounding box의 위치를 나타내는 perception tokens를 생성하고, 최종 답변을 뒷받침하기 위해 box의 수를 셀 수 있습니다.
Perception tokens의 유용성을 입증하기 위해 MLM을 intermediate reasoning steps으로 perception tokens를 사용하는 기능으로 augment하는 training algorithm인 AURORA를 소개합니다. 특정 intermediate representations(예: depth map)의 경우 VQVAE를 training하여 token 집합으로 변환하고, 학습된 VQVAE codebook indices를 perception tokens 모음으로 취급합니다. bounding box와 같은 다른 경우에는 직접 인코딩된 structured tokens를 사용합니다. 다음으로, multi-task training approach에 따라 MLM을 training하여 perception tokens를 chain-of-thought tokens로 사용합니다(그림 1 참조). 또한, catastrophic forgetting을 방지하기 위해 curriculum learning approach를 채택합니다.
AURORA training algorithm을 LLaVA 모델에 적용하여 LLaVA-AURORA variant를 생성합니다. LLaVA-AURORA 모델은 여러 perception-demanding task에서 표준 fine-tuning approaches보다 성능이 훨씬 뛰어나므로 방법의 일반성과 효과를 입증합니다. LLaVA-AURORA는 relative depth estimation과 object counting task 모두에서 state-of-the-art 결과를 달성합니다. 예를 들어, BLINK relative depth estimation에서 LLaVA-AURORA는 fine-tuning baseline에 비해 6.4% points의 성능 향상을 제공합니다. 마찬가지로 counting task에서 LLaVA-AURORA는 BLINK에서 10.8% points, CVBench에서 11.3% points, SEED-Bench에서 8.3% points의 개선을 이끌어 냅니다. 그림 2는 이러한 task의 예를 보여줍니다. Perception tokens는 MLM이 추론을 시작하고 language 추론만이 아닌 task를 처리할 수 있는 완전히 새로운 modality를 열어줍니다.
기존 연구의 문제점:
- Computer Vision: 3D intrinsics를 이해하는 데 집중했지만 최근에는 2D 패턴 처리에 치중.
- MLM: Visual perception tasks, 특히 3D 구조 및 2D object instances 관련 추론에 어려움을 겪음.
- Depth map, bounding box 등의 intermediate representations 생성 불가.
- Finetuning으로는 일반화 성능 개선에 한계.
- 외부 vision 도구 활용은 비효율적 (계산량, 메모리).
제안하는 해결책:
- Perception Tokens:
- MLM이 visual 정보를 이해하고 추론하도록 돕는 intrinsic image representations.
- Language model의 chain-of-thought prompts와 유사한 역할.
- Depth map, bounding box 등을 tokenized format으로 제공.
- AURORA (Training algorithm):
- MLM에 perception tokens를 활용하는 기능을 더함.
- VQVAE를 사용하여 image representations를 token으로 변환.
- Multi-task training & curriculum learning 적용.
LLaVA-AURORA (AURORA 적용 모델):
- 뛰어난 성능: 다양한 perception-demanding tasks에서 기존 fine-tuning approaches보다 우수.
- State-of-the-art 결과 달성: Relative depth estimation & object counting tasks.
- BLINK relative depth estimation: 6.4%p 향상.
- Counting tasks: BLINK (10.8%p), CVBench (11.3%p), SEED-Bench (8.3%p) 향상.
기대 효과:
- MLM이 language reasoning을 넘어 폭넓은 visual reasoning 가능하도록 함.
- Perception tokens는 MLM의 visual understanding 능력을 크게 향상시킬 잠재력 가짐.
이미지 정보를 텍스트로 넣었다... 이게 끝인듯.