AI바라기의 인공지능

VLM : 논문리뷰 : V∗: Guided Visual Search as a Core Mechanism in Multimodal LLMs 본문

논문리뷰

VLM : 논문리뷰 : V∗: Guided Visual Search as a Core Mechanism in Multimodal LLMs

AI바라기 2025. 1. 24. 16:35

논문 정리 노트: V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs

1. Purpose of the Paper (논문의 목적)

기존 multimodal LLMs (MLLMs)는 visual search mechanism의 부재로 인해 고해상도 이미지나 복잡한 시각적 장면에서 중요한 시각적 정보를 정확하게 grounding하는 데 어려움을 겪습니다. 특히 pre-trained vision encoder에 의존하는 방식은 정보 손실을 야기하고, 모델이 필요한 시각적 정보를 능동적으로 탐색하거나 요청할 수 없다는 한계가 있습니다.

본 논문의 핵심 목적은 MLLMs에 인간의 시각 탐색 능력과 유사한 visual search mechanism을 통합하여, 시각적 정보에 대한 정확한 grounding 능력을 향상시키는 것입니다. 이를 통해 MLLMs가 복잡한 시각적 정보를 효과적으로 처리하고, 고해상도 이미지에서도 중요한 시각적 디테일을 놓치지 않도록 하는 것을 목표로 합니다.

2. Key Contributions (핵심 기여)

본 논문은 다음과 같은 핵심적인 기여를 합니다.

  • SEAL (Show, sEArch, and TelL) meta-architecture: LLM-guided visual search mechanism을 MLLMs에 통합하는 새로운 메타 아키텍처를 제안합니다. SEAL framework는 VQA LLM과 visual search model의 협업을 통해 능동적으로 필요한 시각 정보를 탐색하고 활용합니다.
  • V (Visual Search Algorithm)*: LLM의 풍부한 common sense knowledge를 활용하여 효율적인 informed visual search를 수행하는 알고리즘 V를 개발했습니다. V 알고리즘은 top-down feature guidance와 contextual scene guidance를 모방하여 인간의 시각 탐색 과정을 모델링합니다.
  • V*Bench Benchmark: MLLMs의 detailed visual grounding 능력을 평가하기 위한 새로운 VQA benchmark인 VBench를 구축했습니다. VBench는 고해상도 이미지에서 시각적 디테일에 대한 정확한 grounding을 요구하는 challenging scenarios로 구성되어 있습니다.

3. Novelty (독창성)

본 논문의 독창성은 다음과 같은 점에서 두드러집니다.

  • Visual Search Mechanism의 MLLMs 통합: 기존 MLLMs 연구에서 간과되었던 visual search mechanism을 핵심 구성 요소로 MLLMs 아키텍처에 통합한 최초의 시도입니다. 이는 MLLMs의 시각 정보 처리 방식에 대한 새로운 접근 방식을 제시합니다.
  • LLM-guided Informed Visual Search: LLM의 common sense knowledge를 visual search 과정에 적극적으로 활용하여, 기존 computational visual search models의 한계를 극복하고 더욱 효율적인 탐색 전략을 제시합니다.
  • V*Bench Benchmark의 차별성: 기존 MLLM benchmarks가 포괄적인 평가에 집중한 반면, V*Bench는 detailed visual grounding이라는 특정 능력을 심층적으로 평가하는 데 특화되어 있습니다. 이는 MLLM 평가 기준을 더욱 세분화하고, visual search 능력의 중요성을 강조합니다.

4. Experimental Highlights (실험 결과)

  • V*Bench 성능: V*Bench에서 SEAL 모델은 GPT-4V, Gemini Pro 등 최첨단 시스템을 포함한 모든 baseline models를 큰 차이로 능가했습니다. 특히 Vicuna-7B LLM을 사용했음에도 불구하고 GPT-4V보다 우수한 성능을 보인 것은 visual search mechanism의 효과를 입증합니다.
  • Ablation Study: Ablation study를 통해 visual search mechanism, target-specific cue, contextual cue의 중요성을 입증했습니다. visual search mechanism을 제거하거나, open-world detectors로 대체했을 때 성능이 크게 저하되는 것을 확인했습니다.
  • Search Length 감소: V* 알고리즘은 random search, sequential search 등 baseline search strategies에 비해 평균 search length를 크게 줄였습니다. 이는 V* 알고리즘의 효율성을 보여줍니다.
  • Human Fixation 유사성: V* 알고리즘의 탐색 경로는 COCO-Search18 데이터셋의 human fixation과 유사한 경향을 보였습니다. 이는 V* 알고리즘이 인간의 시각 탐색 전략을 효과적으로 모방하고 있음을 시사합니다.

5. Limitations and Future Work (한계점 및 향후 연구)

  • Natural Images 및 Common Objects 중심: 현재 V* 모델은 natural images와 common objects에 특화되어 있습니다. 문서, 다이어그램 이미지, long-form videos, open-world environments 등 다양한 유형의 시각 정보에 대한 확장 연구가 필요합니다.
  • 계산 비용: V* 알고리즘은 평균 6.0초의 계산 비용이 발생합니다. search process 효율성을 더욱 향상시키기 위한 architectural improvements (e.g., convolution-based models 통합) 연구가 필요합니다.
  • 추가적인 성능 향상: Human-level 성능에 도달하기 위해서는 MLLMs의 visual search 및 reasoning 능력을 더욱 발전시켜야 합니다. 특히 spatial relationship reasoning 능력 향상을 위한 연구가 필요합니다.

Future Work:

  • 다양한 유형의 시각 정보 (documents, diagrams, videos 등)에 대한 V* 모델 확장
  • Visual search efficiency 향상을 위한 모델 구조 개선 (convolution 모델 통합 등)
  • Spatial relationship reasoning 능력 강화
  • End-to-end 학습 및 최적화 연구

총평: 본 논문은 MLLMs의 visual grounding 능력 향상을 위한 중요한 진전을 이루었습니다. visual search mechanism의 통합이라는 새로운 접근 방식을 제시하고, V* 알고리즘과 VBench benchmark를 통해 MLLMs 연구 분야에 의미 있는 기여를 했습니다. 향후 연구를 통해 V 모델의 한계를 극복하고, 더욱 발전된 multimodal 인공지능 시스템을 구축할 수 있을 것으로 기대됩니다.

 

 

Abstract

우리가 주변을 둘러보고 복잡한 작업을 수행할 때, 우리가 어떻게 보고 우리가 보는 것을 선택적으로 처리하는지는 매우 중요합니다. 그러나 현재의 multimodal LLM (MLLM)에는 이러한 visual search 메커니즘이 없기 때문에, 특히 high-resolution 및 시각적으로 혼잡한 이미지를 처리할 때 중요한 시각적 세부 사항에 집중하는 능력이 저하됩니다. 이를 해결하기 위해, 우리는 LLM의 세계 지식을 사용하여 효율적인 visual querying을 수행하는 LLM-guided visual search 메커니즘인 V*를 도입합니다. 이 메커니즘은 MLLM과 결합될 때, collaborative reasoning, contextual understanding 및 특정 시각적 요소의 정확한 타겟팅을 향상시킵니다. 이러한 통합은 Show, sEArch, and TelL (SEAL)이라는 새로운 MLLM meta-architecture를 만들어냅니다. 우리는 또한 high-resolution 이미지를 처리하고 시각적 세부 사항에 집중하는 능력을 평가하기 위해 특별히 설계된 벤치마크인 V*Bench를 만들었습니다. 우리의 연구는 multimodal system에 visual search 기능을 통합하는 것의 필요성을 강조합니다. 코드는 여기에서 사용할 수 있습니다.

 

 

Figure 1. Visual search 메커니즘은 인간이 수많은 자극 속에서 목표를 식별할 수 있게 해주며, 문제 해결 및 추론에 중요한 정보 구성을 간소화합니다. 이 연구에서 우리는 MLLM의 맥락에서 이 핵심 메커니즘을 탐구하며, 특히 high-resolution 이미지에 대한 정확한 visual grounding을 방해하는 이 메커니즘의 부재를 다룹니다. 이 예시에서, VQA LLM은 질문에 즉시 대답할 수 없었기 때문에 상식과 문맥적 단서를 사용하여 필요한 세부 정보를 검색하는 LLM-guided visual search 프로세스인 V*를 활성화합니다. 이 정보에 입각한 검색을 통해 전체적인 맥락과 목표와 관련된 관심 영역을 tokenizing하는 visual working memory (VWM)를 구축하며, 이는 VQA LLM에 다시 제공되어 질문에 정확하게 대답할 수 있게 합니다.

 

1. Introduction

인간 지능의 특징 중 하나는 복잡한 작업을 수행하기 위해 multi-sensory 정보를 처리하고 통합할 수 있다는 것입니다. 시각 정보와 관련된 우리의 인지적 추론 과정의 두드러진 측면은 visual search를 수행하는 능력입니다. 즉, 복잡한 실제 장면 내에서 핵심 객체를 효율적으로 인식하고 위치를 파악하는 과정입니다. 이 메커니즘은 환경과의 상호 작용에서 근본적인 역할을 하며, 어수선한 탁자 위에서 열쇠를 찾는 것부터 군중 속에서 친구를 찾는 것까지 모든 곳에서 일어납니다. 게다가, 이는 여러 추론 단계가 필요한 복잡한 작업에 필수적인 단계이기도 합니다. visual search의 복잡성은 인지 과학과 vision science 분야에서 오랫동안 연구되어 왔습니다. visual search는 인간에게는 직관적으로 보이지만 실제로는 일련의 복잡한 행동을 기반으로 하는 복잡한 프로세스입니다. 이 작업을 효율적으로 수행하려면 top-down feature guidance와 contextual scene guidance가 인간의 visual search 프로세스를 안내하는 두 가지 기본 요소입니다. top-down feature guidance는 목표 객체의 사양이나 일반적인 범주에 대한 지식을 기반으로 특정 features (예: 색상, 모양 및 방향)를 가진 항목에 주의를 집중시킵니다. contextual scene guidance는 실제 시나리오에서 객체가 일반적으로 구조화된 장면에 잘 구성되어 있다는 사실을 기반으로 합니다. 따라서 상식 지식을 기반으로 장면의 의미, 객체 동시 발생 및 기타 물리적 제약 조건을 사용하여 특정 영역에 주의를 기울여 검색 프로세스를 가속화할 수 있습니다.

인공 일반 지능을 달성하기 위한 중요한 단계로서, multimodal LLM (MLLM)은 multimodal 정보를 통합하고 일반적인 작업을 수행하는 인간의 능력을 모방하려고 시도합니다. large language model의 강력한 추론 능력을 활용하여 이 분야에서 상당한 발전이 이루어졌습니다. 그러나 현재 MLLM의 주요 한계는 CLIP image encoder와 같이 pre-trained된 (그리고 종종 frozen된) vision encoder에 의존한다는 것입니다. 이러한 의존성은 시각 정보 처리에 주요 병목 현상을 만듭니다. vision encoder는 종종 224x224 또는 336x336 픽셀과 같은 low resolution 이미지로 trained됩니다. 배포 중에도 이미지는 종종 더 낮은 해상도로 조정됩니다. 결과적으로, encoder는 high-resolution 이미지의 중요한 세부 사항을 간과할 수 있습니다. 또한 현재 MLLM은 처리하는 이미지에서 어떤 필수적인 시각적 세부 사항이 누락되거나 불분명한지 파악하는 데 어려움을 겪고 있으며, 이 누락된 정보를 사전에 찾거나 요청할 수도 없습니다.

인간의 능력에서 영감을 받아, 우리는 앞서 언급한 시각적 한계를 해결하기 위해 LLM-guided visual search 메커니즘을 MLLM에 통합하는 일반적인 meta-architecture인 SEAL (Show, sEArch, and TelL)을 제안합니다. SEAL 프레임워크는 VQA LLM과 visual search model로 구성됩니다. vision encoder로부터의 불충분한 정보로 인해 대답을 거부하거나 정보에 입각하지 않은 추측(예: 환각)을 할 수 있는 일반적인 MLLM 모델과 달리, SEAL의 VQA LLM은 누락된 시각적 세부 사항을 명시적으로 정확히 찾아내어 초점을 맞출 대상 객체를 생성할 수 있습니다. 그런 다음, language model의 풍부한 세계 지식과 상식을 사용하여 visual search 구성 요소는 이러한 식별된 요소를 찾아 Visual Working Memory (VWM)에 추가합니다. VWM의 이러한 추가 시각적 데이터는 VQA Language Model이 보다 정확하고 정보에 입각한 응답을 제공할 수 있도록 합니다. SEAL의 적응성을 통해 다양한 MLLM 기본 모델과 함께 작동할 수 있습니다. 우리의 경우 LLaVA를 VQA LLM과 visual search model의 MLLM으로 모두 사용합니다. 이 새로운 visual search 기능을 통해 MLLM은 그림 2에서 강조된 비교에서 알 수 있듯이 high-resolution 이미지에서 정확한 visual grounding이 필요한 상황을 더 잘 처리할 수 있습니다.

인간의 visual search 프로세스는 top-down feature guidance와 contextual scene guidance에 의해 안내되므로, 우리는 유사한 원칙을 따르는 visual search model을 사용하여 V*라는 정보에 입각한 visual search 알고리즘을 설계합니다. 인간의 경우 이러한 지침은 주로 물리적 세계에 대한 지식과 경험에서 비롯됩니다. 따라서 우리의 visual search model은 세계에 대한 방대한 상식 지식을 포함하고 이 지식을 기반으로 장면에서 목표의 가능한 위치에 대해 효과적으로 추론할 수 있는 또 다른 MLLM을 기반으로 구축됩니다.

기존 MLLM 벤치마크는 주로 다양한 작업 범주에 걸쳐 포괄적인 평가를 제공하는 데 중점을 두고 있으며 위에서 언급한 현재 패러다임의 특정 한계를 적절하게 문제제기 하거나 노출하지 않습니다. 이러한 격차를 해소하고 제안된 프레임워크를 평가하기 위해, 우리는 high-resolution 이미지에 대한 상세한 visual grounding에 중점을 둔 새로운 전용 VQA 벤치마크인 V*Bench를 소개합니다. V*Bench는 visual search 기능이 없는 표준적이고 정적인 vision encoder가 쉽게 간과할 수 있는 특정 시각적 정보를 multimodal model이 정확하게 파악하도록 요구하는 vision 중심 벤치마크입니다. 이미지 및 비디오와 같이 풍부하고 복잡한 시각적 콘텐츠가 점점 더 지배하는 세상에서, MLLM이 복잡한 추론 작업을 위해 중요한 시각적 정보에 능동적으로 집중할 수 있는 것은 매우 중요합니다. 이 벤치마크는 이 기본 메커니즘의 중요성을 강조하고 MLLM이 인간 인지에 내재된 multimodal 처리 및 추론 적성을 반영하도록 진화하도록 안내하는 것을 목표로 합니다.

요약하면, 우리의 기여는 세 가지입니다. 1) 우리는 특히 high-resolution 이미지를 다룰 때 vision 집약적인 multimodal 작업에 필수적인 능력인 필요한 시각적 정보를 능동적으로 추론하고 검색하도록 설계된 MLLM meta-architecture인 SEAL을 제안합니다. 2) 우리는 LLM에 내재된 상식 이해를 활용하여 모든 해상도의 이미지에서 효율적인 정보 검색을 수행하는 visual search 알고리즘 V*를 개발합니다. 3) 우리는 MLLM이 high-resolution 이미지에서 상세한 시각적 정보를 정확하게 처리하고 파악하는 능력을 철저히 평가하기 위해 V*Bench를 소개합니다.

 

 

핵심 키워드: Visual Search, MLLM, High-Resolution Image, Visual Grounding, SEAL, V*, V*Bench

기존 MLLM의 한계:

  • Frozen Vision Encoder 의존성: CLIP과 같이 pre-trained된 (주로 frozen된) vision encoder는 low-resolution 이미지 (e.g., 224x224, 336x336)로 학습되어, high-resolution 이미지의 디테일을 놓치기 쉬움.
  • 능동적 정보 탐색 부재: 현재 MLLM은 이미지 내 어떤 visual detail이 누락/불분명한지 파악하거나, 이를 능동적으로 탐색/요청하는 기능이 없음.

본 논문의 제안 (SEAL: Show, sEArch, and TelL):

  • MLLM에 LLM-guided visual search 메커니즘 통합:
    • VQA LLM: 이미지 내 누락된 visual detail을 특정하여 "search target"을 생성.
    • Visual Search Model (V*): LLM의 world knowledge와 common sense를 활용하여, 생성된 "search target"을 이미지 내에서 효율적으로 localization. Visual Working Memory (VWM)에 해당 정보를 추가하여 VQA LLM의 응답 정확도 향상.
  • LLaVA를 VQA LLM 및 Visual Search Model 내 MLLM으로 활용.
  • High-resolution 이미지에서 정확한 visual grounding이 필요한 상황에 강점.

V* (Visual Search 알고리즘):

  • Top-down feature guidance와 contextual scene guidance를 모방.
  • LLM의 common sense를 활용하여, 모든 해상도의 이미지에서 효율적인 informed search 수행.

V*Bench (새로운 벤치마크):

  • High-resolution 이미지에 대한 detailed visual grounding에 초점을 맞춘 VQA 벤치마크.
  • 기존 벤치마크와 달리, visual search 능력이 없는 standard vision encoder가 놓치기 쉬운 visual information을 정확히 파악하도록 설계.

결론:

  • 본 논문은 high-resolution 이미지 처리에 취약한 기존 MLLM의 한계를 지적하고, LLM-guided visual search를 통합한 새로운 meta-architecture (SEAL)를 제안함.
  • V* 알고리즘과 V*Bench를 통해 제안 방법론의 효용성을 검증하고자 함.
  • 결과적으로, MLLM이 인간 수준의 multimodal processing 및 reasoning 능력에 더 가까워지도록 기여하고자 함.

이 논문이 특별한 이유(라고 주장하는 부분):

  • 기존 연구들이 간과했던 "high-resolution 이미지"와 "visual search" 능력에 주목.
  • LLM의 "common sense"를 visual search에 활용하는 새로운 접근 방식 제시.
  • 제안 방법론을 평가하기 위한 새로운 벤치마크 (V*Bench) 개발.

2. Related Work

2.1. Computational Models for Visual Search

인간의 visual search 프로세스의 guiding factors에서 영감을 받아, 인간의 visual search 프로세스를 모방하기 위한 여러 computational model이 제안되었습니다. Sclar 등은 saliency map을 prior로 결합한 Bayesian searcher를 제안합니다. Torralba 등은 local saliency map과 global scene prior를 결합하여 scene-modulated saliency map을 형성합니다. IVSN은 convolutional network를 사용하여 search image와 target template 간의 similarity map을 계산하고 탐색을 greedily하게 수행합니다. Yang 등은 inverse reinforcement learning (IRL)을 사용하여 인간 visual search의 reward function과 policy를 학습합니다.

그럼에도 불구하고, 이러한 model은 주로 target object를 정확하게 localizing할 필요 없이 인간의 응시 궤적을 모방하는 데 중점을 둡니다. 또한 일반적으로 fixed-size 응시 창을 채택하는 반면, 우리의 visual search model은 계층적 프로세스에서 모든 해상도의 이미지를 처리합니다. 게다가, target object와 contextual scene information에 대한 categorical information의 사용은 단순한 통계에 국한되며 일반적인 domain으로 일반화되지 않습니다. 우리의 visual search model은 LLM의 풍부한 common sense knowledge를 활용하여 검색 프로세스를 가속화합니다. 우리는 우리의 active search 전략이 System II 인지 프로세스와 연결되어 있다는 점에 주목합니다. 복잡한 작업의 경우 visual search를 위한 동적 계산 할당이 필요합니다. 우리의 접근 방식은 LLM에서 사용되는 chain-of-thought (CoT) 기술에 대응하는 시각적 대응물로 생각할 수도 있습니다.

 

 

 

 

 

2.2. Multimodal LLMs

large language model의 성공에 힘입어, vision language model 연구는 다양한 multimodal task를 해결하기 위해 LLM에 추가적인 vision input을 제공하는 방법을 탐구하기 시작했습니다. 현재 MLLM은 end-to-end model과 LLM tool-using system의 두 가지 유형으로 분류할 수 있습니다.

End-to-end MLLMs. End-to-end MLLM은 pre-trained LLM을 projection 또는 alignment module을 통해 vision encoder와 연결하고, 전체 시스템은 end-to-end 방식으로 jointly trained됩니다. 이러한 model은 visual feature를 language의 input embedding space 또는 intermediate feature space로 projection하여 LLM이 시각 정보를 처리하고 vision-language task를 수행할 수 있도록 합니다. image-text alignment를 통해 pre-trained된 CLIP과 같은 vision encoder는 visual feature를 LLM이 이해할 수 있는 'language token' 형태로 변환할 수 있지만, 이 프로세스에는 information bottleneck이 있습니다. visual feature의 변환과 projection은 종종 고유한 정보 손실을 초래하며, 특히 vision encoder는 일반적으로 low-resolution 이미지로 제한되기 때문입니다. 결과적으로 이러한 model은 정확한 결과를 제공하는 데 어려움을 겪거나 중요한 시각적 정보가 제대로 포착되지 않거나 부적절하게 초점이 맞춰진 경우 환각된 답변을 생성할 수 있습니다.

LLM-tool-using systems. LLM-tool-using system 또는 LLM-based agent는 LLM을 black box로 취급하고 reasoning을 통해 특정 vision-language task를 수행하기 위해 일부 vision expert system에 대한 액세스 권한을 제공합니다. 이러한 system은 다양한 종류의 vision expert를 활용하여 필요한 정보를 텍스트 형태로 시각적 입력에 대해 제공합니다. 그들은 일반적으로 captioning 및 detection model을 채택하여 이미지에 대한 일반적인 텍스트 정보를 생성하고 이를 LLM에 제공합니다. 이미지에 대한 설명과 특정 질문 또는 작업 지침에 따라, LLM은 어떤 시각 정보가 필요한지, 어떤 visual expert를 호출해야 하는지 reasoning을 통해 추가로 결정합니다. LLM은 정보가 충분하다고 판단되면 프로세스를 종료하고 final answer를 제공하기로 결정합니다. 그러나 이러한 system의 주요 문제 중 하나는 전체 system이 텍스트로만 실행되기 때문에 특정 시각 정보가 텍스트로 변환될 때 불가피하게 무시되거나 왜곡될 수 있다는 것입니다. 더욱이, vision expert 자체가 완벽하지 않기 때문에 cascaded error가 존재하고 복잡하고 긴 프로세스로 인해 전체 system이 실패하기 쉽습니다.

 
 

 

 

 

 

 

 

 

 

 

 

 

 

핵심 키워드: Visual Search, Computational Model, MLLM, End-to-End, LLM-Tool-Using, Information Bottleneck, Common Sense

2.1 Computational Models for Visual Search:

  • 기존 연구들:
    • Bayesian searcher + saliency map
    • Local saliency map + global scene priors → scene-modulated saliency map
    • IVSN: convolutional network → similarity map (search image & target template), greedy search
    • Yang et al.: inverse reinforcement learning (IRL) → reward function & policy (human visual search)
  • 한계:
    • 주로 "human gazing trajectory" 모방에 초점, 정확한 target localization은 부차적.
    • Fixed-size gazing window 사용 (vs. 본 논문: 계층적 프로세스로 모든 해상도 이미지 처리).
    • Target object 및 contextual scene information에 대한 categorical information 활용이 제한적, 단순 통계 수준, 일반화 어려움.
  • 본 논문의 차별점:
    • LLM의 풍부한 common sense knowledge를 활용하여 search process 가속화.
    • Active search 전략: System II 인지 프로세스와 연결, 복잡한 task를 위한 동적 계산 할당.
    • Visual counterpart to chain-of-thought (CoT).

2.2 Multimodal LLMs:

  • 두 가지 유형:
    • End-to-End MLLMs:
      • Pre-trained LLM + vision encoder (projection/alignment module로 연결), end-to-end jointly trained.
      • Visual feature → language의 input/intermediate feature space로 projection.
      • CLIP과 같은 vision encoder: image-text alignment로 pre-trained, visual feature를 "language token"으로 변환.
      • 한계:
        • Information bottleneck: visual feature 변환/projection 과정에서 정보 손실 발생 (특히, vision encoder가 low-resolution 이미지에 국한되는 경우).
        • High-resolution 이미지에서 부정확한 결과 또는 hallucination 발생 가능성.
    • LLM-Tool-Using Systems (LLM-based Agents):
      • LLM = black box, vision expert system에 접근하여 vision-language task 수행.
      • 다양한 vision expert → 필요한 정보를 텍스트 형태로 제공 (e.g., captioning, detection model → 이미지에 대한 일반적인 텍스트 정보 생성).
      • LLM이 이미지 설명, 질문/작업 지침을 기반으로 추가 정보 필요 여부 및 호출할 vision expert 결정.
      • 한계:
        • Text-only based: 텍스트 변환 과정에서 시각 정보 무시/왜곡 가능성.
        • Vision expert 자체의 불완전성 → cascaded error 발생, 복잡하고 긴 process로 인해 실패 가능성 높음.

결론 (본 논문과의 연관성):

  • 기존 visual search computational model은 "high-resolution" 이미지와 "common sense" 활용 측면에서 한계를 보임.
  • End-to-end MLLM은 "information bottleneck" 문제로 인해 high-resolution 이미지 처리에 어려움을 겪음.
  • LLM-tool-using system은 "text-only" 기반의 한계와 "vision expert"의 불완전성으로 인해 성능 제약.
  • 본 논문은 이러한 한계들을 극복하고, high-resolution 이미지에서 효율적인 visual search를 수행하는 MLLM을 제안함으로써 차별화됨. (1. Introduction에서 제시한 내용 구체화)

 

 

 

 

3. Method

우리가 제안하는 Show, Search and Tell (SEAL) 프레임워크는 MLLM을 위한 일반적인 meta-architecture입니다. 이는 VQA LLM과 visual working memory (VWM)를 통해 협력하고 상호 작용하는 visual search model로 구성됩니다. SEAL 프레임워크의 그림은 그림 3에 나와 있습니다. 이 작업에서 우리는 그 효과를 검증하기 위해 SEAL의 인스턴스화를 제공하고 SEAL 프레임워크에서 MLLM으로 LLaVA-7B 모델을 선택합니다. 이제 이 두 부분 각각의 model structure에 대해 자세히 설명합니다. visual search model을 위한 training data curation 프로세스와 training 세부 정보는 부록 A.3에 제공됩니다.

3.1. VQA LLM with Visual Working Memory

3.1.1 Model Structure

최신 MLLM은 일반적으로 vision encoder, projection module, LLM의 세 가지 구성 요소를 갖습니다. projection module의 유형은 Resampler, QFormer, linear layer와 같은 옵션을 포함하여 model마다 다릅니다. LLM 내에서 projected vision token의 배치도 input layer 또는 middle cross-attention layer와 같이 model마다 다릅니다. 이러한 변형에도 불구하고 대부분의 model은 pre-trained CLIP을 vision encoder로 채택합니다. high-resolution 및 시각적으로 복잡한 이미지를 처리할 때 CLIP에 의해 추출된 visual feature는 질문에 답하는 데 필요한 정보를 포착하지 못할 수 있습니다.

visual search 메커니즘이 항상 사용되는 것은 아닙니다. model은 먼저 encoder의 초기 (전역) visual feature가 질문에 답하기에 충분한지 평가합니다. 그렇지 않은 경우 필요하지만 누락된 모든 정보를 target object 목록 형식으로 명시적으로 나열합니다. 그런 다음 visual working memory (VWM)를 초기화합니다. VWM에는 네 개의 블록이 있습니다. 블록은 초기 텍스트 질문을 포함하고, 는 초기 이미지를 포함하고, 검색 후 target object crop을 저장하고, 는 검색된 대상의 좌표를 저장합니다. 다음으로, visual search model은 이미지를 검색하고 필요한 각 대상을 localizes합니다. 식별된 대상을 포함하는 영역은 전체 이미지에서 잘립니다. 잘린 대상은 좌표와 함께 VWM에 추가됩니다. 그 후 VQA LLM은 VWM에 포함된 데이터를 처리하여 그에 따라 응답을 생성합니다. SEAL 프레임워크의 작업 파이프라인은 알고리즘 1에 나와 있습니다.

이 작업에서 우리는 입력 크기를 224<sup>2</sup>로 조정하고 패딩하여 visual feature extractor로 CLIP ViT-L/14 model을 선택합니다. 초기 이미지와 검색된 대상의 crop을 모두 처리하는 데 사용합니다. visual feature를 LLM에 입력하기 위해 linear layer와 resampler의 두 가지 유형의 projection module을 고려합니다. linear layer projection module은 vision encoder의 visual token 수를 유지하고 cross-attention 기반 resampler projection은 토큰 수 (예: 256개에서 32개)를 줄입니다. VWM의 다양한 콘텐츠에 해당하는 토큰 길이를 관리하기 위해 이 두 projection module 간에 유연하게 전환할 수 있는 간단한 체계를 설계했습니다. 검색된 대상 없이 초기 이미지 feature만 입력으로 구성된 시나리오에서는 모든 visual token을 유지하기 위해 linear layer projection을 적용합니다. VWM에 하나 또는 두 개의 검색된 대상이 있는 경우 model이 이러한 대상에 집중해야 한다고 가정합니다. 이러한 경우 이러한 대상의 visual feature에 linear layer projection을 사용하고 resampler를 사용하여 global image feature를 subsampling합니다. VWM에 검색된 대상이 세 개 이상 있는 경우 계산 비용을 줄이기 위해 모든 visual feature에 resampler를 사용합니다.

3.2. Data Curation for VQA LLM

이제 VQA LLM이 검색된 대상이 있는 VWM과 함께 작동하므로 VQA LLM을 training하기 위해 추가 instruction tuning을 수행해야 합니다. training data는 다음과 같습니다. 자세한 내용은 부록 A.1에서 확인할 수 있습니다.

  • Target objects reasoning을 위한 Negative data (100k): VQA LLM은 먼저 1) 질문에 답하는 데 필요하고 2) 초기 global image feature에서 누락되었거나 충분히 명확하지 않은 target object를 식별해야 합니다. 이를 용이하게 하기 위해 질문이 이미지에 없는 하나 또는 두 개의 객체와 관련된 (image, question, answer) data를 구성합니다. 또한 특정 객체의 세부 사항에 대한 질문을 구성하여 CLIP encoder가 포착하기에는 너무 작게 의도적으로 만듭니다. 이는 bounding box 크기가 20x20보다 작은 객체를 선택하여 달성됩니다. 이러한 질문에 대한 적절한 응답은 질문에 답할 수 없다는 직접적인 인정과 함께 필요한 모든 추가 target object의 명확한 열거입니다. GPT-3.5에서 생성된 질문으로 COCO2017에 100k 데이터를 구성합니다.
  • VQA data (167k): 이 data는 세 부분으로 구성됩니다: GQA data (70k), 객체 속성에 중점을 둔 VQA data (51k), 공간 관계에 중점을 둔 VQA data (46k). GQA 하위 집합에서는 질문에서 언급된 특정 객체에 대한 원래 dataset의 GT annotation을 활용합니다. 이 data의 일부를 선택하여 training 중 VWM에서 언급된 객체를 검색 대상으로 취급합니다. 또한 GPT-3.5를 사용하여 GQA의 짧은 답변을 완전한 문장으로 바꿉니다. 객체 속성 data의 경우 VAW data를 활용하여 특정 객체 속성에 대해 묻는 표준 형식의 질문-답변 쌍으로 변환하고 이러한 객체를 검색 대상으로 간주합니다. 공간 관계 data와 관련하여 COCO2017 dataset을 사용하여 이미지 내 두 객체의 상대적 공간 위치에 대한 질문을 생성하고 이 두 객체를 검색 대상으로 취급합니다.
  • LLaVA Instruction Tuning (120k): 일반적인 multimodal question answering 및 instruction following 기능을 유지하기 위해 image source가 COCO인 LLaVA-80K instruction tuning data도 포함합니다. 또한 COCO 카테고리와 일치하고 box annotation이 있는 질문에서 객체 entity를 식별합니다. 그런 다음 일치하는 이러한 객체를 검색 대상으로 지정하여 40k data의 추가 집합을 만듭니다.

3.3. V*: LLM-guided Visual Search

3.3.1 Problem Formulation

높은 수준에서 visual search의 목표는 computer vision의 referring expression comprehension (REC) 작업과 유사합니다. REC는 텍스트 referring expression으로 설명된 이미지에서 특정 객체를 localizing하는 것을 목표로 합니다. 그러나 특정 크기의 이미지로 제한되는 REC와 달리 visual search는 모든 해상도의 이미지에 적응해야 합니다. 때로는 target object를 찾기 위해 전체 이미지를 철저히 검색해야 합니다. 따라서 visual search 효율성이 중요합니다. 효과적인 visual search 알고리즘은 대상을 정확하게 localizing할 뿐만 아니라 가능한 한 빨리 수행해야 합니다.

3.3.2 Model Structure

사람들이 더 선명하게 보기 위해 휴대폰에서 자주 확대하는 것과 유사하게, high-resolution 이미지를 다룰 때 전체 이미지만 작은 thumbnail로 보면 target object를 정확하게 식별하고 localizing할 수 없을 가능성이 있습니다. 이를 해결하기 위한 한 가지 직접적인 접근 방식은 이미지를 균일한 크기의 작은 patch로 분할하고 각 patch에서 철저하게 localization을 수행하는 것입니다. 이 무차별 대입 전략은 종종 aerial image detection 및 whole slide image analysis에 사용됩니다. 그러나 매우 high-resolution 이미지를 효과적으로 관리하기에는 너무 비효율적인 경향이 있습니다. 더 현명한 솔루션이 필요합니다.

인간이 visual search 프로세스에서 contextual scene 및 top-down feature guidance를 활용하는 방법에서 영감을 얻어 V*의 visual search model 설계에 유사한 개념을 통합했습니다. 이 프로세스는 방대한 양의 common sense knowledge를 캡슐화하여 휴리스틱 지침으로 사용되는 MLLM을 활용합니다. VWM에 대해 검색된 대상을 localizing하고 crop하려면 언급된 것과 유사한 추가 localization 기능으로 MLLM을 강화하는 것도 필요합니다.

우리의 visual search model은 MLLM과 image backbone 및 두 개의 decoder, 즉 target localization decoder Dtl과 search cue localization decoder Dcl이 있는 localization module로 구성됩니다. MLLM에는 어휘에 localization token 이 추가된 추가 localization 기능이 있습니다. 객체 또는 영역의 이미지와 텍스트 표현이 주어지면 텍스트 표현은 먼저 고정 형식 instruction (예: "이미지에서 [객체]를 찾으십시오.")으로 변환된 다음 이미지와 함께 MLLM에 공급됩니다. MLLM은 쿼리된 텍스트 표현의 contextual 및 location 관련 정보가 포함된 localization token 을 출력합니다. token embedding vloc를 두 개의 개별 MLP로 처리하여 두 개의 추가 embedding vtl 및 vcl을 얻습니다.

그런 다음 visual encoder의 image token은 vtl 및 vcl과 결합되고 각각 decoder Dtl 및 Dcl에 의해 처리되며 대상 좌표 (신뢰도 점수 포함) 및 search cue heatmap을 각각 출력합니다. Dcl은 SAM의 mask decoder와 유사하고 Dtl은 좌표 예측을 위한 것과 신뢰도 점수 예측을 위한 것의 두 개의 linear head로 구현됩니다. 이 두 module의 자세한 구조는 그림 4에 나와 있습니다.

3.3.3 Search Algorithm

이 visual search model을 사용하여 V* 알고리즘은 다음과 같이 작동합니다. target object의 이미지와 텍스트 표현이 주어지면 V* MLLM은 먼저 대상을 직접 localizing하려고 시도합니다. 이 단계에서 target object에 해당하는 vloc에서 대상 좌표와 search cue heatmap을 얻습니다. 객체가 localizing되지 않은 경우 (즉, 신뢰도 점수가 임계값 아래로 떨어짐) heatmap에서 가능한 대상별 단서를 검사합니다.

search cue heatmap은 쿼리된 target object를 포함할 가능성이 있는 영역을 강조 표시합니다. 대상별 단서가 두드러지면 (즉, heatmap의 가장 높은 값이 임계값 δ를 초과할 때) 이를 사용하여 검색을 직접 안내합니다. 그렇지 않으면 MLLM에 이미지에서 target object의 가장 가능성 있는 위치가 무엇인지 묻습니다. 이를 위해서는 MLLM이 common sense knowledge를 활용하고 이를 이미지의 맥락과 통합하여 대상의 소재에 대한 contextual cue를 제공해야 합니다. target object가 있을 가능성이 있는 영역에 대한 설명을 받으면 MLLM에 Dcl decoder로 설명된 영역을 localizing하고 contextual cue에 해당하는 search cue heatmap을 생성하도록 요청합니다.

그런 다음 간단한 전략을 사용하고 이미지를 4개의 겹치지 않는 동일한 크기의 패치로 재귀적으로 나눕니다. 검색 중 각 패치에 대해 정사각형과 같은 가로 세로 비율을 유지하기 위해 이미지의 방향에 따라 분할 전략을 조정합니다. 가로 이미지 (즉, 너비가 높이의 두 배보다 큰 경우)의 경우 이미지를 세로로 나눕니다. 반대로 세로 이미지 (즉, 높이가 너비의 두 배를 초과하는 경우)는 가로로 나눕니다. 다른 모든 경우에는 이미지를 가로 및 세로로 분할합니다. 이 패치 접근 방식은 그림 5에 나와 있습니다. 그 후 이러한 패치에 검색 우선 순위 점수를 할당합니다. 검색 우선 순위 점수는 search cue heatmap (대상별 또는 contextual)에서 계산됩니다. 우선 순위 점수에 따라 패치가 잘리고 순차적으로 처리됩니다. 이 재귀 절차는 target object가 localizing되거나 현재 패치의 크기가 미리 정해진 임계값보다 작아질 때까지 반복됩니다. V* 알고리즘의 전체 프로세스는 알고리즘 2에 나와 있습니다.

A* Algorithm과의 연관성. LLM-guided visual search V* 알고리즘의 이름은 informed search algorithm A*와의 유사성에서 영감을 받았습니다. A*는 휴리스틱을 사용하여 비용을 근사화함으로써 시작점과 목표점 사이의 최단 경로를 식별하는 것을 목표로 하는 경로 찾기를 위해 설계되었습니다. LLM-guided visual search의 맥락에서 V*는 하위 이미지가 노드로 취급되는 A*의 고유한 변형으로 볼 수 있습니다. 비용 함수 g(n)은 모든 노드 n에 대해 균일한 양의 상수로 설정되고 휴리스틱 함수 h(n)은 search cue heatmap에서 파생된 우선 순위 점수의 음수로 정의됩니다. A* 알고리즘의 목표는 시작부터 목표까지 최소 비용으로 경로를 찾는 것이지만 V*의 초점은 목표를 localizing하는 데 필요한 총 단계 수를 최소화하는 것입니다.

 

핵심 키워드: SEAL, VQA LLM, Visual Working Memory (VWM), V*, Visual Search, High-Resolution Image, Localization, Common Sense, A* Algorithm

3.1 VQA LLM with Visual Working Memory (VWM):

  • SEAL (Show, sEArch, and TelL) Framework: MLLM을 위한 meta-architecture, VQA LLM + visual search model (VWM을 통해 협력).
  • Visual Search Trigger:
    • Encoder의 초기 (global) visual feature가 질문에 답하기에 불충분한 경우, visual search 메커니즘 가동.
    • 필요하지만 누락된 정보를 target object list 형태로 명시.
  • Visual Working Memory (VWM):
    • 4개의 블록: (초기 질문), (초기 이미지), (search 후 target object crop), (search된 target 좌표).
    • Visual search 후, target object crop 및 좌표 정보 VWM에 추가.
    • VQA LLM은 VWM의 데이터를 기반으로 응답 생성.
  • Model Structure:
    • Vision Encoder: CLIP ViT-L/14 (input: 224<sup>2</sup>로 resize 및 padding).
    • Projection Module:
      • Linear Layer: visual token 수 유지.
      • Resampler: cross-attention 기반, token 수 감소 (256 → 32).
      • VWM 내 content에 따라 유연하게 전환:
        • 초기 이미지만: linear layer (모든 visual token 유지).
        • 1-2개 search target: target은 linear layer, global image feature는 resampler.
        • 3개 이상 search target: 모두 resampler (계산 효율성).

3.2 Data Curation for VQA LLM:

  • VWM (search target 포함)을 활용하도록 VQA LLM을 훈련하기 위한 추가 instruction tuning data 구성.
  • Negative Data (100k):
    • Image, question, answer (질문은 이미지에 없는 1-2개 object 관련).
    • CLIP encoder가 포착하기 어려운 작은 object (bounding box < 20x20) 관련 질문.
    • 정답: "답변 불가" + 추가 target object list.
    • GPT-3.5로 COCO2017에 대해 생성.
  • VQA Data (167k):
    • GQA data (70k): 질문에 언급된 object를 search target으로 간주, 짧은 답변을 완전한 문장으로 (GPT-3.5).
    • Object attribute data (51k): VAW data 활용, object를 search target으로.
    • Spatial relationship data (46k): COCO2017, object 간 상대적 위치 질문, object를 search target으로.
  • LLaVA Instruction Tuning (120k):
    • LLaVA-80K instruction tuning data (image source: COCO).
    • COCO category와 일치 & box annotation 있는 object entity를 search target으로 추가 (40k).

3.3 V*: LLM-guided Visual Search:

  • Problem Formulation:
    • Referring Expression Comprehension (REC)과 유사하지만, 모든 해상도 이미지에 적용 가능.
    • Visual search efficiency 중요: 정확성 + 속도.
  • Model Structure:
    • High-resolution 이미지 처리:
      • 단순 patchify & exhaustive search는 비효율적.
      • Contextual scene & top-down feature guidance 활용 (인간 visual search 모방).
      • Common sense knowledge를 가진 MLLM 활용 (heuristic guidance).
    • MLLM + Localization Module:
      • Localization 능력 강화 (localization token 추가).
      • Input: image, object/region에 대한 textual expression → fixed-format instruction ("Please locate the [object] in the image.").
      • Output: localization token (contextual & location information).
      • vloc ( token embedding) → 2개 MLP → vtl, vcl.
      • Image token (visual encoder) + vtl, vcl → decoder Dtl, Dcl.
      • Dtl (target localization decoder): target coordinates (confidence score 포함) 출력.
      • Dcl (search cue localization decoder): search cue heatmap 출력 (SAM의 mask decoder와 유사).
  • Search Algorithm (V*):
    • Initial Localization: MLLM으로 target 직접 localization 시도, target coordinates & search cue heatmap (vloc에서) 획득.
    • No Object Localized (confidence score < threshold):
      • Search cue heatmap 검사: target-specific cue 확인.
      • Target-specific cue prominent (heatmap max value > δ): 해당 cue로 search 유도.
      • Otherwise: MLLM에 target의 가장 가능성 있는 위치 질문 (common sense & image context 활용), contextual cue 획득.
      • Contextual cue 기반 search: MLLM (Dcl decoder)으로 해당 영역 localizing, contextual cue에 대한 search cue heatmap 생성.
    • Recursive Image Division:
      • 이미지를 4개의 non-overlapping equal-sized patch로 분할 (반복).
      • Aspect ratio 유지: landscape (width > 2*height) → 세로 분할, portrait (height > 2*width) → 가로 분할, otherwise → 가로/세로 분할.
    • Search Priority Score:
      • Search cue heatmap (target-specific or contextual) 기반 계산.
      • Priority score에 따라 patch crop & 순차 처리.
    • Termination: target localizing 또는 patch size < threshold.
  • Connection to A* Algorithm:
    • V* = A*의 변형:
      • Sub-image = node.
      • Cost function g(n) = uniform positive constant.
      • Heuristic function h(n) = - (priority score from search cue heatmap).
      • A*: minimal cost path 찾기, V*: target localizing까지 step 수 최소화.

결론 (이 논문이 특별한 이유):

  • High-resolution 이미지 처리에 취약한 기존 MLLM의 한계를 극복하기 위해, visual search 기능을 VWM을 통해 통합한 SEAL framework 제안.
  • LLM의 common sense를 활용하여 효율적인 visual search를 수행하는 V* 알고리즘 개발.
  • A* 알고리즘과 유사한 방식으로 search space를 탐색하며, high-resolution 이미지에서도 빠르게 target을 localizing.
  • VQA LLM의 성능 향상을 위한 체계적인 data curation 방법 제시.

요약:

  • SEAL: MLLM에 visual search 능력을 부여하는 meta-architecture.
  • VWM: visual search 결과를 저장하고 VQA LLM에 제공.
  • V*: common sense를 활용하여 high-resolution 이미지에서 효율적으로 target을 localizing하는 알고리즘.
  • A* 알고리즘과의 유사성을 통해 V*의 효율성 설명.
  • 체계적인 data curation으로 VQA LLM 성능 향상.