논문리뷰

VLM : 빠른 논문 리뷰 : TOWARDS UNDERSTANDING VISUAL GROUNDING IN VISION-LANGUAGE MODELS

AI바라기 2025. 9. 16. 12:19

쉬운 설명

이 논문이 설명하는 VLM의 'visual grounding'은 단순히 사진을 보고 "강아지가 있다"고 말하는 것을 넘어, "왼쪽 소파 위에 앉아있는 갈색 강아지"라는 문장을 듣고, 이미지의 정확한 '그' 강아지 위치에 네모 박스를 칠 수 있는 능력과 같다. 이 논문은 VLM이 어떻게 하면 이 능력을 더 잘 갖출 수 있는지, 마치 좋은 탐정이 되기 위한 훈련법(학습 파이프라인)과 신체 조건(아키텍처 설계), 그리고 해결해야 할 어려운 사건 파일(향후 연구 과제)들을 체계적으로 정리한 종합 보고서라고 할 수 있다.

 

 

Vision-Language Model의 Visual Grounding 연구 동향 분석

용어 설명

  • Visual Grounding: 텍스트 설명(description)이나 지시(instruction)를 바탕으로, 시각적 입력(visual input) 내의 특정 객체, 지역, 또는 개념을 정확하게 찾아내고 식별하는(localize and identify) 모델의 능력. 이 논문에서는 단순한 객체 지칭 이해(Referring Expression Comprehension)를 넘어, grounded captioning, VQA 등 더 넓은 범위로 정의함.
  • Vision-Language Models (VLMs): 시각 정보와 텍스트 정보를 함께 이해하고 처리하는 multimodal model.
  • Referring Expression Comprehension (REC): 주어진 텍스트 설명이 지칭하는 이미지 내 특정 객체의 위치(bounding box)를 찾는 task.
  • Pixel-level Representation: 이미지를 patch grid로 나누고, 각 patch를 시각 토큰(visual token)으로 변환하여 표현하는 방식. vision transformer (ViT) 기반 모델에서 주로 사용.
  • Object-centric Representation: 이미지 내에서 객체 후보 영역(region proposals)을 먼저 추출하고, 모델이 텍스트와 가장 일치하는 후보를 선택하게 하는 방식.
  • Set-of-Marks (SOM): 이미지 분할(segmentation) 후 각 영역에 문자, 기호, 색상 등의 mark를 시각적으로 추가하여 VLM이 grounding을 수행하도록 하는 2단계 접근법. grounding 능력이 없는 VLM에 특히 유용.
  • Multimodal Connector: Vision encoder에서 나온 시각 embedding과 Language model의 텍스트 embedding 공간을 정렬(align)하고 연결하는 모듈. 단순한 linear projection부터 Q-former, resampler 등 복잡한 구조까지 다양함.

Purpose of the Paper

이 논문은 최신 Vision-Language Models (VLMs)에서 visual grounding 능력의 중요성을 체계적으로 조망하고, 기존 연구의 한계를 넘어서는 포괄적인 분석을 제공하는 것을 목표로 한다.

  • 기존 연구의 한계 극복: 기존 survey들이 주로 REC(Referring Expression Comprehension)라는 한정된 task에 집중했던 것과 달리, 이 논문은 grounded captioning, grounded VQA, GUI agent 등 상대적으로 덜 탐구된 영역까지 포함하여 grounding의 역할을 폭넓게 분석함.
  • 새로운 분석 관점 제시: 단순히 grounding 관련 task들을 나열하는 것을 넘어, VLM의 핵심 아키텍처 구성 요소(vision encoder, multimodal connector, language backbone)가 grounding 성능에 구체적으로 어떤 영향을 미치는지를 분석함으로써 기존 survey들에서는 다루지 않았던 새로운 관점을 제시함.

Key Contributions and Novelty

Key Contributions

  • Grounding 연구 영역의 포괄적 개관: 일반적인 REC를 넘어, grounded captioning, grounded VQA, GUI agents, grounded reasoning 등 다양한 grounding 관련 연구 영역을 종합적으로 정리함.
  • 아키텍처 관점에서의 Grounding 능력 분석: VLM의 주요 구성 요소인 Vision Encoder, Multimodal Connector, Language Model이 grounding 성능에 미치는 영향을 심도 있게 분석함.
  • Grounding 패러다임의 체계적 분류: 시각 참조(visual reference)를 표현하는 방식(Pixel-level vs. Object-centric), 좌표 표현 방식(Discretised vs. Raw) 등을 체계적으로 분류하고 장단점을 비교 분석함.
  • 최신 개발 및 평가 방법론 종합: 2022년 이후 발표된 최신 VLM들을 중심으로 grounding 모델 개발의 핵심 단계(pre-training, fine-tuning)와 평가에 사용되는 주요 benchmark, dataset, metric을 상세히 정리함.

Novelty

  • 이 논문의 참신성은 새로운 모델이나 기술을 제안하는 것이 아니라, '아키텍처가 성능에 미치는 영향'이라는 새로운 렌즈를 통해 visual grounding 분야를 재조명하고, 기존에 분절적으로 다뤄지던 다양한 grounding task들을 하나의 통합된 프레임워크 안에서 종합적으로 분석했다는 데에 있음. 이는 VLM 연구자들에게 grounding 능력을 향상시키기 위한 실질적인 설계 가이드를 제공함.

Experimental Highlights

이 논문은 survey 논문이므로 자체적인 실험을 수행하지 않지만, 기존 연구들을 종합하여 다음과 같은 핵심적인 실험적 발견들을 강조한다.

  • Language Model의 우위: VLM의 전체 성능, 특히 grounding과 같은 고차원적 이해가 필요한 task에서는 Vision Encoder의 품질보다 Language Model의 품질이 더 큰 영향을 미침.
  • Raw Coordinates의 잠재력: 좌표를 이산적인(discretised) 토큰으로 변환하는 것보다, 숫자 시퀀스 형태의 원시(raw) 좌표로 직접 처리하는 방식이 더 나은 성능을 보일 가능성이 있음. 이는 LLM이 pre-training 과정에서 이미 숫자 순서에 대한 지식을 어느 정도 학습했기 때문일 수 있음.
  • Feature-Preserving Connector의 효과: 이미지 해상도가 낮을 때는 시각 정보를 압축하지 않고 보존하는(feature-preserving) connector가 압축하는(feature-compressing) 방식보다 우수함. 하지만 이미지 해상도가 높아질수록 이 격차는 줄어듦.
  • Transformer 기반 Backbone의 Grounding 우수성: Grounding 및 생성(generation) task에서는 Mamba와 같은 state-space model보다 Transformer 기반의 language backbone이 일관되게 더 나은 성능을 보임.

Limitations and Future Work

  • Lack of Grounding Objectives during Pre-training: 대부분의 VLM 개발 초기 단계(pre-training)에서 grounding을 위한 명시적인 학습 목표가 부족함. 이로 인해 모델이 grounding 능력을 충분히 내재화하지 못함. 향후 연구에서는 고품질의 grounding caption, 대화, GUI 데이터셋을 pre-training 단계부터 통합하여 초기부터 grounding 능력을 배양해야 함.
  • Fine-tuning & Downstream Evaluation의 생태학적 타당성(Ecological Validity) 문제: RefCOCO와 같은 기존 REC benchmark들은 어휘나 객체의 다양성이 제한적이며 빠르게 포화(saturated)되고 있음. 실제 시나리오를 더 잘 반영하는 현실적이고 도전적인 benchmark 개발이 시급함.
  • Agents Interacting with Graphical User Interfaces (GUIs): GUI agent 분야는 아직 초기 단계에 머물러 있음. 텍스트 기반 표현을 넘어, VLM이 시각적 관찰을 통해 직접 GUI와 상호작용하는 multimodal agent의 잠재력이 크며, 관련 모델, 데이터셋, 평가 지표 개발이 중요한 향후 연구 방향임.
  • Multimodal Grounding & Reasoning의 통합: 현재는 grounding과 reasoning이 분리되어 연구되는 경향이 있음. 향후에는 grounding을 reasoning 과정의 중간 단계로 활용하거나, reasoning trace 자체를 grounding하여 모델의 설명 가능성과 신뢰도를 높이는 연구가 필요함. 예를 들어, 모델이 "왜 그렇게 생각했는지"를 이미지의 특정 부분을 지목하며 설명하게 하는 방식이 가능함.

Overall Summary

이 논문은 최신 Vision-Language Model(VLM)에서 'visual grounding'의 역할과 중요성을 포괄적으로 분석한 survey 논문이다. 기존 연구들이 특정 task에 국한되었던 것과 달리, 이 논문은 다양한 grounding 관련 연구 분야를 아우르며 특히 VLM 아키텍처의 핵심 요소들이 grounding 성능에 미치는 영향을 심도 있게 탐구한다. 논문은 pre-training 단계부터 grounding 목표를 포함하고, 더 현실적인 benchmark를 개발하며, grounding을 reasoning 과정과 통합하는 것이 VLM의 multimodal 이해 능력을 한 단계 발전시키는 핵심 과제임을 제시한다.

 

 

더보기

서베이 스타일