AI바라기의 인공지능

VLM : 빠른 논문 리뷰 :Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture 본문

논문리뷰

VLM : 빠른 논문 리뷰 :Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture

AI바라기 2025. 9. 15. 13:09

쉬운 설명 (Easy Explanation)

이 논문의 핵심 아이디어는 **"스마트폰 내비게이션"**에 비유할 수 있습니다.

  • 내비게이션의 성능은 (1) 정확한 현재 위치를 파악하는 GPS 수신 능력 (2) 그 위치를 기반으로 최적 경로를 계산하는 소프트웨어 능력으로 결정됩니다.
  • 여기서 GPS 수신 능력은 MLLM의 **Vision Encoder (+ Positional Encoding)**에 해당하고, 경로 계산 소프트웨어는 **Language Model**에 해당합니다.

이 논문은 MLLM이 길을 잘 못 찾는(공간 이해를 못 하는) 이유가 경로 계산 소프트웨어(Language Model)의 문제라기보다는, 애초에 GPS가 현재 위치를 정확히 파악하지 못하기(Vision Encoder가 공간 정보를 제대로 처리하지 못하기) 때문이라는 것을 밝혀냈습니다. 따라서, 최신 지도를 계속 업데이트(training data 증가)해주는 것만으로는 근본적인 문제 해결이 어렵고, **더 정밀한 GPS 수신기(더 나은 Vision-Language architecture)**를 개발하는 것이 더 시급하다고 주장합니다.

 

 

 

용어 설명 (Glossary)

  • MLLM (Multimodal Large Language Models): Text, image 등 여러 종류의 data를 함께 이해하고 처리하는 Large Language Model.
  • MulSeT (Multi-view Spatial Understanding Tasks): 이 논문에서 제안한 새로운 benchmark. 여러 관점(multi-view)의 이미지에 대한 공간 이해 능력을 평가하기 위해 설계됨.
  • Positional Encoding (PE): Transformer architecture에서 token의 순서나 위치 정보를 모델에 알려주기 위한 입력값.
  • Vision Encoder (VE): MLLM에서 이미지 입력을 처리하여 feature를 추출하는 부분.
  • Reasoning Injection: Model의 구조 변경 없이, prompt 수정을 통해 모델의 추론 능력을 유도하거나 향상시키는 기법.
  • Occlusion Restoration: 한쪽 view에서 가려진(occluded) 객체가 무엇인지 다른 view를 보고 맞추는 task.
  • Distance Comparison: 두 이미지에 공통으로 나타난 객체들 중 기준 객체와 가장 가까운 객체를 찾는 task.
  • Azimuth Transfer: 한 이미지의 시점을 기준으로 다른 이미지에만 있는 객체의 상대적인 방향(egocentric view)을 추론하는 task로, 높은 수준의 공간적 상상력이 필요.

Purpose of the Paper

기존 연구들이 single-view나 video 같은 단편적인 시나리오에 국한되어 MLLM의 공간 이해 능력 한계를 분석했던 점을 극복하고자 했습니다. 이 논문은 "MLLM의 공간 이해 능력 부족이 단순히 training data가 부족하기 때문인가, 아니면 근본적인 architecture의 제약 때문인가?" 라는 핵심 질문에 답하기 위해, data와 architecture 두 가지 관점에서 체계적이고 종합적인 분석을 수행하는 것을 목표로 합니다.


Key Contributions & Novelty

  • Contribution 1: 새로운 Multi-Perspective Benchmark MulSeT 제안 및 공개
    • Novelty: 단순 공간 인식을 넘어, Occlusion Restoration (공간적 매칭), Distance Comparison (직관적 이해), Azimuth Transfer (추상적 상상)로 이어지는 점진적인 난이도를 가진 task들로 구성하여 MLLM의 공간 이해 능력의 여러 측면을 심층적으로 평가할 수 있게 설계했습니다.
  • Contribution 2: Data Scaling의 한계점 실증적 규명
    • Novelty: 단순히 training data 양을 늘리는 것만으로는 공간 이해 능력, 특히 공간적 상상력이 필요한 task에서 성능 향상 폭이 빠르게 둔화되고 상한선(upper bound)이 낮다는 것을 실험적으로 보여주었습니다. 이는 "data만 늘리면 해결될 것"이라는 통념에 반하는 중요한 발견입니다.
  • Contribution 3: 공간 이해 능력의 핵심이 Vision Encoder에 있음을 발견
    • Novelty: Ablation study를 통해 MLLM의 공간 이해 능력은 Language Model의 Positional Encoding (PE)보다 Vision Encoder의 PE에 압도적으로 더 의존한다는 사실을 명확히 규명했습니다. 이는 문제의 원인이 architecture의 초기 시각 정보 처리 단계에 있음을 시사합니다.
  • Contribution 4: Reasoning Injection 기법의 효과 분석
    • Novelty: 명시적으로 생각의 과정을 출력하게 하는 Chain-of-Thought (Explicit) 방식보다, 내부적으로만 추론을 유도하는 Implicit 방식의 prompting이 더 효과적임을 attention visualization을 통해 입증했습니다. Explicit reasoning은 오히려 모델의 attention을 분산시켜 성능을 저하시킬 수 있음을 보여주었습니다.

Experimental Highlights

  • Datasets & Metrics: 자체 제작한 MulSeT benchmark와 video 시나리오를 위한 VSI-Bench를 사용했으며, multiple-choice 질문에 대한 정확도로 성능을 측정했습니다.
  • Data Scaling 실험 (Figure 4): Occlusion Restoration task에서 training data를 0에서 1k로 늘렸을 때 성능이 +24.8%p 급증했지만, 그 이후로는 성능 향상 폭이 미미했습니다. 반면, 가장 어려운 Azimuth Transfer task는 성능 상한선이 현저히 낮았습니다.
  • Architecture Ablation 실험 (Table 2): Qwen2.5-VL-7B 모델에서 Vision Encoder의 PE를 제거(Shuffle-VE-hw)하자 What'sUp 데이터셋 성능이 77.66%p 폭락했지만, Language Model의 PE를 제거(Shuffle-LLM-xy)했을 때는 5.86%p 하락에 그쳤습니다. 이는 공간 정보 처리의 핵심이 Vision Encoder에 있음을 보여주는 결정적인 증거입니다.
  • Reasoning Injection 실험 (Table 3 & Figure 7): Distance Comparison task에서 Explicit CoT를 사용했을 때 성능이 오히려 9.0%p 하락했습니다. Attention map 시각화 결과, Explicit CoT는 모델이 비교 대상(소파, TV 스탠드)이 아닌 질문의 주체(자전거)에만 집중하게 만들어 올바른 추론을 방해하는 것으로 나타났습니다.

Limitations and Future Work

  • Limitations:
    • 현재 MLLM architecture는 **Vision Encoder에서 추출된 풍부한 2D 공간 정보를 Language Model로 전달하는 과정에서 정보 손실이 발생하는 근본적인 병목 현상(bottleneck)**을 가지고 있습니다. 단순히 data를 늘리거나 prompt를 개선하는 것만으로는 이 한계를 넘기 어렵습니다.
  • Future Work:
    • Architectural Enhancements: Vision Encoder의 공간 정보를 더 잘 보존하고 Language Model의 reasoning process에 효과적으로 통합할 수 있는 새로운 architecture 설계가 필요합니다.
    • Targeted Reasoning Injection: Task의 특성에 맞는 reasoning injection 전략을 적용하고, 모델의 내부 메커니즘을 더 깊이 연구하여 성능 저하 없이 추론 능력을 향상시키는 방법을 모색해야 합니다.

Overall Summary

이 논문은 MLLM이 공간적 이해에 어려움을 겪는 이유가 단순히 data 부족보다는 architecture, 특히 Vision Encoder의 Positional Encoding 처리 방식에 근본적인 한계가 있기 때문임을 체계적으로 입증했습니다. MulSeT라는 새로운 benchmark를 통해 이를 실험적으로 분석했으며, data scaling의 명확한 한계를 보여주었습니다. 이 연구는 향후 MLLM의 공간 추론 능력 향상을 위해 단순한 data 확장이 아닌, architecture 혁신과 정교한 reasoning 기법 개발에 집중해야 한다는 중요한 방향성을 제시합니다.


 

 

 

 

 

 

주인장 이해

더보기

이 논문이 한 일 (What the Paper Did)

  • 벤치마크 설계: Multi-view 이미지의 공간 관계를 다각도로 묻는 새로운 QA 벤치마크(MulSeT)를 직접 제작함.
  • 데이터 실험: 데이터 양을 늘려가며 MLLM을 학습시켜도 공간 추론 능력, 특히 상상력이 필요한 Task는 성능 향상에 명확한 한계가 있음을 보임.
  • 아키텍처 진단: 문제의 원인이 LLM이 아닌 Vision Encoder의 위치 정보(PE) 처리 능력 부족에 있음을 PE 제거 실험(Ablation Study)으로 증명함.
  • 프롬프트 분석: 생각 과정을 출력하게 만드는 Explicit CoT가 시각적 주의(attention)를 분산시켜 오히려 공간 추론 성능을 크게 떨어뜨릴 수 있음을 발견함.

핵심 결론 (The Bottom Line)

MLLM의 공간 이해 능력 부족은 데이터 부족 문제가 아니라, Vision Encoder의 근본적인 아키텍처 한계 때문이므로, 해결책은 Vision Encoder 구조 개선에서 찾아야 한다.


포함된 비판점 (Valid Criticisms Included)

  • 당연한 결론: 공간 인지 능력이 텍스트를 처리하는 LLM이 아닌 이미지를 보는 Vision Encoder의 문제라는 결론은 매우 당연하게 예측 가능하며, 획기적인 발견으로 보기는 어렵다.
  • 검증 불가한 주장: Implicit 프롬프트("내부적으로 생각하고 답만 말해")는 모델이 정말로 다르게 작동했는지 전혀 검증할 수 없으며, 사실상 그냥 답만 출력하는 것과 차이가 없어 말장난(wordplay)에 가깝다.

한 줄 최종 요약

이 논문은 새로운 해결책을 제시하기보다, 체계적인 진단 실험을 통해 MLLM 공간 추론 문제의 원인이 (당연하게도) Vision Encoder에 있음을 명확히 '확인'시켜 준 분석 보고서이다.