AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization 본문

논문리뷰

VLM : 빠른 논문 리뷰 : Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

AI바라기 2026. 1. 13. 12:29

용어 설명 (Terminology)

  • Thinking with Map (TwM): 이 논문에서 제안한 핵심 개념으로, AI가 내부 지식에만 의존하지 않고 사람처럼 지도(Map) 도구를 사용하여 가설을 세우고 검증하며 위치를 추론하는 agent-in-the-map loop 프로세스.
  • Geolocalization: 이미지의 시각적 단서(visual clues)를 이용해 해당 사진이 지구상 어디에서 찍혔는지 위도(Latitude)와 경도(Longitude)를 예측하는 작업.
  • Agentic RL (Reinforcement Learning): 모델이 도구를 사용하여 환경과 상호작용하는 능력을 강화하기 위한 강화 학습. 여기서는 GRPO 알고리즘을 사용함.
  • GRPO (Group Relative Policy Optimization): Critic 모델 없이 그룹 단위의 보상을 통해 Policy를 최적화하는 효율적인 RL 알고리즘.
  • Test-Time Scaling (TTS): 추론(Test) 단계에서 계산 자원을 더 사용하여 성능을 높이는 기법. 이 논문에서는 Parallel Sampling (여러 경로 탐색)과 Verifier (검증기)를 조합하여 사용.
  • Pass@K / Pass@1: 모델이 K개의 답을 내놓았을 때 그중 정답이 있을 확률(Pass@K)과, 최종적으로 선택한 1개의 답이 정답일 확률(Pass@1).
  • MAPBench: 이 논문에서 새롭게 구축한 벤치마크 데이터셋. 중국 내 최신 거리뷰(Street-view)와 POI 정보를 포함하며, 기존 데이터셋의 시의성 부족과 지역 편향 문제를 해결함.

Purpose of the Paper

  • 기존 연구의 한계 (Internal Reasoning의 한계): 기존의 LVLM (Large Vision-Language Model) 기반 Geolocalization 연구들은 모델의 내부 지식(World Knowledge)이나 단순한 Chain-of-Thought(CoT) 추론에만 의존했습니다. 이는 그럴싸한 거짓말(Hallucination)에 취약하며, 구체적인 위치 검증이 불가능하다는 한계가 있었습니다.
  • 인간의 행동 모방 (Human-like Verification): 사람은 낯선 장소를 찾을 때 기억에만 의존하지 않고, 가설을 세운 뒤 지도 앱(Map App)을 켜서 검색하고 주변 지형을 대조하며 검증합니다.
  • 새로운 접근 방식: 이 논문은 모델에게 지도 도구(Search, POI lookup, Static/Satellite Map) 를 쥐여주고, 스스로 검색하고 검증하는 Thinking with Map 능력을 부여하여 정확도와 신뢰성을 획기적으로 높이고자 했습니다.

Key Contributions

1. Thinking with Map Framework (Novelty: Methodology)

  • Agent-in-the-map Loop: 위치 추정을 단순한 정답 맞히기가 아니라, 가설 생성(Hypothesis) → 지도 검색(Tool Call) → 교차 검증(Cross-Validation) 의 반복적인 에이전트 행동으로 재정의했습니다.
  • Structured Map Environment: POI(Point of Interest) 검색, 정적 지도 확인 등 실제 지도 API를 Tool로 통합하여 모델이 구조화된 지리 정보를 활용하게 만들었습니다.

2. Two-Stage Optimization Scheme (Novelty: Training Pipeline)

  • Agentic RL with GRPO: Qwen3-VL 모델을 기반으로 GRPO 알고리즘을 적용하여, 모델이 도구를 효율적으로 사용해 정답 후보군(Pass@K)을 잘 찾아내도록 강화 학습을 수행했습니다.
  • Parallel Test-Time Scaling (TTS): 추론 시 하나의 경로만 믿는 대신, 여러 개의 추론 경로(Trajectory)를 병렬로 생성하고, 별도의 Verifier 모델이 수집된 증거를 바탕으로 가장 타당한 위치를 선택(Pass@1 향상)하도록 설계했습니다.

3. MAPBench Benchmark (Novelty: Dataset)

  • 기존 데이터셋(Google Street View 등)의 Old Data(오래됨)Western Bias(서구권 편향) 문제를 해결하기 위해, 중국 전역을 커버하는 최신 MAPBench를 구축했습니다.
  • 데이터를 Easy(기초 모델도 맞춤)와 Hard(추론 및 도구 사용 필요)로 구분하여 에이전트 능력을 정밀하게 평가했습니다.

Experimental Highlights

  • State-of-the-art Performance: 제안한 방법(Thinking with Map)은 MAPBenchIMAGEO-Bench, GeoBench 등 주요 벤치마크에서 오픈 소스 모델뿐만 아니라 Gemini-3-Pro (with Google Search/Map)GPT-5와 같은 최신 Closed-source 모델을 능가하거나 대등한 성능을 보였습니다.
  • Acc@500m (Fine-grained Accuracy): 가장 중요한 지표인 500m 이내 정확도에서 압도적인 향상을 보였습니다.
    • MAPBench-Hard 기준: Gemini-3-Pro(4.02%) 대비 Thinking with Map + RL + Parallel(x4) 모델이 14.86% 로 3배 이상의 성능을 기록했습니다.
    • GeoBench 기준: 기본 모델(12.21%) 대비 최종 모델이 57.94% 까지 성능이 급상승했습니다.
  • RL & Parallel Sampling의 효과:
    • 단순히 지도 도구만 붙였을 때는 노이즈로 인해 성능 저하가 발생하기도 했으나, RL 훈련 후 안정적인 성능 향상을 보였습니다.
    • Parallel Sampling의 개수(N)를 늘릴수록(2 -> 4) Verifier가 더 정확한 정답을 필터링해 내며 성능이 선형적으로 증가함을 입증했습니다.

Limitations and Future Work

  • Human-level Map Use의 부족: 모델이 지도를 사용하게 되었지만, 여전히 사람처럼 방향(Orientation) 을 추론하거나 건물 간의 상대적 공간 관계(Spatial Relationship) 를 완벽하게 이해하여 위치를 좁혀나가는 능력은 부족합니다.
  • Limited RL Training Data: 현재 RL 훈련 데이터가 제한적이어서, 더 다양한 오픈 환경(Open Environment)에서의 일반화 성능을 확보하는 데 제약이 있습니다.
  • Future Work:
    • Scaling Up RL: RL 훈련 규모를 키워 모델이 더 복잡하고 창발적인(Emergent) 지도 활용 전략을 배우도록 연구할 예정입니다.
    • Stronger Single Agent: 현재는 Parallel TTS(병렬 샘플링)로 한계를 보완하고 있지만, 향후에는 TTS 없이도 긴 호흡의 추론을 완벽히 수행하는 단일 에이전트(Single Agent)를 개발하는 것이 목표입니다.

Overall Summary

이 논문은 LVLM이 내부 지식의 환각에서 벗어나 실제 지도 도구를 활용해 위치를 검증하는 Thinking with Map 패러다임을 제안했습니다. Agentic RLParallel TTS라는 두 단계 최적화를 통해, 모델이 여러 가설을 생성하고 지도로 검증하여 최적의 위치를 찾아내는 능력을 부여했습니다. 결과적으로 최신 상용 모델(Gemini-3-Pro, GPT-5)을 뛰어넘는 정밀한 위치 추정 성능을 달성함으로써, Geolocalization 분야를 단순 분류 문제에서 도구 기반의 복합 추론(Reasoning) 문제로 격상시킨 중요한 연구입니다.


쉬운 설명 (Analogy)

퀴즈 쇼 참가자 vs. 명탐정

  • 기존 모델 (Quiz Show Contestant): 사진을 보자마자 "아, 이거 파리 에펠탑 근처네!"라고 기억력(학습된 데이터)에만 의존해서 답을 외칩니다. 기억이 틀리면 엉뚱한 답을 자신 있게 말합니다(Hallucination).
  • 이 논문의 모델 (Detective): 사진을 보고 "프랑스어 간판이 보이네? 파리일 수도 있겠다"라고 추측(Hypothesis)합니다. 그다음 스마트폰(지도 도구) 을 꺼내서 실제 그 가게 이름을 검색해 보고, 거리뷰(Map)를 켜서 사진 속 건물과 실제 건물이 일치하는지 눈으로 확인(Verification)합니다. 확신이 들 때까지 여러 후보지를 꼼꼼히 조사한 뒤에야 "여기가 맞습니다"라고 답합니다.

이 논문은 AI에게 '스마트폰 지도 앱을 쥐여주고 검증하는 법' 을 가르쳐서, 찍기 실력이 아니라 수사 능력을 키워준 연구입니다.

 

 

 

 

더보기

사진과 컨텍스트를 입력받음.

사진의 좌표를 찾아라 라는 식의 컨텍스트

 

모델은 추론 후 도구사용 or 정답을 결정

 

도구 사용 결과는 컨텍스트에 반영됨.

 

도구의 종류는 확대, 검색, 장소 목록 검색, 특정 장소의 좌표, 2D 약도, 위성사진등 다양하게 있음

 

 

암튼 최종 적으로 정답을 선택했다면 거리 비례 리워드를 주고, json 형식으로 도구를 썼는지에  대한 보상 점수가 들어감.(추가 점수 보다는 아예 점수를 안줌 안지키면)

 

그렇게 학습.

 

 

 

별점 2.5점

성능 자체는 좋게 나왔지만 그 방법이 도구 사용에 그침. 내재적 추론 능력의 향상이 없고, 큰 노벨티가 없어보임.

그리고 데이터에 너무 의존적임. api에 없는 데이터의 경우 전혀 찾지 못할 것임.