VLM : 논문리뷰 : ONE MORE GLANCE WITH SHARP EYES: RETHINKINGLIGHTWEIGHT CAPTIONING AS A PRACTICAL VISUALSPECIALIST

논문리뷰

VLM : 논문리뷰 : ONE MORE GLANCE WITH SHARP EYES: RETHINKINGLIGHTWEIGHT CAPTIONING AS A PRACTICAL VISUALSPECIALIST

AI바라기 2025. 9. 3. 18:06

쉬운 설명 (Easy Explanation)

이 논문의 핵심 아이디어는 우리가 그림을 보고 설명하는 과정과 비슷합니다.

처음에는 그림을 대충 훑어보고 "고양이가 의자 위에 있다"고 초안(initial caption)을 작성합니다. 그런 다음, 내가 쓴 초안을 다시 읽어보면서 그림을 더 자세히 들여다봅니다. "아, 그냥 고양이가 아니라 검은 고양이네. 그리고 그냥 의자가 아니라 나무 의자구나"라며 세부 사항을 발견하고 "검은 고양이가 나무 의자 위에 앉아 있다"고 문장을 수정(refinement)하는 것과 같습니다.

이 논문은 AI 모델이 바로 이 "두 번째 자세히 보기" 과정을 자동으로 수행하게 만든 것입니다. 특히, 모델이 '수정하는 방법'을 잘 배우도록, 일부러 작은 오류가 포함된 예제 문제(pseudo-initial captions)를 만들어 학습시킨 점이 독창적입니다.

용어 설명 (Glossary)

Lightweight Captioning: 대규모 LLM 대신, 파라미터 수가 훨씬 적은 소형 language model (e.g., OPT-125M)을 사용하여 edge device에서도 구동 가능하도록 이미지 캡셔닝을 수행하는 것.
Visual Specialist: VQA나 복잡한 reasoning 등 다양한 task를 수행하는 MLLM (generalist)과 달리, 이미지 캡셔닝이라는 특정 task에 특화된 모델.
Visual Blindness: Vision encoder가 서로 다른 이미지에 대해 유사하거나 모호한 feature를 생성하여, 모델이 이미지의 세부 정보를 정확히 인식하지 못하는 현상. 이 논문에서는 attention 분산 및 coarse-grained feature를 주요 원인으로 지목함.
Sharp-Eyed Refinement (SeR): 이 논문에서 제안하는 핵심 framework. 사람이 이미지를 설명할 때 전체를 훑어본 후(first glance) 특정 영역을 다시 자세히 보는(one more glance) 것에서 영감을 받음. 모델이 초기 캡션(initial caption)을 생성한 뒤, 이 캡션을 단서로 이미지의 중요 영역에 다시 집중하여 더 정확하고 상세한 캡션으로 개선(refine)하는 2단계 프로세스.
DeepLens: Sharp-Eyed Refinement framework의 핵심 모듈. 초기 캡션(text)과 vision encoder의 multi-layer visual feature(vision)를 함께 입력받아, 초기 캡션과 연관된 이미지 영역의 세부 정보를 추출하여 language model에 전달하는 역할을 함.
Pseudo-initial Captions: Refinement 단계를 효과적으로 학습시키기 위해 인위적으로 생성한 "약간 틀린" 캡션. Ground-truth 캡션을 GPT를 이용해 미세하게 (개체, 속성 등을) 변경하여 만듦. 모델이 완전히 다른 캡션을 새로 생성하는 것이 아니라, 작은 오류를 수정하는 '방법'을 학습하도록 유도하는 중요한 학습 장치.

Purpose of the Paper

이 논문은 기존의 거대 MLLM이 높은 계산 비용으로 인해 스마트폰, 로봇 등 edge device에 적용하기 어렵다는 한계를 극복하고자 했습니다. 이를 위해 '거대 모델만이 정답인가?'라는 질문을 던지며, 작고 가벼운 visual specialist 모델이 실용적인 대안이 될 수 있음을 증명하는 것을 목표로 합니다.

기존 연구와 차별점은, 단순히 모델을 작게 만드는 것을 넘어, 작은 모델이 필연적으로 겪는 'visual blindness' 문제를 해결하기 위해 'Sharp-Eyed Refinement'라는 새로운 2단계 접근법을 제안했다는 점입니다. 이는 기존의 single-pass captioning 방식에서 벗어나, 모델이 자신의 초기 예측을 바탕으로 다시 한번 이미지를 '자세히 보도록' 유도하는 독창적인 방식입니다.

Key Contributions & Novelty

Contribution 1: 125M 파라미터 수준의 소형 language model을 사용한 lightweight captioner가 수십 배 큰 LLaMA-7B 기반의 대형 MLLM과 비교 가능한 수준의 캡셔닝 성능을 달성할 수 있음을 실험적으로 입증했습니다.
- Novelty: 이미지 캡셔닝과 같이 사실 정보 나열이 중요한 task에서는 LLM의 복잡한 reasoning 능력보다 정확한 visual grounding이 더 중요할 수 있다는 점을 시사하며, '무조건 큰 모델'이라는 패러다임에 도전했습니다.
Contribution 2: 인간의 인지 과정을 모방한 Sharp-Eyed Refinement (SeR) framework를 제안했습니다.
- Novelty: 기존 captioning 모델들이 한 번에 최종 결과를 생성(single-pass)했던 것과 달리, 모델 스스로 초기 생성 캡션을 검토하고 이를 단서로 시각적 정보를 재탐색하여 결과를 개선하는 multi-step refinement 개념을 captioning 분야에 처음으로 도입했습니다.
Contribution 3: Sharp-Eyed Refinement를 위한 핵심 모듈 DeepLens를 개발했습니다.
- Novelty: 새로운 vision tower를 추가하는 비효율적인 방식 대신, 기존 vision encoder의 여러 중간 layer에서 추출한 multi-layer feature를 활용합니다. 초기 캡션을 가이드로 삼아 이 feature들로부터 필요한 세부 정보를 효과적으로 추출함으로써, 파라미터 증가를 최소화하며 visual grounding 능력을 극대화했습니다.
Contribution 4: Refinement 학습을 위한 pseudo-initial captions 생성 및 2-stage fine-tuning 전략을 제시했습니다.
- Novelty: 모델이 생성한 불완전한 캡션으로 학습할 때 발생하는 불안정성 문제를 해결하기 위해, 정답 캡션을 약간 변형한 pseudo-initial captions을 사용했습니다. 이는 모델에게 '오류를 수정하는 방법'을 명확하고 안정적으로 학습시키는 독창적인 훈련 기법입니다.

Experimental Highlights

성능 비교 (vs. Large Models): 제안된 450M 파라미터의 specialist 모델은 MS COCO 데이터셋에서 7.3B 파라미터의 LLaVA-1.5와 대등한 성능을 보였고, ShareGPT4V & DCI 상세 캡셔닝 데이터셋에서는 CIDEr 점수 기준 40.5점을 기록하며 36.1점의 LLaVA-1.5를 능가했습니다.
Sharp-Eyed Refinement 효과 검증: SeR framework를 적용했을 때, MS COCO에서 CIDEr 점수가 +3.9점, ShareGPT4V & DCI에서 +3.1점 향상되는 등 모든 데이터셋에서 일관되고 큰 폭의 성능 개선을 보였습니다.
효율성: 제안 모델은 LLaVA-1.5-7B 대비 파라미터 수를 93% 줄였고, 추론 속도는 97% 더 빨랐습니다.
실용성 (On-device Test): 실제 edge device인 Jetson Nano (4G)에서 성공적으로 구동되었으며, 이는 메모리 부족으로 실행조차 실패한 LLaVA-1.5-7B와 대조됩니다. 이는 제안 모델의 실용적 가치를 명확히 보여줍니다.

Limitations and Future Work

Limitations:
- 소형 LM의 본질적 한계: 모델의 크기가 작기 때문에 반복적인 표현 사용, 문장 유창성 저하, OCR 능력 부족, 세상 지식(world knowledge) 부족 등의 문제가 여전히 관찰됩니다.
- 평가 지표의 한계: CIDEr, BLEU 등 현재 사용되는 자동 평가 지표들이 사람의 판단과 항상 일치하지는 않아, 모델의 유창성 저하 같은 미묘한 단점을 정확히 포착하기 어렵습니다.
Future Work:
- Iterative Refinement: 현재는 1회의 refinement만 수행하지만, 여러 번 반복적으로 캡션을 개선하는 방식의 효과를 탐구할 필요가 있습니다.
- Unified Architecture: 현재 LLaVA framework를 기반으로 하지만, 캡셔닝에 더 최적화된 통합된(unified) multimodal architecture를 설계하는 연구를 제안합니다.
- Reinforcement Learning: pseudo-initial captions을 사용하는 대신, 강화학습(RL)과 같은 보상 기반 학습을 도입하여 캡션의 질을 향상시키는 방안을 모색할 수 있습니다.
- Bias 문제 해결: 모델에 내재될 수 있는 성별, 직업 등의 편향성을 탐지하고, 문화적 맥락과 도메인 적응을 통해 이를 해결하는 연구가 필요합니다.

Overall Summary

이 논문은 대규모 MLLM을 적용하기 어려운 현실적인 제약을 해결하기 위해, 작고 가벼운 visual specialist 모델의 가능성을 탐구합니다. 모델의 'visual blindness' 한계를 극복하기 위해, 인간의 인지 과정을 모방한 Sharp-Eyed Refinement framework와 DeepLens 모듈을 제안하여, 초기 캡션을 바탕으로 이미지의 세부 정보를 다시 한번 정밀하게 포착합니다. 그 결과, 훨씬 적은 계산 자원으로 대형 모델과 대등하거나 더 나은 성능을 달성하며 on-device 이미지 캡셔닝의 실용적인 방향을 제시했다는 점에서 중요한 의의를 가집니다.

ABSTRACT

Image captioning은 비디오 교육 시스템이나 탐사 로봇과 같은 애플리케이션에 필수적이지만, multimodal large language models (MLLMs)의 높은 연산 요구량으로 인해 이러한 models을 로컬 기기에 배포하는 것은 어려운 일입니다.

이 문제를 해결하기 위해, 저희는 우선 LLaMA-7B보다 56배 작은 1억 2,500만 개의 parameter를 가진 language model에 기반한 specialist를 구현하여 lightweight captioning을 연구하고, 단일 문장 및 상세 captioning tasks 모두에서 그 performance를 평가했습니다. 놀랍게도 저희 model은 대규모 multimodal generalists와 비슷한 performance를 달성할 수 있음을 발견했으며, 이는 온디바이스 애플리케이션을 위한 강력한 visual specialist로서의 잠재력을 시사합니다.

유망하긴 하지만, 저희 model은 다른 MLLMs와 마찬가지로 visual blindness를 겪으며 때때로 semantic captioning errors를 일으키는 limitation을 보입니다. 저희는 toy experiments를 수행하여 근본적인 원인을 조사했고, 문제가 비효율적인 attention mechanisms와 제한된 visual representations에서 비롯된다는 것을 관찰했습니다.

이를 완화하기 위해, 저희는 향상된 visual grounding을 통해 caption quality를 높이는 새로운 captioning framework인 Sharp-Eyed Refinement를 개발했습니다. 핵심적으로 저희의 DeepLens는 초기 탐색 단계에서 식별된 정보가 풍부한 영역에 집중함으로써 상세한 visual representations을 추출합니다. 저희의 실험은 이전의 소규모 captioning models 및 대규모 generalists에 비해 저희 specialist가 갖는 이점과 저희 framework의 효과성을 모두 확인시켜 줍니다.

1 INTRODUCTION

Image captioning은 LLMs의 인상적인 language processing 능력을 활용하는 MLLMs의 등장으로 빠르게 발전했습니다. 이 captioning 기술은 Fig. 1 (a)에서 보듯이 다양한 애플리케이션에서 중요한 역할을 할 수 있습니다. 예를 들어, 비디오 교육 시스템은 시간적 이해를 위해 프레임 단위의 caption generation을 활용하는 반면, 탐사 로봇은 복잡한 환경을 탐색하기 위해 그래프 구조의 장면 설명을 구성합니다. 이러한 장점에도 불구하고, MLLMs의 큰 연산 요구량 때문에 이러한 기술을 로컬 장치에 배포하는 것은 여전히 중요한 과제로 남아 있습니다. 따라서 저희는 LLaVA framework에서 LLaMA-7B보다 56배 작은 model인 OPT-125M을 사용하여 captioning specialist를 구현함으로써 lightweight captioning을 탐구합니다. 단일 문장 및 상세 captioning tasks 모두에서 평가한 결과, 저희의 lightweight model이 인상적인 performance를 달성할 수 있음을 발견했습니다. 실제로, 이는 최근에 소개된 small-scale captioning models을 능가할 뿐만 아니라, LLaVA-7B와 InstructBLIP과 같은 대규모 multimodal generalists와 비슷한 performance를 달성합니다. 이러한 결과는 OPT-125M의 제한된 language modeling capacity를 고려할 때 특히 주목할 만하며, 사실 정보 중심의 image captioning tasks에서는 LLMs의 복잡한 reasoning capabilities가 덜 중요할 수 있음을 시사합니다.

이러한 놀라운 결과에도 불구하고, 저희의 lightweight captioner에는 limitations이 있습니다. 이는 때때로 부정확한 captions를 생성하는데, 이는 LLM’s hallucination과 vision encoders의 blindness와 같이 MLLMs에서 널리 연구된 문제입니다. 저희 specialist’s parameters의 대부분이 visual encoder에 할당되어 있기 때문에, 저희는 잠재적인 근본 원인으로 visual blindness에 초점을 맞춥니다. 이 문제는 vision encoder가 눈을 감은 채 이미지를 인식하면서 visual representation을 조작하기 때문에, LLM이 종종 정확한 outputs을 생성하는 데 어려움을 겪는다는 것을 의미합니다.

저희는 현재 captioning models의 limitations을 분석하는 단계로 나아갑니다. 먼저, 저희는 단일 패스 captioning 동안 model’s attention을 조사했고, model이 이미지의 중요한 영역에 집중하는 데 어려움을 겪고 대신 이미지 전체에 attention을 분산시킨다는 것을 발견했습니다. 더 나아가, CLIP encoder로부터의 visual representations이 정확한 caption generation을 위한 충분한 세부 정보를 결여하고 있음을 관찰했습니다. 구체적으로, 이러한 features를 사용하여 이미지를 재구성했을 때 원본 이미지와 상당한 차이가 발생했습니다. 이러한 분석은 LM에 명확한 detection 정보를 제공하기 위해 더 집중되고 상세한 visual representations의 필요성을 강조합니다.

이러한 통찰력을 바탕으로, 저희는 Fig. 1에 설명된 바와 같이 새로운 captioning framework인 Sharp-Eyed Refinement를 제안합니다. 저희의 방법은 이미지에 대한 초기의 넓은 이해에 이어 더 집중적이고 상세한 분석이 뒤따르는 인간의 이미지 묘사 과정을 모방합니다. 저희 framework에서, 저희 model은 대략적인 caption을 생성한 다음 그 설명을 구체화합니다. 저희 framework의 핵심은 refinement 동안 이미지와 초기 caption 모두를 효율적으로 재검토할 수 있게 해주는 multimodal connector인 DeepLens입니다.

저희의 contributions는 다음과 같이 요약됩니다: (i) 저희는 실용적으로 중요하지만 아직 덜 탐구된 lightweight captioning models 주제를 연구하고 (Sec. 2), 강력한 visual specialists로서의 잠재력을 입증합니다 (Sec. 3). (ii) 저희는 '날카로운 눈으로 한 번 더 보기'라는 인간의 메커니즘을 구현할 것을 제안하고 새로운 refinement framework를 소개합니다 (Sec. 4). (iii) 저희는 초기 caption에 의해 안내되는 관련 visual features를 추출하여 집중적인 refinement를 가능하게 하는 DeepLens를 제시합니다 (Sec. 5). (iv) 저희는 제안된 framework와 module의 효과와 효율성을 검증하기 위해 광범위한 실험을 수행합니다 (Sec. 6). 이러한 노력이 리소스가 제한된 장치에 배포할 수 있는 효율적인 captioning models의 추가적인 발전에 영감을 주기를 바랍니다.

1 INTRODUCTION 정리노트 (For AI Researchers)

연구 동기 (Motivation)
- Image captioning에 MLLMs가 효과적이지만, 연산량이 커서 스마트폰 같은 로컬 기기에 배포하기 어렵다는 현실적인 문제에서 출발.
초기 접근 및 핵심 발견 (Initial Approach & Key Finding)
- LLaMA-7B의 1/56 크기인 OPT-125M을 사용해 lightweight captioning specialist model을 제작.
- 놀라운 결과: 이 작은 model이 LLaVA-7B와 같은 거대 multimodal generalists와 비견될 만한 performance를 달성함.
- 핵심 시사점: 사실(Factual Information) 기반의 image captioning 작업에는 거대 LLM의 복잡한 reasoning 능력이 과도할 수 있으며, lightweight model로도 충분한 성능을 낼 수 있는 잠재력을 확인.
문제 진단 (Problem Diagnosis)
- Lightweight model도 visual blindness (시각적 맹점) 문제로 인해 semantic error를 일으킴.
- 근본 원인 분석:
  1. Attention 분산: Model의 attention이 이미지의 특정 중요 영역에 집중하지 못하고 전체적으로 흩어짐.
  2. Representation 한계: CLIP encoder가 생성하는 visual representations가 captioning에 필요한 세부 정보를 충분히 담지 못함. (이 feature로 이미지를 복원했을 때 원본과 큰 차이가 나는 것으로 이를 증명)
제안 방법론: Sharp-Eyed Refinement Framework
- 핵심 아이디어: 사람이 이미지를 보고 설명하는 과정, 즉 '초견으로 전체를 파악한 후, 더 자세히 보기 위해 다시 한번 집중해서 보는' 메커니즘을 모방.
- 2단계 프로세스:
  1. Initial Glance: Model이 먼저 대략적인 초벌 caption을 생성.
  2. Focused Refinement: 초벌 caption을 바탕으로 이미지의 관련 영역을 다시 집중적으로 살펴 caption을 정교하게 다듬음.
- 핵심 기술: DeepLens
  - 이 framework의 중심이 되는 multimodal connector.
  - 초벌 caption의 내용을 가이드 삼아, 이미지에서 어떤 부분을 더 자세히 봐야 할지 판단하고 관련성 높은 visual features를 추출하는 역할을 수행함.
Contribution 요약
- Lightweight captioning model이 visual specialist로서 높은 잠재력을 가짐을 실험적으로 보임.
- '한 번 더 날카로운 눈으로 보는' 인간의 인지 과정을 모방한 refinement framework를 제안.
- Refinement 과정을 효과적으로 돕는 DeepLens module을 제시.

쉬운 설명 :

이 논문의 아이디어는 AI가 사진을 설명하는 방식을 더 사람처럼 만드는 것입니다. 🖼️

우리가 복잡한 사진을 보고 친구에게 설명해준다고 상상해봅시다. 아마 처음에는 "공원에서 사람들이 있네"라고 전체적인 그림을 먼저 말할 겁니다. 이게 이 논문에서 말하는 '초벌 caption' 입니다.

그리고 나서 친구가 "사람들이 뭘 하고 있는데?"라고 묻거나, 스스로 더 자세히 설명해주고 싶을 때 사진을 다시 자세히 들여다보겠죠. "아, 자세히 보니 한 명은 벤치에 앉아서 책을 읽고 있고, 다른 한 명은 강아지랑 산책하고 있네"라고 구체적인 정보를 추가할 겁니다.

이 논문이 바로 이 과정을 AI에게 가르치는 겁니다.

첫 번째 보기 (Quick Glance): AI가 사진을 훑어보고 "공원에 사람들이 있다"는 대략적인 설명을 만듭니다.
두 번째 자세히 보기 (Focused Look): 그 다음, 'DeepLens' 라는 특별한 돋보기를 사용합니다. 이 돋보기는 AI가 만든 첫 설명("공원", "사람들")을 단서로 삼아 사진의 해당 부분을 더 집중적으로 쳐다보게 도와줍니다.
설명 다듬기 (Refinement): 돋보기로 자세히 본 정보를 바탕으로, AI는 처음의 밋밋한 설명을 "한가로운 공원에서 한 사람은 벤치에 앉아 책을 보고, 다른 사람은 강아지와 산책을 하고 있다" 와 같이 훨씬 풍부하고 정확하게 다듬습니다.

결론적으로 이 연구는 AI가 단번에 사진을 설명하게 하는 대신, '한번 훑어보고, 그걸 바탕으로 다시 한번 자세히 들여다보게' 만드는 2단계 방식을 통해 작고 가벼운 AI도 훨씬 더 설명을 잘하게 만드는 기술에 대한 이야기입니다. ✨

2 MOTIVATION & SCOPE

Image Captioning as Foundational Technology

Image captioning은 이미지의 visual information을 natural language 설명으로 변환하는 과정입니다. 단순한 standalone task를 넘어, 이 기술은 Fig. 1 (a)에 요약된 바와 같이 광범위한 applications의 기본 구성 요소 역할을 합니다. chatbot systems에서 비디오 입력을 처리하기 위해, image captioning은 여러 frames의 설명을 생성하는 데 사용되며, 이는 instruction following을 용이하게 하기 위해 LLMs에 prompts로 통합됩니다. 마찬가지로, 재난 환경을 위해 설계된 exploration robots와 시각 장애인을 위한 assistive robots는 captioning을 활용하여 관찰된 장면을 구조화된 graph representations으로 encode함으로써, navigation과 user interactions을 지원합니다. 이 연구에서, 저희는 이러한 applications을 위한 핵심적인 조력자로서 image captioning에 초점을 맞춥니다.

Real-World Deployment Challenges.

이러한 applications을 구현하려는 최근 연구들은 일반적으로 open-source MLLMs나 cloud-based APIs (예: OpenAI API)를 image captioners로 활용합니다. 그러나 실용적인 application 관점에서 이러한 접근 방식들은 상당한 어려움을 제시합니다. (1) open-source MLLMs는 스마트폰과 같은 edge devices의 능력을 초과하는 막대한 computational resources를 필요로 하는 반면, (2) cloud-based APIs는 안정적인 인터넷 연결에 의존하는데, 이는 재난 상황에서는 사용 불가능할 가능성이 높기 때문입니다. Tab. 1은 최근 MLLMs에서 사용하는 parameters의 수와 FP16 precision을 가정한 NVIDIA GPU memory 요구 사항을 보여줍니다. 이러한 applications이 여러 장면에 걸쳐 반복적인 captioning process를 요구한다는 점을 고려할 때, 현재 models의 실제 deployment 가능성은 불확실합니다. 이러한 resource-demand mismatch는 lightweight captioning models의 필요성을 강조합니다.

3 EXPLORING LIGHTWEIGHT CAPTIONING

3.1 MODEL CONSTRUCTION & EXPERIMENTAL SETUP

Model construction. lightweight captioning model을 구성하기 위해, 저희는 처음에 LLMs에 대한 의존도를 최소화하는 데 중점을 두었습니다. LLMs는 MLLMs에서 대부분의 computational overhead를 차지하기 때문입니다 (예: LLaVA-7B의 96%는 LLaMA에 기인함). 이를 위해, 저희는 LLaVA 구성에 사용된 LLaMA-7B를 56배 더 작은 language model인 OPT-125M으로 단순히 교체하여 captioning specialist를 구축합니다. 2022년에 출시된 OPT-125M은 500M parameters를 초과하는 현대의 small-scale language models과 달리 매우 작습니다.

Implementation details. 저희는 공개적으로 사용 가능한 LLaVA-1.5 코드를 활용합니다. 이러한 수정 외에, batch size, learning rate, 그리고 fine-tuning 동안 vision encoder는 동결하고 language model과 connector를 모두 업데이트하는 것을 포함한 모든 training strategies는 원본 코드를 따릅니다. 더 자세한 내용은 Sec. H.1과 https://github.com/junha1125/Lightweight-Captioner 에서 확인할 수 있습니다. 모든 실험은 두 개의 NVIDIA A6000 GPUs를 사용하여 수행되었습니다.

Datasets and Evaluations. multimodal connector는 먼저 Caption Concept-balanced 558K에서 pretrained된 후, model은 나중에 소개될 COCO, DCI, 또는 ShareGPT4V와 같은 task-specific datasets에서 fine-tuned 됩니다. 저희는 BLEU, CIDEr, BERTScore와 같은 전통적인 metrics와 더불어 GPT-4o-mini를 사용한 MLLM-as-a-Judge를 고려합니다.

3.2 RESULTS ON SINGLE SENTENCE CAPTIONING

MS COCO Captions는 가장 널리 사용되는 captioning benchmark로, 11만 3천 개의 이미지와 이미지당 5개의 captions으로 구성됩니다. 하나의 caption은 일반적으로 약 10단어의 단일 문장을 포함합니다. Tab. 2의 결과는 저희 model이 1B 미만의 parameters를 활용하는 이전의 small captioning works를 능가함을 보여줍니다. 구체적으로, 저희 model은 SmallCap보다 6.9 높은 CIDEr scores를 달성합니다. 저희 model이 작은 LM을 사용하고 어떠한 전문적인 방법도 포함하지 않는다는 점을 고려할 때, 이러한 결과는 놀라울 정도로 강력한 performance를 나타낼 수 있습니다. 또한, 저희는 specialist model을 LLMs를 활용하고 독점적인 instruction-following datasets에서 trained된 대규모 multimodal generalists와 비교합니다. 훨씬 적은 computational resources를 필요로 함에도 불구하고, 저희 specialist model은 이러한 대형 모델들과 비슷한 performance를 달성합니다. 이 결과에 대한 논의는 Tab. 14와 Sec. D.1에서 제공됩니다.

3.3 RESULTS ON DETAILED CAPTIONING

이미지는 단일 문장 설명을 넘어 더 상세한 내용으로 묘사될 수 있습니다. 따라서 저희는 더 도전적인 detailed captioning tasks에서 specialist의 능력을 검토함으로써 연구를 계속합니다. 이 실험을 위해, 저희는 각각 10만 개와 7.4천 개의 training images를 포함하는 DCI와 ShareGPT4V datasets으로 fine-tuning을 수행합니다. 그런 다음 위 datasets의 test sets에서 저희 model을 평가합니다. 또한 10만 개의 training images와 6천 개의 testing images를 포함하는 GLaMM dataset도 사용합니다. Dataset에 대한 자세한 내용은 Sec. F.2에 포함되어 있습니다.

a man and a woman in a car, with a man in a car, with a woman in a car A Italian street scene features A garden scene centers on a garden of a garden of a garden A nice dinner with a friend. I’m going to have to go to bed. I’m going to What are we having for dinner? What should we eat for a snack? We eat for snack. We eat for snack. Input OPT-125M Output Input OPT-125M Output

Figure 3: 원본 OPT-125M의 Generation examples. 이처럼 제한된 능력에도 불구하고, lightweight language models은 사실적인 image captioning을 효율적으로 수행할 수 있습니다.

저희는 Tab. 3에서 보여지듯이 OPT-125M이 작은 parameter 수 때문에 제한된 language processing capabilities를 가지고 있어, specialist가 이 도전적인 과제에서 어려움을 겪을 것으로 초기에 예상했습니다. 그러나 Tab. 2와 Fig. 4의 결과는 저희 model이 예상과 달리 detailed captioning tasks에서 놀라울 정도로 잘 수행됨을 보여줍니다. 저희는 vision encoder를 동결 상태로 유지하고 OPT-125M만 업데이트했다는 점에 주목합니다. 따라서, detailed caption generation은 전적으로 OPT-125M에 의존하며, vision encoder는 오직 visual cues만 제공합니다.

이러한 결과는 captioning tasks에 대한 lightweight LM의 효율성을 강조합니다. MLLMs가 VQA 및 instruction following과 같은 작업을 위해 LLMs의 복잡한 reasoning abilities에 의존하지만, 저희의 실험은 주로 사실적인 객체의 나열을 포함하는 captioning이 LLM의 그러한 능력을 크게 요구하지 않음을 나타냅니다. 이는 lightweight captioning model이 captioning-based applications을 위한 효율적이고 실용적인 대안이 될 수 있음을 시사합니다.

인상적인 performance에도 불구하고, 저희 specialist는 다른 MLLMs와 유사한 limitations을 공유하며, 때때로 부정확한 predictions을 생성합니다. 이전 연구들은 이러한 errors를 두 가지 관점에서 해석했습니다: (i) reasoning process 동안 LLMs가 이미지에 존재하지 않는 요소를 묘사하는 hallucination hypothesis; (ii) visual encoder가 불분명하거나 모호한 image embeddings를 생성하는 visual blindness hypothesis. 저희 model이 주로 vision encoder에 할당된 parameters로 구성되어 있다는 점(예: total parameters의 67%가 이 구성 요소에 있음)을 고려할 때, 관찰된 errors는 hallucination보다는 visual blindness의 결과일 가능성이 더 높다고 가정합니다. 다음 섹션에서는 이 문제에 대한 in-depth analysis를 제공하고 저희가 제안하는 solution을 소개합니다.

3 EXPLORING LIGHTWEIGHT CAPTIONING 정리노트 (For AI Researchers)

Model 구성 전략
- 기존 LLaVA framework에서 LLM 파트만 LLaMA-7B에서 56배 작은 **OPT-125M**으로 교체하는 매우 단순하고 직접적인 방식으로 lightweight captioning specialist를 구축.
- Training 핵심: Vision encoder는 그대로 두고(freeze), multimodal connector와 language model(OPT-125M) 파트만 fine-tuning하는 전략을 사용.
실험 결과 및 핵심 발견
- 단문 Captioning (MS COCO): 기존의 10억 parameter 미만 소형 model들보다 월등한 성능을 보였으며, 놀랍게도 LLaVA-7B와 같은 거대 multimodal generalists와 비견될 만한 performance를 달성.
- 상세 Captioning (DCI 등): OPT-125M 자체의 언어 생성 능력은 제한적임에도 불구하고, 예상을 뛰어넘어 여러 문장으로 구성된 상세 captioning 작업에서도 매우 뛰어난 성능을 보임.
- 중요한 관찰: Vision encoder가 동결된 상태에서 오직 OPT-125M만 업데이트했기 때문에, 상세한 설명을 생성하는 능력은 전적으로 이 작은 LM의 잠재력에서 나온 것임을 확인.
결론 및 시사점
- Image captioning은 사실 기반의 객체와 상황을 나열하는 작업이 핵심이므로, VQA 등에서 요구되는 거대 LLM의 복잡한 reasoning 능력이 반드시 필요하지는 않음.
- Lightweight captioning model이 리소스가 제한된 실제 application 환경에서 매우 효율적이고 실용적인 대안이 될 수 있음을 강력하게 시사.
한계점 정의 및 원인 분석
- 높은 performance에도 불구하고, 다른 MLLMs처럼 사실과 다른 prediction을 생성하는 한계점을 공유함.
- 에러 원인 가설: 에러의 원인으로 (1) LLM이 없는 것을 상상하는 hallucination과 (2) vision encoder가 모호한 정보를 전달하는 visual blindness를 고려.
- 저자들의 주장: Model parameter의 대부분(67%)이 vision encoder에 있기 때문에, 에러의 근본 원인은 hallucination보다는 **visual blindness**일 가능성이 높다고 추론. 이는 다음 섹션에서 제안할 해결책의 명분이 됨.

쉬운 설명 :

이번 섹션은 연구자들이 "작고 가벼운 AI도 사진 설명을 잘 할 수 있을까?" 라는 질문에 답하기 위해 직접 실험해 본 이야기입니다. 🚗💨

AI 경량화 시도: 연구자들은 LLaVA라는 유명한 이미지 인식 AI에서, '언어'를 담당하는 거대한 두뇌(LLaMA-7B)를 아주 작은 초소형 두뇌(OPT-125M)로 바꿔 끼웠습니다. 자동차로 치면, 트럭 엔진을 빼고 스쿠터 엔진을 넣은 셈이죠. '눈'에 해당하는 vision 파트는 그대로 뒀습니다.
놀라운 실험 결과: 모두의 예상을 깨고 이 '스쿠터 엔진 AI'가 사진 설명을 엄청나게 잘했습니다. 간단한 한 문장 설명은 물론, 여러 문장으로 된 아주 상세한 설명까지 원래의 '트럭 엔진 AI'만큼이나 해냈습니다.
알게 된 점: 이 실험을 통해 "사진에 있는 걸 그대로 설명하는 일"은 복잡한 추론 능력보다는 사실을 잘 나열하는 능력이 더 중요하다는 걸 알게 됐습니다. 즉, 스마트폰에서도 충분히 잘 돌아가는 작고 효율적인 AI를 만들 수 있다는 희망을 본 것이죠.
남은 문제점: 하지만 이 작은 AI도 가끔 실수를 했습니다. 예를 들어 사진에 없는 것을 있다거나, 대상을 잘못 말하는 경우였죠. 연구자들은 이 문제가 작은 '두뇌'(LM)가 상상력을 발휘해서(hallucination)가 아니라, 정보를 받아들이는 '눈'(vision encoder)이 애초에 흐릿하거나 잘못된 정보를 전달하기 때문(visual blindness)이라고 결론 내립니다. 애초에 흐릿한 사진을 보고 설명하면 누구든 실수하는 것과 같은 이치죠.

그래서 다음 장에서는 바로 이 '눈'의 문제를 해결하는 방법에 대해 이야기하겠다고 예고하며 끝납니다.

4 WHY SHARP-EYED REFINEMENT?

이 섹션에서는 두 가지 hypotheses를 제안하고 toy experiments와 visualizations를 통해 이를 검증함으로써 저희 captioning specialist의 limitations을 분석합니다. 그런 다음 이러한 문제를 완화하기 위한 저희의 captioning framework를 소개합니다.

Analysis 1. (Hypothesis.) 저희는 첫 번째 hypothesis를 제안합니다: model들은 필수적인 critical regions (예: entities, attributes, relations)에 집중하지 못하고, 대신 이미지 전체에 대한 중복되고 흐릿한 시각을 유지합니다. 이는 model이 이미지를 관찰하고 전체 caption을 single pass로 생성하도록 요구하는 현재의 captioning framework에서 비롯될 수 있습니다. 이 접근 방식은 사람에게 특정 세부 사항에 집중하지 않고 한 번 쓱 보고 이미지를 설명하라고 요청하는 것과 비유할 수 있습니다. (Verification.) 이 문제를 조사하기 위해, 저희는 특정 단어의 generation 동안 model이 어떤 영역에 attends하는지 분석합니다. Sec. H.3에 자세히 설명된 바와 같이, attention maps는 API의 기술을 참조하는 코드를 구현하여 시각화됩니다. Fig. 5에서 볼 수 있듯이, model은 종종 분산된 global attention을 보이며 특정 영역에 집중하지 못합니다. 이러한 발견은 captioning 과정을 더 효과적인 attention mechanisms으로 유도하는 접근 방식의 필요성을 강조합니다.

Note 2: Single-pass captioning은 specialists가 broad attention을 채택하게 하여, 정확한 묘사에 필요한 critical visual regions를 소홀히 하게 만들 수 있습니다.

Analysis 2. (Hypothesis.) Eyes Wide Shut 연구는 visual modality의 결함—특히, CLIP vision encoder가 서로 다른 이미지에 대해 유사한 representations을 생성하는 현상(visual blindness라고 함)—이 MLLM performance를 저해함을 보여줍니다. 이러한 발견을 바탕으로, 저희는 널리 사용되는 CLIP features가 ambiguous representations를 생성할 수 있다고 hypothesize합니다. (Verification.) 저희는 feature embeddings로부터 이미지를 reconstruct하려고 시도합니다. 재구성된 이미지의 품질은 features가 얼마나 많은 visual detail을 보존하는지, 결과적으로 captioning tasks를 지원하는 데 얼마나 효과적인지를 나타내는 지표가 됩니다. 이 실험을 위해, 저희는 Masked Autoencoder (MAE)의 decoder architecture를 직접 사용합니다. COCO 이미지에 대해 MAE decoder만 training하는 동안 CLIP encoder는 frozen 상태로 유지합니다. 저희의 목표는 이미지가 language model 내에서 어떻게 represented되는지 시각화하는 것이었습니다. Fig. 6에서 볼 수 있듯이, CLIP embeddings에서 재구성된 이미지는 원본 이미지와 상당한 편차를 보이며 덜 선명하게 나타납니다. 이 결과는 이러한 visual representations이 captioning을 위한 충분히 상세한 visual information을 제공하지 못할 수 있음을 나타냅니다.

Note 3: CLIP의 final-layer features는 coarse-grained visual information만 제공하므로, fine-grained captioning tasks에 대한 적합성을 제한합니다.

One More Glance. 위의 통찰력을 바탕으로, 저희는 새로운 captioning framework인 Sharp-Eyed Refinement를 제안합니다. Fig. 1 (b)와 (c)에 설명된 바와 같이, 저희 framework는 인간의 묘사 과정에서 영감을 받았습니다. 구체적으로, model은 먼저 초기 caption을 생성합니다. 그런 다음, 동일한 LM이 저희가 제안하는 multimodal connector DeepLens와 함께 이 output을 refines합니다. 이 refinement 단계는 인간이 첫인상을 수정하기 위해 두 번째로 훑어보는 것을 모방하여, model이 더 효과적인 attention mechanisms과 fine-grained grounding을 통해 (즉, 날카로운 눈으로) captions을 생성할 수 있도록 합니다. DeepLens의 설계와 기능은 다음 섹션에서 설명합니다.

저희의 refinement process는 model이 이전 generations을 재검토하여 outputs을 개선하는 self-refinement를 통해 LLM 연구에서 탐구된 아이디어와 유사합니다. 이 개념을 확장하여, 저희는 multimodal refinement를 위해 visual features를 독특하게 통합하여 captioning models에 refinement를 적용합니다. 저희가 아는 한, 이는 이러한 종류의 첫 번째 시도를 나타냅니다.

4 WHY SHARP-EYED REFINEMENT? 정리노트 (For AI Researchers)

이 섹션은 제안하는 방법론인 'Sharp-Eyed Refinement'의 당위성을 증명하기 위해, 기존 lightweight model의 근본적인 문제점을 두 가지 가설과 실험으로 진단하는 부분입니다.

문제 진단 1: 비효율적인 Attention Mechanism
- (가설) 현재의 single-pass captioning 방식(한 번에 보고 한 번에 설명)은 model이 이미지의 핵심 영역(critical regions)에 집중하지 못하고, 전체적으로 분산되고 흐릿한 attention을 갖게 만든다.
- (검증) Attention map을 시각화(Fig. 5)하여 특정 단어를 생성할 때 model이 엉뚱한 곳을 보거나 이미지 전체를 뭉뚱그려 보는(diffuse, global attention) 현상을 실제로 확인.
- (결론) Single-pass 방식은 정교한 묘사에 필요한 집중된 attention을 방해한다.
문제 진단 2: 낮은 품질의 Visual Representation
- (가설) 널리 쓰이는 CLIP vision encoder가 생성하는 visual features 자체가 너무 거칠고 모호해서(ambiguous), 상세한 captioning에 필요한 충분한 시각 정보를 담고 있지 못하다 (visual blindness 문제).
- (검증) CLIP feature embeddings로부터 원본 이미지를 복원(reconstruction)하는 실험을 진행. 그 결과, 복원된 이미지가 원본과 크게 다르고 매우 불분명하게 나타남(Fig. 6)을 통해 feature의 정보 손실이 심각함을 증명.
- (결론) CLIP의 최종 feature는 coarse-grained(대략적인) 정보만 제공하여 fine-grained(세밀한) captioning 작업에는 부적합하다.
해결책 제안: Sharp-Eyed Refinement ("One More Glance")
- (컨셉) 위 두 문제를 해결하기 위해, 사람이 이미지를 묘사하는 과정('첫눈에 파악하고, 두 번째 시선으로 세부 사항을 다듬는')을 모방.
- (프로세스)
  1. Initial Caption: Model이 먼저 초벌 caption을 생성.
  2. Refinement: 동일한 LM이 새로 제안하는 multimodal connector인 **DeepLens**의 도움을 받아, 초벌 caption과 이미지를 다시 참조하여 최종 output을 정교하게 다듬음.
- (핵심 기여) LLM 분야의 self-refinement 개념을 captioning에 확장 적용. 특히, **refinement 과정에 visual features를 다시 활용하는 multimodal refinement**를 시도한 것은 이 연구가 최초.

쉬운 설명 :

이번 섹션은 "우리가 만든 작은 AI가 왜 가끔 실수를 할까?"에 대한 원인 분석과 "그럼 어떻게 해결할까?"에 대한 해결책 아이디어를 제시하는 부분입니다. 🕵️‍♂️

AI가 실수하는 두 가지 이유

한 번에 모든 걸 보려는 습관 👀: 현재 AI는 사람으로 치면, 아주 복잡한 그림을 단 1초만 쓱 보고 전체를 다 설명해야 하는 상황과 같습니다. 이러다 보니 중요한 디테일은 놓치고 "대충 이런 그림이네요" 하는 식으로 두루뭉술하게 설명하게 됩니다. 실제로 AI가 어디를 보는지 추적해보니, 특정 사물을 설명하면서도 엉뚱한 곳을 보거나 그림 전체를 흐릿하게 보고 있었습니다.
흐릿한 시력 👓: 설상가상으로, AI가 세상을 보는 '눈'(vision encoder)의 성능이 생각보다 좋지 않습니다. 연구자들이 AI가 본 정보(visual features)만 가지고 "네가 본 그림을 다시 그려봐"라고 시켜보니, AI는 원본과 전혀 다른 아주 흐릿하고 뭉개진 그림을 그려냈습니다. 즉, AI는 애초에 세상을 고화질이 아닌 저화질로 보고 있었던 겁니다.

해결책 아이디어: "한 번 더 자세히 보기"

이 두 가지 문제를 해결하기 위해 연구자들은 우리가 실제로 그림을 감상하는 방식을 AI에게 가르치기로 했습니다.

첫인상 말하기 (초벌 캡션): AI가 일단 그림을 보고 첫인상, 즉 대략적인 설명을 만듭니다. ("한 남자가 개와 함께 있네요.")
자세히 들여다보기 (Refinement): 그 다음, 'DeepLens' 라는 특수 돋보기를 사용해 첫인상에서 언급된 "남자"와 "개"가 있는 부분을 훨씬 더 집중적으로, 그리고 선명하게 다시 들여다봅니다.
최종 보고서 작성 (최종 캡션): 돋보기로 자세히 본 정보를 바탕으로 "공원에서 갈색 개와 함께 산책하는 파란 옷의 남자"처럼 훨씬 더 정확하고 상세한 최종 설명을 완성합니다.

이처럼 '한 번 훑어보고, 그걸 바탕으로 다시 한번 자세히 들여다보는' 2단계 방식이 바로 이 논문의 핵심 해결책입니다.

5 INSIDE OUR FRAMEWORK: DEEPLENS AND LEARNING STRATEGY

저희는 제안하는 DeepLens를 caption refinement process에 통합함으로써 위에서 언급한 limitations을 완화하는 것을 목표로 합니다. 특히, 이전의 multimodal connectors와 달리 DeepLens는 (i) 이전에 생성된 captions과 (ii) vision encoder의 multi-layer features라는 두 가지 새로운 inputs을 받습니다. 아래에서는 이 설계의 중요성을 자세히 살펴보겠습니다.

Looks at what matters.

"갈색 의자에서 쉬고 있는 고양이"라는 caption과 함께 이미지를 받고 그것을 refine하라는 지시를 받았다고 상상해 보십시오. 이러한 시나리오에서 인간은 자연스럽게 고양이와 의자 같은 핵심 요소에 focuses합니다. 저희는 이전에 생성된 caption을 추가적인 input으로 제공하여 refinement process를 안내함으로써 유사한 mechanism을 사용하려고 시도합니다. 이 설계는 module이 관련 visual regions를 식별하고 attend하도록 합니다. Sec. 4의 실험과 유사하게, 저희는 Fig. 5에서 보여주듯이 model이 이전 captions을 사용하여 second glance를 취하는 동안 attention maps를 검사합니다. 저희는 model이 특정 words에 해당하는 regions에 더 정확하게 focuses하는 것을 관찰했으며, 이는 model이 이미지에서 중요한 것을 보려고 시도함을 나타냅니다.

Looks in detail.

coarse-grained visual feature 문제를 완화하기 위해 일부 연구에서는 추가적인 vision towers 사용을 제안했지만, 이는 computational costs를 증가시킵니다. 예를 들어, Interleaved MoF는 DINOv2에 300M parameters를 추가하는데, 이는 저희의 500M parameter model에 비해 60%나 증가하는 상당한 양입니다. 대신, 저희는 기존 vision encoder의 활용도를 극대화하는 데 중점을 둡니다. 저희는 vision encoder의 다양한 layers에서 추출된 features를 leverage하도록 DeepLens를 설계합니다. FPN을 따라, 이러한 multi-level features는 상세한 이미지 요소의 더 semantically 풍부한 encoding을 가능하게 하기 때문입니다. 실제로, Fig. 6에서 수행된 reconstruction experiment는 이러한 features를 활용하는 것이 더 선명한 이미지를 생성하는 데 도움이 됨을 보여줍니다. 이는 multi-level features를 사용하여 DeepLens에 의해 조작된 visual embeddings가 이미지에 대한 충분한 fine-grained information을 포함하고 있어, LM이 visual content를 더 정확하게 인식하도록 지원함을 의미합니다.

Note 4: 초기 caption을 통해 key regions에 대한 attention을 유도하고, 단일 vision encoder를 multi-level로 활용하는 것은 효과적이고 효율적인 전략이 될 수 있습니다.

DeepLens의 architectural design은 visual features와 초기 captions의 projected embeddings라는 두 가지 inputs을 받는 BERT structure를 따릅니다. 자세한 내용은 Sec. C에 있습니다.

Fine-tuning Strategy.

각 $x_k = (i_k, c_k)$가 이미지 와 그에 해당하는 ground-truth caption 로 구성된 training set $X = {x_1, \dots, x_N}$이 있다고 가정합니다; 은 이러한 쌍의 총 수를 나타냅니다. Fig. 8에서 볼 수 있듯이, 저희는 two-stage fine-tuning strategy를 채택합니다. 첫 번째 단계에서는 LLaVA의 training procedure를 따라 model이 초기 caption을 생성할 수 있도록 하는 데 중점을 둡니다. 구체적으로, 저희는 이 dataset을 사용하여 MLP connector와 lightweight language model에 대해 supervised fine-tuning을 수행합니다.

두 번째 단계는 model이 refinement process를 효과적으로 학습할 수 있도록 하는 것을 목표로 합니다. 저희는 먼저 순간적으로 생성된 captions을 초기 inputs으로 직접 사용하고, true captions 를 refinement의 targets으로 사용하는 것이 오해의 소지가 있을 수 있다고 생각합니다. 만약 저희 captioning specialist가 처음에 '창문 앞의 갈색 테이블'과 같은 것을 생성하고 true caption이 '의자에 앉아 있는 고양이'라면, 이 두 설명은 공통점이 거의 없으며 점진적인 수정을 위한 의미 있는 signal을 제공하지 않습니다. 이렇게 동떨어진 쌍으로 training하면 model이 제공된 초기 caption을 무시하고 완전히 새로운 것을 생성하도록 유도할 것이며, refine하는 법을 배우게 하지 않을 것입니다. 추가적인 설명은 Sec. D.5에 제공됩니다.

이 문제를 해결하기 위해, 저희는 해당하는 ground-truth 와 가깝게 유지되는 pseudo-initial captions 를 구성합니다. 구체적으로, 저희는 GPT-4o-mini를 활용하여 각 에 작은 errors를 의도적으로 도입하여, entities, attributes, relations에 초점을 맞춘 약간 변경된 버전을 생성합니다 (예: '의자에 앉아 있는 개'). second-stage fine-tuning 동안, 각 쌍 $(i_k, \hat{c}_k)$는 language model과 함께 DeepLens에 입력되고, cross-entropy loss가 적용됩니다. 저희의 fine-tuning regimen은 첫 번째 단계에 10 epochs, 두 번째 단계에 2 epochs로 구성됩니다. 가 생성되는 방식에 대한 세부 정보와 예제는 Sec. F.1에 제공됩니다. pseudo-initial captions 를 포함한 결과 dataset 는 공개될 예정입니다.

Rationale for Refinement Fine-tuning.

language model을 $\pi_{\theta}$라고 표기합시다. 각 pseudo-initial caption 는 오직 몇 개의 token positions $E_k = {t | \hat{c}{k,t} \neq c{k,t}}$에서만 ground truth 와 다릅니다. sequence-level cross-entropy objective 하에서, gradients는 주로 에 있는 tokens에 집중될 가능성이 높으며, 이는 model이 의 올바른 부분을 유지하면서 잘못된 부분만 다시 작성하는 형태의 targeted optimization으로 이어집니다. $\Delta_k(\theta) = \log \pi_{\theta}(c_k | i_k, \hat{c}k) - \log \pi{\theta}(\hat{c}_k | i_k, \hat{c}_k)$라고 하면, $L(\theta) \propto -\mathbb{E}[\Delta_k]$가 됩니다. 따라서, 을 최소화하는 것은 기대 margin 를 최대화하는 것과 같으며, 이는 결함이 있는 이전 버전에 비해 refined caption의 likelihood를 직접적으로 증가시킵니다. 사실상, 각 gradient step은 DeepLens가 초기 caption의 errors에 책임이 있을 가능성이 있는 visual regions에 집중하도록 유도하고, language model이 이러한 refined features를 더 잘 해석하도록 안내하여 더 정확한 captions을 생성하게 합니다. 저희는 와 를 preferred 및 less-preferred responses로 간주한다면, 이 targeted optimization이 Direct Preference Optimization (DPO)의 철학과 유사하다는 점에 주목합니다. optimization 중에 두 responses를 대칭적으로 처리하는 DPO와 달리, 저희 방법은 이들을 input과 target이라는 구별된 역할로 할당함으로써 새로운 관점을 제공합니다.

Inference Strategy.

이미지 와 instruction 가 주어지면, model은 먼저 초기 caption $o_{\text{initial}}$을 생성하고, 중복 계산을 피하기 위해 중간 ViT features를 buffer 에 저장합니다. 그런 다음 $o_{\text{initial}}$은 DeepLens와 LM에 입력되어 refined output $o_{\text{refined}}$를 생성합니다. LLM 연구의 Self-Refine과 유사하게 이 process는 iteratively 수행될 수 있지만, 저희 실험에서는 추가적인 performance gains를 제공하지 않는 것으로 나타났습니다. 따라서 저희는 반복적인 process를 채택하지 않지만, Sec. D.6과 Sec. B.6에 설명된 바와 같이 future research를 위한 유망한 방향이 될 것으로 기대합니다.

5 INSIDE OUR FRAMEWORK: DEEPLENS AND LEARNING STRATEGY 정리노트 (For AI Researchers)

이 섹션은 이 논문의 핵심 기술인 DeepLens의 구체적인 설계와 효과적인 refinement 학습을 위한 독창적인 fine-tuning 전략을 설명합니다.

DeepLens: The Core Component
- 핵심 설계 (Novelty): 기존 multimodal connector와 달리 두 가지 새로운 input을 받습니다.
  1. 초기 생성된 caption: Refinement 과정에서 attention을 어디에 집중해야 할지 알려주는 가이드 역할을 합니다. (Sec 5.1 "Looks at what matters")
  2. 단일 vision encoder의 Multi-layer features: 별도의 vision tower를 추가하는 비효율적인 방식 대신, 기존 encoder의 여러 계층에서 feature를 추출 (FPN 아이디어 차용)하여 fine-grained visual information을 확보합니다. (Sec 5.2 "Looks in detail")
- 구조: BERT structure를 따릅니다.
Two-Stage Fine-tuning Strategy
- Stage 1 (Initial Caption Generation): LLaVA와 유사한 표준 supervised fine-tuning을 통해, model이 기본적인 초벌 caption을 생성하는 능력을 학습시킵니다.
- Stage 2 (Refinement Learning):
  - 문제점: Model이 생성한 caption과 ground-truth caption이 너무 다를 경우(예: '테이블' vs '고양이'), model은 refinement을 배우는 대신 초벌 caption을 무시하고 새로 쓰는 법을 배우게 됩니다.
  - 핵심 해결책 (Pseudo-Initial Captions): Ground-truth caption()을 GPT-4o-mini를 이용해 의도적으로 약간의 오류(예: entity, attribute 변경)를 포함하는 **유사-초벌 caption()**으로 변환합니다.
  - 학습 방식: (, )를 input으로, 를 target으로 하여 fine-tuning합니다. Input과 target의 유사성이 높기 때문에, model은 전체를 새로 쓰는 것이 아닌, 오류가 발생한 특정 부분만 수정하는 refinement 능력을 효과적으로 학습하게 됩니다.
학습 원리 및 Inference
- Rationale: 위 학습 방식은 cross-entropy loss가 정답과 다른 소수의 token()에 gradient를 집중시켜, **targeted optimization**을 유도합니다. 이는 DPO에서 preferred/less-preferred 응답을 사용하는 철학과 유사하지만, input/target의 역할을 명확히 구분하는 새로운 관점을 제시합니다.
- Inference Strategy: (1) 초벌 caption()을 생성하며 ViT features를 버퍼에 저장합니다. (2) 초벌 caption과 버퍼의 features를 DeepLens에 입력해 최종 caption()을 얻습니다. Refinement는 단 1회만 수행하며, 반복적인 수행은 성능 향상에 기여하지 않았습니다.

쉬운 설명 :

드디어 이 논문의 비밀 무기, 'DeepLens'의 정체와 훈련 방법이 공개되는 섹션입니다. 🕵️‍♂️🔬

비밀 무기: 특수 돋보기 'DeepLens'

AI 탐정이 쓰는 돋보기 'DeepLens'는 두 가지 특별한 기능이 있습니다.

스마트 하이라이트 기능: 탐정이 작성한 초벌 메모("공원에 남자와 개가 있다")를 돋보기에 입력하면, 돋보기가 사진에서 '남자'와 '개'가 있는 부분을 자동으로 반짝이며 강조해줍니다. "여기! 여기를 더 자세히 보세요!" 하고 알려주는 것이죠. 덕분에 AI는 엉뚱한 곳에 힘 빼지 않고 중요한 부분에 집중할 수 있습니다.
선명도 강화 (Zoom & Enhance) 기능: 하이라이트된 부분을 들여다보면, 돋보기는 단순히 확대만 하는 게 아니라, 원본 사진의 여러 데이터 조각들을 조합해서 흐릿했던 부분을 마법처럼 선명하게 만들어줍니다. 새 카메라를 사는 비싼 방법 대신, 기존 카메라로 찍은 사진 한 장을 아주 똑똑하게 분석해서 화질을 높이는 것과 같습니다.

특별한 훈련법: '실수 바로잡기' 집중 훈련

이 똑똑한 AI 탐정은 어떻게 훈련시켰을까요?

1단계 (기초 훈련): 먼저 사진을 보고 "남자와 개가 있다" 같은 간단한 초벌 보고서를 쓰는 법을 가르칩니다.
2단계 (심화 훈련: '족집게 과외'): 여기가 핵심입니다. 훈련 교관은 AI에게 완전히 엉망인 보고서와 정답 보고서를 주고 "알아서 고쳐봐"라고 하지 않습니다. 그건 너무 어렵기 때문이죠. 대신, **거의 완벽한 정답 보고서에서 단어 한두 개만 살짝 틀리게 바꾼 '오답 노트'**를 만들어 줍니다. 예를 들어, 정답이 "검은 개"라면 "갈색 개"라고 일부러 틀리게 고쳐서 주는 식이죠. AI는 이 '오답 노트'를 보고 "아! 다른 건 다 맞는데 이 단어만 틀렸구나!" 라는 걸 명확히 인지하고, 틀린 부분만 콕 집어 수정하는 연습을 반복합니다. 이 과정을 통해 AI는 통째로 다시 쓰는 법이 아니라, 정교하게 '수정'하고 '개선'하는 진짜 refinement 기술을 배우게 됩니다.

따라서 실제 현장(Inference)에 투입되면, AI는 초벌 보고서를 쓴 뒤, 특수 돋보기(DeepLens)로 딱 한 번 더 자세히 보고 최종 보고서를 완성하는 효율적인 방식으로 일하게 됩니다.

주인장이해

1. Image Features → LM → Initial Caption
2. Initial Caption + Multi-layer Features → DeepLens → Refined Rep.

3. Initial Caption + Refined Rep. → LM → Final Caption (초기 캡션을 보면서 수정)

단계별 상세 설명 및 교정

1. (First Glance) 초안 생성

LM이 Vision Encoder로부터 받은 시각 정보(Visual Representation)를 기반으로 초기 캡션 (Initial Caption)을 생성합니다. (정확합니다!)

2. (DeepLens 처리) Refined Representation 생성

DeepLens 모듈이 (1) 방금 생성된 초기 캡션과 (2) Vision Encoder의 여러 중간층에서 뽑아둔 상세한 시각 정보 (Multi-layer Visual Features) 를 입력으로 받습니다.
이 두 정보를 융합(fuse)하여, '초기 캡션과 관련된, 더 상세하고 정제된' 새로운 Representation (Refined Representation)을 생성합니다. (정확합니다!)

3. (Refinement) 최종 캡션 생성

[가장 중요한 차이점]
'동일한' LM이 (1) 자기가 방금 생성했던 초기 캡션(Initial Caption)을 다시 보고, (2) DeepLens가 만들어준 새로운 Representation을 추가적인 단서로 함께 입력받아, 초기 캡션의 내용을 '수정하고 개선하여' 최종 캡션 (Final Caption)을 생성합니다.