AI바라기의 인공지능
VLM : 논문리뷰 : Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models 본문
VLM : 논문리뷰 : Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models
AI바라기 2025. 1. 14. 12:29Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models 논문 정리 노트
Purpose of the Paper
기존 Multimodal Large Language Models (MLLMs)은 single image에 대한 fine-grained visual grounding과 multi-image에 대한 이해 능력은 발전했지만, 복잡한 multi-image 시나리오에서 정확한 grounding을 수행하는 데는 여전히 어려움을 겪고 있었습니다. 특히, 기존 연구들은 대부분 single-image visual grounding에 초점을 맞추고 있었고, multi-image visual grounding, 그 중에서도 입력 쿼리와 이미지 형식이 자유로운 free-form multi-image grounding(MIG) 은 거의 다루어지지 않았습니다.
본 논문은 이러한 한계를 극복하고, MLLMs가 free-form query를 기반으로 여러 이미지에 걸쳐 정확하게 visual grounding을 수행할 수 있는 능력을 갖추도록 하는 것을 목적으로 합니다. 이를 통해 MLLMs가 real-world의 다양하고 복잡한 multi-image 시나리오에 적용될 수 있는 가능성을 열고자 합니다.
Key Contributions
- Free-form Multi-Image Grounding (MIG) Task 탐구: MLLMs를 위한 새로운 task인 MIG를 탐구하고, Chain-of-Thought (CoT) framework를 통해 기존 MLLMs의 잠재력과 한계를 분석했습니다.
- Migician 모델 제시: Free-form MIG를 효과적으로 수행할 수 있는 최초의 MLLM인 Migician을 제안합니다.
- MGrounding-630k Dataset 구축: Migician 학습을 위한 최초의 대규모 MIG instruction tuning dataset인 MGrounding-630k를 구축했습니다.
- MIG-Bench Benchmark 제시: Multi-image grounding 능력을 종합적으로 평가하기 위한 벤치마크인 MIG-Bench를 제안합니다.
- 우수한 성능 달성: Migician은 MIG-Bench에서 기존의 MLLMs를 크게 능가하는 성능을 보였으며, 심지어 훨씬 더 큰 70B models을 능가하는 성능을 기록했습니다.
Novelty
- Free-form MIG: 기존의 multi-image understanding 연구들이 image-level comprehension에 초점을 맞춘 반면, 본 논문은 arbitrary combination of text and images 를 입력으로 받아 여러 이미지에 걸쳐 fine-grained visual grounding 을 수행하는 free-form MIG라는 새로운 task를 제시합니다.
- End-to-End MIG Model: 기존 MLLMs의 single-image grounding과 multi-image understanding 능력을 결합하는 CoT framework의 한계를 지적하고, 이를 극복하기 위한 end-to-end free-form MIG model인 Migician을 제안합니다.
- Instruction Tuning for MIG: MIG 능력을 학습하기 위한 two-stage instruction tuning 방법을 제안하고, 이를 위한 대규모 dataset인 MGrounding-630k를 구축합니다.
Experimental Highlights
- MIG-Bench: 10개의 task, 5.9k images, 4.2k test instances로 구성된 MIG-Bench를 구축하고, 이를 통해 기존 MLLMs와 Migician의 성능을 비교했습니다.
- Migician의 우수한 성능: Migician은 MIG-Bench의 모든 task에서 기존 MLLMs를 significantly outperform(평균 21.61%)했으며, 특히 multi-view grounding, region locating, correspondence task에서 큰 성능 향상을 보였습니다.
- CoT Framework와의 비교: Migician은 CoT framework 대비 더 효율적이고 정확하게 MIG를 수행할 수 있음을 입증했습니다.
- 다양한 Multi-Image Understanding Benchmarks에서의 평가: Migician은 MIG-Bench 외에도 MuirBench, BLINK, MIBench, Mantis_eval, MMIU, V* Bench 등 다양한 multi-image understanding benchmarks에서도 우수한 성능을 보였습니다.
- Single-Image Grounding Benchmarks에서의 평가: Migician은 RefCOCO, RefCOCO+, RefCOCOg와 같은 single-image grounding benchmarks에서도 state-of-the-art 수준의 성능을 달성했습니다.
- Ablation Study: training data subsets의 기여도를 분석하여, grounding data가 multi-image understanding에 도움이 된다는 것을 확인했습니다.
- High-Resolution Images에서의 Visual Search: Migician의 MIG 능력을 활용하여 high-resolution images에서 visual search를 효과적으로 수행할 수 있음을 보였습니다.
Limitations
- Computational Budget: computational budget의 한계로 인해 70B scale models에 대한 실험을 진행하지 못했습니다.
- Inaccurate Grounding: 복잡하거나 복잡한 시나리오에서 여전히 부정확한 grounding 문제가 발생할 수 있습니다.
- REC Task에 집중: training methods와 benchmark construction이 주로 REC task에 집중되어 있어, REG task에 대한 논의가 충분하지 않습니다.
Future Work
- Larger Scale Models: 더 큰 규모의 models에 대한 실험을 통해 Migician의 scalability를 검증할 계획입니다.
- Grounding Accuracy 개선: inaccurate grounding 문제를 해결하기 위한 추가적인 연구를 진행할 예정입니다.
- REG Task 탐구: REG task를 포함한 다양한 multi-image grounding tasks로 연구를 확장할 계획입니다.
- Real-World Applications: Migician을 autonomous driving, robotics, surveillance systems 등 다양한 real-world applications에 적용하고 그 효과를 검증할 계획입니다.
Abstract
Multimodal Large Language Models (MLLMs)의 최근 발전은 단일 이미지에 대한 미세 조정된 인식과 여러 이미지에 대한 일반적인 이해를 크게 향상시켰습니다. 그러나 기존 MLLMs는 여전히 복잡한 다중 이미지 시나리오에서 정확한 grounding을 달성하는 데 어려움을 겪고 있습니다. 이를 해결하기 위해, 우리는 먼저 단일 이미지 grounding과 다중 이미지 이해를 통합하는 Chain-of-Thought (CoT) 프레임워크를 탐구합니다. 부분적으로 효과적이지만, end-to-end 방식이 아니기 때문에 불안정하고 추상적인 시각 정보를 포착하는 데 어려움을 겪습니다. 따라서, 우리는 여러 이미지에 걸쳐 자유 형식의 정확한 grounding을 수행할 수 있는 최초의 다중 이미지 grounding 모델인 Migician을 소개합니다. 이를 지원하기 위해, 우리는 기존 datasets에서 파생된 여러 다중 이미지 grounding 작업에 대한 데이터와 새로 생성된 free-form grounding instruction-following 데이터를 포함하는 MGrounding-630k dataset을 제시합니다. 또한, 다중 이미지 grounding 기능을 평가하기 위해 특별히 설계된 포괄적인 benchmark인 MIG-Bench를 제안합니다. 실험 결과는 우리 모델이 기존 최고의 MLLMs를 21.61% 능가하고 훨씬 더 큰 70B 모델을 능가하는 월등히 우수한 다중 이미지 grounding 기능을 달성한다는 것을 보여줍니다.
1. Introduction
Multimodal Large Language Models (MLLMs)는 최근 상당한 발전을 보였으며, 뛰어난 cross-modal 이해 능력을 입증하고 다양한 vision-language tasks에서 뛰어난 성능을 달성했습니다. 이러한 models이 계속 발전함에 따라, 그 능력은 image-level 이해를 넘어 fine-grained visual grounding까지 확장되었습니다. 이를 통해 MLLMs는 region specific inputs 및 outputs를 처리할 수 있어, 더 넓은 범위의 실제 multimodal application 시나리오를 가능하게 합니다.
기존 MLLMs가 보여주는 유망한 visual grounding 기능에도 불구하고, 이러한 기능은 주로 단일 이미지 시나리오에 국한됩니다. Free-form multi-image grounding (MIG)에서 MLLMs의 잠재력은 아직 충분히 연구되지 않았습니다. Free-form MIG는 model이 여러 이미지에 걸쳐 효과적으로 grounding을 수행하도록 도전하며, 여기서 input queries와 image contexts는 임의의 형식으로 구성될 수 있어 유연하고 동적인 상호 작용을 가능하게 합니다. 예를 들어, Figure 1에서와 같이, model은 query 이미지의 흰색 차를 이해하고 이를 "black in color"라는 textual prompt와 연관시켜 target 이미지에서 해당 대상을 식별해야 합니다. 이 기능은 자율 주행의 미세 조정된 환경 인식, 감시 시스템의 이상 탐지, 그리고 embodied robotics에 대한 target localization과 같은 광범위한 application을 가능하게 합니다. Free-form MIG를 해결하기 위해, model은 cross-image 이해를 달성하면서 visual grounding을 위한 기능을 갖추어야 합니다.
결과적으로, 자연스럽게 질문이 생깁니다. 기존 MLLMs의 단일 이미지 grounding과 다중 이미지 이해 기능을 통합하여 MIG task를 해결할 수 있을까요? 이 연구에서, 우리는 먼저 다중 이미지 이해를 활용하여 textual referring query를 생성한 다음, 단일 이미지 grounding을 통해 localization에 활용하는 Chain-of-Thought (CoT) framework를 제안합니다. 이 접근 방식은 MIG tasks, 특히 textual descriptions가 충분히 구별되는 단순한 시나리오에서 매우 효과적인 것으로 입증되어 이러한 tasks를 처리하는 데 있어 MLLMs의 잠재력을 보여줍니다. 그러나 제안된 CoT framework는 다중 이미지 시나리오에서 추상적인 visual semantics를 설명하는 데 어려움을 겪으며, 2단계 프로세스는 inference 시간을 두 배로 늘립니다. 이를 해결하기 위해, 우리는 여러 이미지에 걸쳐 자유 형식의 정확한 grounding이 가능한 경쟁력 있는 MLLM인 Migician을 추가로 제안합니다. 이는 MIG를 위한 end-to-end solution입니다. 유연한 grounding 기능을 점진적으로 확립하기 위해, 우리는 제안된 대규모 MIG dataset (MGrounding-630k)을 기반으로 2단계 training 절차를 사용합니다. 첫째, Migician의 grounding 능력은 MIG tasks와 일반 tasks의 데이터를 결합하여 향상됩니다. 그런 다음, Migician은 high-quality free-form MIG instruction data를 사용하여 더욱 정제됩니다. 또한, free-form MIG 시나리오의 과제를 평가하기 위해, 우리는 총 10개의 다른 tasks, 5.9k개의 다양한 이미지와 4.2k개 이상의 test instances로 구성된 포괄적인 다중 이미지 grounding benchmark인 MIG-bench를 구축합니다. 우리는 기존의 주류 MLLMs의 성능과 MIG-bench에서의 human performance 사이에 상당한 격차가 있음을 관찰합니다. 대조적으로, Migician은 이 격차를 효과적으로 완화하고 free-form MIG의 성능을 향상시킬 수 있습니다.
요약하면, 우리의 기여는 다음과 같이 결론지을 수 있습니다.
- 우리는 MLLMs를 위한 multi-image grounding task를 탐구하고 제안된 CoT framework를 통해 현재 MLLMs의 잠재력과 과제를 밝힙니다.
- 우리는 free-form MIG를 효과적으로 수행할 수 있는 최초의 MLLM인 Migician을 소개합니다. 또한 이 model을 training하기 위한 최초의 대규모 MIG instruction tuning dataset인 MGrounding-630k를 제시합니다.
- 우리는 multi-image grounding 기능을 평가하기 위한 포괄적인 benchmark인 MIG-Bench를 소개합니다. 실험 결과는 Migician이 현재 최고의 methods를 크게 능가한다는 것을 보여줍니다.
핵심: Multi-Image Grounding (MIG)에 초점을 맞춘 최초의 MLLM, "Migician" 제안
문제 의식:
- 기존 MLLMs는 단일 이미지 내에서의 fine-grained visual grounding은 잘하지만, 여러 이미지에 걸친 free-form grounding (MIG) 에는 취약.
- MIG는 자율 주행, 이상 감지, 로봇 공학 등 다양한 분야에 필수적인 능력.
기존 접근 방식의 한계:
- Chain-of-Thought (CoT) framework 를 사용해 단일 이미지 grounding과 다중 이미지 이해를 결합하는 방식을 시도.
- 단순한 시나리오에서는 효과적이지만, 추상적인 visual semantics를 표현하는 데 어려움.
- 2단계 프로세스로 인해 inference 시간 2배 증가.
본 논문의 핵심 제안 (Migician):
- End-to-end 방식으로 여러 이미지에 걸쳐 free-form 하고 정확한 grounding 이 가능한 최초의 MLLM.
- 2단계 training 절차:
- MIG tasks와 일반 tasks 데이터를 결합하여 grounding 능력 향상.
- High-quality free-form MIG instruction data로 fine-tuning.
- MGrounding-630k: MIG instruction tuning을 위한 대규모 dataset.
- MIG-Bench: MIG 성능 평가를 위한 포괄적인 benchmark (10개 tasks, 5.9k 이미지, 4.2k+ test instances).
주요 기여:
- MLLMs의 MIG task 탐구 및 CoT framework를 통한 현재 MLLMs의 한계와 가능성 제시.
- 최초의 free-form MIG 가능 MLLM, Migician 및 학습용 dataset MGrounding-630k 제안.
- MIG 평가용 benchmark MIG-Bench 제안, 실험을 통해 Migician의 우수성 입증.
한 줄 요약: 본 논문은 기존 MLLMs의 한계를 극복하고, 여러 이미지에 대한 정교한 grounding을 가능하게 하는 새로운 모델 Migician과 관련 dataset 및 benchmark를 제안하여, MLLMs 연구 분야에 중요한 진전을 이뤘다.
2. Related Work
Multimodal Large Language Models
최근 Multimodal Large Language Models (MLLMs)의 발전은 단일 image-text 이해에서 보다 다재다능한 기능으로 이동하고 있습니다. 이러한 노력 중 일부는 간단한 instruction tuning을 통해서든, 추가적인 보조 visual components를 통합하여 models이 fine-grained visual grounding을 달성하도록 하는 데 중점을 둡니다. 그러나 이러한 models은 주로 단일 이미지 내의 visual grounding에 중점을 둡니다. 다른 연구들은 multi-image comparison, reasoning, temporal comprehension과 같은 다중 이미지 이해 tasks를 탐구합니다. 그럼에도 불구하고, multi-image level에서의 fine-grained visual grounding은 아직 미개척 영역입니다. 우리가 아는 한, 우리가 제안한 Migician은 multi-image grounding의 과제를 해결하기 위해 설계된 최초의 MLLM입니다.
MLLM Benchmarks
MLLMs를 평가하기 위한 대부분의 기존 benchmarks는 단일 이미지 tasks에 중점을 둡니다. 최근의 몇몇 benchmarks는 multi-image understanding에 대한 MLLMs의 성능을 평가하기 시작했지만, 주로 image-level 이해를 강조합니다. 우리의 연구와 가장 관련성이 높은 benchmark는 동시대 연구인 MC-Bench입니다. MC-Bench는 주어진 이미지 쌍에서 text prompt를 기반으로 해당 객체를 정확한 이미지에 정확하게 위치시키도록 요청하여 MLLMs의 multi-context grounding 기능을 평가합니다. 그러나 입력 이미지의 고정된 수와 제한된 형식의 queries에서 한계를 보입니다. 대조적으로, 이 연구에서 제안된 MIG-Bench는 보다 유연한 task formats를 제공하며, free-form multi-image understanding에서 models의 기능을 평가하는 데 중점을 둡니다.
3. Task Definition
Free-form multi-image grounding task는 free-form query를 기반으로 이미지 집합에서 관련 visual regions을 식별하고 localize하는 것입니다. 고정된 입력 형식을 가진 기존의 grounding tasks와 달리, free-form multi-image grounding의 query는 text와 images의 임의의 조합일 수 있어 매우 유연하고 다재다능합니다. 공식적으로, query Q가 natural language description, reference images {R1, R2, ..., Rk} 또는 이 둘의 hybrid 조합(예: "[흰색 자동차 이미지] 이 이미지와 비슷하지만 검은색인 자동차 찾기")으로 구성된다고 가정합니다. target images 집합 {I1, I2, ..., In}이 주어지면, 이 task는 Q에 의해 정의된 semantic 및 contextual 제약 조건을 만족하는 visual regions 집합 {G1, G2, ..., Gm}을 식별하는 것입니다. 여기서 Gi는 이미지 Ij 내의 target region입니다.
Figure 2에서 볼 수 있듯이, 이 task가 명시적인 참조 요구 사항을 포함하는지 여부에 따라 multi-image grounding tasks는 Spontaneous Grounding과 Referential Grounding의 두 가지 유형으로 더 분류할 수 있습니다. Spontaneous Grounding은 대상 객체를 명시적으로 지적하지 않고 해당 이미지에서 인식하고 grounding하는 것을 말합니다. 대상 객체를 명시적으로 참조하는 기존의 Reference Expression Comprehension task와 달리, Spontaneous Grounding은 일반적으로 여러 이미지 간의 관계를 contextual cues로 활용하여 grounding할 객체를 자율적으로 식별하고 localize합니다(예: 이미지 간의 차이점 찾기 및 위치 파악). 반면에 Referential Grounding은 대상 객체에 대한 명시적인 참조가 필요합니다. 앞서 언급했듯이 이러한 참조는 images와 textual descriptions의 임의 조합 형태를 취할 수 있습니다.
4. Methods
이 섹션에서는 MLLMs에서 free-form multi-image grounding 기능을 활성화하는 methods에 대해 자세히 설명합니다. Free-form MIG는 visual grounding을 수행하는 동시에 여러 이미지를 이해하는 능력이 필요하기 때문에, 우리는 먼저 이 task를 해결하기 위해 기존 MLLMs 내에서 이러한 두 가지 기능을 결합하는 Chain-of-Thought (CoT) framework를 조사하는 것부터 시작합니다. 또한, CoT framework의 한계를 극복하고 향상된 MIG 성능을 달성하기 위해 instruction tuning을 통해 end-to-end MIG model인 Migician을 개발합니다.
4.1. A Chain-of-Thought Framework
Qwen2-VL-7B와 같은 일부 기존 MLLMs는 강력한 다중 이미지 이해와 단일 이미지 grounding 기능을 보여주지만, Figure 3(a)에서 볼 수 있듯이 MIG tasks를 직접 수행하도록 prompting하면 성능이 크게 저하되는 경우가 많습니다. MIG tasks에 대한 기존 models의 잠재력을 더 잘 탐구하기 위해, 우리는 MIG 실행 중에 model이 기존 능력을 효과적으로 활용하고 결합할 수 있도록 Chain-of-Thought (CoT) framework를 설계합니다.
구체적으로, 우리는 Figure 3(b)와 같이 MIG task를 두 개의 하위 task로 분해합니다. Model은 먼저 입력 이미지와 주어진 prompt를 기반으로 다중 이미지 이해를 수행하여 "reasoning process"에 참여하도록 prompting되어 대상 객체를 설명하는 textual referring expression을 생성합니다. 다음으로, model은 이전 단계의 referring expression을 사용하여 해당 이미지에서 객체를 localize하는 visual grounding task를 수행합니다. 이 framework는 MIG tasks에 대한 주목할 만한 성능 향상을 가져오며, 이는 기존 MLLMs가 이러한 tasks에 필요한 기본 기능을 보유하고 있지만 이를 유도하는 효과적인 방법이 필요함을 나타냅니다.
그러나 CoT framework는 몇 가지 본질적인 한계로 인해 어려움을 겪습니다. 한편으로, 다단계 프로세스는 error propagation 문제를 야기하고 reasoning 효율성에 영향을 미칩니다. 반면에, 많은 시나리오에서는 다중 이미지 컨텍스트 전반에 걸쳐 추상적인 visual semantics를 통한 grounding이 필요합니다(Figure 3(c) 참조). 이는 중간 textual referring expression을 사용하는 것을 비현실적으로 만듭니다. 이는 MIG task를 직접 수행할 수 있는 end-to-end model의 필요성을 강조합니다.
CoT framework의 더 많은 실패 패턴이 Figure 5에 설명되어 있으며, perceptual flaws와 reasoning flaws로 분류됩니다. 전자의 경우, framework는 여러 이미지가 모든 visual information을 통합해야만 MIG를 해결할 수 있는 방식(즉, 두 번째 이미지에서 실종된 사람의 위치 찾기)으로 구성되거나 textual content가 visual information을 충분히 표현할 수 없을 때 부족합니다. Reasoning errors와 관련하여, reasoning process의 다양한 단계에서 부정확성이 발생하여 framework의 전반적인 정확성과 효율성을 저해할 수 있습니다.
4.2. Data Construction
CoT framework는 multi-image understanding과 single-image grounding 기능을 모두 갖춘 MLLM이 free-form MIG에 대한 강력한 잠재력을 본질적으로 보유하고 있음을 보여주었습니다. 다음 섹션에서는 instruction tuning을 사용하여 기존 MLLMs에서 이러한 기능을 명시적으로 연결하여 MIG를 달성합니다. 이를 위해, 먼저 MIG를 위한 instruction tuning dataset인 MGrounding-630k를 구성하며, 그 통계는 Figure 4에 나와 있습니다. 이 dataset은 주로 다음 두 가지 방법을 통해 구성됩니다.
기존 데이터 변환: 기존 datasets의 tasks와 annotation types를 분석하여, 기존 데이터를 변환하여 파생될 수 있는 여러 multi-image grounding (MIG) tasks를 식별합니다. 구체적으로, 우리는 기존 sources에서 데이터를 수집하고 구성하여 single-image annotations를 결합하거나 자동으로 합성하여 6가지 유형의 MIG tasks를 위한 datasets를 만듭니다. 각 task는 70k개 이상의 examples를 포함하며, 총 530k개의 training samples를 생성합니다. 이러한 task data에 대한 자세한 내용은 Appendix C.1에 있습니다.
Free-form MIG Data 합성: 앞서 언급한 방법을 통해 얻은 데이터는 여전히 free-form MIG의 요구 사항을 완전히 충족하지 못합니다. Model의 instruction-following과 유연한 grounding 능력을 향상시키는 더 풍부하고 다양한 형식의 MIG data를 얻기 위해, 우리는 MIG data 합성 pipeline을 설계합니다. 이 pipeline은 객체 annotations가 있는 Objects365 이미지를 사용하여 여러 이미지를 그룹으로 선택하고 multi-image grounding을 위한 high-quality instructions를 생성합니다. 구체적으로, 우리는 먼저 Qwen2-VL-72B를 사용하여 각 개별 이미지의 captions를 생성한 다음, annotated bounding boxes에 대한 error filtering 및 refinement를 수행합니다. 다음으로, 우리는 Qwen2.5-72B에게 여러 이미지의 정보를 통합하여 high-quality, free-form MIG question-answering pairs를 자동으로 생성하도록 prompting합니다. 적절한 이미지 그룹 선택을 최적화하기 위해, 우리는 random selection, 공통 객체가 있는 이미지 선택, CLIP similarity를 기반으로 이미지를 그룹화하는 등 다양한 이미지 그룹화 방법을 채택하여 각각에 대해 의미적으로 유사한 이미지를 선택합니다. 이러한 방법을 사용하여 총 100k개의 Free-Form MIG data를 생성합니다. 더 자세한 정보는 Appendix C.2를 참조하십시오.
4.3. Instruction Tuning for MIG
구성된 dataset을 사용하여, 우리는 Qwen2-VL-7B를 기반으로 instruction tuning을 수행하여 Migician을 개발하고, end-to-end free-form MIG 기능을 달성할 수 있도록 합니다.
2단계 Training: Model에 free-form MIG 기능을 효과적으로 장착하기 위해, 우리는 2단계 training 접근 방식을 제안합니다. 첫 번째 단계에서, model은 MGrounding-630k의 6가지 대표적인 MIG tasks에 대해 training하여 multi-image grounding을 수행하는 법을 배우고, 여러 이미지를 동시에 이해하고 visual grounding을 실행하는 능력을 습득합니다. 두 번째 단계에서, model은 MGrounding-630k의 free-form MIG instruction data에 대해 추가로 fine-tuning되어, 더 유연하고 다양한 instruction types에 적응하고 첫 번째 단계에서 학습한 MIG 기술을 더 넓은 범위의 시나리오로 전이할 수 있습니다. Model이 training 중에 기존 기능을 잊어버리는 것을 방지하기 위해, 우리는 또한 single-image understanding, multi-image understanding, single-image grounding data를 각 training 단계에 통합합니다. 자세한 내용은 Appendix D에 있습니다.
Model Merging: 두 번째 단계의 fine-tuning 후에, 우리는 model 성능과 유연성 간의 trade-off를 관찰합니다. Model이 free-form MIG instructions에 적응하는 동안, 일반적인 multi-image grounding tasks에서는 성능 저하가 있습니다. 이 두 가지 측면의 균형을 더 잘 맞추기 위해, 우리는 model merging 기술을 채택하여, 서로 다른 training 설정으로 2단계에서 얻은 model weights를 평균 내어 최종 weights로 사용합니다. 우리는 이 접근 방식이 일반적인 MIG tasks의 성능 손실을 완화하면서 free-form MIG instructions를 따르는 능력을 효과적으로 유지한다는 것을 발견했습니다.
목표: MLLMs에 Free-form Multi-Image Grounding (MIG) 능력 부여
두 가지 접근 방식:
- Chain-of-Thought (CoT) Framework (4.1):
- 아이디어: 기존 MLLMs의 multi-image understanding과 single-image grounding 능력을 결합하여 MIG task 해결.
- 방법:
- Reasoning: 입력 이미지와 prompt를 기반으로 multi-image understanding을 수행, target object를 설명하는 textual referring expression 생성.
- Grounding: 생성된 referring expression을 사용하여 visual grounding 수행.
- 결과: 기존 MLLMs가 MIG task 수행에 필요한 잠재력을 가지고 있음을 확인.
- 한계:
- Error propagation: 다단계 프로세스로 인한 오류 전파 문제.
- 추상적 visual semantics 표현의 어려움: intermediate textual representation의 한계.
- 비효율성: 2배의 inference 시간.
- End-to-end Model: Migician (4.2, 4.3):
- 아이디어: CoT framework의 한계를 극복하기 위한 end-to-end MIG model.
- 핵심: Instruction Tuning 을 통한 MIG 능력 학습.
- 데이터셋: MGrounding-630k (4.2):
- 기존 데이터 변형: 6가지 MIG task를 위한 데이터 (530k samples).
- Free-form MIG data 합성: Objects365 활용, Qwen 활용하여 diverse instructions 생성 (100k samples).
- Instruction Tuning: Migician (4.3):
- 2단계 Training:
- Stage 1: 6가지 MIG tasks 학습으로 multi-image grounding 능력 획득.
- Stage 2: Free-form MIG instruction data로 fine-tuning, 유연성 확보.
- Single-image/multi-image understanding, single-image grounding data를 함께 사용하여 기존 능력 유지.
- Model Merging: 성능과 유연성의 trade-off 해결, stage-2 model weights averaging.
- 2단계 Training:
핵심 차별점:
- CoT framework의 한계 극복: End-to-end 방식으로 추상적인 visual semantics를 직접 grounding.
- MGrounding-630k: 기존 데이터 변형 및 합성을 통한 대규모 MIG instruction tuning dataset 구축.
- 2단계 Training + Model Merging: 효과적이고 유연한 MIG 능력 학습.
한 줄 요약: 본 논문은 CoT framework의 한계를 분석하고, 이를 극복하기 위해 instruction tuning을 통해 end-to-end로 free-form MIG를 수행하는 Migician 모델을 제안. 이를 위해 대규모 dataset 구축 및 2단계 training, model merging 등의 기법을 활용하여 효과적으로 MIG 능력을 학습시킴.