AI바라기의 인공지능

VLM : 논문 리뷰 : InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models 본문

논문리뷰

VLM : 논문 리뷰 : InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

AI바라기 2025. 4. 24. 13:58

InternVL3 학습 노트

용어 설명

  • MLLM (Multimodal Large Language Model): 텍스트뿐만 아니라 이미지, 비디오 등 다양한 modality 정보를 이해하고 생성할 수 있는 대규모 언어 모델.
  • Native Multimodal Pre-training: 텍스트 데이터와 multimodal 데이터를 분리하지 않고, 초기 pre-training 단계부터 통합하여 함께 학습시키는 방식. 이 논문의 핵심 방법론.
  • Post-hoc Training: 이미 pre-training된 text-only LLM을 기반으로, 별도의 단계를 통해 multimodal 능력을 추가(retrofit)하는 학습 방식. InternVL3가 극복하고자 하는 기존 방식.
  • V2PE (Variable Visual Position Encoding): 시각 토큰에 대해 고정된 값이 아닌, 가변적인(주로 1보다 작은 δ 값) 위치 증분 값을 사용하여 인코딩하는 방식. 긴 multimodal context 처리를 위해 InternVL3에 도입됨.
  • SFT (Supervised Fine-Tuning): 고품질의 (입력, 정답) 쌍 데이터셋을 사용하여 모델을 특정 지시사항(instruction)이나 대화 형식에 맞게 미세 조정하는 과정.
  • MPO (Mixed Preference Optimization): 선호/비선호 응답 쌍 데이터를 활용하여 모델의 응답 품질과 reasoning 능력을 향상시키는 최적화 기법. DPO loss, quality loss(BCO), generation loss(LM loss)를 결합하여 사용.
  • Test-Time Scaling: 모델 추론(test) 시점에 Best-of-N 샘플링 및 critic 모델 평가 등을 통해 성능을 향상시키는 기법.
  • VisualPRM (Visual Process Reward Model): 단계별 풀이 과정(step-by-step solution)의 각 단계별 품질 점수를 예측하여 전체 응답의 품질을 평가하는 critic 모델. Test-time scaling에서 최적의 응답을 선택하는 데 사용됨.
  • Pixel Unshuffle: 고해상도 이미지 처리 시, 인접 픽셀들을 그룹화하여 채널 차원으로 이동시킴으로써 공간 해상도를 줄이고(시각 토큰 수 감소) 채널 수를 늘리는 연산. 처리 효율성 증대.
  • Square Averaging: Loss 계산 시 토큰 수(l)의 제곱근(l^0.5)으로 나누어 평균을 내는 방식. Token averaging(l^1)과 sample averaging(l^0)의 단점을 보완하여 응답 길이에 대한 편향을 줄임.
  • Joint Parameter Optimization: Native pre-training 단계에서 ViT, MLP, LLM 등 모델의 모든 구성 요소 파라미터를 동시에 업데이트하는 방식. 일부 파라미터를 고정(freeze)하는 기존 방식과 차별화됨.
  • InternEVO: InternVL 모델 학습을 위해 최적화된 분산 학습 infrastructure. ZeRO, 다양한 병렬 처리(data, tensor, sequence, pipeline) 및 모듈별 유연한 sharding 전략 지원.

Purpose of the Paper

  • 기존의 주류 MLLM 개발 방식인 "post-hoc" 접근법 (text-only LLM을 학습 후 multimodal 능력을 추가하는 방식)의 근본적인 비효율성과 복잡성, 그리고 modality 간 alignment 문제를 해결하고자 함.
  • Text-only pre-training 후 multimodal alignment를 위한 다단계 fine-tuning pipeline의 복잡성 및 자원 소모 문제를 지적하고, 이를 개선할 필요성을 제기함.
  • 언어 능력과 multimodal 능력을 분리된 단계가 아닌, 단일 pre-training 단계에서 동시에 통합적으로 학습하는 "Native Multimodal Pre-training" 이라는 새로운 패러다임을 제안함.
  • 이를 통해 더 효율적이고 효과적으로 multimodal 능력과 언어 능력을 동시에 개발하여, 복잡한 후처리 과정 없이도 고성능 MLLM을 구축하는 것을 목표로 함.

Key Contributions & Novelty

  • Native Multimodal Pre-training Paradigm:
    • Contribution: Text corpus와 multimodal 데이터를 단일 pre-training 단계에서 공동으로 학습하여 언어 및 multimodal 능력을 동시에 습득.
    • Novelty: 기존의 순차적 'text pre-train -> multimodal align' 방식에서 벗어나, 처음부터 통합된 학습을 수행하여 복잡한 multi-stage pipeline과 alignment 문제를 회피.
  • V2PE Integration:
    • Contribution: Variable Visual Position Encoding (V2PE)을 적용하여 시각 토큰의 위치 인코딩 증분을 유연하게 조절 (δ < 1 사용 가능), 더 긴 multimodal context 처리 지원.
    • Novelty: Native pre-training framework 내에서 V2PE를 활용하여 긴 시퀀스 처리 능력을 효율적으로 확장하고, δ 값을 유연하게 선택 가능하도록 함.
  • Advanced Post-Training Strategy (SFT + MPO):
    • Contribution: SFT 이후 Mixed Preference Optimization (MPO)을 적용하여 모델의 reasoning 능력과 선호도 alignment를 강화. MPO는 DPO loss, BCO loss (quality loss), LM loss (generation loss)를 결합.
    • Novelty: Native pre-training된 모델에 MPO 기법을 적용하여 성능을 추가적으로 개선.
  • Test-Time Scaling Strategy:
    • Contribution: 추론 시 Best-of-N evaluation과 VisualPRM critic 모델을 활용하여 특히 reasoning 및 수학 문제 해결 능력을 향상.
    • Novelty: Native pre-training 및 MPO로 학습된 모델에 test-time scaling 기법을 결합하여 성능을 극대화.
  • Joint Parameter Optimization during Pre-training:
    • Contribution: Native pre-training 중 Vision Encoder (ViT), MLP projector, LLM의 모든 파라미터를 함께 업데이트.
    • Novelty: 기존 방식들이 LLM이나 ViT의 일부를 고정(freeze)하는 것과 달리, 모든 파라미터를 공동으로 최적화하여 modality 간의 깊은 통합 학습을 유도.
  • Optimized Training Infrastructure (InternEVO extension):
    • Contribution: 대규모 MLLM 학습을 위한 InternEVO framework 확장 및 최적화 (ViT/MLP/LLM 유연한 sharding, 동적 workload balancing 등).
    • Novelty: Native MLLM 학습 시 발생하는 vision과 text 모듈 간의 계산 부하 불균형 문제를 해결하기 위한 특화된 infrastructure 최적화 적용.
  • State-of-the-Art Open-Source Performance:
    • Contribution: MMMU 벤치마크에서 72.2점을 기록하며 오픈소스 MLLM 중 SOTA 달성.
    • Novelty: Native pre-training 패러다임으로 학습된 SOTA 모델을 제시하고, 모델 가중치와 학습 데이터를 공개하여 커뮤니티 연구 활성화 기여.

Experimental Highlights

  • SOTA Performance: InternVL3-78B 모델이 MMMU 벤치마크에서 72.2점을 달성하여 당시 공개된 오픈소스 MLLM 중 최고 성능 기록 (Figure 1).
  • Broad Capability Improvement: MMMU 외에도 MathVista, AI2D, ChartQA, DocVQA, OCRBench 등 다양한 multimodal 벤치마크에서 기존 InternVL 시리즈 및 다른 오픈소스 MLLM 대비 큰 폭의 성능 향상을 보임 (Figure 1, Tables 2-8).
  • Competitive with Proprietary Models: 성능 면에서 ChatGPT-40, Claude 3.5 Sonnet 등 선도적인 closed-source 모델들과 대등하거나 일부 task에서는 능가하는 경쟁력을 보여줌 (Figure 1, Table 3, Table 4 등). Gemini 2.5 Pro는 여전히 일부 영역에서 우위 유지.
  • Effectiveness of Proposed Methods Verified:
    • Native multimodal pre-training은 SFT 이전 단계에서도 기존 방식 대비 강력한 성능을 보임 (Figure 3).
    • V2PE는 짧은 context task에서도 작은 δ 값으로 성능 향상을 가져옴 (Table 12).
    • MPO는 SFT만 적용했을 때보다 reasoning benchmark에서 최대 4.5점 (38B 모델 기준)의 유의미한 성능 향상을 가져옴 (Table 13).
  • Maintained Language Proficiency: Native pre-training 방식과 multimodal 데이터 혼합에도 불구하고, 순수 언어 능력 평가(Table 11)에서 유사한 크기의 Qwen2.5 chat 모델과 동등한 수준의 성능을 유지함을 보여줌.

Limitations and Future Work

  • Limitations:
    • Performance Gap with Top Proprietary Models: 일부 어려운 벤치마크 (e.g., HallusionBench)에서는 여전히 최고 성능의 proprietary 모델 (Gemini 2.5 Pro)과 성능 격차가 존재함.
    • Visual Grounding Performance Saturation: 가장 큰 모델(78B)에서 visual grounding 성능이 이전 모델(InternVL2.5-78B) 대비 소폭 하락하거나 정체되는 경향을 보였으며, 이는 확장된 학습 데이터셋에서 grounding 관련 데이터의 상대적 비율 감소 때문일 수 있음.
    • Minor Decline on Specific Benchmarks: 전반적인 hallucination 성능은 개선되었으나, 특정 벤치마크(e.g., MMHal)에서는 미미한 성능 하락이 관찰됨.
  • Future Work:
    • 최고 성능의 proprietary 모델과의 성능 격차를 줄이기 위한 지속적인 연구 및 개선.
    • Visual grounding 등 특정 능력 강화를 위한 데이터 큐레이션 및 학습 전략 최적화.
    • Hallucination 현상을 더욱 효과적으로 제어하기 위한 방법론 탐구.
    • 모델의 능력을 더 동적이고 상호작용적인 GUI 환경으로 확장하는 연구.
    • Native pre-training 방식의 효율성과 확장성을 더욱 개선하기 위한 연구.
    • 공개될 학습 데이터셋의 상세 분석을 통한 후속 연구 및 개선.

Overall Summary

InternVL3는 기존 MLLM의 비효율적인 'post-hoc' 학습 방식 대신, 언어와 multimodal 정보를 초기 pre-training 단계부터 함께 학습하는 "Native Multimodal Pre-training" 패러다임을 성공적으로 구현한 연구입니다. 여기에 V2PE, MPO, test-time scaling 등 고급 기법들을 통합 적용하여 MMMU 벤치마크에서 오픈소스 SOTA를 달성하는 등 뛰어난 성능을 입증했습니다. 이 연구는 더욱 효율적이고 통합적인 MLLM 학습 방법론의 가능성을 제시하며, 모델 및 데이터 공개를 통해 차세대 MLLM 연구 및 개발에 중요한 기여를 할 것으로 평가됩니다.

쉬운 설명

이 논문의 핵심 아이디어는 아기가 태어날 때부터 보고 듣는 것을 동시에 배우듯이, AI 모델도 처음부터 텍스트(언어)와 이미지/비디오(시각 정보)를 함께 배우게 하자는 것입니다. 기존 방식처럼 일단 글만 잘 읽는 모델을 만든 뒤 나중에 그림 보는 법을 가르치는 대신(post-hoc), 초기 학습 단계부터 텍스트와 이미지를 통합적으로 처리하도록 훈련시켜 더 자연스럽고 효율적으로 multimodal 능력을 습득하게 만드는 방식(Native Multimodal Pre-training)입니다.

 

 

 

 

 

Abstract

우리는 InternVL 시리즈의 중대한 발전인 InternVL3를 소개하며, 이는 native multimodal pre-training paradigm을 특징으로 합니다.

Visual inputs를 지원하는 multimodal large language model (MLLM)로 text-only large language model (LLM)을 adapting하는 대신, InternVL3는 단일 pre-training 단계 동안 다양한 multimodal data와 pure-text corpora 모두로부터 multimodal 및 linguistic capabilities를 공동으로 습득합니다.

이 unified training paradigm은 MLLMs를 위한 기존의 post-hoc training pipelines에서 흔히 발생하는 복잡성과 alignment challenges를 효과적으로 해결합니다.

Performance와 scalability를 더욱 향상시키기 위해, InternVL3는 extended multimodal contexts를 지원하기 위해 variable visual position encoding (V2PE)을 통합하고, supervised fine-tuning (SFT) 및 mixed preference optimization (MPO)과 같은 advanced post-training techniques를 사용하며, optimized training infrastructure와 함께 test-time scaling strategies를 채택합니다.

광범위한 empirical evaluations는 InternVL3가 다양한 multi-modal tasks에 걸쳐 우수한 performance를 제공함을 입증합니다.

특히, InternVL3-78B는 MMMU benchmark에서 72.2의 score를 달성하여 open-source MLLMs 중 새로운 state-of-the-art를 설정합니다. 그 capabilities는 ChatGPT-4o, Claude 3.5 Sonnet, Gemini 2.5 Pro를 포함한 선도적인 proprietary models과 매우 경쟁력이 있으며, 동시에 강력한 pure-language proficiency를 유지합니다.

Open-science 원칙을 추구하며, 우리는 차세대 MLLMs에서의 추가적인 research 및 development를 촉진하기 위해 training data와 model weights를 모두 공개적으로 release할 것입니다.

 

 

 

1 Introduction

더보기

Multimodal large language models (MLLMs)은 최근 광범위한 스펙트럼의 tasks에서 human-level performance를 달성하거나 심지어 능가하며, artificial general intelligence (AGI)를 향한 중요한 진전으로서의 잠재력을 강조하고 있습니다. 그러나 open-source와 proprietary 모두를 포함한 대부분의 선도적인 MLLMs는 정교한 multi-stage pipelines를 통해 text-only large language models로부터 adapted됩니다. 이러한 “post-hoc” 접근 방식은 원래의 text-based pre-training processes 위에 구축되므로, vision과 같은 추가적인 modalities를 integrating할 때 alignment challenges를 야기합니다. 실제로, modality gaps를 메우는 것은 종종 specialized domains (예: optical character recognition 시나리오)의 auxiliary data를 통합하고, core linguistic capacities가 손상되지 않도록 보장하기 위해 복잡한 parameter-freezing 또는 multi-stage fine-tuning schedules를 필요로 합니다. 이러한 resource-intensive strategies는 더 efficient한 multimodal training paradigms의 필요성을 강조합니다.

본 보고서에서는 InternVL 시리즈의 최신 이정표인 InternVL3를 소개하며, 이는 native multimodal pre-training strategy로 구별됩니다. 먼저 text-only large language model을 pre-training하고 이후 multimodal alignment를 통해 visual processing을 지원하도록 retrofitting하는 대신, InternVL3는 pre-training 단계부터 text-only corpora와 diverse multimodal datasets 모두에 공동으로 노출됨으로써 multimodal capabilities를 learns합니다. 이 unified approach는 model이 linguistic 및 multimodal competencies를 더 efficient하고 integrated된 방식으로 동시에 acquire할 수 있게 합니다.

InternVL3는 performance와 scalability 모두를 강화하는 여러 innovations를 통해 더욱 뛰어납니다. 우리는 더 긴 multimodal contexts를 수용하기 위해 variable visual position encoding (V2PE) mechanism을 사용합니다. 또한, supervised fine-tuning (SFT)과 mixed preference optimization (MPO)으로 구성된 advanced post-training strategies는 test-time scaling strategies 및 optimized training infrastructure와 함께 InternVL3의 efficiency와 performance를 크게 향상시킵니다.

Comprehensive empirical evaluations는 InternVL3가 multi-discipline reasoning, document understanding, multi-image / video understanding, real-world comprehension, multimodal hallucination detection, visual grounding, multilingual capabilities를 포함한 광범위한 tasks에서 이전 모델(예: InternVL2.5)을 능가함을 보여줍니다. 특히, 확장된 domain-specific datasets를 통합함으로써 InternVL3는 tool usage, GUI agents, industrial image analysis, spatial reasoning에서도 현저한 improvements를 보여주며, 이로써 InternVL 시리즈가 다루는 multimodal scenarios를 실질적으로 확장합니다. 이는 Qwen2.5-VL과 같은 다른 open-source MLLMs와 매우 competitive하며, closed-source models (예: ChatGPT-4o, Claude-3.5 Sonnet, Gemini-2.5 Pro)과 동등한 수준(on par)을 유지합니다. 이러한 versatility는 MMMU benchmark에서의 72.2점 performance로 입증되며, open-source MLLMs 사이에서 새로운 standard를 설정합니다. 추가적으로, InternVL3는 유사한 scale의 다른 advanced LLMs와 비교할 만한 language capabilities를 보여줍니다.

Open-source community 내에서의 추가적인 발전을 촉진하기 위해, 우리는 본 연구와 함께 training data와 model weights를 release하여, 차세대 MLLMs의 지속적인 development를 위한 transparency와 reproducibility를 보장할 것입니다.

 

InternVL3 논문 Introduction 정리노트 (AI 연구자용)

배경 및 문제 제기:

  • MLLM의 발전: Multimodal Large Language Models (MLLMs)은 다양한 tasks에서 human-level performance를 달성하며 AGI를 향한 중요한 단계로 인식됨.
  • 현존 MLLM의 한계: 대부분의 선도적 MLLM (open-source 및 proprietary)은 text-only LLM을 정교한 multi-stage pipeline을 통해 adapt하는 "post-hoc" 접근 방식을 사용함.
    • Alignment Challenges: 기존 text 기반 pre-training 위에 vision 등 추가 modality를 통합할 때 alignment 문제 발생.
    • 비효율적 해결책: Modality gap 해소를 위해 auxiliary data (예: OCR 데이터), parameter-freezing, 복잡한 multi-stage fine-tuning 등 resource-intensive 전략 필요. 이는 core linguistic capacity 저하 위험 야기.
    • 결론: 더 efficient한 multimodal training paradigm 필요성 대두.

제안 방법: InternVL3 & Native Multimodal Pre-training:

  • 핵심 전략: InternVL3는 "Native Multimodal Pre-training" 전략을 채택.
    • Text-only LLM을 pre-train 후 retrofitting하는 대신, pre-training 단계부터 text-only corpora와 diverse multimodal datasets에 동시에 노출시켜 linguistic 및 multimodal capabilities를 공동으로 학습 (jointly acquires).
    • 기대 효과: 더 efficient하고 integrated된 방식으로 양쪽 competency를 습득하며, 근본적인 alignment 문제 완화 기대.

주요 기술 및 혁신:

  • Variable Visual Position Encoding (V2PE): Longer multimodal contexts 처리 지원.
  • Advanced Post-training: Supervised Fine-tuning (SFT) 및 Mixed Preference Optimization (MPO) 적용.
  • 기타: Test-time scaling strategies, Optimized training infrastructure 활용하여 efficiency 및 performance 극대화.

주요 성과 및 기여:

  • 성능 우수성: 이전 모델(InternVL2.5) 및 타 open-source MLLM (Qwen2.5-VL) 대비 광범위한 tasks (multi-discipline reasoning, document/image/video understanding, real-world comprehension, hallucination detection, visual grounding, multilingual 등)에서 우위.
  • 확장된 Domain 적용: Domain-specific datasets 추가 통합으로 tool usage, GUI agents, industrial image analysis, spatial reasoning 등에서 성능 향상 및 적용 시나리오 확장.
  • SOTA 및 경쟁력:
    • MMMU benchmark 72.2점 달성 (Open-source MLLM 중 new standard).
    • Closed-source models (ChatGPT-4o, Claude-3.5 Sonnet, Gemini-2.5 Pro)과 highly competitive / on par 수준.
    • 유사 scale LLM과 비교 가능한 language capabilities 유지.
  • Open Science 기여: Training data 및 model weights 공개 release 예정 (transparency & reproducibility 보장, 차세대 MLLM 연구 촉진).

쉬운 설명 :

이 논문의 Introduction 부분은 글과 이미지를 함께 이해하는 AI 모델(MLLM)을 더 똑똑하고 효율적으로 만드는 새로운 방법에 대해 이야기합니다.

요즘 AI 모델들의 문제점:

현재 많은 MLLM들은 원래 글만 이해하던 모델(LLM)을 가져다가 나중에 이미지도 이해하도록 '업그레이드' 또는 '개조'(adapt)하는 방식으로 만들어집니다. 이걸 "post-hoc" 방식이라고 부릅니다. 하지만 이렇게 나중에 덧붙이는 방식은 몇 가지 문제를 일으킵니다.

  • 엇박자 문제 (Alignment Challenges): 글을 배운 방식과 이미지를 배우는 방식이 달라서, 두 정보를 자연스럽게 연결하는 데 어려움이 생깁니다.
  • 복잡하고 비싼 해결책: 이 문제를 해결하기 위해 특별한 데이터를 추가로 쓰거나, 모델의 일부 기능을 얼리거나(parameter-freezing), 여러 단계에 걸쳐 복잡하게 추가 학습(multi-stage fine-tuning)을 시켜야 합니다. 이러면 시간과 비용이 많이 들고, 원래 모델이 글을 잘 이해하던 능력까지 떨어뜨릴 위험이 있습니다.

InternVL3의 새로운 아이디어: 처음부터 함께 배우기!

그래서 이 논문은 InternVL3라는 새로운 모델을 제안합니다. 이 모델의 핵심은 "Native Multimodal Pre-training" 이라는 새로운 학습 전략입니다.

  • 기존 방식처럼 글 모델을 먼저 만들고 이미지를 나중에 가르치는 대신, 아예 처음부터 글 데이터와 이미지/글 데이터를 함께 보여주면서 언어 능력과 이미지 이해 능력을 동시에 배우게 합니다.
  • 마치 아이에게 말과 그림책을 처음부터 같이 보여주며 가르치는 것과 비슷합니다. 이렇게 하면 글과 이미지를 더 자연스럽고 효율적으로 연결해서 배울 수 있을 것으로 기대합니다.

InternVL3의 추가적인 특징들:

  • 더 길고 복잡한 이미지/글 정보를 처리하기 위한 V2PE라는 기술 사용.
  • SFT, MPO 등 더 발전된 후속 학습(post-training) 방법 적용.
  • Test-time scaling, 최적화된 학습 시스템 등을 통해 성능과 효율을 더욱 높임.

결과적으로 InternVL3는:

  • 이전 버전이나 다른 공개된 MLLM들보다 더 뛰어난 성능을 보여줍니다. 다양한 종류의 문제(추론, 문서/이미지/비디오 이해, 환각 탐지 등)를 더 잘 풉니다.
  • 특히 어려운 시험(MMMU benchmark)에서 72.2점이라는 신기록을 세웠습니다.
  • ChatGPT-4o나 Gemini 2.5 Pro 같은 유명 상용 모델들과도 경쟁할 만한 수준입니다.
  • 글만 이해하는 능력도 여전히 뛰어납니다.
  • 연구 발전을 위해 학습 데이터와 모델을 모두 공개할 예정입니다.

 

 

 

 

2 InternVL3

더보기

이전 InternVL 시리즈를 기반으로, 우리는 InternVL model family 내의 새로운 세대인 InternVL3를 제안합니다. InternVL3는 training pipeline을 streamline하는 동시에 multimodal capabilities를 크게 enhancing하도록 특별히 설계되었습니다. 이 섹션에서는 먼저 InternVL3의 model architecture, training procedures, test-time scaling strategies, infrastructure-level optimizations를 포함한 core components를 설명합니다.

## 2.1 Model Architecture

InternVL3의 architecture는 이전 모델들과 동일한 일반적인 프레임워크를 따르며, “ViT-MLP-LLM” paradigm을 준수합니다. 자세한 architectural specifications는 요약되어 있습니다. 나중에 논의될 native pre-training paradigm은 MLLMs를 처음부터 training하는 것을 가능하게 할 수 있지만, 우리는 computational costs를 줄이기 위해 ViT와 LLM components를 pre-trained model weights로 initialize하기로 선택합니다. Vision encoder는 InternViT-300M과 InternViT-6B의 두 가지 configurations로 제공됩니다. Language model로는, pre-trained large language models (LLMs), 구체적으로 Qwen2.5 시리즈와 InternLM3-8B를 활용합니다. 중요하게도, 우리의 LLM components는 instruction-tuned variants를 사용하지 않고 오직 pre-trained base models로부터 initialize됩니다. Model에서 활용되는 multilayer perceptron (MLP)은 random initialization을 가진 two-layer network입니다. InternVL2.5에서 취한 접근 방식에 따라, InternVL3는 high-resolution images 처리를 위한 scalability를 향상시키기 위해 pixel unshuffle operation을 통합합니다. 이 operation은 visual token count를 원래 값의 1/4로 줄여, 각 448×448 이미지 타일을 256개의 visual tokens로 나타냅니다.

**Variable Visual Position Encoding.** InternVL3는 또한 Variable Visual Position Encoding (V2PE)을 통합하는데, 이는 visual tokens에 대해 더 작고 더 flexible한 position increments를 활용합니다. 이 수정은 position window를 과도하게 확장하지 않고도 longer multimodal contexts의 handling을 용이하게 합니다. 구체적으로, MLLM의 각 training sample은 다음과 같이 표현됩니다:
$$x = \langle x_1, x_2, \dots, x_L \rangle, \quad (1)$$여기서 각 token $x_i$는 textual token embedding, visual embedding 또는 다른 modality-specific representation (예: video patch embeddings)일 수 있습니다. 임의의 token $x_i$에 대한 position index $p_i$는 다음과 같이 sequentially 계산될 수 있습니다:$$p_i = \begin{cases} 0, & \text{if } i = 1, \\ f_{\text{pos}}(p_{i-1}, x_i), & \text{for } i = 2, 3, \dots, N. \end{cases} \quad (2)$$Modality에 관계없이 각 token에 대해 position indices가 균일하게 1씩 increment하는 traditional MLLMs와 대조적으로, V2PE는 position index computation을 위해 modality-specific recursive function을 사용합니다. 이는 textual tokens와 visual tokens에 대해 구별되는 position index assignments를 초래합니다:$$p_i = p_{i-1} + \begin{cases} 1, & \text{if } x_i \text{ is a textual token,} \\ \delta, & \text{if } x_i \text{ is a visual token,} \end{cases} \quad (3)$$여기서 $\delta$는 더 작은 increment ($\delta < 1$)로, visual tokens에 대해 position indices가 증가하는 비율을 줄입니다. Textual tokens에 대해서는 그들의 positional distinctions를 보존하기 위해 standard increment인 1이 유지됩니다. 원래 V2PE design에 따라, 우리는 relative positional relationships를 보존하기 위해 $\delta$가 single image 내에서 constant하게 유지되도록 합니다. Training 동안, $\delta$는 각 image에 대해 미리 정의된 fractional values 집합에서 randomly chosen됩니다:$$\delta \in \Delta = \left\{ 1, \frac{1}{2}, \frac{1}{4}, \frac{1}{8}, \frac{1}{16}, \frac{1}{32}, \frac{1}{64}, \frac{1}{128}, \frac{1}{256} \right\}. \quad (4)$$
Inference 동안, $\delta$는 input sequence length에 기반하여 flexibly selected될 수 있으며, 이는 task performance와 position indices가 model의 valid context range 내에 유지되도록 보장하는 것 사이의 balance를 가능하게 합니다. 특히, $\delta = 1$일 때, V2PE는 InternVL2.5에서 사용된 conventional positional encoding으로 되돌아갑니다.

## 2.2 Native Multimodal Pre-Training

우리는 language pre-training과 multi-modal alignment training을 single pre-training stage로 통합하는 native multimodal pre-training 접근 방식을 제안합니다. Conventional paradigms와 달리 – language-only large model이 먼저 trained되고 (일반적으로 language pre-training 후 language post-training) 이후 추가 modalities를 수용하도록 adapted되는 – 우리의 방법은 pre-training process 동안 large-scale textual corpora와 multimodal data (예: image–text, video–text, 또는 interleaved image–text sequences)를 interleaving하여 integrated optimization을 수행합니다. 이 unified training scheme은 pre-trained model이 linguistic 및 multimodal capabilities를 동시에 learn할 수 있게 하며, 추가적인 bridging modules나 후속 inter-model alignment procedures를 도입하지 않고도 vision-language tasks를 handle하는 capability를 궁극적으로 enhancing합니다.

**Multimodal Autoregressive Formulation.** $\mathcal{M}$을 text, image, video를 simultaneously process할 수 있는 $\theta$로 parameterized된 Transformer-based model이라고 합시다. 구체적으로, token length가 $L$인 임의의 training sample $x = \langle x_1, x_2, \dots, x_L \rangle$에 대해, 우리는 standard left-to-right autoregressive objective를 채택합니다:
$$\mathcal{L}_{\text{full}}(\theta) = - \sum_{i=2}^{L} w_i \cdot \log p_{\theta} \left( x_i | x_1, \dots, x_{i-1} \right), \quad (5)$$여기서 $w_i$는 token $i$의 loss weight를 나타냅니다. 이 formulation은 자연스럽게 all modalities의 tokens를 통해 gradients를 propagates하지만, 우리는 loss computation을 오직 text tokens에만 restrict하여 다음을 얻습니다:$$\mathcal{L}_{\text{text-only}}(\theta) = - \sum_{i=2, x_i \in \text{Text}}^{L} w_i \cdot \log p_{\theta} \left( x_i | x_1, \dots, x_{i-1} \right). \quad (6)$$이 selective objective 하에서, visual tokens는 text prediction을 위한 conditioning context 역할을 하며 직접적으로 predicted되지 않습니다. 결과적으로, model은 downstream language decoding tasks에 유익한 방식으로 multimodal information을 embed하도록 learns합니다. 특히, token weight $w_i$의 design choice와 관련하여, InternVL2.5에서 논의된 바와 같이, 널리 사용되는 token averaging 및 sample averaging strategies는 각각 longer 및 shorter responses 쪽으로 편향된 gradients를 초래할 수 있습니다. 이 issue를 mitigate하기 위해, 우리는 square averaging을 채택하며, 이는 다음과 같이 정의됩니다:$$w_i = \begin{cases} 1 / l^0, & \text{for token averaging} \\ 1 / l^{0.5}, & \text{for square averaging} \\ 1 / l^1, & \text{for sample averaging,} \end{cases} \quad (7)$$
여기서 $l$은 loss가 계산되어야 하는 training sample 내 tokens의 수를 나타냅니다.

**Joint Parameter Optimization.** Conventional “language-only training followed by multimodal adaptation” paradigm과 달리, 우리의 방법은 multimodal pre-training 동안 모든 model parameters를 jointly updates합니다. 구체적으로,
$$\theta^{*} = \arg \min_{\theta} \mathbb{E}_{x \in \mathcal{D}_{\text{multi}}} [\mathcal{L}_{\text{text-only}}(\theta)], \quad (8)$$
여기서 $\mathcal{D}_{\text{multi}}$는 large-scale text-only 및 multimodal corpora (예: image–text 또는 video–text pairs)의 합집합입니다. 따라서 우리는 이러한 combined data sources를 handle하기 위해 single model을 optimize합니다. 이 multi-task joint optimization은 text representations와 visual features가 조화롭게 learned되어 modalities 간의 alignment를 reinforcing하도록 보장합니다.

더욱이, 이 integrated optimization은 종종 LLM component 또는 심지어 ViT encoder의 특정 layers를 freeze하거나 partially fine-tune하는 conventional “language-only training followed by multimodal adaptation” pipelines에서 벗어납니다. 대조적으로, 우리의 방법은 모든 layer를 jointly trains하여, 모든 parameters가 large-scale multimodal corpora에서 jointly optimized될 수 있도록 허용하고 linguistic 및 visual features가 synchronously evolve하도록 보장합니다. 결과적으로, final parameters는 추가적인 tuning steps 없이 pure language 및 multimodal tasks 모두에서 high performance를 위해 primed됩니다.

**Data.** InternVL3에서 활용되는 pre-training data는 크게 multimodal data와 pure language data의 두 가지 categories로 분류됩니다. Multimodal dataset은 기존 datasets의 synthesis와 새로 획득한 real-world data로 구성됩니다. 구체적으로, 우리는 InternVL2.5의 pre-training corpus를 활용하며, 이는 image captioning, general question answering, mathematics, charts, optical character recognition (OCR), knowledge grounding, document understanding, multi-turn dialogue, medical data 등 다양한 domains를 포함합니다. 전체 data scale은 증가하지 않았지만, MLP module weights뿐만 아니라 ViT와 LLM components 관련 weights까지 업데이트함으로써 이 dataset의 utility가 크게 improved되었습니다. 추가적으로, model의 real-world applications에서의 generalize 능력을 enhance하기 위해 graphical user interfaces (GUI), tool usage, 3D scene understanding, video comprehension과 관련된 tasks의 additional data가 incorporated됩니다.

Multimodal datasets에서 일반적으로 발견되는 상대적으로 짧고 덜 diverse한 textual content를 compensate하기 위해, 우리는 pure language data를 pre-training process에 integrate합니다. 이는 model의 language understanding 및 generation capabilities를 preserve하고 amplify하는 데 도움이 됩니다. Language corpus는 주로 InternLM2.5의 pre-training data를 기반으로 constructed되며 다양한 open-source text datasets으로 더욱 augmented됩니다. 이 enhancement는 knowledge-intensive tasks뿐만 아니라 mathematical 및 reasoning tasks에서의 model performance를 improve하는 것을 목표로 합니다.

이러한 heterogeneous data sources를 balancing하는 복잡성을 고려할 때, 적절한 sampling strategy를 결정하는 것은 non-trivial합니다. InternVL3에서는 multimodal data와 language data 간의 optimal sampling ratio를 establish하기 위해 two-stage strategy를 채택합니다. 초기에는 multimodal 및 language datasets에서 별도의 models을 train하고 해당 benchmarks에서 performance를 evaluate하여 각 modality 내에서 optimal sampling ratios를 identify합니다. 그런 다음, 고정된 total training budget 하에서 두 modalities를 combine하고 그들의 relative sampling ratio를 결정합니다. Empirical studies는 language 대 multimodal data의 1:3 ratio가 unimodal 및 multimodal benchmarks 모두에서 최상의 overall performance를 산출함을 보여줍니다. 이 configuration 하에서, total number of training tokens는 약 200 billion이며, language data에서 50 billion, multimodal data에서 150 billion으로 구성됩니다.

## 2.3 Post-Training

Native Multimodal Pre-Training 후, 우리는 models의 multimodal conversation 및 reasoning abilities를 더욱 enhance하기 위해 two-stage post-training strategy를 적용합니다. 이 strategy는 Supervised Fine-Tuning (SFT)과 Mixed Preference Optimization (MPO)으로 구성됩니다. SFT phase에서, model은 positive supervision signals 하에서 high-quality responses를 imitate하도록 trained됩니다. 후속 MPO phase에서는, positive 및 negative samples로부터 additional supervision을 introduce하여 overall abilities를 더욱 improving합니다.

**Supervised Fine-Tuning.** 이 phase에서, InternVL2.5에서 제안된 random JPEG compression, square loss re-weighting, multimodal data packing 기술들이 InternVL3 시리즈에도 employed됩니다. InternVL3의 SFT phase가 InternVL2.5와 비교하여 가지는 main advancement는 더 higher-quality이고 더 diverse한 training data 사용에 있습니다. 구체적으로, 우리는 tool usage, 3D scene understanding, GUI operations, long context tasks, video understanding, scientific diagrams, creative writing, multimodal reasoning을 위한 training samples를 더욱 extend합니다.

**Mixed Preference Optimization.** Pre-training 및 SFT 동안, model은 previous ground-truth tokens에 conditioned된 next token을 predict하도록 trained됩니다. 그러나 inference 동안, model은 자신의 prior outputs를 기반으로 각 token을 predicts합니다. Ground-truth tokens와 model-predicted tokens 간의 이 discrepancy는 distribution shift를 introduces하며, 이는 model의 Chain-of-Thought (CoT) reasoning capabilities를 impair할 수 있습니다. 이 issue를 mitigate하기 위해, 우리는 Mixed Preference Optimization (MPO)을 employ하며, 이는 positive 및 negative samples로부터 additional supervision을 introduces하여 model response distribution을 ground-truth distribution에 align시키고, 이로써 reasoning performance를 improving합니다. 구체적으로, MPO의 training objective는 preference loss $\mathcal{L}_p$, quality loss $\mathcal{L}_q$, generation loss $\mathcal{L}_g$의 combination이며, 다음과 같이 formulated될 수 있습니다:
$$\mathcal{L} = w_p \mathcal{L}_p + w_q \mathcal{L}_q + w_g \mathcal{L}_g , \quad (9)$$여기서 $w_*$는 각 loss component에 할당된 weight를 나타냅니다. 구체적으로, DPO loss는 chosen 및 rejected responses 간의 relative preference를 model이 learn할 수 있도록 preference loss 역할을 합니다:$$\mathcal{L}_p = - \log \sigma \left( \beta \log \frac{\pi_{\theta}(y_c | x)}{\pi_0(y_c | x)} - \beta \log \frac{\pi_{\theta}(y_r | x)}{\pi_0(y_r | x)} \right), \quad (10)$$여기서 $\beta$는 KL penalty coefficient이고, $x, y_c, y_r$은 각각 user query, chosen response, rejected response입니다. Policy model $\pi_{\theta}$는 model $\pi_0$로부터 initialized됩니다. 그 후, BCO loss는 quality loss로 employed되며, 이는 model이 individual responses의 absolute quality를 understand하는 데 도움이 됩니다:$$\mathcal{L}_q = \mathcal{L}_q^+ + \mathcal{L}_q^- , \quad (11)$$여기서 $\mathcal{L}_q^+$와 $\mathcal{L}_q^-$는 각각 chosen 및 rejected responses에 대한 loss를 나타냅니다. 이들은 independently 계산되어, model이 individual responses의 absolute quality를 differentiate하도록 요구합니다. Loss terms는 다음과 같습니다:$$\mathcal{L}_q^+ = - \log \sigma \left( \beta \log \frac{\pi_{\theta}(y_c | x)}{\pi_0(y_c | x)} - \delta \right), \quad (12)$$
$$\mathcal{L}_q^- = - \log \sigma \left( - \left( \beta \log \frac{\pi_{\theta}(y_r | x)}{\pi_0(y_r | x)} - \delta \right) \right), \quad (13)$$
여기서 $\delta$는 reward shift를 나타내며, training을 stabilize하기 위해 previous rewards의 moving average로 계산됩니다. 마지막으로, LM loss는 model이 preferred responses의 generation process를 learn하는 데 도움이 되도록 generation loss로 사용됩니다. Loss function은 Equation 6에 정의되어 있습니다.

**Data.** SFT data의 경우, InternVL2.5에서 사용된 것들을 기반으로 training corpora를 construct하고 추가적인 tool usage, 3D scene understanding, GUI operations, scientific diagrams, creative writing, multimodal reasoning samples를 introducing합니다. 결과적으로, training samples의 수는 InternVL2.5의 16.3M에서 InternVL3의 21.7M으로 증가합니다. MPO data의 경우, MMPR v1.2에서 제안된 data pipeline 및 samples를 기반으로 preference pairs를 construct하며, 이는 general visual question answering (VQA), science, chart, mathematics, OCR, document 등 광범위한 domains를 cover합니다. 우리는 InternVL3-8B, 38B, 78B의 SFT versions를 사용하여 rollouts를 generate합니다. MPO phase 동안, 모든 models는 약 300K samples로 구성된 동일한 dataset에서 trained됩니다.

## 2.4 Test-Time Scaling

Test-Time Scaling은 LLMs와 MLLMs의 reasoning abilities를 enhance하는 효과적인 방법임이 보여졌습니다. 본 연구에서는 Best-of-N evaluation strategy를 사용하고 reasoning 및 mathematics evaluation을 위해 best response를 select하는 critic model로 VisualPRM-8B를 employ합니다.

**Visual Process Reward Model.** VisualPRM은 먼저 주어진 solution의 각 step에 quality score를 assigns하고 그 다음 이 scores를 averages하여 이 solution의 overall score를 obtain합니다. 이 process는 MLLMs의 generation ability를 효과적으로 leverage할 수 있도록 multi-turn chat task로 formulated됩니다. Image $I$, question $q$, 그리고 이 question에 대한 step-by-step solution $s = \{s_0, s_1, \dots, s_n\} \in \mathcal{S}$의 첫 번째 step $s_0$이 첫 번째 turn에 included되고, 각 subsequent turn마다 new step이 presented됩니다. Training stage 동안, model은 각 turn에서 주어진 step의 correctness를 predict하도록 required됩니다:
$$c_i \sim M(y_i | I, q, s_{\le i}), \quad (14)$$
여기서 $c_i \in \{+, -\}$는 $i$-번째 step의 correctness를 denotes합니다. Inference stage 동안, 각 step의 score는 “+”를 generating할 probability로 defined됩니다.

**Data.** VisualPRM400K는 VisualPRM을 train하는 데 사용되며, MMPR v1.2에서 collected된 multimodal questions를 기반으로 constructed되었습니다. VisualPRM400K의 data pipeline을 따라, 우리는 InternVL3의 8B 및 38B variants로부터 rollouts를 sampling하여 VisualPRM400K를 더욱 expand합니다.

## 2.5 Infrastructure

Model training을 facilitate하기 위해, 우리는 large-scale LLM training을 위한 Zero Redundancy Optimizer (ZeRO)를 optimize하기 위해 원래 설계된 InternEVO framework를 extend하여 우리의 InternVL models training을 support합니다. 이 extension은 thousands of GPUs에 걸쳐 hundreds of billions of parameters로 efficient scaling을 enables합니다. Enhanced framework는 ViT, MLP, LLM components에 대해 flexible하고 decoupled된 sharding strategies를 introduces하여 communication과 computation을 overlapping함으로써 training efficiency를 significantly improving합니다. 또한 data, tensor, sequence, pipeline parallelism을 포함한 comprehensive range of parallelism strategies 및 이들의 임의적인 combinations를 supports합니다.

MLLM training의 key challenge는 visual 및 textual tokens의 다양한 비율로 인해 발생하는 computational load의 imbalance입니다. 이러한 imbalances는 ViT 또는 LLM modules 중 하나를 overburdening함으로써 inefficiencies를 초래할 수 있습니다. 이를 address하기 위해, 우리는 modules 간의 computational workloads를 dynamically balance하여 efficient하고 equitable한 resource utilization을 보장하는 일련의 techniques를 introduce합니다.

다양한 scales의 InternVL models에 대해, extended InternEVO framework는 다른 module dimensions에 걸쳐 memory consumption과 communication overhead 모두를 minimize하는 optimal configuration을 identifies하는 optimization objective를 formulates합니다. 최대 32K tokens의 sequences를 support하기 위해, 우리의 approach는 head-parallel 및 sequence-parallel techniques를 incorporates하여 computational efficiency를 preserving하면서 scalability bottlenecks를 효과적으로 overcoming합니다. InternVL2.5의 training과 비교할 때, InternVL3에서의 InternEVO application은 동일한 computational budget 하에서 comparable size의 models에 대해 50%에서 200%의 training speedup을 results in합니다.

 

 

 

InternVL3 논문 Section 2 (InternVL3) 정리노트 (AI 연구자용)

목표: Training pipeline 간소화 및 multimodal capabilities 향상.

Model Architecture (Sec 2.1):

  • Paradigm: ViT-MLP-LLM 구조 유지 (InternVL 시리즈 계승).
  • Initialization: 효율성을 위해 ViT (InternViT-300M/6B) 및 LLM (Qwen2.5/InternLM3-8B base models)은 pre-trained weights로 초기화. MLP는 random init.
  • 핵심 기술:
    • Pixel Unshuffle: High-resolution image 처리 위한 scalability 향상 (448x448 타일당 256 visual tokens).
    • Variable Visual Position Encoding (V2PE): Longer multimodal contexts 지원. Visual tokens에 대해 더 작고 가변적인 position increment 사용 (Eq. 3). 는 training 중 (Eq. 4)에서 랜덤 선택, inference 시 유연하게 조절 가능. 이면 기존 방식과 동일.

Native Multimodal Pre-Training (Sec 2.2):

  • 핵심 아이디어: Language pre-training과 multi-modal alignment training을 single pre-training stage로 통합.
  • 방식: Multimodal data (image/video-text 등)와 large-scale text corpora를 interleaving하여 integrated optimization 수행. Linguistic & multimodal capabilities 동시 학습. Bridging module/후속 alignment 불필요.
  • Objective: Standard left-to-right autoregressive loss (, Eq. 5) 사용하되, loss 계산은 text tokens에만 제한 (, Eq. 6). Visual tokens는 text prediction 위한 conditioning context 역할.
  • Loss Weighting: Gradient bias 완화 위해 Square Averaging (, Eq. 7) 채택.
  • Parameter Optimization: 모든 model parameters (ViT, MLP, LLM)를 jointly update (Eq. 8). 기존 방식의 layer freeze/partial fine-tuning과 대조적. 결과적으로 모든 parameters가 multimodal corpora에서 함께 최적화됨.
  • Data:
    • 구성: Multimodal data (InternVL2.5 corpus + GUI, tool use, 3D, video 등 신규 데이터) + Pure language data (InternLM2.5 corpus + open-source text).
    • 데이터 업데이트: ViT, LLM weights까지 업데이트하여 기존 데이터 utility 향상.
    • Sampling Ratio: Two-stage 전략 통해 Language : Multimodal = 1 : 3 비율 결정 (최적 성능).
    • 총 규모: 약 200B tokens (Language 50B, Multimodal 150B).

Post-Training (Sec 2.3): Two-stage (SFT + MPO) 전략.

  • Supervised Fine-Tuning (SFT):
    • InternVL2.5 기법 (JPEG 압축, square loss re-weighting, data packing) 계승.
    • 개선점: 더 higher-quality & diverse data 사용 (16.3M -> 21.7M samples). Tool usage, 3D, GUI, long context, video 등 신규 domain 확장.
  • Mixed Preference Optimization (MPO):
    • 목표: Train/inference 간 distribution shift 완화 (CoT reasoning 향상).
    • 방식: Positive/negative samples로부터 additional supervision 도입.
    • Objective (, Eq. 9): Preference loss (, DPO 사용, Eq. 10) + Quality loss (, BCO 사용, Eq. 11-13) + Generation loss (, LM loss 사용, Eq. 6).
    • Data: MMPR v1.2 기반 preference pairs 사용 (약 300K samples).

Test-Time Scaling (Sec 2.4):

  • 전략: Reasoning/mathematics 평가 시 Best-of-N evaluation 사용.
  • Critic Model: VisualPRM-8B 사용. Step-by-step solution의 quality score를 multi-turn chat 방식으로 계산 (Eq. 14)하여 best response 선택. VisualPRM은 VisualPRM400K 데이터로 학습 (InternVL3 rollouts 추가 확장).

Infrastructure (Sec 2.5):

  • Framework: InternEVO 확장하여 MLLM training 지원 (수백 B params, 수천 GPU 스케일링).
  • 주요 특징:
    • Flexible/Decoupled Sharding (ViT, MLP, LLM).
    • Communication/Computation Overlapping.
    • 다양한 Parallelism 지원 (Data, Tensor, Sequence, Pipeline).
    • Dynamic Computational Load Balancing (Visual/Textual token 비율 불균형 해소).
    • Memory/Communication 최적화 configuration 탐색.
    • Head/Sequence Parallelism 통한 Long Sequence 지원 (최대 32K).
  • 효과: InternVL2.5 대비 50% ~ 200% training speedup 달성 (동일 예산).

쉬운 설명 :

이 섹션에서는 InternVL3 모델을 구체적으로 어떻게 만들고 학습시켰는지 기술적인 내용을 자세히 설명합니다.

1. 모델 설계 (Model Architecture):

  • 기본 뼈대는 이전 모델들과 비슷하게 'ViT(이미지)-MLP(연결)-LLM(언어)' 구조를 사용합니다.
  • 학습 시간을 줄이기 위해, 이미지(ViT)와 언어(LLM) 부분은 미리 학습된 모델(Qwen2.5 등)을 가져와서 시작합니다. 연결 부분(MLP)만 새로 만듭니다.
  • 고해상도 이미지를 효율적으로 처리하는 기술(pixel unshuffle)과, **글과 이미지가 섞인 긴 내용을 잘 이해하기 위한 특별한 위치 정보 기술(V2PE)**을 사용합니다. V2PE는 이미지 토큰의 위치 간격을 유연하게 조절해서 긴 내용도 잘 처리하게 돕습니다.

2. 핵심 학습법: 네이티브 멀티모달 사전학습 (Native Multimodal Pre-Training):

  • 이 모델의 가장 큰 특징! 기존에는 언어 모델을 먼저 만들고 나중에 이미지 학습을 추가했지만, InternVL3는 처음부터 언어 데이터와 이미지/비디오 데이터를 섞어서 한 번에 학습시킵니다.
  • 학습 목표는 다음에 올 '텍스트' 단어를 맞추는 것이지만, 이때 이미지/비디오 정보를 '힌트(conditioning context)'로 활용합니다. 이미지 자체를 예측하진 않습니다.
  • 학습 시 모든 부분(ViT, MLP, LLM)을 동시에 업데이트해서 글과 이미지를 함께 배우도록 합니다. 기존 방식처럼 일부를 얼리거나(freeze) 하지 않습니다.
  • 학습 데이터는 언어 데이터와 이미지/비디오 데이터를 1:3 비율로 섞어서 약 2000억 개의 토큰을 사용합니다. (기존 데이터 + GUI, 도구 사용 등 새 데이터 추가)

3. 추가 학습 (Post-Training):

사전학습 후, 두 단계 추가 학습으로 성능을 더 높입니다.

  • 지도 미세조정 (SFT): 더 좋고 다양한 정답 예시(2170만 개)를 보여주면서 모델이 더 정교하게 답변하도록 학습시킵니다. (도구 사용, 3D, GUI 등 새로운 영역 추가)
  • 혼합 선호도 최적화 (MPO): '좋은 답'과 '나쁜 답' 예시를 모두 활용하여 모델이 더 나은 답변을 선호하도록 학습시킵니다. DPO, BCO 같은 최신 기법들을 결합하여 사용합니다. (약 30만 개의 선호도 데이터 사용)

4. 시험 볼 때 성능 높이기 (Test-Time Scaling):

  • 어려운 추론 문제를 풀 때는, 모델이 여러 개의 답을 생성하게 한 뒤(Best-of-N), VisualPRM이라는 별도의 '심판' 모델이 각 답의 단계별 풀이 과정을 평가해서 가장 좋은 답을 고릅니다.

5. 강력한 학습 시스템 (Infrastructure):

  • InternEVO라는 최적화된 학습 시스템을 사용하여 수천 개의 GPU로 수천억 개의 파라미터를 가진 거대 모델을 효율적으로 학습시킵니다.
  • 이미지 처리와 텍스트 처리 간의 계산량 불균형을 해소하고, 통신과 계산을 겹쳐서 효율을 높이며, 아주 긴 내용(최대 32,000 토큰)도 잘 처리할 수 있도록 설계되었습니다.
  • 이 시스템 덕분에 이전 모델(InternVL2.5)보다 50% ~ 200% 더 빠르게 학습할 수 있습니다.