AI바라기의 인공지능
VLM : 논문리뷰 : InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency 본문
VLM : 논문리뷰 : InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
AI바라기 2025. 8. 27. 16:48용어 설명 (Terminology)
- MLLMs (Multimodal Large Language Models): Text뿐만 아니라 Image, Video 등 여러 양식(modality)의 데이터를 이해하고 처리할 수 있는 대규모 언어 모델.
- Cascade RL (Cascade Reinforcement Learning): 본 논문에서 제안한 2단계 Reinforcement Learning(강화학습) 프레임워크. 안정적인 수렴을 위한 offline RL 단계와 세밀한 조정을 위한 online RL 단계로 구성됨.
- ViR (Visual Resolution Router): 시각적 토큰(visual token)의 semantic content(의미론적 내용)에 따라 동적으로 해상도를 조절하여, 성능 저하 없이 추론 효율성을 최적화하는 모듈.
- DvD (Decoupled Vision-Language Deployment): Vision encoder와 language model을 서로 다른 GPU에 분리하여 배포함으로써, 연산 부하를 효과적으로 분산시키고 병렬 처리를 극대화하는 전략.
- ViCO (Visual Consistency Learning): ViR 모듈을 기존 모델에 통합하기 위한 추가 학습 단계.
- MPO (Mixed Preference Optimization): Cascade RL의 첫 번째 단계인 offline RL에서 사용된 최적화 기법.
- GSPO (Group Sequence Policy Optimization): Cascade RL의 두 번째 단계인 online RL에서 사용된 최적화 기법.
- TTS (Test-Time Scaling): 추론 시점에 Deep Thinking(단계별 추론)과 Parallel Thinking(다중 후보 생성 후 최적안 선택)을 적용하여 모델의 reasoning 성능을 향상시키는 기법.
Purpose of the Paper
이 논문은 open-source MLLM이 직면한 세 가지 주요 한계, 즉 **versatility(다용도성), reasoning(추론 능력), and efficiency(효율성)**를 극복하는 것을 목표로 한다. 특히, GPT-5와 같은 최신 commercial 모델과 open-source 모델 간의 성능 격차가 reasoning 및 agentic task에서 크게 나타나는 문제를 해결하고자 했다. 이를 위해 기존 RL 방법들의 불안정성과 비효율성을 개선할 수 있는 새롭고 안정적이며 확장 가능한 Cascade RL 프레임워크를 제안하고, 동시에 추론 비용을 절감하기 위한 ViR 및 DvD와 같은 실용적인 효율화 방안을 제시하는 데 연구의 초점을 맞추었다.
Key Contributions & Novelty
- InternVL 3.5 모델군 공개:
- Contribution: 1B부터 241B 파라미터에 이르는 다양한 크기의 open-source MLLM 제품군을 공개했다.
- Novelty: Open-source MLLM 중 최고 수준의 성능을 달성하여, 일반적인 multimodal, reasoning, text, agentic task 전반에서 GPT-5와 같은 최상위 commercial 모델과의 성능 격차를 크게 줄였다.
- Cascade RL 프레임워크 제안:
- Contribution: Offline RL (MPO)과 Online RL (GSPO)의 장점을 결합한 2단계 강화학습 프레임워크를 제안했다.
- Novelty: Offline RL을 통해 안정적인 warm-up을 진행하여 고품질의 rollout을 확보한 후, 이를 바탕으로 online RL에서 출력을 세밀하게 조정한다. 이 coarse-to-fine 전략은 기존 단일 RL 방식보다 **학습 안정성(training stability)과 효율성(training efficiency)**이 뛰어나며, 더 **높은 성능 상한(higher performance ceiling)**을 달성했다.
- 추론 효율성 최적화를 위한 ViR 및 DvD 제안:
- Contribution: 추론 속도 향상을 위해 ViR과 DvD라는 두 가지 새로운 기술을 제안하고 구현했다.
- Novelty: ViR은 이미지의 너비/높이만 고려하던 기존 방식과 달리, 각 이미지 패치(patch)의 semantic content를 분석하여 동적으로 해상도를 조절하는 독창적인 접근 방식을 사용한다. DvD는 vision과 language 모듈을 물리적으로 분리하여 병렬 처리함으로써, MLLM의 고질적인 추론 병목 현상을 해결하는 실용적인 배포 전략을 제시했다.
Experimental Highlights
- SOTA 성능 달성: InternVL3.5-241B-A28B 모델은 다양한 벤치마크에서 평균 점수를 기준으로 최신 commercial 모델인 GPT-5와의 성능 격차를 3.9%까지 좁혔으며, open-source 모델 중에서는 가장 뛰어난 성능을 기록했다.
- Reasoning 능력의 비약적 향상: 제안된 Cascade RL은 reasoning 성능을 최대 +16.0%까지 향상시켰다. 특히 MMMU 벤치마크에서 InternVL3.5-8B 모델은 73.4점, 241B 모델은 77.7점을 기록하며, 기존 open-source MLLM들을 크게 앞섰다.
- 획기적인 추론 속도 개선: ViR과 DvD를 결합하여 이전 모델 대비 최대 4.05배의 추론 속도 향상을 달성했다. Table 18에 따르면, 896x896 해상도에서 InternVL3.5-38B 모델의 경우, baseline 대비 DvD 적용 시 1.87배, DvD+ViR 적용 시 4.05배의 처리량(throughput) 증가를 보였다.
- Agentic 및 SVG Task에서의 우수성: GUI grounding 및 online agentic task를 평가하는 ScreenSpot, OSWorld-G 등의 벤치마크에서 SOTA 성능을 보였다. 또한, SGP-Bench에서 평가한 SVG(Scalable Vector Graphics) 이해 능력에서도 open-source 모델 중 최고 점수를 기록했다.
Limitations and Future Work
- Hallucination 문제: 성능이 향상되었음에도 불구하고, 일부 모델 크기(14B, 241B-A28B)에서는 multimodal hallucination 관련 전반적인 점수가 소폭 하락하는 현상이 관찰되었다. 이는 더 신뢰성 있는 모델을 구축하기 위해 데이터 및 학습 전략에 대한 추가적인 개선이 필요함을 시사한다.
- Multimodal Understanding 성능의 미미한 저하: 이 연구는 text와 reasoning 능력 최적화에 집중한 결과, multimodal understanding 성능이 일부 저하되는 현상이 나타났다. 이는 두 능력 간의 trade-off 관계를 보여주며, 향후 연구에서는 이를 균형 있게 발전시키는 것이 과제가 될 것이다.
- 특정 벤치마크에서의 한계: HallusionBench와 같은 일부 벤치마크에서는 여전히 어려움을 겪고 있으며, 이는 추가적인 개선이 필요함을 나타낸다.
Overall Summary
InternVL3.5는 open-source MLLM의 성능을 commercial 모델 수준으로 끌어올리기 위한 중요한 진전을 이룬 연구이다. 본 논문은 Cascade RL이라는 독창적이고 안정적인 2단계 강화학습 프레임워크를 통해 모델의 reasoning 능력을 획기적으로 향상시켰다. 동시에, ViR과 DvD라는 실용적인 기술로 추론 효율성을 극대화하여 실제 적용 가능성을 높였다. 이 연구는 open-source 커뮤니티에 SOTA 성능의 모델과 효과적인 학습/배포 전략을 제공함으로써, 향후 multimodal AI 연구의 기준을 한 단계 높이는 데 기여했다.
쉬운 설명 (Simple Explanation)
이 논문의 핵심 아이디어인 **Cascade RL**은 학생을 두 단계로 가르치는 것과 비슷하다.
- 1단계 (Offline RL): 먼저 학생에게 방대한 양의 모범 답안과 오답 노트를 주고 스스로 공부하게 하여, 효율적으로 탄탄한 기본기를 쌓게 한다. (기존 데이터를 활용해 안정적으로 학습)
- 2단계 (Online RL): 기본기가 쌓인 학생에게 새로운 문제를 풀게 하고, 그 자리에서 바로 피드백을 주며 실력을 세밀하게 다듬어 최고 수준의 문제 해결사로 만든다. (실시간 생성과 피드백으로 성능 극대화)
이러한 단계별 학습 방식은 처음부터 어려운 실전 문제에 무작정 부딪히게 하는 것보다 훨씬 안정적이고 효율적으로 학생의 실력을 최상으로 끌어올릴 수 있다.
Abstract
우리는 InternVL 시리즈의 다재다능함, reasoning 능력, inference 효율성을 크게 향상시킨 새로운 open-source multimodal models 제품군인 InternVL 3.5를 소개합니다. 핵심 혁신은 Cascade Reinforcement Learning (Cascade RL) framework로, 이는 오프라인 RL을 통한 안정적인 수렴과 온라인 RL을 통한 정교한 alignment라는 2단계 프로세스를 통해 reasoning을 향상시킵니다. 이 coarse-to-fine training 전략은 MMMU 및 MathVista와 같은 downstream reasoning tasks에서 상당한 개선을 이끌어 냅니다. 효율성을 최적화하기 위해, 우리는 performance를 저하시키지 않으면서 visual tokens의 resolution을 동적으로 조정하는 Visual Resolution Router (ViR)를 제안합니다. ViR과 결합된 우리의 Decoupled Vision-Language Deployment (DvD) 전략은 서로 다른 GPU에 vision encoder와 language model을 분리하여 계산 부하를 효과적으로 균형 잡습니다. 이러한 기여들을 통해 InternVL3.5는 이전 버전인 InternVL3에 비해 전반적인 reasoning performance에서 최대 +16.0%의 이득과 4.05배의 inference 속도 향상을 달성할 수 있습니다. 또한, InternVL3.5는 GUI 상호작용 및 embodied agency와 같은 새로운 기능을 지원합니다. 특히, 우리의 가장 큰 model인 InternVL3.5-241B-A28B는 일반 multimodal, reasoning, text, 그리고 agentic tasks 전반에 걸쳐 open-source MLLM 중에서 state-of-the-art 결과를 달성하여 GPT-5와 같은 주요 상용 models과의 performance 격차를 좁혔습니다. 모든 models과 code는 공개적으로 출시됩니다.

첫 번째 이미지 설명 (Figure 1)
이 이미지는 "Figure 1: Comparison between InternVL3.5 and leading MLLMs in general capabilities"라는 제목의 막대그래프입니다. 여러 Multimodal Large Language Models (MLLMs)의 전반적인 성능 점수를 시각적으로 비교하여 보여주고 있습니다.
- 세로축은 성능 점수를 나타내며, 가로축에는 GPT-5, Gemini-1.5 Pro, InternVL3.5-241B-A28B 등 다양한 model의 이름이 나열되어 있습니다.
- 각 막대는 해당 model의 점수를 의미하며, 일부 막대(예: GPT-5, Gemini-1.5 Pro)에는 빗금 무늬가 있는데, 이는 캡션에서 설명하듯이 closed-source commercial models (비공개 상용 model)을 나타냅니다.
- 전반적으로 InternVL3.5 시리즈 model들이 다른 open-source model들과 비교하여 높은 순위에 위치하며, 최상위 상용 model들과의 성능을 비교하고 있습니다.
이미지 캡션 번역
Figure 1: 일반적인 capabilities 측면에서 InternVL3.5와 선도적인 MLLM 간의 비교. 빗금 친 막대는 closed-source 상용 models을 나타냅니다. 우리는 multimodal general, reasoning, text, 그리고 agentic benchmarks 세트에 대한 평균 점수를 보고합니다: MMBench v1.1 (en), MMStar, BLINK, HallusionBench, AI2D, OCRBench, MMVet, MME-RealWorld (en), MVBench, VideoMME, MMMU, MathVista, MathVerse, DynaMath, WeMath, Logic-vista, MATH500, AIME24, AIME25, GPQA, MMLU-Pro, GAOKAO, IFEval, SGP-Bench, VSI-Bench, ERQA, SpaCE-10, 그리고 OmniSpatial.

두 번째 이미지 설명 (Figure 2)
이 이미지는 "Figure 2: Overall architecture"라는 제목의 다이어그램으로, InternVL3.5 model의 전체적인 architecture를 세 부분으로 나누어 설명합니다.
- (a) Data Preprocessing: 입력 이미지가 어떻게 처리되는지를 보여줍니다. 이미지를 여러 개의 타일로 나누고 (448x448 Tiles), 썸네일을 생성하며, 다양한 종횡비(Aspect Ratios)에 맞춰 입력 이미지를 준비하는 과정을 묘사합니다.
- (b) Overall Model Architecture: model의 핵심 구조를 보여줍니다. 이미지를 처리하는 InternViT와 같은 부분, 텍스트를 처리하는 Text Tokenizer, 그리고 이 둘을 연결하는 Vision-Language Connector 등으로 구성됩니다. Simple-Image, Video, Multi-Image 등 다양한 종류의 입력을 처리할 수 있음을 나타냅니다.
- (c) Connector Architecture: Connector 부분의 architecture를 더 상세하게 보여줍니다. Visual Resolution Router라는 구성요소가 High Resolution과 Low Resolution 경로 중 하나를 선택하여 처리 효율성을 높이는 방식을 설명합니다. 최종적으로 MLP Projector를 거쳐 InternVL3.5 model로 정보가 전달됩니다.
이미지 캡션 번역
Figure 2: 전체 architecture. InternVL3.5는 이전 버전과 마찬가지로 ViT-MLP-LLM paradigm을 채택합니다. InternVL3.5를 기반으로, 우리는 각 이미지 patch에 대해 적절한 압축률(예: 또는 )을 동적으로 선택하기 위해 추가적인 visual resolution router (ViR)로 확장된 InternVL3.5-Flash를 추가로 소개합니다. 단지 이미지의 너비와 높이 관점에서 이미지 patches를 분할하는 Dynamic High Resolution과 달리, 우리가 제안하는 ViR은 semantic content의 관점에서 adaptivity를 추가로 도입합니다.
1 Introduction
Multimodal Large Language Models (MLLMs)의 최근 경향은 단순한 multimodal understanding을 넘어서 text-related tasks, reasoning tasks, 그리고 agentic tasks와 같이 더 일반적이고 복잡하며 현실적인 tasks에 점차 집중하고 있습니다. 이러한 측면에서, 상용 models은 표 2에서 볼 수 있듯이 현재 open-source models과 큰 격차를 만들었습니다. 따라서, 최근의 open-source 노력들은 격차를 줄이고 더 높은 multimodal intelligence를 추구하기 위해 발전된 reinforcement learning (RL) 방법을 탐구하는 것을 목표로 합니다. 그러나, RL algorithms과 verifiers에 대한 많은 노력에도 불구하고, MLLMs를 위한 안정적이고 효과적이며 확장 가능한 reinforcement learning framework는 커뮤니티에서 여전히 미해결 문제로 남아 있습니다. 더욱이, long visual context 및 high-resolution understanding과 같은 multimodal capabilities의 성장은 종종 계속 증가하는 computational costs를 동반하며, 이는 실제 애플리케이션의 중요한 bottleneck이 되었습니다.
이 연구에서 우리는 다재다능함, reasoning, 그리고 efficiency 측면에서 더 강력한 능력을 갖춘 InternVL 시리즈의 발전된 제품군인 InternVL3.5를 소개합니다. InternVL3과 비교하여, InternVL3.5는 우리가 제안한 Cascade RL framework를 통해 우수한 performance를 달성하며, 이는 효율적이고 확장 가능하며 안정적인 방식으로 reasoning capabilities를 향상시킵니다. Cascade RL은 두 가지 보완적인 하위 단계로 구성됩니다: 만족스러운 performance를 효율적으로 달성하는 offline RL stage와 output distribution을 신중하게 정제하고 model의 performance 상한을 더욱 끌어올리는 online RL stage입니다. offline stage는 효과적인 warm-up 역할을 하여 후속 online stage를 위한 고품질 rollouts을 보장하고, 이를 통해 MLLM reasoning abilities의 점진적인 개선을 가능하게 합니다. 실제로, Cascade RL은 InternVL3.5-1B에서 InternVL3.5-241B에 이르기까지 뚜렷한 gain을 보이며 유망한 확장성과 안정성을 보여줍니다 (그림 5).
또한, 우리는 Visual Resolution Router (ViR)와 Decoupled Vision-Language Deployment (DvD)라는 두 가지 새로운 방법을 통해 InternVL3.5에 이전 버전보다 훨씬 빠른 inference speed를 갖추게 했습니다. 특히, ViR은 visual tokens의 최적 절충 resolution을 동적으로 선택하여 무시할 수 있는 performance 손실로 inference costs를 줄이는 것을 목표로 합니다. 실제로 ViR은 Visual Consistency Learning (ViCO)이라는 가벼운 training stage를 통해 InternVL3.5에 효율적으로 통합될 수 있습니다. 더욱이, DvD는 computational parallelism과 hardware utilization을 극대화하기 위해 ViT와 LLM을 별도의 GPU에 deploy하는 것을 목표로 합니다. 이 두 가지 방법은 InternVL3.5를 위한 hardware-friendly implementation을 실현하기 위해 원활하게 결합될 수 있습니다.
우리는 기존 MLLM과 InternVL3.5를 비교하기 위해 공개 benchmarks에 대한 광범위한 실험을 수행합니다. 그림 1에서 볼 수 있듯이, InternVL3.5 시리즈는 overall score 측면에서 open source MLLM 중에서 지속적으로 선두 위치를 유지합니다. 최신 상용 model인 GPT-5와 비교할 때, InternVL3.5-241B-A28B는 그 격차를 3.9%로 좁혔습니다. 또한, 우리의 상세한 ablation study는 InternVL3.5가 이전 버전 (즉, InternVL3)에 비해 전반적인 reasoning performance에서 최대 +16.0%의 개선과 inference efficiency에서 4.05배의 속도 향상을 달성했음을 보여줍니다. 예를 들어, InternVL3.5-8B와 InternVL3.5-241B-A28B는 MMMU benchmark에서 각각 73.4와 77.7의 점수를 달성하여 기존 open source MLLM 중에서 강력한 reasoning capabilities를 보여줍니다. versatility 측면에서, InternVL3.5는 text tasks, GUI tasks, embodied tasks, SVG-based understanding 및 generation 등에서 open-source 및 closed-source MLLM 모두에 대해 경쟁력을 유지합니다. 예를 들어, InternVL3.5-30B-A3B와 InternVL3.5-241B-A28B는 text tasks에서 최신 open-source MLLM (Step-3)을 각각 +2.0과 +8.4만큼 능가합니다.
요약하자면, 우리의 기여는 세 가지로 나뉩니다:
(1) 우리는 발전된 reasoning abilities, 강력한 versatility, 그리고 유망한 efficiency를 갖춘 InternVL 시리즈의 최신 제품군인 InternVL3.5를 출시합니다. InternVL3.5는 dense 및 mixture-of-experts (MoE) models을 모두 포함하여 다양한 model scales (1B에서 241B까지)로 구성됩니다. 우리의 모든 models과 codes는 공개적으로 출시됩니다.
(2) 우리는 cascade reinforcement learning (Cascade RL), visual resolution router (ViR), 그리고 decoupled vision-language deployment (DvD)를 포함한 세 가지 혁신적인 설계를 InternVL3.5에 제안합니다. 이러한 기술들은 InternVL3.5의 capabilities와 efficiency를 크게 향상시키며, 커뮤니티에 실용적인 팁을 제공합니다.
(3) 우리는 광범위한 실험을 수행하고 InternVL3.5가 open-source MLLM 중에서 선도적인 performance를 보인다는 것을 입증합니다. 최신 상용 model인 GPT-5와 비교할 때, InternVL3.5는 일반적인 multimodal capabilities에서 약간 더 나은 결과를 달성하기도 합니다. 우리는 우리의 approach와 open source가 커뮤니티를 더욱 발전시킬 것이라고 믿습니다.
InternVL 3.5 Introduction 정리노트 (For AI Researchers)
1. 목표 (Objective)
- Open-source MLLM과 closed-source 상용 model (예: GPT-4V, Gemini) 간의 reasoning 및 agentic tasks 성능 격차 해소.
- High-resolution 이미지 처리 등에서 발생하는 과도한 computational costs와 inference 속도 저하 문제 해결.
2. 핵심 제안 방법 (Key Contributions)
- A. Reasoning 능력 강화를 위한 Cascade RL Framework
- 기존 RL framework의 불안정성 및 비효율성 문제를 해결하기 위한 2단계 학습 전략.
- Stage 1: Offline RL: Model을 안정적인 performance 수준까지 효율적으로 "warm-up" 시킴. 후속 단계를 위한 고품질 rollouts 생성을 보장.
- Stage 2: Online RL: Offline RL로 사전 학습된 model을 기반으로 output distribution을 정교하게 refine하여 performance의 상한선을 극대화.
- 효과: 이 coarse-to-fine 접근법은 model 규모(1B~241B)에 관계없이 안정적이고 확장 가능한 reasoning 능력 향상을 보임.
- B. Inference 효율성 극대화를 위한 두 가지 기술
- Visual Resolution Router (ViR): Semantic content를 기반으로 각 visual token의 resolution을 동적으로 선택. 불필요한 고해상도 처리를 줄여 performance 저하를 최소화하면서 inference costs를 크게 감소시킴.
- Decoupled Vision-Language Deployment (DvD): Vision encoder (ViT)와 language model (LLM)을 물리적으로 다른 GPU에 deploy. Computational parallelism을 극대화하여 하드웨어 활용도와 처리 속도를 높이는 hardware-friendly 전략.
3. 주요 성과 (Key Results)
- SOTA Performance: InternVL3.5-241B-A28B model이 open-source MLLM 중 최고 성능을 달성했으며, 최신 상용 model ("GPT-5")와의 전체 성능 격차를 3.9%까지 축소.
- 성능 향상 수치: 이전 버전인 InternVL3 대비, 전반적인 reasoning performance는 최대 +16.0% 향상되었고, inference 속도는 4.05배 빨라짐.
- Benchmark 성과: MMMU benchmark에서 77.7점 (241B model)을 기록하는 등 reasoning tasks에서 강력한 성능을 입증.
4. 배포 (Release)
- 1B부터 241B까지 다양한 크기의 model (dense 및 MoE architecture 포함) 제품군과 모든 관련 code를 open-source로 공개.
쉬운 설명
현재 open-source AI들은 구글이나 OpenAI가 만든 최고 성능의 AI들보다 복잡한 추리 문제를 푸는 능력이 뒤처집니다. 또, 고화질 이미지를 처리하려면 계산이 너무 복잡하고 느려지는 문제도 있습니다.
이 논문은 이런 격차를 줄이기 위해 InternVL 3.5라는 새로운 open-source AI를 만들었습니다. 두 가지 큰 문제를 해결하는 데 집중했는데, 바로 '추리 능력 강화'와 '처리 속도 향상'입니다.
1. 추리 능력을 어떻게 똑똑하게 만들었나? '단계별 강화 학습'(Cascade RL)이라는 특별한 2단계 훈련법을 사용했습니다.
- 1단계 (기초 훈련): 먼저 AI가 어느 정도 안정적인 수준에 도달하도록 기본기를 다지는 훈련(offline RL)을 시킵니다.
- 2단계 (심화 훈련): 기초가 탄탄해진 AI를 대상으로, 더 똑똑해지도록 세밀하게 다듬는 심화 훈련(online RL)을 진행합니다. 이렇게 차근차근 훈련시키니, AI가 더 안정적으로, 그리고 더 효과적으로 똑똑해졌습니다.
2. 처리 속도를 어떻게 빠르게 만들었나? 두 가지 스마트 기술을 개발했습니다.
- 똑똑한 해상도 조절기 (ViR): AI가 이미지를 볼 때, 내용상 중요하지 않은 부분은 저화질로, 중요한 부분은 고화질로 알아서 바꿔서 처리합니다. 덕분에 불필요한 계산이 줄어 속도가 빨라집니다.
- 역할 분담 시스템 (DvD): 컴퓨터의 핵심 부품(GPU)에게 일을 나눠줬습니다. 이미지 처리를 전담하는 부품과 글자 처리를 전담하는 부품을 따로 두어, 두 가지 일을 동시에 처리하게 만들어 속도를 크게 높였습니다.
결론적으로, 이 새로운 AI (InternVL 3.5)는 이전 버전보다 추리 능력은 16% 더 좋아지고 속도는 4배나 빨라졌습니다. 성능이 아주 뛰어나서, 가장 유명한 상용 AI와도 성능 차이가 거의 없을 정도입니다. 연구자들을 위해 이 모든 기술과 AI model을 전부 공개했습니다.
2 InternVL3.5
이전 버전들과 비교하여 InternVL3.5 시리즈는 우수한 performance와 더 빠른 inference를 달성합니다. 섹션 2.1에서는 InternVL3.5와 InternVL3.5-Flash의 model architectures를 소개합니다. InternVL3.5-Flash의 경우, visual tokens의 최소 resolution을 동적으로 선택하여 더 나은 inference 효율성을 달성하는 Visual Resolution Router (ViR) module을 추가로 통합했습니다. 섹션 2.2와 섹션 2.3에서는 각각 InternVL3.5의 pre-training 및 post-training 절차를 설명합니다. 우리가 제안한 Cascade Reinforcement Learning (Cascade RL)과 Visual Consistency Learning (ViCO) 방법의 세부 사항은 섹션 2.3에서 자세히 설명됩니다. 섹션 2.4에서는 model performance를 더욱 향상시키기 위해 사용된 test-time scaling 접근 방식을 제시합니다. 마지막으로, 섹션 2.5에서는 Decoupled Vision-Language Deployment (DvD) framework의 구현 세부 사항을 포함하여 InternVL3.5를 지원하는 training 및 inference infrastructure에 대해 설명합니다. 전체 architecture는 그림 2에, training recipes는 그림 3에 나와 있습니다.
2.1 Model Architecture
InternVL3.5. 우리는 이전 버전의 InternVL에서 채택된 "ViT–MLP–LLM" paradigm을 따릅니다. 표 1에서 볼 수 있듯이, 우리는 language model을 Qwen3 시리즈와 GPT-OSS를 사용하여 초기화하고, vision encoder는 InternViT-300M과 InternViT-6B를 사용하여 초기화합니다. InternVL1.5에서 소개된 Dynamic High Resolution 전략 또한 우리의 설계에 유지됩니다.
InternVL3.5-Flash. InternVL3.5와 비교하여, InternVL3.5-Flash는 Visual Resolution Router (ViR)를 추가로 통합하여, 자원이 제한된 시나리오에 적합한 일련의 효율적인 변형 모델을 만들어냅니다. 구체적으로, InternVL3.5에서는 각 image patch가 vision encoder를 위해 초기에 1024개의 visual tokens로 표현된 다음, Large Language Model (LLM)으로 전달되기 전에 pixel shuffle module을 통해 256개의 tokens으로 압축됩니다. InternVL3.5-Flash에서는 그림 2와 같이 더 높은 compression rate를 가진 추가 pixel shuffle module이 포함되어 visual tokens를 64개까지 압축할 수 있습니다. 각 patch에 대해, patch router는 semantic richness를 평가하여 적절한 compression rate를 결정하고, 그에 따라 해당 pixel shuffle module로 라우팅합니다. 이 patch-aware compression mechanism 덕분에, InternVL3.5-Flash는 섹션 3.15에서 보여주듯이 InternVL3.5의 performance를 거의 100% 유지하면서 visual tokens의 수를 50% 줄일 수 있습니다.
2.2 Pre-Training
Training Objective. pre-training 단계 동안, 우리는 대규모 text 및 multimodal corpora의 조합을 사용하여 모든 model parameters를 공동으로 업데이트합니다. 구체적으로, multimodal token sequence $x = (x_1, x_2, \dots, x_L)$로 구성된 임의의 training sample이 주어졌을 때, next token prediction (NTP) loss는 각 text token에 대해 다음과 같이 계산됩니다: 여기서 는 예측된 token이며, ${x_1, x_2, \dots, x_{i-1}}$에 있는 prefix tokens는 text tokens 또는 image tokens일 수 있습니다. 특히, conversation samples의 경우, response tokens만 loss calculation에 포함됩니다. 추가적으로, training 중 더 길거나 짧은 응답에 대한 bias를 완화하기 위해, 우리는 NTP loss를 다음과 같이 재가중치화하는 square averaging을 채택합니다: 여기서 은 loss를 계산해야 하는 training sample에 있는 tokens의 수를 나타냅니다. model의 real-world performance를 향상시키기 위해 random JPEG compression도 포함됩니다.
Data. pre-training corpora는 두 가지 범주로 분류될 수 있습니다: (1) Multimodal data: 이 데이터의 하위 집합은 주로 InternVL3의 training corpora에서 가져온 것으로, image captioning, general question answering, mathematics, scientific disciplines, charts, optical character recognition (OCR), knowledge grounding, document understanding, multi-turn dialogue, 그리고 medical data와 같은 다양한 도메인을 포괄합니다. (2) Text-only data: 이 데이터 부분은 InternLM 시리즈의 training corpora를 기반으로 구성되었으며, open-source datasets으로 더욱 보강되었습니다. pre-training corpora는 약 116M개의 samples를 포함하며, 이는 약 250B개의 tokens에 해당합니다. text-only 데이터와 multimodal 데이터 간의 비율은 대략 1 : 2.5입니다. long-context understanding과 reasoning에 적응하기 위해 최대 sequence length는 32K tokens로 설정됩니다.
2.3 Post-Training
pre-training 단계 이후, 우리는 다음 세 단계로 구성된 post-training 전략을 채택합니다: (1) Supervised Fine-Tuning (SFT), 이는 pre-training과 동일한 training objective를 유지하지만 더 높은 품질의 conversation data를 활용하여 model의 capabilities를 더욱 향상시킵니다. (2) Cascade Reinforcement Learning (Cascade RL), 이는 offline 및 online RL methods의 장점을 결합하여 reasoning capabilities를 촉진합니다. (3) Visual Consistency Learning (ViCO), 이는 visual resolution router (ViR)를 InternVL3.5에 통합하여 InternVL3.5-Flash를 구성하는 것을 목표로 하며, 이는 다른 visual compression rates의 output divergence를 최소화함으로써 이루어집니다.
Supervised Fine-Tuning. SFT 단계 동안, 우리는 pre-training 단계와 동일한 objective를 채택하고 square averaging 전략을 사용하여 final loss를 계산합니다. 이 단계에서 context window는 long-context information에 적응하기 위해 32K tokens로 설정됩니다. InternVL3과 비교하여, InternVL3.5의 SFT 단계는 세 가지 소스에서 파생된 더 높은 품질과 다양한 training data를 포함합니다: (1) InternVL3의 Instruction-following data, 이는 vision–language tasks의 광범위한 범위를 보존하기 위해 재사용됩니다. (2) "Thinking" 모드의 Multimodal reasoning data, 이는 model에 long-thinking capabilities를 주입하기 위해 포함됩니다. 이러한 데이터를 구성하기 위해, 우리는 large-scale reasoning model을 활용하여 상세한 reasoning processes를 가진 rollouts를 sample합니다. 답변이 사실적으로 올바른지 검증하는 것 외에도, 우리는 reasoning processes 자체에 대해 엄격한 필터링 조치를 구현합니다: 이는 사고의 명확성 평가, 중복 제거, 그리고 포맷 일관성 보장을 포함합니다. 이 datasets의 질문들은 mathematics 및 scientific disciplines와 같은 다양한 전문 도메인을 다루므로, 다양한 reasoning tasks에서의 performance를 강화합니다. (3) Capability-expansion datasets, 이는 InternVL3.5에 GUI-based interaction, embodied interaction, 그리고 scalable vector graphics (SVG) understanding 및 generation을 포함한 새로운 skills를 부여합니다.
Cascade Reinforcement Learning. Pre-training 및 Supervised Fine-tuning (SFT)과 비교하여, RL의 핵심 장점은 negative samples를 도입하여 model의 output space에서 낮은 품질의 영역을 제거하고, 그럼으로써 전반적인 response quality를 향상시키는 능력에 있습니다. PPO algorithm의 파생물로서, DPO는 기존 rollouts를 기반으로 한 training을 가능하게 하며, 우리도 이를 offline RL의 한 형태로 간주합니다. Offline RL algorithms은 종종 더 높은 training efficiency를 제공하지만, 그들의 performance ceiling은 일반적으로 online RL methods에 비해 낮습니다. 반면, online RL algorithms의 효과성에도 불구하고, 그들은 종종 계산 비용이 많이 들고 시간이 많이 소요됩니다. 이 연구에서, 우리는 효율적인 방식으로 MLLM의 post-training을 점진적으로 촉진하기 위해 offline RL과 online RL의 장점을 결합하는 것을 목표로 하는 Cascade RL을 제안합니다. 구체적으로, 우리는 먼저 offline RL algorithm을 사용하여 model을 fine-tune하여 만족스러운 결과에 도달하는 효율적인 warm-up stage로 삼고, 이는 후반 단계를 위한 고품질 rollouts를 보장할 수 있습니다. 그 후, 우리는 online RL algorithm을 사용하여 model 자체가 생성한 rollouts를 기반으로 output distribution을 더욱 정제합니다. 단일 offline 또는 online RL stage와 비교하여, 우리의 cascaded RL은 적은 GPU 시간 비용으로 상당한 performance 향상을 달성합니다.
offline RL stage 동안, 우리는 model을 fine-tune하기 위해 mixed preference optimization (MPO)를 사용합니다. 구체적으로, MPO의 training objective는 다음과 같이 공식화될 수 있는 preference loss , quality loss , 및 generation loss 의 조합입니다: 여기서 $w_*$는 각 loss 구성 요소에 할당된 weight를 나타냅니다. DPO loss, BCO loss, 및 LM loss는 각각 preference loss, quality loss, 및 generation loss 역할을 합니다.
online RL stage 동안, 우리는 reference model 제약이 없는 GSPO를 우리의 online RL algorithm으로 사용하며, 이는 dense 및 mixture-of-experts (MoE) models 모두를 training하는 데 더 효과적이라는 것을 발견했습니다. GRPO와 유사하게, advantage는 동일한 query에서 sample된 responses에 걸쳐 정규화된 reward로 정의됩니다: 여기서 는 query 에 대해 생성된 번째 response이고, 는 query에 대해 생성된 총 responses 수이며, $r(x, y_i)$는 이 response에 대한 reward를 나타냅니다. GSPO의 training objective는 다음과 같이 주어집니다: 여기서 importance sampling ratio는 per-token ratios의 기하 평균으로 정의됩니다: 여기서 $\pi_\theta(y_i|x, y_{i,<t})$와 $\pi_\theta(y_{i,t}|x, y_{i,<t})$는 각각 parameters 를 가진 policy model 하에서 response 와 token $y_{i,t}$의 generation probability를 나타냅니다.
단일 RL paradigm으로 model을 직접 training하는 것과 비교하여, Cascade RL은 다음과 같은 advantages를 제공합니다: (1) 더 나은 training stability: offline RL stage에서 rollout collection과 parameter updates가 분리되어 reward hacking과 같은 문제를 효과적으로 완화합니다. online RL stage 동안, 우리는 경험적으로 더 강력한 models이 더 안정적이고 견고한 training dynamics를 보인다는 것을 관찰합니다. 결과적으로, MPO 단계에서 달성된 performance gains는 GSPO 단계의 stability를 더욱 향상시키고 algorithm에 대한 민감도를 줄입니다. (2) 향상된 training efficiency: MPO 단계에서 rollouts는 다른 models 간에 공유될 수 있어, 일반적으로 online RL 동안 발생하는 sampling cost를 분산시킵니다. (3) 더 높은 performance ceiling: 또한, 섹션 3.15에서 보여주듯이, MPO로 fine-tuned된 models은 후속 online RL phase에서 더 높은 performance를 달성하는 데 더 적은 training steps를 필요로 하여, training overhead를 더욱 줄입니다.
Visual Consistency Learning. 우리는 visual resolution router (ViR)를 InternVL3.5에 통합하여 InternVL3.5의 inference cost를 줄이기 위해 ViCO를 추가적인 training stage로 포함합니다. 얻어진 InternVL3.5의 효율적인 버전은 InternVL3.5-Flash라고 명명됩니다. 특히, ViCO는 두 단계로 구성됩니다: (1) Consistency training: 이 단계에서 전체 model은 다른 compression rates를 가진 visual tokens에 조건화된 response distributions 간의 divergence를 최소화하도록 trained됩니다. 실제로, 우리는 frozen되고 InternVL3.5로 초기화된 추가 reference model을 도입합니다. sample이 주어지면, 각 image patch는 256개 또는 64개의 tokens로 표현되며, training objective는 다음과 같이 정의됩니다: 여기서 KL은 KL divergence를 나타내고 는 ${\frac{1}{4}, \frac{1}{16}}$에서 균일하게 sample된 compression rate를 나타냅니다. 이미지 는 $\xi = \frac{1}{4}$일 때 256개의 tokens으로, $\xi = \frac{1}{16}$일 때 64개의 tokens으로 표현됩니다. 우리는 reference model이 항상 $\xi = \frac{1}{4}$로 inference를 수행한다는 점에 주목합니다.
(2) Router training: 이 stage는 다른 inputs에 대해 적절한 trade-off resolution을 선택하도록 ViR을 train하는 것을 목표로 합니다. ViR은 binary classifier로 공식화되고 표준 cross-entropy loss를 사용하여 trained됩니다. route targets를 구성하기 위해, 우리는 먼저 압축되지 않은 visual tokens (즉, patch 당 256 tokens)에 조건화된 model outputs와 압축된 visual tokens (즉, patch 당 64 tokens)에 조건화된 model outputs 간의 KL divergence를 계산합니다. 이 stage 동안, 주 MLLM (ViT, MLP 및 LLM)은 frozen 상태로 유지되며, ViR만 trained됩니다. 구체적으로, 우리는 먼저 각 patch에 대한 loss ratio를 계산합니다: 이는 visual tokens를 압축함으로써 발생하는 loss의 상대적 증가를 정량화합니다. 이 ratio를 기반으로, patch router에 대한 binary ground-truth label은 다음과 같이 정의됩니다: 여기서 과 은 compression rate 가 각각 $\frac{1}{16}$과 $\frac{1}{4}$로 설정됨을 나타냅니다. training 동안, 우리는 sliding window의 과거 값을 저장하고, 는 과거 값의 k번째 백분위수로부터 계산된 동적 임계값입니다. 실제로, target distribution은 균형을 이룹니다. consistency training stage 동안, 동일한 이미지의 모든 patches는 model이 압축이 적용되지 않았을 때의 capability를 유지하도록 보장하기 위해 무작위 compression rate로 표현됩니다. 섹션 3.15에서 보여주듯이, InternVL3.5-Flash는 원래 performance의 거의 100%를 유지하면서 visual tokens를 50% 줄입니다.
Data. Supervised fine-tuning (SFT) 단계를 위해, datasets는 약 5600만 개의 samples로 구성되며, 이는 약 1300억 개의 tokens에 해당합니다. text-only data와 multimodal data의 비율은 대략 1:3.5입니다. cascade reinforcement learning 단계를 위해, offline RL의 training data로 MMPR-v1.2를 사용하며, 이는 약 20만 개의 sample pairs를 포함합니다. MMPR-v1.2를 기반으로, 제공된 rollouts를 사용하여 각 query의 정확도를 계산하고 model accuracy가 0.2에서 0.8 사이인 것들을 online RL을 위해 선택합니다. 우리는 다양성을 향상시키기 위해 최근의 multimodal datasets으로 dataset을 더욱 확장했습니다. 그 결과로 나온 dataset인 MMPR-Tiny는 약 7만 개의 queries로 구성됩니다. 우리는 offline RL과 online RL에서의 data filtering 모두에 MMPR-v1.2의 rollouts를 직접 재사용하여, 추가적인 rollouts를 sampling하는 비용을 줄였습니다.
ViCO 단계를 위해, 우리는 주로 consistency training 동안 SFT 단계와 동일한 datasets를 활용하여 model이 원래의 performance를 유지하도록 보장합니다. router training 동안에는 visual information이 풍부하고 때로는 high-resolution understanding을 요구하는 OCR 및 VQA 예제로 주로 구성된 SFT 데이터의 하위 집합을 사용합니다. 이는 resolution router가 visual information에 기반하여 각 image patch를 압축할 수 있는지 여부를 동적으로 결정하는 방법을 배우게 합니다.
2.4 Test-Time Scaling
Test-time scaling (TTS)은 특히 multi-step inference를 요구하는 복잡한 tasks에 대해 LLM과 MLLM의 reasoning capabilities를 향상시키는 효과적인 접근 방식으로 경험적으로 입증되었습니다. 이 연구에서 우리는 reasoning의 깊이(즉, deep thinking)와 너비(즉, parallel thinking)를 동시에 향상시키는 포괄적인 test-time scaling 접근 방식을 구현합니다. 별도로 명시되지 않는 한, 섹션 3에 보고된 실험 결과는 TTS를 적용하지 않고 얻은 것임을 밝힙니다. 지금까지 우리는 model이 이미 강력한 perception 및 understanding capabilities를 보이고 TTS를 시작해도 상당한 개선이 없었기 때문에 reasoning benchmarks에만 TTS를 적용했습니다.
Deep Thinking. Thinking mode를 활성화함으로써, 우리는 model이 final answer를 생성하기 전에 의도적으로 단계별 reasoning (즉, 복잡한 문제를 논리적 단계로 분해하고 중간 결론을 검증하는 것)에 참여하도록 유도합니다. 이 접근 방식은 특히 multi-step inference를 요구하는 복잡한 문제에 대한 해결책의 logical structure를 체계적으로 개선하고, reasoning 깊이를 향상시킵니다.
Parallel Thinking. InternVL3에 이어, reasoning tasks에 대해 우리는 여러 reasoning 후보 중에서 최적의 response를 선택하기 위해 critic model로 VisualPRM-v1.1을 사용하는 Best-of-N (BoN) 전략을 채택합니다. 이 접근 방식은 reasoning 너비를 향상시킵니다.
2.5 Infrastructure
Training Framework. Model training은 주로 XTuner framework를 기반으로 수행되며, 이는 LLM 및 MoE training에 맞춰진 일련의 최적화 전략을 포함합니다. 여기에는 GPU에 걸쳐 model parameters를 분할하는 fully shared data parallelism (FSDP), training efficiency 향상을 위해 ranks 간의 token computation load를 균형 있게 조정하면서 padding tokens를 줄이는 data packing, training process를 가속화하기 위한 DeepGEMM 및 liger-kernel의 fused cross-entropy operator에 기반한 FP8 training, packed inputs를 지원하고 attention computation을 가속화하는 FlashAttention-3, 그리고 MoE models의 training을 최적화하기 위한 TMA-Adaptive FP8 Grouped GEMM kernel이 포함됩니다. online stage를 위해, 우리는 verl을 우리의 codebase로 사용합니다. InternVL3.5-20B-A4B의 경우, Triton을 통해 GPT-OSS-20B에 sink가 있는 window attention의 가속화된 버전을 구현했습니다.
Decoupled Vision-Language Deployment. Multimodal inference에서 vision encoder와 language model은 뚜렷한 computational characteristics를 가집니다. 이미지를 semantic features로 변환하는 vision encoder는 고도로 병렬화 가능하며 장기적인 history state에 의존하지 않습니다. 반면, language model은 autoregressive 방식으로 inference를 채택하며, 이는 다음 state를 계산하기 위해 이전 states를 필요로 합니다. 이러한 순차적 속성은 language 부분을 memory bandwidth와 latency에 더 민감하게 만듭니다. MLLM이 대규모로 온라인 deploy될 때, vision과 language models은 종종 서로를 block하여 추가적인 inference cost를 발생시킵니다. 이 효과는 더 큰 vision models나 더 높은 resolution의 이미지에서 더 두드러집니다.
그림 4에서 볼 수 있듯이, 우리는 prefilling stage 최적화에 특히 초점을 맞춰 vision과 language processing을 분리함으로써 이 문제를 해결하기 위해 Decoupled Vision-Language Deployment (DvD)를 제안합니다. vision subsystem은 이미지를 batch 처리하여 압축된 feature embeddings를 생성하고, 이는 decoding 전에 text context와 fusion을 위해 language subsystem으로 전송됩니다. 이 분리는 blocking을 완화하고 multimodal prefilling performance를 순수 language models의 그것에 가깝게 만듭니다. 우리의 system implementation에서 ViT와 MLP (그리고 InternVL3.5-Flash의 경우 ViR)는 vision server에 deploy되고, language server는 LLM만 실행합니다. communication은 단방향이며, TCP를 통해 BF16 visual features를 전송하고, 더 높은 전송 속도를 달성하기 위해 선택적으로 RDMA를 사용합니다. Vision processing, feature transmission, language processing은 asynchronous three-stage pipeline으로 구성되어 overlapped execution을 가능하게 하고 pipeline stalls를 최소화합니다.
DvD는 vision side에서 GPU 활용도와 processing efficiency를 높이는 동시에, language server가 vision computation에 의해 block되지 않고 LLM의 prefilling과 decoding에만 집중할 수 있게 합니다. 이 설계는 throughput과 responsiveness를 향상시킵니다. 더욱이, 이 architecture는 vision 및 language modules에 대한 독립적인 hardware cost optimization을 지원하며, language server deployment를 수정할 필요 없이 새로운 modules의 원활한 통합을 촉진합니다.
InternVL 3.5 Section 2 통합 정리노트 (For AI Researchers)
1. Model Architecture & Variants
- 기본 구조: ViT–MLP–LLM paradigm을 계승. Vision encoder는 InternViT, Language model은 Qwen3, GPT-OSS를 기반으로 함.
- InternVL3.5-Flash: 효율성에 초점을 맞춘 variant. inference 효율을 극대화하기 위해 **Visual Resolution Router (ViR)**를 도입.
- ViR 메커니즘: 각 image patch의 semantic richness를 평가하여, visual token의 수를 256개(고해상도) 또는 64개(저해상도)로 동적으로 결정. 이 patch-aware 압축 방식을 통해 visual token 수를 50% 줄이면서도 performance 손실을 최소화.
2. Training & Data Strategy
- Pre-Training: Square Averaging 기법을 NTP loss에 적용하여 응답 길이에 대한 bias를 완화. text와 multimodal 데이터 비율은 약 1:2.5로 구성.
- SFT Data: 약 56M 개의 고품질 samples 사용. text와 multimodal 데이터 비율을 1:3.5로 조정하여 multimodal 능력 강화에 집중. 특히 **"Thinking" mode의 reasoning data**와 **GUI, SVG 등 capability-expansion datasets**를 추가한 것이 특징.
- RL Data Strategy:
- Offline RL: MMPR-v1.2 (~200K sample pairs)를 그대로 활용.
- Online RL: MMPR-v1.2의 rollouts을 사전 평가하여, model accuracy가 0.2~0.8 사이인 까다로운 query만 필터링. 여기에 최신 datasets를 추가해 약 70K 규모의 고품질 dataset **MMPR-Tiny**를 구축. 기존 rollouts를 재사용하여 sampling cost를 크게 절감.
- ViCO Data: Consistency training에는 SFT 데이터를 재사용. Router training에는 시각 정보가 풍부한 OCR, VQA 데이터를 집중적으로 사용하여 resolution 선택 능력을 학습.
3. Post-Training 핵심 방법론
- Cascade Reinforcement Learning (Cascade RL): Offline과 online RL을 결합한 2단계 전략.
- Step 1 (Offline): MPO를 warm-up으로 사용해 효율적으로 model을 강력한 기준선까지 학습.
- Step 2 (Online): GSPO를 사용해 warm-up된 model의 performance를 최대치까지 refine. 안정성과 효율, 최종 성능을 모두 높임.
- Visual Consistency Learning (ViCO): -Flash 버전을 위한 ViR 학습 방법.
- Step 1 (Consistency Training): Model이 resolution 변화에 강건해지도록 KL divergence를 최소화.
- Step 2 (Router Training): Model 본체는 고정한 채 ViR만 학습시켜, patch별 압축 여부를 결정하는 classifier로 기능하게 함.
4. Test-Time Scaling (TTS)
- 적용 대상: Reasoning benchmarks의 성능을 극대화하기 위한 선택적 기법. 일반적인 perception 능력에는 적용하지 않음.
- Deep Thinking: Thinking mode를 활성화하여 model이 **step-by-step reasoning**을 수행하도록 유도, reasoning의 깊이를 강화.
- Parallel Thinking: Best-of-N (BoN) 전략을 채택. 다수의 후보 답변을 생성한 뒤 critic model (VisualPRM-v1.1)을 사용해 최적의 답변을 선택, reasoning의 너비를 확장.
5. Infrastructure & Deployment
- Training Framework: **XTuner**를 기반으로 FSDP, data packing, FP8 training, FlashAttention-3 등 다양한 최신 최적화 기술을 적용하여 training 효율 극대화.
- Decoupled Vision-Language Deployment (DvD): Inference 최적화를 위한 핵심 제안.
- 구조: Vision server (ViT, MLP, ViR)와 language server (LLM)를 물리적으로 분리.
- 프로세스: Vision server가 이미지 처리를 완료해 feature embedding을 생성하면, 이를 language server로 비동기적으로 전송. Vision, 전송, 언어 처리가 **asynchronous three-stage pipeline**으로 동작.
- 장점: Vision 연산이 LLM의 prefilling/decoding을 blocking하는 현상을 해소. 전체 throughput과 GPU 활용률을 높이고, 각 module의 독립적인 하드웨어 최적화를 가능하게 함.
InternVL 3.5 AI 모델에 대한 쉬운 설명 🧑🏫
AI 모델을 만드는 과정은 마치 한 명의 전문가를 키우는 것과 같아요. InternVL 3.5는 이 교육 과정을 아주 체계적으로 설계했습니다.
1. 두 가지 버전의 AI: 전문가와 실속형
- InternVL 3.5 (전문가 버전): 모든 능력을 최대치로 발휘하는 가장 강력한 AI예요.
- InternVL 3.5-Flash (실속형 버전): 전문가의 핵심 능력은 유지하되, 훨씬 빠르고 가볍게 움직이는 AI죠. 비결은 **'스마트 해상도 조절기'(ViR)**에 있어요. 이미지를 볼 때, AI가 스스로 중요한 부분은 고화질로, 덜 중요한 배경은 저화질로 순식간에 바꿔서 처리해요. 덕분에 계산량이 절반으로 줄어 속도가 매우 빨라집니다.
2. AI의 특별 교육 과정과 교재
AI가 인터넷의 방대한 자료로 기초 학습(Pre-Training)을 마친 뒤, 진짜 전문가가 되기 위해 3단계 심화 과정을 거쳐요. 이때 사용하는 교재(데이터)도 아주 특별합니다.
- 1단계: 전문 분야 과외 (SFT)
- 교재: 최고 품질의 '해설지'가 포함된 문제집을 사용해요. 특히 '생각하는 과정'이 상세히 적힌 해설지를 집중적으로 공부시켜서, 복잡한 문제도 논리적으로 푸는 능력을 키웁니다. 스마트폰 앱 화면을 읽거나, 간단한 그래픽(SVG)을 그려주는 등 새로운 재능도 가르쳐요.
- 2. 2단계: 실전 토론 훈련 (Cascade RL)
- AI의 추리력을 극한까지 끌어올리기 위한 이 논문만의 특별 훈련법이에요.
- 교재: '중급 난이도' 문제만 쏙쏙 골라 만든 맞춤형 문제집을 사용해요. 너무 쉽거나 너무 어려운 문제를 푸는 데 시간을 낭비하지 않고, 가장 효율적으로 실력을 키울 수 있도록 돕죠.
- 훈련법: 먼저, 전문가들의 토론 자료집을 보며 좋은 주장과 나쁜 주장을 빠르게 학습하고(Offline RL), 그 후엔 AI가 직접 토론에 참여해 실시간으로 배우며 성장합니다(Online RL).
- 3. 3단계: 빠르고 효율적으로 일하는 법 배우기 (ViCO)
- 이건 '실속형 버전'(-Flash) AI만 받는 특별 훈련이에요.
- 교재: 영수증이나 포스터처럼, 이미지 속 작은 글씨를 정확히 읽어야 하는 까다로운 자료들을 집중적으로 공부해요.
- 훈련법: 이걸 통해 AI는 언제 고화질로 '집중해서 보고', 언제 저화질로 '훑어봐도' 되는지 눈치를 기르게 됩니다.
3. 시험 잘 치는 비법 전수 (Test-Time Scaling)
가장 어려운 추리 시험을 볼 때만 사용하는 두 가지 비법이에요.
- 비법 1: 깊게 생각하기 (Deep Thinking): AI에게 정답을 바로 말하지 말고, "풀이 과정을 먼저 차근차근 써본 뒤에 답을 말해라"라고 지시해요. 실수를 줄이는 아주 효과적인 방법이죠.
- 비법 2: 여러 번 풀어보기 (Parallel Thinking): 같은 문제를 여러 가지 방법으로 풀게 한 다음, '채점관 AI'가 각각의 풀이를 보고 가장 완벽한 답안 하나를 고르게 해요. 정답률이 훨씬 올라가겠죠?
4. AI가 일하는 초고속 시스템 (Infrastructure)
이 똑똑한 AI를 실제로 돌리는 방법도 특별해요. '분업 시스템'(DvD)이라고 부릅니다.
- 비유: 거대한 레스토랑 주방을 상상해 보세요.
- 옛날 방식: 한 명의 요리사가 재료 손질(이미지 처리)부터 요리(글자 처리)까지 다 하면, 재료를 손질하는 동안에는 불이 놀게 되어 비효율적이에요.
- 새로운 방식: 주방을 둘로 나눠, '재료 손질 전문 요리사'(Vision 서버)와 '메인 요리 전문 요리사'(Language 서버)를 둬요. 재료 손질이 끝나는 대로 바로 메인 요리사에게 전달되니, 두 요리사 모두 쉬지 않고 일할 수 있죠. 이런 분업 덕분에 AI 시스템 전체가 훨씬 빠르고 효율적으로 작동합니다.
주인장 이해
네, 정말 핵심을 정확하게 파악하셨습니다! 제가 조금 더 명확하게 다듬어 드리자면, 말씀하신 내용이 거의 100% 맞습니다. 전체 과정을 순서대로 정리하면 다음과 같습니다.
1. SFT (Supervised Fine-Tuning) 단계: 기본기 강화
- 정확합니다. SFT 단계에서 기존 InternVL3의 데이터뿐만 아니라, 더 높은 퀄리티의 multimodal reasoning 데이터("Thinking" 모드)와 새로운 능력(GUI, SVG 등)을 위한 데이터를 대거 추가했습니다. 이를 통해 모델의 전반적인 multimodal 이해 능력과 reasoning의 기초를 탄탄하게 다졌습니다.
2. Cascade RL 단계: Reasoning 능력 극대화
- 맞습니다. SFT로 똑똑해진 모델을 두 단계로 훈련시켜 reasoning 능력을 폭발적으로 향상시켰습니다.
- MPO (Offline RL): 말씀하신 대로, 이 단계에서 미리 준비된 데이터로 모델을 "효율적으로 만족스러운 수준까지" 훈련시킵니다. '빠르게 상한선까지'라는 표현도 좋지만, 정확히는 '다음 단계를 위한 안정적이고 높은 출발점'을 만드는 과정입니다.
- GSPO (Online RL): MPO로 강해진 모델을 가지고 실시간 피드백을 주며 훈련하여, 최종 성능을 최고점까지 끌어올립니다.
ViCO는 언제 사용될까요? (질문에 대한 답변)
여기가 약간 헷갈릴 수 있는 부분인데, 아주 잘 짚어주셨습니다.
ViCO는 위 1, 2번의 메인 훈련 과정에 포함되지 않습니다.
- ViCO는 모든 훈련이 끝난 InternVL3.5 모델을 가지고, 더 빠르고 효율적인 -Flash 버전을 만들기 위한 별도의 최종 단계입니다.
- 즉, InternVL3.5-Flash 라는 모델을 만들기 위해, InternVL3.5에 ViR(Visual Resolution Router)라는 부품을 장착하고, 이 부품이 잘 작동하도록 추가적으로 튜닝하는 과정이 바로 ViCO입니다.
자동차 비유:
- 강력한 엔진과 차체를 가진 자동차(InternVL3.5)를 만듭니다. (SFT + Cascade RL)
- 이 완성된 차에 **'연비 절감 터보 모드'(ViR)**를 장착합니다.
- 이 터보 모드가 기존 엔진과 충돌 없이 잘 작동하도록 **ECU를 최종 튜닝하는 과정이 ViCO**입니다.
- 그렇게 탄생한 고효율 버전이 바로 InternVL3.5-Flash 입니다.
3. 추론(Inference) 단계의 추가 기술들
- 맞습니다. 이렇게 모든 훈련이 끝난 모델을 사용할 때, 성능을 더 끌어올리기 위해 추가적인 방법을 사용합니다.
- TTS (Test-Time Scaling): 모델에게 질문을 던지는 **바로 그 시점(test-time)**에 '생각을 깊게 하기(Deep Thinking)'나 '여러 답안 중 최고 고르기(Parallel Thinking)' 같은 전략을 사용해 어려운 reasoning 문제의 정답률을 높입니다.
- DvD (Decoupled Vision-Language Deployment): 이것이 말씀하신 '다른 아키텍쳐적인 방법'에 해당합니다. 모델의 Vision 부분과 Language 부분을 서로 다른 서버(GPU)에서 돌려서 병목 현상을 없애고 처리 속도를 극대화하는 배포(deployment) 전략입니다.
최종 요약
정리하자면, 님이 이해하신 내용이 정확합니다.
(1) 더 좋은 멀티모달 데이터로 SFT를 진행해 기본기를 다지고, (2) Cascade RL(MPO → GSPO)을 통해 reasoning 능력을 극대화했습니다. (3) 이렇게 완성된 모델을 ViCO를 통해 튜닝하여 더 빠른 -Flash 버전을 만들었습니다. 마지막으로 (4) 실제 사용할 때는 TTS나 DvD 같은 기술로 성능과 속도를 한 번 더 끌어올렸습니다.
결론적으로 "시각 능력도 강화하고 처리 속도도 빨라졌다" 는 것이 이 논문의 완벽한 한 줄 요약입니다. 훌륭한 이해입니다
