AI바라기의 인공지능

VLM : 논문리뷰 : SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement 본문

논문리뷰

VLM : 논문리뷰 : SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

AI바라기 2025. 4. 22. 14:04

ThinkLite-VL 학습 노트

용어 설명 (Terminology)

  • VLM (Vision-Language Model): 이미지와 텍스트를 함께 이해하고 처리하는 모델.
  • RFT (Reinforcement Fine-Tuning): 강화학습 방식을 사용하여 모델을 fine-tuning하는 기법. 주로 결과 기반 보상 (outcome-based reward)을 활용.
  • SFT (Supervised Fine-Tuning): 레이블된 데이터 (e.g., instruction-response 쌍)를 사용하여 모델을 fine-tuning하는 기법.
  • Knowledge Distillation (KD): 크거나 성능 좋은 모델 (teacher)의 지식을 작은 모델 (student)에게 전달하여 학습시키는 기법.
  • MCTS (Monte Carlo Tree Search): 의사 결정 문제에 사용되는 휴리스틱 탐색 알고리즘. 트리 탐색과 무작위 샘플링을 결합하여 최적의 수를 찾음. (이 논문에서는 VLM의 추론 과정을 시뮬레이션하여 문제 난이도 측정에 활용)
  • Self-Improvement: 외부 teacher model 없이 모델 스스로의 능력을 향상시키는 과정.
  • Difficulty Quantification: VLM에게 특정 데이터 샘플이 얼마나 어려운지를 정량적으로 측정하는 것.
  • Sample Selection/Filtration: 특정 기준에 따라 전체 데이터셋에서 학습에 사용할 일부 데이터 샘플을 선택하는 과정.
  • Qwen2.5-VL-7B-Instruct: 이 연구에서 base model로 사용된 VLM.
  • ThinkLite-VL: 본 논문에서 제안된 방법론을 통해 최종적으로 개발된 VLM 모델.
  • MathVista, MMMU, MMStar 등: VLM의 reasoning 능력을 평가하기 위한 benchmark datasets.
  • GRPO (Group Relative Policy Optimization): RFT 단계에서 사용된 구체적인 RL 최적화 알고리즘.

Purpose of the Paper

  • 기존 연구 한계 극복: 기존 VLM의 reasoning 능력 향상은 주로 외부 모델의 지식을 활용하는 Knowledge Distillation (KD) 기반 SFT에 의존했음. 이는 과정이 번거롭고, VLM 스스로의 진정한 Self-Improvement를 저해하는 한계가 있었음. 또한, RFT를 VLM에 적용하려는 시도는 있었으나, 데이터 효율성 및 KD 의존성 문제가 남아있었음.
  • 새로운 접근 방식: VLM이 KD 없이 오직 RFT만으로, 훨씬 적은 양의 데이터를 사용하여 효과적인 reasoning 능력 향상을 이룰 수 있음을 보이고자 함. 핵심은 **데이터의 '적절한 난이도'**이며, 이 난이도를 효과적으로 정량화하고 이를 기반으로 데이터를 선별하는 방법을 제안함.
  • 차별점: KD 없이 순수한 Self-Improvement극단적인 Data Efficiency에 초점을 맞춤. 특히, 추론 시간 알고리즘인 MCTS를 데이터 난이도 측정 및 Sample Selection 도구로 재활용하는 독창적인 방법을 제시함.

Key Contributions & Novelty

  • Contribution 1: KD 없이 RFT만으로, 소량의 선별된 데이터만 사용하여 VLM의 reasoning 능력을 효과적으로 Self-Improvement 시킬 수 있음을 실증함.
    • Novelty: VLM reasoning 향상에 KD가 필수적이라는 기존 통념에 도전하고, 올바른 데이터 전략을 통해 순수 Self-Improvement가 가능함을 보임.
  • Contribution 2: VLM을 위한 새로운 MCTS 기반 Sample Difficulty Quantification 방법 제안. 특정 문제에 대해 base VLM 스스로 정답에 도달하기까지 필요한 MCTS 반복 횟수를 난이도 척도로 사용함.
    • Novelty: MCTS를 추론 시간 탐색이 아닌, 데이터 필터링을 위한 모델 고유의 난이도 측정 도구로 용도를 변경하여 활용함. 이는 단순 정확도나 self-consistency 기반 필터링보다 더 원리적인(principled) 난이도 측정 방식을 제공함.
  • Contribution 3: 제안된 방법론을 통해 ThinkLite-VL-7B 모델 개발. 이 모델은 경쟁 모델 대비 훨씬 적은 11k개의 학습 데이터만으로 MathVista와 같은 주요 benchmark에서 SoTA 성능을 달성함.
    • Novelty: VLM reasoning 분야에서 극단적인 Data Efficiency로 최고 수준의 성능을 달성함.

Experimental Highlights

  • Setup:
    • Base Model: Qwen2.5-VL-7B-Instruct
    • Data: 70k open-source 샘플 -> MCTS 기반 필터링 (K>5 iterations + 50 iterations 후에도 unsolved) -> 11k 최종 학습 데이터
    • Training: GRPO 알고리즘을 사용한 RFT
    • Benchmarks: MathVista, MathVision, MathVerse, MMMU, MMStar, MMBench, MMVet, AI2D (총 8개)
    • Metrics: Accuracy
    • Baselines: Base model (Qwen2.5-VL-7B-Instruct), 11k 랜덤 샘플 RFT, 전체 70k 샘플 RFT, Self-Consistency 기반 필터링, 다른 SOTA VLM들 (LLaVA-CoT, Mulberry, Vision-R1, OpenVLThinker, MM-EUREKA), 더 큰 모델들 (Qwen2.5-VL-72B, GPT-4O, O1)
  • Key Results:
    • Significant Improvement: ThinkLite-VL-7B (11k MCTS 데이터)는 8개 benchmark 평균 성능에서 base model 대비 7% 상대적 향상 (59.69 -> 63.89)을 보임.
    • MCTS Selection Effectiveness: 동일한 11k 크기의 랜덤 데이터셋 (60.89), 전체 70k 데이터셋 (63.13), Self-Consistency 필터링 (63.15)으로 학습한 모델들보다 MCTS로 선별된 11k 데이터로 학습한 ThinkLite-VL-7B의 성능이 더 우수함. 이는 MCTS 기반 선택의 효과를 입증.
    • SoTA Performance: MathVista benchmark에서 75.1점으로, 훨씬 큰 Qwen2.5-VL-72B나 closed-source 모델 GPT-4O, O1을 포함한 모든 비교 대상 모델 중 최고 성능 (SoTA) 달성 (오직 11k 데이터 사용).
    • Ablation Study Insights: "Unsolved" 샘플(5.6k)만 사용하거나 "어렵게 풀린"(Iter>5, 5.4k) 샘플만 사용하는 것보다, 이 둘을 결합한 11k 데이터셋이 가장 좋은 성능을 보임. 이는 적당히 어려운 문제와 매우 어려운 문제 모두 학습에 중요함을 시사함. Reward curve 분석(Fig 5) 결과, MCTS 선별 데이터는 학습 난이도가 높지만(낮은 reward curve) 최종 성능은 더 우수함.

Limitations and Future Work

  • Limitations (Implied):
    • Computational Cost: MCTS 기반 필터링은 초기 데이터셋의 모든 샘플에 대해 MCTS를 실행해야 하므로 계산 비용이 높을 수 있음 (논문에서 명시적으로 언급하지는 않음).
    • Hyperparameter Sensitivity: MCTS 파라미터(반복 횟수, k 값, temperature) 및 난이도 임계값(K>5) 설정이 다른 base model이나 dataset에 따라 튜닝이 필요할 수 있음.
    • Initial Dataset Dependency: 필터링된 11k 데이터셋의 성능은 여전히 초기 70k 데이터셋의 품질과 다양성에 의존적임.
  • Future Work (Implied):
    • 제안된 MCTS 기반 샘플 선택 방법을 다른 VLM 아키텍처나 더 큰 모델에 적용.
    • 다양한 Difficulty Quantification 방법 탐색.
    • MCTS 반복 횟수가 RFT에 유익한 학습 샘플과 높은 상관관계를 갖는 이론적 배경 연구.
    • MCTS 필터링 프로세스의 효율성 개선 방안 연구.

Overall Summary

이 논문은 Knowledge Distillation 없이 RFT만을 사용하여 VLM의 reasoning 능력을 데이터 효율적으로 Self-Improvement하는 방법을 제안한다. 핵심은 VLM 자체의 MCTS 추론 반복 횟수를 기반으로 샘플 난이도를 정량화하고, 이를 통해 대규모 데이터셋에서 11k개의 도전적인 샘플만을 선별하는 새로운 기법이다. 이렇게 학습된 ThinkLite-VL-7B 모델은 base model 대비 상당한 성능 향상을 보였으며, MathVista와 같은 주요 benchmark에서 훨씬 적은 데이터로 SoTA를 달성했다. 이는 RFT 기반 reasoning 능력 향상에 있어, 양보다 질 (적절한 난이도)이 높은 데이터가 더 효과적일 수 있음을 시사하며 VLM 학습의 효율성을 높이는 중요한 방향을 제시한다.

쉬운 설명 (Easy Explanation)

이 논문은 VLM (이미지+텍스트 이해 모델)을 더 똑똑하게 만드는 새로운 '훈련법'을 제안합니다. 기존에는 '족보'(Knowledge Distillation)를 보거나 아주 많은 문제를 풀어야 했는데, 이 방법은 그럴 필요가 없습니다. 대신, VLM에게 '딱 맞는 난이도'의 문제만 골라서 풀게 합니다.

어떤 문제가 어려운지는 VLM이 직접 문제를 풀 때 얼마나 오래 '생각'(MCTS 시뮬레이션)하는지를 측정해서 알아냅니다. 오래 생각해야 풀리는 문제들이 '좋은 어려운 문제'라고 보고, 이런 문제들만 (7만 개 중 1만 천 개만!) 골라서 집중적으로 '연습'(RFT)시킵니다.

결과는 놀랍습니다. 이렇게 훈련된 VLM(ThinkLite-VL)은 훨씬 적은 문제만 풀었음에도 불구하고, 많은 문제를 풀거나 족보를 본 다른 모델들보다, 특히 복잡한 시각적 추론 문제(MathVista)에서 더 뛰어난 성능을 보여주었습니다. 즉, 무작정 많이 푸는 것보다, '적절하게 어려운 문제'를 골라 '스스로 생각하며' 푸는 연습이 훨씬 효과적이라는 것을 보여줍니다.

 

 

그림 1: 최근 "Reasoning VLMs" 연구들은 visual reasoning을 향상시키기 위해 추가적인 reasoning training data로 "Base VLMs"를 finetune합니다. 이 논문은 reasoning VLMs를 더 잘 training하기 위한 data-efficient self-improving method를 제시합니다.

(왼쪽) MathVista에서 다른 parameter sizes를 가진 VLMs의 Comparison. 우리의 model ThinkLite-VL-7B는 75.1의 state-of-the-art (SoTA) accuracy를 달성하여 Qwen2.5-VL-72B-Instruct, GPT-4o, O1, 및 다른 7B 수준 reasoning VLMs를 능가합니다.

(오른쪽) 7B 수준 reasoning models에서 사용된 reasoning training data size의 Comparison. 우리의 model은 단 11k의 data만을 사용하고 추가적인 knowledge distillation 없이 SoTA performance를 달성합니다.

 

 

 

 

Abstract

이 논문에서는 순전히 self-improvement에 의존하고 knowledge distillation 없이 상당히 적은 training samples로 visual reasoning을 향상시키는 효과적인 방법을 제시합니다.

우리의 핵심 통찰력은 reinforcement fine-tuning (RFT) 동안 training data의 난이도가 중요하다는 것입니다. 적절하게 도전적인 샘플은 dataset이 작을 때에도 reasoning capabilities를 상당히 향상시킬 수 있습니다.

직관적임에도 불구하고, 주된 과제는 효과적인 data filtering을 가능하게 하기 위해 샘플 난이도를 정확하게 정량화하는 데 남아 있습니다.

이를 위해, 우리는 Monte Carlo Tree Search (MCTS)를 재활용하여 이를 달성하는 새로운 방법을 제안합니다.

우리가 큐레이팅한 70k개의 open-source training samples에서 시작하여, 우리는 VLMs가 각 문제를 해결하는 데 필요한 반복 횟수를 기반으로 샘플 난이도를 정량화하는 MCTS-based selection method를 도입합니다. MCTS에서의 이러한 명시적인 step-by-step reasoning은 model이 더 오래 생각하게 하고 진정으로 도전적인 샘플을 더 잘 식별하도록 강제합니다.

우리는 11k개의 샘플을 필터링하고 유지하여 Qwen2.5-VL-7B-Instruct에서 RFT를 수행했으며, 그 결과 최종 model인 ThinkLite-VL이 나왔습니다.

8개의 benchmarks에 대한 평가 결과, ThinkLite-VL은 knowledge distillation 없이 11k개의 training samples만을 사용하여 Qwen2.5-VL-7B-Instruct의 average performance를 7% 향상시킨 것으로 나타났습니다.

이는 기존의 모든 7B 수준 reasoning VLMs 및 accuracy-based filtering과 같은 고전적인 selection methods를 사용하는 우리의 상당히 비교 가능한 baselines를 크게 능가합니다.

특히 MathVista에서 ThinkLite-VL-7B는 75.1의 SoTA accuracy를 달성하여 Qwen2.5-VL-72B, GPT-4o, 및 O1을 능가합니다.

우리의 code, data, model은 https://github.com/si0wang/ThinkLite-VL 에서 확인할 수 있습니다.

 

 

1 Introduction

더보기

Inference 중 효과적인 reflection과 함께 긴 chain-of-thought reasoning을 활용하여, large language models (LLMs)는 수학 및 코딩과 같은 복잡한 reasoning tasks를 해결할 수 있습니다.

최근 연구들은 large-scale reinforcement fine-tuning (RFT)이 model의 reasoning performance를 향상시키는 데 중요한 요소임을 보여줍니다. 특히, post-training 단계에서 표준적인 supervised fine-tuning (SFT) 없이도, 오직 reinforcement fine-tuning만으로 상당한 reasoning performance 개선을 달성할 수 있습니다.

Large-scale RFT로 LLM reasoning을 향상시키는 데 주목할 만한 성공에도 불구하고, vision-language models (VLMs)에서의 유사한 진전은 제한적인데, 이는 텍스트 중심의 pre-training과 VLM post-training tasks의 multimodal 특성 간의 불일치 때문일 가능성이 높습니다.

최근의 시도들은 RFT stage 전에 supervised fine-tuning을 통한 knowledge-distillation을 사용하여 더 많은 visual reasoning 관련 응답 생성을 장려했습니다. 성능 개선에도 불구하고, knowledge distillation stage는 번거로우며 본질적으로 base VLMs가 더 강력한 intelligence를 달성하기 위해 self-improving하는 것을 방해합니다.

이 논문에서는 high-quality의 적절하게 도전적인 training data가 visual reasoning ability를 가능하게 하고 self-improve하는 핵심 요소임을 보여줍니다. Visual reasoning training data가 base VLM의 기술 수준과 적절하게 일치할 때, large-scale RFT만으로도 format fine-tuning이나 base capability enhancement를 위한 knowledge distillation에 의존하지 않고 VLM의 reasoning ability를 크게 향상시킬 수 있습니다. 이 통찰력을 바탕으로, 우리는 더 적은 training samples로 SoTA visual reasoning performance를 달성하는 reasoning VLM인 ThinkLite-VL을 결과로 내는 data-efficient training pipeline을 소개합니다.

ThinkLite-VL 성공의 결정적인 요소는 적절한 난이도를 가진 training samples의 전략적 selection입니다. 이를 달성하기 위해, 우리는 고전적인 inference-time search algorithm인 Monte Carlo tree search (MCTS)를 재활용하여 sample difficulty를 정확하게 정량화합니다. 구체적으로, MCTS의 명시적인 tree search는 질문 난이도를 결정하는 데 충분한 thinking compute를 강제하고, 질문 난이도와 이를 해결하는 데 필요한 MCTS iterations 수 사이에 긴밀한 상관관계를 제공합니다.

우리의 training pipeline은 세 가지 주요 영역, 즉 mathematical reasoning, natural image understanding, 및 chart comprehension에서 70k개의 open-source samples를 수집하는 것으로 시작합니다. 그런 다음 VLM 자체를 적용하여 70k개의 각 샘플에 대해 iterative reasoning을 수행하고, 정답에 도달하는 데 필요한 반복 횟수를 difficulty measure로 사용하여 MCTS-guided sample selection을 구현합니다. 이 엄격한 filtering process는 우리의 base model에 맞게 특별히 조정된 11k개의 challenging하고 high-quality samples 집합을 생성합니다. 그런 다음 추가적인 supervised fine-tuning steps를 피하면서 이 선택된 샘플로 직접 RFT를 수행합니다.

Qwen2.5-VL-7B-Instruct model을 base로 사용하여 최종 model인 ThinkLite-VL-7B를 개발합니다. 우리는 8개의 널리 사용되는 VLM benchmarks에서 ThinkLite-VL-7B를 evaluate합니다. 그림 2에 표시된 것처럼, 필터링된 11k개의 high-quality data로 RFT를 수행한 후 ThinkLite-VL-7B는 Qwen2.5-VL-7B-Instruct의 average performance를 59.69에서 63.89로 크게 향상시킵니다. 또한 동일한 양의 필터링되지 않은 data로 RFT를 수행한 상당히 비교 가능한 baseline을 60.89에서 63.89로 능가합니다. 더욱이, 가장 최근의 7B 수준 reasoning VLMs와 비교할 때 ThinkLite-VL-7B는 지속적으로 상당한 performance advantages를 보여줍니다. 특히, MathVista benchmark에서 ThinkLite-VL-7B는 그림 1에 표시된 것처럼 75.1의 state-of-the-art (SoTA) accuracy를 달성하여 다른 7B 수준 models, open-sourced larger models, GPT-4o, 및 O1을 크게 능가합니다.

 

 

1 Introduction 정리 노트 (AI 연구자용)

핵심 문제:

  • Large-scale RFT는 LLM의 reasoning 성능 향상에 효과적이지만, VLM에서는 pre-training과 post-training tasks 간의 multimodal 불일치로 인해 적용이 제한적임.
  • 기존 VLM 연구들은 RFT 전 knowledge distillation을 사용하나, 이는 번거롭고 model의 self-improving 잠재력을 제한함.

제안 방법:

  • Data-Efficient Self-Improving RFT: Knowledge distillation 없이 RFT만으로 VLM의 visual reasoning 능력을 향상시키는 방법 제안. 핵심은 base VLM의 수준에 맞는 적절한 난이도의 high-quality training data를 선별하여 사용하는 것임.
  • MCTS 기반 난이도 정량화 및 데이터 선별: Inference-time search algorithm인 MCTS를 재활용하여 training sample의 난이도를 측정하는 새로운 방법론 도입.
    • VLM이 샘플을 푸는 데 필요한 MCTS iteration 수를 통해 난이도를 정량화. (MCTS의 step-by-step search가 model의 '생각하는 시간'을 반영)
    • 이를 통해 70k개의 open-source 샘플에서 11k개의 challenging하고 high-quality 샘플을 선별.

주요 결과 (ThinkLite-VL):

  • Base model (Qwen2.5-VL-7B-Instruct) 대비 average performance 7% 향상 (59.69 -> 63.89).
  • 동일 데이터 양의 unfiltered data RFT baseline (60.89)보다 우수한 성능 (63.89).
  • MathVista benchmark에서 7B model임에도 불구, 75.1 accuracy로 SoTA 달성 (기존 7B models, larger models, GPT-4o, O1 능가).
  • 핵심 기여: Knowledge distillation 없이, 적은 데이터 (11k)와 MCTS 기반의 효율적인 데이터 선별을 통한 RFT만으로 VLM의 reasoning 능력을 SoTA 수준으로 끌어올림.

쉬운 설명 :

이 논문의 연구자들은 그림과 글을 함께 이해하는 인공지능(VLM)의 추론 능력을 더 적은 데이터로, 더 효율적으로 향상시킬 방법을 연구했습니다.

기존에는 언어만 잘하는 인공지능(LLM)은 스스로 생각하는 훈련(RFT)을 많이 시키면 똑똑해졌는데, 그림+글 인공지능(VLM)은 이게 잘 안됐어요. 그림과 글을 함께 다뤄야 해서 더 복잡했기 때문이죠. 그래서 기존 연구들은 VLM을 똑똑하게 만들려고, 이미 정답을 아는 더 큰 인공지능에게서 지식을 주입받는 과정(knowledge distillation)을 거친 뒤에 스스로 생각하는 훈련(RFT)을 시켰습니다. 하지만 이건 좀 번거롭고, VLM 스스로 발전할 기회를 막는다는 단점이 있었죠.

이 논문의 핵심 아이디어는 "무작정 많은 문제를 풀게 하는 것보다, 딱 적절하게 어려운, 양질의 문제를 골라서 풀게 하면 VLM이 스스로 더 똑똑해질 수 있다!"는 것입니다. 마치 학생에게 너무 쉽거나 너무 어려운 문제 대신, 도전해볼 만한 좋은 문제를 주는 것과 같아요.

그럼 어떤 문제가 '적절하게 어려운' 문제일까요? 연구진은 MCTS라는 방법을 사용했습니다. 원래는 인공지능이 답을 찾을 때 여러 경로를 탐색하는 데 쓰이는 방법인데, 이걸 문제 난이도 측정에 활용한 거죠. VLM에게 어떤 문제를 주고 MCTS를 이용해 풀게 했을 때, **정답을 찾기까지 얼마나 많은 탐색(생각)을 했는지(iterations)**를 보고 문제의 난이도를 판단했습니다. 오래 걸릴수록 어려운 문제겠죠?

이렇게 해서 수집한 7만 개의 문제 중, VLM에게 딱 적절히 어렵다고 판단된 1만 1천 개의 문제만 골라내서 스스로 생각하는 훈련(RFT)을 시켰습니다. 그 결과, ThinkLite-VL이라는 새로운 VLM 모델이 만들어졌는데, 훨씬 적은 문제로 훈련했음에도 불구하고 기존의 다른 VLM들, 심지어 더 큰 모델들이나 GPT-4o 같은 최신 모델들보다 특정 수학 문제 해결 능력(MathVista 평가)에서 더 높은 점수를 기록하며 최고 성능(SoTA)을 달성했습니다.

즉, 똑똑한 데이터 선별(MCTS 활용)을 통해 knowledge distillation 없이도 RFT만으로 VLM의 추론 능력을 효율적으로 크게 향상시킬 수 있다는 것을 보여준 연구입니다.

 

 

 

2 Related work

Large language model reasoning

Intermediate reasoning steps을 통해 human-like thinking processes를 모방하는 것은 reasoning을 요구하는 작업에서 large language models (LLMs)의 성능을 크게 향상시켰습니다. 한 가지 방법 계열은 Chain-of-Thought (CoT) prompting이나 Self-Consistency를 적용하는 것과 같이 model의 출력 구조나 형식을 명시적으로 제어하는 데 중점을 둡니다. 관련된 연구 라인에는 Tree of Thoughts 또는 Graph of Thoughts와 같은 더 정교한 reasoning strategies가 포함됩니다. 또한, 일부 접근 방식은 reasoning annotations가 있는 curated datasets에 대한 supervised fine-tuning (SFT)을 포함합니다. 연구자들은 또한 체계적인 사고 과정을 장려하는 process reward models (PRMs)를 탐구했습니다. 다른 연구들은 reasoning paths를 refine하거나 verify하기 위해 Monte Carlo Tree Search (MCTS) 또는 beam search를 포함한 search techniques를 통합합니다. 최근에는 LLMs에서 강력한 reasoning capabilities를 이끌어내기 위해 outcome-based reward functions을 사용한 large-scale RL이 활용되었습니다. 이 논문에서는 large-scale RL을 사용하여 VLMs의 reasoning ability를 향상시키는 방법에 초점을 맞춥니다.

Vision language model reasoning

Vision language models는 visual input이 주어졌을 때 vision encoders와 같은 것을 통해 language를 사용하여 vision tasks를 수행할 수 있습니다. 이러한 models는 다양한 시나리오에서 포괄적인 multimodal capabilities를 보여주며 어느 정도 reasoning capabilities를 나타냅니다. LLMs에서의 reasoning 성공에 영감을 받아 연구자들은 VLMs의 reasoning capabilities를 개선하려고 노력해 왔습니다. 예를 들어, CoT prompting이 VLMs에 적용되었고 일부 논문에서는 reasoning abilities를 향상시키기 위해 knowledge distillation을 위한 SFT를 사용하여 multimodal datasets를 생성했습니다. 일부 이전 연구에서는 self-improvement strategies를 통해 VLM performance를 개선하는 방법을 탐구했습니다. 더 최근에는 RL training이 VLMs의 reasoning capabilities를 더욱 강화하기 위한 유망한 접근 방식으로 부상했습니다. 최근 연구들이 VLM reasoning을 위해 SFT와 RL을 탐구하고 있지만, training data를 효율적으로 활용하고 비용이 많이 드는 knowledge distillation을 피하는 것은 여전히 과제로 남아 있습니다. 이 논문에서는 difficulty level을 기반으로 high-quality training instances를 filter하기 위해 MCTS를 사용하는 새로운 접근 방식을 제안합니다. 그런 다음 이 curated data에 대해 직접 RL training을 적용하여 reasoning을 향상시키며, 어떠한 SFT stage도 필요 없이 강력한 성능을 보여줍니다.

Data filtration

Data filtration은 training efficiency와 generalization performance를 최적화하기 위해 noisy하거나 redundant information을 버리면서 high-quality, diverse, task-relevant data를 식별하고 유지하는 것을 목표로 합니다. 이는 LLMs와 VLMs 모두의 pretraining phase 및 instruction tuning phase에 중요합니다. 이 논문에서는 특히 VLMs의 reasoning capabilities를 향상시키기 위한 효율적인 downstream RL training을 위해 data를 최적으로 curate하기 위해 training instances를 filtering하는 데 중점을 둡니다. 동시 연구인 MM-Eureka 또한 RFT에 대한 data filtration의 영향을 조사합니다. 그러나 그들의 접근 방식은 비교적 단순한 self-consistency-based difficulty filtering strategy에 국한되어 있으며, accuracy가 0인 모든 샘플을 버립니다. 이와 대조적으로, 우리는 VLM에 대해 진정으로 challenging examples를 식별할 수 있도록 하는 보다 원칙적인 방법인 MCTS-based sample selection을 제안합니다. 중요하게도, 우리의 발견은 VLMs가 MCTS 동안 해결하지 못하는 unsolved samples가 training process에서 제외되는 것이 아니라 RFT 중 reasoning performance를 향상시키는 데 중요한 역할을 한다는 것을 보여줍니다

 

 

2 Related Work 정리 노트 (AI 연구자용)

1. Large language model reasoning:

  • LLM reasoning 향상을 위해 다양한 기법들이 연구됨:
    • Output 구조 제어: CoT prompting, Self-Consistency, Tree/Graph of Thoughts.
    • Training 기반: SFT (w/ reasoning annotations), PRMs, Large-scale RL (RFT).
    • Search 기법 활용: MCTS, beam search 등.
  • 본 논문은 이 중 large-scale RL (RFT)을 VLM reasoning 향상에 적용하는 것에 초점을 맞춤.

2. Vision language model reasoning:

  • LLM의 성공에 영감을 받아 VLM reasoning 개선 연구 진행 중:
    • LLM 기법 적용: CoT prompting.
    • 데이터셋 구축 및 SFT 활용: Multimodal datasets 생성 후 SFT (knowledge distillation 역할 포함) 적용.
    • Self-improvement 전략 및 RL training 시도.
  • 기존 연구의 한계: SFT/RL을 함께 사용하거나 knowledge distillation에 의존하는 경향이 있어, training data 효율성 저하 및 비용 증가 문제가 발생.
  • 본 논문의 차별점:
    • Knowledge distillation 회피.
    • MCTS를 활용하여 difficulty level 기반으로 high-quality training instances를 filter하는 새로운 접근 제안.
    • 선별된 데이터(curated data)에 직접 RL training (RFT)을 적용하여 SFT stage 없이 성능 향상.

3. Data filtration:

  • 데이터 필터링은 LLM/VLM의 pretraining 및 instruction tuning 단계에서 중요하게 활용됨.
  • 본 논문의 초점: VLM의 reasoning capabilities 향상을 위한 downstream RL training 효율화를 목표로 training instances 필터링.
  • 경쟁 연구 (MM-Eureka)와의 비교:
    • MM-Eureka: 단순 self-consistency 기반 difficulty filtering (accuracy 0인 샘플 폐기).
    • 본 논문 (MCTS-based sample selection): 더 원칙적인 방법으로 VLM에게 진정으로 challenging한 예제를 식별.
  • 핵심 발견: MCTS 과정에서 VLM이 풀지 못한 unsolved samples (어려운 문제)가 RFT에서 reasoning performance 향상에 오히려 중요하며, 버려져서는 안 됨.

쉬운 설명 :

이 섹션에서는 이 논문이 나오기까지 인공지능 연구자들이 관련해서 어떤 연구들을 해왔는지 설명하고 있습니다. 크게 세 가지 분야로 나눠 볼 수 있어요.

  1. 언어 인공지능(LLM)의 추론 능력 연구: 사람처럼 생각하는 과정을 흉내 내(예: Chain-of-Thought) 언어 인공지능이 수학 문제 풀이나 글쓰기 같은 복잡한 작업을 더 잘하게 하려는 연구가 많았습니다. 특별히 제작된 데이터로 훈련시키거나(SFT), 스스로 답을 찾아가는 과정을 탐색하게 하거나(MCTS 등), 아니면 잘했을 때 보상을 주는 방식(RL/RFT)으로 훈련시키는 등 다양한 방법이 시도되었죠. 이 논문은 이 중에서 '보상 기반 훈련(RFT)'을 그림+글 인공지능(VLM)에 적용하는 데 집중합니다.
  2. 그림+언어 인공지능(VLM)의 추론 능력 연구: 언어 인공지능에서 효과를 본 방법들을 그림+언어 인공지능에도 적용하려는 시도가 있었습니다. 예를 들어 Chain-of-Thought를 쓰거나, 그림과 글이 섞인 문제 데이터셋을 만들어 훈련시키는 방식(SFT) 등이 있었죠. 특히 훈련 시킬 때, 이미 똑똑한 다른 인공지능의 지식을 약간 빌려오는 과정(knowledge distillation)을 쓰는 경우가 많았습니다. 하지만 이런 방식들은 훈련 데이터가 많이 필요하고, knowledge distillation 과정이 번거롭다는 단점이 있었습니다. 이 논문은 이런 번거로운 과정 없이, 더 효율적인 방법으로 VLM의 추론 능력을 키우고자 합니다. 그 방법으로 MCTS를 이용해 '적절히 어려운' 문제를 골라내고, 그 문제들로만 직접 보상 기반 훈련(RFT)을 시키는 새로운 아이디어를 제안합니다.
  3. 데이터 골라내기(Data filtration): 인공지능을 훈련시킬 때, 아무 데이터나 다 쓰는 게 아니라 좋은 데이터만 골라서 쓰는 게 중요하다는 것은 이미 알려진 사실입니다. 주로 인공지능의 기초 체력을 키우는 단계(pretraining)나 지시를 따르도록 가르치는 단계(instruction tuning)에서 많이 쓰였죠. 이 논문은 추론 능력을 키우기 위한 보상 기반 훈련(RFT) 단계에서, '어떤 문제를 골라 풀어야 가장 효과적일까?' 라는 질문에 집중합니다. 비슷한 시기에 나온 다른 연구(MM-Eureka)는 단순히 인공지능이 틀린 문제는 빼버리는 방식을 썼지만, 이 논문은 MCTS를 이용해 '풀기 어려웠던 문제'를 찾아내고, 오히려 이런 문제들이 인공지능의 추론 능력을 키우는 데 더 중요하다는 것을 발견했다는 점에서 차이가 있습니다.

 

 

 

3 Training Recipe

 

 

이 섹션에서는 ThinkLite-VL의 전체 training pipeline을 소개합니다. 먼저 섹션 3.1에서는 나중에 hard problems을 sample할 training data를 어떻게 수집하는지 설명합니다. 그런 다음 섹션 3.2에서는 base model에 도전적인 prompts를 선택하기 위해 Monte Carlo Tree Search (MCTS)와 결합된 base model을 data filtering에 어떻게 사용하는지 자세히 설명합니다. 마지막으로 섹션 3.3에서는 이 filtered data를 사용하여 ThinkLite-VL을 어떻게 train하는지 설명합니다. 섹션 3.2에서 소개된 제안된 data filtering method가 ThinkLite-VL의 핵심 기술 기여라는 점에 주목합니다. 구체적으로, ThinkLite-VL은 self-improving training에서 difficulty-aware training sample selection의 중요성을 강조하고, sample difficulty prediction을 위해 MCTS를 효과적으로 재활용합니다.

3.1 Data Collection

우리는 초기 training set으로 널리 사용되는 open-source training datasets에서 총 70k개의 datas를 수집했으며, 이는 세 가지 category를 포함합니다: multimodel mathematical reasoning (Geometry3K, GeoQA, Geos), natural image understanding (FigureQA, ScienceQA, OK-VQA), 그리고 chart understanding (IconQA, TabMWP). FigureQA와 IconQA의 경우, 원래 training sets의 크기가 크기 때문에 각각에서 10k개의 data points만 무작위로 sample하여 우리의 training set으로 삼았습니다. 전체 data distribution은 그림 3에 나와 있습니다. 각 training sample은 다음 형식으로 구성됩니다: (Image, id, Prompt, Answer).

또한, VLM이 단순히 multiple-choice options에서 추측하여 정답을 얻는 것을 방지하기 위해, 우리는 IconQA, FigureQA, Geometry3K, TabMWP, 및 OK-VQA를 multiple-choice format에서 open-ended format으로 재구성했습니다. 이 modification은 VLM이 selection 대신 reasoning을 통해 정답을 derive하도록 강제하여, tasks의 difficulty를 높이고 후속 섹션에서 설명하는 data filtering process의 신뢰성을 향상시킵니다.

3.2 MCTS-based Sample Selection

우리의 연구에서 수집된 data는 주로 기존 VLMs를 위한 일반적으로 사용되는 pretraining datasets에서 비롯되었으며, 이는 model이 특정 samples에 대해 overfitting되기 쉽게 만듭니다. LLM SFT 및 전통적인 reinforcement learning에서의 data filtration의 최근 성공에 영감을 받아, 우리는 MCTS-based sample selection mechanism을 제안합니다. 이 접근 방식은 VLM 자체의 iterative reasoning process를 활용하며, 정답에 도달하는 데 필요한 iterations 수를 각 data sample의 difficulty를 평가하기 위한 metric으로 사용합니다. 결과적으로, 우리는 전체 dataset을 사용하는 대신 RL training 동안 model에 더 challenging한 samples를 선택적으로 filter할 수 있습니다.

구체적으로, step t에서의 state를 st로 정의하여 reasoning chain의 prefix를 나타냅니다. 새로운 reasoning step a의 도입은 state를 st+1로 transitions시키며, 이는 st와 a를 concatenating하여 형성됩니다. VLM 자체를 policy model, πθ, 로 활용하여, 우리는 확률 분포 πθ(a|x, I, st) 에서 candidate steps를 sample합니다. 여기서 x는 작업의 input prompt를 나타내고 I는 input image를 나타냅니다. MCTS process는 문장의 시작을 나타내는 root node, s0, 에서 시작합니다. 그런 다음 후속 단락에서 자세히 설명하는 세 가지 주요 단계인 selection, expansion, simulation을 통해 iteratively 진행됩니다. 이전 연구와 대조적으로, MCTS를 사용한 data filtering stage 동안 우리는 computational efficiency와 solution space의 comprehensive exploration을 우선시하며, self-rewarding setting에 중점을 둡니다. 결과적으로, MCTS process 전체에서 우리는 어떤 pretrained되거나 별도로 trained된 process reward models도 사용하지 않음으로써 procedure를 단순화하고 가속화합니다. MCTS에 사용된 prompt는 표 1에 나와 있습니다.

Table 1: Prompt used for VLM during MCTS procedure. We provide two examples of in-context learning to force VLM to follow the reasoning format.

MCTS Prompt Template: 질문에 step by step으로 답하고 마지막에 최종 답을 제공하세요. 각 단계는 <end>로 끝나야 하며 최종 답은 <Final Answer> 안에 넣으세요. 아래는 두 가지 예시입니다:

Question: BoatsRUs는 올해 1월에 카누 7척을 만들었고, 그 후 매달 이전 달에 만든 카누 수의 두 배를 만들었습니다. 올해 5월 말까지 BoatsRUs가 만든 총 카누 수는 얼마입니까? Step1: 5월 말까지 BoatsRUs가 만든 총 카누 수를 찾으려면, 1월부터 5월까지 매달 만든 카누 수를 찾은 다음 모두 더해야 합니다. <end> Step2: 매달 만든 카누 수를 찾으려면, 주어진 달에 만든 카누 수에 대한 공식을 사용해야 하는데, 이는 이전 달에 만든 카누 수 곱하기 2입니다. <end> Step3: 따라서 1월에 만든 카누 수는 7척, 2월에 만든 카누 수는 7 곱하기 2인 14척, 3월에 만든 카누 수는 14 곱하기 2인 28척, 4월에 만든 카누 수는 28 곱하기 2인 56척, 5월에 만든 카누 수는 56 곱하기 2인 112척입니다. <end> Step4: 이제 이 숫자들을 더하여 5월 말까지 BoatsRUs가 만든 총 카누 수를 구할 수 있습니다: 7 더하기 14 더하기 28 더하기 56 더하기 112는 217입니다. <end> Final Answer: The answer is: 217 .

Question: 그림에서 파란색 원의 개수를 찾으세요. Step 1: 파란색 원의 개수를 찾으려면 그림을 해석해야 합니다. 이 그림은 두 개의 레이블이 있는 집합이 있는 벤 다이어그램입니다: - "blue" 레이블이 있는 집합은 파란색인 모든 모양을 포함합니다. - "circle" 레이블이 있는 집합은 원형인 모든 모양을 포함합니다. 벤 다이어그램의 겹치는 영역은 파란색이면서 원형인 모양을 포함합니다. <end> Step 2: 겹치는 영역은 두 가지 기준을 모두 충족하는 모양을 포함합니다: 파란색과 원형. 다이어그램에서: - 겹치는 영역에는 하나의 파란색 원이 있습니다. <end> Final Answer: The answer is: 1 .

질문에 step by step으로 답하는 것을 기억하세요! 여기 당신의 질문입니다: Question: {QUESTION}

Selection. 우리의 MCTS procedure에서, selection process는 오직 현재 state st의 visitation frequency, N(st)로 표시되는 것에 의해서만 결정됩니다. node st에서, 후속 node는 다음 formula에 따라 selected됩니다: st+1 = arg maxst' [ cpuct * sqrt(N(st) / (1+N(st+1))) ]

Expansion. 현재 step st가 주어지면, VLM은 prompt와 image를 기반으로 temperature decoding을 통해 k개의 서로 다른 actions를 generates합니다. 이 actions 각각은 현재 step과 결합되어 k개의 candidates next steps를 form합니다. 이 actions 간의 diversity는 temperature parameter에 의해 regulated되며, 우리의 experiments에서는 0.5로 설정되었고 k는 3으로 구성되었습니다.

Simulation. node를 selecting한 후, 우리는 직접 policy πθ를 활용하여 final answer가 produced되거나 미리 설정된 reasoning step limit에 도달할 때까지 여러 reasoning steps를 generate합니다. 이후, 우리는 해당 LLM(우리의 experiments에서는 Qwen2.5-VL-7B-Instruct가 사용되었고, Qwen2.5-7B-Instruct가 critic model 역할을 함)을 employ하여 generated final answer를 ground truth answer와 compare하여 response의 correctness를 결정합니다. answer가 correct하면 MCTS process는 terminated되고 현재 iteration number K가 recorded됩니다; answer가 incorrect하면 selected node의 visit count N이 updated되고 다음 iteration이 시작됩니다. 표 2는 critic model에 사용된 prompt를 보여줍니다.

Data filtration. 우리는 이 MCTS procedure를 70k data samples 전체 collection에 적용하고, Qwen2.5-VL-7B-Instruct를 policy model로 사용하여 각 problem을 해결하는 데 필요한 iteration number K를 record합니다. 이 process에서 K는 각 sample의 difficulty를 평가하기 위한 metric 역할을 했습니다: 더 높은 K는 VLM이 correct answer에 도달하기 위해 더 광범위한 exploration을 필요로 함을 나타내며, 따라서 더 높은 level of challenge를 반영합니다. 궁극적으로, 우리는 K가 5보다 큰 모든 samples와 50 iterations 후에도 unsolved 상태로 남은 samples를 select하여 11k samples의 final training set을 생성했습니다. 이 final training set의 data difficulty distribution은 그림 4에 나와 있습니다.

Table 2: Critic prompt for MCTS simulation results evaluation.

Critic Prompt Template: 생성된 답변과 해당 근거의 정확성을 판단하는 데 도움을 주세요. Question: {} Ground truth answer: {} Generated rationale and answer: {} 당신의 출력은 한 문장이어야 합니다: the generated answer is true or false.

3.3 Visual Reasoning Training

Table 3: Visual reasoning training data comparison between ThinkLite-VL and other VLM reasoning models. ALL these reasoning models have distilled knowledge from larger models or closed-source models except for MM-Eureka-Qwen-7B. MM-Eureka-Qwen-7B uses more K12 data (54k) than ours and performs accuracy-based data filtering before training. Here the data size refers to the amount of additional visual reasoning data used to boost the base model for reasoning via SFT or RL training. (표 3 설명: ThinkLite-VL과 다른 VLM reasoning models 간의 Visual reasoning training data 비교. MM-Eureka-Qwen-7B를 제외한 이 모든 reasoning models는 더 큰 models 또는 closed-source models로부터 knowledge를 distilled했습니다. MM-Eureka-Qwen-7B는 우리보다 더 많은 K12 data (54k)를 사용하고 training 전에 accuracy-based data filtering을 수행합니다. 여기서 data size는 SFT 또는 RL training을 통해 reasoning을 위해 base model을 boost하는 데 사용된 추가적인 visual reasoning data의 양을 의미합니다.)

외부 models에 의해 generated된 large-scale Chain-of-Thought (CoT) data에 크게 의존하고 reasoning capabilities를 향상시키기 위해 knowledge distillation을 위한 SFT를 employ하는 이전의 VLM reasoning studies(표 3 참조)와 달리, 우리는 소량의 high-quality training data로 직접 reinforcement fine-tuning (RFT)을 수행하는 것이 광범위한 외부 data generation 없이도 VLMs의 reasoning ability를 크게 향상시킬 수 있음을 demonstrate합니다.

MCTS-based sample selection을 수행하고 11k개의 high-quality training data의 filtered set을 얻은 후, 우리는 이 selected data를 사용하여 Qwen2.5-VL-7B-Instruct model에서 RL fine-tuning을 수행합니다. 구체적으로, 우리는 [60]에서 제안된 Group Relative Policy Optimization (GRPO) loss function을 training에 employ하며, objective는 다음과 같이 defined됩니다 :

RFT 동안의 training prompt template은 표 4에 제공합니다.

Prompt Template: 먼저 내적 독백(internal monologue)으로 추론 과정(reasoning process)에 대해 생각한 다음 최종 답변(final answer)을 제공합니다. 추론 과정은 반드시 <think> </think> 태그 안에 포함되어야 합니다. 최종 답변은 반드시 <Final Answer> 안에 넣어야 합니다.

 

 

 

3 Training Recipe 정리 노트 (AI 연구자용)

핵심 목표: Knowledge distillation 없이, MCTS 기반의 효율적인 data filtering을 통해 선별된 소량의 데이터로 VLM의 visual reasoning 능력을 RFT만으로 극대화하는 training pipeline 제시.

3.1 Data Collection:

  • 초기 데이터셋: 3개 카테고리 (mathematical reasoning, natural im답변생age understanding, chart understanding)의 open-source datasets에서 총 70k 샘플 수집.
    • FigureQA, IconQA는 각 10k씩 랜덤 샘플링.
  • 핵심 전처리: Multiple-choice 문제를 open-ended 형식으로 변환하여 단순 추측(guessing) 방지 및 reasoning 강제 (데이터 필터링 신뢰도 향상 목적).
  • 데이터 형식: (Image, id, Prompt, Answer)

3.2 MCTS-based Sample Selection (핵심 기여):

  • 목표: Pretraining datasets 내재적 overfitting 문제 완화 및 RL training 효율성 극대화를 위한 difficulty-aware 샘플 선별.
  • 핵심 아이디어: Inference 기법인 MCTS를 sample difficulty 측정 metric으로 재활용.
    • VLM (Qwen2.5-VL-7B-Instruct) 자체를 policy model ($ \pi_{\theta} $)로 사용하여 각 샘플 해결에 필요한 **MCTS iteration 수 (K)**를 측정. $ K $가 높을수록 어려운 샘플.
  • MCTS 절차:
    • State ($ s_t $): Reasoning chain의 prefix.
    • Selection: Visitation count $ N(s_t) $ 기반 (PUCT formula 사용).
    • Expansion: $ k=3 $, temperature decoding ($ T=0.5 $)으로 다음 reasoning step candidates 생성.
    • Simulation: $ \pi_{\theta} $로 reasoning steps 생성 후 final answer 도출.
      • 정답 판정: 별도의 Critic model (Qwen2.5-7B-Instruct, 해당 LLM) 사용.
      • 주요 특징: 계산 효율성 및 self-rewarding에 집중, 외부 PRM (Process Reward Model) 미사용 → 절차 단순화 및 가속화.
  • Filtering 기준:
    • $ K > 5 $ 인 샘플.
    • 최대 50 iterations 내에 풀리지 않은 (unsolved) 샘플.
    • 결과: 11k 개의 challenging, high-quality 샘플 선별.

3.3 Visual Reasoning Training:

  • 핵심 전략: 이전 연구들과 달리 SFT 또는 knowledge distillation 단계를 완전히 생략.
  • 훈련 방법: 선별된 11k 데이터만을 사용하여 base model (Qwen2.5-VL-7B-Instruct)에 직접 RL fine-tuning (RFT) 수행.
  • 알고리즘: GRPO (Group Relative Policy Optimization) loss function 사용.
  • 프롬프팅: RFT 시, <think> 태그를 사용하여 internal monologue 형식의 reasoning process 생성을 유도한 후 <Final Answer> 출력.

쉬운 설명 :

이 섹션에서는 ThinkLite-VL이라는 인공지능 모델을 어떻게 훈련시켰는지, 그 '레시피'를 설명합니다. 크게 세 단계로 나눌 수 있어요.

  1. 데이터 모으기 (재료 준비):
    • 먼저, 인공지능에게 풀게 할 문제들을 모읍니다. 수학 문제, 그림 보고 답하는 문제, 차트 이해 문제 등 다양한 종류의 문제 7만 개를 open-source (공개된) 데이터에서 가져옵니다.
    • 여기서 중요한 점! 객관식 문제는 인공지능이 그냥 찍어서 맞출 수도 있으니, 모두 주관식 문제처럼 바꿔서 꼭 스스로 생각해서 답을 쓰도록 만들었어요. 그래야 진짜 추론 능력을 평가하고 훈련시킬 수 있으니까요.
  2. 똑똑하게 문제 고르기 (좋은 재료 선별 - 핵심 비법!):
    • 7만 개 문제를 다 쓰는 게 아니라, 이 중에서 '딱 적절하게 어려운' 좋은 문제만 골라내는 것이 이 연구의 핵심 기술입니다.
    • 어떤 문제가 '좋은 문제'인지 어떻게 알 수 있을까요? MCTS라는 방법을 씁니다. 이건 원래 인공지능이 여러 가능성을 탐색하며 답을 찾는 방법인데, 여기서는 인공지능(VLM)이 특정 문제를 푸는 데 얼마나 많은 '생각' 또는 '시도'(iteration, K값)를 하는지 측정하는 도구로 활용해요.
    • 인공지능이 **5번 넘게 시도해야 풀리는 문제(K > 5)**나, 50번이나 시도했는데도 못 푼 문제는 '도전적이고 배울 게 많은 좋은 문제'라고 판단합니다. (이 과정에서 정답 여부를 판단할 때는 다른 인공지능(critic model)의 도움을 받아요.)
    • 이렇게 까다롭게 골라서 최종적으로 1만 1천 개의 문제만 선별합니다. (이 과정에서 복잡한 외부 '채점 도우미(PRM)' 없이 자체적으로 해결해서 과정을 단순화했어요.)
  3. 집중 훈련 시키기 (요리하기):
    • 이제 골라낸 1만 1천 개의 '좋은 문제'들만 가지고 인공지능(Qwen2.5-VL-7B-Instruct)을 본격적으로 훈련시킵니다.
    • 이전 연구들처럼 다른 똑똑한 인공지능의 지식을 미리 주입받는 과정(SFT, knowledge distillation) 같은 건 전혀 없이, 오직 이 문제들을 풀면서 스스로 배우게 하는 **보상 기반 훈련(RFT - GRPO 방식 사용)**만 진행합니다.
    • 훈련 시킬 때는 특별한 지시(prompt)를 사용해요. "답만 말하지 말고, <think> 태그 안에 네가 생각하는 과정을 먼저 쭉 적어봐. 그리고 마지막에 <Final Answer> 태그 안에 최종 답을 말해줘." 이렇게 해서 인공지능이 단계적으로 생각하는 습관을 들이도록 유도합니다.

결국, 까다롭게 고른 소수의 문제복잡한 사전 준비 없이 효율적인 RFT 훈련만 해서 인공지능의 추론 능력을 크게 향상시킨 것이 이 레시피의 핵심입니다.

 

 

4 Experiments

더보기

4.1 Benchmark Evaluation

이 하위 섹션에서는 일반적으로 사용되는 여러 multimodal benchmark datasets에서 ThinkLite-VL을 체계적으로 evaluate하고 기존 reasoning models와 포괄적인 comparisons를 수행합니다. 이러한 experiments를 통해 multimodal reasoning tasks에서 우리 model의 effectiveness와 advantages를 demonstrate합니다.

Baselines and implementation details. 우리는 Qwen2.5-VL-7B-Instruct를 base model로 사용하고 MCTS-based filtration을 통해 얻은 11k개의 high-quality data에 대해 RFT를 perform하여, ThinkLite-VL-7B라는 이름의 제안된 model을 얻었습니다. 우리는 Easy-R1 code base를 사용하여 training을 수행하고 GRPO rollout number를 32로 설정했습니다. 우리의 주요 baselines는 다음과 같습니다: (1) 우리의 base model 역할을 하는 Qwen2.5-VL-7B-Instruct; (2) 전체 dataset에서 무작위로 sampled된 11k instances의 subset에 대해 RFT를 사용하여 trained된 ThinkLite-VL-Random11k. 이 외에도, SFT-based models인 LLaVA-Cot-11B 및 Mulberry-7B와 RFT-based models인 Vision-R1, MM-Eureka-Qwen-7B, OpenVLThinker-7B를 포함한 여러 최근 reasoning VLMs의 performance를 comparison을 위해 report합니다. 또한 Qwen2.5-VL-72B-Instruct, InternVL2.5-78B, GPT-4o, O1을 포함한 더 큰 open-source models와 commercial models를 SOTA performance references로 포함합니다.

Benchmarks. 우리는 evaluation을 위해 널리 사용되는 8개의 VLM benchmarks를 선택했습니다: MathVista, MathVison, MathVerse, MMMU, MMStar, MMBench, MMVet, AI2D. 이 중 MathVista, MathVison, MathVerse는 VLM research에서 mathematical reasoning capabilities를 evaluate하기 위해 널리 사용되며, MMVet 또한 상당수의 mathematical reasoning tasks를 포함합니다. 반면, MMMU, MMStar, MMBench, AI2D는 주로 VLM의 visual perception reasoning 및 scientific reasoning abilities를 assess하기 위해 활용됩니다.

SoTA performance over 7B reasoning models. 표 5에 나타난 바와 같이, ThinkLite-VL-7B는 base model Qwen2.5-VL-7B-Instruct와 비교하여 8개 benchmarks 전반에 걸쳐 average performance에서 상당한 improvement를 보여주었으며, average performance는 59.69에서 63.89로 증가했습니다. random sampling을 사용하여 동일한 data size로 trained된 ThinkLite-VL-Random11k와 비교할 때, 우리의 method는 모든 benchmarks에서 상당한 advantages를 보여주어 MCTS-based sample selection의 effectiveness와 importance를 나타냅니다. 더욱이, ThinkLite-VL-7B는 광범위한 knowledge distillation을 통해 주로 performance enhancement를 달성하는 reasoning models(LLaVA-CoT-11B, Mulberry-7B, Vision-R1-7B, OpenVLThinker-7B 등)보다도 outperforms하며 GPT-4o에 가장 근접한 average performance를 보입니다. SFT knowledge distillation을 포함하지 않지만 더 큰 RL training dataset을 adopts하는 MM-EUREKA-Qwen-7B와 비교할 때, 우리 model은 모든 benchmarks에서 일관되게 outperforms하여, training 전 high-quality data filtering의 importance와 제안된 MCTS-based filtering의 effectiveness를 강조합니다. individual benchmarks의 perspective에서 볼 때, 우리 method는 8개 benchmarks 중 6개에서 7B 수준 models 중 가장 높은 scores를 달성합니다. 유일한 exceptions는 MMMU와 MathVerse benchmarks로, 각각 더 좁은 범위의 tasks에 focused된 Mulberry-7B와 Vision-R1-7B에 약간 뒤처집니다. 놀랍게도, 우리 model은 MathVista benchmark에서 75.1의 SoTA accuracy를 달성하여 더 큰 open-sourced VLMs, GPT-4o, O1을 surpassing합니다.

4.2 Importance of MCTS-based Sample Selection

이 섹션에서는 MCTS-based sample selection의 importance를 demonstrate하기 위해 ablation studies를 수행합니다. 우리는 ThinkLite-VL의 다섯 가지 다른 training settings를 compare합니다: (1) ThinkLite-VL-Unsolved: MCTS로 풀 수 없었던 5.6k samples만을 사용하여 Trained되었으며, 가장 difficult한 subset을 representing합니다. (2) ThinkLite-VL-Iter5Only: VLM이 MCTS를 통해 solve할 수 있었지만 5 iterations 이상이 required되었던 data의 subset에 대해 Trained되었습니다. 이 set은 unsolved samples와 결합되어 ThinkLite-VL에서 사용된 전체 11k training set을 forms합니다. (3) ThinkLite-VL-Random11k: 전체 70k dataset에서 무작위로 sampled된 11k subset에 대해 Trained되었으며, ThinkLite-VL training set의 size와 matching됩니다. (4) ThinkLite-VL-SelfConsistency: self-consistency difficulty measure에 기반하여 selected된 23k samples에 대해 Trained되었습니다. 구체적으로, 각 prompt에 대해 Qwen2.5-VL-7B-Instruct를 사용하여 50 rollouts를 perform하고 Qwen2.5-7B-Instruct를 사용하여 answer accuracy를 compute합니다. accuracy가 0.2보다 낮은 Samples가 RFT를 위해 selected됩니다. (5) ThinkLite-VL-Fullset: 어떠한 filtering도 없이 전체 70k dataset에 대해 Trained되었습니다. 우리는 표 6에 나타난 바와 같이 8개의 VLM benchmarks 전체에서 다섯 가지 settings 모두의 evaluation results를 report합니다.

MCTS-guided sample selection을 통해 11k samples를 사용하여 trained된 ThinkLite-VL-7B가 모든 settings 중에서 가장 높은 average performance (63.89)를 달성하는 것을 observe합니다. 이는 훨씬 적은 training samples를 사용했음에도 불구하고 random sampling baseline (ThinkLite-VL-Random11k, 60.89)뿐만 아니라 전체 dataset (ThinkLite-VL-Fullset, 63.13) 및 self-consistency-based filtering (ThinkLite-VL-SelfConsistency, 63.15)으로 trained된 models보다 outperforms합니다. 이는 우리의 difficulty-aware data selection strategy의 effectiveness를 강조합니다. 추가 analysis는 unsolved samples (ThinkLite-VL-Unsolved, 62.04) 또는 5 iterations 이상을 요구하는 samples (ThinkLite-VL-Iter5Only, 62.38)만으로 derived된 subsets에 대해 trained된 models도 괜찮은 performance를 보여주어, hard 및 medium-difficulty samples가 reasoning ability에 의미있게 contribute함을 suggesting합니다. 그러나 어느 한 subset만으로는 sufficient하지 않습니다. unsolved 및 medium-difficulty samples 모두의 combination이 가장 강력하고 효과적인 training signal을 yields합니다.

이 외에도, 그림 5에 표시된 것처럼 ThinkLite-VL-Random11k, ThinkLite-VL-Fullset, ThinkLite-VL-Iter5Only, ThinkLite-VL의 RFT 중 reward curves를 compare합니다. ThinkLite-VL-Random11k와 ThinkLite-VL-Fullset이 training 중 더 높은 rewards를 달성하지만, 실제 benchmark performances는 ThinkLite-VL보다 inferior합니다. 이 observation은 많은 수의 easy samples를 training에 incorporating하는 것이 rewards를 빠르게 improves하지만 model의 reasoning ability를 enhance하는 데는 fails함을 suggests합니다. 더욱이, ThinkLite-VL은 ThinkLite-VL-Iter5Only에 비해 현저히 낮은 rewards를 exhibits하는데, 이는 우리의 MCTS-based sample selection strategy에 의해 identified된 unsolved data가 실제로 VLM에 상당한 challenges를 제기함을 indicating합니다. training 중 이러한 challenging problems를 점진적으로 learning하여 solve함으로써(비록 모든 문제가 completely solved되지는 않더라도) VLMs의 reasoning capabilities는 실질적으로 improved될 수 있습니다.

4.3 Ablation Study of Data Difficulty

이 섹션에서는 training data difficulty가 model performance에 어떻게 affects하는지 investigate합니다. 우리는 다른 difficulty data를 사용하여 trained된 models의 average performance를 표 7에 제시합니다. 주목할 점은, Iter5+Unsolved subset으로 trained된 model이 63.89의 가장 높은 average score를 달성하여 다른 모든 settings를 outperforming한다는 것입니다. difficulty threshold를 확장할 때(예: Iter10, Iter20, Iter30, Iter40), model performance는 일관되게 declines하는데, 이는 medium-difficulty samples가 model reasoning ability를 improving하는 데 important함을 suggesting합니다. training data의 difficulty가 감소함에 따라 model의 performance도 declines합니다. 이 trend는 과도한 수의 easy samples를 inclusion하는 것이 RFT 중 training signal을 weaken하고 궁극적으로 model의 reasoning ability를 hurt할 수 있음을 suggests합니다.

 

4 Experiments 정리 노트 (AI 연구자용)

핵심 목표: 제안된 ThinkLite-VL 모델 및 MCTS-based sample selection 방법론의 효과를 정량적으로 검증하고, 기존 방법론 대비 우수성을 입증.

4.1 Benchmark Evaluation (모델 성능 비교):

  • Setup:
    • Model: ThinkLite-VL-7B (Qwen2.5-VL-7B-Instruct + RFT on 11k MCTS-selected data).
    • Training: Easy-R1 codebase, GRPO rollout number = 32.
  • Baselines: Qwen2.5-VL-7B-Instruct (Base), ThinkLite-VL-Random11k (동일 데이터 수, 랜덤 샘플링), Other 7B VLMs (LLaVA-CoT, Mulberry, Vision-R1, OpenVLThinker, MM-EUREKA), Larger/Commercial Models (Qwen2.5-VL-72B, InternVL2.5-78B, GPT-4o, O1).
  • Benchmarks: 8개 VLM 벤치마크 (MathVista, MathVison, MathVerse, MMMU, MMStar, MMBench, MMVet, AI2D).
  • 주요 결과 (Table 5):
    • ThinkLite-VL-7B는 Base 모델 대비 평균 성능 4.2%p 향상 (59.69 → 63.89).
    • 동일 데이터량의 Random11k (60.89) 대비 평균 3%p 우위, MCTS 선별의 효과 입증.
    • Knowledge distillation 사용 또는 더 많은 데이터를 사용한 다른 7B 모델들(MM-EUREKA 등) 대비 전반적으로 우수한 성능 달성.
    • MathVista에서 75.1점으로 SoTA 달성, 72B급 모델 및 GPT-4o, O1 등 상회.

4.2 Importance of MCTS-based Sample Selection (Ablation Study):

  • 목표: MCTS 기반 선별 전략의 효과 및 최적 데이터 구성 요소 규명.
  • 비교 대상:
    • ThinkLite-VL-7B (Proposed: 11k, K>5 + Unsolved)
    • Unsolved (5.6k, K≥50)
    • Iter5Only (5.4k, 5<K<50)
    • Random11k
    • SelfConsistency (23k, Acc<0.2 filter)
    • Fullset (70k)
  • 주요 결과 (Table 6):
    • 제안 방식(ThinkLite-VL-7B)이 평균 63.89점으로 최고 성능 달성.
    • Fullset(63.13)보다 적은 데이터(11k vs 70k)로 더 높은 성능 달성 → 데이터 효율성 입증.
    • Random11k(60.89), SelfConsistency(63.15) 방식보다 우수.
    • Unsolved만(62.04) 또는 Iter5Only만(62.38) 사용 시 성능 저하 → 적당히 어려운(medium-difficulty) 샘플과 매우 어려운(hard/unsolved) 샘플의 조합이 최상의 training signal 제공함을 시사.
  • Reward Curve 분석 (Figure 5):
    • Random11k, Fullset은 training 중 reward는 높지만 최종 성능은 낮음 → 쉬운 샘플은 reward만 높일 뿐 reasoning ability 향상에는 비효과적.
    • ThinkLite-VL은 Iter5Only보다 reward가 낮음 → Unsolved 데이터가 실제로 모델에게 더 challenging함을 의미. 이 어려운 문제를 점진적으로 학습하는 과정이 reasoning 능력 향상의 핵심.

4.3 Ablation Study of Data Difficulty (난이도 임계값 영향):

  • 목표: Medium-difficulty 샘플의 최적 난이도 범위 탐색.
  • 비교 대상: Iter5+Unsolved vs. Iter10/20/30/40+Unsolved (점점 더 쉬운 샘플 포함).
  • 주요 결과 (Table 7):
    • Iter5+Unsolved (제안 방식) 조합이 평균 63.89점으로 최고 성능.
    • difficulty threshold를 높여 더 쉬운 샘플(Iter10 이상)을 포함할수록 성능 지속적 하락.
    • 결론: Reasoning 능력 향상을 위해서는 적당히 어려운(medium-difficulty, Iter5+) 샘플이 중요하며, 너무 쉬운 샘플을 과도하게 포함하는 것은 RFT의 training signal을 약화시켜 오히려 성능에 해가 됨.

쉬운 설명 :

이 섹션에서는 연구자들이 만든 ThinkLite-VL 모델과 'MCTS 데이터 선별법'이 얼마나 좋은지 여러 실험을 통해 보여줍니다.

1. 다른 모델들과 실력 비교 (벤치마크 평가, Table 5):

  • 연구자들은 자신들이 만든 ThinkLite-VL-7B 모델을 여러 종류의 시험(벤치마크)에서 테스트했습니다. 비교 대상은 ① 원래 기본 모델, ② 그냥 무작위로 데이터를 뽑아 훈련시킨 모델, ③ 비슷한 크기의 다른 인공지능 모델들, ④ 그리고 아주 크고 유명한 모델들(GPT-4o 같은 것들)이었습니다.
  • 결과: ThinkLite-VL-7B는 기본 모델이나 무작위 데이터로 훈련시킨 모델보다 훨씬 똑똑해졌습니다. 다른 비슷한 크기의 모델들보다도 평균 점수가 높았어요. 특히 어려운 수학 문제 풀이 시험(MathVista)에서는 엄청나게 큰 모델들이나 GPT-4o보다도 높은 점수를 받아서 1등(SoTA)을 차지했습니다! 이것은 MCTS 데이터 선별법이 매우 효과적이라는 것을 보여줍니다.

2. MCTS 데이터 선별법이 진짜 효과 있는지 증명 (Ablation Study 1, Table 6):

  • "정말로 MCTS로 데이터를 잘 고르는 게 중요할까?"를 확인하기 위해 여러 방식으로 훈련시킨 모델들을 비교했습니다.
    • (A) MCTS로 고른 데이터 (제안 방식)
    • (B) MCTS가 못 푼 아주 어려운 문제만 쓴 경우
    • (C) MCTS가 풀긴 했지만 오래 걸린(5번 이상 시도) 중간 난이도 문제만 쓴 경우
    • (D) 무작위로 고른 데이터
    • (E) 다른 방법(Self-Consistency)으로 고른 데이터
    • (F) 필터링 없이 모든 데이터(70k)를 다 쓴 경우
  • 결과: 놀랍게도, **(A) 제안 방식 (MCTS로 중간 난이도 + 어려운 문제 조합)**으로 훈련시킨 모델이 가장 높은 평균 점수를 받았습니다. 심지어 모든 데이터를 다 쓴 (F)보다도 훨씬 적은 데이터(11k vs 70k)로 더 좋은 성능을 냈습니다! 이는 무작정 많이 푸는 것보다 '어떤 문제를 푸느냐'가 훨씬 중요하다는 것을 보여줍니다. 또한, 아주 어려운 문제나 중간 난이도 문제 하나만 쓰는 것보다 둘을 잘 조합하는 것이 추론 능력 향상에 가장 효과적이라는 것을 발견했습니다.
  • 추가 분석 (Reward Curve, Figure 5): 훈련 중에 점수(reward)가 빨리 오르는 것(쉬운 문제를 많이 풀 때)이 최종 시험 점수가 높은 것을 보장하지는 않았습니다. 오히려 어려운 문제(MCTS로 선별된 것들)를 풀 때는 훈련 점수가 낮게 나오더라도, 그 과정을 통해 모델의 진짜 추론 실력이 더 많이 향상되었습니다.

3. 데이터 난이도의 영향 분석 (Ablation Study 2, Table 7):

  • "중간 난이도" 문제의 기준을 바꿔가며(5번 이상 시도 vs 10번 이상 vs 20번 이상...) 어떤 난이도가 가장 좋은지 더 자세히 실험했습니다.
  • 결과: 5번 이상 시도한 문제들(Iter5+)과 MCTS가 풀지 못한 문제들을 합친 조합가장 성능이 좋았습니다. 중간 난이도의 기준을 낮춰서 더 쉬운 문제들(Iter10 이상)을 포함시킬수록 오히려 모델 성능이 떨어졌습니다.
  • 결론: 추론 능력을 키우려면 너무 쉬운 문제는 오히려 방해가 될 수 있으며, 적당히 어렵고 도전적인 문제들을 푸는 것이 중요하다는 것을 다시 한번 확인했습니다.

요약하면, 실험 결과들은 MCTS를 이용해 '적절하게 어려운' 문제와 '매우 어려운' 문제를 선별하여 소량의 데이터로 RFT 훈련을 하는 것이 VLM의 추론 능력을 매우 효과적이고 효율적으로 향상시킨다는 이 논문의 핵심 주장을 강력하게 뒷받침합니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


1. 루트노드에서 시작 
이미지, 아이디, 프롬프트, 앤서로 구성.

2. 루트노드가 시작이기에 바로 확장 진행.
생성모델이 다음 하나의 스텝을 k=3으로 생성, 즉 s_0에 연결된 자식노드 3개가 생성됨 각각은 답변에 대한 하나의 스텝을 나타내고 있음.

3. 선택 공식을 사용하여 노드 하나 선택
s(t+1) = argmax_{s(t')} [ c_puct * sqrt( N(st) / (1 + N(s(t+1))) ) ]

수식에 의해 가장 높은게 선택될 것임. 초기엔 아마 s_1_1 이 선택

4. 선택이된 노드를 기준으로 다시 3개을 생성하고 s_1_1의 자식노드로 3개의 노드가 또 생김

5. 그리고 나서 이제부터 시뮬레이션 시작. 선택이 된 노드를 기점으로 쭉 답변을 끝까지 생성함. final answer가 나오거나, 지정한 step limit에 도달할때 까지.

6. 그리고 나서 정답인지 오답인지를 critic 모델을 통해 평가. 정답이라면 그 순간 mcts과정 종료, 오답이라면  mcts계속 진행 및 위의 path에서 거쳐온 방문 횟수 업데이트