OPENTHINKIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

논문리뷰

OPENTHINKIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

AI바라기 2025. 5. 16. 17:43

OPENTHINKIMG: Learning to Think with Images via Visual Tool Reinforcement Learning 학습 노트

용어 설명 (Terminology)

LVLMs (Large Vision-Language Models): 시각 정보와 텍스트 정보를 함께 이해하고 처리할 수 있는 대규모 AI model.
Visual Tools: 이미지 내 객체 탐지(GROUNDINGDINO), 분할(SAM), 문자 인식(OCR), 이미지 자르기(CROP), 특정 지점 좌표 찾기(POINT), 선 그리기(DRAWHORIZONTALLINEBYY/DRAWVERTICALLINEBYX), 확대(ZOOMINSUBPLOT), 특정 지점 주변 분할(SEGMENTREGIONAROUNDPOINT) 등 시각적 작업을 수행하는 외부 software/API.
SFT (Supervised Fine-Tuning): 미리 정의된 (입력, 정답) 쌍으로 model을 학습시키는 방식. 이 논문에서는 정적 시연 (static demonstrations) 기반의 tool 사용 학습을 의미.
RL (Reinforcement Learning): Agent가 환경과 상호작용하며 보상(reward)을 통해 최적의 행동 정책(policy)을 학습하는 방식.
V-TOOLRL (Visual Tool Reinforcement Learning): 이 논문에서 제안하는 RL framework. LVLM이 외부 vision tool을 자율적으로 호출하고 최적의 사용 전략을 학습하도록 설계됨.
OPENTHINKIMG: 이 논문에서 제안하는 tool-augmented LVLM을 위한 최초의 open-source, comprehensive end-to-end framework. 표준화된 vision tool interface, 확장 가능한 trajectory 생성, 유연한 학습 환경을 제공.
Trajectory (Tool-use Trajectory): 문제 해결을 위해 model이 연속적으로 tool을 호출하고 그 결과를 사용하는 일련의 과정. τ(i) = ((a(i)t, o(i)t)) 형태로 표현.
Cold-Start: RL 학습을 시작하기 전, SFT를 통해 기본적인 tool invocation policy를 model에 주입하는 초기화 단계.
GRPO (Group-wise Proximal Policy Optimization): V-TOOLRL 학습에 사용된 RL algorithm. 다수의 후보 action trajectory 그룹을 샘플링하고, group-relative advantage를 통해 policy를 최적화.
Chart Reasoning: 차트(그래프, 파이 차트 등) 이미지를 보고 질문에 답하는 작업.
CoT (Chain-of-Thought): 문제 해결 과정을 단계별로 생각하도록 유도하는 prompting 기법.
CoM (Chain of Manipulations): Tool 사용을 포함하여 단계별 추론을 하는 패러다임.
TACO / COGCOM: 기존의 supervised tool-learning baseline model.
QWEN2-VL-2B: V-TOOLRL agent의 backbone으로 사용된 open-source LVLM.
Distributed Deployment: 각 vision tool을 독립적인 service로 배포하여 확장성과 유연성을 높이는 방식.
Tool Controller: 분산 배포된 vision tool service들을 관리하고, LVLM의 tool 호출 요청을 받아 해당 service에 전달하는 중앙 관리자.

Purpose of the Paper

기존 LVLM은 복잡한 문제 해결 시 시각 정보를 활용하는 데 한계가 있으며, 주로 텍스트 기반의 중간 추론에 의존함.
기존 tool-augmented LVLM 연구는 주로 SFT에 의존하는데, 이는 다음과 같은 한계를 지님:
1. Heterogeneous tool definitions and interfaces: Tool의 정의와 interface가 표준화되지 않아 재현성과 확장성이 떨어짐.
2. High cost of trajectory generation: Tool 사용 학습 데이터 (trajectory) 생성에 많은 자원과 노력이 필요하며, 확장성과 정확성 검증이 어려움.
3. Limited training generalization: SFT는 정적인 데이터셋에 대한 학습이므로, 보지 못한 tool이나 task에 대한 일반화 성능이 낮고, 동적인 탐색 및 적응 메커니즘이 부족함.
이 논문은 이러한 한계를 극복하기 위해, LVLM이 시각적 tool을 동적이고 적응적으로(dynamically and adaptively) 사용하는 방법을 학습할 수 있도록 하는 표준화된 framework (OPENTHINKIMG) 와 새로운 RL 기반 학습 방법론 (V-TOOLRL) 을 제안함. 이는 AI agent가 진정으로 "이미지로 생각(think with images)"할 수 있도록 하는 것을 목표로 함.

Key Contributions

OPENTHINKIMG Framework 개발:
- Contribution: Tool-augmented LVLM을 위한 최초의 open-source, end-to-end framework. 다양한 vision tool과 backbone model을 위한 통합된 registry, 효율적이고 확장 가능한 tool inference를 위한 distributed deployment strategy, 그리고 제안된 V-TOOLRL을 포함한 통합 E2E training pipeline을 특징으로 함.
- Novelty: 기존 연구들이 개별적으로 tool을 통합하거나 특정 task에 국한된 것과 달리, 표준화되고 확장 가능한 기반 구조를 제공하여 다양한 tool과 model을 쉽게 통합하고, tool 사용 학습 전반의 과정을 체계화함.
V-TOOLRL (Visual Tool Reinforcement Learning) 제안:
- Contribution: LVLM이 외부 vision tool을 호출하는 적응적인 policy를 학습하기 위한 새로운 RL framework. Tool 상호작용으로부터 얻는 feedback을 사용하여 task 성공을 직접적으로 최적화함으로써, LVLM이 자율적으로 최적의 tool 사용 전략을 발견하도록 함.
- Novelty: SFT의 한계(정적 데이터 의존, 일반화 부족)를 넘어, RL을 통해 동적인 환경에서 tool 사용을 탐색하고 적응하는 능력을 LVLM에 부여함. Tool의 시각적 결과(visual feedback)를 RL 학습 loop에 직접 통합.
확장 가능한 Vision Tool-use Trajectory 생성 Pipeline 제안:
- Contribution: 고품질 vision tool-use trajectory를 구축하기 위한 3단계 pipeline. (1) Model의 초기 action planning 능력 활용, (2) 자동화된 tool call completion 및 rationale parsing, (3) Rule-based validation 및 human oversight를 포함한 multi-stage filtering.
- Novelty: 단순히 heuristic이나 template에 의존하는 대신, model의 능력을 활용하고 다단계 검증을 통해 데이터 품질을 보장하는 체계적인 trajectory 생성 방식.

Experimental Highlights

Dataset & Task: CHARTGEMMA dataset을 사용한 chart reasoning task.
Backbone Model: QWEN2-VL-2B.
Key Performance:
- V-TOOLRL로 학습된 agent (QWEN2-VL-2B 기반)는 SFT로 초기화된 counterpart 대비 +28.83 points의 성능 향상 (vs. QWEN-BASE 29.56% -> V-TOOLRL 59.39%).
- 기존 supervised tool-learning baseline인 TACO-8B (30.50%), COGCOM-13B (15.07%) 보다 평균 +12.7 points 높은 성능 달성.
- 주요 closed-source model인 GPT-4.1 (50.71%) 보다 +8.68 accuracy points 높은 성능 기록.
Ablation Study (Impact of Training Stages & Methods):
- QWEN-BASE (29.56%) → QWEN-SFT (Cold-Start, 45.67%) → TEXT-BASED RL (51.63%) → V-TOOLRL (Full model, 59.39%).
- V-TOOLRL이 TEXT-BASED RL보다 +7.76 points 높은 성능을 보여, tool의 시각적 결과(visual output)를 RL 학습에 직접 통합하는 "V" component의 중요성을 입증.
Tool Invocation Efficiency: 학습이 진행됨에 따라 sample 당 평균 tool 호출 횟수가 약 0.63회에서 0.10~0.12회로 감소하여 tool 사용 효율성이 향상됨.
Reasoning Complexity: 평균 completion length (token 수)가 약 66 토큰에서 83~86 토큰으로 증가하여, 더 정교하고 상세한 추론 과정을 생성함을 시사.
Qualitative Case Studies (Figure 4): V-TOOLRL은 GPT-4.1의 직접적인 시각적 해석보다 더 정확하고 해석 가능한 방식으로 복잡한 시각적 질문을 해결함 (예: pie chart 값 추출, line graph 추세 분석).

Limitations and Future Work

Limitations:
- (명시적 언급은 없으나 추론 가능) Reward Design의 단순성: 현재 rule-based accuracy reward를 사용하는데, 더 복잡한 task나 미묘한 tool 사용 차이를 반영하기에는 한계가 있을 수 있음.
- (명시적 언급은 없으나 추론 가능) Task 및 Toolset 일반화: 주로 chart reasoning task와 사전 정의된 toolset에 대해 검증됨. 다른 domain이나 새로운 tool에 대한 일반화 능력은 추가 연구가 필요.
- (명시적 언급은 없으나 추론 가능) Trajectory 생성의 의존성: 초기 trajectory 생성 시 GPT-4o와 같은 강력한 LLM에 의존하는 부분이 있음.
Future Work:
- OPENTHINKIMG framework를 커뮤니티의 귀중한 resource로 발전시켜, 정교하고 상호작용적인 시각 추론이 가능한 adaptive multimodal agent 연구 가속화. (논문 결론부)
- 더 다양한 시각적 task와 domain으로 OPENTHINKIMG 및 V-TOOLRL 방법론 확장.
- 더욱 정교한 reward shaping 기법 탐구.
- Agent가 새로운 tool을 학습하거나 기존 tool을 조합하여 사용하는 능력 연구.

Overall Summary

OPENTHINKIMG 논문은 LVLM이 외부 시각 tool을 동적이고 적응적으로 사용하는 능력을 학습시키기 위한 혁신적인 open-source framework와 V-TOOLRL이라는 RL 기반 방법론을 제안한다. 이 연구는 기존 SFT 방식의 한계점(표준화 부재, 데이터 생성 비용, 일반화 성능 저하)을 극복하고, tool 상호작용으로부터 얻는 시각적 feedback을 통해 LVLM이 최적의 tool 사용 전략을 자율적으로 학습하도록 한다. Chart reasoning 실험에서 V-TOOLRL은 SFT 및 기존 supervised learning 기반 model들을 큰 폭으로 능가하며, GPT-4.1보다도 우수한 성능을 보여 그 유효성을 입증했다. 이 연구는 AI agent가 진정으로 "이미지로 생각"하며 복잡한 시각적 문제를 해결하는 능력의 발전에 중요한 기반을 제공한다.

쉬운 설명 (Easy Explanation)

이 논문은 AI(LVLM)가 그림이나 차트를 볼 때, 마치 사람이 보조 도구(돋보기로 확대하거나, 자로 재거나, 중요한 부분에 표시하는 등)를 사용하는 것처럼 디지털 "시각 도구"를 똑똑하게 골라 쓰는 법을 가르치는 방법에 관한 연구입니다.

기존에는 AI에게 "이럴 땐 이 도구를 써"라고 미리 정해진 사용법만 반복해서 보여주는 방식(SFT)으로 가르쳤는데, 이러면 AI가 새로운 상황이나 도구에 잘 적응하지 못했습니다.

그래서 이 논문은 **AI가 직접 여러 도구를 써보고, "이 도구를 썼더니 문제가 잘 풀렸네!" 또는 "이건 별로 도움이 안 되네" 같은 경험(보상)을 통해 스스로 가장 좋은 도구 사용법을 배우도록 하는 새로운 훈련 방식(V-TOOLRL)**을 만들었습니다. 마치 시행착오를 통해 배우는 것과 같습니다.

OPENTHINKIMG라는 것은 이런 학습을 쉽게 할 수 있도록 모든 도구와 학습 환경을 잘 정리해놓은 "만능 도구 상자이자 작업대" 같은 시스템입니다. 결과적으로 AI가 복잡한 차트 문제도 더 잘 풀고, 왜 그런 답이 나왔는지 설명하기도 쉬워졌습니다.

Abstract

인간은 복잡한 문제 해결을 위해 interactive visual cognition을 유연하게 활용할 수 있지만, Large Vision-Language Models (LVLMs)가 visual tools을 사용하여 유사하게 적응적인 행동을 학습하도록 하는 것은 여전히 어려운 과제입니다. 상당한 장애물은 현재 표준화된 infrastructure의 부족이며, 이는 다양한 tools의 통합, 풍부한 interaction data 생성, 그리고 강력한 agents를 효과적으로 training하는 것을 방해합니다. 이러한 격차를 해소하기 위해, 우리는 tool-augmented LVLMs를 위한 최초의 open-source, 포괄적인 end-to-end framework인 OPENTHINKIMG를 소개합니다. 이는 표준화된 vision tool interfaces, policy 초기화를 위한 확장 가능한 trajectory generation, 그리고 유연한 training environment를 특징으로 합니다.

또한, static demonstrations에 대한 supervised fine-tuning (SFT)은 dynamic tool invocation에 대한 제한된 policy generalization을 제공한다는 점을 고려하여, LVLMs가 external vision tools를 호출하기 위한 adaptive policies를 학습하도록 하는 새로운 reinforcement learning (RL) framework VTOOLRL을 제안합니다. V-TOOLRL은 LVLMs가 tool interactions로부터의 feedback을 사용하여 task 성공을 직접적으로 optimizing함으로써 최적의 tool-usage strategies를 autonomously 발견할 수 있도록 합니다. 우리는 어려운 chart reasoning tasks에 대해 V-ToolRL을 경험적으로 검증합니다. QWEN2-VL-2B를 기반으로 구축된 우리의 RL-trained agent는 SFT-initialized counterpart보다 훨씬 뛰어난 성능(+28.83 points)을 보이며, TACO 및 COGCOM과 같은 기존의 supervised tool-learning baselines를 평균 +12.7 points 능가합니다. 특히, GPT-4.1과 같은 저명한 closed-source models보다도 +8.68 accuracy points를 능가합니다. 우리는 OPENTHINKIMG가 dynamic, tool-augmented visual reasoning을 발전시키는 기초적인 framework 역할을 하여, 커뮤니티가 진정으로 "이미지로 생각"할 수 있는 AI agents를 개발하는 데 도움이 되기를 바랍니다.

1 Introduction

"눈은 마음이 이해하도록 준비된 것만을 본다." —Robertson Davies

Large vision-language models (LVLMs)의 최근 발전은 visual 및 textual inputs을 공동으로 reasoning하는 AI agents의 능력을 크게 확장시켰습니다. Chain-of-thought (CoT) prompting과 같은 기술을 활용하여 이러한 models은 visual question answering, mathematical reasoning, image captioning과 같은 광범위한 multimodal tasks에서 인상적인 performance를 달성했습니다. 그러나 대부분의 현재 접근 방식은 본질적으로 visual 문제를 다룰 때조차도 주로 textual intermediate reasoning에 의존합니다.

반대로, 인간의 reasoning은 종종 visual cognition과 깊이 얽혀 있습니다. 사람들은 우리가 보는 것을 묘사할 뿐만 아니라 sketches, highlights, spatial cues를 사용하여 복잡한 visual information을 외부화하고, 분해하고, 조작하며 이미지로 생각합니다. 예를 들어, 기하학 문제를 풀 때 사람들은 보조선을 그리거나 다이어그램에 주요 지점을 표시하여 숨겨진 관계를 밝히고 reasoning을 안내합니다. 이러한 생물학적 메커니즘은 LVLMs를 위한 cognitive scaffolds로서 visual tools를 사용하는 것을 동기 부여합니다. Tools를 reasoning loop에 직접 통합함으로써, models가 visual content를 반복적으로 조작하고 해석할 수 있도록 하여 보다 grounded되고 interpretable한 의사 결정 경로를 제공합니다. 순수한 text-based reasoning에서 tool-augmented visual cognition으로의 이러한 패러다임 전환은 세밀한 spatial understanding, 반복적인 perception, 그리고 visual content와의 정확한 interaction을 요구하는 tasks를 해결하는 데 대한 가능성을 제시합니다.

최근의 노력들은 agents에게 external visual tools와 상호 작용하고, intermediate visual representations를 구성하며, synthetic supervision을 통해 action trajectories를 학습할 수 있는 능력을 부여함으로써 tool-augmented multimodal reasoning을 탐구하기 시작했습니다. Tool integration 잠재력을 보여주기는 하지만, 일반적으로 static datasets의 조작된 tool-use sequences에 의존하는 이러한 SFT 중심 접근 방식은 tool-use lifecycle 전반에 걸친 전체적인 학습을 제한합니다. 이러한 접근 방식은 몇 가지 근본적인 문제를 야기합니다: ❶ Heterogeneous tool definitions and interfaces: 동일한 이름(예: "segment" 또는 "grounding")을 가진 Tools는 backend implementations 또는 task-specific assumptions으로 인해 종종 다른 동작을 보여 표준화 및 재현성을 저해합니다. ❷ High cost of trajectory generation: Tool-based reasoning을 위한 training data를 생성하는 것은 자원 집약적이며, 종종 확장성과 accuracy verification을 제한하는 수동 templates 또는 불안정한 heuristics에 의존합니다. ❸ Limited training generalization: 기존 방법은 일반적으로 offline trajectories에 SFT를 채택합니다. 그러나 SFT만으로는 보지 못한 tools 또는 tasks에 일반화하기 어렵고, exploration 및 dynamic adaptation을 위한 메커니즘이 부족합니다.

이러한 문제를 해결하기 위해, 본 논문에서는 tool-augmented LVLMs를 위한 이러한 중요한 단계를 통합하는 최초의 포괄적인 end-to-end framework인 OPENTHINKIMG를 소개합니다. 구체적으로, OPENTHINKIMG는 heterogeneous tool interfaces를 표준화하고, tool-use trajectories의 generation을 확장하며, multimodal agents의 효율적인 training을 지원하기 위한 통합된 infrastructure를 제공합니다. 전통적인 SFT 접근 방식을 넘어, 우리는 models가 vision tools를 사용하여 최적의 tool usage strategies를 autonomously 탐색하고 발견할 수 있도록 하는 reinforcement learning framework인 V-TOOLRL을 추가로 제안합니다. 유연한 tool management, 확장 가능한 trajectory synthesis, 그리고 dynamic agent adaptation을 긴밀하게 통합함으로써 OPENTHINKIMG는 향상된 visual reasoning capabilities를 갖춘 차세대 LVLMs 구축을 위한 실질적인 기반을 제공합니다. 우리의 주요 기여는 다음과 같이 요약됩니다:

우리는 tool-augmented LVLMs를 위한 최초의 open 및 extensible end-to-end framework인 OPENTHINKIMG를 소개합니다. 이는 다양한 vision tools 및 backbone models를 위한 통합된 registry, 효율적이고 확장 가능한 tool inference를 위한 distributed deployment strategy, 그리고 adaptive tool use를 위한 우리가 제안한 새로운 V-TOOLRL methodology를 통합하는 통합된 E2E training pipeline을 특징으로 합니다. 모든 code와 resources는 공개적으로 제공되며, tool-augmented reasoning 분야에서 커뮤니티 협업과 추가 개발을 촉진하기 위해 적극적으로 유지 관리될 것입니다.
우리는 high-quality vision tool-use trajectories를 구성하기 위한 확장 가능하고 적응 가능한 3단계 pipeline을 제안합니다. 이 pipeline은 초기 action planning을 위해 model의 capabilities를 활용하고, 자동화된 tool call completion 및 rationale parsing을 수행하며, supervised fine-tuning 및 reinforcement learning 모두에 대한 data quality를 보장하기 위해 rule-based validation 및 인간 감독을 포함하는 다단계 filtering을 통합합니다.
우리는 복잡한 chart reasoning tasks에 대해 V-TOOLRL을 경험적으로 검증합니다. 우리의 접근 방식은 2B parameter base model의 performance를 +29.83 accuracy points 향상시키고, 더 큰 8B/13B open-source tool-augmented agents를 평균 12.7 points 능가합니다. 상세한 실험과 정성적 연구는 학습된 tool-use efficiency, 복잡한 reasoning narratives의 개발, 그리고 우리 방법의 우수한 interpretability를 더욱 분명하게 보여줍니다.

정리노트 (AI 연구자용)

1. Introduction 핵심 요약

Problem Addressed: 현재 Large Vision-Language Models (LVLMs)는 visual 및 textual input을 함께 reasoning 하지만, 인간처럼 interactive visual cognition을 통해 visual tools를 유연하게 활용하여 복잡한 문제를 해결하는 데 한계가 있음. 기존 접근법은 주로 textual intermediate reasoning에 의존하며, dynamic tool invocation을 위한 SFT (supervised fine-tuning)의 generalization 능력이 부족함.
Key Challenges Identified:
- 표준화된 visual tool infrastructure 부재로 인한 tool 통합 및 재현성 저하.
- Tool-based reasoning을 위한 high-quality trajectory generation의 높은 비용 및 확장성 문제.
- Offline static datasets에 의존하는 SFT의 policy generalization 한계 및 dynamic adaptation, exploration 부족.
Proposed Solution: OPENTHINKIMG Framework
- Tool-augmented LVLMs를 위한 최초의 open-source, comprehensive end-to-end framework.
- Features:
  - 표준화된 vision tool interfaces 및 다양한 vision tools/backbone models를 위한 unified registry.
  - 확장 가능한 trajectory generation.
  - 유연한 training environment 및 efficient tool inference를 위한 distributed deployment strategy.
  - 제안된 V-TOOLRL methodology를 통합한 E2E training pipeline.
Novel Reinforcement Learning Framework: V-TOOLRL
- LVLMs가 external vision tools를 호출하기 위한 adaptive policies를 학습하도록 설계됨.
- Tool interactions로부터의 feedback을 사용하여 task success를 직접 optimizing함으로써 LVLMs가 최적의 tool-usage strategies를 autonomously 발견하도록 지원.
Main Contributions:
1. OPENTHINKIMG Framework: Tool-augmented LVLMs를 위한 최초의 open, extensible end-to-end framework. (Code 및 resources 공개 예정)
2. Scalable Trajectory Generation Pipeline: High-quality vision tool-use trajectories 생성을 위한 3단계 pipeline (model의 action planning 활용, 자동화된 tool call completion/rationale parsing, multi-stage filtering).
3. Empirical Validation of V-TOOLRL: Chart reasoning tasks에서 QWEN2-VL-2B (2B parameter base model)에 적용 시 SFT 대비 +29.83 accuracy points 향상, 기존 open-source tool-augmented agents (8B/13B) 대비 평균 12.7 points 성능 우위, GPT-4.1 대비 +8.68 accuracy points 우위 달성. Learned tool-use efficiency, complex reasoning narratives 개발, 향상된 interpretability 제시.
Goal: AI agents가 진정으로 "이미지로 생각(think with images)"할 수 있도록 dynamic, tool-augmented visual reasoning 발전을 위한 foundational framework 제공.

쉬운 설명 :

1. Introduction 쉽게 이해하기

요즘 AI는 그림도 보고 글도 읽으면서 여러 가지 일을 할 수 있게 됐어요. 하지만 사람이 그림 위에 줄을 긋거나 중요한 부분을 표시하면서 문제를 푸는 것처럼, AI가 "visual tools" (그림을 다루는 도구들)을 써서 생각하는 건 아직 어려워요. 대부분의 AI는 글자로 된 중간 과정을 통해 문제를 해결하려고 하죠.

이 연구가 해결하려는 문제점은 이거예요:

다양한 visual tools (예: 그림에서 특정 물체 찾기, 특정 부분 확대하기 등)을 AI에 연결하고 사용하는 표준적인 방법(infrastructure)이 없어요. 그래서 도구마다 제각각이고, 합치기도 어렵죠.
AI가 이런 visual tools를 어떻게 사용해야 하는지 가르치려면たくさんの 학습 데이터(interaction data 또는 trajectories)가 필요한데, 이걸 만드는 게 너무 비싸고 힘들어요.
기존에는 미리 만들어둔 정적인 사용 예시(static demonstrations)로 AI를 학습(SFT)시켰는데, 이렇게 하면 AI가 새로운 상황에서 도구를 잘 못 쓰거나, 더 좋은 사용법을 스스로 찾아내지 못해요.

그래서 이 논문에서는 두 가지 새로운 것을 제안해요:

OPENTHINKIMG 라는 framework:
- 이건 AI가 visual tools를 더 잘 쓸 수 있도록 도와주는 일종의 종합 선물 세트 같은 거예요. Open-source라서 누구나 쓸 수 있고요.
- 다양한 visual tools를 쉽게 연결할 수 있는 표준(standardized vision tool interfaces)을 제공하고, AI 학습에 필요한 데이터(tool-use trajectories)를 많이, 그리고 쉽게 만들 수 있게 도와줘요. 또, AI를 효과적으로 학습시킬 수 있는 환경(training environment)도 갖추고 있어요.
V-TOOLRL 이라는 새로운 학습 방법 (reinforcement learning framework):
- 이건 AI가 visual tools를 언제 어떻게 써야 할지 스스로 배우게 하는 방법이에요.
- AI가 직접 visual tools를 사용해보고, 그 결과가 문제 해결에 도움이 됐는지 (feedback) 받아서 점점 더 똑똑하게 도구를 사용하는 전략(optimal tool-usage strategies)을 발견하게 돼요. 마치 게임을 하면서 시행착오를 통해 배우는 것과 비슷해요.

결론적으로, 이 연구는 AI가 단순히 이미지를 보고 설명하는 것을 넘어서, 사람처럼 "이미지를 가지고 생각"할 수 있도록 만드는 게 목표예요. 제안하는 OPENTHINKIMG framework와 V-TOOLRL 학습 방법을 통해 AI가 visual tools를 훨씬 더 잘 쓰고, 복잡한 문제도 더 잘 해결할 수 있다는 것을 실험으로 보여줬어요. 예를 들어, 차트 그림을 보고 질문에 답하는 어려운 문제에서 기존 AI보다 훨씬 좋은 성적을 냈다고 해요.

2 OPENTHINKIMG Framework

이 섹션에서는 vision tools의 integration을 간소화하고, tool-use trajectories의 synthesis를 확장하며, multimodal agents의 효율적인 training을 지원하도록 설계된 포괄적이고 커뮤니티 중심의 framework인 OPENTHINKIMG의 architecture에 대해 자세히 설명합니다. 이는 tools 및 models를 위한 unified registry, dynamic inference를 위한 distributed deployment strategy, 그리고 supervised fine-tuning과 adaptive tool invocation 학습을 위한 우리가 제안한 V-TOOLRL을 특징으로 하는 integrated training pipeline을 포함합니다. 전체 architecture와 process flow는 Figure 1에 설명되어 있습니다.

2.1 Vision Tools and Models Integration

다양한 visual reasoning tasks를 효과적으로 처리하려면 다용도 tool suite가 필요합니다. 이 문제를 해결하기 위해 OPENTHINKIMG는 vision tools와 backbone models의 원활한 integration을 위한 unified registry를 제공하여 최소한의 boilerplate만을 필요로 합니다. 따라서 이 framework는 visual interaction 및 reasoning의 특정 측면을 다루도록 설계된 엄선된 vision tools를 통합합니다. Table 1은 각 tool의 자세한 parameters 및 specifications에 대한 포괄적인 요약을 제공하며, 핵심 functionalities 및 일반적인 use cases는 다음과 같습니다:

GROUNDINGDINO: 이 tool은 text-driven object detection을 수행하여 language와 visual perception을 연결합니다. Input image 과 textual query 를 받아 설명된 objects의 instances를 찾아내고, 그 bounding boxes 을 output합니다. Model이 visual content를 기반으로 "X는 어디에 있습니까?" 또는 "모든 Y를 찾으십시오"에 답해야 하는 tasks에 필수적입니다.
SAM (SEGMENT ANYTHING MODEL): 정확하고 object-agnostic한 segmentation의 필요성에 따라 SAM은 세밀한 segmentation masks 을 생성합니다. 일반적으로 input image 과 input bounding box (또는 points)과 같은 prompt를 사용합니다. 이는 object class에 관계없이, 특히 정확한 경계가 필요할 때 상세 분석 또는 조작을 위해 특정 objects를 분리하는 데 중요합니다.
OCR (OPTICAL CHARACTER RECOGNITION): Images 내에 포함된 textual information을 추출하고 이해하도록 설계된 OCR은 input image 을 process하여 text를 식별하고 transcribe합니다. 추출된 text 과 text regions의 bounding boxes 을 output합니다. 이는 차트, 표지판, 문서의 레이블을 읽거나 image 내의 textual content가 관련된 모든 시나리오를 포함하는 tasks에 필수적입니다.
CROP: 이 tool은 image의 특정 sub-region에 processing 또는 attention을 집중시킬 수 있도록 합니다. Input image 과 bounding boxes 이 주어지면 직사각형 sub-region을 추출하여 cropped image 을 output합니다. 다른 tools에 의한 후속, 보다 상세한 분석을 위해 관심 영역을 분리하거나 image의 일부만 관련된 경우 유용합니다.
POINT: 설명적인 language를 기반으로 단일 위치 또는 object를 정확하게 식별하기 위한 Point tool은 input image 과 textual description 를 사용합니다. 지정된 object 또는 관심 지점을 localize하고 해당 coordinates 을 반환합니다. 이는 "가장 높은 봉우리를 표시하십시오"와 같이 특정 항목을 정확히 찾아야 하는 tasks에 유용합니다.
DRAWHORIZONTALLINEBYY / DRAWVERTICALLINEBYX: 이러한 tools는 image에 reference markers를 추가하여 reasoning을 visually 지원합니다. Input image 과 각각 Y 또는 X coordinate 값 을 받아 해당 수평 또는 수직선이 그려진 annotated image 을 output합니다. 임계값을 표시하거나 값을 비교하기 위해 차트 및 그래프 분석에 특히 유용합니다.
ZOOMINSUBPLOT: 복잡한 visuals 내의 특정 부분에 대한 상세한 조사를 가능하게 하기 위해 이 tool은 확대된 views (subplots) 을 만듭니다. Input image 과 확대할 영역을 식별하는 textual description (또는 coordinates )를 사용합니다. 더 자세한 조사가 필요한 여러 구별되는 영역이 있는 images를 분석할 때 유용합니다.
SEGMENTREGIONAROUNDPOINT: 이 tool은 segmentation을 국부적으로 미세 조정하거나 작은 feature를 높은 정밀도로 분리하는 데 사용됩니다. Input image 과 지정된 point coordinate 에서 시작하여 해당 point 주변에 특화된 segmentation mask 을 생성하거나 미세 조정합니다. 작은 objects에 대한 정확한 masks를 얻거나 거친 segmentations를 미세 조정하는 데 유용합니다.

Model loading을 간소화하기 위해 Transformers library를 사용하여 pre-trained models를 로드하고 parameters를 초기화합니다. Closed-source models는 OpenAI repository에서 로드됩니다. 현재 Gemini, ChatGPT, Qwen-2VL 및 Qwen-2.5VL series models를 지원합니다. 또한 OPENTHINKIMG에는 vision tools와 models 모두를 위한 간소화된 deployment modules가 포함되어 있으며, 향후 지원되는 구성 요소의 레퍼토리를 계속 확장할 것입니다.

2.2 Vision Tool Deployment and Inference

OPENTHINKIMG의 핵심 architectural 선택은 vision tools의 distributed deployment로, 모든 tools를 단일 memory space에 로드하는 이전 접근 방식과 대조됩니다. 이러한 modular design은 scalability, fault isolation을 향상시키고 각 tool에 대한 독립적인 업데이트 및 resource allocation을 허용합니다. 구체적으로, 각 vision tool (는 사용 가능한 tools의 suite)는 전용 local network port에서 수신 대기하는 독립적인 containerized service 로 deployed됩니다.

이러한 distributed services를 효과적으로 관리하기 위해 전체 tool invocation lifecycle을 orchestrates하는 Tool Controller가 설계되었습니다. Controller는 service registration 및 health monitoring을 처리하지만 핵심 기능은 dynamic inference-time orchestration입니다. Inference 중에 LVLM이 question 및 image 와 같은 현재 input을 기반으로 tool assistance가 필요하다고 식별하면 planned action 를 공식화합니다. 이 plan은 일반적으로 호출할 tool 와 해당 arguments를 지정하며, 이는 LVLM의 internal reasoning state 및 input 에서 파생됩니다. Tool Controller는 이 planned action 를 수신합니다. 그런 다음 request를 parses하고, 효율적인 execution strategy를 결정하며 (만약 가 여러 독립적인 tool calls를 나타내는 경우 잠재적으로 parallelizing), 이후 를 해당 service 에 dispatches합니다. Service는 tool을 executes하여 tool rollout process 에서 효과적으로 단계를 수행하여 output 를 생성합니다. 여러 tools가 호출되면 해당 outputs는 controller에 의해 outcomes 집합으로 aggregated됩니다. 마지막으로, controller는 LVLM의 현재 reasoning context (예: )를 (또는 단일 tool인 경우 )로 augments하여 updated context 를 형성합니다. 이 는 후속 reasoning steps 또는 final response generation을 위해 LVLM으로 반환되어 반복적이고 다단계적인 문제 해결 process를 가능하게 합니다.

2.3 V-TOOLRL: Reinforcement Learning with Vision Tools

위에 자세히 설명된 OPENTHINKIMG architecture는 flexible tool deployment 및 dynamic inference를 위한 강력한 infrastructure를 제공합니다. 그러나 LVLM이 최적의 task completion을 위해 이 toolset을 전략적으로 활용하는 방법과 시기를 학습할 수 있도록 하려면 전용 learning paradigm이 필수적입니다. 이 섹션에서는 vision tool invocation을 초기화하기 위한 cold-start module과 adaptive tool usage를 위한 reinforcement learning module의 두 가지 modules로 구성된 V-TOOLRL이라는 우리가 제안한 새로운 methodology를 소개합니다.

2.3.1 Cold-Start for Vision Tool Invocation

기본적인 vision tool invocation을 bootstrap하기 위해 먼저 batch-generated trajectories에 대해 supervised fine-tuning을 수행합니다. 각 trajectory는 다음과 같이 정의됩니다: 여기서 는 단계에서의 planned action을 나타내고 는 번째 example에 대한 해당 tool output을 나타냅니다. 섹션 3에 설명된 trajectory generation procedure를 기반으로 training dataset 을 구성합니다. 여기서 는 번째 question prompt, 는 관련된 input image, 는 길이 의 action–output trajectory, 은 총 example 수입니다. Cold-Start 단계에서 model은 에 conditioned된 전체 trajectory 를 generate하도록 학습합니다. 우리는 cross-entropy loss를 optimize합니다: 를 최소화함으로써 model은 sequential vision-tool invocation을 위한 강력한 Cold-Start policy를 습득하여 후속 reinforcement learning 단계를 위한 견고한 기반을 제공합니다.

2.3.2 Reinforcement Learning for Adaptive Tool Usage

우리는 vision-tool rollouts를 고려하도록 확장된 Group-wise Proximal Policy Optimization (GRPO) algorithm을 사용하여 V-TOOLRL을 train합니다. 구체적으로, 각 question 에 대해 개의 candidate action trajectories 그룹을 sample합니다: 그런 다음 각 planned action sequence를 vision tools를 통해 execute하여 해당 rollout outcomes를 얻습니다: 여기서 는 tool rollout process를 나타냅니다. Final answer quality 및 intermediate tool outputs를 기반으로 각 단계에 대한 reward 를 계산하고, 각 trajectories batch 내에서 group-relative advantages 를 도출합니다. 결과적인 GRPO objective는 다음과 같습니다: 여기서 , 및 는 clipping 및 KL-penalty hyperparameters이며, 은 KL divergence입니다. Sampled된 tool outcomes 를 state 및 reward computation에 통합함으로써 V-ToolRL은 inference 중에 vision tools를 선택하고 sequencing하기 위한 adaptive policy를 효과적으로 학습합니다.

Reward Design

Model이 언제 어떻게 tools를 invoke해야 하는지를 학습하도록 가르치기 위해, model을 optimize하기 위한 rule-based accuracy reward를 구현합니다. 번째 question에 대해 ground-truth answer 와 model prediction 를 사용하여 terminal reward를 다음과 같이 정의합니다: 여기서 는 rule-based string 및 numerical equivalence checking을 수행합니다. Final reward 는 방정식 5의 group-relative advantages 를 계산하는 데 사용됩니다. 이 design은 end-to-end reasoning을 장려하고, reward hacking을 완화하며, adaptive tool-invocation strategies를 촉진합니다.

정리노트 (AI 연구자용)

2. OPENTHINKIMG Framework 핵심 요약

Overall Architecture: OPENTHINKIMG는 vision tools의 통합, tool-use trajectories 생성 확장, multimodal agents의 효율적 training을 목표로 하는 포괄적, community-driven framework.
- 주요 구성 요소:
  - Vision tools 및 backbone models를 위한 Unified Registry: 다양한 구성 요소의 원활한 통합 지원.
  - Distributed Deployment Strategy for Dynamic Inference: 각 vision tool을 독립적인 containerized service로 배포하여 scalability 및 fault isolation 향상 (기존의 단일 메모리 공간 방식과 대조).
  - Integrated Training Pipeline: Supervised fine-tuning (SFT)과 adaptive tool invocation 학습을 위한 본 논문 제안 V-TOOLRL (Reinforcement Learning) 포함.
2.1 Vision Tools and Models Integration:
- 핵심: Minimal boilerplate로 vision tools 및 backbone models의 손쉬운 통합을 위한 unified registry 제공.
- 제공 Tools 예시 (다용도성 강조):
  - GROUNDINGDINO: Text-driven object detection ().
  - SAM: Object-agnostic fine-grained segmentation masks ().
  - OCR: Image 내 embedded textual information 추출 ().
  - CROP: Image의 sub-region 추출 ().
  - POINT: Textual description 기반 단일 위치/object 식별 ().
  - DRAWHORIZONTALLINEBYY / DRAWVERTICALLINEBYX: Image에 reference markers 추가 ().
  - ZOOMINSUBPLOT: 복잡한 visual 내 특정 부분의 magnified views 생성 ().
  - SEGMENTREGIONAROUNDPOINT: 지정 point 주변 local segmentation ().
- 지원 Models: Gemini, ChatGPT, Qwen-2VL, Qwen-2.5VL series (Transformers library 및 OpenAI repository 활용).
2.2 Vision Tool Deployment and Inference:
- 핵심: Vision tools의 distributed deployment. 각 tool ()은 독립적인 containerized service ()로 전용 local network port에서 실행.
- Tool Controller 역할:
  - Service registration, health monitoring.
  - Dynamic inference-time orchestration: LVLM이 tool 필요성을 식별하고 planned action (tool 및 arguments 포함)를 생성하면, Controller가 이를 parsing, execution strategy 결정, 해당 service 에 dispatch.
  - Service는 tool을 실행 ()하여 output 생성.
  - 여러 tool outputs는 로 aggregate.
  - Controller는 LVLM의 reasoning context 를 로 augment하여 updated context 를 LVLM에 반환, 반복적 problem-solving 지원.
2.3 V-TOOLRL: Reinforcement Learning with Vision Tools: LVLM이 toolset을 전략적으로, 언제, 어떻게 활용할지 학습하도록 하는 novel methodology.
- 2개 Module 구성:
  1. Cold-Start for Vision Tool Invocation (2.3.1):
    - 목표: 기본적인 vision tool invocation 능력 bootstrap.
    - 방법: Batch-generated trajectories 에 대한 SFT 수행.
    - 최적화: Cross-entropy loss 최소화를 통해 robust Cold-Start policy () 확보.
  2. Reinforcement Learning for Adaptive Tool Usage (2.3.2):
    - Algorithm: Group-wise Proximal Policy Optimization (GRPO) (vision-tool rollouts 고려하여 확장).
    - Process:
      - Question 에 대해 개의 candidate action trajectories sample.
      - Vision tools로 를 실행하여 rollout outcomes 획득.
      - Final answer quality 및 intermediate tool outputs 기반 reward 및 group-relative advantages 계산.
    - Objective: (sampled tool outcomes 를 state 및 reward 계산에 통합). where .
    - 결과: Vision tools 선택 및 sequencing을 위한 adaptive policy 학습.
- Reward Design:
  - Rule-based accuracy reward: Final answer 와 model prediction 비교.
  - Terminal reward: .
  - 목적: End-to-end reasoning 장려, reward hacking 완화, adaptive tool-invocation strategies 촉진.

쉬운 설명 :

2. OPENTHINKIMG Framework 쉽게 이해하기

OPENTHINKIMG는 AI가 그림(visuals)을 가지고 더 잘 "생각"할 수 있도록 도와주는 아주 똑똑한 작업 환경(framework)이라고 생각할 수 있어요. AI가 다양한 "visual tools" (그림을 다루는 도구들)을 잘 사용할 수 있게 해주는 게 목표죠.

1. AI에게 필요한 도구와 모델을 쉽게 연결해줘요 (2.1 Vision Tools and Models Integration):

OPENTHINKIMG에는 AI가 쓸 수 있는 여러 visual tools (예: 그림에서 물건 찾아주는 GROUNDINGDINO, 그림을 정교하게 오려주는 SAM, 그림 속 글자 읽어주는 OCR, 그림 특정 부분만 잘라 보여주는 CROP 등)와 AI의 두뇌 역할을 하는 models (예: Gemini, ChatGPT, Qwen 시리즈)를 쉽게 가져다 쓸 수 있도록 "통합 카탈로그"(unified registry)가 마련되어 있어요. 마치 레고 블록처럼 필요한 도구나 모델을 가져와서 쉽게 끼워 맞출 수 있는 거죠.

2. AI가 필요할 때 도구들을 효율적으로 사용하게 해줘요 (2.2 Vision Tool Deployment and Inference):

모든 도구를 한 컴퓨터에 다 설치하는 대신, 각각의 visual tool은 자신만의 작은 작업실(containerized service)에서 독립적으로 돌아가요. 이렇게 하면 전체 시스템이 더 빠르고 안정적으로 작동할 수 있어요 (distributed deployment).
"작업반장"(Tool Controller)이 있어서, AI가 어떤 visual tool을 사용해서 뭘 하고 싶은지 (planned action ) 파악한 다음, 해당 도구 작업실()에 작업을 지시하고 결과( 또는 )를 다시 AI에게 전달해줘요. AI는 이 결과를 보고 다음 생각을 이어갈 수 있죠. 마치 AI가 "이 부분 확대해줘!"라고 하면 작업반장이 확대 도구에 시켜서 결과를 가져다주는 것과 같아요.

3. AI가 도구를 똑똑하게 사용하는 방법을 배우도록 가르쳐요 (2.3 V-TOOLRL):

이것이 OPENTHINKIMG의 특별한 AI 훈련 프로그램이에요. 두 단계로 나뉘죠.

1단계: 기본기 다지기 (Cold-Start for Vision Tool Invocation):
- 먼저, AI에게 "이럴 땐 이 도구를 이렇게 쓰는 거야" 하고 모범 답안(batch-generated trajectories )을 보여주면서 기본적인 도구 사용법을 가르쳐요 (supervised fine-tuning). 마치 운동선수가 코치에게 기본 자세를 배우는 것과 같아요.
2단계: 실전처럼 배우기 (Reinforcement Learning for Adaptive Tool Usage):
- 기본기를 익힌 AI는 이제 스스로 문제를 해결하면서 도구 사용법을 더 깊이 있게 배워요 (Group-wise Proximal Policy Optimization, GRPO라는 학습 방법 사용).
- AI는 여러 가지 방법으로 도구들을 사용해보고 (candidate action trajectories ), 그 결과()가 문제 해결에 얼마나 도움이 되었는지 점수(reward , 정답이면 +1점, 틀리면 -1점)를 받아요.
- 이런 과정을 반복하면서, AI는 어떤 상황에서 어떤 visual tool을 어떤 순서로 사용하는 것이 가장 좋은지 (adaptive policy) 스스로 깨닫게 돼요. 마치 어려운 게임을 여러 번 해보면서 자신만의 공략법을 터득하는 것과 비슷하죠.

결국 OPENTHINKIMG는 AI가 단순히 그림을 보는 것을 넘어, 다양한 visual tools를 활용해 복잡한 visual 문제를 효과적으로 해결하고 "생각"할 수 있도록 지원하는 체계적인 환경과 학습 방법을 제공하는 것이랍니다.

3 Vision Trajectory Construction

OPENTHINKIMG architecture가 구축됨에 따라, 효과적인 tool-using agents를 training하려면 high-quality tool-use trajectories가 필요합니다. 이 섹션에서는 vision tools를 사용하여 복잡한 reasoning problems를 해결하기 위한 trajectory data를 batch-generate하는 새로운 방법을 제안합니다. Dataset construction algorithm은 Algorithm 1에 제시되어 있습니다. 그 process는 아래 세 단계로 공식적으로 설명됩니다:

3.1 Action Trajectory Planning

각 example (, )에 대해, GPT-4o의 few-shot task decomposition capabilities를 활용하여 초기 action plan을 생성합니다: . 여기서 각 는 미리 정의된 vision tools 중에서 선택됩니다. 이 단계에서 model은 어떠한 operations도 실행하지 않고 symbolic reasoning process를 수행하여 필요한 단계를 결정합니다. 이는 problem context와 task requirements에 대한 internal understanding을 기반으로 필요한 actions를 효과적으로 식별하고 schedules합니다. Quality와 coherence를 모두 보장하기 위해, model의 generation process를 안내하기 위한 다섯 가지 demonstration examples를 세심하게 설계했습니다. 또한, exploration을 장려하고 필수 단계가 없거나 지원되지 않는 actions를 포함하는 모든 plans를 거부하기 위해 적당한 temperature ()로 sample합니다. Tool-use trajectory 생성을 위한 prompt는 Figure 5에 나와 있습니다.

3.2 Rationale Parsing and Tool Call Completion

Symbolic plan 가 주어지면, tool server를 통해 해당 vision tools를 batch invoke하여 rollout outputs를 얻습니다: . 각 tool's response를 parse하기 위해 JSON schema와 json.loads를 사용하며, 를 와 자동으로 aligning합니다. Efficiency를 향상시키기 위해, outputs는 cached되고 최대 크기의 parallel batches로 processed됩니다. 이 단계의 final output은 각 planned action이 해당 tool result와 쌍을 이루는 완전한 reasoning chain입니다: 이 단계는 rationale completion에만 초점을 맞추고 data filtering은 다음 섹션에서 다룬다는 점에 유의해야 합니다.

3.3 Filtering and Rule-Based Validation

Trajectory quality를 보장하기 위해 multi-stage filtering procedure를 적용합니다. 첫째, malformed JSON 또는 missing outputs를 포함하는 모든 는 폐기됩니다. 다음으로, QWEN2-VL-72B를 rule-based checks (예: bounding-box consistency, mask coverage, OCR accuracy)와 함께 사용하여 final answer와 intermediate rationale을 모두 평가합니다. 그런 다음 logical consistency checks를 적용하고 통과하지 못하는 모든 trajectory를 폐기합니다. 또한, filtered data의 accuracy를 추가로 확인하기 위해 human evaluation이 통합됩니다. Automated rule-based filtering과 manual verification을 결합함으로써, 우리의 접근 방식은 high-quality reasoning paths만이 training에 사용되도록 보장하여 Cold-Start 및 V-ToolRL을 위한 견고한 기반을 제공합니다.

정리노트 (AI 연구자용)

3. Vision Trajectory Construction 핵심 요약

Objective: Vision tools를 사용하여 복잡한 reasoning problems를 해결하기 위한 high-quality tool-use trajectories ()를 batch-generate하는 novel method 제안 (OPENTHINKIMG architecture 기반, Algorithm 1). 이는 effective tool-using agents training에 필수적임.
Process (3단계):
1. 3.1 Action Trajectory Planning:
  - Core: GPT-4o의 few-shot task decomposition capabilities를 활용하여 초기 symbolic action plan 생성. 각 는 predefined vision tools에서 선택.
  - Details:
    - 실제 operation 실행 없이 symbolic reasoning process로 필요한 actions 및 순서 결정.
    - Quality와 coherence를 위해 5개의 demonstration examples로 model의 generation process 가이드.
    - Moderate temperature () sampling으로 exploration 장려.
    - 필수 단계 누락 또는 미지원 actions 포함 plan은 reject.
  - Output: 실행될 tool actions의 순서 (plan).
2. 3.2 Rationale Parsing and Tool Call Completion:
  - Core: Symbolic plan 에 따라 vision tools를 실제로 batch invoke하고, action과 그 output을 연결하여 완전한 reasoning chain 구성.
  - Details:
    - Tool server를 통해 tools 실행, rollout outputs 획득.
    - JSON schema 및 json.loads를 사용해 tool's response를 parse하고 를 와 자동 align.
    - Efficiency 향상을 위해 outputs는 cached, 최대 크기의 parallel batches로 processed.
  - Output: 각 planned action과 해당 tool result가 쌍을 이룬 complete reasoning chain . (이 단계는 completion에 집중, filtering은 다음 단계).
3. 3.3 Filtering and Rule-Based Validation:
  - Core: 생성된 trajectory 의 quality를 보장하기 위한 multi-stage filtering procedure.
  - Details:
    - 1단계: Malformed JSON 또는 missing outputs 포함 trajectory 폐기.
    - 2단계: QWEN2-VL-72B model 및 rule-based checks (e.g., bounding-box consistency, mask coverage, OCR accuracy)를 사용하여 final answer 및 intermediate rationale 평가.
    - 3단계: Logical consistency checks 적용 및 미통과 trajectory 폐기.
    - 4단계: Human evaluation을 통합하여 filtered data의 accuracy 추가 검증.
  - Outcome: Automated filtering, LVLM 기반 평가, manual verification을 결합하여 오직 high-quality reasoning paths만이 training (Cold-Start 및 V-ToolRL)에 사용되도록 보장, 견고한 학습 기반 마련.

쉬운 설명 :

3. Vision Trajectory Construction 쉽게 이해하기

AI가 visual tools (그림을 다루는 도구들)를 사용해서 복잡한 문제를 푸는 방법을 배우려면, 아주 좋은 "학습자료"가 필요해요. 이 학습자료는 AI가 어떤 순서로 도구를 사용했고, 그 결과가 어땠는지를 보여주는 "경험담" 또는 "실행 기록" (tool-use trajectories) 같은 거예요. 이 섹션에서는 이런 고품질 학습자료를 어떻게 많이 만드는지 그 방법을 설명하고 있어요.

총 3단계로 만들어져요:

1단계: AI가 먼저 계획을 세워요 (Action Trajectory Planning)

AI (여기서는 GPT-4o라는 똑똑한 AI)에게 "이런 그림 문제(example)가 있는데, 어떤 visual tools를 어떤 순서로 쓰면 풀 수 있을까?" 하고 물어보는 거예요.
그러면 GPT-4o가 "음, 첫 번째로는 A 도구를 쓰고, 다음엔 B 도구, 그 다음엔 C 도구를 써야겠다!" 하고 계획()만 짜줘요. 이때 실제로 도구를 사용하는 건 아니고, 머릿속으로만 생각해서 순서를 정하는 거죠 (symbolic reasoning).
AI가 더 좋은 계획을 세울 수 있도록 몇 가지 모범 답안(demonstration examples)을 보여주고, 너무 똑같은 계획만 세우지 않도록 약간의 창의성(temperature )을 발휘하게 해요.

2단계: 계획대로 도구를 사용해보고 결과를 기록해요 (Rationale Parsing and Tool Call Completion)

이제 GPT-4o가 세운 계획()대로 실제로 visual tools를 하나씩 사용해 봐요. 예를 들어 "그림에서 글자 찾기" 도구를 사용하면, 도구가 그림에서 글자를 찾아서 알려주겠죠? 이게 바로 도구의 결과(rollout outputs )예요.
이렇게 각 계획 단계마다 "어떤 도구를 사용했더니(action ) 이런 결과가 나왔다(output )"는 것을 짝지어서 하나의 완전한 "문제 해결 이야기"()로 만들어요.
이 작업은 효율적으로 한꺼번에 많이 처리해요 (batch invoke, parallel batches ).

3단계: 만들어진 "문제 해결 이야기"가 좋은지 꼼꼼히 검토해요 (Filtering and Rule-Based Validation)

모든 "문제 해결 이야기"()가 다 좋지는 않을 수 있어요. 그래서 여러 단계에 걸쳐 엄격하게 품질 검사를 해요.
- 일단, 이야기가 중간에 끊기거나 형식이 이상하면(malformed JSON, missing outputs) 바로 탈락시켜요.
- 그다음엔, 또 다른 똑똑한 AI (QWEN2-VL-72B)와 미리 정해둔 규칙(rule-based checks, 예를 들어 '글자 찾기' 도구가 정말 글자를 잘 찾았는지)을 이용해서 이야기의 중간 과정과 최종 답이 논리적이고 정확한지 확인해요.
- 마지막으로, 사람이 직접 (human evaluation) 일부 이야기들을 다시 한번 보면서 정말 괜찮은지 최종 확인을 해요.
이렇게 깐깐한 검사를 통과한 아주 좋은 "문제 해결 이야기"들만 골라서, AI가 visual tools 사용법을 배우는 데 (Cold-Start 및 V-ToolRL) 사용해요. 그래야 AI가 똑똑하게 학습할 수 있겠죠?

주인장 이해.

답변을 생성하다가, 필요한 action을 수행하고 그 결과를 다시 input으로 넣어줘서 이어서 생성하게 끔 함. 최종 결과를 위한 action도 따로 있음.

이 과정은 끊으면서 진행. GRPO로 학습할때도 한번에 다 맞추는게 아니라. 액션을 수행한다고 했으면 결과를 받아오고 다시 inference를 진행해야하기에 하나의 트래젝토리에서 끊어서 결과를 보고 그걸 가지고 합산해서 loss에 반영.

여러개의 트래젝토리를 생성하다보니 트래젝토리내의 액션의 리워드는 같을 수 있지만, 그룹으로 하다보니 차이점을 나타낼 수 있다.