LLM : 논문리뷰 : Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

AI바라기의 인공지능

LLM : 논문리뷰 : Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search 본문

논문리뷰

LLM : 논문리뷰 : Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

AI바라기 2025. 2. 6. 13:04

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search - 학습 노트 (한국어 버전)

Purpose of the Paper

문제점: 기존의 Multimodal Large Language Models (MLLMs)는 "direct prediction" 방식에 의존하여, 명시적인 중간 추론 단계 없이 복잡한 문제를 해결하는 데 어려움을 겪습니다.
목표: 사람처럼 문제 해결 과정을 단계별로 생성하는 법을 배우는 MLLM을 개발하여, 궁극적으로 이해력과 문제 해결 능력을 향상시키는 것입니다.
접근 방식: 여러 모델의 집단 지성을 활용하여 효과적인 추론 경로 탐색 및 학습을 가능하게 하는 새로운 learning-to-reason 방법인 Collective Monte Carlo Tree Search (CoMCTS)를 도입합니다.

Key Contributions

CoMCTS: MLLMs를 위한 새로운 learning-to-reason 방법.
- "collective learning"을 "tree search"에 통합하여 효율적인 추론 경로 탐색을 지원.
- 여러 MLLMs를 사용하여 협력적으로 추론 경로를 추측, 검색 및 식별.
- 네 가지 반복적인 작업: Expansion, Simulation and Error Positioning, Backpropagation, and Selection.
Mulberry-260k: 새로운 multimodal dataset.
- 각 질문에 대한 풍부하고 명시적이며 잘 정의된 추론 노드 트리를 포함.
- MLLMs의 단계별 추론 및 reflection 학습 촉진.
Mulberry: 일련의 MLLMs.
- Mulberry-260k에서 collective SFT로 training.
- o1-like 단계별 추론 및 reflection 능력을 보여줌.
Novelty: MLLM을 위해 MCTS와 collective learning을 결합한 최초의 연구라고 제시됨

Experimental Highlights

Datasets: Mulberry-260k (constructed), MathVista, MMStar, MMMU, ChartQA, DynaMath, HallBench, MM-Math, MME.
Metrics: Search Success Rate, Average Search Iteration, Accuracy.
Baselines: GPT-4o (direct pred), MCTS, ReST-MCTS, Omega-MCTS, 다양한 open-source 및 closed-source MLLMs, 그리고 reasoning-based MLLMs.
결과:
- CoMCTS는 search effectiveness와 efficiency에서 다른 tree search 방법들보다 훨씬 뛰어난 성능을 보입니다 (Figure 1a).
- CoMCTS로 찾은 데이터로 training된 Mulberry는 대부분의 open-sourced MLLMs보다 성능이 뛰어나고, closed-source 모델들과 비교해도 경쟁력 있는 결과를 달성했습니다 (Figure 1b, Table 1).
- Baselines (Qwen2-VL-7B, LLaMA-3.2-11B-Vision-Instruct) 대비 뚜렷한 성능 향상은 CoMCTS의 search effectiveness를 입증합니다.
- 다른 모델들 (Qwen2-VL-2B, LLaVA-NeXT-8B)에서의 상당한 성능 향상은 CoMCTS로 찾은 데이터의 generalization을 보여줍니다.
- Reasoning-intensive benchmarks에서 LLaVA-Reasoner-8B, Insight-V-8B, LLaVA-COT-11B와 같은 reasoning-response 모델들보다 우수한 성능을 보입니다.

Limitations and Future Work

Limitations: 논문에서 명시적으로 언급되지는 않았지만, tree search 방법의 계산 비용이 암시적으로 한계점으로 작용할 수 있습니다.
Future Work: Discussion 섹션과 Conclusion에서는 MLLMs를 위한 collective learning 및 tree search 방법에 대한 추가 연구와 Mulberry-260k와 같은 datasets의 지속적인 개발을 제안합니다. 구체적인 다음 단계는 제시되지 않았습니다.

Overall Summary

이 논문은 collective learning과 Monte Carlo Tree Search를 결합한 MLLM reasoning에 대한 새로운 접근 방식인 CoMCTS를 소개합니다. 이 방법은 새로운 Mulberry-260k dataset 및 Mulberry 모델 시리즈와 함께, 기존 MLLMs에 비해 단계별 추론 및 reflection 능력이 크게 향상되었음을 보여줍니다. 이 연구는 명시적인 중간 추론 단계를 생성하고 학습함으로써 복잡한 문제를 진정으로 "이해"하고 해결할 수 있는 MLLMs를 개발하는 데 중요한 진전을 나타냅니다.

쉬운 설명

이 논문은 MLLM이 복잡한 문제를 풀 때, 마치 사람이 단계별로 생각하는 것처럼 중간 과정을 만들고 학습하도록 하는 새로운 방법(CoMCTS)을 제시합니다. 여러 MLLM이 협력하여 최적의 "사고 경로"를 찾고, 이를 통해 만들어진 풍부한 데이터(Mulberry-260k)로 학습된 Mulberry 모델은 기존 모델보다 더 정확하고 깊이 있게 추론할 수 있습니다. 마치 여러 명의 전문가가 머리를 맞대고 최선의 해결책을 찾아가는 과정과 유사하다고 볼 수 있습니다.

Abstract

이 연구에서, 우리는 최종 답변까지 관련된 reasoning의 각 중간 단계를 생성하는 법을 학습함으로써 질문을 이해하고 해결하는 MLLM을 개발하는 것을 목표로 합니다. 이를 위해, 우리는 MLLMs를 위한 새로운 learning-to-reason 방법인 CoMCTS (Collective Monte Carlo Tree Search)를 제안합니다. 이는 효과적이고 효율적인 reasoning-path 탐색 및 학습을 위해 "tree search"에 collective learning의 개념을 도입합니다. CoMCTS의 핵심 idea는 여러 models에서 collective knowledge를 활용하여 Expansion, Simulation 및 Error Positioning, Backpropagation, Selection을 포함한 네 가지 반복 작업을 통해 정답을 향한 효과적인 reasoning paths를 공동으로 추측, 검색 및 식별하는 것입니다. CoMCTS를 사용하여, 우리는 각 질문에 대해 풍부하고 명시적이며 잘 정의된 reasoning nodes의 tree를 가진 multimodal dataset인 Mulberry-260k를 구축합니다. Mulberry-260k를 사용하여, 우리는 collective SFT를 수행하여 o1과 유사한 단계별 Reasoning 및 Reflection 기능을 갖춘 MLLMs 시리즈인 Mulberry model을 train 합니다. 광범위한 실험을 통해 다양한 benchmarks에서 제안된 방법의 우수성을 입증합니다.

1. Introduction

"내가 만들 수 없는 것은 이해할 수 없다."

Richard Feynman

MLLMs (Multimodal large language models)는 이미지와 텍스트와 같은 multimodal inputs에 대한 예상되는 응답을 생성하는 법을 학습함으로써 세상을 이해하는 이 격언의 본질을 구현합니다. MLLMs는 최근 (Liu et al., 2024; Wang et al., 2024b)와 같이 비교적 간단한 tasks에서 상당한 진전을 보였지만, 심층적인 reasoning을 요구하는 복잡한 tasks에서는 실패율이 눈에 띄게 증가하는 경우가 많습니다 (Zhang et al., 2024d). Feynman의 격언은 이러한 MLLMs의 실패에 대한 완벽한 비유가 될 수 있습니다. 왜냐하면 우리는 관련된 reasoning의 각 단계를 만들고 확실하게 이해할 수 있어야만 무언가를 해결할 수 있기 때문입니다. 그러나 현재 MLLMs는 주로 단순한 "direct prediction" 모드(Xu et al., 2024)로 작동합니다. 즉, 명시적이고 잘 정의된 중간 reasoning 단계가 거의 없이 질문에 대한 간략한 최종 답변을 생성합니다.

이 연구에서, 우리는 최종 답변까지 관련된 reasoning의 각 중간 단계를 생성하는 법을 학습함으로써 질문을 이해하고 해결하는 MLLM을 개발하는 것을 목표로 합니다. 최근 OpenAI o1 (OpenAI, 2024)과 같은 NLP의 발전은 LLM이 reasoning을 학습하고 복잡한 language tasks를 해결할 수 있는 큰 잠재력을 보여주었습니다(Xie et al., 2024). 이러한 발전의 핵심 디자인은 AlphaGo와 같은 "tree search"에 있습니다. MCTS (Coulom, 2006)와 같은 tree search 방법을 사용하여 LLM 자체를 bootstrap하여 중간 thoughts의 tree를 구축하고, 효과적인 reasoning paths를 탐색하며, 이러한 paths를 활용하여 model이 단계별로 reason하도록 가르칩니다.

직관적인 idea는 이러한 "tree search" 방법을 직접 적용하여 MLLMs에 대한 효과적인 reasoning paths를 탐색하는 것이지만, 이는 잘 작동하지 않습니다. 그림 1에서 설명된 것처럼, 이는 MLLMs에 대한 몇 가지 관찰된 검색 문제에 크게 기인한다고 생각합니다. (1) Search Effectiveness: 전통적인 MCTS 방법은 일반적으로 self-bootstrapping으로 작동하는 반면, 현재 MLLMs는 일반적으로 명시적이고 잘 정의된 중간 reasoning 단계가 거의 없이 trained되므로, 이러한 search 방법은 종종 단일 MLLM의 reasoning 공간 내에서 동질적인 낮은 품질의 nodes에 갇히게 되어 궁극적으로 낮은 search 성공률로 이어집니다. (2) Search Efficiency: 전통적인 MCTS 방법은 일반적으로 search 반복 당 하나의 후속 reasoning node만 확장하고 탐색하며, 이는 매번 한 단계씩 진행하고 대규모 반복을 요구하므로 계산 집약적인 MLLMs에는 비효율적입니다.

이러한 문제를 해결하기 위해, 우리는 MLLMs를 위한 새로운 learning-to-reason 방법인 CoMCTS (Collective Monte Carlo Tree Search)를 제안합니다. 이는 효과적이고 효율적인 reasoning-path 탐색 및 학습을 위해 "tree search"에 collective learning의 개념을 도입합니다. CoMCTS의 핵심 idea는 collective knowledge를 활용하여 정답을 향한 효과적인 reasoning paths를 공동으로 추측, 검색 및 식별하는 것입니다. 구체적으로, CoMCTS는 효과적인 reasoning paths를 반복적으로 검색하고, 각 반복에서 여러 MLLMs의 collective knowledge를 활용하여 공동으로 (a) 주어진 시작 node에서 끝까지 다양하고 상호 보완적인 후보 후속 reasoning nodes를 expand하고, (b) reasoning 결과를 simulate하고, error 후보 nodes를 position하고, child nodes와 함께 prune하고, (c) bottom-up 방식으로 각 reasoning node의 점수와 방문 횟수를 update하기 위해 backpropagate하고, (d) 가장 높은 Upper Confidence Bound 값을 가진 leaf reasoning node를 다음 시작 node로 select합니다.

이러한 방식으로, 우리의 CoMCTS는 효과적이고 효율적인 reasoning search를 달성합니다. (1) joint expansion 메커니즘을 통해 CoMCTS는 반복적인 search를 통해 여러 MLLMs의 reasoning trajectories를 연결하여 궁극적으로 다양하고 상호 보완적인 reasoning nodes로 구성된 통합 reasoning tree를 구성할 수 있습니다. 따라서 주어진 MLLM 자체의 reasoning 공간 내에서뿐만 아니라 다른 MLLMs의 reasoning 공간 간에도 reasoning-path search가 가능하여 여러 MLLMs의 시너지 효과를 활용하는 동시에 단일 MLLM 자체의 reasoning 공간 내에서 동질적인 낮은 품질의 nodes에 갇히는 것을 방지합니다. (2) joint simulation 및 error positioning 메커니즘을 통해 CoMCTS는 각 search 반복에서 여러 중간 단계를 건너뛰고 마지막 올바른 단계를 다음 시작 node로 select하여 search 효율성을 유지하면서 search 시간을 크게 줄일 수 있습니다. 여기서 collective knowledge는 model 자체에서 만든 errors를 인식하고 position하는 것은 어려운 반면 다른 models를 사용하면 상대적으로 쉽기 때문에 중요합니다.

또한, 우리는 reflective reasoning-path search를 위해 CoMCTS를 확장합니다. CoMCTS에 의해 구축된 통합 reasoning tree(긍정적 및 부정적 reasoning nodes를 모두 제공)를 기반으로, 우리는 부정적인 sibling nodes를 식별하고 효과적인 reasoning paths에 통합하여 부정적인 reasoning node에서 긍정적인 reasoning node로의 전환을 포함하는 reflective reasoning path를 구축합니다. reflective reasoning paths에서 학습함으로써, MLLMs는 적절한 단계별 reflection을 수행하여 긴 chain reasoning 동안 잘못된 node에서 올바른 node로 reasoning trajectory를 동적으로 보정할 수 있습니다. 여기서 collective knowledge는 다양한 긍정적 및 부정적 reasoning nodes의 풍부한 집합을 제공하여 reflective reasoning-path search를 용이하게 합니다.

CoMCTS를 사용하여, 우리는 multimodal inputs 집합에 대한 효과적이고 reflective한 reasoning paths를 검색하고, 각 질문에 대해 풍부하고 명시적이며 잘 정의된 reasoning nodes의 tree를 가진 Mulberry-260k, a Multimodal learning-to-Reasonand-Reflect dataset를 구축합니다. Mulberry-260k를 사용하여 collective supervised fine-tuning을 수행하여 o1과 유사한 단계별 Reasoning 및 Reflection 기능을 갖춘 Multimodal LLMs 시리즈인 Mulberry model을 train합니다.

이 연구의 주요 contributions는 네 가지입니다. 첫째, MCTS에 collective learning의 개념을 도입하고, collective knowledge를 활용하여 MLLMs에 대한 효과적이고 reflective한 reasoning paths를 공동으로 추측, 검색 및 식별하는 CoMCTS를 제안하여 search effectiveness와 efficiency에서 큰 우월성을 보여줍니다. 우리가 아는 한, 이것은 MLLMs를 위한 MCTS와 collective learning을 탐구하는 첫 번째 연구입니다. 둘째, 우리는 MLLMs에서 단계별 reasoning 및 reflection 연구를 발전시키는 데 귀중한 resource를 제공하는 Mulberry-260k를 구축합니다. 셋째, 우리는 단계별 reasoning 및 reflection에서 뛰어난 기능을 갖춘 MLLMs 시리즈인 Mulberry를 개발합니다. 넷째, 광범위한 experiments를 통해 다양한 benchmarks에서 제안된 방법의 우수성을 입증합니다.

Figure 1: (a) 우리의 CoMCTS는 다른 tree search 방법들에 비해 search effectiveness와 efficiency에서 큰 우월성을 보여줍니다. (b) CoMCTS-searched data로 trained된 우리의 Mulberry는 대부분의 open-sourced MLLMs를 능가하고 closed-source MLLMs에 비해 경쟁력 있는 결과를 달성하여 단계별 reasoning 및 reflection에서 뛰어난 능력을 보여줍니다.

Introduction 정리 노트 (AI 연구자 대상)

핵심 문제 제기:

기존 MLLMs는 복잡한 reasoning tasks에서 어려움을 겪음. "direct prediction" 방식 (간단한 답변 생성)에 의존하여, 명확한 중간 reasoning 단계가 부족함.
NLP 분야의 "tree search" (예: AlphaGo, OpenAI o1) 방법론을 MLLMs에 직접 적용하는 것은 효과적이지 않음:
- Search Effectiveness 문제: MLLMs는 명확한 중간 reasoning 단계 없이 trained되어, 단일 MLLM 내에서 동질적인 낮은 품질의 nodes에 갇히기 쉬움.
- Search Efficiency 문제: 기존 MCTS는 한 번에 한 단계씩만 진행하여 계산량이 많은 MLLMs에 비효율적임.

제안 해결책: CoMCTS (Collective Monte Carlo Tree Search)

"tree search"에 collective learning 개념 도입: 여러 MLLMs의 지식을 활용하여 효과적인 reasoning paths를 공동으로 찾고 식별.
CoMCTS의 4단계 반복 작업:
1. Expansion: 여러 MLLMs를 활용, 다양한 후보 reasoning nodes를 끝까지 확장.
2. Simulation & Error Positioning: reasoning 결과를 simulate, 오류 nodes를 찾아 제거 (자식 nodes 포함).
3. Backpropagation: bottom-up 방식으로 각 node의 점수 및 방문 횟수 update.
4. Selection: Upper Confidence Bound 값이 가장 높은 leaf node를 다음 시작 node로 선택.
CoMCTS의 장점:
- Search Effectiveness 향상: 여러 MLLMs의 reasoning trajectories를 연결, 다양하고 상호 보완적인 reasoning tree 구축. 단일 MLLM의 한계를 극복.
- Search Efficiency 향상: 각 반복에서 여러 단계를 건너뛰고 마지막 올바른 단계를 선택, search 시간을 단축. 다른 models를 활용해 error를 쉽게 파악.
Reflective Reasoning: CoMCTS를 확장, 긍정/부정 reasoning nodes를 모두 활용하여 "reflective reasoning path" 구축. MLLMs가 오류 node에서 올바른 node로 동적 보정 가능.

데이터셋 및 모델:

Mulberry-260k: CoMCTS를 사용하여 구축한 multimodal dataset. 각 질문에 대해 풍부하고 명확한 reasoning nodes의 tree를 포함.
Mulberry: Mulberry-260k로 trained된 MLLMs 시리즈. o1과 유사한 단계별 Reasoning 및 Reflection 능력 보유.

주요 Contributions:

MCTS에 collective learning 최초 도입, MLLMs를 위한 CoMCTS 제안.
MLLMs의 단계별 reasoning 및 reflection 연구를 위한 Mulberry-260k dataset 구축.
단계별 reasoning 및 reflection 능력이 뛰어난 Mulberry MLLMs 개발.
다양한 benchmarks에서 CoMCTS 및 Mulberry의 우수성 입증.

쉬운 설명:

기존의 MLLM (Multimodal Large Language Model, 이미자와 텍스트를 모두 다루는 AI 모델)은 복잡한 문제를 풀 때, 마치 벼락치기 공부하듯이 답만 외워서 풀려고 하는 경향이 있었습니다. 이 논문에서는 이러한 문제를 해결하기 위해, 여러 명의 똑똑한 AI 모델들이 함께 머리를 맞대고 문제를 해결하는 새로운 방법(CoMCTS)을 제안합니다.

CoMCTS는 마치 여러 명의 학생들이 모여서 어려운 문제를 풀 때처럼 작동합니다. 각 학생(AI 모델)은 자신만의 방식으로 문제를 해결하려고 시도하고(Expansion), 서로의 풀이 과정을 검토하면서 틀린 부분을 찾아내고(Simulation & Error Positioning), 서로에게 배우면서(Backpropagation) 가장 좋은 풀이 방법을 선택(Selection)합니다. 이렇게 하면 혼자 문제를 풀 때보다 더 다양하고 좋은 풀이 방법들을 찾을 수 있고, 틀린 부분도 더 쉽게 발견할 수 있습니다.

또한, 이 논문에서는 CoMCTS를 통해 찾은 좋은 풀이 방법들을 모아서 Mulberry-260k라는 새로운 데이터셋을 만들었습니다. 그리고 이 데이터셋을 사용하여 Mulberry라는 똑똑한 MLLM을 학습시켰습니다. Mulberry는 마치 족집게 과외 선생님처럼, 문제를 해결하는 과정을 단계별로 자세하게 설명해주고, 틀린 부분이 있으면 스스로 고칠 수도 있습니다.

결론적으로, 이 논문은 여러 AI 모델들이 협력하여 문제를 해결하는 새로운 방법을 제시하고, 이를 통해 더 똑똑하고 설명 가능한 MLLM을 만들 수 있다는 것을 보여줍니다.

2. Related Works

2.1. Multimodal Large Language Model

MLLMs (Multimodal Large Language Models)는 일반적인 vision-language understanding에서 주목할 만한 발전을 이루었으며, 이를 통해 다양한 domains에서 visual semantics를 해석할 수 있습니다. 최근 연구들은 MLLM reasoning을 탐구하고 CoT prompt를 직접 사용하여 최종 답변을 도출하는 것이 제한적인 이득 또는 성능 저하를 초래할 수 있음을 보여줍니다. 또한, 일부 연구에서는 plan-based CoT prompting을 도입하여 models가 최종 답변 예측을 위한 중간 정보를 생성하도록 유도합니다. 최근의 발전은 MLLMs의 CoT capabilities를 향상시키는 특정 predefined stages의 planed flow를 사용하여 structured reasoning을 시도합니다. 이와는 다르게, 이 논문은 처음으로 "tree search"의 개념을 MLLM reasoning에 도입하고, 효과적이고 reflective한 reasoning paths를 검색하여 단계별 reasoning 및 reflection에서 뛰어난 능력을 가진 MLLMs 시리즈인 Mulberry를 train하는 새로운 CoMCTS 기술을 제안합니다.

2.2. Large Language Model Reasoning

LLM reasoning 방법은 크게 prompt-based, plan-based, learning-based의 세 가지 유형으로 분류할 수 있습니다. Chain-of-Thought (CoT)와 같은 prompt-based 방법은 사람이 만든 몇 가지 단계별 솔루션을 참조로 제공하여 인간의 reasoning을 모방합니다. Tree/Graph-of-thought와 같은 plan-based 방법은 tree 또는 graph 방식으로 여러 reasoning paths를 예측하고 신중한 의사 결정을 위해 일관된 thought 단위를 사용합니다. GPTo1, Star, Iter-MCTS, ReST-MCTS로 대표되는 learning-based reasoning 방법은 먼저 MCTS와 같은 tree search 접근 방식을 사용하여 LLM 자체를 bootstrap하여 중간 thoughts의 tree를 구축하고, 효과적인 reasoning paths를 탐색하고, 이러한 paths를 활용하여 model이 단계별로 reason하도록 train합니다.

2.3. Monte-Carlo Tree Search

Monte-Carlo Tree Search (MCTS)는 복잡한 의사 결정 문제를 위한 강력한 search paradigm이며 게임, robotics, theorem proving, matrices multiplication 등 다양한 분야에서 광범위하게 탐구되었습니다. 예를 들어, AlphaGo는 MCTS에 deep learning을 도입하여 보드 및 비디오 게임에서 초인적인 성능을 달성했습니다. 또한, path finding 및 train timetabling 문제를 위해 MCTS를 탐구하는 반면, robot control을 위해 MCTS를 physics-informed planning networks에 통합합니다. 이 연구에서 우리는 MLLMs에서 효과적이고 reflective한 reasoning-path searching 및 learning을 가능하게 하는 CoMCTS를 제안합니다.

2.4. Collective Learning

Co-training이라고도 하는 Collective learning은 여러 개인의 collective intelligence를 활용하여 학습 결과를 향상시키는 것을 목표로 합니다. 이 개념은 classification learning에서 데이터 부족 문제를 해결하기 위해 collective knowledge를 활용하는 초기 선구적인 연구에서 비롯되었습니다. 최근의 발전은 효율적이고 효과적인 deep learning을 위해 collective learning을 deep neural networks에 도입합니다. 예를 들어, 여러 classifiers의 collective knowledge를 사용하여 semi-supervised classification을 위한 더 정확한 pseudo-labels를 예측합니다. 여러 discriminators의 collective knowledge를 활용하여 image discrimination 및 generation을 향상시키고, 여러 models의 시너지 효과를 활용하여 reinforcement learning을 수행합니다.

2. Related Works 정리 노트 (AI 연구자 대상)

핵심 차별점: 기존 연구들은 MLLM/LLM reasoning을 개선하기 위해 다양한 방법을 시도했지만, 이 논문은 최초로 "tree search"와 "collective learning"을 MLLM reasoning에 결합하여 CoMCTS라는 새로운 방법론을 제시함.

구체적인 내용:

2.1. Multimodal Large Language Model:
- 기존 MLLMs는 일반적인 vision-language understanding에서는 발전했지만, reasoning 능력은 여전히 부족.
- CoT prompting 등 기존 방법들은 제한적인 효과를 보이거나 오히려 성능을 저하시키기도 함.
- Plan-based CoT prompting 등 일부 연구는 중간 정보를 생성하도록 유도하지만, 여전히 한계 존재.
- 본 논문: "tree search"를 MLLM reasoning에 도입, CoMCTS를 통해 효과적인 reasoning path 탐색 및 학습.
2.2. Large Language Model Reasoning:
- LLM reasoning 방법은 크게 prompt-based, plan-based, learning-based로 분류.
- Prompt-based (예: CoT)는 사람이 만든 예시를 제공.
- Plan-based (예: Tree/Graph-of-thought)는 tree/graph 형태로 여러 경로를 예측.
- Learning-based (예: GPTo1, Star, Iter-MCTS, ReST-MCTS)는 MCTS 등을 사용, LLM 자체를 bootstrap하여 reasoning tree 구축.
- 본 논문: 기존 learning-based 방법론의 한계 (단일 모델, 탐색 효율성)를 "collective learning"을 통해 극복.
2.3. Monte-Carlo Tree Search:
- MCTS는 게임, 로봇 공학 등 다양한 분야에서 활용되는 강력한 search paradigm.
- AlphaGo는 MCTS에 deep learning을 결합, 게임 분야에서 큰 성공.
- 본 논문: MCTS의 장점을 MLLM reasoning에 적용, CoMCTS를 통해 효과적인 path searching & learning.
2.4. Collective Learning:
- Collective learning (Co-training)은 여러 개체의 지식을 활용, 학습 효과를 높이는 방법.
- 데이터 부족 문제 해결, semi-supervised learning, image generation, reinforcement learning 등 다양한 분야에 적용.
- 본 논문: Collective learning을 MCTS와 결합, 여러 MLLMs의 협력을 통해 reasoning 능력 향상.

쉬운 설명:

이 섹션에서는 이 논문의 아이디어가 기존의 연구들과 어떻게 다른지를 설명합니다.

기존 연구들:
- 이미지와 텍스트를 함께 이해하는 AI 모델(MLLM)은 많이 발전했지만, 복잡한 문제를 추론하는 능력은 부족했습니다.
- 기존의 방법들은 AI에게 문제를 푸는 힌트를 주거나(prompt-based), 여러 가지 풀이 방법을 생각해보게 하는(plan-based) 방식이었지만, 큰 효과를 보지 못했습니다.
- 바둑 AI 알파고처럼, 스스로 학습하면서 문제를 푸는 방법(learning-based)도 있었지만, 한 명의 AI가 혼자 공부하는 방식이라 한계가 있었습니다.
이 논문의 새로운 점:
- 이 논문에서는 처음으로 "나무 탐색"(tree search)과 "집단 학습"(collective learning)이라는 두 가지 방법을 합쳐서 MLLM의 추론 능력을 향상시키는 새로운 방법(CoMCTS)을 제안합니다.
  - 나무 탐색: 문제를 해결하는 과정을 여러 단계로 나누어, 마치 나무처럼 가지를 뻗어나가면서 가장 좋은 해결 방법을 찾는 방식입니다. (알파고가 사용한 방법)
  - 집단 학습: 여러 명의 AI가 함께 머리를 맞대고 문제를 해결하면서 서로 배우는 방식입니다.
- CoMCTS는 여러 AI 모델들이 협력하여 문제를 해결하기 때문에, 혼자 문제를 풀 때보다 더 다양하고 좋은 풀이 방법들을 찾을 수 있고, 틀린 부분도 더 쉽게 발견할 수 있습니다.

결론적으로, 이 논문은 기존 연구들의 한계를 극복하고, MLLM의 추론 능력을 한 단계 더 발전시키는 새로운 방법을 제시했다는 점에서 중요한 의미를 가집니다.

3. Methodology

먼저 효과적이고 효율적인 reasoning-path searching 및 learning을 위해 "tree search"에 collective learning의 개념을 도입하는 CoMCTS를 제시합니다. 그런 다음 reflective reasoning-path search를 위한 CoMCTS의 확장을 설명하고 CoMCTS를 사용한 data construction (예 : Mulberry260k) 및 model training (예 : Mulberry)을 설명합니다. 자세한 내용은 다음 하위 섹션에서 설명합니다.

3.1. CoMCTS for effective reasoning

CoMCTS의 핵심 아이디어는 collective knowledge를 활용하여 반복적인 방식으로 효과적인 reasoning nodes를 공동으로 추측, 검색 및 식별하여 정답으로 이어지는 효과적인 reasoning paths를 찾는 것입니다.

policy model을 π로 나타내며, 이는 pre-trained MLLM으로 초기화됩니다. 우리는 MLLMs 그룹 {π1, π2, ..., πK}의 collective knowledge를 활용하여 효과적인 reasoning paths를 공동으로 search하고 learn합니다. multimodal input question Q (예 : 이미지와 함께 텍스트 작업 지시, Q = {text, image})가 주어지면 각 model π는 autoregressive next token prediction을 통해 최종 답변을 향한 일련의 중간 reasoning states (s1, s2, s3, ..., sM) ∼ πθ(·|Q)를 생성할 수 있습니다. 단계 m에서의 중간 reasoning state를 sm으로 정의하고 단계 m에서 model πk에 의해 생성된 state를 s k m으로 정의합니다. 각 reasoning 단계는 여러 단어 토큰을 포함하는 하나 또는 몇 개의 문장으로 구성됩니다.

CoMCTS 알고리즘은 루트 노드, 즉 응답의 시작 또는 불완전한 응답에서 시작하여 일정 횟수의 반복을 통해 reasoning-path search를 수행하며, 각 반복은 아래에 설명된 대로 (a) Expansion, (b) Simulation and Error Positioning, (c) Backpropagation, (d) Selection의 네 가지 주요 작업으로 구성됩니다.

(a) Expansion. CoMCTS에서 이 작업의 목표는 현재 리프 reasoning node (terminal node가 아닌 경우)를 확장하여 새로운 후속 후보 reasoning nodes를 통합하는 것입니다. 현재 리프 노드 s k m (즉, Operation (d) Selection에서 선택된 노드 또는 루트 노드)이 주어지면 CoMCTS는 MLLMs 그룹 {π1, π2, ..., πK}의 collective knowledge를 활용하여 terminal node까지 다양한 후보 reasoning paths 집합 Scandidate = ∪ K j=1S j candidate를 병렬로 공동 확장합니다.

S j candidate ∼ πj (·|Q, Parent(s k m), sk m), (1)

여기서 Parent(s k m)는 s k m의 모든 부모 노드를 반환하고 (Parent(s k m), sk m)는 루트 노드에서 s k m까지의 현재 reasoning path를 나타냅니다. S j candidate = {s j i }는 s k m에서 시작하여 모델 πj에 의해 생성된 잠재적 reasoning path를 나타냅니다.

(b) Simulation and Error Positioning. 이 작업에서 CoMCTS는 {π1, π2, ..., πK}의 collective knowledge를 활용하여 Operation (a)에서 추가된 자식 노드 s j i ∈ Scandidate의 잠재적 가치를 공동으로 추정하고, 낮은 점수 노드를 잘못된 reasoning nodes로 간주하고, 자식 노드와 함께 위치를 지정하고 필터링합니다.

R(s j i ) = 1/K * Σ K l=1 πl(·|prompteval, Q, Parent(s j i ), s j i ) (2)

S ∗ candidate = {s j i ∈ Scandidate|R(s j i ) >= t} (3)

여기서 R(s j i )는 prompt, prompteval을 사용하여 MLLMs 그룹 {π1, π2, ..., πK}에게 후보 reasoning node s j i 를 공동으로 평가하도록 요청하는 reasoning node evaluation function을 나타냅니다. t는 임계값이며 S ∗ candidate에서 중단된 reasoning nodes는 Eq.(3)의 error node 제거에 따라 자동으로 제거됩니다.

(c) Backpropagation. Operation (a)-(b)에서 collective knowledge를 사용하여 확장되고 simulation된 새로운 reasoning tree가 주어지면 CoMCTS는 리프 노드에서 루트 노드까지 bottom-up update를 수행합니다. reasoning tree에서 새로 확장된 경로를 따르는 각 노드 s는 방문 횟수 N과 노드 값 V를 포함한 통계를 update합니다.

V(s) ← (N(s) * V(s) + Σsl∈Child(s) R(sl)) / (N(s) + CountChild(S ∗ candidate, s)), (4)

N(s) ← N(s) + CountChild(S ∗ candidate, s), (5)

여기서 Child(s)는 s의 모든 자식 노드를 반환하고 CountChild(S ∗ candidate, s)는 S ∗ candidate에서 s의 자식 노드 수를 계산하는 자식 노드 계산 함수입니다.

(d) Selection. Operation (a), (b), (c)에 따라 CoMCTS는 update된 reasoning tree를 탐색하여 다음 시작 노드를 select합니다. 이 selection은 search exploration과 exploitation의 균형을 맞추는 Upper Confidence Bound (UCB) 값에 따라 안내됩니다. 노드 s의 UCB 값은 노드 보상 값 V(s)와 방문 횟수 N(s)를 사용하여 계산됩니다. 후보 노드 s ∈ S ∗ candidate 중에서 UCB 값이 가장 높은 노드가 다음 search 반복을 위한 시작 노드 s k ∗ m으로 선택됩니다.

s k ∗ m = arg max s∈S∗candidate V(s) + c * sqrt(log N(ˆs) / (1 + N(s))) (6)

여기서 c는 exploration 수준을 제어하는 상수입니다. sˆ는 s의 부모 노드를 나타냅니다.

CoMCTS. 이 네 가지 작업, 즉 (a) Expansion, (b) Simulation and Error Positioning, (c) Backpropagation, (d) Selection은 미리 정의된 반복 횟수 동안 또는 올바른 reasoning paths가 발견될 때까지 반복됩니다. 이 반복 프로세스를 통해 CoMCTS는 올바른 reasoning path Y를 사용하여 question-dependent reasoning tree S를 구성하고 궁극적으로 multimodal learning-to-reason data triplet {Q, Y, S}를 형성합니다. CoMCTS를 multimodal questions 집합에 적용하면 각 질문에 대한 최종 답변을 향한 풍부하고 명시적이며 잘 정의된 reasoning nodes의 tree를 제공하고 MLLMs가 단계별로 reason하도록 학습할 수 있는 multimodal learning-to-reason data triplets 모음을 구성할 수 있습니다.

3.2. CoMCTS for reflective reasoning

이 하위 섹션에서는 reflective reasoning-path search를 위해 CoMCTS를 확장합니다. CoMCTS에 의해 구축된 통합 reasoning tree, 즉 {Q, Y, S} (긍정적 및 부정적 reasoning nodes를 모두 제공)를 기반으로, 우리는 부정적인 sibling nodes를 식별하고 효과적인 reasoning paths에 통합하여 부정적인 reasoning node에서 긍정적인 reasoning node로의 전환을 포함하는 reflective reasoning path를 구축합니다.

Identifying negative sibling node. 효과적인 reasoning path Y가 주어지면 UCB를 사용하여 s ∈ Y에 대한 부정적인 sibling reasoning node를 식별합니다.

sneg = arg min sl∈Sibling(s) UCB(sl) − UCB(s), ∀s ∈ Y, (7)

여기서 Sibling(s)는 s의 모든 sibling nodes, 즉 동일한 부모 노드 아래에 있는 동일한 계층 수준의 노드를 반환합니다. UCB(s) = V(s) + c * sqrt(log N(ˆs) / (1 + N(s))) (Eq. 6과 동일).

Constructing reflective reasoning path. Eq. 7에 기초하여, 우리는 reasoning node s ∈ Y와 그것의 부정적인 sibling node sneg를 무작위로 샘플링하고 reflection prompt와 연결하여 reflection trajectory, 즉 (sneg, promptreflect, s)를 형성합니다. 그런 다음 Replace(·) 함수를 사용하여 s ∈ Y를 (sneg, promptreflect, s)로 대체하여 Y를 reflective reasoning path Yreflect로 변환합니다.

Yreflect = Replace(Y, s,(sneg, promptreflect, s)), (8)

여기서 promptreflect는 "이전 reasoning 단계가 잘못되었으므로 다시 생각해 봅시다."와 같은 reflection prompt를 나타냅니다. 그런 다음 reflective reasoning path Yreflect를 quadruplet {Q, Y, Yreflect, S} ∈ D로 데이터에 통합할 수 있습니다.

3.3. Training with Collective MCTS

CoMCTS를 사용하여 multimodal input questions 집합에 대한 효과적이고 reflective한 reasoning paths를 검색하고 각 질문에 대해 풍부하고 명시적이며 잘 정의된 reasoning nodes의 tree, 즉 quadruplets {Q, Y, Yreflect, S} ∈ D 집합을 가진 multimodal learning-to-reason-andreflect dataset인 Mulberry-260k를 구성합니다. Mulberry-260k에서 collective knowledge를 학습하기 위해 collective SFT를 수행하여 o1과 유사한 단계별 Reasoning 및 Reflection 기능을 갖춘 Multimodal LLMs 시리즈인 Mulberry model을 train합니다.

Collective Supervised Fine-Tuning (CoSFT). (Q, Y) ∈ D가 주어지면 표준 SFT objective를 적용하여 CoMCTS에 의해 구성된 D로부터 학습하도록 MLLM을 train합니다.

LCoSFT(πk) = Σ(Q,Y)∈D log πk(Y |Q), (9)

여기서 Y = {s}는 MLLMs 그룹에 의해 공동으로 추측, 검색 및 식별된 일련의 reasoning nodes를 포함하는 효과적인 reasoning path를 나타냅니다.

CoSFT for reflective reasoning. CoMCTS에 의해 구성된 질문과 그 reasoning tree (Q, S) ∈ D가 주어지면 Eqs.7-8에서와 같이 S에서 reflective reasoning path Yreflect를 무작위로 샘플링하고 reflective reasoning을 위해 CoSFT를 수행합니다.

LCoSFT-Re(πk) = Σ(Q,Yreflect)∈D log πk(Yreflect|Q), (10)

여기서 Yreflect = {s}는 추가적인 단계별 reflection trajectory를 포함하는 reflective reasoning path를 나타냅니다. LCoSFT 및 LCoSFT-Re의 목표는 CoMCTS에 의해 생성된 reasoning nodes의 tree S에 대한 효과적이고 reflective한 reasoning path Y 및 Yreflect의 log 확률을 최대화하는 것입니다. 또한 LCoSFT-Re는 부정적인 reasoning nodes를 보정하는 방법을 학습하여 CoMCTS search 프로세스 동안 부정적인 정보를 활용할 수 있습니다.

Figure 2: Overview. 우리의 CoMCTS는 두 개의 번갈아 나타나는 phases로 Mulberry를 trains 합니다. 위쪽 부분에서 CoMCTS는 reasoning paths를 반복적으로 searches하고, 각 iteration에서 여러 MLLMs의 collective knowledge를 활용하여 공동으로 (a) 주어진 시작 노드에서 끝까지 다양하고 상호 보완적인 후보 후속 reasoning nodes를 expand하고, (b) reasoning 결과를 simulate하고, error 후보 노드를 position하고 자식 노드와 함께 prune하고, (c) bottom-up 방식으로 각 reasoning node의 점수와 방문 횟수를 update하기 위해 backpropagate하고, (d) 가장 높은 UCB 값을 가진 리프 reasoning node를 다음 시작 노드로 select합니다. 아래 부분에서는 CoMCTS에 의해 구축된 reasoning trees에서 학습하도록 model을 train합니다.

Figure 3: Qualitative illustration of reasoning tree searched by CoMCTS with rich, explicit, well-defined reasoning nodes. (번역: 풍부하고 명시적이며 잘 정의된 reasoning nodes를 사용하여 CoMCTS에 의해 검색된 reasoning tree의 정성적 그림.)

3. Methodology 정리 노트 (AI 연구자 대상)

핵심: CoMCTS를 이용한 효과적인 reasoning path 탐색 및 학습, 그리고 이를 활용한 Mulberry 모델 training.

3.1. CoMCTS for effective reasoning

핵심 아이디어: Collective knowledge를 활용, 반복적으로 효과적인 reasoning nodes를 찾고 연결하여 정답으로 이끄는 path를 찾음.
Policy Model (π): Pre-trained MLLM으로 초기화.
Collective Knowledge: 여러 MLLMs ({π1, π2, ..., πK}) 활용.
Reasoning State (s): 각 reasoning 단계. 여러 단어 토큰으로 구성된 문장(들).
CoMCTS 알고리즘 (4단계 반복):
1. Expansion: 현재 leaf node에서 여러 MLLMs를 활용, 다양한 후보 reasoning paths를 terminal node까지 확장 (Equation 1).
2. Simulation & Error Positioning: Collective knowledge를 활용, 각 후보 node의 가치를 평가하고 낮은 점수의 node는 오류로 간주하여 제거 (자식 node 포함) (Equations 2, 3).
3. Backpropagation: Bottom-up 방식으로 각 node의 방문 횟수(N)와 가치(V) 업데이트 (Equations 4, 5).
4. Selection: Upper Confidence Bound (UCB) 값을 기준으로 다음 search를 위한 시작 node 선택 (Equation 6).
결과: 질문에 따른 reasoning tree (S)와 정답 reasoning path (Y) 생성 -> multimodal learning-to-reason data triplet {Q, Y, S} 구축.

3.2. CoMCTS for reflective reasoning

핵심 아이디어: CoMCTS로 구축된 reasoning tree (긍정/부정 nodes 포함)에서 부정적인 sibling node를 찾아 효과적인 reasoning path에 통합, "reflective reasoning path" 구축.
Negative Sibling Node 식별: UCB 값을 사용하여 효과적인 reasoning path (Y)의 각 node (s)에 대한 부정적인 sibling node (sneg) 식별 (Equation 7).
Reflective Reasoning Path 구축:
- s ∈ Y에서 s와 sneg를 무작위로 샘플링.
- (sneg, promptreflect, s) 형태의 reflection trajectory 생성.
- Replace 함수를 사용하여 Y를 reflective reasoning path (Yreflect)로 변환 (Equation 8).
결과: {Q, Y, Yreflect, S} quadruplet 형태의 데이터 생성.

3.3. Training with Collective MCTS

Mulberry-260k: CoMCTS를 사용하여 구축한 multimodal learning-to-reason-and-reflect dataset.
Mulberry: Mulberry-260k로 trained된 MLLMs 시리즈.
Collective Supervised Fine-Tuning (CoSFT):
- CoMCTS로 생성된 데이터 (D)를 사용하여 MLLM train (Equations 9, 10).
- 목표: 효과적인 reasoning path (Y)와 reflective reasoning path (Yreflect)의 log 확률 최대화.
- LCoSFT-Re: 부정적인 reasoning nodes를 보정하는 학습을 통해 CoMCTS search 과정의 부정적인 정보 활용.

쉬운 설명:

이 섹션에서는 CoMCTS라는 새로운 방법을 사용하여 어떻게 MLLM이 복잡한 문제를 더 잘 풀 수 있도록 학습시키는지 설명합니다.

CoMCTS의 작동 방식 (3.1):

여러 명의 AI 동원: 여러 명의 똑똑한 AI 모델(MLLM)들을 준비합니다.
함께 문제 풀기:
- Expansion: 각 AI가 자신만의 방식으로 문제 풀이 과정을 여러 단계로 나누어, 마치 나무처럼 가지를 뻗어나가면서 다양한 해결 방법을 제시합니다. (Equation 1)
- Simulation & Error Positioning: 각 AI가 제시한 해결 방법들을 서로 평가하고, 틀린 부분이나 가능성이 낮은 부분은 제거합니다. (Equations 2, 3)
- Backpropagation: 각 해결 단계(node)가 얼마나 좋았는지 점수를 매기고, 얼마나 많이 시도되었는지 기록합니다. (Equations 4, 5)
- Selection: 지금까지의 결과를 바탕으로, 다음 단계에서 가장 좋을 것 같은 해결 방법을 선택합니다. (Equation 6)
반복 학습: 2번 과정을 여러 번 반복하면서, 점점 더 좋은 해결 방법을 찾아갑니다.
결과: 결국, 문제를 해결하는 가장 좋은 방법(reasoning path)과 각 단계에 대한 설명(reasoning tree)을 얻을 수 있습니다.

Reflective Reasoning (3.2):

반성하는 AI: CoMCTS는 문제를 해결하는 과정에서 틀린 방법(negative nodes)도 활용합니다.
틀린 이유 찾기: 정답 풀이 과정에서 각 단계마다, 가장 비슷하면서도 틀린 풀이 방법(negative sibling node)을 찾습니다. (Equation 7)
반성하는 문장 추가: "이전 단계는 틀렸으니, 다시 생각해보자"와 같은 반성하는 문장(reflection prompt)을 추가하여, AI가 틀린 이유를 깨닫고 더 나은 풀이 방법을 찾도록 돕습니다. (Equation 8)

Mulberry 학습 (3.3):

데이터셋 만들기: CoMCTS를 사용하여 찾은 좋은 풀이 방법과 반성하는 과정들을 모아서 Mulberry-260k라는 데이터셋을 만듭니다.
Mulberry 훈련: Mulberry-260k 데이터셋을 사용하여 Mulberry라는 새로운 MLLM을 학습시킵니다.
학습 목표: Mulberry가 CoMCTS처럼 문제를 단계별로 잘 해결하고, 틀린 부분은 스스로 반성하면서 고칠 수 있도록 학습시킵니다. (Equations 9, 10)

결론적으로, CoMCTS는 여러 AI 모델들이 협력하고 반성하는 과정을 통해 MLLM의 추론 능력을 향상시키는 새로운 방법론이며, Mulberry는 이러한 CoMCTS를 통해 학습된 강력한 MLLM입니다.

Expansion:
- 각 VLM은 현재 노드에서 시작하여 terminal node까지 이어지는 하나 이상의 완전한 reasoning path를 독립적으로 생성합니다.
- 다른 경로로 분기하거나 합쳐지는 과정 없이, 각 경로는 쭉 뻗어 나갑니다.
- 생성되는 경로의 수와 다양성은 VLM의 설정(temperature 등)에 따라 달라집니다.
Simulation & Error Positioning:
- Expansion 단계에서 생성된 모든 reasoning path를 평가합니다.
- 여러 VLM을 활용하여 각 노드의 점수(R)를 계산하고, 낮은 점수를 받은 노드와 그 하위 노드(자식, 손자 등)를 제거합니다(pruning). (Equation 2, 3)
Backpropagation:
- Simulation & Error Positioning 단계에서 살아남은 노드들에 대해, leaf node부터 root node 방향으로 올라가면서 각 노드의 가치(V)와 방문 횟수(N)를 업데이트합니다. (Equation 4, 5)
Selection:
- 업데이트된 가치(V)와 방문 횟수(N)를 기반으로 UCB(Upper Confidence Bound) 값을 계산하여, 다음 반복에서 탐색할 가장 유망한 노드를 하나 선택합니다. (Equation 6)
반복:
- Selection 단계에서 선택된 노드를 새로운 시작 노드로 하여, Expansion - Simulation & Error Positioning - Backpropagation - Selection 단계를 반복합니다.
- 이 과정을 정해진 횟수만큼 반복하거나, 만족스러운 reasoning path가 발견될 때까지 계속합니다.

'논문리뷰' 카테고리의 다른 글

LLM : 논문리뷰 : Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search (1)	2025.02.06
VLM : 논문리뷰 : ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration (0)	2025.02.06
agent : 논문리뷰 : Tree Search for Language Model Agents (0)	2025.02.05
VLM : 논문리뷰 : MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models (1)	2025.02.05
LLM : 논문리뷰 : Reward-Guided Speculative Decoding for Efficient LLM Reasoning (1)	2025.02.04

'논문리뷰' Related Articles

AI바라기의 인공지능

LLM : 논문리뷰 : Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search 본문

LLM : 논문리뷰 : Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search - 학습 노트 (한국어 버전)

Purpose of the Paper

Key Contributions

Experimental Highlights

Limitations and Future Work

Overall Summary

쉬운 설명

Introduction 정리 노트 (AI 연구자 대상)

2. Related Works 정리 노트 (AI 연구자 대상)

3. Methodology 정리 노트 (AI 연구자 대상)

'논문리뷰' 카테고리의 다른 글

티스토리툴바