AI바라기의 인공지능

VLM : 논문 리뷰 : LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs 본문

논문리뷰

VLM : 논문 리뷰 : LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

AI바라기 2025. 1. 13. 14:50

LlamaV-01: Rethinking Step-by-step Visual Reasoning in LLMs

개요 (Abstract)

본 논문은 Large Language Models (LLMs)에서 step-by-step visual reasoning을 발전시키기 위한 종합적인 프레임워크를 제시합니다. 특히, visual contexts에서 복잡한 multi-step 문제를 해결하는 데 필요한 추론(reasoning) 능력을 향상시키는 데 중점을 둡니다. 이를 위해 세 가지 핵심적인 기여를 합니다.

  1. VRC-Bench: Multi-step reasoning tasks를 평가하기 위해 특별히 설계된 visual reasoning chain benchmark를 새롭게 소개합니다. VRC-Bench는 복잡한 visual perception부터 scientific reasoning까지 8개의 다양한 카테고리를 포함하며, 총 4,000개 이상의 reasoning steps를 포함합니다. 이를 통해 LLMs가 여러 단계에 걸쳐 정확하고 해석 가능한 visual reasoning을 수행하는 능력을 종합적으로 평가할 수 있습니다.
  2. 새로운 평가 지표: 기존의 end-task accuracy metrics와 달리, 개별 step 단위에서 visual reasoning quality를 평가하는 새로운 지표를 제안합니다. 이 지표는 정확성과 논리적 일관성을 모두 강조하여 reasoning performance에 대한 더 깊은 통찰력을 제공합니다.
  3. LlamaV-01: Multi-step curriculum learning approach로 trained된 새로운 multimodal visual reasoning model인 LlamaV-01을 제안합니다. LlamaV-01은 tasks가 점진적으로 구성되어 incremental skill acquisition 및 problem-solving을 촉진하는 multi-step curriculum learning을 통해 trained됩니다. 이를 통해 multi-step reasoning에 최적화된 LlamaV-01은 structured training paradigm을 통해 step-by-step reasoning을 학습합니다.

실험 결과, LlamaV-01은 기존 open-source models를 능가하고 close-source proprietary models와 경쟁할 만한 성능을 보였습니다. 특히, 최근 Llava-CoT와 비교했을 때, 6개의 benchmarks에서 평균 67.3점을 기록하며 3.8%의 절대적인 성능 향상을 달성했고, inference scaling 속도는 5배 더 빠릅니다.

논문의 목적 (Purpose of the Paper)

기존 visual reasoning 연구들은 대부분 end-task accuracy에만 초점을 맞추고 intermediate reasoning steps의 quality를 간과했습니다. 또한, standardized evaluation 부재는 models 간의 정확한 비교를 어렵게 만들었습니다. 이 논문은 이러한 한계를 극복하고, LLMs의 step-by-step visual reasoning 능력을 향상시키기 위한 종합적인 프레임워크를 제공하는 데 목적이 있습니다.

  • 기존 연구의 부족한 점:
    • End-task accuracy에만 치중하여 intermediate reasoning steps의 quality를 평가하지 않음.
    • Step-by-step reasoning에 대한 emphasis 부족.
    • Standardized evaluation 부재로 인한 models 간 비교 어려움.
  • 이 논문에서 해결하고자 하는 점:
    • Multi-step reasoning tasks를 위한 VRC-Bench benchmark 제안.
    • Reasoning steps의 quality를 평가하는 새로운 지표 도입.
    • Multi-step curriculum learning으로 trained된 LlamaV-01 model 제안.

방법론 (Methodology)

  1. VRC-Bench (Visual Reasoning-Chain Benchmark):
    • 8개의 diverse categories: Visual Reasoning, Math & Logic Reasoning, Social & Cultural Context, Medical Imaging (Basic Medical Science), Charts & Diagram Understanding, OCR & Document Understanding, Complex Visual Perception, Scientific Reasoning
    • 1,000개 이상의 challenging samples, 4,173개의 manually verified reasoning steps 포함
    • 다양한 domains에 걸쳐 reasoning capabilities를 종합적으로 평가
  2. 새로운 평가 지표:
    • Reasoning quality를 individual steps 단위로 평가
    • Correctness와 logical coherence를 모두 고려
    • 기존의 end-task accuracy metrics보다 reasoning performance에 대한 더 깊은 통찰력 제공
  3. LlamaV-01:
    • Multi-step curriculum learning approach로 trained
    • Tasks는 progressively organized되어 incremental skill acquisition 촉진
    • Beam Search와 Multi-Step curriculum learning의 결합
    • Beam Search는 reasoning paths를 최적화하고, curriculum learning은 incremental skills development 보장
    • Complex multi-step visual reasoning tasks에서 높은 accuracy와 efficiency 달성

실험 결과 (Results)

  • LlamaV-01은 VRC-Bench에서 기존 open-source models (Llava-CoT 포함)을 능가하고, close-source models (Gemini-1.5-Flash, Claude-3.5-sonnet)와 경쟁할 만한 성능을 보임.
  • 특히, Llava-CoT 대비 6개 benchmarks에서 평균 3.8%의 성능 향상(67.3점)을 달성했고, inference scaling 속도는 5배 더 빠름.
  • LlamaV-01은 Math & Logic Reasoning, Chart & Diagram Understanding, Medical Imaging 등 critical categories에서 우수한 성능을 보임.
  • Step-by-step reasoning (Steps Score)과 final answer accuracy (Final Answer Scores) 모두에서 균형 잡힌 성능 향상을 보임.

결론 (Conclusion)

본 논문은 LLMs의 visual reasoning 능력을 향상시키기 위한 새로운 benchmark (VRC-Bench), 평가 지표, 그리고 model (LlamaV-01)을 제안했습니다. LlamaV-01은 multi-step curriculum learning과 Beam Search를 결합하여, complex multi-step visual reasoning tasks에서 높은 accuracy와 efficiency를 달성했습니다. 이는 LLMs가 복잡한 visual contexts를 이해하고, step-by-step reasoning을 통해 문제를 해결하는 능력을 갖추는 데 중요한 진전입니다.

 

 

Abstract

Reasoning은 복잡한 다단계 문제를 해결하기 위한 기본적인 능력이며, 특히 순차적인 단계별 이해가 필수적인 시각적 맥락에서 중요합니다. 기존 접근 방식은 visual reasoning을 평가하기 위한 포괄적인 framework가 부족하고 단계별 문제 해결을 강조하지 않습니다. 이를 위해, 우리는 three key contributions를 통해 large language models (LMMs)에서 step-by-step visual reasoning을 발전시키기 위한 포괄적인 framework를 제안합니다.

  • 첫째, multi-step reasoning tasks를 평가하기 위해 특별히 설계된 visual reasoning chain benchmark를 소개합니다. 이 benchmark는 복잡한 visual perception에서 scientific reasoning에 이르기까지 총 4,000개 이상의 reasoning steps를 포함하는 8개의 다른 카테고리로 다양한 과제를 제시하여, LLMs가 여러 단계에 걸쳐 정확하고 해석 가능한 visual reasoning을 수행하는 능력을 강력하게 평가할 수 있도록 합니다.
  • 둘째, 개별 단계의 세분성에서 visual reasoning 품질을 평가하는 새로운 metric을 제안하여 정확성과 논리적 일관성을 모두 강조합니다. 제안된 metric은 기존의 end-task accuracy metrics에 비해 reasoning performance에 대한 더 깊은 통찰력을 제공합니다.
  • 셋째, tasks가 점진적으로 기술 습득 및 문제 해결을 촉진하도록 구성된 multi-step curriculum learning 접근 방식을 사용하여 trained된 새로운 multimodal visual reasoning model인 LlamaV-o1을 제시합니다. 제안된 LlamaV-o1은 multi-step reasoning을 위해 설계되었으며 구조화된 training paradigm을 통해 step-by-step으로 학습합니다.

광범위한 실험을 통해 우리의 LlamaV-o1이 기존 open-source models을 능가하고 closed-source 독점 models에 필적하는 성능을 보인다는 것을 보여줍니다. 최근의 Llava-CoT와 비교했을 때, 우리의 LlamaV-o1은 6개의 benchmarks에서 평균 67.3점을 달성하여 3.8%의 절대적인 이득을 얻었으며, inference scaling 중에 5배 더 빠릅니다. 우리의 benchmark, model, 그리고 코드는 공개적으로 사용할 수 있습니다.

 

 

 

 

 

Figure 1: 우리가 제안한 VRC-Bench의 pattern recognition task 예시에서, 우리 model (LlamaV-o1)과 closed-source인 Gemini-1.5-Flash 및 Claude-3.5-Sonnet의 reasoning 능력을 비교합니다. Claude-3.5-Sonnet은 "none of the options"라고 결론을 내리지만, 그 reasoning steps는 관찰된 논리와 완전히 일치하지 않습니다(빨간색으로 강조 표시됨). Gemini-1.5-Flash는 논리적 일관성 세부 사항이 부족하여 더 약한 reasoning을 보여줍니다(빨간색으로 강조 표시됨). 우리의 LlamaV-o1은 더 낫고 체계적인 reasoning을 제공하여, 옵션 D가 확립된 패턴을 따른다는 것을 식별함으로써 logical reasoning 능력을 보여줍니다. 추가 결과는 Fig. 5에 나와 있습니다.

 

 

 

 

1 Introduction

Large Language Models (LLMs)는 텍스트를 이해하고 생성하도록 설계되어 번역, 요약, 그리고 question-answering과 같은 광범위한 tasks를 처리할 수 있습니다. Large Multimodal Models (LMMs)를 통해 visual 데이터를 통합하면 텍스트, 이미지 또는 비디오를 결합하여 기능을 더욱 확장할 수 있으므로, image captioning, visual question answering, 그리고 video analysis와 같은 더 복잡한 multimodal tasks가 가능합니다. 이러한 tasks를 효과적으로 해결하려면, LMMs가 다양한 정보를 처리하고 연결하여 논리적 일관성과 순차적 문제 해결을 보장하는 visual reasoning이 필수적입니다. 여러 modalities에 걸쳐 reasoning하는 능력은 복잡한 실제 문제를 해결하는 데 중요합니다.

LLMs의 문제 해결 능력을 향상시키기 위해, 복잡한 tasks를 더 쉬운 구성 요소로 분해하는 step-by-step reasoning이 요구됩니다. 이 접근 방식은 인간의 인지 과정을 닮아, models가 자신의 사고 과정을 추적하고 reasoning 전반에 걸쳐 논리적 일관성을 보장할 수 있도록 합니다. 구조화된 reasoning 경로를 따라감으로써, models는 더 정확하고 해석 가능한 결론에 도달할 수 있습니다. 이를 위해, 이전 연구들은 LLMs에게 step-by-step 근거를 생성하도록 prompting하거나 fine-tuning하는 것이 reasoning tasks의 개선으로 이어질 수 있음을 보여주었습니다. 이러한 방법들은 models가 각 단계를 명시적으로 reasoning하도록 장려하여, 복잡한 tasks를 해결하는 능력을 향상시키는 데 중점을 둡니다. 그러나 대부분의 기존 연구들은 step-by-step multimodal reasoning tasks를 처리하는 데 어려움을 겪고 있습니다(Fig. 1 참조). 더욱이, 현재 visual reasoning benchmarks의 주목할 만한 격차는 step-by-step reasoning에 대한 강조가 부족하다는 것입니다. 대부분의 benchmarks는 주로 end-task accuracy에 초점을 맞추고 중간 reasoning steps의 품질을 소홀히 합니다. 또한, 표준화된 평가의 부재는 models 간의 부정확한 비교로 이어질 수 있으며, 이는 그들의 진정한 visual reasoning 능력을 평가하기 어렵게 만듭니다.

우리의 연구는 step-by-step visual reasoning 능력을 평가하기 위한 전체론적 접근 방식을 도입함으로써 앞서 언급한 격차를 해소하고자 합니다. 이를 위해, 우리는 multi-step visual reasoning tasks를 평가하기 위해 특별히 설계된 포괄적인 benchmark인 Visual Reasoning-Chain (VRC-Bench)를 소개합니다. 이 benchmark는 Visual Reasoning, Math & Logic Reasoning, Social & Cultural Context, Medical Imaging (Basic Medical Science), Charts & Diagram Understanding, OCR & Document Understanding, Complex Visual Perception, 그리고 Scientific Reasoning의 8가지 다양한 카테고리에 걸쳐 있습니다. 여기에는 다양한 도메인에 걸쳐 reasoning 능력을 평가하기 위해 세심하게 선별된 1,000개 이상의 도전적인 샘플이 포함됩니다. 또한, 이 benchmark는 4,173개의 수동으로 검증된 reasoning steps를 특징으로 하여, step-by-step logical reasoning을 평가하는 데 있어 정확성과 신뢰성을 보장합니다. end-task accuracy를 측정하는 것만으로는 충분하지 않다는 것을 인식하여, 우리는 개별 단계의 세분성에서 visual reasoning 품질을 평가하는 새로운 metric을 제시하며, 정확성과 논리적 일관성에 중점을 둡니다. 더 나아가, 우리는 visual reasoning models의 training에서 Beam Search와 Multi-Step curriculum learning을 통합하는 것의 결합된 이점을 탐구합니다. Beam Search의 효율성과 curriculum learning의 점진적 구조를 활용함으로써, 제안된 model은 요약 및 질문 유래 캡션 생성과 같은 더 간단한 tasks부터 시작하여 더 복잡한 multi-step reasoning 시나리오로 나아가면서 기술을 점진적으로 습득하여, 최적화된 inference와 강력한 reasoning 능력을 모두 보장합니다. 우리는 이 구조화된 training paradigm이 model의 성능을 향상시킬 뿐만 아니라 다양한 visual reasoning tasks를 처리하는 데 있어 해석 가능성과 적응성을 향상시키는 것을 관찰합니다(Fig. 1 참조). 우리의 광범위한 실험은 LlamaV-o1으로 명명된 우리의 접근 방식이, 최근의 Llava-CoT model을 포함한 기존의 open-source methods를 여러 평가 지표에서 능가한다는 것을 보여줍니다.

요약하자면, 이 논문은 새로운 benchmark, 새로운 metric, 그리고 curriculum learning으로 trained된 새로운 model을 통해 step-by-step visual reasoning 능력을 발전시키는 것을 목표로 하는 통합된 framework를 제시합니다. 우리의 기여는 다음과 같습니다:

  • Step-by-Step Visual Reasoning Benchmark: 우리가 아는 한, 제안된 benchmark는 다양한 주제에 걸쳐 multimodal multi-step reasoning tasks를 평가하기 위해 설계된 최초의 시도입니다. VRC-Bench라고 명명된 제안된 benchmark는 8개의 다른 카테고리(Visual Reasoning, Math & Logic Reasoning, Social & Cultural Context, Medical Imaging (Basic Medical Science), Charts & Diagram Understanding, OCR & Document Understanding, Complex Visual Perception, 그리고 Scientific Reasoning)에 걸쳐 있으며, 1,000개 이상의 도전적인 샘플과 4,000개 이상의 reasoning steps를 포함합니다.
  • Novel Evaluation Metric: 개별 단계 수준에서 reasoning 품질을 평가하는 metric으로, 정확성과 논리적 일관성을 모두 강조합니다.
  • Combined Multi-Step Curriculum Learning and Beam Search Approach: curriculum learning의 구조화된 진행과 Beam Search의 효율성을 결합한 multimodal reasoning method인 LlamaV-o1입니다. 제안된 접근 방식은 reasoning 경로를 최적화하면서 점진적인 기술 개발을 보장하여, model이 정확성과 효율성 측면에서 복잡한 multi-step visual reasoning tasks에 효과적일 수 있도록 합니다. 구체적으로, 제안된 LlamaV-o1은 최근의 Llava-CoT와 비교하여 6개의 benchmarks에서 평균 점수 측면에서 3.8%의 절대적 이득을 달성하면서도 5배 더 빠릅니다.

 

 

 

기존 연구의 한계:

  • 대부분의 visual reasoning 연구는 최종 결과의 정확도 (end-task accuracy) 에만 집중하고, 중간 단계의 추론 과정 (intermediate reasoning steps) 을 간과했습니다.
  • step-by-step reasoning을 강조하는 visual reasoning benchmark가 부족하여, 모델 간의 정확한 비교 및 평가가 어려웠습니다.
  • 기존 연구들은 step-by-step multimodal reasoning tasks를 처리하는데 어려움을 보였습니다.

본 논문의 핵심 기여:

  1. VRC-Bench: multimodal multi-step reasoning tasks를 평가하기 위해 특별히 설계된 최초의 visual reasoning benchmark를 제안합니다.
    • 8개의 다양한 카테고리에 걸쳐 1,000개 이상의 샘플과 4,000개 이상의 수동 검증된 reasoning steps를 포함합니다.
    • 단순히 최종 결과의 정확도만 평가하는 것이 아니라, 개별 reasoning step의 정확성과 논리적 일관성까지 평가하는 새로운 metric을 제시합니다.
  2. LlamaV-o1: Multi-Step Curriculum LearningBeam Search를 결합한 새로운 multimodal reasoning model을 제안합니다.
    • Multi-Step Curriculum Learning: 모델이 쉬운 task부터 어려운 task까지 단계적으로 학습하도록 하여, 각 reasoning step의 능력을 점진적으로 향상시킵니다.
    • Beam Search: 효율적인 reasoning 경로 탐색을 가능하게 하여, 정확도와 효율성을 동시에 높입니다.
  3. 실험 결과: LlamaV-o1은 최신 Llava-CoT 모델을 포함한 기존 open-source methods 대비 우수한 성능을 보였습니다. 특히, 6개 benchmark에서 평균 3.8%의 성능 향상을 보였고, inference 속도는 5배 더 빨랐습니다.

핵심 요약:

본 논문은 step-by-step visual reasoning 능력을 평가하고 향상시키기 위한 새로운 benchmark (VRC-Bench), 평가 metric, 그리고 model (LlamaV-o1) 을 제안합니다. 특히, Multi-Step Curriculum LearningBeam Search를 결합한 훈련 방식을 통해, 정확하고 효율적인 reasoning이 가능한 모델을 개발했습니다.

 

 

 

2 Related Works

LLMs를 사용한 Reasoning:

Large Language Models (LLMs)에서 강력한 reasoning 능력을 개발하는 것은 연구의 중심 주제였습니다. 초기 연구는 종종 자연어 대신 형식 언어를 사용하여 reasoning 프로세스를 명시적으로 모델링하는 뉴럴 심볼릭 방법에 의존했습니다. 그러나 강력한 LLMs의 출현은 그들의 고유한 reasoning 능력을 활용하는 새로운 접근 방식을 촉진했습니다. 예를 들어, 최근 models에서는 inference time computing을 확장하여 최종 답변을 제공하기 전에 reasoning을 수행합니다. Chain-of-Thought (CoT) prompting과 같이 복잡한 질문을 중간 reasoning steps로 분해하는 기술은 LLMs를 구조화된 솔루션으로 안내하는 데 가능성을 보여주었습니다. 그럼에도 불구하고, 특히 multi-step inference가 필요한 tasks에서 논리적 일관성을 유지하는 것은 여전히 중요한 과제이며, 오류와 잘못된 결과(hallucinated outputs)를 초래합니다. LLMs는 CoT guidance를 사용하더라도 불성실한 설명을 생성하고, 논리적 reasoning 경로에서 벗어나고, 정확한 reasoning steps를 확인하고 선택하는 데 어려움을 겪을 수 있습니다. 이러한 접근 방식은 VLMs로 더 확장되었습니다.

 

VLMs를 사용한 Reasoning:

Visual reasoning tasks는 models가 visual perception과 high-level 인지 능력을 보유해야 합니다. visual reasoning 기술은 과학, 수학, 로봇 계획, 그리고 고급 question answering과 같은 다양한 영역에서 광범위하게 적용될 수 있습니다. LLMs의 경우와 유사하게, 기존 접근 방식은 뉴럴 심볼릭 방법을 사용하여 reasoning 프로세스를 명시적으로 모델링했습니다. 예를 들어, 미분 가능한 논리 형식(differentiable logic formalism)을 제안하여 VQA의 reasoning 측면을 visual perception에서 분리합니다. 더 최근의 VLMs는 visual tasks를 위해 LLMs의 reasoning 능력을 활용합니다. Visual programming은 computer vision models를 함수로, compositional visual reasoning을 위해 GPT-3 LLM을 기반으로 하는 모듈식 뉴로 심볼릭 시스템을 제공합니다. Zhang 등은 간결한 답변으로 VLM training을 하는 것이 reasoning이 필요한 더 복잡한 문제에 대한 일반화를 감소시킨다고 주장합니다. 그들은 GPT-4o model을 사용하여 근거(rationales)를 만들고, reinforcement learning (RL)을 통해 model의 reasoning 능력을 향상시키기 위해 training에 정확하고 부정확한 reasoning chains를 사용합니다. 대조적으로, LlaVA-o1은 RL을 사용하지 않고, 답변이 요약, 해석, reasoning, 그리고 결론 단계를 통해 순차적으로 도출되는 CoT prompting 대신 단계별 reasoning을 지지합니다. 우리의 연구는 기반으로 하며, visual reasoning을 위한 curriculum learning과 경로 탐색의 중요성을 보여줍니다.

 

 

Benchmarks for Visual Reasoning:

VLMs에서 visual reasoning을 평가하고 발전시키기 위해 여러 datasets와 benchmarks가 개발되었습니다. 이러한 datasets는 복잡성, visual context, 그리고 필요한 reasoning 기술이 다양합니다. 몇 가지 주목할 만한 예는 다음과 같습니다. CLEVR (Compositional Language and Elementary Visual Reasoning)은 렌더링된 이미지와 자동 생성된 질문을 통해 counting, comparisons, 그리고 logical inference와 같은 visual reasoning 능력을 테스트합니다. StrategyQA는 Wikipedia에 대한 multi-hop question-answering dataset으로, 암묵적인 분해와 다양한 reasoning 전략을 필요로 합니다. ScienceQA는 multi-modal contexts, 다양한 과학 주제, 그리고 해당 강의 및 설명과 함께 주석이 달린 답변을 포함하는 대규모 multimodal 과학 dataset를 제공합니다. MathVista라고 불리는 다양한 visual contexts에서 통합된 수학적 reasoning benchmark는 28개의 기존 multimodal datasets와 3개의 새로운 datasets를 통합합니다. Zhang 등은 ShareGPT-4o-Reasoning을 제안하는데, 이는 VLMs에서 CoT reasoning을 개선하기 위해 설계된 다양한 VQA tasks를 다루는 193,000개의 예제를 포함하는 포괄적인 CoT dataset입니다. 그러나 이러한 benchmarks는 복잡한 평가 시나리오에서 step-by-step reasoning을 제공하지 않으며, 일반적으로 최종 답변만을 기반으로 정답 여부를 판단합니다. 본 연구에서 우리의 목표는 복잡한 reasoning 시나리오에서 reasoning chains뿐만 아니라 최종 결과도 평가하는 포괄적인 benchmark를 제공하는 것입니다.

 

Figure 2: 제안된 VRC-Bench 예시는 우리 benchmark가 포괄하는 다양하고 도전적인 reasoning tasks를 보여주며, 광범위한 modalities와 contexts에 걸쳐 있습니다. 각 예시는 task 이해에서 시작하여 논리적 추론 및 답변 생성으로 진행되는 step-by-step reasoning을 강조합니다. tasks는 기하학적 원리를 사용한 수학적 reasoning, 분자 구조에 기반한 과학적 분류, charts 및 diagrams의 시각적 해석, 역사적 그림에서의 예술적 식별, 그리고 조직 이미지에서의 의학적 진단을 포함합니다. 예를 들어, 한 예시는 선형 쌍(linear pairs)과 수직 관계를 활용하여 기하학적 diagram에서 각도를 계산하는 것을 보여줍니다. 또 다른 예시는 분자 구성을 기반으로 에탄을 화합물로 식별함으로써 과학적 reasoning을 강조합니다. Visual perception tasks는 model이 세계 에너지 매장량에 대한 파이 차트를 분석하거나 반사된 모양을 인식하도록 도전합니다. 예술 및 문화적 tasks는 시각적 및 맥락적 단서를 기반으로 그림과 스포츠를 식별해야 합니다. 마지막으로, medical imaging 및 광고 인식 tasks는 model이 신중한 관찰을 통해 조직 유형을 분류하거나 제품 이름을 추출하는 능력을 테스트합니다.

 

기존 LLMs Reasoning 연구:

  • 초기: 뉴럴 심볼릭 방법을 사용하여 reasoning 과정을 형식 언어로 명시적으로 모델링.
  • 최근: LLMs 자체의 reasoning 능력을 활용.
    • Chain-of-Thought (CoT) prompting: 복잡한 질문을 중간 단계로 나누어 LLMs가 단계별로 추론하도록 유도.
    • 한계: 여전히 논리적 일관성 유지가 어렵고, 특히 multi-step inference에서 오류 발생. CoT를 사용해도 불성실한 설명, 논리적 경로 이탈, 검증/선택 어려움 등의 문제 존재.

기존 VLMs Reasoning 연구:

  • LLMs와 유사하게 초기에는 뉴럴 심볼릭 방법 사용 (e.g., 미분 가능한 논리 형식을 사용해 VQAreasoningvisual perception과 분리).
  • 최근에는 LLMsreasoning 능력을 visual tasks에 활용.
    • Visual programming: computer vision models를 함수로, GPT-3를 이용해 compositional visual reasoning을 위한 모듈식 뉴로 심볼릭 시스템 구성.
    • Zhang et al. : 간결한 답변을 사용한 VLM trainingreasoning이 필요한 복잡한 문제로의 일반화를 저하시킨다고 주장. GPT-4o를 이용해 근거를 생성하고, RL을 통해 reasoning 능력을 향상.
    • LlaVA-o1: RL을 사용하지 않고, CoT prompting 대신 단계별 reasoning (요약, 해석, 추론, 결론)을 지지.
  • 본 논문은 LlaVA-o1을 기반으로 curriculum learning과 경로 탐색(path search)의 중요성을 강조.

기존 Visual Reasoning Benchmarks:

  • 다양한 visual reasoning benchmarks 존재 (e.g., CLEVR, StrategyQA, ScienceQA, MathVista, ShareGPT-4o-Reasoning).
  • 한계: 대부분 최종 답변의 정확도만 평가하고, 복잡한 시나리오에서의 step-by-step reasoning을 평가하지 않음.

본 논문이 집중하는 부분:

  • 기존 benchmarks의 한계를 지적하며, 복잡한 reasoning 시나리오에서 reasoning chains와 최종 결과를 모두 평가하는 포괄적인 benchmark의 필요성을 강조.
  • 즉, "step-by-step visual reasoning" 능력 평가에 중점을 둔 연구를 진행.

핵심 요약:

본 논문은 기존 LLMs/VLMs reasoning 연구들이 step-by-step reasoning을 간과하고 있다는 점을 지적합니다. 특히, visual reasoning 분야에서 step-by-step 과정을 평가하는 benchmark의 부재를 주요 문제점으로 인식하고, 이를 해결하기 위한 새로운 benchmarkevaluation metric, 그리고 model을 제시하는 데 중점을 두고 있습니다.

 

 

3 Step-by-Step Visual Reasoning Benchmark: VRC-Bench

복잡한 시나리오에서 reasoning 능력을 철저하게 평가하기 위해, 우리는 step-by-step visual reasoning benchmark를 소개합니다. 이 benchmark는 LMMs에 의해 생성된 reasoning chains의 논리적 진행과 최종 결과의 정확성을 모두 평가하기 위한 구조화된 도구 역할을 합니다. 과학, 수학, 의학 지식, 사회 과학 및 데이터 해석과 같은 다양한 주제를 포괄하는 다양한 datasets를 통합함으로써, 우리의 평가 benchmark가 reasoning의 다양한 측면을 포착하도록 합니다.

3.1 Benchmark Creation

Benchmark Domains: reasoning 능력에 대한 포괄적인 평가를 보장하기 위해, 우리의 step-by-step visual reasoning benchmark는 다양한 도메인에 걸쳐 여러 특정 datasets의 샘플을 통합합니다. Figure 2는 우리 benchmark에 포함된 질문과 답변의 예시를 보여줍니다. 데이터 분포는 Figure 3에 나와 있습니다.

 

Figure 3: 이 그림은 우리의 포괄적인 benchmark 구조와 제안된 ReasoningChain-Bench에서 LMMs의 비교 성능을 보여줍니다. (왼쪽) dataset는 수학적 및 논리적 reasoning(예: 231개 샘플의 MathVista 및 158개 샘플의 LogicVista), 과학적 reasoning(예: 83개 샘플의 Science-QA), visual perception(예: 35개 샘플의 Blink-IQ-Test)을 위해 신중하게 선택된 샘플을 포함하여 여러 도메인에 걸쳐 있습니다. 또한 medical imaging(예: 29개 샘플의 MMMU-Medical), 문화 및 사회적 이해(예: 104개 샘플의 ALM-Bench), OCR을 통한 문서 이해(예: 61개 샘플의 Doc-VQA)와 같은 전문 분야도 포함합니다. chart 및 diagram 이해(예: 107개 샘플의 Chart-VQA)와 같은 tasks를 통합함으로써, 우리 dataset는 광범위한 실제 응용 프로그램을 다룰 뿐만 아니라 복잡한 multimodal 정보를 reasoning, 인식 및 해석하는 LMM의 능력을 확장합니다. (오른쪽) 막대 차트는 VRC-Bench에서 다양한 SoTA reasoning models를 비교하여 최종 답변 정확도와 step-by-step reasoning 점수를 모두 강조합니다. 복잡한 reasoning tasks에 대해 평가된 models에는 GPT-4o, Gemini-2.0-Flash, Claude-3.5-Sonnet 및 Llava-CoT가 포함됩니다. 우리의 benchmark는 정확한 최종 답변을 생성하는 능력뿐만 아니라 reasoning steps의 일관성과 논리적 흐름에 대해서도 models를 평가합니다. 우리의 접근 방식인 LlamaV-o1은 VRC-Bench에서 GPT-4o-mini, Gemini-1.5-Flash 및 Llava-CoT를 능가하여 복잡한 multimodal reasoning tasks 전반에 걸쳐 최종 답변 정확도에서 우수한 결과를 달성합니다.

 

 

 

 

이러한 다양한 출처를 통합함으로써, 우리는 광범위한 reasoning 시나리오를 포착하여, 복잡한 질문에 대응하는 models의 능력에 대한 광범위한 평가를 가능하게 합니다. 이러한 다양한 데이터 샘플을 기반으로, 우리는 자세한 근거(rationales)와 함께 반자동 주석 파이프라인을 사용하여 step-by-step reasoning steps를 생성합니다. 다음으로, benchmark에서 다루는 주요 도메인을 간략하게 설명한 다음 주석 프로세스를 설명합니다.

  • Mathematical and Logical Reasoning: 이 카테고리에는 수학적 및 논리적 tasks에 중점을 둔 datasets가 포함됩니다. MathVista는 다양한 수학 문제를 제공하고, DynaMath는 동적인 수학적 과제를 제공합니다. 또한 ChartQA는 chart 및 diagram 이해와 관련된 tasks를 포괄하여 논리적 맥락에서 visual reasoning을 평가할 수 있습니다.
  • Scientific Reasoning: 과학적 reasoning을 위해, 우리는 Science-QA의 샘플을 포함하여 과학적 지식과 reasoning을 기반으로 질문에 답하는 model의 능력을 테스트합니다. 또한, MMMU-Medical은 medical imaging tasks에 중점을 두어 복잡한 multimodal medical data를 해석하는 model의 능력을 평가합니다.
  • Cultural and Social Understanding: 다양한 문화적 시나리오를 인식하고 해석하는 model의 능력을 평가하기 위해, 사회 및 문화적 맥락에 대한 이해를 평가하도록 설계된 ALM-Bench의 샘플을 포함합니다.
  • Other Visual Reasoning Scenarios: 우리는 다른 visual reasoning datasets의 샘플도 추가로 포함합니다. LogicVista와 Blink-IQ는 복잡한 visual perception에 중점을 두어, model이 복잡한 시각적 정보를 분석하고 해석해야 하는 과제를 제공합니다. Doc-VQA는 OCR 및 문서 이해를 목표로 하여, 텍스트 기반 문서에서 정보를 추출하는 model의 능력을 평가합니다. 마지막으로, MMMU와 BLINK (Art Split)는 visual reasoning tasks에 기여합니다.

Semi-Automatic Step-by-Step Reasoning Generation: 우리는 step-by-step reasoning 응답을 생성하기 위해 반자동 접근 방식을 채택합니다. 우리는 먼저 GPT-4o model을 사용하여 우리 dataset의 다양한 질문에 대한 자세한 reasoning steps와 답변을 생성합니다. 여기에는 model이 자세한 논리적 reasoning을 생성하도록 안내하기 위해 특정 prompts를 작성하는 것이 포함됩니다. 이러한 방식으로, 우리는 원하는 답변에 도달하는 데 필요한 모든 단계와 조치를 포함하는 step-by-step reasoning과 함께 일관된 형식으로 다양한 reasoning chains를 효율적으로 생성합니다. 추가 세부 정보는 Appendix (Section A.1)에 제공됩니다.

Manual Verification: 자동화된 응답이 항상 신뢰할 수 있는 것은 아니기 때문에, 우리는 모든 reasoning steps가 정확하고 올바른지 확인하기 위해 수동 검증을 수행합니다. 이 단계에서, 검증자 팀은 생성된 reasoning chains와 최종 답변을 꼼꼼하게 검토하여 명확성과 정확성을 높이기 위해 필요한 조정을 합니다. 우리의 benchmark는 Fig. 3과 같이 8개 이상의 다양한 카테고리에 걸친 예제로 구성됩니다. 우리는 검증자에게 필요한 경우 누락된 reasoning steps를 추가하도록 요청하고, 검증 후 3개 미만의 reasoning steps가 있는 예제는 삭제하지만 MathVista의 일부 샘플은 2단계로 해결될 수 있으므로 제외합니다. 데이터의 25% 이상이 수동 검증 중에 수정되어 1,000개 이상의 샘플과 신중하게 검증된 4,173개의 reasoning steps가 생성되었습니다. 수동 검증 단계는 신뢰할 수 있는 ground truth를 확립하는 데 필수적이며, 이는 우리 평가에서 LMMs 성능을 평가하기 위한 benchmark 역할을 합니다.

3.2 Evaluation Framework

reasoning chains를 평가하기 위해 여러 이전 방법들이 제안되었지만, 이러한 방법들은 다양한 한계를 보입니다. 이 방법들은 설정된 ground truth에 의존하지 않기 때문에 참조 없는(reference-free) 접근 방식을 채택합니다. 이는 평가의 유연성을 허용하지만, 심각한 문제를 초래할 수 있습니다. 예를 들어, reasoning steps가 논리적으로 배열되어 있더라도 사소한 오류가 reasoning chain에서 큰 혼란을 초래할 수 있지만 여전히 높은 점수를 받을 수 있습니다. 이는 평가의 정확성을 손상시키는데, reasoning의 품질을 진정으로 반영하지 않기 때문입니다. 우리 연구에서, 우리는 점수를 매기기 위해 ground truth를 갖는 것의 중요성을 강조합니다. 생성된 응답을 신뢰할 수 있는 참조와 비교함으로써, 우리는 평가의 정확성을 개선하고자 합니다. ground truth reasoning chain을 사용하면 부정확성을 더 잘 식별하고 해결할 수 있습니다.

Evaluation Metric: 참조 없는 metrics의 단점을 극복하기 위해, 우리는 GPT-4o를 사용하여 model에서 생성된 예측을 ground truth와 비교합니다. 이 방법을 사용하면 정렬 및 정확성의 다양한 측면에 중점을 둔 특정 metrics를 사용하여 reasoning 품질을 평가할 수 있습니다. 우리는 참조 없는 ROSCOE metrics suite를 기반으로 하고 참조 기반 metric을 제안합니다. 우리 metric에 사용된 측정값의 세부 정보는 Table 1에 나와 있습니다.

 

Table 1: LMMs에서 reasoning의 품질을 평가하기 위해 우리 평가에서 고려된 포괄적인 속성 세트에 대한 개요입니다. 이러한 속성은 faithfulness, informativeness, 그리고 reasoning steps의 논리적 일관성과 같은 중요한 측면에 중점을 둡니다. 주요 측정에는 소스와의 reasoning steps 정렬(Faithfulness-Step 및 Token), 정보의 완전성(Informativeness-Step), 그리고 hallucinations, redundancy, 또는 누락된 steps와 같은 문제 식별이 포함됩니다. Semantic Coverage 및 Reasoning Alignment와 같은 추가 metrics는 응답의 논리적, 의미적 무결성을 평가합니다. 이러한 metrics는 함께 LLM 생성 reasoning의 정확성, 완전성 및 신뢰성을 평가하기 위한 강력한 framework를 제공합니다.

 

 

예를 들어, 우리는 Faithfulness-Step 및 Faithfulness-Token metrics를 사용하여 reasoning이 소스와 얼마나 잘 일치하는지 평가합니다. Faithfulness-Step metric은 정렬을 1에서 10까지의 척도로 점수를 매겨 각 reasoning step의 정확성에 대한 명확한 피드백을 제공합니다. 우리는 또한 모든 중요한 정보가 포함되었는지 확인하는 Informativeness-Step을 측정합니다. Hallucination 및 Redundancy와 같은 속성을 통합함으로써, 명확성을 저해하는 관련 없거나 반복적인 reasoning을 발견할 수 있습니다. 최종 점수 계산 프로세스는 모든 속성 점수의 평균을 내어 reasoning 품질에 대한 포괄적인 평가를 제공합니다. 점수 계산에 사용된 시스템 prompt와 같은 추가 세부 정보는 Appendix (Section A.2)에 제공됩니다.

 

 

4 Proposed Step-by-Step Visual Reasoning Model: LlamaV-o1

우리가 제안하는 접근 방식은 LMMs에서 multimodal reasoning을 발전시키기 위한 몇 가지 핵심 기여를 소개합니다. 첫째, 우리는 curriculum learning을 활용하여 점진적으로 model을 training합니다. 요약 및 질문 기반 캡션 생성과 같은 기초적인 tasks부터 시작하여 자세한 multi-step reasoning으로 나아갑니다. 이 구조화된 접근 방식은 model이 복잡성을 관리하고, 논리적 일관성을 개선하며, 도전적인 시나리오에 효과적으로 일반화하는 데 도움이 됩니다. 둘째, 우리는 간단하지만 효과적인 Beam Search 기술로 inference를 효율적으로 확장합니다. 이 기술은 여러 개의 빔을 병렬로 생성하고 가장 최적의 빔을 선택하여 효율성과 고품질 출력을 모두 보장합니다. 이 방법은 기존 방식의 선형 확장에 비해 계산 비용을 크게 줄여 model calls 측면에서 일정한 확장을 달성합니다.

4.1 Curriculum Learning for Large Multimodal Models

LMMs는 텍스트, 이미지, 비디오와 같은 서로 다른 데이터 유형에 걸쳐 내용을 이해하고 생성하는 강력한 도구입니다. 그러나 이러한 models에서, 특히 복잡한 multi-step 시나리오에서 reasoning은 고유한 과제를 제시합니다. models는 종종 step-by-step reasoning을 처리하는 데 어려움을 겪습니다. 왜냐하면 reasoning은 입력을 이해하는 것뿐만 아니라 여러 단계에 걸쳐 일관성과 논리적 명확성을 유지해야 하기 때문입니다. 여기서 curriculum learning이 필수적인 전략이 됩니다. 인간 교육 시스템에서 영감을 받은 curriculum learning은 model을 점진적으로 training하는 것을 포함하며, 더 간단한 tasks부터 시작하여 점차 더 복잡한 tasks를 도입합니다. 이 접근 방식은 특히 tasks가 여러 modalities에 대한 reasoning을 요구할 때, 다양한 tasks에 걸쳐 model 성능을 개선하는 데 상당한 이점이 있음을 보여주었습니다. 예를 들어, curriculum learning은 Visual Question Answering (VQA) 및 captioning tasks와 같은 multimodal learning에 성공적으로 적용되었습니다. 이러한 연구들은 더 간단한 예제로 먼저 trained된 후 점차 tasks 난이도를 높인 models가 더 복잡한 문제에 더 잘 일반화할 수 있음을 보여줍니다.

curriculum learning은 점진적인 training 전략을 채택하여 LMMs에서 reasoning 능력을 향상시키는 강력한 접근 방식입니다. 복잡한 task부터 시작하여 점차 더 어려운 과제를 도입함으로써, models가 기초 기술을 점진적으로 구축하도록 돕습니다. multimodal models의 경우, 이 구조화된 진행은 복잡성을 효과적으로 관리할 수 있도록 합니다. 먼저 텍스트와 이미지를 연결하는 것과 같은 modalities 간의 기본 관계를 해석하는 것을 학습한 다음 더 복잡한 시나리오를 다루기 때문입니다. 논리적 reasoning을 위한 강력한 기반을 보장함으로써, curriculum learning은 multi-step tasks의 일관성을 개선하여, models가 단계 전반에 걸쳐 일관성과 정렬을 유지할 수 있도록 합니다. 또한, curriculum learning은 models가 복잡한 tasks에 직접 fine-tuned될 때 발생할 수 있는 파국적 망각(catastrophic forgetting)과 같은 문제를 해결하여 과적합 및 일반화 성능 저하를 초래합니다. 더 간단한 tasks에 초점을 맞춤으로써, models는 더 진보된 문제로 진행하기 전에 기본적인 패턴을 공고히 합니다. 이 접근 방식은 기본적인 기술을 숙달한 다음 복잡한 개념을 다루는 인간 학습을 반영하여 더 나은 일반화와 적응성을 보장합니다. 전반적으로, curriculum learning은 reasoning 능력을 개발하기 위한 강력한 framework를 확립하여, 광범위한 실제 응용 분야에서 multimodal models를 더 신뢰할 수 있고 효과적으로 만듭니다.

4.2 Multi-Step Chain-of-Thought for Improved Reasoning

Multi-step chain-of-thought reasoning은 순차적 의사 결정과 논리적 일관성이 필요한 복잡한 tasks를 해결하는 데 중요합니다. 종종 중간 단계를 간과하는 single-step reasoning과 달리, multi-step reasoning을 통해 models는 문제를 더 작고 관리 가능한 부분으로 분해하여 프로세스 전반에 걸쳐 투명성과 일관성을 보장할 수 있습니다. 이 step-by-step 접근 방식은 인간이 각 단계를 체계적으로 추론하여 복잡한 문제를 해결하는 방식을 반영합니다. 예를 들어, 이미지에 대한 다각적인 질문에 답하는 것은 객체를 식별하고, 그들의 관계를 이해하고, 이 정보를 종합하여 일관된 답변을 형성하는 것을 포함할 수 있습니다. multi-step reasoning을 수용하는 것은 multimodal models의 해석 가능성을 향상시킬 뿐만 아니라 인간과 유사한 문제 해결에 더 가깝게 정렬하여, 더 강력하고 다재다능한 AI 시스템을 위한 발판을 마련합니다.

4.2.1 Multi-Step Reasoning Stages

chain-of-thought (CoT) frameworks에서의 Multi-step reasoning은 models가 복잡한 tasks를 점진적인 단계로 분해하여 문제 해결에 대한 인간의 접근 방식을 반영할 수 있도록 합니다. 이 구조화된 프로세스는 각 reasoning step이 명시적이고 논리적임을 보장하여 투명성과 정확성을 향상시킵니다. 우리의 multi-step reasoning은 아래 상자에 예시로 나와 있듯이 다음 단계로 구성됩니다.

  • Task Understanding: model은 질문과 맥락을 이해하는 것으로 시작합니다.
  • Task Summarization: 다음 단계는 visual data의 요약을 생성하여 model이 전체론적 이해를 갖도록 하는 것입니다. 이 단계는 model이 최종 답변을 얻기 위해 취해야 할 관련 조치 항목에 집중할 수 있도록 준비시킵니다.
  • Detailed Caption Generation: 범위를 더 좁히기 위해, model은 자세한 캡션을 생성하여 차트의 특정 레이블과 해당 값을 식별합니다. 이 단계는 model이 시각적 요소를 정확하게 해석하도록 합니다.
  • Logical Reasoning: 그런 다음 model은 필요한 데이터를 찾고 해석하기 위한 논리적 reasoning 프로세스를 공식화합니다. 이 reasoning 단계는 task를 하위 목표로 분해하여 체계적인 접근 방식을 보장합니다.
  • Final Answer Generation: 마지막으로, model은 reasoning 프로세스와 추출된 맥락을 기반으로 최종 답변을 출력합니다.

reasoning을 이러한 단계로 분해하면 models가 복잡한 쿼리를 체계적으로 처리하여 오류를 줄이고 해석 가능성을 향상시킵니다. multi-step training은 각 단계를 효과적으로 처리하는 능력을 강화하여, LMMs가 step-by-step logical reasoning이 필요한 tasks에서 더 잘 수행할 수 있도록 합니다. 이 접근 방식은 정확성을 향상시킬 뿐만 아니라 model의 출력을 확인하고 개선하기 위한 투명한 경로를 제공합니다.

4.2.2 Data Preparation and Model Training

curriculum learning 전략을 효과적으로 구현하기 위해, 우리는 model training 프로세스를 두 단계로 나누어, 각 단계가 model의 reasoning 능력을 점진적으로 향상시키는 동시에 multimodal 입력에 대한 강력한 이해를 보장하도록 설계했습니다. 이 구조화된 접근 방식을 통해 model은 첫 번째 단계에서 기초적인 reasoning 기술을 습득하고 두 번째 단계에서는 자세한 step-by-step 답변을 제공하는 능력을 점진적으로 개선할 수 있습니다.

Stage 1: Training for Summarization and Caption Generation: 첫 번째 단계에서, model은 두 가지 중요한 구성 요소를 생성하도록 trained됩니다: (1) 질문에 답하는 데 필요한 접근 방식의 요약, (2) 이미지의 시각적 요소와 같은 입력 데이터의 관련 측면을 설명하는 자세한 캡션. 이 단계에 대한 training data는 PixMo dataset의 Cap-QA split에서 가져온 18,000개의 샘플과 G-LLaVa의 Geo170K dataset에서 가져온 57,000개의 샘플에서 파생됩니다. 각 샘플에는 입력 데이터(예: 이미지 또는 차트)와 쌍을 이루는 질문이 포함됩니다. PixMo dataset의 Cap-QA split은 입력 질문을 기반으로 하는 grounded captions가 있는 예제를 포함하는 반면, Geo170K dataset은 reasoning steps와 함께 질문-답변 쌍을 포함합니다. 이 단계는 model이 자세한 단계로 들어가기 전에 입력을 맥락화하고 high-level reasoning 계획을 개략적으로 설명하는 방법을 학습하도록 합니다. 이 단계의 초점은 model이 reasoning tasks의 구조를 파악하여 문제를 더 간단한 요소로 분리하는 능력을 향상시키는 데 도움이 되는 것입니다. 구조화된 training에 집중함으로써, model은 명확하고 체계적인 사고 흐름을 유지하면서 multi-step tasks를 처리하는 능력을 개발합니다.

Stage 2: Training for Detailed Reasoning and Final Answer Generation: 두 번째 단계에서, model은 1단계에서 확립된 기반을 바탕으로 구축됩니다. 여기서 model은 요약과 캡션을 생성할 뿐만 아니라 이러한 구성 요소를 기반으로 자세한 reasoning을 제공하도록 trained됩니다. 마지막으로, model은 reasoning 프로세스에서 파생된 정답을 출력합니다. 이 단계를 위해, 우리는 여러 소스에서 가져온 General VQA 및 Science-Targeted VQA와 같은 다양한 도메인을 구성하는 99,000개의 구조화된 샘플을 포함하는 원래 Llava-CoT dataset을 사용합니다. General VQA data sources에는 ShareGPT4V, ChartQA, A-OKVQA, DocVQA, PISC, CLEVR이 포함되는 반면, Science-Targeted VQA sources에는 각각 GeoQA+, AI2D, ScienceQA, 그리고 CLEVR-Math가 포함됩니다. 각 샘플은 요약, 캡션, 자세한 reasoning, 그리고 최종 답변으로 구성됩니다. 이 단계의 training 프로세스에는 multi-step 상호 작용이 포함되며, 여기서 model은 접근 방식을 점진적인 reasoning steps로 분해하는 방법을 점진적으로 학습합니다. 이 점진적 학습은 model이 논리적 흐름을 개선하고 요약 및 캡션의 정보를 실행 가능한 reasoning steps에 체계적으로 통합하도록 합니다.      

두 번째 단계에서, multi-step training 방법론은 model의 성공에 핵심입니다. 1단계 동안, model은 자신의 생각을 정리하고 전략을 개략적으로 설명하는 방법을 학습하여, 2단계에서 요구되는 자세한 reasoning을 위한 발판을 효과적으로 마련합니다. model이 2단계에 도달할 때쯤에는 이미 구조화된 접근 방식을 개략적으로 설명하는 능력을 갖추고 있어 복잡한 tasks를 step-by-step 솔루션으로 분해하는 데 집중하기가 더 쉬워집니다. 이 접근 방식은 model의 해석 가능성, 정확성 및 견고성을 향상시켜 복잡한 multimodal reasoning tasks에서 탁월한 능력을 발휘할 수 있도록 합니다. 우리의 결과는 PixMo 및 Llava-CoT와 같은 datasets를 curriculum learning framework에서 활용함으로써, model이 high-level 문제 이해에서 자세한 step-by-step reasoning으로 효과적으로 전환하여 multi-step reasoning benchmarks에서 state-of-the-art 성능을 달성할 수 있음을 보여줍니다.

Model Training: 우리는 PixMo 및 LLaVA-CoT-100k datasets를 활용하여 Supervised Fine-Tuning (SFT) 접근 방식과 결합된 curriculum learning 전략을 사용하여 model을 training합니다. 이 작업을 위해, 우리는 multimodal reasoning 및 instruction-following 기능에 대한 강력한 기반으로 인해 Llama-3.2-11B-Vision-Instruct를 기본 model로 선택합니다. fine-tuning 프로세스에는 전체 매개변수 최적화가 포함되어, model이 PixMo 및 LLaVA-CoT-100k dataset에서 제공하는 구조화된 reasoning tasks에 효과적으로 적응할 수 있도록 합니다. training은 8개의 NVIDIA A100 (80GB) GPU가 장착된 고성능 컴퓨팅 노드에서 수행되어 대규모 dataset의 효율적인 처리와 model의 계산 요구 사항을 보장합니다. curriculum learning의 초기 단계에서, model은 요약 및 캡션 생성과 같은 기초적인 reasoning 기술을 개발하기 위해 PixMo dataset에서 fine-tuned됩니다. 에포크 수, 학습률, 옵티마이저 설정 및 배치 크기와 같은 추가 training 세부 정보는 우리 작업의 재현성을 위해 Appendix에 설명되어 있습니다.

4.2.3 Optimizing Inference Efficiency: Beam Search

Inference 효율성은 특히 복잡한 reasoning tasks를 처리할 때 실제 응용 프로그램을 위해 대규모 multimodal models를 배포하는 데 있어 중요한 요소입니다. 이를 해결하기 위해, 우리는 Llava-CoT와 같은 기존 접근 방식에 비해 inference 효율성과 reasoning 품질을 크게 향상시키는 Beam Search 전략을 채택합니다. 우리의 방법은 계산 복잡성과 출력 품질의 균형을 유지하여 더 빠르고 신뢰할 수 있는 inference를 가능하게 하도록 설계되었습니다.

Simplified Output Design: Llava-CoT와 달리, 우리의 접근 방식은 고도로 구조화된 출력 형식을 요구하지 않습니다. 이러한 유연성은 reasoning 프로세스를 단순화하여, model이 엄격한 구조적 제약의 오버헤드 없이 고품질 출력을 생성하는 데 집중할 수 있도록 합니다. 이러한 설계 선택은 우리의 방법을 광범위한 reasoning 시나리오에 더 잘 적응할 수 있게 하여 tasks 전반에 걸쳐 일반화를 개선합니다.

Improved Efficiency with Beam Search: Beam Search 기술을 사용하면 여러 reasoning 경로를 병렬로 생성하고 가장 최적의 경로를 선택할 수 있습니다. 이 접근 방식은 model 출력의 품질과 일관성을 모두 향상시킵니다. 여러 후보를 평가하고 최상의 후보를 선택함으로써, 우리는 최종 답변이 논리적이고 견고하도록 보장합니다. 우리 방법의 주요 이점 중 하나는 계산 효율성입니다. 우리 접근 방식의 inference 시간 복잡도는 O(n)으로, Llava-CoT의 O(n^2) 복잡도보다 훨씬 더 효율적입니다. 이러한 선형 복잡성은 계산 비용의 비례적인 증가 없이도 우리 방법이 더 큰 datasets와 더 복잡한 reasoning tasks로 확장될 수 있도록 보장합니다.

 

 

LlamaV-o1의 핵심:

  • Curriculum LearningBeam Search를 결합하여 step-by-step visual reasoning 능력을 극대화한 multimodal model

1. Curriculum Learning (4.1 & 4.2.2):

  • 핵심 아이디어: 쉬운 task부터 어려운 task까지 점진적으로 학습.
  • 구현:
    • Stage 1: 요약(summary) 및 캡션(caption) 생성 훈련 (기반 다지기)
      • 사용 데이터셋: PixMo (18K), Geo170K (57K)
    • Stage 2: 자세한 추론(reasoning) 및 최종 답변 생성 훈련 (능력 심화)
      • 사용 데이터셋: Llava-CoT (99K) - General VQA, Science-Targeted VQA 등 포함.
  • 차별점:
    • 단순히 데이터를 섞어서 학습하는 것이 아니라, 체계적으로 난이도를 조절하여 학습.
    • Stage 1에서 reasoning의 구조를 파악하도록 훈련하고, Stage 2에서 이를 바탕으로 step-by-step reasoning 능력을 집중적으로 향상시킴.
    • PixMo와 Llava-CoT datasetscurriculum learning에 맞게 활용하여, high-level 이해에서 자세한 step-by-step reasoning으로의 효과적인 전환을 가능하게 함.

2. Multi-Step Chain-of-Thought (4.2 & 4.2.1):

  • 핵심 아이디어: 복잡한 문제를 여러 단계로 나누어 추론 (인간의 문제 해결 방식 모방).
  • 구현:
    • Task Understanding
    • Task Summarization
    • Detailed Caption Generation
    • Logical Reasoning
    • Final Answer Generation
  • 차별점:
    • Llava-CoTCoT prompting을 사용하지만, 본 논문은 명시적인 multi-step reasoning stages를 정의하여 학습.
    • 각 단계를 체계적으로 학습시켜, 투명하고 (transparent) 일관된 (consistent) reasoning을 가능하게 함.

3. Beam Search를 통한 효율적인 Inference (4.2.3):

  • 핵심 아이디어: Beam Search를 사용하여 여러 reasoning 경로를 탐색하고 최적의 경로를 선택.
  • 구현:
    • 단순화된 출력: Llava-CoT와 달리 엄격한 출력 형식 불필요.
  • 차별점:
    • Llava-CoTO(n^2) 복잡도 대비, **O(n)**의 inference 시간 복잡도를 달성하여 효율성 향상.
    • Beam Search를 통해 여러 가능성을 탐색함으로써, 최적의 reasoning 경로를 선택하고, 최종 답변의 정확도를 높임.

4. Model Training (4.2.2):

  • Base Model: Llama-3.2-11B-Vision-Instruct
  • 최적화: Full-parameter fine-tuning
  • 하드웨어: 8 NVIDIA A100 (80GB) GPUs

정리:

  • LlamaV-o1Curriculum LearningBeam Search를 결합하여 step-by-step visual reasoning에 특화된 모델.
  • 체계적인 난이도 조절 (Curriculum Learning), 명시적인 multi-step reasoning stages, 효율적인 inference (Beam Search) 가 핵심 차별점.
  • 기존 연구들이 최종 답변의 정확도에만 집중했던 것과 달리, reasoning 과정의 질 (quality)과 효율성 (efficiency) 을 모두 향상시키는 데 중점을 둠