AI바라기의 인공지능

VLM : 논문리뷰 : We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning? 본문

논문리뷰

VLM : 논문리뷰 : We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

AI바라기 2025. 2. 10. 17:07

Overall Summary:

WE-MATH는 LMMs의 visual mathematical reasoning 능력을 심층적으로 평가하기 위한 새로운 benchmark이며, knowledge concept 단위의 분석을 통해 LMMs의 강점과 약점을 파악하고, human-like reasoning에 더 가까워지도록 유도하는 데 기여할 수 있음. 특히, GPT-4o가 knowledge generalization 단계에 진입했음을 보여주며, 향후 LMMs 발전의 가능성을 제시함.

쉬운 설명:

이 논문은 LMM(Large Multimodal Model)이 그림이 포함된 수학 문제를 얼마나 잘 푸는지, 그리고 사람이 수학 문제를 푸는 방식과 얼마나 유사하게 추론하는지를 평가하기 위한 새로운 방법(WE-MATH)을 제시합니다. WE-MATH는 단순히 정답을 맞히는 것뿐만 아니라, 문제를 풀기 위해 필요한 각각의 세부 지식(knowledge concept)을 얼마나 잘 이해하고 활용하는지, 그리고 여러 지식을 조합하여 복잡한 문제를 해결하는 능력이 있는지를 4가지 지표(IK, IG, CM, RM)로 세분화하여 평가합니다. 실험 결과, GPT-4o와 같은 최신 LMM도 여전히 기초 지식은 부족하지만(IK), 외워서 문제를 푸는 경향(RM)이 있고, 여러 지식을 조합하여 일반화하는 능력(IG)은 더 발전해야 함을 보여줍니다.

 

 

 

WE-MATH: 사람이 수학 문제를 푸는 것처럼 LMM의 수학적 추론 능력을 평가하기 위한 학습 노트

Purpose of the Paper:

  • 기존 Large Multimodal Models (LMMs)의 visual mathematical reasoning 평가 benchmark들은 주로 결과 중심적인 성능 평가에만 집중하고, knowledge acquisition 및 generalization 과정에서 underlying principles를 간과하는 경향이 있음.
  • 본 논문은 이러한 한계를 극복하기 위해, human-like mathematical reasoning에서 영감을 받아, end-to-end 성능을 넘어 problem-solving principles를 탐구하는 최초의 benchmark인 WE-MATH를 제안함.
  • WE-MATH는 단순한 정답/오답 여부를 넘어, LMM이 문제를 해결하는 과정에서 어떤 knowledge concept를 이해하고, 어떻게 활용하는지, 그리고 얼마나 일반화된 추론 능력을 보이는지를 심층적으로 평가하는 것을 목표로 함.

Key Contributions:

  • WE-MATH Dataset: 6.5K개의 visual math problems을 포함하는 데이터셋을 meticulously하게 수집 및 categorizing. 67개의 hierarchical knowledge concepts와 5 layers of knowledge granularity를 포괄하여 visual mathematical reasoning의 다양한 측면을 평가.
  • Novel Four-Dimensional Metric: LMM의 reasoning process 내재된 문제를 계층적으로 평가하기 위해 Insufficient Knowledge (IK), Inadequate Generalization (IG), Complete Mastery (CM), Rote Memorization (RM)의 4차원 metric을 도입. Composite problems를 sub-problems로 decompose하여, knowledge concept 단위의 이해도 및 활용 능력을 평가.
  • Knowledge Augmentation Strategy: LMM의 IK 문제를 해결하기 위해, Wikipedia 및 textbooks에서 추출한 67개의 knowledge concept에 대한 설명을 제공하는 heuristic knowledge concept augmented (KCA) strategy 제안.
  • Negative Correlation Revelation: Solving step과 problem-specific performance 간의 negative correlation을 밝혀냄. 즉, knowledge concept 수가 많은(solving step이 많은) 문제일수록 LMMs의 성능이 떨어짐을 확인함.
  • First LMM toward knowledge generalization stage: GPT-4o가 LMMs중 최초로 IK 이슈를 해결하고, IG, 즉 knowledge generalization 단계로 진입하고 있음을 실험으로 밝힘.

Novelty:

  • Problem-solving principles를 탐구하기 위한 첫번째 benchmark dataset.
  • LMM의 reasoning process를 평가하는 새로운 metric 개발.
  • Knowledge concept에 대한 설명을 제공하는 전략 제시.

Experimental Highlights:

  • WE-MATH를 사용하여 visual mathematical reasoning 분야의 기존 LMMs (GPT-4o, Gemini-1.5-Pro, LLaVA-NeXT-110B 등)에 대한 철저한 평가를 수행함.
  • GPT-4o가 다른 LMMs에 비해 IK 이슈는 상당히 해결했지만, 여전히 IG, 즉, knowledge generalization 측면에서 어려움을 겪고 있음을 확인함.
  • 대부분의 LMMs가 Rote Memorization 경향을 보임. 즉, multiple knowledge concepts가 필요한 composite problems는 해결하지만, 해당 sub-problems는 해결하지 못하는 현상을 확인함.
  • 제안된 KCA strategy가 LMMs의 IK 이슈를 효과적으로 개선할 수 있음을 확인함.
  • LMMs가 calculation에는 능숙하지만, fine-grained visual measurement ("Angles and Length")에는 어려움을 겪는다는 것을 밝혀냄.

Limitations and Future Work:

  • IK 문제는 KCA를 통해 어느정도 해결되었지만, IG 문제는 여전히 남아있음. 이는 LMM의 knowledge generalization 능력을 향상시키는 것이 중요한 과제임을 시사함.
  • RM 현상은 LMMs가 진정으로 mathematical reasoning 능력을 갖추었는지에 대한 의문을 제기함. 향후 연구에서는 RM 현상을 줄이고, LMM이 knowledge concept를 truly 이해하고 활용할 수 있도록 하는 방법을 모색해야 함.
  • 현재 benchmark는 초등 수학 문제에 집중되어 있음. 향후에는 더 다양한 난이도와 유형의 문제를 포함하도록 확장할 필요가 있음.

 

Abstract

Visual mathematical reasoning은 기본적인 visual reasoning 능력으로서, Large Multimodal Models (LMMs) 커뮤니티로부터 광범위한 관심을 받아왔습니다. 기존 benchmarks는 결과 지향적인 성능에 더 초점을 맞추고 있지만, 지식 습득 및 일반화의 기본 원리를 간과하고 있습니다. 인간과 유사한 수학적 추론에서 영감을 받아, 우리는 end-to-end 성능을 넘어 문제 해결 원리를 탐구하기 위해 특별히 설계된 최초의 benchmark인 WE-MATH를 소개합니다.

우리는 6.5K개의 visual math 문제를 세심하게 수집하고 분류했으며, 이는 67개의 계층적 지식 concepts와 5단계의 지식 세분성을 포괄합니다. 우리는 먼저 복합 문제를 필요한 지식 concepts에 따라 하위 문제로 분해하고, LMMs의 reasoning 프로세스에서 내재된 문제를 계층적으로 평가하기 위해 Insufficient Knowledge (IK), Inadequate Generalization (IG), Complete Mastery (CM), Rote Memorization (RM)이라는 새로운 4차원 metric을 도입했습니다.

WE-MATH를 사용하여 visual mathematical reasoning에서 기존 LMMs에 대한 철저한 평가를 수행하고, solving step과 문제별 성능 간의 음의 상관관계를 밝혀냈습니다. 우리는 LMMs의 IK 문제가 knowledge augmentation 전략을 통해 효과적으로 개선될 수 있음을 확인했습니다.

더욱 주목할 만한 점은 GPT-4o의 주요 과제가 IK에서 IG로 크게 전환되어 지식 일반화 단계를 향해 나아가는 최초의 LMM이 되었음을 확인했습니다. 반대로, 다른 LMMs는 Rote Memorization에 대한 뚜렷한 경향을 보입니다. 즉, 여러 지식 concepts를 포함하는 복합 문제는 올바르게 해결하지만, 하위 문제에 대한 답변에는 실패합니다.

우리는 WE-MATH가 LMMs의 visual mathematical reasoning 발전을 위한 새로운 길을 열 것으로 기대합니다.

 

1 Introduction

더보기

"나는 생각한다, 고로 존재한다." — 르네 데카르트

인간의 인지 및 reasoning 패턴은 deep learning의 발전에 큰 영향을 미쳤습니다. 초기 neural networks의 디자인은 뇌의 뉴런 메커니즘에서 영감을 받았습니다. 이는 knowledge 습득의 인간 인지 과정을 모방하기 위해 convolution kernels와 계층적 network를 사용합니다. 최근, Transformers는 attention mechanisms을 사용하여 여러 information flows를 처리하고 중요한 내용에 빠르게 집중함으로써 보다 효율적이고 심층적인 sequential learning을 달성합니다. Transformer architecture와 pre-training 기술의 확장성 덕분에, Large Language Models (LLMs) 및 Large Multimodal Models (LMMs)는 광범위한 tasks에서 인간의 성능과 유사한 강력한 reasoning 능력을 보여주며 Artificial General Intelligence (AGI)의 초기 윤곽을 엿볼 수 있게 합니다.

Mathematical reasoning은 foundational models의 중요한 능력입니다. 기존 방법들은 Chain of Thought (COT), Program of Thought (POT), Tool-integrated 기술 및 data augmentation 전략을 사용하여 LLMs가 인간과 유사한 reasoning 패턴을 모방하도록 유도합니다. 더 어려운 시나리오에서, Visual mathematical reasoning은 model이 이미지의 visual information을 정확하게 decoding하고 textual problem을 기반으로 reasoning을 수행해야 합니다. Large multimodal models (LMMs)의 급속한 발전으로 연구자들은 점차적으로 LMMs를 활용하여 visual mathematical problems을 해결하고 있습니다. 이러한 연구는 multi-modal 논리적 사고 능력의 지속적인 개선에 대한 귀중한 통찰력을 제공합니다.

Visual mathematical reasoning 능력을 체계적으로 평가하기 위해 이전의 노력들은 어려운 기하학 문제에 초점을 맞추었습니다. 최근, 여러 benchmarks는 더 넓은 범위의 분야를 포함하도록 범위를 확장했습니다. 그러나 이러한 benchmarks는 평가를 위해 end-to-end 결과에만 의존하여 LMMs의 reasoning process 내의 내재된 문제를 식별하지 못합니다. 더욱이, MathVerse는 참조 답변을 기반으로 reasoning 경로를 직접 평가하려고 시도하지만, mathematical reasoning의 지식 집약적인 특성으로 인해 한계가 남아 있습니다. 인간이 지식 concepts를 점진적으로 숙달하고 일반화하여 복잡한 수학 문제를 해결한다는 점에 주목하면서, 우리는 model의 reasoning process에 대한 공정한 평가는 지식 concepts를 기반으로 해야 한다고 주장합니다. 따라서 우리는 mathematical reasoning 평가에 대해 두 가지 질문을 제기합니다.

  • Q1: 정답이 LMM이 그러한 문제를 정확하게 추론하는 능력을 진정으로 반영하는가?
  • Q2: 오답이 LMM의 reasoning process에서 foundational knowledge의 부족을 시사하는가?

이에 대한 응답으로, 우리는 visual mathematical reasoning에서 LMMs의 기본 원리에 대한 심층 분석을 수행하기 위한 선구적인 benchmark인 WE-MATH를 제시합니다. WE-MATH는 6.5K개 이상의 신중하게 선택된 visual math problems로 구성되어 있으며, 이는 포괄적인 범위를 보장하기 위해 67개의 knowledge concepts에 걸쳐 5 layers의 지식 세분성으로 분류될 수 있습니다.

우리는 실제 수학 문제가 일반적으로 여러 foundational knowledge concepts를 포함하고 있으며, 그 난이도는 관련된 concepts의 수와 직접적인 관련이 있음을 관찰했습니다. 이를 바탕으로, 우리는 k개의 지식 concepts를 가진 복합 문제를 해결하는 model의 능력을 두 단계로 분리합니다.

  1. LMMs는 각 knowledge concept에 해당하는 k개의 개별 하위 문제를 해결할 수 있습니다.
  2. LMMs는 k개의 개별 지식 concepts를 통합하여 최종 답변을 추론합니다.

위의 과정은 다음과 같이 공식화할 수 있습니다.

P(Y | X) = Π(i=1 to k) P(yᵢ | xᵢ) * P_reason

여기서 (X, Y)와 (xᵢ, yᵢ)는 각각 복합 수학 문제와 i번째 하위 문제의 (question, answer) 쌍을 나타냅니다. P_reason은 LMMs의 reasoning 능력을 나타냅니다. Reasoning process를 평가하는 것은 최종 답변에만 의존할 수 없다는 것이 분명합니다. 복합 문제를 관련된 지식 concept에 따라 개별 하위 문제로 분해하기 위해 WE-MATH에서 여러 지식 concepts를 가진 1.5k개의 고품질 문제를 선택합니다.

방정식 1에 따라, 이러한 복합 문제는 전문 주석가에 의해 점진적으로 one-step 문제 (xᵢ, yᵢ)로 분해됩니다. 인간의 reasoning patterns에 동기를 부여받아, WE-MATH는 LMMs의 문제 해결 능력의 내재된 격차를 정확하게 평가하기 위해 Insufficient Knowledge (IK), Inadequate Generalization (IG), Complete Mastery (CM), Rote Memorization (RM)이라는 4차원 metric을 추가로 도입했습니다. 근본적인 IK 문제를 더 해결하기 위해, 우리는 67개의 knowledge concepts에 대한 설명을 Wikipedia와 교과서에서 구성하여 LMMs의 reasoning에 필수적인 지식을 제공하는 휴리스틱 knowledge concept augmented (KCA) 전략을 제안합니다.

그림 1은 우리의 개요 실험 결과를 보여줍니다. 놀랍지 않게도, GPT-4o는 다양한 visual mathematics 카테고리에서 최고의 전반적인 성능을 달성합니다. Closed-source LLMs (GPT-4V, Gemini 1.5 Pro) 및 더 큰 parameter scales를 가진 LMMs (LLaVA-NeXT-110B)는 일반적으로 우수한 visual mathematical reasoning 능력을 보여줍니다. 그러나 대부분의 LMMs는 one-step 문제에 비해 multi-step 문제에서 훨씬 더 나쁜 성능을 보이며, 이는 knowledge concepts의 수가 문제의 난이도와 양의 상관관계가 있고 LMM 성능과 음의 상관관계가 있음을 시사합니다. 전문 분야에서 대부분의 LMMs는 계산에 탁월하지만, 미세한 visual measurement ("Angles and Length")에서는 지속적으로 어려움을 겪습니다.

Reasoning 평가를 위해, 우리는 knowledge concepts의 숙달이 기본임을 강조합니다. 불행하게도, 대부분의 LMMs는 여전히 Insufficient Knowledge 문제, 특히 소규모 models (예: LLaVA-1.6-7B 및 DeepSeek-VL-1.3B에서 350개 이상의 IK 문제)로 어려움을 겪고 있습니다. GPT-4o는 이러한 지식 격차를 크게 해소하여 지식 일반화 단계를 향해 나아가는 최초의 LMM으로 자리매김했습니다. 더 주목할 만한 점은, 여러 LMMs가 여전히 Rote Memorization (예: G-LLaVA-13B는 RM (Loose)에서 거의 36%)에 대한 뚜렷한 경향을 보이며, 현재 LMMs가 진정으로 mathematical reasoning 능력을 보유하고 있는지에 대한 의문을 제기합니다. 또한, 우리가 제안한 KCA 전략은 LMMs에서 IK 문제를 실질적으로 줄여주며, 오류 분석은 인간과 유사한 reasoning을 향한 경험적 지침을 제공합니다. 우리는 WE-MATH가 LMMs에서 visual mathematical reasoning의 발전을 위한 새로운 길을 열 것으로 기대합니다.

 

 

Figure 1: WE-MATH에 대한 LMMs의 성능 개요. 왼쪽에서 오른쪽으로 나열된 그림들은 다음을 나타냅니다.

(1) 다양한 문제 해결 steps에 대한 여러 LMMs의 accuracy. (2) 다양한 visual mathematics 카테고리에서의 성능. (3) knowledge 기반 reasoning 평가 결과.

 

 

 

 

1. Introduction 섹션 정리 노트 (AI 연구자 대상)

핵심: 기존 Large Multimodal Models (LMMs)의 visual mathematical reasoning 평가 방식의 문제점을 지적하고, 새로운 벤치마크인 WE-MATH를 제안.

문제 제기:

  • 기존 벤치마크는 최종 결과(정답 여부)만 평가하여, LMMs의 reasoning process 내부 문제점을 파악하기 어려움.
  • 수학적 추론은 지식 집약적이므로, reasoning 경로를 정답과 비교하는 것만으로는 평가에 한계.
  • 다음 두 가지 질문을 던짐:
    • Q1: 정답이 LMM의 정확한 추론 능력을 반영하는가?
    • Q2: 오답이 LMM의 foundational knowledge 부족을 의미하는가?

WE-MATH 제안:

  • 6.5K개 이상의 visual math problems로 구성.
  • 67개 knowledge concepts, 5단계 지식 세분성으로 분류.
  • 복합 문제를 knowledge concepts 단위의 하위 문제로 분해하여 평가.
    • 핵심 아이디어: 복합 문제 해결 능력 = (1) 개별 하위 문제 해결 능력 + (2) 개별 지식 통합 능력
    • 수식: P(Y | X) = Π(i=1 to k) P(yᵢ | xᵢ) * P_reason
  • 4차원 평가 metric (새로운 평가 지표):
    • Insufficient Knowledge (IK): foundational knowledge 부족.
    • Inadequate Generalization (IG): 지식 일반화 능력 부족.
    • Complete Mastery (CM): 지식 완전 숙달.
    • Rote Memorization (RM): 암기 기반 해결 (진정한 reasoning 능력 부족).
  • Knowledge Concept Augmented (KCA) 전략: IK 문제 해결을 위해 Wikipedia 등에서 knowledge concepts 설명 제공.

실험 결과 (Figure 1):

  • GPT-4o가 최고 성능.
  • 대부분 LMMs는 multi-step 문제에서 성능 저하 (solving step과 성능 간 음의 상관관계).
  • LMMs는 여전히 IK 문제 존재 (특히 소규모 모델). GPT-4o는 IK 문제 개선, IG 단계 진입.
  • 일부 LMMs는 RM 경향 (G-LLaVA-13B).
  • KCA 전략이 IK문제 감소에 효과가 있음.

결론: WE-MATH는 LMMs의 visual mathematical reasoning 능력 평가 및 개선에 기여할 것.


쉬운 설명:

  1. Introduction 섹션에서는 기존의 visual mathematical reasoning 평가 방식이 "겉핥기"식이라고 비판합니다. 마치 객관식 시험에서 정답만 맞히면 그 내용을 완벽히 이해했다고 판단하는 것과 같다고 말이죠.
  2. 이 논문은 문제 풀이 '과정'을 제대로 평가해야 한다고 주장합니다. 예를 들어, 복잡한 방정식을 풀 때, (1) 각 단계에 필요한 공식을 알고 있는지, (2) 그 공식들을 올바른 순서로 조합하여 문제를 해결할 수 있는지, 이 두 가지를 모두 평가해야 한다는 것이죠.
  3. 이를 위해 WE-MATH라는 새로운 데이터셋과 평가 방법을 제안합니다. 이 데이터셋은 문제를 작은 단위(knowledge concepts)로 쪼개서, 모델이 어떤 부분에서 어려움을 겪는지 (지식이 부족한지, 아니면 지식을 응용하는 능력이 부족한지) 정확하게 파악할 수 있게 해줍니다.
  4. 마치 의사가 환자를 진찰할 때, 단순히 "아프다"는 증상만 보는 것이 아니라, 체온, 혈압, 혈액 검사 등 다양한 지표를 통해 정확한 병명을 찾아내는 것과 비슷합니다. WE-MATH는 LMMs의 "수학적 사고 능력"을 진단하는 정밀 도구라고 할 수 있습니다.
  5. 실험 결과, 여전히 많은 모델들이 기본적인 지식 부족 (IK) 문제를 겪고 있으며, 일부 모델들은 문제를 제대로 이해하고 풀기보다는 '찍기' (RM)에 의존하는 경향을 보인다고 합니다.

 

 

 

 

2 WE-MATH

더보기

WE-MATH 개요

앞서 언급했듯이, 기존 benchmarks는 결과 지향적인 경향이 있어 수학 문제 해결의 본질을 간과합니다. 이는 직관적이지 않은 평가 결론을 낳기도 합니다. 예를 들어, MathVista의 결론은 LMMs가 초등학교 수준의 문제보다 대학교 수준의 문제에서 더 우수한 성능을 보인다는 것을 나타냅니다.

기존 benchmarks와 달리, 그림 2에서 볼 수 있듯이, WE-MATH는 교과서 지식 단위를 중심으로 구성되어 복합 문제 해결을 지식 concepts를 기반으로 하위 문제로 분해합니다. WE-MATH는 다음과 같은 특징을 가집니다.

(1) Hierarchical Knowledge Structure: WE-MATH는 수학 교과서에 제시된 지식을 엄격하게 따르며, 엄격한 계층적 및 다중 카테고리 architecture를 특징으로 합니다. 이는 동일한 수준 내에서 지식 concepts의 독립성을 보장하는 동시에 서로 다른 계층 수준의 concepts 간의 논리적 관계를 설정합니다.

(2) Knowledge based Reasoning Evaluation: WE-MATH는 LMMs가 문제를 어떻게 해결하는지 탐구하도록 설계되었습니다. 인간이 기본적인 지식 concepts를 활용하여 문제를 점진적으로 해결한다는 점에 착안하여, 우리는 복잡한 수학 문제를 더 관리하기 쉬운 하위 문제로 분해합니다. 또한, 세심한 평가를 위해 다양한 측정 차원을 사용합니다.

(3) Knowledge Concept Augmentation: 문제 해결 과정에서 내재된 문제를 완화하기 위해, 우리는 Wikipedia와 교과서에서 67개의 지식 concepts에 대한 설명을 휴리스틱하게 도입하여 LMMs의 reasoning processes에 필수적인 지식 지원을 제공합니다.

2.1 Hierachical Structured Dataset Composition

Hierachial Knowledge Structure:

WE-MATH는 기본적인 수학 기술을 강조하며, 복잡한 mathematical reasoning은 기본적인 mathematical reasoning processes의 기초 위에 구축된다고 믿습니다. 광범위한 연구를 바탕으로 수학 문제는 Plane Figures, Solid Figures, Transformations and Movements of Shapes, Positions and Directions, Measurements의 5가지 유형으로 분류됩니다. 이 5가지 카테고리는 12개의 typical problems로 분해될 수 있으며, 이는 다시 67개의 지식 concepts (구조의 terminal nodes)로 더 분해됩니다. 우리는 이 트리 구조에 따라 문제를 수집하고 각 terminal node가 10-40개 샘플의 엄격한 범위를 포함하도록 제한합니다. 이 규칙은 도메인 간의 데이터 균형을 보장합니다.

Data Collection and Annotation:

WE-MATH의 모든 문제(6.5K)는 공개적으로 권위 있는 수학 웹사이트에서 가져온 후 정의된 지식 구조를 기반으로 구성됩니다. 우리는 3명의 전문 주석가를 고용하여 각 질문에 지식 concepts를 수동으로 labeling합니다. 교차 검증을 수행하여 최소 2명의 전문가가 동일한 질문에 대해 동일한 주석을 갖도록 합니다. 눈에 띄게 일치하지 않는 labels가 있는 샘플은 품질이 낮은 것으로 간주되어 제외됩니다. 문제의 후속 분해를 준비하기 위해 지식 concepts labels를 기반으로 문제 해결 단계를 추가로 주석 처리합니다. 각 문제를 "One-Step", "Two-Step", "Three-Step"의 세 가지 클래스로 분류합니다. 이 분류를 통해 LMMs가 문제를 어떻게 해결하는지 더 깊이 이해할 수 있습니다. 주석에 대한 자세한 내용은 Appendix에서 확인할 수 있습니다. 주석 후, 모든 문제는 다음 세 가지 측면에서 전문가 팀이 다시 확인합니다. (1) 질문과 diagrams 간의 일관성, (2) 질문에 대한 답변의 정확성, (3) 문제와 67개 지식 concepts 간의 alignments.

2.2 Knowledge based Reasoning Evaluation

Problem Definition:

Visual mathematical reasoning task의 경우, text question Qᵢ, image Iᵢ 및 해당 answer Aᵢ가 주어집니다. 우리는 LMMs evaluation dataset을 D_eval = {(Qᵢ, Iᵢ, Aᵢ) | Kᵢ, Cᵢ} (i=1 to N)으로 정의합니다. 여기서 Kᵢ와 Cᵢ는 질문 Qᵢ에 대한 두 가지 사전 제약 조건입니다. 자세히 말하면, Kᵢ = {kᵢ} (i=1 to M)은 질문 내의 M개의 지식 concepts를 나타냅니다. Cᵢ는 문제 Qᵢ를 해결하는 데 필요한 전제 조건을 나타냅니다(예시는 그림 3 참조). 설명을 편리하게 하기 위해, 우리는 논문에서 k개의 지식 concepts를 포함하는 문제를 "k-step problem"으로 정의합니다.

Knowledge-based Data Decomposition:

실제 수학 문제는 여러 개의 원자적 지식 concepts로 구성됩니다. 그러나 기존 benchmarks는 일반적으로 이 정보를 간과하여 불합리한 평가 결과를 초래합니다. Euclid's Elements에서 영감을 받아, 우리는 LMMs의 mathematical reasoning 능력 평가는 본질적으로 기본적인 지식 concepts에 대한 숙달도를 평가하는 것이라고 주장합니다. LMMs의 reasoning 평가를 위해 기본 지식 concepts를 활용하는 것은 매우 자연스럽고 객관적인 방법입니다.

M개의 concepts Kᵢ = {kᵢᵐ} (m=1 to M)를 가진 i번째 테스트 샘플 {(Qᵢ, Iᵢ, Aᵢ) | Kᵢ, Cᵢ} ∈ D_WE-MATH가 주어지면, 우리는 인간 전문가에게 각 문제를 지식 concepts를 기반으로 M개의 하위 문제로 단계별로 분해하도록 요청합니다. 이는 다음과 같이 공식화할 수 있습니다.

{(qᵢᵐ, iᵢᵐ, aᵢᵐ) | kᵢᵐ, cᵢᵐ} (m=1 to M) = Decompose( (Qᵢ, Iᵢ, Aᵢ) ∈ D_WE-MATH ) {(Qᵢ, Iᵢ, Aᵢ) | Kᵢ, Cᵢ} (2)

여기서 kᵢ, cᵢ는 하위 문제에 대한 개별 지식과 사전 조건을 나타냅니다. "Decompose"는 M개의 지식 concepts를 기반으로 하는 인간의 분해 과정을 나타냅니다. 분해의 논리적 일관성을 보장하기 위해 조건 cᵢᵐ은 Cᵢ로 초기화됩니다. 그런 다음 m-1번째 concept의 answer aᵢᵐ⁻¹과 condition cᵢᵐ⁻¹을 연결하여 재귀적으로 계산됩니다.

cᵢᵐ = cᵢᵐ⁻¹ + aᵢᵐ⁻¹ for m = 2, 3, ..., M (3)

여기서 "+"는 연결 연산을 나타냅니다. 또한, 방정식 {qᵢᴹ = Qᵢ, aᵢᴹ = Aᵢ}는 반드시 충족되어야 하며, 이는 논리적 일관성을 위한 제약 조건이기도 합니다. 마지막으로, 우리는 reasoning 평가를 위해 원래의 multi-step 문제와 M개의 one-step 하위 문제를 얻을 수 있습니다. Knowledge-based Data Decomposition의 전체 파이프라인은 그림 3의 왼쪽에 표시되어 있습니다.

Metric for Reasoning Evaluation:

분해된 multi-step 문제를 기반으로, 우리는 문제 해결 과정에서 LMMs의 내재된 문제를 더 밝혀냅니다. M개의 one-step 하위 문제와 원래 문제를 모두 LMMs에 입력하고 응답을 다음 네 가지 범주로 분류합니다.

  1. Insufficient Knowledge (IK): one-step 문제의 일부에 오류가 있고 multi-step 문제도 틀립니다. 단일 지식 concept에 대한 model의 불충분한 이해가 multi-step 문제의 오류로 이어질 수 있으므로 이는 합리적입니다.
  2. Inadequate Generalization (IG): One-Step 문제는 모두 맞지만 multi-step 문제는 틀립니다. 이것 또한 합리적인 것으로 간주됩니다. LMMs는 개별 지식 concepts를 이해할 수 있지만, 해당 지식을 일반화하여 복합 문제를 해결하는 데 어려움을 겪을 수 있습니다.
  3. Complete Mastery (CM): One-Step 문제가 모두 정확하고 multi-step 문제도 정확하게 답변됩니다. 이 결과는 model의 결과가 신뢰할 수 있고 정확함을 보여줍니다.
  4. Rote Memorization (RM): One-Step 문제에 오류가 있지만 multi-step 문제는 정확하게 답변되어 인간의 논리적 사고와 모순됩니다. model이 복합 multi-step 문제를 해결할 수 있지만 그 과정에 필요한 one-step 문제에 답하지 못한다면 model의 신뢰성에 의문이 제기됩니다.

IK, IG, CM을 고려할 때, IG 범주에 속하는 결과가 일반적으로 IK로 분류된 결과보다 선호되는 것이 분명합니다. 그 이유는 IK가 단일 및 다중 지식 concepts 모두에 대한 model의 어려움을 반영하는 반면, IG는 one-step 문제에 대한 model의 숙련도를 보여주기 때문입니다. reasoning process에서 model의 일반화 능력을 향상시킴으로써 잠재적으로 결과를 IG에서 CM으로 전환할 수 있습니다. 따라서 우리는 reasoning 능력 계층 구조를 IK < IG < CM으로 설정합니다. 우리는 RM이 비합리적인 시나리오라고 믿습니다(models는 one-step 문제를 숙달하지 않고도 multi-step 문제를 해결할 수 있으며, 이는 인간의 reasoning 직관과 완전히 모순됩니다).

model의 불안정성을 고려하여, 결과가 RM에 속하는지 여부를 결정하는 현재 기준은 엄격합니다. 따라서 우리는 더 유연한 느슨한 metric을 제안합니다. 그림 4에서 볼 수 있듯이, two-step 문제의 TFT 및 FTT 상황은 느슨한 metric에 따라 CM(RM이 아님)으로 간주됩니다. 또한 Appendix C에서 three-problem에 대한 4차원 metrics의 상황을 논의합니다.

우리는 model의 reasoning process의 신뢰성을 판단하기 위해 다음과 같은 metric을 제안합니다.

S_IK = N_IK / N, S_IG = N_IG / N, S_CM = N_CM / N, S_RM = N_RM / (N_RM + N_CM) (4)

여기서 N은 총 샘플 수를 나타내고 N_IK, N_IG, N_CM, N_RM은 특정 상황에 대한 샘플 수를 나타냅니다. 따라서 최종 reasoning 신뢰도 점수는 다음과 같습니다.

Score_average = α * S_IK + β * S_IG + S_CM (5)

여기서 α, β는 각 경우에 대한 가중치를 나타냅니다. Reasoning 능력 계층 구조가 "IK < IG < CM"이 되도록 α < β < 1의 매개변수를 제어하고 α의 기본값을 0.0으로, β를 0.5로 설정합니다.

2.3 Knowledge Concept Augmentation

이전 섹션에서는 mathematical reasoning의 근본적인 과제로 Insufficient Knowledge (IK)를 확인했습니다. 이 문제를 휴리스틱하게 해결하기 위해, 우리는 인간 전문가를 초빙하여 67개의 knowledge concept cards를 만들었습니다. 이는 LMM의 reasoning process에 필수적입니다. 처음에 전문 주석가는 Euclid's Elements, Wikipedia 및 교과서의 정의에서 파생된 정확한 요약을 제공합니다. 그 후, 이 전문가들은 특정 지식 concept와 관련된 일련의 질문으로 검토된 내용을 더 압축하여 knowledge cards에 통합할 중요한 지식 힌트를 추출합니다. 여러 차례의 검토를 거쳐 각 카드의 정확성과 유용성을 확인합니다.

그림 5는 일반적인 지식 concept 사례와 그 설명을 보여줍니다. 결과적으로, 주어진 문제 Qᵢ와 각 지식 concept Kᵢ를 통해 LMMs는 관련 knowledge cards를 활용하여 answer Aᵢ를 추론합니다. KCA에 대한 자세한 내용은 Appendix에서 확인할 수 있습니다.

 

 

 

 

 

2. WE-MATH 섹션 정리 노트 (AI 연구자 대상)

핵심: WE-MATH 데이터셋의 구성, 평가 방법, 그리고 Knowledge Concept Augmentation 전략을 상세히 설명.

데이터셋 구성 (2.1):

  • Hierarchical Knowledge Structure:
    • 수학 교과서 기반의 엄격한 계층 구조.
    • 5개 카테고리 → 12개 typical problems → 67개 knowledge concepts (terminal nodes).
    • 각 terminal node는 10-40개 샘플 포함 (데이터 불균형 방지).
  • Data Collection and Annotation:
    • 6.5K 문제, 공개된 수학 웹사이트에서 수집.
    • 전문가 3명이 knowledge concepts labeling, 교차 검증.
    • 문제 해결 단계 (One-Step, Two-Step, Three-Step) 추가 주석.
    • 전문가 팀이 (1) 문제-diagram 일관성, (2) 정답 정확성, (3) 문제-knowledge concepts alignment 검토.

평가 방법 (2.2):

  • Problem Definition:
    • 평가 데이터셋: D_eval = {(Qᵢ, Iᵢ, Aᵢ) | Kᵢ, Cᵢ}
    • Kᵢ: 문제에 포함된 knowledge concepts.
    • Cᵢ: 문제 해결 전제 조건.
  • Knowledge-based Data Decomposition: 핵심!
    • 복합 문제를 knowledge concepts 기반의 하위 문제로 분해 (Euclid's Elements에서 영감).
    • 수식 (2): {(qᵢᵐ, iᵢᵐ, aᵢᵐ) | kᵢᵐ, cᵢᵐ} = Decompose( (Qᵢ, Iᵢ, Aᵢ) ) {(Qᵢ, Iᵢ, Aᵢ) | Kᵢ, Cᵢ}
    • 분해 시 논리적 일관성 유지 (수식 (3), 그림 3).
  • Metric for Reasoning Evaluation: 핵심!
    • 4차원 평가 지표:
      • Insufficient Knowledge (IK): 하위 문제, 복합 문제 모두 오답.
      • Inadequate Generalization (IG): 하위 문제 정답, 복합 문제 오답.
      • Complete Mastery (CM): 하위 문제, 복합 문제 모두 정답.
      • Rote Memorization (RM): 하위 문제 오답, 복합 문제 정답 (비논리적).
    • Reasoning 능력 계층 구조: IK < IG < CM (RM은 비정상).
    • Loose & Strict Metric: RM 판단 기준 완화 (그림 4).
    • Reasoning 신뢰도 점수: Score_average = α * S_IK + β * S_IG + S_CM (α < β < 1, α=0.0, β=0.5).

Knowledge Concept Augmentation (2.3):

  • IK 문제 해결을 위한 휴리스틱 전략.
  • 67개 knowledge concepts에 대한 설명 카드 제작 (Euclid's Elements, Wikipedia, 교과서 기반).
  • 전문가가 요약, 핵심 힌트 추출 (그림 5).

쉬운 설명:

  1. WE-MATH 섹션은 이 논문의 핵심인 WE-MATH 데이터셋과 평가 방법을 자세히 설명합니다.
  2. 데이터셋 구성 (2.1): WE-MATH는 수학 교과서처럼 체계적으로 구성되어 있습니다. 마치 나무처럼 큰 카테고리에서 작은 가지(knowledge concepts)로 뻗어나가는 구조입니다. 데이터 불균형을 막기 위해 각 가지(terminal node)에 적절한 수의 문제를 배치했습니다.
  3. 평가 방법 (2.2): 가장 중요한 부분입니다!
    • 핵심 아이디어: 복잡한 문제를 작은 문제(knowledge concepts)로 쪼개서 모델이 어떤 부분에서 어려움을 겪는지 파악합니다.
    • 4가지 평가 지표:
      • IK (지식 부족): 기본적인 것도 모르는 상태.
      • IG (일반화 부족): 기본적인 것은 알지만, 응용력이 부족한 상태.
      • CM (완전 숙달): 완벽하게 이해하고 응용도 잘하는 상태.
      • RM (단순 암기): 꼼수로 정답은 맞혔지만, 실제로는 이해하지 못한 상태.
    • RM을 판별하는 기준을 완화한 "Loose Metric"도 도입했습니다.
    • 최종적으로 각 지표를 점수화하여 모델의 reasoning 능력을 평가합니다.
  4. Knowledge Concept Augmentation (2.3): 모델이 기본적인 지식이 부족한 경우(IK)를 대비하여, 각 knowledge concept에 대한 "요점 정리 카드"를 제공합니다. 마치 시험 전에 핵심 내용을 정리한 요약 노트를 주는 것과 같습니다.