AI바라기의 인공지능
VLM : 논문리뷰 : Evaluating Large Vision-and-Language Models onChildren’s Mathematical Olympiads 본문
VLM : 논문리뷰 : Evaluating Large Vision-and-Language Models onChildren’s Mathematical Olympiads
AI바라기 2024. 7. 2. 20:25Evaluating Large Vision-and-Language Models on Children’s Mathematical Olympiads
Abstract
최근 몇 년 동안 ChatGPT, Gemini 등과 같은 대규모 비전 및 언어 모델(LVM)의 범용 문제 해결 능력이 크게 발전했습니다.
그러나 현재 과학 문헌에는 비전 및 텍스트 추론에 대한 AI 능력의 체계적인 분석이 부족합니다.
본 논문에서는 이러한 격차를 해소하기 위해 어린이 올림피아드의 시각-언어 문제를 사용하여 최첨단 LVM의 수학적 및 알고리즘적 추론 능력을 평가합니다. 특히, 1~12학년 어린이를 대상으로 연령과 기술 수준에 맞는 퍼즐을 통해 수학적 능력을 평가하는 국제 대회인 'Math Kangaroo(MK) 올림피아드' 문제를 고려했습니다.
MK의 퍼즐을 사용하여 2020~2024년 문제 840개로 구성된 SMART-840 데이터셋을 만들었습니다.
이 데이터셋을 통해 LVM의 수학적 추론 능력을 분석했으며, 퍼즐에 대한 AI 모델의 응답은 어린이들의 응답과 직접 비교할 수 있는 방법을 제공합니다.
그 결과, 최신 LVM은 고학년 문제를 해결하는 데 있어 점점 더 강력한 추론 능력을 보여주지만, 저학년 문제를 정확하게 풀기 위한 기초는 부족하다는 것을 확인했습니다.
추가 분석 결과, AI 모델의 추론 능력과 어린이들의 추론 능력 간에는 유의미한 상관관계가 없으며, AI 모델의 능력은 어린이의 수학 및 논리 능력의 기초가 되는 누적된 지식과는 다른 유형의 추론에 기반하는 것으로 나타났습니다.
Introduction
최근 GPT-4o, DALL-E, Gemini 등과 같은 대규모 비전 및 언어 모델(LVM)을 통합한 멀티모달 인공지능 프레임워크는 뛰어난 추론 능력을 보여주는 것으로 나타났으며, 기존의 기계 지능 측정 방식에 혼란을 야기하는 것처럼 보입니다.
인터넷 규모의 데이터셋에서 마스크 예측과 같은 단순한 훈련 손실을 사용하여 훈련된 이러한 확장된 트랜스포머 모델은 고급 인지를 요구하는 작업에서도 전문가 수준의 인간 지능에 필적하는 능력을 갑자기 나타내는 것처럼 보입니다.
이러한 뛰어난 성과는 자연스럽게 몇 가지 질문을 제기합니다.
이러한 모델은 실제로 핵심 지식을 가지고 이를 일반화하여 문제 해결을 위한 혁신적인 방법을 도출할 수 있을까요?
아이들처럼 추론할 수 있는 능력을 갖추고 있을까요, 아니면 웹 규모의 훈련 데이터셋에 내재된 편향을 이용하여 겉보기에 정확한 답변을 생성하는 것일까요?
AI 모델은 인간과 비교하여 일반적인 지적 능력에서 어느 정도 수준에 도달했을까요?
최근에는 MATHVISTA, SMART-101, MMMU 등 새로운 데이터셋, 작업, 벤치마크를 통해 위 질문에 답하려는 연구가 여러 차례 진행되었습니다.
이러한 모든 데이터셋과 작업은 LVM의 생성 및 추론 능력의 다양한 측면을 평가하지만, 일반적으로 LVM의 성능을 이전 최첨단(SOTA) AI 모델과 비교합니다. 특히, 현재 SOTA AI 모델의 기능을 각 작업에 대한 인간 인지 능력과 체계적으로 비교하는 연구가 부족한 것으로 보입니다.
한 번에 웹 규모의 데이터로 훈련될 수 있는 현재 AI 모델과 달리 인간은 성인이 될 때까지 문제 해결 능력을 개발하며, 성장 단계별로 일반적으로 해결할 수 있는 문제의 유형과 특성이 크게 다릅니다.
예를 들어, 1학년 학생은 주어진 곡선 경로를 추적하는 것과 관련된 문제를 해결할 수 있지만, 12학년 학생은 곡선의 교점을 찾는 것과 관련된 문제를 해결할 수 있을 것으로 예상됩니다.
한편으로는 이러한 점진적인 지식 구축은 견고한 인간 문제 해결 능력 개발에 필수적입니다.
반면에, 이러한 누적적인 지식 수집은 합리적인 행위자에게 인지 기반이 확립되는 방식에도 순서를 부여합니다.
예를 들어, 12학년 학생은 1학년 학생이 풀 수 있을지 없을지 모르는 문제를 풀 수 있는 지식을 암묵적으로 가지고 있다고 가정합니다.
지능적인 인간처럼 생각하고 추론하는 인공 일반 모델을 원한다면, 더 복잡한 문제에 대해 추론하기 위해 더 기본적인 개념을 확실하게 증명할 수 있어야 합니다.
이러한 통찰력을 바탕으로, AI 모델의 성능을 성장기 어린이들의 능력과 체계적으로 비교하는 첫 번째 시도를 합니다. MATHVISTA 및 SMART-101 과 같은 이전 연구와 마찬가지로, 수학 올림피아드에서 선정된 수학 및 알고리즘 추론 문제에 대한 LVM의 문제 해결 능력 분석을 기반으로 합니다.
수학 올림피아드 중에서도 고학년 학생들을 대상으로 하는 IMO, AMC 등과 달리, 본 논문의 벤치마크 실험은 1991년부터 개최되어 2024년에는 미국에서 약 45,000명의 학생들이 참가하는 국제 수학 캥거루(MK) 올림피아드를 기반으로 합니다.
객관식 답변이며, 수학적 배경 지식이 없어도 되고 텍스트와 이미지 만 있거나 둘다 포함 할 수 있어서 멀티 모달 추론 평가를 용이하게 합니다.
이러한 측면은 MK 올림피아드를 본 연구에 특히 적합하게 만들고, AI의 추론 능력을 개발 중인 인간 지능의 범위와 명확하게 비교할 수 있게 해줍니다.
벤치마킹 실험을 수행하기 위해 2000~2024년 1~12학년 전체 수학 경시대회 문제를 수집하여 SMART840이라는 MK 올림피아드 데이터셋을 만들었습니다.
이 데이터셋은 다양한 난이도의 문제(1~2학년 대상, 11~12학년 대상 등)를 제공하며, 어린이들이 실제로 문제를 얼마나 잘 푸는지에 따라 세분화할 수 있습니다.
따라서 인간과 유사한 수학적 추론을 위해서는
(a) 초기 학년 문제에서 더 나은 성능을 보이고,
(b) 학년 내에서 문제 난이도와 상관관계가 있어야 합니다.
그림 1은 예시 문제입니다. 또한 어린이들의 답변, 솔루션에 걸린 시간 등 분석에 유용한 MK 시험에 대한 다양한 성과 통계를 수집했습니다.
다음으로, 범용 능력으로 널리 알려진 GPT-4o , Gemini , Claude-3 Opus , XGEN-MM 등 여러 SOTA LVM을 선정했습니다.
분석 결과, AI 모델의 몇 가지 흥미로운 측면이 드러났습니다.
i) SMART-840 데이터셋에서 AI 모델의 성능은 어린이의 평균 성능보다 현저히 낮은 것으로 나타났으며,
ii) 성능 격차는 저학년 시험에서 거의 30-40%로 더 크고 고학년에서는 10-20%로 개선되었으며,
iii) 어린이에게 어려운 퍼즐과 AI 모델에게 어려운 퍼즐 사이에는 유의미한 상관관계가 없는 것으로 나타나 모델이 주어진 시험 문제에 답할 수 있는지 판단하기 어렵고,
iv) 현재 AI 모델은 프롬프트를 반복하거나 변경할 때 응답에 상당한 변동성이 있는 것으로 나타났습니다.
본 분석은 인간 인지에 대한 AI 모델 테스트의 다양한 측면에 대한 새로운 통찰력을 제공할 뿐만 아니라 수학 문제 해결을 위한 현재 LVM의 신뢰성 문제를 조명합니다.
해당 논문의 기여는 다음과 같습니다.
1. 전문 수학 올림피아드 데이터를 사용하여 대규모 비전 및 언어 모델의 성능을 어린이의 수학적 및 알고리즘적 추론 능력과 비교하는 최초의 벤치마킹을 제공합니다.
2. AI의 추론 능력을 어린이의 성장에 따른 누적 지식 구축 과정과 비교하여 평가합니다.
3. 텍스트 전용 및 비전과 텍스트가 결합된 수학 문제에 대한 SOTA AI 모델의 성능을 비교하고 다양한 차원에서 분석합니다.
Related Works
General LVLM benchmarks:
현재 LVM의 다양한 능력을 테스트하는 여러 벤치마크가 존재합니다.
여기에는 지각(1844개 질문)과 추론(1104개 질문)에 대한 VQA 형식의 수천 개 질문이 포함되어 있으며, 모델이 주어진 옵션 집합에서 답변을 선택하는 MMBench가 있습니다. 또한 "순환 평가" 전략을 사용하여 모델이 답변 옵션의 순서에 강건하도록 합니다.
논리적 및 관계적 추론이 데이터 세트의 일부이지만, 이 벤치마크는 특별히 다양한 유형의 수학적 추론 능력을 테스트하지 않습니다. MMMU는 6가지 다른 학문 분야를 다루는 약 12.5K개의 멀티모달 질문을 포함하는 또 다른 인기 있는 벤치마크이지만, 대학 수준에서만 LVM의 전문가 수준 지식을 테스트합니다. 이와 대조적으로, 우리는 어린이들이 보여주는 LVM의 능력을 이해하는 데 관심이 있습니다.
ScienceQA는 과학적 이해 및 추론, VisIT-Bench는 지시 따르기, Bongard Problems, Raven's Progressive Matrices 및 Abstraction and Reasoning Corpus는 추상적 시각 추론, OCRBench 및 TextVQA는 텍스트 인식 등 LVM의 특정 기능을 테스트하기 위해 일부 벤치마크가 설계되었습니다.
Benchmarks for mathematical reasoning:
MATHVISTA는 이미지가 포함된 퍼즐을 기반으로 한 최신 수학적 추론 벤치마크이며, 다양한 유형의 수학적 추론(논리적, 산술적, 기하학적 등)과 다양한 유형의 맥락 이미지(자연 이미지, 선 그림, 과학 그림 등)에 대한 LVM의 성능을 측정합니다.
GSM-8k는 약 8.5K개의 수학 단어 문제를 포함하는 유사한 데이터 세트이지만, 텍스트 입력 및 출력만 있고 이미지는 포함되지 않습니다.
제안된 SMART-840 벤치마크와 이러한 이전 연구의 주요 차이점은 이러한 데이터 세트가 우리의 제안된 벤치마크가 명시적으로 해결하는 문제 난이도(예: 다른 학년 수준의 어린이들이 쉽게 푸는 문제)에 따라 퍼즐을 분리하지 않으며, 대규모 인간 성과에 의해 뒷받침되지도 않는다는 점입니다.
TabMWP는 약 38,000개의 초등학교 문제를 포함하는 벤치마크이지만, 표 형식의 수학 단어 문제로 제한됩니다.
SMART-101은 1학년 및 2학년 수학 캥거루 퍼즐 101개 각각에 대해 프로그래밍 방식으로 생성된 2000개의 변형을 제공하는, 본 연구와 가장 밀접한 관련이 있는 벤치마크입니다.
이러한 변형은 적은 수의 퍼즐만 사용하는 것보다 더 큰 모델을 훈련하는 데 사용할 수 있습니다.
우리는 MK 성능 통계를 연구에 처음 사용하는 것은 아닙니다.
이 데이터 세트와 달리, SMART-840은 1~12학년 전체 840개의 퍼즐을 포함하며, 시험 응시자의 성능 통계에 대한 중요한 정보와 함께 광범위한 문제 해결 능력에 대한 AI 모델의 제로샷 수학적 추론 능력을 벤치마킹하도록 설계되었습니다. 또한 MK 시험은 어린이의 수학적 역량 개발을 연구하는 데 사용되었지만, 우리가 아는 한 이러한 시험은 AI 모델 벤치마킹에 사용된 적이 없습니다.
LLMs with external tools:
일부 연구에서는 LLM 또는 VLM이 직접 답변을 제공하는 대신 외부 도구를 LVM과 함께 사용하여 시각적 추론 문제를 해결하는 방법을 제안합니다.
VisProg , Visual ChatGPT , ViperGPT 와 같은 연구에서는 기본 LVM을 사용하여 외부 이미지 처리 및 컴퓨터 비전 도구를 사용하여 출력을 생성하는 데 필요한 일련의 짧은 프로그램을 생성합니다.
Chameleon 은 웹 검색을 사용하도록 이러한 방법을 더욱 확장하고 ScienceQA 및 TabMWP 벤치마크에서 개선된 결과를 보여줍니다.
이러한 연구는 사용 가능한 도구를 사용하는 방법을 보여주는 몇 가지 예시를 통한 맥락 내 학습에 의존하며, 실제로는 실용적이지 않을 수 있는 이러한 도구에 대한 접근을 가정합니다.
따라서 우리는 LVM의 제로샷 추론 능력을 직접 평가하는 데 중점을 둡니다. 또한 Alpha-Geometry와 같이 특정 유형의 올림피아드 문제에 대한 추론 모델을 개발하는 지도 학습 방식도 있었습니다. 예를 들어 Alpha-Geometry는 기하학 올림피아드 문제를 살펴봅니다.
Benchmarking Approach and Experiments
먼저 데이터 수집 프로세스를 설명한 다음, 본 연구에서 벤치마킹하기 위해 선택한 LVM에 대한 세부 정보를 제공합니다. 이후 하위 섹션에서는 올림피아드의 다양한 측면에 대한 LVM의 성능을 평가하고 어린이들의 성과와의 상관관계를 도출합니다.
3.1 Mathematical Kangaroo Olympiad
수학 캥거루는 K-12 학년을 대상으로 대회를 개최하는 유일한 올림피아드이므로 본 연구에 적합한 자료입니다.
1991년 프랑스에서 시작된 이 대회는 1998년부터 미국에서 매년 개최되어 현재 100개 이상의 국가에서 개최되고 있습니다. 일반적으로 n ∈ {1, 3, 5, 7, 9, 11}에 대해 {n, n + 1} 학년에 대해 하나의 시험이 있으므로 1년에 총 6개의 시험이 있으며 n 학년과 n + 1 학년 어린이 모두 동일한 시험에 참가합니다.
각 시험은 24개 문항(1~4학년) 또는 30개 문항(5학년 이상)으로 구성되며, 5개의 보기 중 정답이 하나뿐인 객관식 형태입니다. 문제는 순수 텍스트 기반이거나 텍스트와 이미지를 모두 포함할 수 있으며, 문제 해결을 위해서는 일반적으로 텍스트와 이미지를 함께 해석하는 것이 중요합니다.
각 문항에는 {3, 4, 5}의 가중치가 부여되는데, 낮은 점수는 해당 학년에 "더 쉬운" 것으로 간주되는 문제(예: 1학년의 경우 단일 단계 추론 문제)에 부여되고, 높은 점수는 일반적으로 더 깊이 있는(그러나 연령에 맞는) 문제 해결 능력을 필요로 하는 다단계 추론, 해결 가능성 열거 등을 필요로 하는 문제에 부여됩니다. 참가자는 시험을 완료하는 데 75분이 주어지며, 정답의 가중 합계로 성적이 계산됩니다.
3.2 Data Collection
본 연구에서는 MK 시험에 대한 AI 모델과 어린이의 성능을 공정하고 균형 있게 벤치마킹할 수 있는 편향되지 않은 데이터 수집 방법론을 구상했습니다.
이를 위해 평가에 선택 편향이 없도록 MK 시험의 모든 문제를 누락 없이 사용하기로 결정했습니다.
2020년 이전 MK 대회의 경우 어린이 성적에 대한 통계 데이터를 구할 수 없으므로,
본 연구에서는 2020-2024년에 실시된 대회의 문제만 고려합니다.
이는 SMART-840이라는 데이터 세트에 840개의 문제가 있으며,
1~4학년 문제는 총 240개,
5~12학년 문제는 600개로 구성되어 있으며,
위에서 설명한 대로 학년 쌍별로 균등하게 분할되어 있습니다.
그림 2(a), 2(b), 2(c)는 연도별 모든 학년의 참가 아동 수 분포를 보여주며, 매년 거의 30K명의 학생이 참가하고 있습니다. 참가자 수는 1~8학년에서 가장 많고 9~12학년에서는 1000명 미만으로 감소하는데(그림 2(b)), 이는 고학년 아동들이 AMC, IMO 등 다른 올림피아드 옵션을 가지고 있기 때문일 수 있습니다.
그럼에도 불구하고 지난 5년간 참가자 수를 합치면 여전히 분석에 상당히 많은 표본 집합을 얻을 수 있습니다.
SMART-840 데이터 세트를 만들기 위해 공개적으로 사용 가능한 질문지를 다운로드하고(이미지가 포함된 PDF 문서), 광학 문자 인식 소프트웨어를 실행하여 퍼즐의 텍스트를 추출한 다음, 관련 이미지 부분을 수동으로 잘라냈습니다. 데이터 세트에서 추출된 각 퍼즐은 텍스트 및 퍼즐 이미지의 오류를 수동으로 검사했습니다.
또한 MK는 각 퍼즐을 (i) 기하학, (ii) 논리, (iii) 대수학, (iv) 숫자의 네 가지 범주 중 하나로 분류합니다.
그림 2(d)는 SMART-840 데이터셋의 전체 문제 분포 통계를 보여줍니다.
기하학 퍼즐이 전체 퍼즐의 약 31%를 차지하고, 논리(26%)와 숫자(27%)가 거의 동일하게 분할되며, 대수 기반 문제는 약 15.5%를 차지하는 것을 알 수 있습니다.
그림 2(e)에서는 텍스트와 이미지 추론이 모두 필요한 문제(∼69%)와 텍스트 질문만 있는 문제의 분포를 보여줍니다.
그림 2(d)와 2(e)는 학년별 분포도 보여줍니다. 고학년(>8)의 경우 텍스트 전용 문제의 비율이 더 높은데, 11-12학년에서는 약 52%, 1-4학년에서는 약 20% 미만입니다.
3.3 Selected Large Vision-and-Language Models
우리는 SMART-840 데이터셋에서 7개의 인기 있는 최첨단 LVM의 성능을 비교합니다.
구체적으로, 까다로운 수학 및 시각적 추론 문제를 해결하는 능력으로 널리 알려진
i) GPT-4o ,
ii) Gemini-Pro ,
iii) Claude-3 Opus 를 고려합니다.
따라서 이들이 어린이 학년 문제에서 어떤 성능을 보이는지 이해하는 것은 유용한 연습이라고 생각합니다.
이러한 최첨단 LVM과 함께 GPT 시리즈의 첫 번째 비전 및 언어 버전인 GPT-4v, 빠른 응답 시간으로 잘 알려진 Gemini-Flash, BLIP 시리즈의 최신 오픈 소스 LVM인 XGen-MM과 같은 다른 인기 있는 AI 모델도 고려합니다.
3.4 Grade-wise Performance Comparisons
이 실험에서는 위에 나열된 LVM의 성능을 SMART-840 데이터셋에서 어린이의 성능과 비교합니다.
인간의 성능의 경우, 앞으로 정확도라고 부르는 평균 정답률을 백분율로 보고하며, 이는
i) 문제에 대한 어린이의 정답 총수를 시도 총수로 나눈 비율을 찾고,
ii) 이 비율을 학년 세트의 모든 문제에 대해 평균하여 계산합니다.
LVM의 경우 API 인터페이스를 사용하여 적절한 수작업 프롬프트를 사용하여 모델에 질의합니다. 구체적으로, 모든 원격 LVM에 대해 다음과 같은 프롬프트가 잘 작동하는 것으로 나타났습니다:
"Solve this question with explanation of the intermediate steps. Your response should end with one of the selected answer options from A1, B2, C3, D4, or E5. "
"중간 단계에 대한 설명과 함께 이 질문을 풀어주세요. 응답은 A1, B2, C3, D4 또는 E5 중 선택한 답변 옵션 중 하나로 끝나야 합니다."
여기에는 문제 질문에 대한 텍스트와 이미지 데이터가 함께 제공됩니다. AI 모델의 경우, 정확도를 세트의 총 문제 수에 대한 정답 문제의 (백분율)로 보고합니다.
표 1에서는 전체 SMART-840 데이터 세트에서 LVM의 성능을 어린이와 비교한 결과를 제시합니다.
무작위 성능은 1/5에 가깝습니다.
다음으로, 각 LVM에 대해 위에서 설명한 프롬프트를 사용하여 SMART-840의 각 문제를 (최소 2회) 쿼리했습니다. LVM 평가에서는
(i) 응답이 프롬프트에서 요구하는 예상 형식이 아니고 유효한 응답을 자동으로 추출할 수 없는 경우 응답을 일반적으로 유효하지 않은 것으로 간주합니다(수동으로 응답을 검증하는 실험 제외).
(ii) 많은 경우 LVM은 문제를 풀지 않기로 결정합니다(예: 제공된 퍼즐 이미지에 보안 문제가 있다고 오해하는 경우). 이 경우에도 해당 모델이 해당 문제를 해결하지 못한 것으로 선언합니다.
GPT-4o의 모든 출력 응답을 수동으로 검사하여(표에는 GPT-4o (M)으로 보고됨) 프롬프트가 적합하고 모델이 문제 사양에 근거한 합리적인 응답을 생성하는지 확인했습니다(네트워크 오류, 응답 구문 분석 오류 등으로 인한 것이 아님).
그리고 솔루션 시도가 합리적인지 확인했습니다(반드시 정확할 필요는 없음). 해결 방법이 불합리한 모든 문제(선택한 옵션이 정답이더라도)는 수동으로 실패 응답으로 표시했습니다.
표 1에서 GPT-4o는 모든 학년에서 평균 42.5%의 정확도로 가장 우수한 성능을 보였으며, 그 뒤를 이어 Claude-3-Opus는 38%, Gemini-Pro는 거의 32%의 정확도를 보였습니다.
표 1에서는 LVM의 성능에서 몇 가지 흥미로운 측면을 확인할 수 있습니다.
i) 성능 격차: 표 1에서 AI 모델의 성능은 모든 학년에서 어린이보다 낮으며, 흥미롭게도 이러한 격차는 실험한 모든 모델에서 일관되게 나타납니다. 구체적으로 LVM의 최고 정확도는 40-50% 범위인 반면, 어린이의 평균 성능은 60% 이상으로 일관되게 나타납니다. 참고로 각 학년별 어린이의 성적은 따로 보고하며, 두 학년의 어린이가 같은 시험을 치릅니다. 당연하게도 고학년(쌍으로) 어린이가 저학년 어린이보다 훨씬 더 좋은 성적을 거두었지만(문제 해결 능력이 고학년으로 성숙해짐에 따라 이 격차는 줄어들지만), 이는 어린이들이 성장기에 걸쳐 핵심 문제 해결 능력을 누적적으로 쌓아간다는 것을 시사합니다.
ii) 성능 추세: 표 1에서는 LVM의 또 다른 일관된 추세, 즉 저학년보다 고학년(8-12학년) 문제를 더 잘 해결한다는 추세를 볼 수 있는데, 이는 학년이 올라갈수록 솔루션의 복잡성이 증가한다는 점을 감안할 때 놀라운 결과입니다. 이러한 추세는 저자들이 2학년 문제에 대한 LLM의 성능 비교에서도 나타났습니다.
GPT-4o는 1-2학년의 정확도가 40%에서 11-12학년의 거의 50%로 증가하는 추세를 보이는 반면, Gemini-Pro와 같은 다른 LVM의 경우 1-2학년의 약 25%에서 11-12학년의 40%로 더욱 두드러지는 추세를 보입니다. Claude-3 Opus는 약 40%의 비교적 일관된 성능을 보이지만, 중간 학년의 성능이 저학년이나 고학년보다 낮아지는 등 다른 추세를 보입니다. 표 1에서 XGEN-MM과 같은 오픈 소스 LVM은 상대적으로 성능이 떨어지는 것을 확인할 수 있습니다. 특히, 잘못된 답변을 선택하거나 지시를 따르지 않아 유효하지 않은 출력을 생성하는 경우가 많았습니다. 예시는 표 5-10을 참조하세요. 또한 GPT-4v의 성능이 GPT-4o보다 낮은 것으로 나타났는데, 이는 GPT-4o가 GPT-4v보다 더 발전된 버전이라는 점을 감안할 때 예상되는 결과입니다. 또한 Gemini-Flash와 같은 더 빠른 LVM의 정확도는 고급 버전보다 낮습니다. 따라서 이후 연구에서는 성능이 가장 우수한 LVM인 GPT-4o, Gemini-Pro, Claude-3 Opus만 고려합니다.
iii) 분산: 또한 SOTA LVM의 성능에는 상당한 분산이 있음을 발견했습니다. 예를 들어, 표 1에서 볼 수 있듯이 GPT-4o의 표준 편차는 1-2학년 문제 해결 시 거의 7%이며, 고학년으로 갈수록 이 편차의 크기가 줄어드는 추세이지만 응답의 신뢰성은 여전히 의문입니다. Claude-3-Opus의 경우 표준 편차가 더 심각하여 모든 학년에서 거의 5%에 달하며, 7-8학년에서는 10%에 달하기도 합니다. 흥미롭게도 11-12학년의 경우 편차는 거의 3-4%로 더 안정적인 것으로 보이며, 성능도 가장 우수합니다. 솔루션 기반 추론과 관련이 없는 문제(예: 네트워크 문제, 이미지 이해 문제 등)가 있는 것으로 보이는 특정 문제에 대해 모델을 다시 실행하여 GPT-4o의 응답을 수동으로 검사했습니다. GPT-4o (M)에서는 이 검증 후 응답 결과를 보고하는데, 원래 응답과 충분히 가까운 것으로 나타나 GPT의 낮은 성능은 외부 문제 때문이 아니라 해당 시험 문제에 대한 문제 해결 지식 부족 때문임을 시사합니다.
Analysis of Results
이 섹션에서는 표 1의 결과를 더 자세히 살펴보고 AI 모델의 응답이 어린이의 응답과 어떻게 연관되는지에 대한 통찰력을 얻습니다.
모델은 성인만큼 잘 수행할 것으로 기대되지만, 어린이보다 성능이 낮다는 점을 감안할 때, 적어도 응답에서 고성능 어린이처럼 행동하는지 질문하는 것이 중요합니다. 구체적으로, "어린이에게 어려운 문제가 AI에게도 어려운가?"라는 질문에 답하고자 합니다. 이를 위해 아래에 제시된 다양한 유형의 상관관계 분석을 수행합니다.
Difficulty Index
문제의 난이도 지수는 시험 문제에 대한 정답 수를 솔루션 시도 총수로 나눈 비율입니다.
이 지수는 각 문제에 대해 0에서 1 사이의 점수를 제공하며, 0은 어린이 중 누구도 문제를 풀지 못했음을 의미합니다(어려운 문제).
표 2 (Diff-I)에서는 난이도 지수와 LVM의 응답 간의 Pearson 상관 계수를 보고합니다.
일반적으로 모델과 인간의 정확도 간에는 약한 상관관계만 존재하며, 이러한 상관관계는 주로 고학년 수준에서 발생합니다. 이는 모든 LVM이 일반적으로 어린이와는 다른 문제를 어렵다고 생각한다는 것을 시사합니다.
Discriminative Index
판별 지수는 시험 응시자의 지식 활용도를 측정합니다.
이 점수를 계산하기 위해 학생들을 최고 점수를 받은 상위 20% 참가자에 해당하는 우수 학습자 그룹과 하위 20%에 해당하는 저조 학습자 그룹으로 나눕니다.
다음으로, 각 집합에 대해 난이도 지수를 별도로 계산하고, 판별 지수를 두 난이도 지수의 차이로 정의합니다. 따라서 판별 지수 값은 [-1, 1]이며, 1은 모든 우수 학습자가 정답을 맞히고 모든 저조 학습자가 오답을 낸 시험 문제, 즉 우수 학습자와 저조 학습자를 구분할 수 있는 문제에 해당합니다. AI 모델이 우수 학습자인지 저조 학습자인지 이해하기 위해 어린이 성과의 판별 지수와 모델의 판별 지수 간의 Pearson 상관관계를 계산하는 방법을 제안합니다.
이 분석 결과는 표 2 (Disc.-I)에 나와 있습니다. 놀랍게도 모든 학년에서 음의 추세가 나타나 AI 모델이 덜 판별적이고 상당한 추론 없이 답변 옵션을 그럴듯하게 식별할 수 있는 문제를 더 쉽게 해결한다는 것을 시사합니다.
조금 더 자세히 설명하면,
판별 지수(Discriminative Index): 이 지수는 문제가 잘하는 학생과 못하는 학생을 얼마나 잘 구별하는지를 나타냅니다. 판별 지수가 높은 문제는 잘하는 학생은 맞히고 못하는 학생은 틀리는 경향이 강한 문제입니다. 즉, 이 문제는 학생들의 실력 차이를 잘 드러내는 문제입니다.
음의 상관관계: AI 모델의 성능과 판별 지수 사이에 음의 상관관계가 있다는 것은 AI 모델이 판별 지수가 낮은 문제, 즉 잘하는 학생과 못하는 학생 모두 비슷하게 맞히는 문제를 더 잘 푼다는 것을 의미합니다. 다시 말해, AI 모델은 깊이 있는 추론이 필요 없이 답을 쉽게 추측할 수 있는 문제를 더 잘 푼다는 것입니다.
Time-taken Correlation
시간 소요 상관관계는 어린이들이 문제를 푸는 데 걸린 시간(평균)과 AI 모델이 해당 문제를 어렵다고 생각하는지 여부 사이의 의존성을 분석합니다.
이를 위해 각 문제에 대해 어린이들이 소요한 시간을 집계한 다음, 중앙값을 기준으로 두 세트로 나누었습니다. 중앙값 이상의 모든 문제는 어려운 문제로, 나머지는 쉬운 문제로 표시했습니다. 다음으로, AI 모델의 응답과 이러한 난이도 간의 Pearson 상관관계를 계산했습니다.
표 2(Time-C.)의 결과는 다시 한번 약한 음의 상관관계 추세를 보여주는데, 이는 모델이 어린이들이 더 오래 걸리는 문제를 더 쉽게 풀 수 있다는 것을 시사하며 놀라운 결과입니다.
Weight Correlation
가중치 상관관계는 MK가 부여한 퍼즐의 난이도(가중치)와 응답 간의 상호 작용을 측정합니다.
특히, 각 문제에 대해 {3, 4, 5}의 가중치를 해당 난이도 점수 {1.0, 0.66, 0.33}으로 변환하고, AI 응답에 대한 Pearson 상관관계를 계산합니다. 여기서 AI 응답은 문제에 대해 선택한 답변 옵션이 정확하면 1, 그렇지 않으면 0입니다.
표 2(Weight-C.)의 이 실험에서는 약간 더 강한 양의 상관관계가 나타났는데, 이는 AI가 (성인 제작자가) 더 쉬운 유형이라고 생각한 문제를 해결할 수 있음을 시사합니다.
Entropy Correlation
엔트로피 상관관계는 문제에 대한 답변 옵션 분포의 엔트로피와 AI 응답 간의 상관관계를 측정합니다.
엔트로피는 어린이에게 어렵거나 옵션이 혼란스러운 문제일수록 높아지므로, 양의 상관관계는 AI도 비슷하게 혼란스럽다는 것을 시사합니다.
그러나 표 2의 추세는 그 반대를 보여주며 약간 더 강한 음의 상관관계를 보이는데, 이는 AI 모델이 어린이들이 우유부단하다고 생각하는 문제에 대해 겉으로 보기에는 크게 혼란스러워하지 않는다는 것을 시사합니다.
Category-Level Performances:
범주별 성능: 앞서 언급했듯이 SMART-840 데이터 세트는 네 가지 범주로 구성된 문제로 구성되며, 각 범주는 완전히 다른 기술 세트와 지식 배경을 필요로 합니다.
표 1에 보고된 성능에 대해 그림 3에서는 (i) 기하학, ii) 숫자, iii) 대수학, iv) 논리의 네 가지 문제 범주에 대한 인간과 LVM의 결과를 제시합니다.
어린이들은 이 모든 범주에서 꾸준히 좋은 성적을 거두는 반면, AI 모델은 기하학과 논리 영역에서 크게 뒤처지는 것으로 나타났으며, 최고 성능은 인간의 절반 수준이지만 숫자와 대수 영역에서는 비교적 좋은 성적을 거두었습니다.
이미지와 텍스트가 모두 포함된 문제(예: 기하학 문제)와 텍스트 전용 퍼즐에 대한 LVM의 성능을 추가로 분석했습니다. 그 결과, 모델이 어려움을 겪는 것은 실제로 이미지-텍스트 문제이며, 기하학 및 논리 문제와 이미지-텍스트 문제의 성능 간에 강한 유사성을 볼 수 있습니다.
흥미롭게도 데이터셋의 약 30%를 차지하는 텍스트 전용 퍼즐에서 GPT-4o-Expl.4는 평균적인 인간 성능보다 더 나은 성능을 보였으며, 다른 LVM도 상당히 좋은 성능을 보이는 것으로 나타났습니다.
Importance of Reasoning with Explanation:
설명을 통한 추론의 중요성: 이 실험에서는 LVM 프롬프트를 "이 질문을 풀어주세요. 설명 없이 답변을 제공해야 합니다. 답변은 A1, B2, C3, D4 또는 E5 중 선택한 답변 옵션 중 하나로 끝나야 합니다."로 변경했습니다.
"Solve this question. You should provide a response without any explanation. Your response should end with one of the selected answer options from A1, B2, C3, D4, or E5.".
그림 3에서는 6개 범주에 대한 모든 LVM의 결과를 보여줍니다.
모든 모델에서 성능 저하 추세가 나타났으며, 특히 GPT-4o는 고성능 '숫자' 범주에서 49.5%에서 17.6%로, 대수 범주에서 63.4%에서 31.5%로 하락했습니다.
텍스트 전용 문제에서도 하락폭이 상당했습니다. 다른 LVM(예: Claude-3)도 비슷한 추세를 보였지만 Gemini-Pro는 약간 낮았습니다.
Discussion and Conclusions
본 논문은 SMART-840 데이터셋을 활용하여 LVM의 추론 능력을 분석하고 다음과 같은 흥미로운 결과를 도출했습니다.
1. AI 모델과 어린이의 문제 해결 방식 차이: AI 모델과 어린이가 문제를 해결하는 방식에는 유의미한 상관관계가 없었으며, 오히려 음의 상관관계가 나타났습니다. 즉, AI 모델은 어린이와 다른 방식으로 문제 난이도를 인지하고 해결하는 것으로 보입니다.
2. 학습 데이터 및 텍스트 퍼즐 수 증가에도 불구하고 저학년 문제 해결 능력 부족: AI 모델은 저학년 문제에서 성능이 낮고 고학년 문제에서 점진적으로 향상되는 경향을 보였습니다. 이는 학습 데이터의 양이나 텍스트 퍼즐의 수가 증가해도 단순한 기하학 및 논리 문제에서 어려움을 겪는다는 점을 시사하며, 언어와 멀티모달 콘텐츠 간의 이해 부족을 드러냅니다.
3. AI 모델 간 성능 격차 미미, 인간과의 격차는 여전: 최고 성능 LVM과 최저 성능 LVM 또는 무작위 기준선 간에는 약 20%의 성능 차이가 있지만, 인간 성인 수준의 추론 능력과 비교하면 여전히 큰 격차가 존재합니다.
4. AI 모델과 인간의 추론 방식 차이: 본 연구 결과는 최첨단 LVM조차도 인간처럼 추론하지 못할 수 있음을 시사합니다. AI 모델은 훈련 데이터와의 유사성에 의존하는 경향이 있는 반면, 인간은 핵심 역량을 기반으로 추론합니다. 따라서 순수한 머신 러닝 접근 방식으로는 인간의 추론 능력을 완전히 모방하기 어려울 수 있습니다.
결론을 내리기 전에 표 3에는 2024 MK 올림피아드에서 세 가지 SOTA 모델이 받은 점수에 대한 전국 순위 및 백분위수(어린이와 비교했을 때)를 제시합니다. AI 모델은 순위에서 어린이보다 상당히 뒤처져 있으며, GPT-4o는 1학년에서 49위, Gemini-Pro는 12학년에서 34위로 가장 높은 순위를 기록했습니다. 이 점수는 MK에서 받은 백분위수를 기반으로 합니다. 표에서 알 수 있듯이 LVM과 어린이의 문제 해결 능력 사이에는 큰 격차가 있습니다.
결론적으로, 본 연구는 LVM의 추론 능력을 평가하고 인간의 추론 능력과의 차이를 분석하는 중요한 발판을 마련했습니다. 이러한 연구 결과는 향후 AI 모델 개발 및 평가에 중요한 시사점을 제공하며, AI 모델이 인간과 유사한 추론 능력을 갖추기 위한 연구 방향을 제시합니다.