AI바라기의 인공지능

VLM : 논문리뷰 : Gemini 2.5 Pro Capable of Winning Gold at IMO 2025∗ 본문

논문리뷰

VLM : 논문리뷰 : Gemini 2.5 Pro Capable of Winning Gold at IMO 2025∗

AI바라기 2025. 7. 22. 14:06

쉬운 설명 (Easy Explanation)

이 논문의 핵심 아이디어는 **"매우 똑똑하지만, 한 번에 오래 집중하지 못하는 학생을 가르치는 방법"**과 유사합니다.

  1. 학생(solver 모델)이 먼저 어려운 수학 문제를 풀어봅니다 (Initial generation).
  2. 집중력(thinking budget)이 다해 풀이가 엉성해지면, 학생은 잠시 쉬고 자신이 푼 풀이를 처음부터 다시 검토합니다 (Self-improvement). 이렇게 하면 새로운 집중력으로 문제를 더 깊게 파고들 수 있습니다.
  3. 그 후, 다른 선생님(verifier 모델)이 학생의 풀이를 보고 정답을 알려주지 않은 채, "이 부분 논리가 이상해"라고 꼼꼼하게 지적만 해줍니다 (Verification).
  4. 학생은 이 피드백을 바탕으로 자신의 풀이를 스스로 고칩니다 (Correction).

이 과정을 완벽한 답이 나올 때까지 반복하는 것입니다. 즉, 하나의 거대한 문제를 여러 개의 작고, 관리 가능하며, 검증할 수 있는 단계로 쪼개어 해결하는 전략입니다.

 

 

 

 

다음은 "Gemini 2.5 Pro Capable of Winning Gold at IMO 2025" 논문에 대한 학습 노트입니다.

용어 설명 (Terminology)

  • Pipeline: 이 논문에서 제안하는 핵심적인 다단계 문제 해결 프로세스입니다. Initial solution generationSelf-improvementVerificationCorrection 의 반복적인 순환 구조를 가집니다.
  • Self-improvement: 모델이 자신의 초기 풀이를 검토하고 개선하는 단계입니다. 이 단계의 핵심은 모델에 새로운 thinking budget (32768 토큰)을 부여하여, 초기 생성 시 토큰 제한으로 인해 다루지 못했던 부분을 마저 사고하고 해결할 수 있도록 하는 것입니다.
  • Verifier: 풀이의 논리적 오류나 비약을 검증하기 위해 별도로 사용되는 LLM 에이전트입니다. 단순히 정답/오답을 판별하는 것을 넘어, 구체적인 오류 리포트를 생성하여 solver 모델에 피드백을 제공합니다.
  • Critical Error: 증명의 논리적 흐름을 완전히 깨뜨리는 심각한 오류 (예: 논리적 모순, 계산 실수).
  • Justification Gap: 결론 자체는 맞을 수 있으나, 그 과정에 대한 설명이 불충분하거나 논리적 비약이 있는 부분.
  • Thinking Budget (reasoning tokens): 모델이 한 번에 처리하고 추론할 수 있는 최대 토큰의 양 (이 논문에서는 Gemini 2.5 Pro의 32768 토큰). 이 제약은 복잡한 IMO 문제 해결의 주요 병목 현상이며, 논문의 pipeline은 이 제약을 극복하기 위해 설계되었습니다.

Purpose of the Paper

이 논문은 현존하는 가장 강력한 LLM조차도 국제수학올림피아드(IMO)와 같은 고차원적인 추론 문제를 직접 풀게 했을 때, 논리적 결함이 있는 불완전한 증명을 생성하는 한계를 극복하고자 합니다.

기존 연구가 단순히 더 큰 모델을 사용하거나 prompt engineering에 집중했다면, 이 논문은 **"최상위 모델은 이미 금메달 수준의 잠재적 추론 능력을 갖추고 있으며, 문제는 그 능력을 어떻게 이끌어내느냐에 있다"**는 새로운 관점을 제시합니다. 이를 위해, 단일 prompt에 의존하는 대신, 생성, 자가 개선, 검증, 수정을 반복하는 체계적인 pipeline을 통해 모델의 잠재력을 최대한 활용하는 새로운 방법론을 제안합니다.


Key Contributions & Novelty

  • 다단계 반복 Pipeline 제안 (Multi-step Iterative Pipeline)
    • Contribution: 문제 해결 과정을 초기 생성, 자가 개선, 검증, 수정의 단계로 나누고, 만족스러운 결과가 나올 때까지 반복하는 pipeline을 설계했습니다.
    • Novelty:pipeline의 핵심은 self-improvement 단계에서 모델의 제한된 thinking budget을 의도적으로 "새로고침"하여 복잡한 문제의 전체를 다룰 수 있도록 확장한 점입니다. 이는 단순한 Chain-of-Thought를 넘어선, 보다 구조화된 상호작용 방식입니다.
  • LLM 기반 Verifier를 활용한 피드백 루프 구축 (LLM-based Verifier Feedback Loop)
    • Contribution: 풀이의 논리적 엄밀함을 검증하는 verifier 에이전트를 도입했습니다.
    • Novelty: Verifier는 단순히 정답 여부를 판단하는 것이 아니라, Critical ErrorJustification Gap으로 구분된 구체적인 "버그 리포트"를 생성합니다. 이 리포트는 다시 solver 모델에 입력되어, 마치 인간의 동료 검토(peer review)와 같이 목표 지향적인 수정이 가능하게 하는 정교한 피드백 루프를 형성합니다.
  • 오염되지 않은 데이터셋에서의 성능 입증 (Performance on Uncontaminated Data)
    • Contribution: 데이터 오염(data contamination) 문제를 원천적으로 차단하기 위해, "새롭게 공개된 IMO 2025" 문제들을 사용하여 실험을 진행하고 6문제 중 5문제를 해결했습니다.
    • Novelty: 이는 LLM의 실제 일반화 및 추론 능력을 매우 엄격하게 평가한 결과이며, 제안된 pipeline이 실제로 보지 못한 고난도 문제에 대해 효과적이라는 강력한 증거를 제시합니다.

Experimental Highlights

  • Model: Google Gemini 2.5 Pro (풀이 생성과 검증 모두에 사용).
  • Dataset: 데이터 오염이 없는 최신 (가상의) IMO 2025 문제.
  • Key Result: 6개의 IMO 문제 중 5개를 정확하게 해결하여, 이전 연구들에서 단 한 문제도 제대로 풀지 못했던 것과 비교해 비약적인 성능 향상을 보였습니다.
  • Result's Importance: 이 결과는 "모델의 성능 병목은 원시적인 지능이 아니라, 제한된 thinking budget과 같은 사용 방법의 한계에 있다"는 논문의 핵심 가설을 강력하게 뒷받침합니다. 제안된 pipeline이 이러한 한계를 효과적으로 우회할 수 있음을 입증했습니다.
  • Specific Finding: 문제 3번의 경우, 다른 연구[12]에서 32번의 샘플링이 필요했던 반면, 이 논문의 반복적 개선 방식은 20번의 샘플링만으로도 엄밀한 해답을 얻어 pipeline의 효율성을 보여주었습니다.

Limitations and Future Work

  • Limitations:
    • Human-in-the-loop: 문제 1(귀납법)과 문제 2(해석기하학)에 대해 "이 방법으로 풀어보자"는 식의 인간이 제공한 명시적인 힌트가 사용되었습니다. 이는 완전 자율적인 시스템의 성능이라고 보기에는 한계가 있으며, "금메달 수준"이라는 주장의 중요한 약점입니다.
    • Single Model Dependency: 모든 실험이 단일 closed-source 모델인 Gemini 2.5 Pro에 의존하고 있어, 다른 모델이나 open-source 모델에도 이 방법론이 일반화될 수 있을지는 미지수입니다.
    • Incomplete Success: 6문제 중 1문제(문제 6)는 해결하지 못하고 자명한 상한선(trivial upper bound)만 보고하는 데 그쳐, 제안된 방법론이 아직 완벽하지 않음을 보여줍니다.
  • Future Work:
    • 논문은 향후 연구로 다양한 종류의 선두 모델들 (e.g., Grok 4, OpenAI-o series)을 함께 사용하는 방향을 제시합니다.
    • 이는 여러 에이전트(모델)가 각자 다른 접근법(귀납법, 해석기하학 등)을 시도하게 함으로써, 인간의 힌트 없이도 문제를 해결할 수 있는 완전 자율 시스템으로 발전할 가능성을 시사하며, 위에서 언급된 한계점들을 극복할 수 있는 방안이 됩니다.

Overall Summary

이 논문은 최상위 LLM이 이미 IMO 금메달 수준의 잠재적 추론 능력을 내포하고 있으며, 핵심은 그 능력을 어떻게 활용하는지에 달려있다고 주장합니다. 이를 위해, 생성, 자가 개선, 검증을 반복하는 독창적인 pipeline을 제안하여 LLM의 thinking budget 한계를 극복하고, 오염되지 않은 IMO 2025 문제에서 5/6를 해결하는 성과를 보였습니다. 이 연구는 고등 수학 추론 분야에서 단순히 모델의 크기를 키우는 것을 넘어, 모델을 사용하는 방법론의 중요성으로 패러다임을 전환시키는 중요한 의미를 가집니다.


 

1 Introduction

더보기

1 Introduction

국제수학올림피아드(IMO)는 세계에서 가장 재능 있는 대학 입학 전 수학자들을 모으는 권위 있는 연례 대회입니다. 1959년 루마니아에서 단 7개 참가국으로 시작하여, 이후 100개국 이상으로 확장되었으며, 각 국가는 최대 6명의 참가자로 구성된 팀으로 대표됩니다. 1980년을 유일한 예외로 매년 개최되는 IMO는 대수학, 기하학, 정수론, 조합론과 같은 분야에서 매우 어려운 문제로 참가자들에게 도전 과제를 제시합니다. 참가자들은 이틀에 걸쳐 두 번의 4.5시간 session 동안 session당 세 문제를 풀어야 하며, 각 문제는 7점 만점으로 채점됩니다. 일반적인 수학 문제와 달리, IMO 문제는 깊은 통찰력, 독창성, 그리고 다양한 수학적 개념을 종합하는 능력을 요구합니다. 창의적이고 증명 기반의 reasoning에 대한 이러한 강조는 IMO를 수학적 우수성의 상징이자 해당 분야의 미래 리더를 발굴하는 중요한 platform으로 만듭니다.

결과적으로, IMO는 인공지능, 특히 Large Language Models(LLMs)의 고급 reasoning 능력을 평가하기 위한 거대한 도전 과제이자 강력한 벤치마크가 되었으며, 단순한 암기 계산이 아닌 복잡하고 여러 단계의 논리적 추론을 수행하는 능력에 대한 엄격한 테스트를 제공합니다. GSM8K 및 MATH와 같은 전통적인 벤치마크는 각각 초등학교 및 고등학교 수준의 문제에 초점을 맞추고 있으며, LLMs는 training data로부터의 패턴 인식과 검색을 통해 높은 성능을 달성했습니다. 그러나 IMO 문제는 복잡성에서 이를 능가하며, 여러 단계의 reasoning, 추상화, 그리고 인간 전문가 수준의 인지와 유사한 혁신을 요구하여, LLMs의 generalization 능력의 한계와 hallucinations 또는 피상적인 heuristics에 대한 취약점을 드러냅니다. 이는 IMO를 LLMs가 단순히 암기된 해결책을 복제하는 것이 아니라 진정으로 reason할 수 있는지 평가하기 위한 이상적인 탐색 도구로 자리매김하게 하며, 과학적 발견 및 형식적 verification과 같은 고위험 분야에서의 신뢰성에 대한 우려를 해소합니다.

자동화된 수학적 reasoning의 추구는 LLMs의 등장으로 놀라운 진전을 보였습니다. 기초적인 벤치마크에서의 초기 성공은 복잡한 대회 수준의 수학 문제를 해결하는 단계로 빠르게 발전했습니다. 이러한 발전은 models이 중간 reasoning 단계를 generation하도록 하여 복잡한 논리와 계산이 필요한 작업의 성능을 향상시키는 Chain-of-Thought(CoT) prompting과 같은 혁신에 의해 크게 촉진되었습니다. 그럼에도 불구하고, state-of-the-art models조차도 올림피아드 수준의 문제에 직면했을 때 상당한 한계를 보여주었습니다. 예를 들어, USA 수학 올림피아드(USAMO) 2025와 IMO 2025 문제에 대한 최근 평가는 최고 수준의 공개 models이 여전히 건전하고 엄격한 증명을 생성하는 데 어려움을 겪고 인간 메달리스트에 필적하는 점수를 달성하지 못하며, 종종 논리적 오류와 창의적 통찰력 부족에 빠진다는 것을 보여주었습니다. 이는 수치적으로 정확한 답을 generation하는 것과 논리적으로 건전한 주장을 구성하는 것 사이의 중요한 격차를 강조합니다.

이 논문은 구글이 발표한 강력한 기본 model인 Gemini 2.5 Pro model을 이용한 pipeline 설계와 prompt engineering에 기반한 새로운 방법론을 제시합니다. 우리는 IMO 2025의 6개 문제 중 5개를 해결합니다. LLMs 평가에서 지속적이고 중요한 과제는 공개 벤치마크의 테스트 데이터가 방대한 pre-training 코퍼스에 의도치 않게 포함되어 부풀려지고 신뢰할 수 없는 성능 지표로 이어지는 data contamination 문제입니다. 우리 model의 진정한 문제 해결 능력을 엄격하고 오염되지 않은 상태로 평가하기 위해, 이 연구는 가장 최근의 IMO 2025 대회의 문제만을 독점적으로 활용합니다. 이 문제들은 우리 평가 불과 며칠 전에 공개되었기 때문에, data leakage의 위험을 완화하고 진정으로 보지 못한 도전에 대해 model이 generalize하고 reason하는 능력을 강력하게 측정하는 깨끗한 테스트베드 역할을 합니다. 우리의 접근 방식은 강력한 기존 models이 이미 어려운 수학 reasoning 문제를 해결할 능력이 있음을 보여주지만, 이를 직접 사용하면 좋지 않은 결과를 초래할 수 있음을 보여줍니다. 우리의 결과는 자동화된 수학적 reasoning에서 상당한 진전을 보여줍니다.

최근 우리는 OpenAI가 IMO 2025에서 금메달을 획득했다는 발표를 인지하게 되었습니다.

Introduction 핵심 정리

이 논문의 Introduction은 AI의 수학적 reasoning 능력, 특히 Large Language Models (LLMs)를 평가하는 데 있어 국제수학올림피아드(IMO)가 왜 중요한 벤치마크인지를 강조하며 시작합니다.

  • 문제 정의: 기존 수학 벤치마크(GSM8K, MATH 등)는 LLMs가 패턴 인식 및 training data 검색으로 높은 점수를 얻을 수 있어 진정한 reasoning 능력을 측정하기에 한계가 있습니다. 반면, IMO는 창의적이고 여러 단계의 논리적 증명을 요구하므로 LLMs의 generalization 한계와 hallucinations 경향 같은 근본적인 약점을 드러내는 이상적인 테스트 환경입니다.
  • 기존 연구의 한계: Chain-of-Thought 같은 기법으로 AI의 수학적 reasoning이 발전했지만, state-of-the-art models조차 IMO 수준의 문제에서는 논리적 오류를 범하며 실패했습니다. 이는 정답 숫자를 맞추는 것과 논리적으로 타당한 증명을 구성하는 것 사이의 간극을 보여줍니다.
  • 이 논문의 핵심 주장 및 방법:
    1. 방법론: 구글의 Gemini 2.5 Pro model을 사용하여, 독자적인 pipeline 설계와 prompt engineering을 적용했습니다.
    2. 결과: 이 방법론을 통해 최신 IMO 2025 문제 6개 중 5개를 해결하는 데 성공했습니다.
    3. 핵심 주장: 이 결과는 Gemini 2.5 Pro와 같은 강력한 model이 이미 최고 수준의 수학 문제를 해결할 잠재력을 내재하고 있음을 시사합니다. 즉, model 자체의 한계보다는 model을 어떻게 활용하는가(예: pipeline, prompting 방식)가 성패를 가르는 결정적 요인이라는 것입니다.
  • 실험의 신뢰성: LLM 평가의 고질적인 문제인 data contamination(테스트 문제가 pre-training 데이터에 포함되는 것)을 원천 차단하기 위해, 평가 직전에 발표된 IMO 2025 문제만을 사용했습니다. 이를 통해 model의 순수한 reasoning 및 generalization 능력을 엄격하게 검증했습니다.
  • 최신 동향: 최근 OpenAI 또한 IMO 2025 문제에서 우수한 성과를 거두었다고 발표한 사실을 언급하며, 해당 분야의 치열한 연구 동향을 시사합니다.

쉬운 설명 :

이 논문의 도입부는 이렇게 이야기합니다. "지금까지 AI에게 수학 문제를 풀게 하는 건, 대부분 단순 계산이나 고등학교 수준의 문제였습니다. AI는 이런 문제들을 훈련 데이터에서 본 비슷한 유형을 기억해서 곧잘 풀어냅니다. 하지만 이건 진짜 '수학적 사고'를 한다고 보기 어렵습니다."

국제수학올림피아드(IMO)는 이런 시험들과 차원이 다릅니다. 정해진 공식만으로 풀 수 없고, 완전히 새로운 아이디어를 떠올려 논리적으로 증명해야만 합니다. 그래서 IMO는 AI가 정말 인간처럼 창의적인 사고를 할 수 있는지 확인하는 '끝판왕' 테스트 같은 것입니다.

이전까지 가장 똑똑하다는 AI들도 이 올림피아드 문제 앞에서는 계속 실패했습니다. 그런데 이 연구팀은 구글의 최신 AI인 'Gemini 2.5 Pro'를 그냥 사용하지 않고, AI에게 문제를 던지고 상호작용하는 특별한 전략(pipeline과 prompt engineering)을 만들었습니다.

놀랍게도 이 전략을 사용하자, AI가 가장 최신 IMO 문제 6개 중 5개를 풀어내는 데 성공했습니다. 연구팀은 AI가 답을 미리 외웠을 가능성을 없애기 위해, 발표된 지 며칠 안 된 새로운 문제들로만 테스트했습니다.

결론적으로 이 논문이 말하는 바는 "강력한 AI는 이미 올림피아드 문제를 풀 수 있는 잠재력을 가지고 있었다. 다만 우리가 그 능력을 제대로 끌어내는 방법을 몰랐을 뿐이며, 우리의 새로운 전략이 그 방법을 찾은 것일 수 있다"는 것입니다.

 

 

2 Methods

더보기

2.1 Pipeline

high level에서 우리의 pipeline은 다음과 같이 진행됩니다 (??에 설명됨):

  • 1단계: 섹션 3.1의 prompt를 통한 초기 해법 generation;
  • 2단계: Self-improvement
  • 3단계: Verification; 4단계 또는 6단계로 이동 (설명은 아래 참조)
  • 4단계: Check verification
  • 5단계: Correction; 3단계로 이동
  • 6단계: Accept or Reject

초기에, 우리는 model(Gemini 2.5 Pro)을 여러 번 실행하여 문제에 대한 초기 해법 samples을 얻습니다. sampling 단계는 exploration과 유사합니다. 우리는 하나 이상의 samples이 올바른 접근법과 일부 겹치기를 바랍니다. 그런 다음, 우리는 해법을 iteratively 개선하고 최종적으로 높은 품질의 해법을 채택하려고 시도합니다.

더 구체적으로, 우리는 먼저 model이 prompt를 사용하여 문제를 해결하도록 시도합니다.... 이 prompt는 final answer를 찾는 데 초점을 맞추기보다는 엄격함을 강조하도록 설계되었으며, 이는 IMO의 주제와 일치합니다. 우리는 일부 outputs을 무작위로 선택했으며, 해법의 전반적인 품질이 상당히 낮다는 것을 발견했습니다. 이는 매우 최근의 연구 결과와 일치합니다.

두 번째 단계에서, model은 자신의 작업을 검토하고 개선하도록 prompted됩니다. 우리는 Gemini 2.5 Pro를 사용합니다. 이것은 수학에 능숙하지만, general-purpose LLM으로서 특별히 어려운 수학 문제를 해결하는 데 맞춰져 있지는 않습니다. 한 가지 중요한 제약은 thinking budget입니다. 사고 과정은 상당히 token을 많이 소모한다는 점에 유의해야 합니다: 사소한 사실 하나를 model이 증명하는 데에도 수천 개의 tokens이 소요될 수 있습니다. Gemini 2.5 Pro의 최대 thinking tokens 수는 32768개이며, 이는 일반적인 IMO 문제를 해결하기에 충분하지 않습니다. 우리는 1단계에서 model이 거의 항상 thinking budget을 소진한다는 것을 관찰했습니다. 따라서, model은 문제를 완전히 해결할 능력조차 갖추지 못한 것입니다. 이것이 우리가 문제 해결 과정을 여러 단계로 나누기로 선택한 이유입니다. 두 번째 단계의 목표는 model이 자신의 작업을 검토하고 계속할 수 있도록 32768개의 thinking tokens 예산을 추가로 투입하는 것입니다. 우리는 전체 과정을 계속 monitoring하며, 두 번째 단계에서 outputs이 눈에 띄게 개선되었음을 실제로 관찰합니다.

다음으로 우리는 verifier를 사용하여 반복적인 개선을 하고 개선된 해법을 수용할지 여부를 결정할 것입니다.


2.2 Verifier

verifier는 우리의 pipeline에서 중요한 역할을 합니다. 그 기능은 해법을 단계별로 신중하게 검토하고 문제점(있는 경우)을 찾아내는 것입니다. 우리는 수학적 엄격함을 강조하며, 문제점을 critical errors와 justification gaps로 분류합니다. Critical errors는 명백히 거짓이거나 명확한 논리적 오류가 있는 것이며, justification gaps는 주요하거나 사소할 수 있습니다. 수리할 수 없는 주요 justification gap은 전체 증명을 무너뜨릴 수 있는 반면, 사소한 justification gaps는 잘 정의되지 않을 수도 있습니다: 사소한 gap은 때때로 간결한 주장으로 간주될 수도 있습니다.

3단계에서, 우리는 verifier를 사용하여 2단계에서 출력된 각 해법에 대한 bug report를 generation합니다. bug report에는 critical errors 또는 justification gaps로 분류된 문제 목록이 포함됩니다. 각 문제에 대해 설명이 요구됩니다. bug report는 model이 오류를 수정하거나 gaps을 메우는 등 해법을 개선하는 데 유용한 정보로 사용됩니다. 4단계는 bug reports를 검토하는 것입니다. 이는 bug reports의 신뢰도를 높일 것입니다. 5단계에서, model은 bug reports를 기반으로 해법을 개선합니다. 우리는 해법을 수용하거나 거부할 때까지 3-5단계를 충분한 횟수만큼 반복합니다. 우리는 verifier의 확인을 통과하면 해법을 수용하고, 반복 과정 동안 항상 critical errors나 주요 justification gaps이 있는 경우 해법을 거부합니다.

우리는 verifier가 상당히 신뢰할 수 있지만 실수를 할 수 있음을 관찰합니다. 우리의 주요 목표는 verifier를 벤치마킹하는 것이 아니므로, 그 효과성에 대한 quantitative results는 없습니다. 그러나 우리는 이 verifier를 꽤 오랫동안 사용해 왔습니다(IMO 훨씬 이전부터). 우리는 그 성능을 계속 주시해왔으며, 아래는 우리의 관찰 결과입니다:

  • Critical errors는 verifier가 거의 놓치지 않습니다. 이는 다른 연구에서의 관찰과 일치합니다. 드물게 이러한 오류를 포착하지 못하는 경우에도, verifier를 몇 번 더 실행하면 포착할 가능성이 매우 높습니다. 이는 우리가 critical errors를 놓치고 싶지 않기 때문에 좋은 점입니다.
  • 만약 verifier가 critical error를 보고한다면, 그것이 항상 치명적인 것은 아닐 수 있지만, 거의 항상 일부 수정이 필요합니다.
  • verifier는 약간만 사소한 수준을 벗어나는 진술들을 justification gaps로 보고할 수 있으며, 따라서 수학자들에게는 실제 gaps이 아닐 수 있습니다.

실제로, 우리 system은 verifier가 저지르는 오류에 대해 상당히 robust합니다. 우리는 verifier를 충분한 횟수만큼 반복적으로 사용합니다. 만약 한 iteration에서 오류를 놓치더라도, 다음 iteration에서 그것을 포착할 확률이 여전히 있습니다. 또한, 실제로는 오류가 아닌 것을 오류라고 주장하는 경우, 그러한 false negative는 bug report 검토 단계를 통과하지 못할 수 있습니다. 더욱이, 우리는 (해법을 generation하는) model에게 bug report의 각 항목을 검토하도록 지시합니다. 만약 model이 특정 항목에 동의하지 않으면, 오해를 최소화하도록 해법을 수정하도록 권장됩니다. 이는 peer review 과정과 유사합니다. 만약 심사위원이 잘못된 판단을 내리면, 저자들은 논문을 수정하도록 권장됩니다. 궁극적으로 전체 과정은 발표의 질을 향상시킵니다.

우리가 해법을 수용하기로 계획할 때, verifier가 어떤 문제도 놓치지 않기를 바랍니다; 우리는 verifier를 다섯 번 실행하고 매번 통과하는 경우에만 해법을 수용합니다.

 

 

Methods 핵심 정리

이 논문은 model의 단일 prompt 능력에 의존하는 대신, 정교한 다단계 pipeline을 통해 IMO 문제를 해결하는 독창적인 방법론을 제시합니다.

  • 핵심 문제 인식 및 해결책:
    • 문제: Gemini 2.5 Pro의 최대 thinking tokens (32768)는 IMO 문제 하나를 처음부터 끝까지 한 번에 푸는 데 턱없이 부족합니다. model은 초기 generation 단계에서 이 budget을 거의 항상 소진합니다.
    • 해결책: 문제 해결 과정을 여러 단계로 분할하여, 각 단계마다 새로운 token budget을 할당합니다. 특히 Self-improvement 단계는 단순히 재시도하는 것이 아니라, model이 작업을 검토하고 계속할 수 있도록 32768개의 thinking tokens을 추가로 "주입"하는 명시적인 목적을 가집니다.
  • 반복적인 개선 및 검증 Loop:
    1. 초기 Generation: prompt를 통해 여러 초기 해법 samples을 generation하여 다양한 접근법을 exploration 합니다.
    2. Self-improvement: generation된 해법을 model 스스로 검토하고 개선하게 하여 token budget을 재충전하고 풀이의 깊이를 더합니다.
    3. Verification과 Correction:
      • 별도의 Verifier model을 사용하여 해법의 critical errors(명백한 논리적 오류)와 justification gaps(증명의 비약)을 찾아내는 bug report를 생성합니다.
      • 해결 model은 이 bug report를 기반으로 해법을 수정합니다. 이 과정은 Verifier가 오류를 놓치거나, 해결 model이 Verifier의 지적에 동의하지 않을 경우(마치 peer review처럼) 방어 논리를 보강하며 수정하는 과정을 포함하여 system 전체의 robustness를 높입니다.
      • 이 검증-수정 loop는 해법이 수용/거부될 때까지 여러 번 반복됩니다.
  • 엄격한 최종 수용 기준:
    • 하나의 해법을 최종적으로 채택하기 전, Verifier를 5번 실행하여 단 한 번의 실패도 없이 모두 통과해야만 합니다. 이는 pipeline의 최종 output에 대한 높은 신뢰도를 보장하기 위한 장치입니다.

쉬운 설명 :

AI에게 아주 어려운 올림피아드 수학 문제를 한 번에 풀라고 시키는 것은, 마치 한 사람에게 쉬지 않고 8시간짜리 대수술을 집도하라고 하는 것과 같습니다. 집중력(token budget)에 한계가 있어서 중간에 지쳐버리거나 실수를 하게 되죠.

그래서 이 연구팀은 한 명의 천재 AI에게 모든 걸 맡기는 대신, 여러 전문가 AI로 구성된 '수술 팀'을 만들었습니다.

  1. 브레인스토밍 (초기 해법 생성): 먼저 AI에게 "일단 생각나는 대로 아이디어를 전부 내봐"라며 여러 가지 풀이법 초안을 만들게 합니다. 이 초안들은 대부분 엉성하지만, 좋은 아이디어의 실마리를 담고 있습니다.
  2. 집중과 발전 (Self-improvement): 그중 괜찮아 보이는 초안 하나를 뽑아서 AI에게 "자, 이제 정신 가다듬고 이 아이디어에만 집중해서 더 발전시켜봐"라고 지시합니다. AI는 새로운 집중력을 얻어 풀이를 더 깊게 파고들 수 있습니다.
  3. 오류 검증 전문가 (Verifier): 이제 다른 전문가 AI, 즉 '검증 담당'이 나섭니다. 이 AI는 풀이 과정을 한 줄 한 줄 꼼꼼히 뜯어보며 "여기는 논리가 비약했네요", "이 부분은 명백한 오류입니다"와 같이 매우 상세한 '오류 보고서(bug report)'를 작성합니다.
  4. 수정과 재검토 (Correction Loop): 처음 풀이를 작성했던 AI는 이 오류 보고서를 받고 자신의 풀이를 수정합니다. 이 과정은 마치 의사들이 서로의 의견을 교환하며 수술 계획을 보완하는 것과 같습니다. '검증 담당'이 실수를 할 수도 있기 때문에, 이 검증과 수정 과정은 완벽해질 때까지 여러 번 반복됩니다.
  5. 최종 확인 사살: 마침내 완벽해 보이는 풀이가 나오면, '검증 담당' AI가 마지막으로 다섯 번을 연달아 검증합니다. 다섯 번 모두 "아무런 문제가 없습니다"라는 결과가 나와야만 비로소 "이 문제는 해결되었다"고 최종 결론을 내립니다. 이렇게 해서 실수를 거의 제로에 가깝게 만드는 것이죠.

 

 

 

 

 

 

주인장 이해

더보기

조금 더 정밀하게 각 단계를 구분해서 설명해 드리면 다음과 같습니다.

  1. 초기 풀이 생성 (Sampling & Initial Generation): AI가 먼저 문제를 여러 번 풉니다 (샘플링). 이 과정은 다양한 접근법을 탐색하는 것과 같습니다. 그중에서 정답에 가까운 접근법을 가진 '가능성 있는' 풀이를 고릅니다.
  2. 자가 개선 (Self-Improvement): 그 풀이를 AI 스스로 다시 검토하고 발전시킵니다. 논문의 핵심은 이 단계에서 AI에게 '새로운 생각할 시간(thinking budget)'을 주어 초기 풀이의 한계를 넘어서게 하는 것입니다.
  3. 검증 및 피드백 (Verification & Feedback): 다른 '검증자' AI가 이 발전된 풀이를 꼼꼼히 채점합니다. 단순히 맞다/틀리다 가 아니라, '이 부분 논리가 비약했어', '이 계산은 틀렸어' 와 같이 구체적인 '버그 리포트'를 작성해 줍니다.
  4. 수정 (Correction): 원래 풀이를 만들었던 AI가 이 '버그 리포트'를 보고 자신의 풀이를 수정합니다. 마치 사람이 동료의 리뷰를 보고 논문을 수정하는 것과 같습니다.
  5. 반복 (Iteration):  '검증 → 수정' 과정을 여러 번 반복하면서 더 이상 심각한 오류가 발견되지 않을 때까지 풀이의 완성도를 계속 높여갑니다.

'5번 반복'에 대한 정밀한 설명

말씀하신 '5번 반복'은 전체 과정을 5번 돌리는 것이 아니라, 최종적으로 "이 풀이는 이제 완벽하다!"라고 결정하기 직전에, 혹시라도 놓친 오류가 없는지 확인하기 위해 '검증자'를 5번 실행하는 것을 의미합니다.

  • 5번의 검증을 모두 통과해야만 최종 답안으로 채택하는, 매우 엄격한 마지막 관문인 셈입니다. 이는 실수를 최소화하려는 안전장치입니다.

따라서 요약하면, 한 번에 완벽한 답을 찾는 것이 아니라, '초안 작성 → 자가 검토 → 동료 피드백 → 수정'이라는 인간의 지적 활동 과정을 AI로 모방하여, 점진적으로 완벽에 가까운 결과물을 만들어내는 방식이라고 할 수 있습니다. 정확히 핵심을 파악하셨습니다.