AI바라기의 인공지능
LLM : 빠른 논문 리뷰 : WHAT MAKES MATH PROBLEMS HARD FOR REINFORCEMENT LEARNING: A CASE STUDY 본문
LLM : 빠른 논문 리뷰 : WHAT MAKES MATH PROBLEMS HARD FOR REINFORCEMENT LEARNING: A CASE STUDY
AI바라기 2026. 1. 16. 12:39
이 논문은 Andrews-Curtis (AC) Conjecture라는 난해한 수학 문제를 통해, **Reinforcement Learning (RL)**이 희소한 보상(sparse reward)과 긴 탐색 경로(long horizon)를 가진 문제를 해결할 때 겪는 어려움을 분석하고, 이를 극복하기 위한 새로운 알고리즘적 접근법과 '난이도(hardness)'에 대한 정량적 지표를 제안한 연구입니다.
용어 설명
- Andrews-Curtis (AC) Conjecture: 기하군론(Geometric Group Theory)의 난제로, 자명군(trivial group)의 모든 'Balanced Presentation'(생성자와 관계식의 개수가 같은 표현)이 특정한 AC-moves만을 사용하여 '자명한 표현(trivial presentation)'으로 변환될 수 있다는 추측입니다.
- AC-moves: 군의 표현을 변환하는 3가지 기본 연산 (1. 관계식에 다른 관계식 곱하기, 2. 관계식 역원 취하기, 3. 관계식을 generator로 conjugation 하기).
- Miller-Schupp (MS) Series & Akbulut-Kirby (AK) Series: AC Conjecture의 반례(counterexample) 후보로 거론되는, 매우 풀기 어려운 특정 군 표현(presentation)들의 집합입니다.
- Supermoves: 기본적인 AC-move들의 긴 시퀀스를 하나의 단일 행동(action)으로 묶은 것. RL 에이전트가 긴 탐색 공간을 건너뛰도록 돕는 역할을 합니다.
- Path-to-base search: 복잡한 상태에서 시작하여 기본 상태(base, 여기서는 trivial presentation)로 돌아가는 경로를 찾는 탐색 문제입니다.
- Persistent Homology: 위상수학적 데이터 분석(TDA) 기법 중 하나로, 데이터의 구멍(hole)이나 연결 성분 같은 위상적 특징이 다양한 스케일에서 어떻게 유지되는지를 측정하여 'Barcode' 형태로 나타내는 방법입니다. 이 논문에서는 문제의 난이도를 정의하는 데 사용됩니다.
- Stably AC-trivial: 표준 AC-move 외에 '새로운 생성자와 자명한 관계식을 추가/제거'하는 연산을 허용했을 때 trivial하게 만들 수 있는 상태. 매듭 이론(Knot theory)과 관련이 깊습니다.
Purpose of the Paper
- 기존 한계 극복: 현재의 RL 및 검색 알고리즘은 탐색 공간이 지수적으로 크고 정답(보상)이 매우 희소한(ultra-sparse rewards) 문제를 해결하는 데 한계가 있습니다. 특히 수학적 난제 증명처럼 수백 단계 이상의 정교한 조작이 필요한 경우, 단순한 탐색이나 범용적인 RL 알고리즘(PPO 등)으로는 해결이 거의 불가능합니다.
- 새로운 접근 방식: 이 논문은 AC Conjecture를 **"수학적 AI를 위한 초고난도 벤치마크"**로 정의하고, 단순히 문제를 푸는 것을 넘어 **"문제의 난이도(Hardness)란 무엇인가?"**를 정의하고 학습하는 데 초점을 맞춥니다.
- 연구 목표:
- RL 에이전트가 풀기 어려운 문제의 분포와 특징을 파악.
- 스스로 어려운 예제로부터 Supermoves를 학습하여 Action Space를 동적으로 확장하는 알고리즘 제안.
- 이를 통해 수십 년간 미해결이었던 수학적 반례 후보들(MS, AK series)을 해결하거나 단순화함.
Key Contributions
- 수학적 난제 해결 (Mathematical Results):
- AK(n) 길이 단축: 40년 넘게 미해결이었던 Akbulut-Kirby (AK) series의 길이를 AC-move를 통해 획기적으로 줄일 수 있음을 증명했습니다 (Theorem A).
- MS Series 해결: Miller-Schupp (MS) series의 무한한 하위 집합들(infinite subfamilies)이 실제로는 AC-trivial 함을 증명했습니다 (Theorem B).
- 오류 수정: 기존 문헌([MMS02])에 있던 Knot theory 기반의 잠재적 반례에 대한 주장 중, 결정적인 오타(misprint)를 발견하여 해당 주장이 성립하지 않음을 밝혔습니다.
- 알고리즘적 기여 (Algorithmic Enhancements):
- Adaptive Action Space (Algorithm 3): 학습 과정에서 에이전트가 발견한 '어려운 성공 사례(hard instances)'들의 경로를 분석하여, 자주 등장하는 패턴을 Supermoves로 자동 등록하는 방법을 제안했습니다. 이는 탐색 효율을 극적으로 높입니다.
- Curriculum via Horizon Length: 초기에는 짧은 경로(horizon)로 해결 가능한 문제를 학습하고, 점진적으로 horizon을 늘려가는 방식이 고정된 horizon보다 효과적임을 보였습니다.
- 난이도 분석 및 측정 (Hardness Measure):
- Global Hardness: Persistent Homology를 사용하여 AC-graph 상에서 문제의 난이도를 위상수학적으로 정의(barcode)하고, 이것이 실제 풀이 난이도와 상관관계가 있음을 보였습니다.
- Linguistic Structure: Transformer 기반 언어 모델을 학습시킨 결과, 해결 가능한 문제와 해결 불가능한 문제가 임베딩 공간(embedding space)에서 서로 다른 클러스터를 형성함을 발견했습니다.
Novelty
- 단순히 RL을 적용한 것이 아니라, RL이 찾아낸 경로(trace)를 역분석하여 새로운 수학적 정리(Theorem)를 도출해냈다는 점이 가장 독창적입니다.
- 문제의 '어려움'을 단순히 탐색 깊이(steps)로 정의하지 않고, **Topological Data Analysis (TDA)**를 통해 구조적으로 정의하려 시도한 최초의 연구 중 하나입니다.
- 수학적 Search 문제를 Language Modeling(Transformer) 관점에서 해석하여, 문제 자체의 "언어적 구조"가 난이도와 연결됨을 보였습니다.
Experimental Highlights
- RL vs Classical Search:
- **Greedy Search (GS)**는 1,190개의 MS presentation 중 533개를 해결했지만, **Breadth-First Search (BFS)**는 278개만 해결했습니다.
- **PPO (RL Agent)**는 GS가 해결하지 못한 더 복잡한 구조의 presentation들을 해결했습니다. 특히, GS는 찾지 못한 더 짧은 경로를 PPO가 발견하는 경우가 많았습니다.
- Specific Hard Cases Solved:
- 기존 알고리즘들이 실패했던 MS series의 특정 사례(예: 길이 17, 19인 presentation)를 PPO 에이전트가 각각 205 step, 381 step의 AC-move를 통해 해결했습니다 (Theorem 10). 이 과정에서 presentation의 길이는 최대 30까지 증가했다가 다시 줄어들었습니다.
- Supermoves의 효과:
- Supermoves를 도입했을 때, 에이전트가 더 긴 horizon을 가진 문제를 해결하는 능력이 향상되었으며, 특정 어려운 패턴(move #11과 #5의 반복 등)이 해결의 열쇠임이 밝혀졌습니다.
- Local Feature Prediction:
- Presentation의 5-step 이웃(neighborhood) 그래프의 Barcode vector 등을 Feature로 사용하여 XGBoost로 해결 가능 여부를 예측한 결과, F1-score 0.962를 달성했습니다. (단순 길이만 사용했을 때는 0.885).
Limitations and Future Work
- Limitations:
- Horizon Length의 제약: RL 에이전트(PPO)는 여전히 매우 긴 horizon(수천 step 이상)을 요구하는 문제에서는 탐색 공간의 폭발로 인해 한계를 보입니다.
- Computational Cost: 논문에서 제안한 Supermoves 방식이나 긴 horizon 학습은 계산 비용이 많이 듭니다. 논문에서는 학계 수준의 리소스로 진행하여 GS보다 절대적인 해결 개수는 적었습니다.
- Reward Shaping: 단순히 presentation의 '길이(length)'를 기반으로 한 보상 함수는 최적의 신호가 아닐 수 있습니다. (길이를 늘려야만 풀리는 문제가 존재함).
- Future Work:
- Scaling Up: 더 큰 신경망과 더 긴 학습 시간을 투자하여 RL 에이전트의 성능을 극대화할 필요가 있습니다.
- Learning to Search: Greedy Search에서 사용하는 우선순위 큐(priority queue)의 정렬 기준 함수(heuristic function) 자체를 RL로 학습하는 방향을 제안합니다.
- Stable AC & Knot Theory: Stable AC-move와 매듭 이론의 관계를 더 깊이 탐구하여, 3-generator 이상의 presentation에 대한 AC-triviality를 증명하는 방향이 제시되었습니다.
Overall Summary
이 논문은 Andrews-Curtis Conjecture라는 수학적 난제를 Reinforcement Learning의 관점에서 재해석한 획기적인 사례 연구입니다. 연구진은 PPO 알고리즘과 위상수학적 분석(TDA), 그리고 Transformer 모델을 결합하여 수학 문제의 '난이도'를 정량화하고, 이를 바탕으로 스스로 행동 공간(Action Space)을 확장하는 Adaptive RL 방법론을 제안했습니다. 결과적으로 수십 년간 미해결이었던 Miller-Schupp 및 Akbulut-Kirby series의 주요 반례 후보들을 해결하거나 단순화하는 수학적 성과를 거두었으며, 이는 AI가 순수 수학 연구의 훌륭한 조력자가 될 수 있음을 증명합니다.
쉬운 설명
이 논문의 핵심 아이디어는 **"미로 찾기를 할 때, 단순히 출구에 가까워지는 길만 찾으면(Greedy) 막다른 길에 갇히기 쉽다"**는 것입니다. 수학 난제(AC Conjecture)는 풀기 위해서 식을 잠깐 더 복잡하게(길게) 만들었다가 나중에 확 줄여버리는 전략이 필수적입니다.
연구진은 AI에게 **"지금 당장은 복잡해 보여도, 나중에 문제를 한 방에 해결해 주는 필살기(Supermoves)"**를 스스로 배우게 했습니다. 그 결과, AI는 사람이 찾지 못한 복잡한 '우회로'를 찾아내어 수십 년 묵은 수학 문제들을 풀어냈습니다. 또한, AI가 문제를 보고 "이건 풀릴 놈이다/아니다"를 판별하는 '직관'도 위상수학적 데이터 분석을 통해 어느 정도 설명해냈습니다.
- 문제 정의:
- 군론의 수학 문제(Andrews-Curtis)를 풀기 위해,
- 최소 단위 조작을 정의하고 이를 **12개의 액션(Basic AC-moves)**으로 설정.
- 모델 및 학습:
- 거창한 LLM이 아닌, **2-layer MLP (Policy Network)**를 사용.
- **강화학습 (PPO)**을 통해 12개 버튼을 누르며 트라이 & 에러 반복.
- 핵심 메커니즘 (Adaptive Action Space):
- 학습을 잠시 멈추고(Offline), 성공한 경로(Trace)를 분석.
- 자주 나오는 패턴(Subsequences)을 **Supermoves(단축키)**로 정의.
- MLP의 출력층(Output Layer) 크기를 늘려서(12개 -> 13개...) 새로운 액션 버튼을 물리적으로 추가.
- 다시 학습 재개 (Retrain).
별점 2점
AI가 스스로 학습 전략을 깨우친 것이 아니라, 연구자가 로그를 뜯어보고 "이 패턴이 자주 나오네? 단축키로 만들어줄게"라고 떠먹여 준 것에 불과함.
수학 난제를 풀었다는 결과론적 성과는 있지만, AI 기술 관점에서는 "특정 문제에 과적합된 노가다 봇" 그 이상도 이하도 아님.
결국 사람이 중간에 개입해서 매크로(단축키) 등록해주고 다시 돌리는 과정을, 그럴싸한 용어로 포장한 것
