AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : SEEPHYS: Does Seeing Help Thinking? –Benchmarking Vision-Based Physics Reasoning 본문
논문리뷰
VLM : 빠른 논문 리뷰 : SEEPHYS: Does Seeing Help Thinking? –Benchmarking Vision-Based Physics Reasoning
AI바라기 2026. 1. 6. 17:14Terminology
- Vision-Essential (VE): 이미지가 없으면 문제를 절대 풀 수 없는 유형. 문제 해결에 필요한 핵심 정보(수치, 위상 구조 등)가 오직 이미지에만 포함된 경우입니다.
- Vision-Optional (VO): 이미지가 보조적인 역할만 하는 유형. 텍스트만으로도 모든 정보를 얻을 수 있어 이미지가 없어도 풀 수 있는 문제입니다.
- Vision Only (VO - Experimental Setting): 텍스트 입력을 아예 주지 않고, 질문 텍스트까지 이미지 픽셀로 렌더링하여 하나의 이미지 파일로만 모델에 입력하는 실험 설정입니다.
- LLM-as-a-Judge: 모델이 생성한 답변의 정답 여부를 판별하기 위해 또 다른 고성능 LLM(여기서는 DeepSeek-V3 등)을 채점자로 활용하는 평가 방식입니다.
- Feynman Diagram: 입자 물리학에서 입자들의 상호작용과 반응 과정을 나타내는 특수한 도표 유형입니다.
- Modeling Flaws: 모델이 물리 법칙을 잘못 적용하거나, 문제 상황을 물리적 모델로 변환하는 과정에서 발생하는 오류(예: 회로도 해석 오류, 경계 조건 무시 등)를 뜻합니다.
Purpose of the Paper
- 기존 Science Benchmark의 한계 극복: 기존의 multimodal 벤치마크들(ScienceQA, MMMU 등)은 이미지가 포함되어 있더라도 텍스트만으로 풀 수 있는 문제의 비중이 높거나, 시각 정보가 단순 장식(decorative)에 불과한 경우가 많았습니다. 또한, 물리라는 특정 도메인의 깊이 있는 추론을 평가하기엔 범위가 제한적이었습니다.
- 진정한 "See to Think" 능력 평가: Physics reasoning은 본질적으로 텍스트 설명과 실제 세계의 시각적 컨텍스트(diagrams)를 결합해야만 가능합니다. 이 논문은 MLLM(Multimodal Large Language Models)이 단순히 텍스트 단서를 이용한 편법(cognitive shortcuts)이 아니라, 시각 정보를 통해 물리적 법칙을 도출하고 추론할 수 있는지를 평가하고자 했습니다.
- 광범위한 지식 및 난이도 커버리지: 중학교 수준부터 박사 자격시험(PhD candidacy exams) 수준까지 아우르는, 그리고 7가지 핵심 물리 도메인을 포함하는 포괄적인 testbed를 구축하여 현존하는 모델들의 한계를 명확히 드러내고자 했습니다.
Key Contributions
- SEEPHYS Benchmark 구축:
- 규모 및 다양성: 2,000개의 고품질 물리 문제와 2,245개의 이미지로 구성되었습니다. 7개의 물리 도메인(고전 역학, 전자기학, 양자 역학 등)과 21개의 세부적인 diagram types(회로도, 파동 다이어그램, 광학 경로 등)를 포함합니다.
- Vision-Essential 데이터 중심: 기존 연구들과 달리, 전체 데이터의 75퍼센트가 Vision-Essential 문제로 구성되어 있어, 모델의 visual understanding 능력을 강제로 요구합니다.
- 다층적 난이도 설계 (Novelty):
- 중학교(Middle School)부터 박사(PhD) 레벨까지 8단계의 난이도로 세분화했습니다. 특히 올림피아드 문제는 Beginner와 Advanced로 나누어 단순 지식 암기가 아닌 복잡한 추론 능력을 평가합니다.
- 엄격한 데이터 품질 관리:
- 오픈 소스 교재, 시험, 경시대회 등에서 수집한 문제를 전문가들이 직접 검수하고, GPT-4o 등의 검색 기능을 차단한 상태에서도 일관된 답을 내는지 확인하여 데이터 유출(data leakage)을 방지했습니다.
- 실험적 설정의 독창성:
- Vision Only (VO) 설정을 도입하여, 텍스트 정보를 이미지 픽셀로 변환했을 때 모델의 성능이 어떻게 변하는지 분석함으로써 모델의 진정한 multimodal 처리 능력을 테스트했습니다.
Experimental Highlights
- 최첨단 모델들의 저조한 성적:
- 현재 가장 강력한 모델인 Gemini-2.5-Pro와 OpenAI o4-mini조차도 전체 정확도가 55퍼센트 미만(각각 54.9퍼센트, 51.9퍼센트)에 그쳤습니다. 반면 인간 전문가(Human Expert)는 86.5퍼센트를 기록하여 큰 격차를 보였습니다.
- Claude-3.7-Sonnet이나 GPT-4o 같은 모델들은 30~40퍼센트 대의 낮은 성능을 보였습니다.
- 시각 정보 의존도 검증:
- Vision-Essential subset에서 이미지를 제거(Text Only)했을 때, 모든 모델의 성능이 급격히 하락했습니다. 이는 SEEPHYS가 시각적 추론을 필수적으로 요구함을 증명합니다.
- Vision Only 설정(텍스트를 이미지화)에서 o4-mini는 성능 저하가 적었으나(텍스트 OCR 및 이해 능력이 뛰어남), Qwen2.5-VL-3B 같은 소형 모델이나 일부 모델은 성능이 크게 떨어졌습니다.
- 난이도별 성능 불균형:
- 모델들은 박사(PhD) 수준 문제보다 오히려 Advanced Olympiad 문제에서 더 낮은 성능을 보였습니다. 이는 현재 모델들이 고차원적인 지식(Knowledge)은 암기하고 있으나, 복잡한 상황에서의 derivation 및 logical reasoning 능력은 부족함을 시사합니다.
- 실패 원인 분석 (Error Analysis):
- Modeling Flaws (가장 빈번): 문제 상황을 물리 수식으로 변환하는 과정에서의 오류.
- Visual Misinterpretation: 그래프의 눈금을 잘못 읽거나 회로의 연결 상태를 오인함.
- Oversimplification: 필수적인 물리적 제약 조건을 무시하고 단순화함.
Limitations and Future Work
- Limitations:
- Process Reward의 부재: 현재 평가는 최종 정답(outcome)만을 기준으로 채점됩니다. 중간 추론 과정(Process)을 평가하기에는 비용이 높고 정답의 불확실성이 존재하여 자동화된 step-by-step 평가가 어렵습니다.
- 실제 세계와의 괴리: 벤치마크가 이론적인 시험 문제(textbook style)에 기반하고 있어, 실제 로봇 공학이나 자율 주행 등에서 마주하는 sensory-rich한 실제 물리 현상(World Modeling)과는 차이가 있을 수 있습니다.
- Future Work:
- Fine-grained Visual Parsing: 복잡한 이미지(예: 얽혀있는 회로도, 복잡한 3D 기하학)를 세밀하게 인식하는 능력 향상이 필요합니다.
- Rule-based Modeling 강화: 단순히 텍스트 힌트에 의존하는 것이 아니라, 시각적 정보로부터 물리 법칙을 도출하고 이를 수식으로 연결하는 neuro-symbolic에 가까운 추론 능력 연구가 필요합니다.
- Automated Evaluation: 개방형 질문(open-ended questions)에 대한 신뢰성 높은 자동 평가 지표 개발이 필요합니다.
Overall Summary
이 논문은 물리 문제 해결에 있어 시각적 정보의 중요성을 강조하는 대규모 멀티모달 벤치마크 SEEPHYS를 제안했습니다. 중학교부터 박사 과정까지 아우르는 난이도와 시각 정보가 필수적인(Vision-Essential) 문제 구성을 통해, 최신 SOTA MLLM들조차 물리적 시각 추론(Physics Reasoning)에 있어 인간 전문가보다 현저히 낮은 성능(55퍼센트 미만)을 보임을 입증했습니다. 이 연구는 MLLM이 단순히 텍스트 지식을 암기하는 것을 넘어, 시각적 입력을 물리 법칙과 논리적으로 연결하는 진정한 World Modeling 능력을 갖춰야 한다는 AI 연구의 새로운 방향성을 제시합니다.
쉬운 설명
이 논문은 "AI가 물리를 푼다고 할 때, 정말로 문제의 그림을 보고 이해해서 푸는 걸까, 아니면 그냥 문제 텍스트만 보고 대충 찍어서 맞추는 걸까?" 라는 의문에서 시작되었습니다.
이를 확인하기 위해 연구진은 "그림을 안 보면 절대 풀 수 없는 물리 문제" 들을 잔뜩 모아서(중학교 수준부터 박사 시험까지) AI에게 시험을 쳤습니다.
결과는 충격적이었습니다.
- AI는 생각보다 '눈뜬 장님'에 가깝습니다. 그림 속에 있는 중요한 단서(예: 회로가 어떻게 연결되었는지, 그래프 눈금이 얼마인지)를 제대로 못 읽어서 틀리는 경우가 아주 많았습니다.
- 공식은 외우지만 응용은 못합니다. 박사 수준의 어려운 지식은 알고 있는데, 오히려 창의적인 생각이 필요한 올림피아드 문제는 쩔쩔매는 모습을 보였습니다.
- 최고의 AI도 낙제점입니다. 구글의 Gemini나 OpenAI의 최신 모델들도 100점 만점에 55점을 넘지 못했습니다. (사람 전문가는 86점 이상)
결론적으로 이 논문은 "AI가 진짜 똑똑해지려면, 글자만 읽는 게 아니라 그림을 보고 그 안의 물리 법칙을 깨닫는 능력을 훨씬 더 키워야 한다" 는 숙제를 내준 셈입니다.
더보기
- 그림이 필수적인(Vision-Essential) 문제에서, 최신 AI 모델들의 성능은 매우 낮음 (이미지 해석 능력 부족).
- 현존 최고 모델(Gemini-2.5-Pro, o4-mini)조차 100점 만점에 55점을 넘지 못함 (인간 전문가는 86.5%로 압도적).
- AI는 지식 암기가 통하는 '박사급(PhD) 문제'보다, 창의적 응용이 필요한 '올림피아드 문제'를 훨씬 더 못 품.
- 최신 상위 모델들은 질문을 이미지(픽셀)로 줘도 글자는 완벽하게 읽어내지만(OCR 우수), 그 의미를 물리적으로 이해하진 못함.
- AI가 틀리는 가장 주된 원인은 그림 속 상황을 올바른 물리 수식으로 변환하지 못하는 '모델링 오류(Modeling Flaws)'임.
- AI 모델들은 여전히 그림(Visual)보다는 텍스트(Text)에 있는 단서에 과도하게 의존하여 문제를 푸는 경향이 있음.
- 데이터 유출(Data Leakage)을 철저히 차단한 '진짜 실력' 테스트에서는 AI 거품이 상당히 걷어짐을 확인함.
