AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : SEEPHYS: Does Seeing Help Thinking? –Benchmarking Vision-Based Physics Reasoning 본문

논문리뷰

VLM : 빠른 논문 리뷰 : SEEPHYS: Does Seeing Help Thinking? –Benchmarking Vision-Based Physics Reasoning

AI바라기 2026. 1. 6. 17:14

Terminology

  • Vision-Essential (VE): 이미지가 없으면 문제를 절대 풀 수 없는 유형. 문제 해결에 필요한 핵심 정보(수치, 위상 구조 등)가 오직 이미지에만 포함된 경우입니다.
  • Vision-Optional (VO): 이미지가 보조적인 역할만 하는 유형. 텍스트만으로도 모든 정보를 얻을 수 있어 이미지가 없어도 풀 수 있는 문제입니다.
  • Vision Only (VO - Experimental Setting): 텍스트 입력을 아예 주지 않고, 질문 텍스트까지 이미지 픽셀로 렌더링하여 하나의 이미지 파일로만 모델에 입력하는 실험 설정입니다.
  • LLM-as-a-Judge: 모델이 생성한 답변의 정답 여부를 판별하기 위해 또 다른 고성능 LLM(여기서는 DeepSeek-V3 등)을 채점자로 활용하는 평가 방식입니다.
  • Feynman Diagram: 입자 물리학에서 입자들의 상호작용과 반응 과정을 나타내는 특수한 도표 유형입니다.
  • Modeling Flaws: 모델이 물리 법칙을 잘못 적용하거나, 문제 상황을 물리적 모델로 변환하는 과정에서 발생하는 오류(예: 회로도 해석 오류, 경계 조건 무시 등)를 뜻합니다.

Purpose of the Paper

  • 기존 Science Benchmark의 한계 극복: 기존의 multimodal 벤치마크들(ScienceQA, MMMU 등)은 이미지가 포함되어 있더라도 텍스트만으로 풀 수 있는 문제의 비중이 높거나, 시각 정보가 단순 장식(decorative)에 불과한 경우가 많았습니다. 또한, 물리라는 특정 도메인의 깊이 있는 추론을 평가하기엔 범위가 제한적이었습니다.
  • 진정한 "See to Think" 능력 평가: Physics reasoning은 본질적으로 텍스트 설명과 실제 세계의 시각적 컨텍스트(diagrams)를 결합해야만 가능합니다. 이 논문은 MLLM(Multimodal Large Language Models)이 단순히 텍스트 단서를 이용한 편법(cognitive shortcuts)이 아니라, 시각 정보를 통해 물리적 법칙을 도출하고 추론할 수 있는지를 평가하고자 했습니다.
  • 광범위한 지식 및 난이도 커버리지: 중학교 수준부터 박사 자격시험(PhD candidacy exams) 수준까지 아우르는, 그리고 7가지 핵심 물리 도메인을 포함하는 포괄적인 testbed를 구축하여 현존하는 모델들의 한계를 명확히 드러내고자 했습니다.

Key Contributions

  • SEEPHYS Benchmark 구축:
    • 규모 및 다양성: 2,000개의 고품질 물리 문제와 2,245개의 이미지로 구성되었습니다. 7개의 물리 도메인(고전 역학, 전자기학, 양자 역학 등)과 21개의 세부적인 diagram types(회로도, 파동 다이어그램, 광학 경로 등)를 포함합니다.
    • Vision-Essential 데이터 중심: 기존 연구들과 달리, 전체 데이터의 75퍼센트가 Vision-Essential 문제로 구성되어 있어, 모델의 visual understanding 능력을 강제로 요구합니다.
  • 다층적 난이도 설계 (Novelty):
    • 중학교(Middle School)부터 박사(PhD) 레벨까지 8단계의 난이도로 세분화했습니다. 특히 올림피아드 문제는 Beginner와 Advanced로 나누어 단순 지식 암기가 아닌 복잡한 추론 능력을 평가합니다.
  • 엄격한 데이터 품질 관리:
    • 오픈 소스 교재, 시험, 경시대회 등에서 수집한 문제를 전문가들이 직접 검수하고, GPT-4o 등의 검색 기능을 차단한 상태에서도 일관된 답을 내는지 확인하여 데이터 유출(data leakage)을 방지했습니다.
  • 실험적 설정의 독창성:
    • Vision Only (VO) 설정을 도입하여, 텍스트 정보를 이미지 픽셀로 변환했을 때 모델의 성능이 어떻게 변하는지 분석함으로써 모델의 진정한 multimodal 처리 능력을 테스트했습니다.

Experimental Highlights

  • 최첨단 모델들의 저조한 성적:
    • 현재 가장 강력한 모델인 Gemini-2.5-Pro OpenAI o4-mini조차도 전체 정확도가 55퍼센트 미만(각각 54.9퍼센트, 51.9퍼센트)에 그쳤습니다. 반면 인간 전문가(Human Expert)는 86.5퍼센트를 기록하여 큰 격차를 보였습니다.
    • Claude-3.7-Sonnet이나 GPT-4o 같은 모델들은 30~40퍼센트 대의 낮은 성능을 보였습니다.
  • 시각 정보 의존도 검증:
    • Vision-Essential subset에서 이미지를 제거(Text Only)했을 때, 모든 모델의 성능이 급격히 하락했습니다. 이는 SEEPHYS가 시각적 추론을 필수적으로 요구함을 증명합니다.
    • Vision Only 설정(텍스트를 이미지화)에서 o4-mini는 성능 저하가 적었으나(텍스트 OCR 및 이해 능력이 뛰어남), Qwen2.5-VL-3B 같은 소형 모델이나 일부 모델은 성능이 크게 떨어졌습니다.
  • 난이도별 성능 불균형:
    • 모델들은 박사(PhD) 수준 문제보다 오히려 Advanced Olympiad 문제에서 더 낮은 성능을 보였습니다. 이는 현재 모델들이 고차원적인 지식(Knowledge)은 암기하고 있으나, 복잡한 상황에서의 derivation  logical reasoning 능력은 부족함을 시사합니다.
  • 실패 원인 분석 (Error Analysis):
    • Modeling Flaws (가장 빈번): 문제 상황을 물리 수식으로 변환하는 과정에서의 오류.
    • Visual Misinterpretation: 그래프의 눈금을 잘못 읽거나 회로의 연결 상태를 오인함.
    • Oversimplification: 필수적인 물리적 제약 조건을 무시하고 단순화함.

Limitations and Future Work

  • Limitations:
    • Process Reward의 부재: 현재 평가는 최종 정답(outcome)만을 기준으로 채점됩니다. 중간 추론 과정(Process)을 평가하기에는 비용이 높고 정답의 불확실성이 존재하여 자동화된 step-by-step 평가가 어렵습니다.
    • 실제 세계와의 괴리: 벤치마크가 이론적인 시험 문제(textbook style)에 기반하고 있어, 실제 로봇 공학이나 자율 주행 등에서 마주하는 sensory-rich한 실제 물리 현상(World Modeling)과는 차이가 있을 수 있습니다.
  • Future Work:
    • Fine-grained Visual Parsing: 복잡한 이미지(예: 얽혀있는 회로도, 복잡한 3D 기하학)를 세밀하게 인식하는 능력 향상이 필요합니다.
    • Rule-based Modeling 강화: 단순히 텍스트 힌트에 의존하는 것이 아니라, 시각적 정보로부터 물리 법칙을 도출하고 이를 수식으로 연결하는 neuro-symbolic에 가까운 추론 능력 연구가 필요합니다.
    • Automated Evaluation: 개방형 질문(open-ended questions)에 대한 신뢰성 높은 자동 평가 지표 개발이 필요합니다.

Overall Summary

이 논문은 물리 문제 해결에 있어 시각적 정보의 중요성을 강조하는 대규모 멀티모달 벤치마크 SEEPHYS를 제안했습니다. 중학교부터 박사 과정까지 아우르는 난이도와 시각 정보가 필수적인(Vision-Essential) 문제 구성을 통해, 최신 SOTA MLLM들조차 물리적 시각 추론(Physics Reasoning)에 있어 인간 전문가보다 현저히 낮은 성능(55퍼센트 미만)을 보임을 입증했습니다. 이 연구는 MLLM이 단순히 텍스트 지식을 암기하는 것을 넘어, 시각적 입력을 물리 법칙과 논리적으로 연결하는 진정한 World Modeling 능력을 갖춰야 한다는 AI 연구의 새로운 방향성을 제시합니다.


쉬운 설명

이 논문은 "AI가 물리를 푼다고 할 때, 정말로 문제의 그림을 보고 이해해서 푸는 걸까, 아니면 그냥 문제 텍스트만 보고 대충 찍어서 맞추는 걸까?" 라는 의문에서 시작되었습니다.

이를 확인하기 위해 연구진은 "그림을 안 보면 절대 풀 수 없는 물리 문제" 들을 잔뜩 모아서(중학교 수준부터 박사 시험까지) AI에게 시험을 쳤습니다.

결과는 충격적이었습니다.

  1. AI는 생각보다 '눈뜬 장님'에 가깝습니다. 그림 속에 있는 중요한 단서(예: 회로가 어떻게 연결되었는지, 그래프 눈금이 얼마인지)를 제대로 못 읽어서 틀리는 경우가 아주 많았습니다.
  2. 공식은 외우지만 응용은 못합니다. 박사 수준의 어려운 지식은 알고 있는데, 오히려 창의적인 생각이 필요한 올림피아드 문제는 쩔쩔매는 모습을 보였습니다.
  3. 최고의 AI도 낙제점입니다. 구글의 Gemini나 OpenAI의 최신 모델들도 100점 만점에 55점을 넘지 못했습니다. (사람 전문가는 86점 이상)

결론적으로 이 논문은 "AI가 진짜 똑똑해지려면, 글자만 읽는 게 아니라 그림을 보고 그 안의 물리 법칙을 깨닫는 능력을 훨씬 더 키워야 한다" 는 숙제를 내준 셈입니다.

 

 

 

 

 

 

 

 

 

 

더보기
  • 그림이 필수적인(Vision-Essential) 문제에서, 최신 AI 모델들의 성능은 매우 낮음 (이미지 해석 능력 부족).
  • 현존 최고 모델(Gemini-2.5-Pro, o4-mini)조차 100점 만점에 55점을 넘지 못함 (인간 전문가는 86.5%로 압도적).
  • AI는 지식 암기가 통하는 '박사급(PhD) 문제'보다, 창의적 응용이 필요한 '올림피아드 문제'를 훨씬 더 못 품.
  • 최신 상위 모델들은 질문을 이미지(픽셀)로 줘도 글자는 완벽하게 읽어내지만(OCR 우수), 그 의미를 물리적으로 이해하진 못함.
  • AI가 틀리는 가장 주된 원인은 그림 속 상황을 올바른 물리 수식으로 변환하지 못하는 '모델링 오류(Modeling Flaws)'임.
  • AI 모델들은 여전히 그림(Visual)보다는 텍스트(Text)에 있는 단서에 과도하게 의존하여 문제를 푸는 경향이 있음.
  • 데이터 유출(Data Leakage)을 철저히 차단한 '진짜 실력' 테스트에서는 AI 거품이 상당히 걷어짐을 확인함.