AI바라기의 인공지능
VLM : 논문 리뷰 : Mirage: The Illusion of Visual Understanding 본문
📝 Learning Note: Mirage: The Illusion of Visual Understanding
💡 용어 설명 (Terminology)
- Mirage reasoning: Image input이 없는 상태에서, 모델이 마치 이미지를 보고 있는 것처럼 상세하고 자신감 있게 시각적 특징을 묘사하며 추론하는 현상.
- Mirage-mode: 모델에게 이미지가 없다는 사실을 알리지 않고, 단순히 시각적 질문을 던져 모델이 가상의 이미지(Mirage)를 생성하도록 유도하는 실험 모드.
- Guess-mode: 모델에게 "이미지가 없으니 질문을 보고 최선의 추측을 하라"고 명시적으로 지시하는 모드. Mirage-mode보다 성능이 낮게 나타나며, 이는 단순 추측이 아닌 '숨겨진 패턴'을 활용함을 시사함.
- Mirage score: (Mirage-mode에서의 Accuracy) / (Original mode에서의 Accuracy)로 계산. 이 점수가 높을수록 모델이 시각 정보 없이 텍스트만으로 문제를 풀고 있다는 증거임.
- B-Clean: Benchmark를 정화하는 Post-hoc 프레임워크. 모델들이 이미지 없이 맞출 수 있는 '오염된(compromised)' 질문들을 제거하여, 진정한 Vision-grounded 평가를 가능하게 함.
- Epistemic mimicry: 실제 시각 정보가 없음에도 불구하고, 마치 시각적 인지 과정을 거친 것처럼 정교한 추론 흔적(Reasoning trace)을 만들어내는 현상.
- Pathology-biased: Medical context에서 Mirage가 발생할 때, 모델이 정상 상태가 아닌 질병(Pathology)이 있는 상태로 편향되어 가상의 이미지를 묘사하는 경향.
🎯 Purpose of the Paper
- 기존 연구의 한계: 현재의 Multimodal AI Benchmark 성능(Accuracy)이 모델의 진짜 Visual understanding을 반영한다고 믿어왔으나, 이는 실제 시각적 추론이 아닌 텍스트 기반의 통계적 추론(Textual inference)에 의한 **Illusion(환상)**일 가능성이 높음.
- 새로운 문제 정의: 모델이 이미지 없이도 높은 점수를 받는 **"Silent failure mode"**를 정의하고, 기존 Benchmark가 가진 Non-visual inference에 대한 취약성을 폭로하고자 함.
- 접근 방식: 단순히 '이미지 없이 성능이 낮다'를 넘어, 모델이 어떻게 가상의 시각 정보를 스스로 만들어내는지(Mirage reasoning)를 분석하고, 이를 걸러낼 수 있는 B-Clean 방법론을 제시함.
✨ Key Contributions & Novelty
- Key Contributions:
- Mirage Reasoning 현상 규명: 모델이 이미지 없이도 매우 상세하고(detailed) 자신감 있는(confident) 시각적 설명을 생성함을 증명함.
- Pathology-biased 발견: Medical 분야에서 모델이 가상의 이미지를 생성할 때, 질병(Pathology)이 있는 방향으로 편향되어 생성하는 위험한 경향성을 밝힘.
- B-Clean Framework 제안: 모델이 이미지 없이 맞춘 질문들을 제거함으로써, Benchmark를 Vision-grounded하게 재구성하는 방법론을 제시함.
- Super-guesser의 성능 증명: 이미지를 전혀 사용하지 않는 Text-only 3B 모델이 Frontier Multimodal 모델 및 전문 의사(Radiologists)보다 높은 성능을 낼 수 있음을 보여줌으로써 Benchmark의 허점을 증명함.
- Novelty:
- Mirage-mode vs Guess-mode의 분리: 단순히 '이미지 없이 맞춘다'가 아니라, '이미지가 있다고 착각하고 맞추는 것(Mirage)'과 '모른다고 인정하며 추측하는 것(Guess)'이 근본적으로 다른 메커니즘임을 밝혀냄.
- Benchmark의 구조적 취약성 폭로: 높은 Accuracy가 시각적 이해가 아닌, Benchmark 내의 숨겨진 텍스트 패턴(Hidden textual cues)과 통계적 규칙성에 의존하고 있음을 보여줌.
📊 Experimental Highlights
- Experimental Setup:
- Models: GPT-5, Gemini-3-Pro, Claude Opus 4.5, Gemini-2.5-Pro 등 최신 Frontier models.
- Benchmarks: MMMU-Pro, MedXpertQA-MM, MicroVQA, VQA-Rad, Video-MMMU, Video-MME 등 6개 주요 데이터셋.
- Metrics: Accuracy, Mirage Score.
- Key Results:
- High Mirage Susceptibility: 모델들은 Mirage-mode에서 Original accuracy의 **70-80%**를 유지함. 이는 대부분의 정답이 시각 정보 없이도 가능함을 의미함.
- B-Clean의 파급력: B-Clean을 적용하여 오염된 질문을 제거했을 때, MicroVQA의 경우 질문 수가 **23%**로 급감하고 Accuracy는 68.8%에서 23.2%로 폭락함.
- Medical Vulnerability: Medical benchmarks가 일반 benchmark보다 Mirage에 훨씬 더 취약하며, 이는 실제 의료 현장에서 매우 위험한 Silent failure로 이어질 수 있음.
⚠️ Limitations and Future Work
- Limitations:
- Model-set dependency of B-Clean: B-Clean은 평가 대상이 되는 모델 집단(Candidate models)에 따라 제거되는 질문이 달라지므로, 절대적인 기준이라기보다 상대적인 비교 도구임.
- Post-hoc nature: 현재의 B-Clean은 이미 만들어진 Benchmark를 사후에 수정하는 방식임.
- Future Work:
- Vision-necessary Benchmarks: 텍스트만으로는 절대 풀 수 없는, 시각 정보가 반드시 필요한(Vision-necessary) 새로운 형태의 Benchmark 설계가 필요함.
- Architectural Mitigation: 모델 설계 단계에서 Counterfactual probing(이미지가 있을 때와 없을 때의 답변 차이를 검증하는 방식)을 도입하여, 추론 과정이 실제로 시각 정보에 Grounded 되어 있는지 실시간으로 검증하는 구조가 필요함.
📝 Overall Summary
이 논문은 최신 Multimodal AI 모델들이 높은 Benchmark 성능을 보임에도 불구하고, 실제로는 이미지를 보지 않고 텍스트 패턴만으로 정답을 맞추는 Mirage reasoning에 의존하고 있다는 사실을 폭로합니다. 특히 의료 분야에서 존재하지 않는 병변을 확신을 가지고 설명하는 Pathology-biased 현상은 매우 위험한 Silent failure임을 경고합니다. 연구진은 이를 해결하기 위해 오염된 질문을 제거하는 B-Clean 프레임워크를 제안하며, 향후 AI 평가 방식이 단순 Accuracy를 넘어 **Genuine modality reliance(진정한 양식 의존성)**를 측정하는 방향으로 패러다임이 전환되어야 함을 강조합니다.
💡 쉬운 설명 (Easy Explanation)
이 논문은 마치 **"시험 공부를 하지 않고, 문제 속에 숨겨진 힌트만 찾아내서 정답을 맞히는 천재 학생"**에 대한 이야기와 같습니다.
생물학 시험을 보는데, 그림을 전혀 보지 않고도 문제 텍스트에 "미토콘드리아가 있는 이 세포는?"이라는 말이 있으면 "그건 동물 세포입니다!"라고 완벽하게 대답하는 학생이 있다고 해봅시다. 이 학생은 세포를 '본' 것이 아니라, 문제에 나온 **'단어'**를 보고 정답을 '맞힌' 것뿐입니다.
논문은 현재의 AI들이 바로 이런 식으로 행동하며, 이를 **Mirage(신기루)**라고 부릅니다. AI가 그림을 보고 있다고 믿게 만들지만, 실제로는 그림 없이 텍스트만으로 '신기루'를 만들어내고 있는 것입니다. 이 논문은 이런 '가짜 실력'을 걸러내고 진짜 실력을 측정하는 방법을 연구했습니다.
Original-mode (오리지널 모드)
입력: 실제 이미지 + 텍스트 질문
목적: 모델이 정상적으로 이미지를 보고 문제를 풀었을 때의 기준점(Baseline) 정확도를 측정합니다.
Mirage-mode (미라지 모드 - 기본형)
입력: 실제 이미지 없음 + 텍스트 질문 (이미지가 없다는 언급 전혀 없음)
목적: 어떠한 속임수나 추가 프롬프트 없이 텍스트 질문만 덜렁 던졌을 때, 모델이 스스로 허상을 만들어내며 정답을 찍는지 확인합니다.
Guess-mode (추측 모드)
입력: 실제 이미지 없음 + "이미지가 제거되었으니, 너의 지식을 바탕으로 최선의 추측을 해라"라는 명시적 지시문 + 텍스트 질문
목적: 모델에게 이미지가 없음을 '알려줬을 때'의 반응을 봅니다. 결과적으로 Mirage-mode보다 정답률이 크게 떨어졌는데, 이는 모델이 명시적인 지시를 받으면 상상(허상)을 멈추고 보수적인 텍스트 추론 모드로 작동 방식을 바꾼다는 것을 증명합니다.
Mirage-mode + 메타데이터 조작
입력: 실제 이미지 없음 + 프롬프트 최상단에 "첨부된 이미지 수: 1 (Number of image attachments: 1)" 텍스트 추가 + 텍스트 질문
결과: 최신 모델들이 "이미지가 없다"고 거부하는 안전 가드레일이 작동하는 경우가 있었는데, 이 텍스트 한 줄만 추가하자 가드레일이 완전히 풀리며 거의 100%의 확률로 허상을 묘사하는 치명적인 결함이 발견되었습니다.
Mirage-mode + 시각적 증거 강조 지시문
입력: 실제 이미지 없음 + "시각적 증거에 기반하여 답변하라"는 평가 가이드라인 추가 + 텍스트 질문
결과: 평소 모델 평가 시 성능을 높이기 위해 자주 쓰는 지시문인데, 역설적으로 이 지시문을 넣으면 모델이 이미지가 없다는 걸 눈치채기는커녕 더 적극적으로 허상을 꾸며내는 부작용이 발생했습니다.
Mirage-mode + 벤치마크 이름 노출
입력: 실제 이미지 없음 + "당신은 지금 MicroVQA 데이터셋을 풀고 있습니다"라는 문구 추가 + 텍스트 질문
결과: 단순히 문제 출처만 알려줬을 뿐인데 모델의 정답률이 크게 상승했습니다. 이는 모델이 진짜로 추론을 하는 것이 아니라, 학습 데이터(Pre-training data)에 이미 벤치마크가 오염되어 있어 기억력에 의존하고 있음을 보여줍니다.
이미지가 없으면 찍는다고 함. 근데 이미지가 없다는 걸 숨기면 망상으로 텍스트에서 단서를 찾아서 푼다고 함.
눈보다 프롬프트를 더 맹신함.
기존의 벤치마크는 사실상 오픈북 테스트
2.5점
“문제의식은 타당하고 진단도 열심히 했지만, 새로운 방법론이나 개념적 돌파라기보다 불편한 사실을 체계적으로 정리한 리포트형 논문”
