AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : What Moves the Eyes: Doubling Mechanistic Model Performance Using Deep Networks to Discover and Test Cognitive Hypotheses 본문
VLM : 빠른 논문 리뷰 : What Moves the Eyes: Doubling Mechanistic Model Performance Using Deep Networks to Discover and Test Cognitive Hypotheses
AI바라기 2026. 1. 14. 12:30용어 설명 (Terminology)
- Scanpath: 시선이 이동하는 경로로, 고정(fixation)과 도약(saccade)의 연속적인 순서를 의미합니다.
- Mechanistic Model (SceneWalk): 인지 과학적 가설(예: inhibition of return, foveal attention)을 기반으로 수학적으로 설계된 모델입니다. 해석 가능(interpretable)하지만 예측 성능은 딥러닝 모델보다 낮습니다.
- Deep Learning (DL) Model (DeepGaze III): 대량의 데이터로 학습된 고성능 신경망 모델입니다. 예측 정확도는 매우 높으나, 내부 작동 원리를 해석하기 어려운 'Black Box' 특성을 가집니다.
- Scientific Regret Minimization (SRM): 분석적으로 해결하기 어려운 문제에서 고성능 머신러닝 모델을 '이상적인 관찰자(Ideal Observer)' 대용으로 사용하여, 기존 이론 기반 모델의 부족한 점을 찾아내는 방법론입니다.
- Controversial Fixations: 두 모델(이 논문에서는 DeepGaze III와 SceneWalk)의 예측 확률이 극명하게 갈리는 고정(fixation) 지점들을 의미합니다. 이를 분석하여 모델의 결함을 찾습니다.
- Saccadic Momentum: 눈이 한 방향으로 움직이던 관성을 유지하여 다음 시선도 같은 방향으로 이동하려는 경향입니다.
- Cardinal Attention Bias: 시선 이동 시 수평(horizontal) 또는 수직(vertical) 방향을 대각선 방향보다 선호하는 편향입니다.
Purpose of the Paper
- 기존 연구의 한계: 시선 예측(scanpath prediction) 분야는 해석 가능하지만 성능이 낮은 Mechanistic model과 성능은 압도적이지만 해석이 불가능한 DL model로 양분되어 있었습니다. 기존의 XAI(Explainable AI) 연구는 DL 모델 자체를 해석하려 했으나 여전히 명확한 인지적 메커니즘을 설명하기 어려웠습니다.
- 문제 정의 및 접근 방식: 이 연구는 DL 모델을 경쟁자가 아닌 **"과학적 도구(Scientific Tool)"**로 재정의합니다. 고성능 DL 모델(DeepGaze III)을 '정답 데이터의 근사치'로 가정하고, Mechanistic model(SceneWalk)이 크게 실패하는 지점(Controversial Fixations)을 DeepGaze III가 어떻게 예측하는지 분석함으로써, 인간의 시선 행동에 대한 구체적인 인지 가설을 발견하고 이를 Mechanistic model에 역으로 주입하여 성능과 해석 가능성을 동시에 잡고자 했습니다.
Key Contributions & Novelty
- DL-guided Hypothesis Discovery (방법론적 기여):
- 단순히 모델 성능을 비교하는 것을 넘어, Controversial Fixations를 통해 DeepGaze III는 맞추고 SceneWalk는 틀린 케이스를 집중 분석하는 파이프라인을 정립했습니다.
- 이를 통해 막연했던 'DL 모델의 우월함'을 구체적인 수학적 메커니즘으로 번역해냈습니다.
- SceneWalk-X Model (모델 개선):
- 위 방법론을 통해 발견된 세 가지 핵심 메커니즘을 기존 SceneWalk 모델에 통합하여 SceneWalk-X를 제안했습니다.
- Novelty: 기존 인지 과학에서 파편적으로 존재하던 이론들을 DL 모델의 행동 패턴과 매칭하여 구체적인 수식(time-dependent dynamics 등)으로 정교화했습니다.
- SOTA in Mechanistic Models (성능 달성):
- MIT1003 dataset에서 기존 SceneWalk의 설명 가능한 분산(explained variance)을 35%에서 70%로 두 배 끌어올렸습니다.
- Mechanistic scanpath prediction 분야에서 새로운 State-of-the-art를 달성했습니다.
Experimental Highlights
- Datasets & Setup:
- MIT1003 (주 실험), DAEMONS, COCO-Freeview, Potsdam Corpus 등 다양한 dataset 사용.
- DeepGaze III를 queryable proxy(인간 행동의 대리자)로 활용하여 SceneWalk와 비교.
- 평가 지표: Log-Likelihood (bits/fix), Explainable Information Gain.
- Three Key Mechanisms Discovered & Verified:
- Time-dependent Temperature Scaling:
- 발견: DeepGaze는 초반 고정(early fixations)에서 매우 높은 확신(low entropy)을 보이며 Saliency(현저성)를 강하게 따르지만, 시간이 지날수록 탐색적으로 변함.
- 적용: 고정 순서(fixation index)에 따라 확률 분포의 '온도(temperature)'를 조절하는 지수 감쇠(exponential decay) 함수 추가.
- Saccadic Momentum & Return:
- 발견: 긴 도약(saccade) 이후에는 관성(Momentum)에 따라 같은 방향으로 계속 이동하거나, 이전 위치로 되돌아오는(Return) 경향이 DeepGaze에서 뚜렷함.
- 적용: 이전 도약 거리와 고정 순서에 따라 방향성을 조절하는 Dynamic Oculomotor Bias 맵 추가.
- Adaptive Cardinal Attention Bias:
- 발견: 초기 시선 이동에서 왼쪽 방향 선호(Leftward bias)와 수평/수직 방향 선호(Cardinal bias)가 관찰됨.
- 적용: 시간에 따라 변화하는 수평/수직 및 왼쪽 편향을 적용한 Cardinal Prior 추가.
- Time-dependent Temperature Scaling:
- Quantitative Results:
- MIT1003에서 SceneWalk-X는 공간적 베이스라인(Spatial Baseline) 대비 설명력 격차의 56%를 해소함.
- 단순히 파라미터를 늘린 것이 아니라, 발견된 각 메커니즘이 성능 향상에 기여함을 ablation study로 증명함.
Limitations and Future Work
- Limitations:
- Dependency on DL Proxy: 제안된 방법론은 DeepGaze III가 인간의 행동을 완벽하게 반영한다고 가정하지만, DL 모델 자체의 데이터 편향(dataset bias)이나 지름길 학습(shortcut learning)을 그대로 모방할 위험이 있습니다.
- Manual Implementation: Controversial fixations를 찾는 과정은 자동화되었으나, 이를 해석하고 구체적인 수식으로 구현하는 과정은 여전히 연구자의 수동적인 개입과 직관이 필요합니다.
- Correlation vs. Causation: 모델 성능이 올라갔다고 해서 추가된 메커니즘이 실제 인간의 뇌에서 일어나는 생물학적 과정과 100% 일치한다고 보장할 수는 없습니다 (Computational proxy).
- Future Work:
- Automated Scientist: 에러 분석부터 가설 설정, 모델 수정까지의 과정을 AI가 스스로 수행하는 완전 자동화된 파이프라인으로 발전시킬 가능성 제시.
- Domain Expansion: 정적인 이미지(Free-viewing)를 넘어 독서(Reading), 비디오 시청, 또는 실제 세계 상호작용(Real-world interactions)과 같은 더 복잡한 도메인으로 확장.
Overall Summary
이 논문은 고성능의 **Deep Learning 모델(DeepGaze III)**을 단순한 예측 도구가 아닌, 인간 시선 행동의 복잡한 패턴을 포착하고 있는 **'실험적 대리자(Experimental Proxy)'**로 활용하는 새로운 방법론을 제시했습니다. 연구진은 해석 가능한 **Mechanistic 모델(SceneWalk)**이 실패하고 DL 모델이 성공하는 Controversial Fixations를 분석함으로써, 기존 모델에 누락되어 있던 시간적(Time-dependent), 운동적(Momentum), 공간적(Cardinal bias) 요소들을 발견하고 수식화했습니다. 이를 통해 Mechanistic 모델의 설명력을 유지하면서도 예측 성능을 두 배로 향상시켜, 인지 과학적 이해와 머신러닝의 예측 성능 사이의 간극을 성공적으로 좁혔습니다.
쉬운 설명 (Easy Explanation)
- 상황: '학생의 시험 점수를 예측하는 두 명의 선생님'이 있다고 가정해 봅시다.
- 선생님 A (Mechanistic Model): "학생은 공부를 많이 하면 성적이 오른다" 같은 명확한 규칙을 가지고 있지만, 예측이 자주 틀립니다.
- 선생님 B (Deep Learning Model): 직관이 엄청나게 뛰어나서 예측을 기가 막히게 잘하지만, "왜 그렇게 생각하는데?"라고 물어보면 설명을 못 합니다.
- 이 논문의 아이디어: 선생님 A가 선생님 B를 이기려고 하는 게 아니라, 선생님 B에게 배움을 청하는 방식입니다. 구체적으로는 **"나는 틀렸는데 너는 맞춘 문제(Controversial Fixations)들을 좀 보자, 네가 뭘 알고 있는지 내가 분석해서 내 규칙에 추가할게"**라고 하는 것과 같습니다.
- 결과: 선생님 A는 선생님 B의 행동을 분석해서 "아, 시험 초반에는 긴장해서 아는 것만 풀고(Temperature scaling), 한 번 어려운 문제를 풀면 그 흐름을 타는구나(Momentum)" 같은 새로운 규칙 3가지를 깨달았습니다. 이 규칙을 추가하니 선생님 A는 여전히 자신의 예측 근거를 설명할 수 있으면서도, 예측 실력이 2배나 늘었습니다. 즉, "설명 가능성"과 "높은 성능" 두 마리 토끼를 다 잡은 연구입니다.
SceneWalk가 예측한 정답과 DeepGaze가 예측한 정답을 비교해서
많이 틀린 부분을 왜 틀렸는지 사람이 분석 후 정답을 예측할 때 사용한 수식을 변경
물리 법칙이나 관성 등이 적용된 이유 있는 수식.
그 후 다시 재학습..
이를 반복
즉 사람이 틀을 만들고 내부 가중치만 ai가 학습 하는 방식.
논문에서는 3번의 사이클.
별점 2점
딥러닝의 오차를 사람이 수동으로 메꾸는 노가다 작업을, '과학적 발견 프로세스'라는 아주 그럴싸한 스토리텔링으로 포장하여 심사위원들을 설득한 논문.
딥러닝을 핑계로 72개의 편향된 표본에 인간의 자의적인 수식을 끼워 맞춘 '수동 커브 피팅(Curve Fitting)'에 불과하며, '과학적 발견'이란 화려한 포장지를 뜯어내면 결국 원본 모델(DeepGaze)의 성능조차 넘지 못한 비효율적인 촌극.
