AI바라기의 인공지능

Brain : 논문 리뷰 : The Algonauts Project 2025 Challenge: How the Human Brain Makes Sense of Multimodal Movies 본문

논문리뷰

Brain : 논문 리뷰 : The Algonauts Project 2025 Challenge: How the Human Brain Makes Sense of Multimodal Movies

AI바라기 2025. 8. 22. 13:36

쉬운 설명 (Simple Explanation)

이 챌린지는 마치 요리 대결과 같습니다. 이전까지의 대결은 '사과 깎기'나 '계란 후라이 만들기' (unimodal, 단순 과제) 같은 단일 과제 위주였습니다.

하지만 Algonauts 2025 챌린지는 참가자들에게 **"처음 보는 재료들(multimodal)로 가득 찬 주방에서, 정해진 레시피 없이(large dataset & encoding model) 코스 요리를 만들어보라"**고 요구하는 것과 같습니다.

가장 중요한 것은, 심사 기준이 참가자들이 연습했던 요리와 비슷한 '파스타'(in-distribution)를 얼마나 잘 만드는지가 아니라, 전혀 예상치 못한 재료로 만드는 '디저트'(out-of-distribution)를 얼마나 창의적이고 맛있게 만드는지로 결정된다는 점입니다. 이를 통해 참가자가 특정 레시피만 외운 것이 아니라 **요리의 근본 원리를 이해하고 있는지(true generalization)**를 평가하는 것입니다.

 

 

용어 설명 (Glossary)

  • Algonauts Project: 인공지능 모델과 인간의 뇌 반응을 비교하여, 뇌를 더 잘 이해하는 계산 모델을 만드는 것을 목표로 하는 과학 챌린지 플랫폼입니다.
  • fMRI (functional Magnetic Resonance Imaging): 기능적 자기공명영상. 뇌의 혈류량 변화를 측정하여 뇌의 어떤 영역이 활성화되는지를 간접적으로 보여주는 기술입니다.
  • CNeuroMod (Courtois Project on Neuronal Modelling): 소수의 피험자로부터 대규모의 신경 영상 데이터를 수집하는 프로젝트. 이 논문의 챌린지는 CNeuroMod 데이터셋을 기반으로 합니다.
  • Encoding Models: 특정 자극(stimuli)이 주어졌을 때, 뇌의 신경 반응(neural responses)이 어떨지를 예측하는 계산 모델입니다. 즉, '자극 -> 뇌 반응'의 관계를 모델링합니다.
  • Multimodal: 시각, 청각, 언어 등 여러 종류의 감각 정보(modality)를 동시에 포함하는 것을 의미합니다. 이 챌린지에서는 영화(visual frames, audio, language transcripts)를 multimodal 자극으로 사용합니다.
  • ID (In-Distribution): 모델을 훈련시킨 데이터와 유사한 분포를 가진 테스트 데이터. 예를 들어, 드라마 '프렌즈' 시즌 1-6으로 훈련하고 시즌 7으로 테스트하는 경우입니다.
  • OOD (Out-of-Distribution): 훈련 데이터와는 다른 분포를 가진 테스트 데이터. '프렌즈'로 훈련하고 전혀 다른 장르의 영화로 테스트하는 경우가 이에 해당하며, 모델의 진짜 일반화 성능을 측정하는 척도입니다.
  • Pearson's r: 피어슨 상관 계수. 두 변수 간의 선형 상관관계의 정도를 측정하는 통계치로, 이 챌린지에서는 예측된 fMRI 신호와 실제 fMRI 신호 사이의 유사성을 평가하는 데 사용됩니다.

Purpose of the Paper

이 논문은 기존 뇌 encoding 모델 연구의 세 가지 주요 한계를 극복하기 위한 "Algonauts Project 2025" 챌린지를 제안합니다.

  • 한계 1 (Unimodal Stimuli): 이전 챌린지들은 주로 단일 감각 양식(unimodal), 즉 이미지나 짧은 비디오만을 사용해 실제 세계의 복잡한 multimodal 환경을 반영하지 못했습니다.
  • 한계 2 (Limited Data): 딥러닝 모델을 훈련시키기에는 기존의 fMRI 데이터 양이 부족했습니다.
  • 한계 3 (Lack of OOD-Generalization test): 모델의 성능 평가가 주로 in-distribution (ID) 데이터에 국한되어, 모델이 얼마나 강건하고 일반화 성능이 뛰어난지 알기 어려웠습니다.

따라서 이 연구의 목적은 (1) multimodal 자극(영화)을 사용하고, (2) 역대 최대 규모의 fMRI 데이터셋을 제공하며, (3) 모델의 out-of-distribution (OOD) 일반화 성능을 핵심 평가 기준으로 삼아, 현실 세계에 더 가깝고 강건한 차세대 뇌 encoding 모델 개발을 촉진하는 것입니다.


Key Contributions & Novelty

Key Contributions

  • Largest-scale fMRI Dataset 제공: 한 피험자당 약 80시간에 달하는, 영화 시청 시의 fMRI 반응 데이터(CNeuroMod 데이터셋)를 제공합니다. 이는 data-hungry 딥러닝 모델의 훈련을 가능하게 합니다.
  • Multimodal Challenge 설계: 처음으로 시각, 청각, 언어 정보가 결합된 자연스러운 영화(naturalistic movies)를 자극으로 사용하여, 뇌의 multimodal 정보 처리 과정을 모델링하도록 유도합니다.
  • Strict OOD-based Evaluation: 챌린지의 우승 모델을 오직 OOD 테스트 성능으로만 결정합니다. 이는 모델이 훈련 데이터에만 overfitting 되는 것을 방지하고, 진정한 일반화 능력을 갖춘 모델 개발을 장려합니다.
  • Public Benchmark 제공: 챌린지가 끝난 후에도 누구나 자신의 모델을 평가할 수 있는 공개 leaderboard를 제공하여 지속적인 연구 개발을 지원합니다.

Novelty

  • 이전 챌린지들이 ID 성능에 초점을 맞춘 것과 달리, OOD 일반화를 우승의 유일한 기준으로 삼았다는 점이 가장 큰 독창성입니다. 이는 모델의 강건성(robustness)과 실제적 유효성(validity)을 더욱 엄격하게 평가하려는 시도입니다.
  • 단순 이미지나 짧은 비디오를 넘어, 장시간의 multimodal 영화 자극에 대한 뇌 반응을 모델링하도록 문제를 정의한 것 자체가 기존 연구에서 한 걸음 더 나아간 새로운 접근 방식입니다.

Experimental Highlights

이 논문은 새로운 모델을 제안하는 것이 아닌, 챌린지 자체를 제안하므로 '실험 결과'는 챌린지의 설계와 기준선을 의미합니다.

  • Datasets:
    • Training Data: Friends 시즌 1-6 (55시간) + Movie10 데이터셋 (10시간)
    • Testing Data (ID): Friends 시즌 7 (10시간)
    • Testing Data (OOD): 공개되지 않은 영화 (2시간)
  • Evaluation Metric: 예측된 fMRI 신호와 실제 fMRI 신호 간의 Pearson's r 상관 계수.
  • Baseline Model Score:
    • 챌린지에서 제공하는 간단한 선형 encoding 모델의 성능은 다음과 같습니다.
    • ID test (Friends 시즌 7): r = 0.20
    • OOD test (다른 영화): r = 0.09
  • Key Insight: ID 성능에 비해 OOD 성능이 현저히 낮다는 점(0.20 vs 0.09)은 현재 모델들의 일반화 성능이 부족하다는 것을 명확히 보여줍니다. 참가자들은 이 baseline, 특히 OOD 성능을 뛰어넘는 모델을 개발해야 합니다.

Limitations and Future Work

  • Limitations (현재 연구 분야의 한계):
    • 이 논문 자체의 한계라기보다는, 이 챌린지가 해결하고자 하는 현재 뇌 모델링 분야의 한계를 지적합니다. 즉, 대부분의 모델이 수동적인 자극(passive stimulation)을 처리하는 데 국한되어 있다는 점입니다. 뇌는 단순히 정보를 받아들이는 것 이상으로 능동적인 인지 활동을 합니다.
  • Future Work (Algonauts Project의 미래 방향):
    • 향후 챌린지는 수동적인 영화 시청을 넘어, attention, goal seeking, decision making 과 같은 더 높은 수준의 인지 과정을 포함하는 데이터셋을 활용할 것을 제안합니다.
    • 구체적인 예시로, 비디오 게임 플레이 중의 뇌 반응 데이터를 모델링하는 것을 미래 연구 방향으로 제시합니다. 이는 뇌의 동적이고 복잡한 상호작용을 이해하는 데 중요한 단계가 될 것입니다.

Overall Summary

"Algonauts Project 2025"는 시청각 및 언어 정보가 포함된 영화를 볼 때의 인간 뇌 반응을 예측하는 computational 모델을 구축하는 챌린지를 제안합니다. 이 챌린지는 역대 최대 규모의 fMRI 데이터셋을 활용하며, 모델의 out-of-distribution (OOD) 일반화 성능을 유일한 평가 기준으로 삼아 기존 연구의 한계를 극복하고자 합니다. 이를 통해 AI와 계산 신경과학 분야가 실제 세계와 같이 복잡하고 multimodal 한 정보를 뇌가 어떻게 처리하는지 이해하는 데 있어 중요한 진전을 이루도록 촉진하는 것을 목표로 합니다.


 

 

 

How the Human Brain Makes Sense of Multimodal Movies

인공(artificial) 및 생물학적 intelligence 과학 간의 공생 관계가 점차 커지고 있습니다. 즉, neural 원리는 새로운 intelligent 기계에 영감을 주고, 이는 다시 뇌에 대한 우리의 이론적 이해를 증진하는 데 사용됩니다. 생물학적 및 artificial intelligence researchers 간의 추가적인 협력을 증진하기 위해, 우리는 Algonauts Project 챌린지의 2025년 에디션을 소개합니다: How the Human Brain Makes Sense of Multimodal Movies (https://algonautsproject.com/).

Courtois Project on Neuronal Modelling (CNeuroMod)과의 협력을 통해, 이번 에디션은 multimodal이며 training 분포를 넘어 잘 generalize하는 새로운 세대의 brain encoding models를 선보이는 것을 목표로 합니다. 이는 현재까지 이용 가능한 가장 큰 규모의 영화 시청에 대한 fMRI 반응 dataset으로 models를 training함으로써 이루어집니다.

모두에게 열려 있는 2025 챌린지는 각 submission 이후 자동으로 updated되는 공개 leaderboard를 통해 transparent하고 직접 비교 가능한 결과를 제공하여 신속한 model 평가를 용이하게 하고 development를 안내합니다. 이 챌린지는 우승 models를 선보일 2025 Cognitive Computational Neuroscience (CCN) 컨퍼런스의 session으로 마무리될 것입니다. 우리는 미래 챌린지를 위한 ideas와 datasets를 제공함으로써 Algonauts Project와의 collaborating에 관심 있는 researchers를 환영합니다.

 

 

 

Introduction

생물학적 및 artificial intelligence 연구 사이에는 계속해서 증가하는 symbiosis가 있습니다. Artificial intelligence 연구는 인간 또는 초인적인 performance를 달성하는 algorithms를 생성하며, 이는 현재 감각 자극(sensory stimulation)에 대한 neural responses의 최고의 predictive models입니다. 점점 더 강력한 data-hungry models의 등장은 생물학적 intelligence 과학자들이 단일 피험자를 집중적으로 sample하는 large-scale neural datasets를 수집하도록 이끌었습니다. 이러한 대규모 datasets는 새로운 neural mechanisms의 발견과 modeling을 촉진하고, 이는 다시 더 나은 artificial intelligence algorithms의 개발에 영감을 주며, artificial agents의 robustness를 높이기 위한 inductive biases를 제공합니다.

Neuroscience challenges와 benchmarks는 생물학적 및 artificial intelligences 간의 symbiosis를 촉진합니다. 이는 다양한 분야의 과학자들이 최고의 models of intelligence를 구축하기 위해 협력하고 경쟁할 수 있는 interactive platforms를 제공합니다. 여기서 우리는 'How the Human Brain Makes Sense of Multimodal Movies'라는 제목의 Algonauts Project 챌린지 2025 에디션을 소개합니다. 이번 에디션은 현재까지 자연스러운 multimodal stimulation에 대한 가장 큰 규모의 인간 functional magnetic resonance imaging (fMRI) neural responses dataset을 확보한 Courtois Project on Neuronal Modelling (CNeuroMod)의 data를 기반으로 합니다. 현재 챌린지는 computational models을 통해 인간의 뇌 반응을 predict하는 이전 세 번의 Algonauts Project 챌린지와 목표를 공유합니다. 그러나 세 가지 중요한 방식에서 이전 챌린지를 뛰어넘습니다. 첫째, 실제 생활 시나리오에 대한 neural responses를 더 잘 포착하는 computational models의 개발을 촉진하기 위해 2025 챌린지는 이전 챌린지에서 사용된 unimodal images와 짧은 비디오를 넘어선 multimodal naturalistic stimuli를 사용합니다. 둘째, 피험자당 거의 80시간에 달하는 neural recordings를 통해 computational models of the brain을 train하고 test할 수 있는 전례 없는 양의 data를 제공합니다. 셋째, 더 robust한 models of intelligence를 장려하기 위해 2025 챌린지는 model performance에 대한 in-distribution (ID) 및 out-of-distribution (OOD) tests를 모두 제공하며, 우승 models는 오직 OOD performance를 기반으로 선정될 것입니다.


Vision for the 2025 Challenge

Algonauts Project 2025 챌린지에 대한 우리의 vision은 multimodal naturalistic stimulation에 대한 neural responses의 더 정확하고 robust한 modeling을 통해 뇌에 대한 우리의 이해를 증진하고, biological intelligence constraints를 통해 artificial models의 engineering을 개선하는 것입니다. 이 두 가지 목표를 모두 달성함으로써 우리는 생물학적 및 artificial intelligence 간의 symbiosis를 강화하기를 희망합니다.