AI바라기의 인공지능
Protein : 논문 리뷰 : Spatio-temporal learning from molecular dynamics simulations for protein–ligand binding affinity prediction 본문
Protein : 논문 리뷰 : Spatio-temporal learning from molecular dynamics simulations for protein–ligand binding affinity prediction
AI바라기 2026. 3. 12. 14:16용어 설명
- Binding Affinity: 단백질(target)과 리간드(약물 후보 물질)가 서로 결합하는 강도. 신약 개발에서 약물의 효능을 예측하는 핵심 지표입니다.
- Molecular Dynamics (MD) simulations: 원자와 분자의 물리적 움직임을 시간에 따라 시뮬레이션하여, 단백질-리간드 복합체의 동적(dynamic)인 구조 변화를 관찰하는 기법입니다.
- MDbind: 본 논문에서 제안한 대규모 dataset으로, 6,300개의 단백질-리간드 복합체에 대해 각각 10 ns 길이의 MD simulation을 수행하여 생성된 63,000개의 시뮬레이션 궤적을 포함합니다.
- Spatio-temporal Learning (시공간 학습): 정적인 3D 공간 정보뿐만 아니라, MD simulation의 프레임 순서에 따른 시간적(temporal) 변화까지 동시에 모델에 학습시키는 방법론입니다.
- ConvLSTM / LRCN: 시계열 비디오 데이터 처리에 주로 사용되는 딥러닝 architecture입니다. 이 논문에서는 MD 궤적(4D 데이터)을 학습하기 위해 각각 Videonucy와 Timenucy라는 이름으로 구현되었습니다.
- FEP (Free Energy Perturbation) dataset: 동일한 단백질 타겟에 대해 구조는 유사하지만 binding affinity가 크게 차이 나는(activity cliffs) 리간드들로 구성된 외부 test dataset입니다.
- MD Data Augmentation (MD DA): MD simulation 궤적에서 추출한 수많은 frame들을 각각 독립적인 새로운 3D 구조로 취급하여, 모델의 학습 데이터를 대폭 증강시키는 기법입니다.
Purpose of the Paper
- 기존 deep learning 모델들은 단백질-리간드의 3D 구조를 기반으로 우수한 성능을 보였으나, 실제 물리적 interaction을 학습하기보다는 dataset(예: PDBbind)에 내재된 bias를 암기하는 데 그쳐 새로운 데이터에 대한 generalization 능력이 현저히 떨어지는 한계가 있었습니다.
- 단백질-리간드 결합은 본질적으로 시간에 따라 변화하는 동적인(time-dependent) 과정입니다.
- 따라서 본 연구는 단일 정적 구조(static 3D)의 한계를 극복하기 위해, Molecular Dynamics (MD) simulations를 도입하여 풍부한 동적 interaction 정보와 conformational sampling 결과를 모델에 제공함으로써 bias를 줄이고 예측 성능을 높이고자 하였습니다.
Key Contributions & Novelty
- MDbind Dataset 구축: 기존에 부족했던 동적 interaction 데이터를 딥러닝 학습 스케일에 맞게 대규모(63,000 simulations, 3,000,000 frames)로 자체 구축하여 공개했습니다. (Novelty: 물리 기반의 대규모 동적 데이터 제공)
- MD Data Augmentation의 효용성 입증: MD simulation에서 추출한 frame들을 활용해 CNN 아키텍처(Densenucy 등)의 학습 데이터를 증강시켜, 데이터 희소성 문제를 해결하고 성능을 끌어올렸습니다. (Novelty: 동적 시뮬레이션을 정적 3D 모델의 데이터 증강 전략으로 성공적 적용)
- Spatio-temporal Learning 아키텍처 (Timenucy, Videonucy) 제안: 프레임 단위의 4D 시계열 데이터를 직접 학습하여, 시간에 따른 원자의 움직임을 추적하는 완전히 새로운 방식의 예측 모델을 개발했습니다. (Novelty: 3D pixel 기반 정적 분석에서 벗어나, 리간드의 동적 안정성 자체를 binding affinity의 핵심 지표로 학습하는 구조 도입)
Experimental Highlights
- State-of-the-art 성능 달성 (PDBbind core set): MD DA를 적용하여 학습한 Densenucy 모델이 PDBbind v.2016 core set에서 상관계수 R=0.81, RMSE=1.36을 기록하며 SOTA 성능을 달성했습니다.
- Activity Cliffs 극복 (FEP dataset 평가): 구조적 편향이 적고 실전 난이도가 높은 외부 FEP dataset에서 기존 state-of-the-art 모델(KDEEP)을 크게 압도했습니다. 일례로 p38 단백질 타겟의 경우 KDEEP(R=0.36) 대비 Densenucy MD DA(R=0.66)가 비약적인 성능 향상을 보였습니다.
- Bias 극복 및 동적 학습 증명: 단백질과 리간드 정보를 각각 제거하고 성능 하락폭(Delta R)을 측정하는 실험을 진행했습니다. Spatio-temporal 모델들은 리간드를 중심으로 고정(tracking)하여 학습시켰을 때 오히려 성능이 하락했는데, 이는 모델이 단순히 리간드의 생김새를 외우는 것이 아니라 포켓 내부에서 리간드가 얼마나 안정적으로 머무는지(stability)를 중요한 결합 신호로 활용하고 있음을 증명합니다.
Limitations and Future Work
- Limitations: 4D 시계열 데이터를 다루는 Spatio-temporal 모델들(Timenucy, Videonucy)은 막대한 computational cost 때문에 완벽하게 최적화된 상태로 학습되지 못했습니다(sub-optimally trained). 그 결과, 편향성이 강한 PDBbind core set에서는 기존 CNN 모델 대비 확연한 성능 우위를 점하지 못했습니다.
- Future Work: PDBbind와 같이 bias가 심한 환경을 벗어나, 실제 drug design 환경과 유사한 FEP dataset에서 Spatio-temporal 모델의 generalizability를 집중적으로 평가할 계획입니다. 또한, MDbind dataset을 지속적으로 확장하고 학습 데이터의 편향을 줄여, 향후 hit-to-lead 및 lead optimization 단계에서 유효 분자를 선별하는 실질적 도구로 고도화할 것입니다.
Overall Summary 이 논문은 단백질-리간드의 정적인 3D 구조만을 바라보며 발생했던 기존 deep learning 모델들의 과적합(overfitting) 및 편향(bias) 문제를 해결하기 위해, 63,000개 규모의 MD simulation 데이터셋(MDbind)과 새로운 Spatio-temporal learning 아키텍처를 도입했습니다. MD Data Augmentation을 통해 실전에 가까운 FEP dataset에서 월등한 일반화(generalizability) 성능을 입증했으며, ConvLSTM을 활용한 4D 학습은 모델이 분자의 '동적 안정성'이라는 실제 물리적 현상을 이해하도록 만들었습니다. 이 연구는 AI 기반 신약 개발 모델이 단순한 패턴 암기를 넘어 실제 물리-화학적 interaction의 본질을 학습하는 방향으로 나아가야 함을 시사하며, 향후 정밀한 신약 물질 최적화(lead optimization) 과정에 큰 영향을 줄 것입니다.
쉬운 설명
이 논문은 자물쇠(단백질)와 열쇠(리간드)가 잘 맞는지 사진 한 장(정적 3D 구조)만 보고 판단하던 기존 AI의 방식을, 열쇠를 자물쇠에 넣고 돌려보는 비디오(MD simulation)를 보고 판단하는 방식으로 업그레이드한 연구입니다. 열쇠가 안에서 흔들리지 않고 안정적으로 잘 고정되어 있으면(안정적인 움직임) "결합력이 높다"고 판단하게 함으로써, AI가 단순히 열쇠의 생김새를 외우는 꼼수를 쓰지 않고 진짜 물리적인 결합 원리(interaction)를 깨우치도록 만들었습니다.
Abstract
Motivation
protein–ligand binding affinity prediction 분야는 계속해서 중요한 challenges에 직면하고 있습니다. deep learning (DL) models가 protein–ligand complexes의 3D structural information을 활용할 수 있음에도 불구하고, 이들은 training sets로부터 정보가 유출(leaked)되어 심하게 biased된 test sets에서만 좋은 performance를 보입니다. 이러한 generalization의 부족은 제한된 training data의 가용성과 protein–ligand interactions로부터 효과적으로 학습하지 못하는 models의 능력 부족으로 인해 발생합니다. 이러한 interactions는 본질적으로 time-dependent하기 때문에, molecular dynamics (MD) simulations는 conformational sampling을 포함하고 풍부한 interaction information을 제공함으로써 잠재적인 solution을 제시합니다.
Results
우리는 binding affinity를 predict하기 위해 이러한 simulations로부터 학습할 수 있는 새로운 neural networks와 더불어, 63,000개의 protein–ligand interactions simulations로 구성된 dataset인 MDbind를 개발했습니다. MD를 data augmentation으로 활용함으로써, 우리의 models는 PDBbind v.2016 core set과 외부 test set인 free energy perturbation (FEP) dataset에서 state-of-the-art performance를 달성했습니다. 또한, 전체 MD simulations를 기반으로 trained되었을 때, models는 덜 biased된 predictions를 보여주었습니다.
Availability and implementation
neural networks를 위한 code는 https://github.com/ICOA-SBC/MD_DL_BA 에서 이용 가능합니다. models, results 및 training/validation/test sets는 https://zenodo.org/records/10390550 에서 download할 수 있습니다. MDbind trajectories는 현재 MDDB (https://mdposit.mddbr.eu/#/browse?search=MDBind)로로) 이전되고 있습니다.
1 Introduction
1.1 Background of Binding Affinity Prediction
protein–ligand complexes의 binding affinity에 대한 정확한 prediction은 신약 설계의 주요 목표입니다. 이러한 predictions는 생물학적 활성 측정을 위한 분자 선택을 안내하거나 의약 화학자가 합성할 새로운 분자를 추천하는 핵심 기준 역할을 합니다. 잠재적 활성에 따라 분자의 우선순위를 정하기 위해 분자 모델링 분야에서 일반적인 접근 방식은 단백질의 결합 부위에 이들을 dock하는 것입니다. 그런 다음 생성된 docking poses는 그들의 적합성과 관련된 scoring function에 의해 평가됩니다. 이 목적을 위해 다양한 scoring functions가 구현되었습니다. 그러나 이러한 scoring functions는 binding affinity와의 상관관계를 제공하는 경우가 드뭅니다. 지난 10년 동안, machine learning scoring functions는 알려진 binding affinities를 가진 실험적으로 결정된 protein–ligand complexes로 구성된 datasets에서 benchmarked되었을 때 다른 방법들을 능가할 수 있었습니다.
1.2 AI Methods and Deep Learning Architectures
AI 방법론 중에서, 확장된 연결성 상호작용 features와 결합된 random forest와 같은 고전적인 방법들이 state-of-the-art performance를 확립했습니다. 반면에, deep learning (DL)의 부상은 3D information과 원자 연결성을 활용하여 predictions를 수행하는 architectures의 생성을 가능하게 했습니다. 이러한 models는 주로 convolutional neural network (CNN) 또는 graph neural network (GNN)을 사용하여 개발되었습니다. 3D 구조로부터 직접 learning하는 것의 이점은 models가 인간의 biases를 수반하는 전문가가 만든 설명자를 사용하는 것을 방지하고, training 과정에 대한 광범위한 제어를 통해 inductive biases를 도입할 수 있는 프레임워크를 제공한다는 것입니다. 이러한 performance에 대한 리뷰가 제공되었습니다.
1.3 Limitations of Current Models and Data Issues
불행히도, 발표된 performances는 models가 biases가 식별된 데이터에서 평가되었기 때문에 일반적으로 지나치게 낙관적입니다. 또한 새롭거나 더 까다로운 test sets에 적용될 때, models는 predictive하지 않으므로 유효 물질 최적화(hit optimization)와 같은 실제 시나리오에서의 사용이 제한됩니다. 열악한 generalizability는 여러 요인에 기인할 수 있습니다. 데이터의 부족과 품질이 주요한 한계로 두드러집니다. 대부분의 binding affinity prediction models는 PDBbind dataset에 컴파일된 실험 데이터를 기반으로 trained됩니다. 2020년 버전(v.2020)에서는 알려진 binding affinities를 가진 19 443개의 complexes로 구성되어 있으며, 이는 v.2016에 비해 6135개의 complexes가 증가한 수치입니다. 안타깝게도 이 데이터 양은 DL이 성공적으로 적용되는 다른 분야, 예를 들어 현재 14 000 000개의 이미지로 구성된 ImageNet과 같이 일반적인 datasets가 수백만 개의 인스턴스로 구성되는 이미지 분류와 같은 분야보다 상당히 적습니다. 특히 binding affinity prediction과 같이 까다로운 문제에 대한 데이터 가용성의 한계는 낮은 model performance와 overfitting 문제로 이어집니다.
더욱이, PDBbind dataset은 신약 개발의 선도 물질 최적화 활용 사례와 비교할 때 희소(sparse)하며, 동일한 단백질을 표적으로 하는 일련의 리간드와 동일한 리간드와 상호작용하는 일련의 단백질이 부족합니다. 따라서 protein–ligand affinity training은 structure-activity relationships를 주도하는 세부 사항과 activity cliffs의 존재를 인식하지 못합니다. 이러한 한계로 인해, 일반적으로 실제 protein–ligand interactions로부터 learn하지 않고 대신 표적 단백질 또는 리간드와만 상관관계가 있는 친화도 패턴을 포함하여 데이터의 biases를 기억하는 statistical models가 생성됩니다. 일부 models는 기존의 리간드 기반 quantitative structure-activity relationship (QSAR)과 유사하게 수행되는 것으로 나타났습니다. 따라서 protein–ligand interactions에 대해 learn할 수 있는 models를 얻기 위해 대안적인 방법들을 조사해야 합니다.
1.4 Physics-based Methods and Molecular Dynamics (MD)
반면에, 고전적인 물리 기반 방법들은 LIE, MMPB(GB)SA 및 free energy perturbation (FEP)의 변형과 같이 단백질과 리간드의 결합에 대한 absolute binding free energies (ABFE) ($\Delta G$)를 계산합니다. 이러한 계산은 단백질과 리간드의 다양한 형태적 상태를 평가하는 molecular dynamics (MD) simulations를 통해 수행됩니다. ABFE FEP는 relative binding free energy (RBFE) 계산의 정확도에 근접하고 있습니다 (약 1 kcal/mol root mean square error (RMSE)의 $\Delta\Delta G$). 그러나, 특히 FEP 변형의 경우 자유 에너지 평가는 막대한 연산을 필요로 합니다. 따라서 이러한 도구들은 가상 스크리닝보다는 선도 물질 최적화 과정에 적용하는 것이 더 적합합니다.
1.5 Data Augmentation and MD-based Datasets
Data augmentation은 이 분야에서 DL models의 한계를 일부 완화하는 효과적인 전략으로 입증되었습니다. 시간과 비용으로 인해 실험 데이터의 양을 빠르게 늘리는 것이 불가능하기 때문에, 많은 연구자들이 실행 가능한 대안으로 MD simulations에 눈을 돌렸습니다. 실제로, MD simulations는 protein–ligand interactions에 대한 시간적 정보를 제공하며, 이러한 상호작용의 본질적인 역동적인 특성을 고려할 때 이는 protein–ligand binding affinity를 정확하게 predicting하는 데 매우 중요합니다.
결과적으로 이러한 요구를 해결하기 위해 PLAS-5k와 MISATO라는 두 개의 MD simulation datasets가 도입되었습니다. PLAS-5k는 총 5000개의 complexes에 대해 각각 4 ns 동안 지속되는 5개의 simulation 반복으로 구성되며, 그 중 2000개는 알려진 binding affinities를 가지고 있습니다. OnionNet은 이 dataset에서 trained되었으며, 10-fold cross-validation으로 0.947의 높은 상관 계수 $R^2_{CV}$를 달성했지만, 5.7 kcal/mol의 저조한 RMSE를 보였습니다 (pK affinities로 변환 시 약 4 로그 단위의 오류). 반면에 MISATO는 PDBbind (v.2019)의 16972개 complexes에서 수행된 8 ns의 MD simulations를 포함합니다.
MD simulations에서 추출한 4D descriptors에 대해 train하기 위해 여러 machine learning models가 구현되었습니다. MD fingerprints와 같은 이러한 4D descriptors는 simulation의 각 프레임에 대해 3D 분자 설명자 (예: 용매 접근 가능 표면적 (SASA), 회전 반경 또는 잠재 에너지)를 계산하고, 이후 그 평균을 계산하거나 이들을 하나의 벡터로 연결함으로써 생성될 수 있습니다. 또한, 64개의 protein–ligand complexes에 대해 100 ns 동안 진행된 MD simulations에서 얻은 62 800개의 프레임에 대해 pre-training을 거친 E(3)-동변(equivariant) graph matching network인 ProtMD를 포함하여 몇 가지 DL models도 개발되었습니다. ATOM3D binding affinity dataset의 90%를 사용하여 fine-tuning을 수행한 후, 이 model은 나머지 10% dataset에서 0.6의 상관 계수와 1.4 pKi의 RMSE를 달성했습니다. 또 다른 연구에서는, PDBbind dataset의 356개 complexes에서 수행된 2 ns의 MD simulations에 대해 MLP (multi-layer perceptron), CNN 및 LSTM (long short-term memory) models가 trained되었습니다. MD simulations에서 추출된 분자 설명자를 사용하여, 이들은 CSAR (community structure-activity resource) test set에서 CNN과 LSTM으로 각각 0.70 및 0.68의 상관 계수를 달성했습니다. Dynaformer 방법은 PDBbind의 3218개 complexes에서 수행되어 10 ns 동안 지속된 MD simulations에서 추출된 프레임에 대해 pre-trained된 graph transformer model입니다. 이후 PDBbind complexes에서 fine-tuned되었으며, PDBbind v.2016 core set에서 0.86의 상관 계수와 1.1 pKi의 RMSE에 도달했습니다.
1.6 Proposed Protocol: MDbind and Spatio-Temporal Learning
유사한 방식으로, 우리는 MD simulations와 DL 알고리즘을 결합한 프로토콜을 적용했습니다. 이 목적을 위해 MDbind라는 MD simulations dataset이 생성되었습니다. 이 dataset은 6300개의 complexes에 대해 complex당 10 ns의 10회 반복 simulations를 수행하여 달성된 63 000개의 simulations를 포함합니다. 단순히 dataset을 확장하는 것을 넘어, MD simulations는 시간에 따른 protein–ligand interactions의 행동에 대한 물리적인 통찰력을 제공합니다. 이들은 모든 원자가 매개변수화된(all-atom parameterized) 시스템을 기반으로 하며 protein–ligand complex의 역학을 포착합니다. 이 프로토콜의 목적 중 하나는 DL models가 high-affinity 리간드와 low-affinity 리간드 사이의 차이를 구별하고 상호작용의 변화를 포착할 수 있도록 하는 것이었으며, 정적인 단일 3D protein–ligand complexes에서 trained된 대부분의 models는 종종 이를 포착하는 데 실패합니다.
결과적으로, 우리는 binding affinity prediction 작업을 위해 이 데이터를 활용할 일련의 neural network architectures를 개발했습니다. 이러한 neural networks architectures는 두 가지 다른 방식으로 MD simulation 데이터의 이점을 활용하도록 설계되었습니다.
- 첫째, 프레임은 simulations에서 추출되어 초기 complex의 binding affinity로 레이블이 지정되는 동시에 각각 새로운 구조로 독립적으로 간주될 수 있습니다. 따라서 MD simulations는 neural network architecture와 호환되는 data augmentation 방법으로 작용합니다.
- 둘째, 전체 simulations로부터 models를 train하는 것이 가능합니다. 이 경우, simulations는 초기 complex의 binding affinity로 레이블이 지정됩니다. 우리는 이 training 방법론에 대해 “spatio-temporal learning”이라는 용어를 만들었습니다. 이 방법은 simulations의 프레임들에 순차적으로 포함된 시간적 정보를 이용합니다.
이를 위해 우리는 simulations를 분석하여 binding affinity predictions를 수행할 수 있는 두 가지 neural networks, 즉 long-term recurrent convolutional network (LRCN)와 convolutional long short-term memory (ConvLSTM)를 개발했습니다. MD data augmentation으로 trained된 Models는 현재의 state-of-the-art 방법들을 능가했으며, spatio-temporal learning 접근법들은 state-of-the-art 방법들과 유사한 performance에 도달하고 있습니다.
1 Introduction 핵심 정리 노트
- 기존 연구의 한계점 (Limitation of Current DL models):
- 단백질-리간드 binding affinity prediction을 위한 기존 DL models (CNN, GNN 등)는 주로 정적(static)인 3D 구조 데이터를 기반으로 학습함.
- PDBbind와 같은 기존 datasets는 딥러닝을 훈련하기에 규모가 매우 작고 구조적으로 희소(sparse)함.
- 이로 인해 models가 실제 단백질-리간드 상호작용의 물리적 원리를 학습하는 대신, 데이터셋 내부의 biases (단백질이나 리간드 고유의 친화도 패턴 등)를 단순히 암기(memorization)하는 overfitting 문제 발생. 결과적으로 실전(hit optimization 등)에서 극심한 poor generalizability를 보임.
- 해결 접근법 (Motivation):
- 단백질과 리간드의 결합은 본질적으로 동적인 과정이므로, Molecular dynamics (MD) simulations를 활용해 시간에 따른 상호작용 변화를 캡처.
- 물리 기반의 절대 결합 자유 에너지(ABFE, $\Delta G$) 계산은 정확하지만 연산 비용이 너무 커서 virtual screening에 부적합하므로, MD simulations를 DL의 data augmentation 도구로 활용하는 방향으로 우회.
- 논문의 핵심 기여 (Core Contributions):
- MDbind dataset 구축: 6,300개의 complexes에 대해 각각 10 ns 길이의 시뮬레이션을 10회씩 반복 수행하여, 총 63,000개의 대규모 MD simulations 데이터셋을 새롭게 생성함. (정적 데이터가 잡지 못하는 high/low-affinity 리간드 간의 미세한 동적 상호작용 차이 반영).
- MD 데이터를 활용하는 두 가지 Neural Network 학습 방법론 도입:
- MD 기반 Data augmentation: 시뮬레이션에서 추출한 개별 프레임들을 각각 독립적인 새로운 3D 구조로 취급하여 학습 데이터를 대폭 증강함. (결과적으로 기존 state-of-the-art 능가)
- Spatio-temporal learning 개념 도입: 시뮬레이션 프레임들의 순차적(sequentially) 흐름에 담긴 시간적 정보를 통째로 학습. 이를 처리하기 위해 LRCN 및 ConvLSTM architectures를 새롭게 개발하여 적용함. (결과적으로 기존 state-of-the-art 수준에 도달)
쉬운 설명 : 1 Introduction의 핵심 흐름
이 논문이 왜 나왔고 어떤 문제를 해결했는지 직관적으로 이해할 수 있도록 비유를 들어 설명해 드립니다.
단백질(자물쇠)과 신약 후보 물질(열쇠)이 얼마나 꽉 결합하는지(binding affinity)를 인공지능으로 정확히 예측하는 것은 신약 개발의 핵심입니다.
- 기존 AI의 문제점은 "사진만 보고 공부했다"는 것입니다.
- 기존 AI들은 자물쇠와 열쇠가 결합된 **정지된 사진 한 장(정적 3D 구조)**만 보고 학습했습니다. 게다가 공부할 사진 자료(datasets)조차 너무 부족해서, AI가 결합의 진짜 원리를 깨우치기보다는 사진 속의 의미 없는 배경이나 패턴(biases)을 꼼수로 외우는 데 급급했습니다. 그 결과, 조금만 다른 자물쇠를 보여주면 성능이 뚝 떨어졌습니다.
- 논문의 해결책은 "움직이는 동영상을 직접 찍어서 보여주자"입니다.
- 연구진은 정지된 사진 대신, 물리 법칙을 적용해 자물쇠와 열쇠가 서로 부딪히고 결합하는 과정을 10억 분의 1초 단위로 시뮬레이션한 **동영상(MD simulations)**을 무려 63,000개나 직접 만들었습니다. 이것이 바로 논문에서 자랑하는 MDbind 데이터셋입니다.
- 이 동영상을 AI에게 가르치는 두 가지 똑똑한 방법:
- 동영상 캡처하기 (Data augmentation): 동영상의 장면 하나하나를 캡처해서 수많은 사진 데이터로 쪼갠 뒤 AI에게 물량 공세로 학습시켰습니다. 데이터 부족 문제가 해결되면서 기존 세계 최고 성능(state-of-the-art)을 뛰어넘었습니다.
- 동영상 통째로 보여주기 (Spatio-temporal learning): 단순히 사진만 많이 보여주는 걸 넘어서, 시간의 흐름에 따른 움직임 자체를 이해하는 전용 AI 모델(LRCN, ConvLSTM)을 새롭게 개발해 동영상을 순차적으로 학습시켰습니다.
결론적으로, 멈춰있는 데이터에 갇혀 있던 기존 AI의 한계를 **'움직이는 대규모 시뮬레이션 데이터 구축'**과 **'시간 정보 학습 모델'**로 돌파하겠다는 것이 이 서론의 핵심입니다.
2 Materials and methods
2.1 MD data structure
MDbind dataset은 PDBbind (Wang et al. 2004)의 6300개 complexes에 대해 10 ns의 simulations를 10회 수행하여 얻은 63,000개의 MD simulations로 구성됩니다. 결합 친화도 예측에서 불확실성을 줄이고 conformational space의 샘플링을 향상시키기 위해 각 complex에 대해 Simulation replicas가 수행되었습니다 (Adler and Beroza 2013, Wright et al. 2014, 2019, Wan et al. 2020). 합리적인 computational cost를 유지하면서 샘플링 효과를 우선시하는 Adler and Beroza (2013)의 권장 사항에 따라 10개의 replicates를 사용하기로 결정했습니다.
Simulations는 완전히 해결된 단백질을 가진 complexes에서 수행되었으며, PDBBind의 고품질 하위 세트인 PDBBind refined set에 있는 것을 우선순위로 하고 그 다음으로 dataset의 나머지 complexes를 대상으로 했습니다. PDBbind (v.2020), MDbind 및 PDBbind v.2016 core set 내의 단백질 계열 분포는 Supplementary Information (Supplementary Fig. S1, Bioinformatics online에서 supplementary data로 제공됨)에 제공됩니다. 이 정보는 이러한 datasets의 내재된 biases와 단백질 계열의 다양성에 대한 더 명확한 평가를 제공합니다. Peptides는 MDbind의 전체 리간드 중 20%를 차지했으며, 이는 PDBbind에서 관찰된 비율과 일치합니다.
단백질과 리간드는 Antechamber (Wang et al. 2006), leap, parmchk2 및 PDB4Amber를 포함하는 AmberTools20 (Pearlman et al. 1995)을 사용하여 준비되었습니다 (중성 pH에서 양성자화, AM1-BCC 방법을 사용한 부분 전하 추가 등). 단백질과 리간드에는 각각 ff14SB (Maier et al. 2015)와 general amber force field (gaff) (Wang et al. 2004)가 적용되었습니다. Explicit solvent는 TIP3P (Mark and Nilsson 2001)를 사용하여 적용되었고 counter-ions (Na+, Cl-)가 추가되었습니다. Complexes는 최소화, 가열 및 2 ns 동안 평형화(equilibrated)되었습니다. Simulations는 Amber20 (Pearlman et al. 1995)을 사용하여 NPT 앙상블에서 SHAKE 알고리즘 (Ryckaert et al. 1977)과 particle mesh Ewald MD (PMEMD) engine (Essmann et al. 1995)을 사용하여 수행되었습니다. 추가적인 짧은 평형화 단계를 수행하여 각 replicate마다 새로운 시드가 생성되었습니다.
Simulation 속도와 저장 크기를 고려하여 프레임은 200 피코초마다 기록되었으며, 그 결과 simulation당 50개의 프레임이 생성되었습니다. 이 접근 방식을 통해 63,000개의 simulations에서 총 3,000,000개의 프레임이 생성되었습니다. models를 train하는 데 사용 가능한 모든 데이터를 사용하는 것을 목표로 했기 때문에 neural networks에 제공되는 프레임에 대해 어떠한 하위 선택(sub-selection)도 수행하지 않았습니다. 효율성을 높이기 위해 pockets만 neural networks에 주입됩니다. 이전 연구 (Libouban et al. 2023)에 따라, crystallographic poses에서 리간드의 기하학적 중심으로부터 12 Å 거리에 있는 잔기를 선택하여 pockets를 정의했습니다. Pocket 추출 및 프레임 처리는 Pymol script (DeLano 2002), Pytraj (Roe and Cheatham 2013, Nguyen and Roe 2016) 및 MDAnalysis (Gowers et al. 2016)를 사용하여 수행되었습니다. neural networks의 입력으로 사용되는 dataset에는 pockets와 리간드 모두에서 추출된 원자의 3D 좌표가 포함됩니다. dataset은 HDF5 및 NumPy 형식으로 압축되었습니다. datasets는 training set과 validation set 사이에서 80/20 비율로 분할되었습니다. 한 complex의 추출된 모든 프레임이나 simulations는 training set 또는 validation set 중 한 곳에 독점적으로 할당됩니다.
MD data augmentation의 경우, 본 연구에서 사용된 sets는 다음과 같이 구성됩니다:
- validation set: refined set (4852 complexes)에서 무작위로 선택된 1198개 complexes의 crystallographic poses와 11 940개의 simulations (1194 complexes)에서 추출된 585 372개의 프레임
- training set: validation set (1 198 complexes)을 제외한 general set (17 679 complexes)에서 선택된 16 076개 complexes의 crystallographic poses와 47 501개의 simulations (4751 complexes)에서 추출된 2 340 237개의 프레임. subsampling을 수행하지 않았으므로 models는 사용 가능한 모든 프레임에서 trained되었습니다.
- test set: PDBbind v.2016 core set의 285개 complexes의 crystallographic poses
spatio-temporal learning의 경우, sets는 다음과 같이 구성됩니다:
- training set: 4753개 complexes에서 수행된 46632개의 simulations
- validation set: 1179개 complexes에서 수행된 11668개의 simulations
- test set: PDBbind v.2016 core set의 83개 complexes에서 수행된 830개의 simulations. 이 test set은 MDbind test set으로 지칭됩니다. 이 test set에서 추출된 41 500개의 프레임은 MD data augmentation 방법들을 평가하는 데에도 사용됩니다.
추가적인 외부 test set으로 FEP dataset (Wang et al. 2015)이 사용되었습니다. 이는 8개의 다른 단백질 (BACE, CDK2, JNK1, MCL1, PTP1B, Thrombin, TYK2, P38)에서 추출한 200개의 protein ligand complexes와 제한된 양의 ligand scaffolds로 구성됩니다. 각 분자 시리즈는 광범위한 binding affinities를 나타내면서 동일한 단백질을 표적으로 합니다. 이는 core set에서 식별된 biases가 덜 존재하는 실제 문제에 더 가까운 다른 시나리오에서 models를 테스트할 기회를 제공합니다. FEP dataset과 PDBbind 사이에 complexes의 중복은 없더라도, FEP dataset의 리간드 중 10개 (5%)가 PDBbind에서 발견되었다는 점에 유의하는 것이 중요합니다. 게다가 FEP dataset의 모든 단백질이 PDBbind에서 발견되었습니다.
2.2 Neural networks
binding affinity predictions를 위해 개발된 잘 알려진 3D CNN인 Pafnucy (Stepniewska-Dziubinska et al. 2018)가 본 논문에서 제시된 neural networks를 개발하기 위한 참조로 사용되었습니다. Convolutions는 pocket 정보를 설명하기 위해 리간드 주위에 생성된 박스 위에서 수행됩니다. 기본적으로 cubic box의 각 면은 25 Å입니다. 박스 공간은 1 $\text{\AA}^3$의 voxels로 이산화(discretized)됩니다. 원자와 접촉하는 Voxels에는 atomic features가 할당되었습니다. 각 atomic feature는 CNN의 채널에 해당하며, convolutions는 voxels에서 수행됩니다. 원자 유형, 부분 전하, 원자 혼성화(atom hybridization)와 같은 원자를 설명하기 위해 19개의 features가 사용되었습니다. 자세한 내용은 Pafnucy 논문 (Stepniewska-Dziubinska et al. 2018)에 제공됩니다. CNNs는 공간에서의 회전 및 병진 운동에 민감하기 때문에 큐브의 24가지 회전 ($90^\circ$ 회전)에 대해 models를 train하는 것이 일반적입니다. computational power를 절약하기 위해, 우리의 테스트에서 유사한 performance를 제공했으므로 각 complex의 하나의 무작위 회전에 대해서만 models를 train하기로 결정했습니다.
첫째, 우리는 Pafnucy를 Tensorflow 1.2에서 PyTorch로 이식했으며, Imrie et al. (2018)이 설정한 예를 따라 convolutional blocks를 dense blocks로 교체하여 Densenucy라는 업데이트된 버전을 개발했습니다 (Fig. 1). dense block은 computer vision에서 더 나은 performance에 도달할 수 있게 해주는 현대적인 프레임워크입니다. 이는 convolutional layers를 추가하여 neural networks 크기를 늘리는 것을 용이하게 합니다. 또한 convolution 과정에서의 정보 손실을 완화합니다. 이는 layers의 입력을 출력에 추가하여 초기 정보를 보존함으로써 달성됩니다. 게다가 메모리 부하와 computational cost를 낮추기 위해 필터의 크기를 줄였습니다. 결과적으로 Densenucy는 Pafnucy보다 작고 파라미터 수가 적어 더 컴팩트합니다.
이후, 전체 simulations로부터 train하기 위해 long-term recurrent convolutional network (LRCN)와 convolutional long short-term memory (ConvLSTM)가 개발되어 3D에서 4D 입력 데이터 사용으로 전환되었습니다. 둘 다 simulation의 각 프레임에 대해 features와 위치를 포함한 각 원자의 정보를 처리합니다.
LRCN architecture는 비디오 활동 인식(video activity recognition)을 위해 도입되었습니다 (Donahue et al. 2017). 이는 CNN 뒤에 LSTM이 이어지는 구조입니다. LRCN은 최종 prediction을 수행하기 전에 비디오를 프레임 단위로 분석하여 각 이미지를 개별적으로 조사합니다. 유사한 방식으로, 우리는 MD simulations를 입력으로 사용하여 4D 데이터를 처리할 수 있는 LRCN인 Timenucy를 만들었습니다. 이는 두 단계로 작동합니다: 먼저 CNN이 모든 프레임에서 convolutions를 수행한 다음, 연결된(concatenated) 출력이 최종 분석을 위해 LSTM으로 전송됩니다 (Fig. 2A).
Videonucy (Fig. 2B)라고 불리는 convolutional LSTM은 convolution 과정과 LSTM 메커니즘을 결합합니다 (Fig. 3) (Yuan et al. 2018). 이러한 접근 방식의 장점은 simulation 전반에 걸친 각 원자의 움직임을 추적하여, 제공되는 4D 데이터를 완전히 활용한다는 것입니다. convolutional LSTM의 원래 구현은 Shi et al. (2015)에서 비롯되었습니다. 우리는 https://github.com/ndrplz/ConvLSTM_pytorch 의 코드를 수정했습니다.
Timenucy 및 Videonucy 구현에 대한 세부 정보는 Supplementary data (Supplementary Fig. S2, Bioinformatics online에서 supplementary data로 제공됨)에서 확인할 수 있습니다. 모든 models의 하위 매개변수(hyperparameters)에 대한 추가 정보는 Supplementary Materials에서 찾을 수 있습니다.
models의 performance는 regression을 위해 Pearson’s correlation coefficient ($R$)와 root mean square error (RMSE)를 사용하여 측정되었고, classification task를 위해 Spearman’s correlation coefficient ($\rho$)를 사용하여 측정되었습니다.
2 Materials and methods 핵심 정리 노트
AI 연구자의 관점에서 논문의 실험 설계 및 모델 아키텍처의 차별점을 중심으로 정리한 노트입니다.
1. MDbind Dataset 구축 및 전처리 전략
- 대규모 4D 데이터 생성: PDBbind의 6,300개 complexes를 대상으로 각각 10 ns 길이의 MD simulations를 10회씩 반복(replicates) 수행하여 총 63,000개의 시뮬레이션 확보. (단일 시뮬레이션의 불확실성을 줄이고 conformational space 샘플링 극대화)
- 프레임 추출: 200 ps마다 프레임을 기록하여 시뮬레이션당 50 프레임, 총 300만 개의 프레임 데이터셋 구축.
- 효율성 최적화 (Pocket Extraction): 연산량 감소를 위해 전체 단백질 구조를 사용하지 않고, 리간드 중심 기준 $12\text{ \AA}$ 반경 내의 잔기(residues)만 추출하여 신경망의 입력(input)으로 사용.
- 엄격한 Data Split (Data Leakage 방지): 80/20 비율로 train/val을 나누되, 분할 기준을 '프레임'이 아닌 **'Complex 단위'**로 엄격하게 적용. 동일한 complex에서 파생된 프레임이나 시뮬레이션이 train과 val에 섞이지 않도록 차단.
- 외부 검증 (External Test Set): PDBbind의 편향(biases)을 배제하고 실전(lead optimization)과 유사한 환경에서 모델을 평가하기 위해 FEP dataset을 추가 테스트셋으로 활용.
2. 학습 전략별 Dataset 구성
- MD data augmentation (프레임 독립 학습): 300만 개의 개별 프레임을 각각 새로운 3D 구조 데이터로 간주하여 물량 기반으로 학습. (subsampling 없이 전체 데이터 사용)
- Spatio-temporal learning (시퀀스 학습): 개별 프레임이 아닌 '시뮬레이션 전체(연속된 프레임들)'를 하나의 4D 시퀀스 입력으로 간주하여 학습.
3. 제안된 Neural Network Architectures
기존의 유명한 3D CNN 기반 모델인 Pafnucy를 베이스라인으로 삼아, 이를 PyTorch로 포팅하고 구조를 개선한 3가지 독자적 모델을 개발함. (회전 증강은 연산량 절감을 위해 complex당 무작위 1회전만 적용)
- Densenucy (정적 3D 구조 개선 모델):
- Pafnucy의 convolutional blocks를 컴퓨터 비전의 Dense block으로 교체.
- 레이어 간 입력을 출력에 더해 정보 손실을 방지하고, 필터 크기를 줄여 파라미터 수를 대폭 감소시킨 경량화/고효율 3D CNN.
- Timenucy (4D 시계열 분리 처리 모델 - LRCN 기반):
- 비디오 행동 인식에 쓰이는 LRCN 구조 차용.
- 과정: CNN이 각 프레임을 개별적으로 분석하여 특징을 추출 $\rightarrow$ 추출된 결과를 시간순으로 연결(concatenate) $\rightarrow$ 마지막에 LSTM이 시퀀스 전체를 분석하여 최종 binding affinity 예측.
- Videonucy (4D 시공간 통합 처리 모델 - ConvLSTM 기반):
- 합성곱 연산과 LSTM 메커니즘이 결합된 ConvLSTM 구조 적용.
쉬운 설명 : 2 Materials and methods
이 섹션은 **"AI에게 보여줄 고품질의 교재(데이터)를 어떻게 만들었고, 그 교재를 공부할 3명의 똑똑한 AI 학생(모델)을 어떻게 설계했는지"**를 설명하는 부분입니다.
1. 교재 만들기 (데이터 가공)
- 단순히 사진(정적 데이터)만 있는 기존 교재 대신, 단백질과 약물이 결합하는 과정을 찍은 10초짜리 짧은 동영상을 6만 3천 개나 직접 촬영(MD simulation)했습니다. 한 단백질당 영상을 10번씩 찍어서 혹시 모를 오차도 줄였습니다.
- 그런데 동영상 용량이 너무 커서 AI가 학습하다 지칠 수 있습니다. 그래서 쓸데없는 배경은 다 잘라내고, 약물이 단백질에 딱 결합하는 핵심 부위(Pocket)만 $12\text{ \AA}$ 크기로 클로즈업해서 크기를 확 줄였습니다.
- AI가 시험 문제를 미리 보는 부정행위(Data Leakage)를 막기 위해, 연습문제에 나온 단백질은 모의고사(Validation set)에 절대 나오지 않게 철저히 분리했습니다.
2. 3명의 AI 학생 설계 (모델 아키텍처)
연구진은 각기 다른 학습 방식을 가진 3가지 AI 모델을 만들었습니다.
- 첫 번째 학생 (Densenucy): 동영상이 아니라 '사진'을 보고 공부하는 학생입니다. 기존 AI(Pafnucy)보다 뇌 구조(Dense block)를 효율적으로 개선해서, 적은 용량으로도 사진 속 핵심을 아주 잘 짚어냅니다.
- 두 번째 학생 (Timenucy): 동영상을 '만화책'처럼 봅니다. 동영상을 캡처한 수십 장의 사진을 1장씩 순서대로 쭉 살펴본 다음(CNN), 마지막에 "아, 전체 흐름이 이렇구나!" 하고 결론을 내립니다(LSTM).
- 세 번째 학생 (Videonucy): 동영상을 진짜 '동영상'으로 봅니다. 처음부터 원자가 어떻게 움직이는지 시선의 흐름을 끊지 않고 공간과 시간을 동시에 추적하며(ConvLSTM) 가장 자연스럽게 움직임을 이해합니다.
준비물 :
6300개 복합체 단백질 pdb 정답이 알려짐 : 결정학적 포즈를 출발점으로 사용
각 복합체 마다 10ns길이의 시뮬레이션을 10번씩 수행. 즉 총 63000개의 시뮬레이션이 있음.
연산 속도와 용량을 고려해서 시뮬레이션 중 200 피코초 단위로 장면을 캡쳐.
시뮬레이션 1개당 50개 프레임.
그럼 약 300만개 프레임 데이터가 확보 되고 이는 3D 좌표를 담은 파일 형태로 준비됨.
포켓 추출, 거대한 단백질 전체를 쓰지 않고 결합된 부분만 사용.
그 잘라낸 포켓과 리간드 주변에 한 변이 25A인 3D 정육면체 가상 박스를 씌우고
이를 1A단위 3D 픽셀들로 쪼갬
거기에 채널 형태로 원자 정보를 19가지 값을 채워넣음
그리고 인풋
시간 무시하고 300만개 프레임 독립적으로 취급.
배치마다 넣어줘서 cnn을 통과해서 결합력 예측
그리고 이번엔
연속된 시퀀스를 LSTM에 입력해서 쭉쭉 통과해서 LSTM으로도 결합력 예측
loss 흘려서 학습
즉 결합력 잘 예측하는 모델이 됨.
다만 인퍼런스에서 pdb 하나를 넣어도 되고 시뮬레이션 결과를 넣어도 됨
결합하기전에 결합력을 재보기 위한 모델
3점
아이디어(4D 학습)는 좋았으나 컴퓨터 자원 부족으로 메인 실험을 끝까지 최적화하지 못한 한계가 명확하게 텍스트에 드러남.
하지만, 역대급 노동력으로 쓸만한 대규모 동적 데이터셋(MDbind)을 커뮤니티에 던져주었고 , 까다로운 실전 테스트(FEP)에서 데이터 증강의 효용성을 명확히 입증했으므로, "데이터 기여도는 매우 높으나 메인 아키텍처 실험 마무리가 살짝 아쉬운 무난한 논문""
