AI바라기의 인공지능
protein : Deep generative modeling of temperature-dependent structural ensembles of proteins 본문
protein : Deep generative modeling of temperature-dependent structural ensembles of proteins
AI바라기 2026. 4. 8. 12:53
[Study Note] Deep generative modeling of temperature-dependent structural ensembles of proteins
Purpose of the Paper
- 기존 연구의 한계 극복: 기존의 protein structure prediction (예: AlphaFold2)은 정적인 단일 구조를 예측하는 데 탁월하지만, 단백질이 실제 환경에서 가질 수 있는 다양한 구조적 집합인 Conformational Ensemble을 포착하는 데는 한계가 있음.
- 환경 조건(Temperature) 반영의 부재: 기존의 generative model (예: AlphaFlow)은 특정 온도(예: 300K)와 같은 고정된 환경 조건에서의 ensemble 생성에 집중되어 있어, 온도가 변함에 따라 단백질이 unfolding되는 등의 역동적인 변화를 모사하지 못함.
- Atomistic Accuracy의 필요성: 기존 모델들은 backbone 위주의 예측에 치중하여, 단백질 기능에 결정적인 side-chain의 torsion angle 분포를 정확하게 재현하는 데 어려움이 있음.
- 새로운 접근 방식: 본 논문은 latent diffusion model을 활용하여, 온도(Temperature)를 하나의 condition으로 입력받아 atomistic level(heavy atom)에서 temperature-dependent한 structural ensemble을 생성하는 aSAMt를 제안함.
Key Contributions & Novelty
- aSAM (atomistic SAM) Architecture:
- Stage 1 (Autoencoder): heavy atom 좌표를 SE(3)-invariant latent space로 압축하는 AE를 학습하여, 회전이나 평행 이동에 영향을 받지 않는 효율적인 표현(representation)을 획득함.
- Stage 2 (Latent Diffusion Model): 압축된 latent space 내에서 diffusion process를 통해 MD(Molecular Dynamics) 구조의 분포를 학습함.
- aSAMt (Temperature-conditioned version):
- Novelty: Diffusion model에 temperature scalar를 condition으로 추가함으로써, 온도가 변화함에 따라 변화하는 ensemble의 물리적 특성을 생성할 수 있는 최초의 approach를 제시함.
- Atomistic Detail Capture:
- backbone뿐만 아니라 side-chain torsion angles를 latent space에서 직접 학습하여, 기존 모델 대비 훨씬 높은 atomistic accuracy를 달гах함.
- Computational Efficiency:
- MD simulation을 직접 수행하는 대신, 학습된 generative model을 사용하여 ensemble을 생성하므로 MD 대비 압도적으로 빠른 속도를 보임 (AlphaFlow 대비 약 17x ~ 28x speedup).
Experimental Highlights
- Datasets & Baselines:
- Datasets: protein flexibility 연구를 위한 ATLAS dataset과 온도 의존적 연구를 위한 mdCATH dataset을 사용함.
- Baselines: AlphaFlow, ESMFlow, COCOMO, BioEmu 등 최신 state-of-the-art 모델들과 비교함.
- Key Results:
- Temperature-dependent behavior: aSAMt는 온도가 상승함에 따라 단백질의 **Folded State Fraction (FSF)**이 감소하며 unfolding되는 과정을 성공적으로 재현함.
- Generalization (Interpolation & Extrapolation): 학습 데이터에 포함되지 않은 온도 범위에 대해서도 물리적으로 타당한(physically plausible) 구조적 변화를 예측함.
- Accuracy Metrics:
- PCC (Pearson Correlation Coefficient): Ca RMSF profile에서 높은 상관관계를 보임.
- WASCO scores: Local/Global torsion angle 분포에서 기존 모델보다 우수한 성능을 입증함.
- initRMSD: MD ensemble의 구조적 다양성을 효과적으로 모사함.
- Performance vs. AlphaFlow: AlphaFlow는 backbone 예측에 강점이 있으나, aSAMc/t는 side-chain의 torsion angle 및 temperature-dependent 특성에서 명확한 우위를 점함.
Limitations and Future Work
- Limitations:
- Boltzmann Distribution의 완벽한 재현 한계: 모델이 finite-length MD trajectories로 학습되었기 때문에, 이론적인 equilibrium probability(Boltzmann distribution)를 완벽하게 일치시키지는 못함. 이는 학습 데이터 자체의 시간적 제약에서 기인함.
- Extreme Extrapolation의 불안정성: 학습 범위를 크게 벗어나는 극단적인 온도 조건에서는 예측 성능이 저하될 수 있음.
- Future Work:
- Incorporating Physical Principles: latent space에 physics-based priors(예: force fields, thermodynamic maps)를 통합하여, 모델이 물리 법칙(Boltzmann distribution)을 더 엄격하게 준수하도록 개선할 필요가 있음.
- Expanding Environmental Variables: Temperature 외에도 pH, salinity(염도) 등 단백질 구조에 영향을 미치는 다른 physicochemical variables를 condition으로 확장하는 연구가 유망함.
Overall Summary
본 논문은 단백질의 구조적 다양성과 온도에 따른 변화를 atomistic level에서 정밀하게 생성할 수 있는 aSAM/aSAMt 모델을 제안하였다. 이 모델은 latent diffusion model을 활용하여 기존 MD simulation의 막대한 계산 비용 문제를 해결함과 동시에, 온도를 조절 가능한 condition으로 도입하여 단백질의 unfolding transition을 성공적으로 모사하였다. 이는 단순히 고정된 구조를 예측하는 단계를 넘어, environmental condition에 반응하는 단백질의 동적 거동을 예측할 수 있는 새로운 paradigm을 제시했다는 점에서 매우 중요한 의의를 가진다.
쉬운 설명
기존의 단백질 구조 예측 모델들이 단백질의 "정지된 사진(Static Photo)"을 찍는 것이라면, 이 논문의 모델은 **"온도 조절이 가능한 비디오(Temperature-controlled Video)"**를 만드는 기술입니다. 사용자가 온도를 높이면 단백질이 열에 의해 흐물흐물해지며 모양이 변하는(unfolding) 과정까지도, 아주 작은 원자 단위의 디테일을 유지하면서 매우 빠르게 시뮬레이션해낼 수 있습니다.
용어 설명
- Conformational Ensemble: 단백질이 고정된 하나의 모양이 아니라, 열역학적 에너지에 따라 가질 수 있는 여러 가지 구조들의 집합.
- Latent Diffusion Model: 고차원의 데이터를 저차원의 핵심 정보(latent space)로 압축한 뒤, 그 공간에서 노이즈를 제거하며 새로운 데이터를 생성하는 모델.
- SE(3)-invariant: 물체가 공간상에서 회전하거나 평행 이동해도 그 물체의 본질적인 특징(정보)은 변하지 않도록 설계된 성질.
- Torsion Angles (phi, psi, chi): 단백질의 backbone과 side-chain이 결합된 축을 중심으로 뒤틀리는 각도. 단백질의 세밀한 모양을 결정하는 핵심 요소.
- Unfolding: 온도가 높아짐에 따라 단백질의 복잡한 3차원 구조가 풀리면서 무작위적인 구조로 변하는 현상.
- RMSF (Root Mean Square Fluctuation): 단백질의 각 잔기(residue)가 얼마나 역동적으로 움직이는지를 나타내는 지표.
- initRMSD: 초기 구조로부터 얼마나 멀리 떨어진 구조들이 생성되었는지를 측정하여, 모델이 얼마나 다양한 구조를 만들어내는지(sampling diversity) 평가하는 지표.
Abstract
Deep learning은 단백질 구조 예측에 혁명을 일으켰지만, 입체 형태의 ensembles를 포착하는 것은 여전히 과제로 남아 있습니다. 분자 동역학(MD) 시뮬레이션은 생체 분자의 동역학을 설명할 수 있지만 계산 비용이 많이 듭니다.
대안으로, MD에 trained 된 deep learning models는 감소된 비용으로 구조적 ensembles를 generate 할 수 있습니다. 우리는 heavy atom 단백질 ensembles를 generate 하기 위해 MD로 trained 된 latent diffusion model인 aSAM(atomistic structural autoencoder model)을 제시합니다.
aSAM은 측쇄(side chain) 및 백본 비틀림 각도 distributions를 정확하게 sample 하기 위해 latent space에서 원자들을 model 합니다. 추가적으로, aSAMt 버전은 온도에 conditioned 된 ensembles를 generates 합니다. mdCATH에 trained 된 aSAMt는 온도 의존적인 ensemble 특성을 포착하고 training 된 온도 범위를 넘어서는 generalization을 보여줍니다.
aSAMt ensembles를 fast-folding 단백질의 장기 MD 시뮬레이션과 비교함으로써, 우리는 고온 training이 에너지 지형(energy landscapes)을 탐색하는 generators의 능력을 향상시킨다는 것을 발견했습니다. aSAMt는 또한 실험적으로 관찰된 단백질의 열적 거동을 포착할 수 있습니다.
이 연구는 환경 조건을 포함하는 방향으로 deep learning ensemble generation을 generalizes 합니다.
Introduction
Machine learning (ML)은 앙상블 평균 실험 구조에 근접하는 예측을 통해 단백질의 3D 구조 모델링을 발전시켰습니다. AlphaFold2 (AF2) 덕분에, 구조 예측은 이제 생의학 분야에서 관련성을 지닌 신뢰할 수 있는 기술이 되고 있습니다. AlphaFold3 (AF3)와 같은 새로운 models는 경계를 더욱 확장하여 생체 분자 모델링을 다양한 분자 종을 가진 단백질 복합체로 generalizing 하고 있습니다.
단백질은 역동적이며 형태의 집단으로 존재하여, 구조적 ensembles를 형성합니다. 이러한 ensembles를 특성화하는 것은 생물학적 활성을 이해하는 데 매우 관련성이 높지만 여전히 까다로운 과제입니다. 구조 예측기들이 단백질의 dynamics를 포착하는 데 어려움을 겪음에 따라, 새로운 deep learning 방법들이 제안되고 있습니다. 이러한 방법 중 일부는 Protein Data Bank (PDB)에서 관찰되는 형태적 가변성을 포착하려고 시도합니다. 이들의 목표는 주로 단백질의 대안적 상태를 sample 하는 것입니다. 우리의 연구를 포함한 또 다른 방법의 부류는 분자 동역학(MD) 시뮬레이션 데이터에 train 합니다. MD는 생체 분자의 물리적 거동을 포착할 수 있지만, 생체 분자의 넓고 험준한 에너지 지형으로 인해 일반적으로 상당한 계산 비용을 수반합니다. MD에 trained 된 ML 방법은 MD의 높은 계산 비용을 극복하기 위한 유망한 전략이며, MD의 물리적 정확성과 transferability를 맞추는 것이 주요 과제입니다.
ML 기반 ensemble generators는 세 가지 핵심 요소 덕분에 번창하기 시작했습니다: (i) AF2의 신경망 구성 요소는 단백질 구조를 모델링하는 데 매우 효과적인 것으로 입증되었으며 MD ensemble generators에서 종종 직접 재사용됩니다. (ii) deep generative modeling, 특히 diffusion 또는 flow matching models의 발전. (iii) training data 외부의 단백질에 적용할 수 있는 transferable models를 train 하기 위한 대규모 MD datasets의 가용성. 선구적인 model 중 하나는 AF2 기반 generative model인 AlphaFlow입니다. PDB의 단백질 사슬 시뮬레이션으로 이루어진 ATLAS dataset에 trained 된 이 model은 잔기 변동(residue fluctuations)과 같은 일부 MD 특성을 정확하게 재현했지만, 해당 데이터베이스의 더 복잡한 다중 상태(multi-state) ensembles를 포착하는 데는 여전히 실패했습니다. 유사한 방법들도 ATLAS 또는 비교 가능한 datasets에 trained 되었습니다. 최근 BioEmu model은 MD 기반 generative model이 training data 외부에 있는 단백질의 대안적 상태를 일관되게 포착할 수 있음을 입증했지만, BioEmu는 여전히 한계를 보입니다. 예를 들어, 이 model은 단백질의 백본 원자만 직접 generates 하고, 측쇄(side chains)는 제3자 신경망을 사용한 후처리 단계에서 모델링된 후 에너지 최소화 과정을 거쳐야 합니다. 또한, 구조적 ensembles를 300 K에서만 models 합니다.
고정된 조건에서 단백질을 모델링하는 데 있어 이루어진 진전을 고려할 때, ML generators의 다음 과제 중 하나는 다양한 환경 조건에 대한 물리적 transferability를 달성하는 것입니다. 예를 들어, 온도는 기본적으로 엔탈피와 엔트로피 사이의 균형을 이동시킴으로써 볼츠만 분포에 따라 형태적(conformational) ensembles에 영향을 미치는 기본적인 열역학적 매개변수입니다. 온도의 효과는 단백질 폴딩의 결정 요인으로 가장 명확하게 관찰되며, 생물학적 기능에 직접적인 영향을 미칩니다.
여기서 우리는 다양한 환경 조건에서 단백질의 heavy atom ensembles를 직접 생성하는(produces) deep generative model을 제시합니다. 이 방법은 우리가 원래 본질적으로 무질서한 펩타이드의 Cα ensembles에 적용했던 latent diffusion model인 StructuralAutoencoderModel (SAM)의 발전된 형태입니다. 우리는 먼저 ATLAS dataset에서 새로운 aSAM(atomistic SAM)을 state-of-the-art인 AlphaFlow와 비교합니다. 우리의 model은 pre-trained 된 AF2 버전에 의존하지 않고 ensembles를 generating 할 때 더 높은 계산 효율성으로 AlphaFlow와 유사한 성능을 달성합니다. 우리는 aSAM을 사용하여 latent space에서 원자를 모델링하는 것이 백본 및 측쇄 비틀림 각도의 물리적으로 현실적인 distributions를 학습하기 위한 효과적인 전략임을 입증합니다.
중요하게도, 우리는 또한 물리적 변수(이 경우 온도)에 의해 conditioned 된 단백질 형태의 ensembles를 생성하는(produces) 개념 증명(proof-of-principle) ML generator인 aSAMt(aSAM temperature-conditioned)를 소개합니다. 온도 효과가 이전에 단일 시스템의 시뮬레이션에 trained 된 생체 분자 generative models에 통합된 적은 있지만, 우리의 접근 방식은 여러 단백질에 training 함으로써 sequence-conditioning을 얻어 training data에 포함되지 않은 단백질에 적용할 수 있게 합니다. training을 위해, 우리는 320 K에서 450 K 사이의 다양한 온도에서 수천 개의 구형 단백질 도메인에 대한 MD 시뮬레이션을 포함하는 mdCATH dataset을 활용했습니다. 우리는 aSAMt가 다양한 ensemble 특성의 온도 거동을 재현할 수 있으며, 보이지 않는(unseen) sequences와 구조뿐만 아니라 training data 외부의 온도로도 generalize 할 수 있음을 보여줍니다. 나아가, 그 ensembles를 fast-folding 단백질의 장기 MD 시뮬레이션과 비교함으로써, 우리는 고온에서의 학습이 형태적 지형(conformational landscapes)을 탐색하는 ML ensemble generators의 능력을 크게 향상시킨다는 것을 보여줍니다. 다중 온도(multi-temperature) mdCATH training data 덕분에, 우리의 model은 광범위한 시뮬레이션에 직접 trained 되지 않았음에도 불구하고 BioEmu와 비교하여 이러한 fast-folding 단백질의 에너지 지형에 대해 비슷한 수준의 커버리지를 얻습니다. 마지막으로, 우리는 MD에서 독점적으로 학습된 정보를 활용함으로써 model이 실험적으로 관찰된 온도 거동을 어떻게 포착할 수 있는지 입증하며, 이를 통해 시뮬레이션 데이터로부터의 학습이 실험적 관찰을 모델링하기 위한 유용한 pre-training 전략이 될 수 있음을 확립합니다.
aSAM 논문 Introduction 핵심 정리 노트 (AI 연구자용)
1. 연구 배경 및 기존 방법론의 한계
- 단백질 역학 모델링의 필요성: AF2, AF3 등은 정적 구조 예측에 뛰어나나, 단백질의 생물학적 활성을 이해하기 위한 conformational ensembles (형태적 다양성) 포착에는 한계가 있음.
- MD 시뮬레이션과 ML의 결합: 분자 동역학(MD)은 물리적 거동을 잘 포착하지만 계산 비용이 매우 큼. 이를 극복하기 위해 MD 데이터에 trained 된 ML ensemble generators가 대안으로 떠오름.
- 기존 Generative Models의 한계:
- AlphaFlow: AF2 architecture 기반으로 ATLAS dataset에 trained 되었으나, 복잡한 multi-state ensembles 포착에 실패.
- BioEmu: 대안적 상태 포착 성능은 개선되었으나, backbone 원자만 직접 generation 가능 (측쇄는 후처리 필요)하며, 300 K 단일 온도 조건으로만 제한됨.
- 새로운 과제: 다양한 환경 조건(특히 온도)에 대한 물리적 transferability 확보.
2. 제안 모델 1: aSAM (atomistic StructuralAutoencoderModel)
- Architecture: Cα 기반이었던 기존 SAM을 발전시킨 원자 수준의 Latent diffusion model.
- 특징: 단백질의 heavy atom ensembles를 직접 generation.
- 성능 우위: * Pre-trained 된 AF2 버전에 의존하지 않으면서도 ATLAS dataset에서 AlphaFlow와 유사한 성능 달성.
- Ensembles generation 시 계산 효율성이 훨씬 높음.
- Latent space에서 원자를 모델링하여 백본 및 측쇄 비틀림 각도의 물리적으로 현실적인 distributions를 성공적으로 학습.
3. 제안 모델 2: aSAMt (Temperature-conditioned aSAM)
- 특징: 온도라는 물리적 변수에 conditioned 되어 단백질 conformational ensembles를 생성하는 모델.
- Training 전략: 다수의 구형 단백질 도메인이 포함된 mdCATH dataset (320~450 K 환경) 활용.
- Sequence-conditioning: 단일 시스템이 아닌 여러 단백질에 training 하여, training data에 없는 새로운 단백질에도 적용 가능하도록 설계.
- 핵심 발견 및 기여 (Generalization & Energy Landscape):
- Zero-shot Generalization: 보이지 않는(unseen) sequences와 구조는 물론, training data 범위를 벗어난 온도 환경에 대해서도 generalize 성공.
- 탐색 능력 향상: 고온(High-temperature) 환경의 데이터를 학습하는 것이 ML generators가 conformational landscapes를 탐색하는 능력을 극대화함. (해당 단백질에 직접 trained 되지 않았음에도 BioEmu와 필적하는 fast-folding 단백질의 에너지 지형 커버리지 달성).
- 물리적 타당성: MD 시뮬레이션만으로 학습했음에도 실제 실험적으로 관찰되는 단백질의 열적 거동을 정확히 포착함. 이는 MD 데이터 사전 학습(pre-training)이 실험적 관찰을 모델링하는 강력한 전략임을 시사함.
쉬운 설명 :
단백질은 가만히 멈춰있는 조각상이 아니라, 끊임없이 꼬물거리고 모양을 바꾸는 나노 기계와 같습니다. 기존의 AlphaFold가 단백질의 가장 완벽한 "정지 사진"을 찍는 기술이라면, 분자 동역학(MD)은 단백질이 어떻게 움직이는지 보여주는 "동영상"을 찍는 기술입니다. 하지만 이 동영상을 찍는 것은 슈퍼컴퓨터를 써도 시간과 돈이 너무 많이 듭니다.
그래서 AI 연구자들은 기존에 찍어둔 동영상(MD 데이터)을 AI에게 학습시켜서, 새로운 단백질의 움직임을 빠르고 싸게 만들어내는 generative models를 만들고 있습니다. 그런데 이전의 AI들은 복잡한 움직임을 잘 흉내 내지 못하거나, 단백질의 뼈대만 대충 만들거나, 혹은 상온(300 K)이라는 딱 하나의 온도에서만 작동하는 반쪽짜리였습니다.
이 논문에서 개발한 aSAM은 단백질의 모든 뼈대와 살점(모든 heavy atoms)을 한 번에 빠르고 정확하게 만들어내는 뛰어난 AI입니다. 그리고 여기서 한 걸음 더 나아간 aSAMt는 사용자가 원하는 "온도"를 마음대로 설정할 수 있습니다. AI에게 "이 단백질을 400도 펄펄 끓는 환경에 두면 어떻게 움직일까?"라고 물어보면, 그 온도에 맞는 단백질의 움직임을 뚝딱 만들어냅니다.
가장 놀라운 점은, 뜨거운 온도에서 단백질이 요동치는 모습을 학습시켰더니 AI가 단백질이 가질 수 있는 다양한 모양(에너지 지형)을 훨씬 더 잘 찾아내게 되었다는 것입니다. 심지어 자신이 한 번도 본 적 없는 새로운 단백질이나 새로운 온도 조건이 주어져도, 실제 실험실에서 관찰되는 것과 똑같은 물리적인 움직임을 똑똑하게 유추해 냅니다. 즉, 환경 변화에 따른 단백질의 변화를 완벽하게 시뮬레이션할 수 있는 진정한 의미의 '단백질 동영상 생성 AI'를 만든 것입니다.
일단 오토 인코더 학습시켜야함
3D 좌표 구조 -> Z 다시 3D 좌표 구조
이러는 와중에 Z를 잘뽑게 학습됨.
그리고 어케 하느냐
일단
3D 좌표 구조를 Z로 만듬
그리고 DDPM 마냥 z에 t에따른 노이즈를 줘서
zt를 디노이징 하는 것을 학습 시키게 됨
이때 인풋은
아미노산 서열
초기3D 구조
온도
그래서 대충 ddpm 학습해서
zt 잘 벗기게 되고 디코더 태우면 끝
그럼 학습 목표는
잠재 벡터를 잘 디노이징 시킬 수 있으므로
완전한 가우시안에서도 t랑 서열만 보고 잠재벡터를 잘 만들어갈 수 있게됨
