AI바라기의 인공지능
Protein : 논문 리뷰 : Generative Modeling of Full-Atom Protein Conformations using Latent Diffusion on Graph Embeddings 본문
Protein : 논문 리뷰 : Generative Modeling of Full-Atom Protein Conformations using Latent Diffusion on Graph Embeddings
AI바라기 2025. 11. 20. 10:39LD-FPG: Generative Modeling of Full-Atom Protein Conformations Study Note
1. Terminology Explanation
이 논문의 핵심 내용을 이해하기 위해 필요한 주요 용어 정리:
- Molecular Dynamics (MD): 단백질과 같은 분자 시스템의 움직임을 시간에 따라 시뮬레이션하여, 단백질이 가질 수 있는 다양한 구조적 상태(Conformational Ensemble)를 생성하는 계산화학 기법.
- Conformational Ensemble: 단백질이 생체 내에서 하나의 고정된 구조가 아니라, 끊임없이 움직이며 가질 수 있는 다양한 구조들의 집합.
- ChebNet (Chebyshev Spectral Graph Convolutional Network): 그래프 데이터(단백질 구조)를 처리하기 위해 Chebyshev 다항식을 사용하는 Spectral Graph Convolution 네트워크. 이 논문의 Encoder로 사용됨.
- Side-chain (곁사슬): 단백질의 뼈대(Backbone)에 붙어있는 원자 그룹. 약물 결합이나 신호 전달 등 단백질의 구체적인 기능에 핵심적인 역할을 함.
- Pooling Strategies (Blind, Sequential, Residue-based): 고차원적인 원자 단위의 Latent Embedding을 저차원의 Latent Space로 압축하는 방식들.
- Blind: 모든 원자를 하나의 벡터로 뭉뚱그림.
- Sequential: Backbone을 먼저 처리하고 이를 바탕으로 Side-chain을 처리.
- Residue-based: 각 아미노산 잔기(Residue)별로 정보를 압축하여 로컬 정보를 보존.
- lDDT (Local Distance Difference Test): 예측된 단백질 구조와 정답 구조 간의 국소적 거리 차이를 비교하여 구조적 정확성을 평가하는 지표.
- Jensen–Shannon Divergence (JSD): 두 확률 분포 간의 차이를 측정하는 지표. 여기서는 생성된 구조와 실제 MD 데이터의 Dihedral angle(이면각) 분포가 얼마나 유사한지 측정하는 데 사용됨.
- A100 Activation Index: GPCR 단백질(D2R)의 활성화 상태를 나타내는 특정 원자들 간의 거리 기반 지표. 생성된 구조가 생물학적으로 의미 있는 상태(Active/Inactive)를 커버하는지 확인용.
2. Purpose of the Paper
기존 연구의 한계와 새로운 접근:
- Static vs. Dynamic: AlphaFold2와 같은 SOTA 모델들은 단백질을 Single Static Conformation (하나의 정적 구조)으로만 예측함. 하지만 단백질의 생물학적 기능(특히 GPCR)은 다양한 구조적 상태 간의 전이(Transition)에 의존함.
- Missing Atomic Detail: 기존의 Ensemble 생성 모델들은 계산 비용 문제로 Coarse-grained (입자 단순화) 모델을 쓰거나, Backbone만 생성하고 Side-chain의 미세한 움직임은 무시하는 경향이 있음. 이는 약물 설계(Drug Discovery)에 치명적임.
- Novel Goal: MD 시뮬레이션 데이터를 학습하여, Backbone뿐만 아니라 모든 Heavy Atom (Side-chain 포함) 의 위치를 정확하게 생성하고, 생물학적으로 유의미한 Diversity를 포착하는 All-atom Latent Diffusion 프레임워크(LD-FPG)를 제안함.
3. Key Contributions
핵심 기여 및 독창성 (Novelty):
- First All-Atom Latent Diffusion for Ensembles:
- MD 데이터로부터 Complete All-atom (Backbone + Side-chain) 구조 앙상블을 직접 생성하는 최초의 Latent Diffusion 프레임워크 제안.
- Side-chain dynamics를 별도의 후처리가 아닌 생성 과정의 일부로 통합하여 학습.
- Graph-based Autoencoder Architecture:
- ChebNet을 Encoder로 사용하여 단백질의 기하학적/위상적 정보를 고차원 Latent Embedding으로 변환.
- Latent Deformations Learning: 절대 좌표가 아닌, Reference 구조()로부터의 변형(Deformation) 을 학습하도록 설계하여 생성 난이도를 낮춤.
- Xref
- Critical Evaluation of Pooling Strategies:
- Decoder에서 고차원 Latent를 다루는 세 가지 전략(Blind, Sequential, Residue-based)을 체계적으로 비교 분석함.
- Novelty: 단순히 압축하는 것이 아니라, Residue-based pooling이 단백질의 국소적(local) 움직임과 전체적인 에너지 풍경(Landscape)을 가장 잘 보존한다는 것을 실험적으로 증명.
- Integration of Dihedral Loss:
- Generative performance를 높이기 위해 물리적 제약 조건인 Dihedral-angle loss를 Decoder 학습에 통합하여 기하학적 타당성 확보.
4. Experimental Highlights
실험 설정 및 주요 결과:
- Dataset: Human Dopamine D2 Receptor (D2R)의 2s 길이 All-atom MD Trajectory (약 12,000 frames). 막 단백질(Membrane protein)이라는 복잡한 환경을 다룸.
- μ
- Comparison of Decoding Strategies:
- Blind Pooling: 전체 구조(Global fold)는 잡지만, Side-chain의 디테일이 뭉개짐 (Blurred distribution).
- Sequential Pooling: Backbone과 Side-chain의 균형이 가장 좋음. 기하학적 에러(Steric clashes)가 적고 구조가 깔끔함.
- Residue-based Pooling (Best for Landscape):
- 개별 Side-chain의 회전각(Rotamer) 분포를 가장 정확하게 재현 (JSD < 0.03).
- ∑
- A100 Index 분석 결과, MD 시뮬레이션이 탐색한 활성/비활성 상태의 Conformational Landscape를 가장 완벽하게 커버함.
- Quantitative Performance:
- MD Reference 대비 All-atom lDDT ~0.7, -lDDT ~0.8 달성. (MD 데이터 자체의 변동성을 고려할 때 매우 높은 수치).
- Cα
- 기존의 일반화된 MD 생성 모델(BioEmu)이 D2R의 특정 활성 상태 분포를 실패한 반면, LD-FPG는 정확히 포착함.
5. Limitations and Future Work
한계점 및 향후 연구 방향:
- Steric Clashes (Physical Realism):
- Limitation: 생성된 구조들에서 MD 원본 데이터보다 Steric Clash(원자 겹침) 가 다소 높게 발생함. 물리적 유효성이 완벽하지 않음.
- Future Work: 경량화된 Energy function이나 Physics-guided diffusion scheme을 도입하여 물리적 위배를 줄여야 함.
- Sampling Efficiency:
- Limitation: Residue-based pooling은 Latent space가 커서(Effective dimension ), 충분한 다양성을 확보하기 위해 Multi-epoch sampling이 필요했음.
- ≈1.1k
- Future Work: 더 강력한 Denoiser 구조(Transformer 등)나 Flow-matching 같은 대체 생성 모델 탐색.
- Generalization:
- Limitation: 현재는 단일 단백질(Single system)의 MD 궤적을 학습하는 데 초점을 맞춤.
- Future Work: 여러 단백질 데이터셋(예: Class A GPCRs)을 통합 학습하여, Protein Dynamics를 위한 Foundation Model로 확장.
6. Overall Summary
본 논문은 MD 시뮬레이션 데이터를 활용하여 단백질의 All-atom Conformational Ensemble을 생성하는 LD-FPG 프레임워크를 제안합니다. 저자들은 ChebNet 기반의 Latent Diffusion 모델을 통해 정적인 구조 예측을 넘어, 단백질의 동적인 기능적 상태와 Side-chain의 미세한 움직임을 포착하는 데 성공했습니다. 특히, Residue-based Pooling 전략이 복잡한 막 단백질인 D2R의 에너지 풍경(Energy Landscape)을 가장 효과적으로 재현함을 입증함으로써, 구조 기반 약물 설계(Structure-based Drug Design)를 위한 고정밀 앙상블 생성의 가능성을 열었습니다.
7. Easy Explanation (핵심 아이디어)
- 기존 방식 (AlphaFold): 단백질의 "증명사진" 한 장을 아주 잘 찍어줍니다. 하지만 단백질이 웃고 있는지, 찡그리는지, 입을 벌리고 있는지는 알 수 없습니다.
- 이 논문의 방식 (LD-FPG): 단백질의 "비디오" (MD 시뮬레이션)를 학습합니다.
- 비디오의 각 장면을 압축된 코드(Latent Embedding) 로 변환합니다. 이때, "기준 얼굴(Reference)" 에서 표정이 어떻게 바뀌었는지는 변화량(Deformation) 만 저장합니다.
- 특히, 얼굴 전체를 뭉뚱그려 저장하는 게 아니라, 눈, 코, 입 각각의 변화(Residue-based Pooling) 를 따로 저장하는 것이 가장 효과적임을 알아냈습니다.
- 이 코드를 바탕으로 새로운 "표정들" (새로운 구조 앙상블)을 생성해냅니다.
- 결과: 실제 비디오에 나왔던 다양한 표정뿐만 아니라, 그 사이에 있을 법한 자연스러운 표정까지 만들어내어 약물 개발 시 단백질의 어떤 부위가 어떻게 움직이는지 파악할 수 있게 해줍니다.
주인장 이해 흐름`
💡 사용자님의 이해 흐름 정리 (LD-FPG 논문 핵심)
1. 출발점: 단백질과 구조
- 단백질은 원래 긴 실타래(1차원)지만, 꼬이고 뭉쳐서 특정한 **3차원 덩어리(구조)**가 된다.
- 이 모양을 알아야 어디에 약(열쇠)을 꽂을지 알 수 있어서, 구조를 아는 게 엄청 중요하다.
2. 과거의 혁명: 알파폴드 (AlphaFold)
- 옛날엔 구조 하나 알아내는 데 엄청난 시간과 돈이 들었다.
- 알파폴드가 등장해서 "아미노산 문자열(설계도)"만 넣으면 **"완성된 3차원 구조"**를 순식간에 맞추는 혁명을 일으켰다.
3. 알파폴드의 한계 발견
- 근데 알파폴드는 "가장 확률 높은 딱 한 가지 자세" (증명사진, 차렷 자세)만 보여준다.
- 문제는, 단백질은 다 접힌 뒤에도 돌덩이처럼 굳어있는 게 아니라, 물속의 미역처럼 계속 움직이고(Dynamics) 모양을 바꾼다는 거다.
4. 왜 움직임이 중요한가? (Why Dynamics?)
- 단백질이 움직이다 보면 평소엔 닫혀있던 주머니(구멍)가 "찰나의 순간"에 열리기도 한다.
- 또는 스위치처럼 OFF 모양에서 ON 모양으로 딸깍거리며 변하기도 한다.
- 이 **"움직이는 순간"**을 알아야 그 틈새를 공략하거나 스위치를 조작하는 **신약(리간드)**을 만들 수 있다. 멈춰있는 사진만 봐서는 이 기회를 놓친다.
5. 이 논문의 목표 (LD-FPG)
- "알파폴드는 멈춰있는 것만 잘하니까, 우리는 **이미 다 접힌 단백질이 어떻게 꼼지락거리는지(Ensemble)**를 보여주자!"
- 진화 정보(MSA) 대신 **물리 시뮬레이션 데이터(MD)**를 AI에게 학습시켜서, 단백질의 다양한 자세와 움직임을 생성해내게 만들었다.
- 특히 뼈대뿐만 아니라 **곁가지(Side-chain)**의 미세한 움직임까지 다 구현해서, 약물 개발에 진짜 쓸모 있게 만들었다.
Abstract
G-protein-coupled receptors (GPCRs)와 같은 dynamic proteins의 다양하고 all-atom conformational ensembles를 생성하는 것은 그 기능을 이해하는 데 중요하지만, 대부분의 generative models는 atomic detail을 단순화하거나 conformational diversity를 완전히 무시합니다.
우리는 molecular dynamics (MD) trajectories로부터 모든 side-chain heavy atom을 포함한 완전한 all-atom protein structures를 직접 구축하는 framework인 latent diffusion for full protein generation (LD-FPG)을 제시합니다.
LD-FPG는 protein conformations의 low-dimensional latent embeddings를 얻기 위해 Chebyshev graph neural network (ChebNet)를 사용하며, 이는 blind, sequential, residue-based라는 세 가지 pooling strategies를 사용하여 처리됩니다. 이러한 latent representations에 대해 trained된 diffusion model은 새로운 samples를 생성하고, 선택적으로 dihedral-angle losses에 의해 regularized된 decoder가 이를 다시 Cartesian coordinates로 매핑합니다.
Membrane 환경에서의 human dopamine D2 receptor의 $2\text{ \mu s}$ MD trajectory ($12\text{ }000$ frames)인 D2R-MD를 사용하여, sequential 및 residue-based pooling strategy는 높은 structural fidelity (all-atom lDDT $\sim 0.7$; C$\alpha$-lDDT $\sim 0.8$)로 reference ensemble을 재현하고, MD data와 비교하여 Jensen–Shannon divergence $< 0.03$으로 backbone 및 side-chain dihedral-angle distributions를 복원합니다.
따라서 LD-FPG는 large proteins를 위한 system-specific, all-atom ensemble generation에 대한 실용적인 경로를 제공하며, complex, dynamic targets에 대한 structure-based therapeutic design을 위한 유망한 도구를 제공합니다. D2R-MD dataset과 우리의 implementation은 추가 연구를 촉진하기 위해 무료로 제공됩니다.
1 Introduction
단백질은 dynamic molecular machines로서 기능하며, 그 생물학적 활성은 서로 다른 conformational states 간의 전이에 결정적으로 의존합니다. AlphaFold2 및 기타 방법들과 같은 획기적인 artificial intelligence methods는 structure prediction을 발전시켰지만, 주로 단일 static conformations를 예측하여 conformational heterogeneity를 가진 시스템에 대한 유용성을 제한합니다. 접근 가능한 conformations의 ensemble에 대한 정확한 modeling은 단백질 기능을 밝히고 therapeutic design을 안내하는 데 필수적입니다. 결정적으로, 이러한 ensembles는 모든 atomic details, 특히 미묘한 conformational rearrangements가 종종 molecular recognition 및 catalytic mechanisms를 지배하는 side chains를 명시적으로 나타내야 합니다.
빠른 발전에도 불구하고, 기존 generative models는 특정 단백질에 고유한 side-chain 움직임의 상세한 dynamics를 포착하는 데 자주 부족함을 보입니다. 많은 강력한 methodologies는 de novo backbone designs나 static all-atom structures 생성에 집중해 왔지만, 어느 쪽도 포괄적인 conformational ensembles를 생성하지 못합니다. Static predictors의 perturbations, flow-matched 변형 또는 일반적인 MD-trained generators를 통한 Ensemble-generating 접근 방식들은 일반적으로 backbone 또는 coarse-grained 수준에서 작동합니다. 결과적으로, 이들은 기능에 중요한 side chains를 포함한 복잡한 all-atom rearrangements를 포착하지 못합니다. 유망한 latent space 및 physics-informed models가 등장했지만, functional transitions를 반영하는 MD data로부터 high-resolution all-atom ensembles를 생성하는 능력은 아직 입증되지 않았으며, 이는 전문화된 generative frameworks에 대한 충족되지 않은 중요한 요구를 부각시킵니다.
**G protein-coupled receptors (GPCRs)**는 정밀한 all-atom modeling이 필수적인 dynamic systems의 설득력 있는 예시를 제공합니다. $800$명 이상의 인간 구성원을 포함하는 이 거대한 transmembrane receptors 제품군은 알려진 대부분의 transmembrane signal transduction을 매개하는 책임이 있으며, 시판되는 모든 약물의 약 $50%$가 이를 표적으로 합니다. GPCR signaling은 종종 ligand binding에 의해 유도되는 여러 상태 간의 conformational transitions를 포함하며, 특정 side-chain interactions가 중요한 복잡한 allosteric mechanisms를 통해 발생합니다. 이러한 dynamic하고 원자 수준으로 상세한 landscapes를 포착하는 것은 receptor signaling specificity, biased agonism, 그리고 고유한 allosteric sites를 표적으로 하는 약물 설계를 이해하는 데 필수적이지만, 이러한 사건들을 계산적으로 연구하는 것은 여전히 어렵습니다. GPCR dynamics에 대한 현재 예측 방법들은 기계론적 이해에 필수적인 포괄적인 all-atom conformational landscapes를 생성하지 않습니다.
이러한 중요한 요구 사항을 해결하기 위해, 우리는 side-chain details를 명시적으로 포함하여 표적 단백질의 기존 MD simulation data로부터 다양하고 all-atom conformational ensembles를 학습하고 생성하도록 설계된 generative framework인 **Latent Diffusion for Full Protein Generation (LD-FPG)**을 소개합니다. 새로운 trajectories를 시뮬레이션하는 대신, LD-FPG는 광범위한 MD datasets를 활용합니다. 우리의 접근 방식은 all-atom MD snapshots를 컴팩트한 latent representation으로 인코딩하기 위해 **Chebyshev Spectral Graph Convolutional Network (ChebNet)**를 사용합니다. 그런 다음 학습된 latent manifold를 탐색하기 위해 **Denoising Diffusion Probabilistic Model (DDPM)**이 trained되고, latent representations는 다시 전체 all-atom Cartesian coordinates로 디코딩됩니다. 우리는 인간 **dopamine D2 receptor (D2R)**의 광범위한 MD simulations에서 우리의 framework를 시연하고, 별도의 decoder pooling strategies를 체계적으로 평가합니다. 본 논문에서 우리의 주요 기여는 다음과 같습니다:
- 우리가 아는 한, MD simulations로부터 직접 backbone 및 side-chain dynamics를 모두 포착하여 완전한 all-atom protein conformational ensembles를 생성하도록 특별히 맞춤화된 최초의 latent diffusion modeling framework를 제시합니다.
- ChebNet과 별도의 decoder pooling strategies를 결합한 새로운 graph-based autoencoder architecture를 소개하고 비판적으로 평가하여, dynamic protein ensemble generation에 대한 통찰력을 제공합니다.
- D2R system을 사용하여 high-fidelity ensembles를 생성하는 우리 방법의 능력을 입증하고, residue-based pooling의 이점을 강조하며, 보조 dihedral loss terms가 generative accuracy에 미치는 영향을 평가합니다.
우리의 접근 방식은 switchable proteins의 복잡한 dynamics를 탐색하기 위한 계산적으로 효율적인 도구를 제공하여, 기초적인 기계론적 연구와 drug discovery 응용 모두를 지원합니다. 본 논문의 나머지 부분은 다음과 같이 구성됩니다: Section 2는 Related Work를 검토합니다; Section 3은 제안된 methodology를 자세히 설명합니다; Section 4는 experimental setup 및 results를 제시합니다; 그리고 Section 5는 우리의 발견을 요약하고 향후 방향을 개괄합니다.
Summary Notes: 1 Introduction
1. Motivation & Problem Definition
- Static vs. Dynamic: AlphaFold2와 같은 기존 SOTA 모델들은 단일 static conformation 예측에 치중하여, 단백질의 기능적 메커니즘(allostery, signaling)을 이해하는 데 필수적인 conformational heterogeneity를 반영하지 못함.
- Need for All-atom Detail: GPCRs와 같은 표적은 ligand binding이나 conformations 전이 과정에서 side-chain의 미세한 재배열이 결정적임. 그러나 기존 ensemble 생성 모델들은 backbone 위주이거나 coarse-grained 수준에 머물러 있어 side-chain dynamics를 놓치고 있음.
- Limits of Current Generative Models:
- 기존의 MD-trained generators, flow-matched variants 등은 comprehensive all-atom conformational landscapes를 생성하는 데 실패함.
- Latent space 모델이나 physics-informed models가 제안되었으나, MD data로부터 high-resolution all-atom ensembles를 생성하는 성능은 입증되지 않음.
2. Proposed Method: LD-FPG (Latent Diffusion for Full Protein Generation)
- Core Concept: 새로운 시뮬레이션을 수행하는 것이 아니라, 기존의 MD simulation data를 학습하여 다양하고 정밀한 all-atom conformational ensembles를 생성하는 Generative framework.
- Model Architecture Pipeline:
- Encoder: **Chebyshev Spectral Graph Convolutional Network (ChebNet)**를 사용하여 all-atom MD snapshots를 컴팩트한 latent representation으로 인코딩.
- Latent Space Modeling: 학습된 latent manifold를 탐색하기 위해 **Denoising Diffusion Probabilistic Model (DDPM)**을 적용.
- Decoder: Latent representations를 다시 all-atom Cartesian coordinates로 복원. 이때, 별도의 pooling strategies를 적용하고 dihedral loss terms를 보조적으로 활용.
- Target System: Human Dopamine D2 Receptor (D2R) MD 데이터셋을 활용하여 검증.
3. Key Contributions
- First of its kind: MD simulations로부터 직접 backbone과 side-chain dynamics를 모두 포함하는 완전한 all-atom protein conformational ensembles를 생성하는 최초의 latent diffusion modeling framework.
- Architecture Novelty: ChebNet 기반의 graph-based autoencoder와 다양한 decoder pooling strategies를 결합하여 dynamic protein ensemble generation에 최적화된 구조 제안.
- Performance: D2R system에서 high-fidelity ensembles 생성을 입증하며, 특히 residue-based pooling 전략의 유효성과 dihedral loss의 중요성을 확인.
쉬운 설명 : 1 Introduction
이 논문이 무엇을 하려는 것인지 비유를 들어 쉽게 설명해 드릴게요.
- 문제점 (사진 vs 동영상): 현재 가장 뛰어난 AI인 AlphaFold는 단백질의 **증명사진(정지된 하나의 구조)**만 아주 잘 찍어냅니다. 하지만 단백질은 실제로 춤을 추듯 계속 움직이며 모양을 바꾸는 기계입니다. 특히 약물 개발을 위해서는 뼈대(Backbone)만 움직이는 게 아니라 손가락(Side-chain)까지 어떻게 움직이는지 세밀하게 알아야 하는데, 기존 기술들은 이 손가락 움직임을 뭉뚱그리거나 무시했습니다.
- 해결책 (LD-FPG): 이 논문은 단백질이 움직이는 **동영상 데이터(MD simulation)**를 공부해서, 단백질이 취할 수 있는 다양한 자세들을 아주 정밀하게(원자 하나하나까지 다 포함해서) 만들어내는 AI를 제안합니다.
- 작동 원리:
- 단백질의 복잡한 구조를 **그래프 신경망(ChebNet)**으로 요약하고,
- **확산 모델(Diffusion Model, 그림 그려주는 AI와 같은 원리)**을 사용해서 다양한 움직임 패턴을 생성한 뒤,
- 다시 원래의 정밀한 3차원 원자 좌표로 복원해냅니다.
- 의의: 단순히 뼈대만 흉내 내는 것이 아니라, 실제 약물이 결합할 때 중요한 미세한 원자 단위의 움직임까지 모두 구현해내는 최초의 확산 모델 기반 프레임워크라는 점이 핵심입니다.
2 Related Work
Generative Models for Protein Design and Static Structure Prediction. Deep generative models는 protein science에서 상당한 진전을 이루었으며, 복잡한 구조적 과제를 해결하기 위해 diffusion, flow-matching, 그리고 learned latent spaces와 같은 기술을 사용했습니다. De novo backbone design의 경우, AlphaFold2와 같은 predictors와 RFdiffusion과 같은 diffusion-based 접근 방식의 성공에서 영감을 받은 다양한 방법들이 등장했습니다. 주목할 만한 예로는 FoldingDiff와 FoldFlow2와 같은 flow-matching models가 있습니다. Latent space 전략 또한 이 영역에서 중추적이었습니다; 예를 들어, LatentDiff는 응축된 latent space 내에서 equivariant diffusion model을 사용하여 새로운 protein backbones를 생성하는 반면, Ig-VAE는 class-specific backbone generation (예: immunoglobulins)을 위해 variational autoencoder를 활용합니다. 새로운 folds (예: Proteina)나 특정 구성 요소를 생성하는 데 강력하지만, 이러한 방법들은 일반적으로 soluble proteins를 대상으로 하며, 종종 backbone coordinates만 생성하고, 특정 기존 단백질의 여러 conformations를 sampling하도록 주로 설계되지 않았습니다. 완전한 static all-atom structures의 생성 또한 상당한 진전을 보였습니다. Protpardelle 및 Chroma와 같은 Models는 sequence 정보로부터 완전한 static structures를 생성할 수 있습니다. AlphaFold3 및 Boltz-1과 같은 Diffusion-based generative models 또한 all-atom structures 및 complexes에 대한 상세한 single-state predictions를 제공합니다. PLAID와 같은 다른 접근 방식은 predictors와 diffusion samplers를 통합합니다. Backbone 또는 static generation을 보완하기 위해, FlowPacker 및 SidechainDiff를 포함한 방법들은 side-chain packing 또는 예측에 중점을 둡니다. 그러나 이러한 도구들은 주로 단일 static structures를 산출합니다. 게다가 backbone과 side-chain generation을 분리하는 것은 우리 연구가 포착하고자 하는 conformational landscapes와 관련된 복잡한 dynamic transitions 동안의 중요한 상호 작용을 간과할 위험이 있습니다.
Modeling Protein Conformational Diversity: From General Strategies to MD-Informed Approaches. 단일 static structures를 넘어, 단백질의 conformational diversity를 포착하는 것은 그 기능을 이해하는 데 중요합니다. 이 다양성을 탐구하기 위한 초기 전략에는 실험 데이터베이스의 구조적 변형으로부터 학습하거나(예: Str2Str), GPCRs를 위한 AF2-RAVE 및 더 광범위하게는 AlphaFlow/ESMFlow에서 볼 수 있듯이 conformational space를 sample하기 위해 static predictions를 교란하는 것이 포함됩니다. 이러한 방법들이 sampling을 효과적으로 넓히지만, system-specific, native-like dynamics를 포착하는 것은 주어진 단백질의 접근 가능한 상태에 대한 더 풍부한 representation을 제공할 수 있는 simulation data에 대해 직접 trained된 models로부터 종종 이점을 얻습니다. 그러한 simulation-informed 접근 방식 중에서, latent space models는 가능성을 보여주었습니다. 예를 들어, soluble protein K-Ras의 MD snapshots 및 crystal structures에 대해 trained된 EnsembleVAE는 sampled latent features로부터 C$\alpha$ ensembles를 생성하며, 이후 RoseTTAFold에 의해 full-atom 그림이 생성됩니다. 유사하게, implicit solvent model을 사용한 **intrinsically disordered regions (IDRs)**의 광범위한 시뮬레이션에 대해 trained된 idpSAM은 all-atom representations로 변환될 수 있는 C$\alpha$ trace ensembles를 생성합니다. 이러한 접근 방식은 generative frameworks 내에서 simulation data를 활용하는 것의 힘을 보여주지만, 그 적용은 종종 특정 protein classes (예: soluble proteins, IDRs)에 집중되거나 최종 all-atom structures를 생성하기 위한 다단계 프로세스를 포함했습니다. MD simulations로부터 직접 ensembles를 학습하는 데 있어 추가적인 발전은 다양한 기술을 포괄합니다. 여기에는 ConfDiff (force-guided diffusion), P2DFlow (SE(3) flow matching), 및 MD-Gen (continuous trajectories)과 같은 방법들이 포함됩니다. BioEmu 및 **Distributional Graphormer (DiG)**와 같은 더 큰 규모의 models는 방대한 MD datasets 또는 equilibrium distributions로부터 학습하는 것을 목표로 하는 반면, EGDiff와 같은 실험적으로 유도된 접근 방식은 다양한 데이터 유형을 통합합니다. 종합적으로, 이러한 MD-informed methods는 protein dynamics를 modeling하는 데 있어 상당한 진보를 의미합니다. 그러나 특히 이러한 방법들이 일반적으로 적용되거나 매우 큰 datasets에 적용될 때 지속적인 과제는 system-specific details를 완전히 포착하는 high-resolution, all-atom ensembles의 일관된 생성입니다. 이는 functional transitions를 밝히는 데 필수적인 **G protein-coupled receptors (GPCRs)**를 위한 lipid membranes와 같은 native environments 내에서의 복잡한 side-chain rearrangements의 경우 특히 그렇습니다. 따라서 GPCRs와 같은 complex targets에 대해 관련 MD data로부터 이러한 구체적인 all-atom conformational landscapes를 직접 학습하고 sample할 수 있는 generative models의 개발은 여전히 중요한 개척지로 남아 있습니다.
Summary Notes: 2 Related Work
기존 단백질 생성 모델들의 흐름과 한계를 Static/Design, Diversity, MD-Informed 세 가지 관점에서 정리하고, 본 논문이 해결하고자 하는 Missing Link를 도출함.
1. Protein Design & Static Structure Prediction (Current SOTA)
- Trend: Diffusion (RFdiffusion, AlphaFold3), Flow-matching (FoldFlow2), Latent Space (LatentDiff) 기법이 주류.
- Limitations:
- Task Mismatch: 주로 새로운 단백질을 만드는 De novo design이나 Single static structure 예측에 집중됨. 특정 단백질의 다이내믹한 Conformational Ensemble을 생성하는 데는 부적합.
- Incomplete Representation: 대다수 모델이 Backbone 생성에 치중하거나, Side-chain을 별도로 생성(Decoupling)함. 이는 복잡한 전이 과정(Dynamic Transition)에서 필수적인 Backbone-Sidechain Interplay를 놓치는 원인.
2. Modeling Conformational Diversity (General Strategies)
- Perturbation Methods: AlphaFold와 같은 Static predictor에 노이즈를 주거나 변형을 가해 샘플링 범위를 넓히는 방식 (AF2-RAVE, AlphaFlow).
- Limitations: 샘플링은 넓힐 수 있으나, 실제 물리적 시뮬레이션 데이터(MD Simulation)에서 나타나는 System-specific하고 Native-like한 정밀한 다이내믹스를 포착하기엔 한계가 있음.
3. MD-Informed Approaches (Simulation-based)
- Latent Space Models: MD data를 학습에 활용하는 시도들 (EnsembleVAE, idpSAM, BioEmu).
- Limitations:
- Scope Restriction: 주로 Soluble proteins나 IDRs(비정형 영역) 같은 상대적으로 단순한 대상에 집중됨.
- Multi-stage Process: Latent space에서 C$\alpha$ (Backbone)만 먼저 생성한 뒤, 나중에 All-atom으로 변환하는 2단계 방식을 주로 사용. 즉, End-to-End All-atom generation이 아님.
4. The Gap & Goal (Key Differentiator)
- GPCRs와 같이 Lipid membrane 환경에 있는 복잡한 시스템은 기능적 전이를 설명하기 위해 Side-chain의 미세한 재배열이 필수적임.
- Current Gap: 방대한 MD 데이터를 학습하여, High-resolution이자 All-atom (Backbone + Side-chain 동시 생성)인 Ensemble을 Consistent하게 생성하는 모델은 부재함.
- Positioning: 본 연구는 이 빈틈을 메우기 위해 GPCRs 같은 복잡한 타겟의 Full Atomic Landscape를 직접 학습하고 생성하는 프레임워크임.
쉬운 설명 : 2 Related Work
이 섹션은 "왜 굳이 새로운 모델을 만들었나?" 에 대해 기존 기술들의 약점을 조목조목 반박하는 부분입니다.
- 기존 기술 1 (건축가형 AI): RFdiffusion이나 AlphaFold3 같은 최신 AI들은 건물의 설계도(새로운 단백질)를 그리거나, 건물의 사진(정지된 구조)을 찍는 데는 천재적입니다. 하지만 건물 안에서 사람들이 어떻게 움직이는지(동적인 변화)를 보여주지는 못합니다.
- 기존 기술 2 (졸라맨형 AI): 움직임을 흉내 내는 AI들도 있습니다. 하지만 이들은 대개 뼈대(Backbone)만 있는 '졸라맨'을 그리거나, 뼈대를 먼저 그리고 나중에 살(Side-chain)을 붙이는 식입니다. 이렇게 하면 뼈와 살이 유기적으로 움직이는 복잡한 동작을 놓치게 됩니다.
- 기존 기술 3 (단순한 것만 잘하는 AI): 실제 시뮬레이션 데이터를 공부한 AI들도 있지만, 물에 둥둥 떠다니는 단순한 단백질만 다루거나 하는 한계가 있습니다. 세포막에 박혀있는 복잡한 안테나(GPCR) 같은 건 어려워합니다.
- 우리의 목표: 우리는 **'졸라맨'이 아니라 '완전한 사람'**의 모습을, 그것도 단순한 배경이 아니라 복잡한 환경(세포막) 속에서 움직이는 모습을 한 번에 그려내는 AI가 필요합니다. 기존에는 이걸 완벽히 해내는 기술이 없었기에 우리가 만듭니다.
3 Methodology
LD-FPG framework (Fig. 1)는 reference structure인 $X_{\text{ref}}$에 대한 변형을 sample하는 것을 학습함으로써 특정 단백질의 다양하고 all-atom conformational ensembles를 생성합니다. 우리의 접근 방식은 단백질 conformations를 이러한 변형을 나타내는 atom-wise latent embeddings로 매핑하기 위해 encoder (Section 3.2)를 사용합니다. 이러한 high-dimensional embeddings는 compact latent representation인 $h_0$를 생성하기 위해 pooling strategy (Section 3.3에서 상술)에 의해 처리됩니다. Diffusion model (Section 3.4)은 이 lower-dimensional pooled latent space를 sample하도록 trained됩니다. 마지막으로, $X_{\text{ref}}$ (Section 3.2의 Conditioning Mechanism 참조)에서 파생된 reference 정보에 conditioned된 decoder (Section 3.3)가 이렇게 sampled된 pooled latents를 다시 full all-atom Cartesian coordinates로 매핑합니다. 이 전략은 알려진 fold 주변의 dynamic 변화를 학습하는 데 집중함으로써 generation을 단순화합니다. Appendix A는 본 연구 전체에서 사용된 전체 알고리즘과 표기법을 상세히 설명합니다. 각 구성 요소에 대한 추가적인 방법론적 세부 사항은 input representation에서 loss definitions에 이르기까지 Appendix B부터 E에 걸쳐 제공됩니다. 모든 특정 architectural parameters, model configurations, 그리고 hyperparameter optimization scans는 Extended Technical Appendix (Appendix I)에 통합되어 있습니다.
3.1 Input Representation and Preprocessing
각 MD snapshot $t$는 graph $G^{(t)} = (V, E^{(t)})$로 표현되며, 여기서 node set $V$는 $N$개의 heavy atoms를 구성하고 node features는 그들의 3D coordinates $X^{(t)} \in \mathbb{R}^{N \times 3}$입니다. 각 frame에 대해, edge index $E^{(t)}$는 aligned coordinates $X^{(t)}$에 $k=4$로 k-Nearest Neighbors search를 적용하여 즉석에서 구축됩니다 (Extended Technical Appendix I 참조). Node positions는 input features와 regression targets 모두로 사용됩니다. Graph construction 이전에, raw MD coordinates $\tilde{X}^{(t)}$는 global rotation 및 translation을 제거하기 위해 Kabsch algorithm을 사용하여 첫 번째 frame에 rigid-body aligned됩니다.
3.2 Latent learning of conformations
Multi-hop encoding: 각 MD frame $t$에 대해, encoder $\Theta$는 Kabsch-aligned heavy-atom coordinates $X^{(t)}$와 그들의 k-NN graph $E^{(t)}$를 latent embeddings $Z^{(t)} \in \mathbb{R}^{N \times d_z}$로 매핑하며, 이는 heavy atom당 하나의 $d_z$-dimensional vector입니다. 우리는 $\Theta$를 $K=4$차 Chebyshev polynomials를 사용한 spectral graph convolutions를 수행하는 4-layer ChebNet으로 구현합니다:
여기서 $H^{(l)} \in \mathbb{R}^{N \times F_l}$은 layer $l$에서의 node features ($H^{(0)} = X^{(t)}$), $\tilde{L}$은 scaled graph Laplacian, $T_k(\cdot)$는 $k$-th Chebyshev polynomial, $\Theta^{(l)}k \in \mathbb{R}^{F_l \times F{l+1}}$은 learnable weights, 그리고 $\sigma$는 Leaky/ReLU non-linearity를 나타냅니다. 각 layer 다음에는 BatchNorm이 따르며, final output은 atom별로 L2-normalised되어 $Z^{(t)}$를 산출합니다. Embedding dimension $d_z$는 tuned되었으며; 최적의 균형점은 blind pooling의 경우 $d_z=16$, sequential pooling의 경우 8, residue pooling의 경우 4에서 얻어졌습니다.
Conditioning Mechanism: 생성된 각 conformation은 reference structure의 변형으로 표현됩니다: 첫 번째 Kabsch-aligned MD frame, $(X_{\text{ref}}, E_{\text{ref}})$. Raw Cartesian coordinates에 conditioning하는 대신, 우리는 decoder에 reference의 latent representation $C = Z_{\text{ref}} = \Theta^(X_{\text{ref}}, E_{\text{ref}})$를 입력하며, 여기서 $\Theta^$는 frozen, pre-trained encoder parameters를 나타냅니다. 이 embedding은 3-D geometry와 graph topology 모두를 간결하게 요약하며, ablation studies에서 $X_{\text{ref}}$를 직접 사용하는 것보다 성능이 뛰어났습니다. Generation 시에는 $C$를 batch 내의 모든 sample에 복사하여 $C_{\text{ex}}$를 만듭니다; 그러면 diffusion model은 이 공통 reference로부터의 atomic displacements만을 예측합니다. 이는 학습을 단순화하고 sampled conformations 모두가 동일한 chemical frame에 고정되도록 보장합니다.
3.3 Decoder Architectures and Pooling Strategies
Decoder는 atom-wise latent embeddings $Z^{(t)} \in \mathbb{R}^{N \times d_z}$ ($X_{\text{ref}}$로부터의 conformational deformations를 나타내며, Section 3.2에 설명된 encoder에 의해 출력됨)와 conditioner $C \in \mathbb{R}^{N \times d_c}$를 all-atom coordinates $X_{\text{pred}} \in \mathbb{R}^{N \times 3}$로 매핑합니다. 이러한 $Z^{(t)}$ embeddings는 정보가 풍부하지만(Section 4.2에서 입증됨), 높은 차원(예: $d_z=16$인 D2R의 경우 최대 35k) 때문에 diffusion model의 input으로 직접 사용하기에는 계산적으로 어렵습니다. 따라서, $Z^{(t)}$는 pooling strategy를 통해 훨씬 더 compact latent representation인 $h_0$ (Blind 및 Sequential 전략의 경우 일반적으로 $d_p \approx 60-100$)로 처리되며, 이는 diffusion model (Section 3.4)의 기질 역할을 합니다. 예비 실험에서 $d_p > 200-300$은 diffusion training을 방해하고(blind 및 sequential의 경우), $d_p < 50$은 reconstruction quality를 저하시키는 것으로 나타났으므로 이러한 압축은 매우 중요합니다. 따라서 LD-FPG의 효능은 유익하면서도 compact한 $h_0$를 생성하는 pooling strategy의 능력에 달려 있습니다. 우리는 세 가지 전략을 조사합니다: Blind pooling, sequential pooling, 그리고 residue-based pooling.
Blind pooling: Atom-wise embeddings는 2D adaptive average pooling $P_{\text{global}}$ ($Z^{(t)}$를 $N \times d_z$ 크기의 image-like tensor로 reshaping)을 사용하여 모든 $N$ atoms에 걸쳐 globally pooled되어, batch 내 sample당 하나의 context vector $z_{\text{global}} \in \mathbb{R}^{d_p}$를 산출합니다 (여기서 $d_p = H \times W$는 pooling dimensions). 이 global vector는 각 atom에 대해 타일링되고 해당 broadcast conditioner vector $C^{(i)}$와 연결되어, 모든 atom coordinates $X_{\text{pred}}$를 동시에 예측하는 shared MLP인 $\text{MLP}{\text{blind}}$의 input $M^{(i)}{\text{in}}$을 형성합니다.
Sequential pooling: Decoding은 두 단계로 나뉩니다. BackboneDecoder는 먼저 $Z^{(t)}$와 $C$를 처리하여 backbone coordinates $X_{\text{bb}}$를 출력합니다. 이는 일반적으로 backbone-specific embeddings를 pool하여 backbone context를 형성합니다. 그 후, SidechainDecoder는 $Z^{(t)}$, $C$, 그리고 예측된 $X_{\text{bb}}$를 사용하여 side-chain coordinates $X_{\text{sc}}$를 예측합니다. 이 단계는 종종 sidechain-specific embeddings를 pooling하고 이를 backbone 정보 및 conditioner의 일부와 결합하여 MLP를 위한 features를 형성하는 것을 포함합니다. 최종 구조는 $X_{\text{pred}} = [X_{\text{bb}} \parallel X_{\text{sc}}]$입니다. 세 가지 SidechainDecoder 변형(arch-types 0–2)은 sidechain prediction MLP를 위한 다양한 feature 구성을 탐색합니다.
Residue-based pooling: 이 전략은 conformational changes를 $X_{\text{ref}}$에 상대적인 residue-level deformations로 모델링합니다. 각 residue $R_j$에 대해, 구성 atom embeddings $Z^{(t)}_{R_j}$ (전체 atom-wise deformations $Z^{(t)}$의 subset)는 $Z_{\text{ref}}$에 의해 암시적으로 제공되는 reference state로부터의 특정 deformation을 나타냅니다. 이러한 $Z^{(t)}{R_j}$는 $P{\text{res}}$를 통해 local context vector $z_{\text{res},j} \in \mathbb{R}^{d_p}$로 pooled되며, 이는 residue $R_j$의 deformation을 요약합니다. 각 atom $i$ (residue $R_{f(i)}$ 내)는 $z_{\text{res},f(i)}$를 자신의 reference latent $C^{(i)}$ ($Z_{\text{ref}}$로부터)와 연결하여 coordinate prediction을 위한 $\text{MLP}_{\text{res}}$의 input으로 받습니다. 따라서 decoder는 reference에 상대적인 residue-specific deformations의 요약으로부터 atom positions를 재구성합니다.
3.4 Latent Diffusion Model for Generation
**Denoising Diffusion Probabilistic Model (DDPM)**은 선택된 decoder pooling strategy에서 파생된 pooled latent embeddings $h_0$에 대해 작동합니다. 이 model은 forward diffusion process 동안 추가된 noise $\epsilon$을 예측하도록 trained됩니다. 이 학습은 표준 DDPM loss function인 $\mathcal{L}_{\text{diffusion}}$ (Eq. 2)을 최소화합니다. 새로운 latent representations $h^{\text{gen}}_0$은 학습된 denoising network를 reverse diffusion process에 반복적으로 적용하여 sampled됩니다.
3.5 Loss Functions
LD-FPG framework는 encoder와 decoders를 학습시키기 위해 일련의 MSE-based losses를 사용합니다. Pre-trained encoder $\Theta$는 coordinate reconstruction MSE ($\mathcal{L}_{\text{HNO}}$)를 최소화하는 반면, 모든 decoders는 coordinate accuracy에 집중합니다: Blind pooling은 $\mathcal{L}_{\text{coord}}$로 시작하며, **fine-tuned**될 경우 weighted composite $\mathcal{L}_{\text{Dec}} = w_{\text{base}}\mathcal{L}_{\text{coord}} + \lambda_{\text{mse}}\mathcal{L}^{\text{mse}}_{\text{dih}} + \lambda_{\text{div}}\mathcal{L}^{\text{div}}_{\text{dih}}$를 적용합니다 (후자의 두 dihedral terms는 이 전략에만 확률적으로 사용됨). Residue-based Pooling은 $\mathcal{L}_{\text{Dec}} = \mathcal{L}_{\text{coord}}$를 사용하고, Sequential Pooling은 별도의 MSE losses $\mathcal{L}_{\text{BB}}$ 및 $\mathcal{L}_{\text{SC}}$를 통해 backbone 및 sidechain predictions를 두 단계로 최적화합니다.
Summary Notes: 3 Methodology
이 섹션은 LD-FPG가 어떻게 방대한 MD 데이터를 압축하여 학습하고, 다시 정밀한 3D 구조로 복원하는지에 대한 기술적 세부 사항을 다룹니다. 핵심은 Deformation Learning과 Graph-based Latent Compression입니다.
1. Core Framework: Deformation-based Generation
- Key Idea: 처음부터 좌표를 생성하는 것이 아니라, 기준 구조(Reference Structure, $X_{\text{ref}}$)로부터의 **변형(Deformation)**을 학습함.
- Process: Encoder $\rightarrow$ Pooling $\rightarrow$ Diffusion $\rightarrow$ Decoder.
- Conditioning: Decoder는 Raw Coordinate 대신 Pre-trained Encoder가 $X_{\text{ref}}$를 인코딩한 잠재 벡터 $C = Z_{\text{ref}}$를 조건(Condition)으로 사용함. 이는 단순 좌표보다 3D Geometry와 Graph Topology 정보를 더 잘 보존함.
2. Input Representation & Encoder (ChebNet)
- Input: 각 MD 프레임 $t$를 그래프 $G^{(t)}$로 표현. (Node: Heavy atoms, Feature: 3D coordinates).
- Graph Construction: Kabsch 알고리즘으로 Rigid-body Alignment 후, $k=4$인 k-NN graph를 매 프레임 동적으로 생성.
- Encoder Architecture: 4-layer Chebyshev Spectral Graph Convolutional Network (ChebNet) 사용.
- 수식: $H^{(l+1)} = \sigma (\sum \Theta_k T_k(\tilde{L}) H^{(l)})$
- Output: Atom-wise embedding $Z^{(t)}$. (Atom 당 차원 $d_z$는 4~16으로 튜닝됨).
3. Dimensionality Reduction: Pooling Strategies (Critical)
- Challenge: Atom-wise embedding($Z^{(t)}$)은 차원이 너무 커서(약 35k dim), Diffusion Model에 바로 넣기 불가능. $d_p \approx 60-100$ 수준으로 압축 필요.
- Strategies Comparison:
- Blind Pooling: 모든 원자 정보를 하나의 Global vector로 평균(Avg pooling). 구조적 디테일 손실 가능성 큼.
- Sequential Pooling (2-Stage):
- BackboneDecoder가 먼저 뼈대 생성.
- SidechainDecoder가 Backbone 정보를 받아 곁사슬 생성.
- Residue-based Pooling (Main Method):
- 단백질의 Residue(잔기) 단위로 정보를 묶어서(Pooling) Local context vector $z_{\text{res}}$ 생성.
- Decoder는 이 잔기별 벡터와 Reference 정보를 결합하여 해당 잔기에 속한 원자들의 좌표를 예측.
- 생물학적 계층 구조(Residue $\rightarrow$ Atom)를 반영한 가장 효과적인 전략.
4. Diffusion & Loss Functions
- Diffusion Model: 압축된 Latent $h_0$ 공간에서 표준 DDPM을 수행하여 노이즈 $\epsilon$ 예측.
- Training Objectives:
- Encoder: Coordinate Reconstruction MSE ($L_{\text{HNO}}$).
- Decoder: 기본적으로 Coordinate MSE ($L_{\text{coord}}$).
- Auxiliary Losses: Blind Pooling의 경우 Dihedral angle 관련 Loss ($L_{\text{dih}}$)를 추가하여 구조적 일관성 보정. Sequential은 Backbone과 Sidechain에 대해 별도 MSE 적용.
쉬운 설명 : 3 Methodology
이 섹션은 "어떻게 수천 개의 원자를 효율적으로 다루면서도 미세한 움직임을 놓치지 않을까?" 에 대한 기술적인 해답입니다.
- 핵심 전략 (따라 하기): AI에게 "백지에서 단백질을 그려봐"라고 하지 않습니다. 대신 "이 **기준 모델(Reference)**에서 **얼마나 비틀어졌는지(Deformation)**만 배워"라고 가르칩니다. 이렇게 하면 학습이 훨씬 쉬워지고 구조가 망가질 확률이 줄어듭니다.
- 압축의 기술 (Pooling): 단백질은 원자가 너무 많아서 그 정보를 다 그대로 쓰면 AI가 과부하(계산 불가)에 걸립니다. 그래서 정보를 압축해야 하는데, 여기서 세 가지 방법을 실험합니다.
- 무식하게 뭉치기 (Blind): 전체를 그냥 하나로 뭉뚱그립니다. (디테일이 떨어짐)
- 순서대로 하기 (Sequential): 척추(Backbone) 먼저 만들고 팔다리(Side-chain)를 붙입니다.
- 부위별로 나누기 (Residue-based - 최고 성능): 마치 '레고 블록'처럼, 원자들을 '아미노산' 단위로 묶어서 정보를 처리합니다. "100번 아미노산은 오른쪽으로 휨" 같은 식으로 부위별 요약 정보를 만든 뒤 다시 원자 위치를 계산하는 방식입니다.
- 지도 읽는 법 (Conditioning): AI가 그림을 그릴 때, 그냥 3차원 좌표를 참고하는 게 아니라, Encoder라는 특수 안경을 통해 본 '구조적 특징(Topology)'을 참고해서 그립니다. 이게 더 정확한 지도가 됩니다.
주인장 이해
준비물
PDB 파일 : 모델링하고 싶은 단백질의 가장 대표적인 원자 단위 3D 좌표
MD Trajectory : 원자 단위의 좌표가 기록된 데이터!
GROMACS라는 시뮬레이션 프로그램을 돌려서 2μs 길이의 데이터를 직접 생성했다고 나옴
필수 준비물: Topology File (보통 .psf, .prmtop, .tpr 등)
내용: "1번 탄소는 2번 질소랑 연결됨", "3번이랑 4번은 이중 결합임"
PDB 파일: Residue 1 (ALA) - Atom CA (알파탄소)
Topology 파일: Residue 1 (ALA) - Atom CA는 Residue 1 - Atom C와 연결됨.
step1 그래프 만들기
단백질의 모든 헤비아톰 하나하나가 그래프의 노드가 된다.
그 내부엔 아톰의 좌표가 기록됨
연결은 토폴로지 파일을 보고 연결.
knn 같은 알고리즘을 써서 근처에 있는 애들끼리 또 연결
step2 피쳐화
ChebNet 모델을 사용해서 k=4를 통해 주변 정보를 섞어서 자기자신 강화
이를 4번 반복
"모든 정보를 다 보는 건 아니고(Self-Attention 아님), 연결된 이웃(지역적 정보)만 봐서 자기 자신을 강화(Feature Update)하는 느낌!"
step3 압축
Residue-based Pooling (★ 이 논문의 핵심!)
방법: "다 섞지 마! 아미노산(Residue) 별로 따로따로 묶어!"
결과: 아미노산 개수(273개)만큼의 벡터들이 나옴
step 3.5 디코더
압축된걸 보고 다시 복원
첫번째 프레임인 기준구조에서 얼마나 이동해야할지만 예측
step4 diffusion
h제로가 우리가 만든 풀링 피쳐이고
ht가 t번째 노이즈 스텝이라는거군
latent diffusion 모델 활용해서 노이즈를 벗겨내는걸 학습을 한다는거군
그 후에 엄청 뽑아서 많은 경우를 만들고 같은 단백질에 대해선 움직임을 알 수 있게 됨
