AI바라기의 인공지능
단백질 : 논문 리뷰 : STRUCTURE LANGUAGE MODELS FOR PROTEIN CONFORMATION GENERATION 본문
단백질 : 논문 리뷰 : STRUCTURE LANGUAGE MODELS FOR PROTEIN CONFORMATION GENERATION
AI바라기 2025. 4. 16. 16:17쉬운 설명
이 논문의 핵심 아이디어는 복잡한 3D 단백질 구조를 직접 다루는 대신, 마치 단백질 구조의 특징적인 모양들을 나타내는 '구조 알파벳'(Latent Token)을 만들고, 주어진 아미노산 서열 정보(문맥)에 맞춰 이 '구조 알파벳'들로 '구조 문장'(Latent Token Sequence)을 쓰는 Language Model을 학습시키는 것과 유사합니다. 이렇게 생성된 '구조 문장'을 다시 3D 구조로 번역(Decoding)함으로써, 복잡한 3D 공간에서의 직접적인 계산을 피해 훨씬 빠르고 효율적으로 다양한 단백질 형태(Conformation)를 생성할 수 있게 됩니다.
Structure Language Models for Protein Conformation Generation 연구 노트
Purpose of the Paper
- 기존 단백질 구조 생성 방식들의 한계점 극복:
- Molecular Dynamics (MD) 시뮬레이션: 높은 계산 비용 및 느린 속도.
- 3D Diffusion Models: 3D Euclidean 공간에서의 직접적인 모델링으로 인한 계산 복잡성, Equivariance 제약 조건, 학습/추론 비효율성, Local Perturbation 위주 학습 경향 (원거리 Conformation Mode 포착 어려움).
- 새로운 접근 방식 제시: 단백질 구조를 Discrete Latent Space로 인코딩하고, 이 Latent Space 상에서 Language Modeling을 통해 Conformation 분포를 학습 및 생성하는 Structure Language Modeling (SLM) 프레임워크 제안. 3D 공간에서의 직접적인 생성을 피해 효율성과 확장성을 높이고자 함.
Key Contributions & Novelty
- SLM Framework 제안 (Contribution & Novelty):
- 단백질 3D 구조를 Discrete Variational Auto-Encoder (dVAE)를 사용해 이산적인 Latent Token (구조 토큰) 시퀀스로 인코딩. (Novelty: 구조 정보를 3D 좌표가 아닌 이산적인 '구조 언어'로 변환)
- Amino Acid Sequence를 조건(Condition)으로 받아, 해당 단백질의 Conformation 분포를 나타내는 Latent Token 시퀀스의 분포 p_theta(z|c)를 Conditional Language Model로 학습. (Novelty: Conformation 생성을 Sequence-to-Sequence 번역 문제처럼 접근)
- 학습된 LM을 통해 Latent Token을 샘플링하고, dVAE Decoder p_psi(x|z, c)를 이용해 3D 구조로 복원. (Novelty: 복잡한 3D 생성 과정을 LM 샘플링 + 고정된 Decoder로 분리하여 효율화)
- ESMDiff 모델 개발 (Contribution & Novelty):
- SLM 프레임워크의 구체적인 구현체로, 사전 훈련된 대규모 단백질 LM인 ESM3를 활용.
- ESM3를 Masked Discrete Diffusion 목적 함수(Objective)를 사용해 Fine-tuning하여 Conditional Language Model p_theta(z|c) (Prior) 역할을 하도록 함. (Novelty: 대규모 Protein LM을 Conformation 생성을 위한 Prior 학습에 Masked Diffusion 방식으로 적용)
- 효율적인 Conformation 생성 (Contribution):
- 기존 Diffusion 기반 모델 대비 20-100배 빠른 추론 속도 달성. (Novelty: Latent Space에서의 LM 기반 샘플링으로 인한 속도 향상)
Experimental Highlights
- Datasets & Tasks: BPTI 평형 동역학(Equilibrium Dynamics), Conformation 변화 쌍(Conformational Change Pairs - Apo/Holo, Fold-switching), IDPs (Intrinsically Disordered Proteins) 구조 앙상블 생성.
- Metrics: JS-Divergence (PwD, TIC, Rg), Validity, TM-ens, RMSD-ens, MAE (IDP), ResFlex Correlation, Runtime.
- Baselines: MSA-Subsampling, AlphaFlow, EigenFold, Str2Str, ESMFlow, idpGAN 등.
- Key Results:
- BPTI: SLM (특히 ESMDiff) 모델들이 JS-Divergence, TM-ens, RMSD-ens 등 다양한 지표에서 Baseline들과 경쟁력 있거나 우수한 성능을 보임 (Table 1). 특히 ESMDiff는 어려운 원거리 상태 (Cluster 3)도 상대적으로 잘 포착함 (Table 2).
- IDPs: SLM 모델들 (ESM3 zero-shot, ESMDiff)이 낮은 MAE를 보여 IDP의 유연한 앙상블 특성을 잘 포착함을 시사함 (Table 4). ESMDiff의 Contact Map 예측 정확도도 우수함.
- Runtime: SLM 모델들이 Diffusion 기반 모델 (e.g., AlphaFlow) 보다 단백질 길이에 따라 20-100배 빠른 추론 속도를 보임 (Figure 5). 이는 SLM의 핵심 장점.
- Conformational Pairs: MSA 기반 방법들이 강세를 보였으나, SLM (ESMDiff)도 준수한 성능 기록 (Table 3).
- Case Study (Inpainting): ESMDiff가 Round-trip Diffusion 방식을 통해 Nanobody의 CDR loop 구조 Inpainting 작업에 효과적임을 보임 (Figure 6).
Limitations and Future Work
- dVAE Architecture: 구조 정보의 Disentanglement와 Reconstruction Fidelity 간의 균형을 맞추는 더 발전된 dVAE 구조 설계 필요. 현재 dVAE가 일부 데이터셋에서 Reconstruction 오류가 발생할 수 있음 (Appendix F).
- Latent Space: Discrete Latent Space 외에 Continuous Latent Space (e.g., Latent Diffusion Model 활용) 탐색 가능성.
- SLM Instances: Sequence-to-structure 변환에 더 특화된 Inductive Bias를 고려한 다른 SLM 모델 구조 탐색.
- Modality Expansion: 단백질 Side chains, Ligand, RNA 등 다른 분자 정보를 함께 모델링하는 Atomic Structural Auto-encoder 개발.
- MSA Conditioning: MSA 기반 방법들의 우수한 성능을 고려할 때, MSA 정보를 SLM에 통합하는 연구의 잠재력.
Overall Summary
이 논문은 단백질 Conformation 생성을 위해 Structure Language Modeling (SLM)이라는 새로운 프레임워크를 제안한다. SLM은 dVAE를 통해 3D 구조를 이산적인 Latent Token으로 변환하고, 이 Latent Space 상에서 조건부 Language Model (ESMDiff 등)을 학습하여 Conformation 분포를 모델링한다. 이 접근 방식은 기존 3D 공간 기반 방법들의 계산 비효율성을 극복하고, 다양한 벤치마크에서 경쟁력 있는 성능과 함께 20-100배 빠른 추론 속도를 달성하여 효율적인 단백질 Conformation 생성 연구의 새로운 방향을 제시한다.
ABSTRACT
단백질은 다양한 생물학적 기능을 수행하기 위해 여러 구조적 conformation을 채택하며, 이러한 conformation을 이해하는 것은 신약 개발 발전에 중요합니다. 전통적인 물리 기반 simulation 방법은 종종 평형 conformation을 sampling하는 데 어려움을 겪고 계산 비용이 많이 듭니다.
최근 deep generative models는 단백질 conformation을 생성하는 보다 효율적인 대안으로서 가능성을 보여주었습니다. 그러나 이러한 방법들은 주로 3D geometric space 내의 diffusion process에 의존하며, 이는 일반적으로 준안정 상태 주변에 집중되어 있고 runtime 측면에서 비효율적인 경우가 많습니다.
본 논문에서는 효율적인 단백질 conformation generation을 위한 새로운 framework로 Structure Language Modeling (SLM)을 소개합니다. 구체적으로, 단백질 구조는 먼저 discrete variational auto-encoder를 사용하여 압축된 latent space로 encoding된 다음, sequence-specific conformation 분포를 효과적으로 포착하는 conditional language modeling이 이어집니다. 이는 기존 방법에 비해 다양한 ensemble modes에 대한 보다 효율적이고 해석 가능한 탐색을 가능하게 합니다.
이 일반적인 framework를 기반으로, 우리는 다양한 인기 있는 LM architectures로 SLM을 구체화하고, ESM3에서 masked diffusion으로 fine-tuned된 새로운 BERT-like structure language model인 ESMDiff를 제안합니다. 우리는 BPTI의 평형 dynamics, conformational change pairs, 그리고 내재적으로 무질서한 단백질을 포함한 다양한 시나리오에서 우리의 접근 방식을 검증합니다.
SLM은 다양한 conformation을 generating하는 데 있어 기존 방법보다 20-100배 빠른 속도를 제공하는 매우 효율적인 솔루션을 제공하며, 향후 연구에 대한 유망한 길을 제시합니다.
1 INTRODUCTION
단백질 구조 dynamics는 단백질의 생물학적 기능을 이해하는 데 근본적입니다. 단백질이 여러 conformation을 채택하는 능력은 다른 생체 분자 및 환경과의 상호 작용에 영향을 미치는 기능에 중요합니다. molecular dynamics (MD) simulations와 같은 전통적인 computational 방법들은 오랫동안 이러한 dynamics를 탐색하는 데 사용되어 왔습니다. 그러나 이러한 방법들은 계산 비용이 많이 들고 시간이 많이 소요됩니다. AlphaFold 2와 RosettaFold 같은 Structure prediction models는 정적 단백질 구조를 예측하는 데 상당한 진전을 이루었지만, 종종 단백질의 동적 특성과 여러 conformation을 정확하게 포착하는 데 실패합니다.
최근에는 복잡한 단백질 conformational space를 효율적으로 탐색하기 위해 generative models를 채택하여 상당한 진전이 있었습니다. 예를 들어, 한 연구에서는 simulation data로부터 학습하여 기저의 Boltzmann distribution에 맞추기 위해 normalizing flow를 채택했습니다. 잠재력에도 불구하고, normalizing flow-based methods는 수백 개의 아미노산을 가진 큰 단백질 시스템을 modeling하는 데 어려움을 겪는데, 이는 model parameters를 확장할 때 가역성 제약(invertibility constraint)이 주요 장애물이 되기 때문입니다. 이에 대한 해결책으로, denoising diffusion은 structural data로부터 효율적으로 학습하고, 좋은 generalization을 달성하며, amortized inference를 수행할 수 있습니다. 그러나 high-dimensional 단백질 구조를 3D Euclidean space에서 명시적으로 modeling하는 것은 많은 computation을 요구할 수 있으며 일반적으로 특별한 equivariant properties를 고려해야 합니다. 더욱이, denoising score matching과 같은 L2-based training objectives는 alternative conformations의 원거리 modes를 포착하기보다는 local perturbations를 예측하는 경향이 있습니다. 결과적으로, 이러한 models는 training data 내의 structural noises를 학습하는 데 capacity를 과도하게 할당하고, low-frequency 구조 변화에 집중하지 못할 수 있습니다.
기존 접근 방식들을 보완하여, 우리는 단백질 구조의 latent space에서 generative modeling을 수행하는 단백질 conformation generation을 위한 새로운 framework인 Structure Language Modeling (SLM)을 제시합니다. protein representation learning을 위한 structural vocabularies 개발의 최근 진전에 영감을 받아, 우리의 접근 방식은 먼저 Fig. 1에 설명된 것처럼 discrete variational autoencoder를 사용하여 구조적 유연성을 latent tokens에 대한 분포로 encoding합니다. discrete latent encoding은 단백질 구조의 high-frequency 세부 정보를 제거하여 복잡한 단백질 conformation의 uncertainty를 효과적으로 포착하는 “structure languages”를 형성합니다 (Fig. 2a). 그런 다음 이러한 latent structure tokens에 conditional language modeling이 적용되며, amino acid types를 context로 사용하여 sequence-specific conformation distributions을 포착합니다 (Fig. 2b). 마지막으로 단백질 conformation은 학습된 decoder를 사용하여 structure tokens를 3D space로 mapping하여 reconstructed될 수 있습니다 (Fig. 2c). discrete latent space에서 generative language modeling을 활용함으로써 SLM은 geometric symmetries와 관련된 equivariant constraints의 복잡성을 우회하고 향상된 model capacity의 이점을 얻습니다. 일반적인 framework로서 SLM은 기존의 모든 language model (LM) architectures와 완벽하게 호환되며 유망한 scalability를 보여줍니다. 우리 접근 방식의 다용성을 더욱 입증하기 위해, 우리는 SLM framework에 기반한 masked discrete diffusion을 사용하여 ESM3로부터 fine-tuned된 새로운 BERT-like structure language model instantiation인 ESMDiff를 소개합니다. 다양한 conformation generation 시나리오에 걸친 실험 결과는 대표적인 ESMDiff model을 포함한 SLM의 state-of-the-art performance를 보여주며, 기존 generative methods에 비해 훨씬 빠른 속도를 달성합니다. 제안된 framework는 단백질 conformation sampling 문제를 해결하는 데 있어 새로운 연구 방향을 제시합니다.
우리의 주요 기여는 다음과 같이 요약됩니다.
- latent space에서의 language modeling에 기반한 혁신적인 conformation generation framework를 포괄적으로 탐색하여 잠재적인 연구 방향을 열었습니다.
- masked discrete diffusion을 기반으로 구축된 state-of-the-art protein language model의 새로운 fine-tuned 변형인 ESMDiff를 소개합니다.
- 다양한 conformation generation 설정에서 structure language models를 평가하고 기존 방법과 비교하여 우수한 능력을 입증합니다.
AI 연구자를 위한 Introduction 정리 노트 (SLM 논문)
핵심 문제:
- 기존 단백질 conformation generation 방법론(MD simulation, Normalizing Flow, 3D Diffusion)의 한계점 명확화:
- MD: Computationally expensive, 느린 sampling.
- Static Predictors (AlphaFold2 등): Dynamics 및 multiple conformations 포착 실패.
- Normalizing Flows: Large protein system에서 invertibility constraint로 인한 scalability 문제.
- 3D Diffusion Models: High-dimensional Euclidean space에서의 높은 computation 비용, equivariance 처리 요구, L2-based objective (e.g., score matching)가 local perturbations 위주로 학습하여 alternative conformation의 remote modes 포착 어려움 (low-frequency 변화보다 structural noise 학습에 capacity 편중 가능성).
제안된 솔루션: Structure Language Modeling (SLM) Framework
- 핵심 아이디어: 3D 공간 대신 discrete latent space에서 conformation generation 수행.
- Encoding: Discrete VAE를 사용하여 protein structure (structural flexibility 포함)를 compact discrete latent tokens 분포로 encoding. (High-frequency detail 제거, "structure language" 형성)
- Modeling: Amino acid sequence 정보를 context로 사용하여, latent structure tokens에 conditional language modeling 적용. 이를 통해 sequence-specific conformation distributions 학습 및 생성. (다양한 LM architecture 호환 가능)
- Decoding: 학습된 decoder를 통해 생성된 latent tokens sequence를 3D structure로 reconstruction.
- 주요 장점:
- 3D space modeling의 복잡성 (e.g., equivariant constraints) 회피.
- 기존 강력한 LM architecture 및 scalability 활용 가능.
- Discrete latent space 작업으로 low-frequency (large-scale) 구조 변화 포착에 유리할 가능성.
- 기존 generative methods 대비 높은 효율성 (속도 향상).
- 구체적 구현 예시: ESMDiff
- SOTA protein LM (ESM3) 기반 BERT-like structure language model.
- SLM framework 내에서 masked discrete diffusion을 사용하여 fine-tuning.
- Contributions:
- Latent space language modeling 기반의 새로운 conformation generation framework (SLM) 제안.
- SLM 기반의 masked discrete diffusion을 활용한 ESMDiff 모델 구현.
- 다양한 generation task에서 기존 방법 대비 SLM의 우수성 (SOTA performance, 속도) 입증.
쉬운 설명: Introduction 섹션 요약
단백질은 우리 몸에서 정말 중요한 일을 하는 일꾼인데, 정해진 모양 하나만 가진 게 아니라 기능을 수행하기 위해 여러 가지 모습(conformation)으로 변신할 수 있어요. 이 다양한 모습을 아는 게 신약 개발 같은 데 아주 중요하죠.
문제는: 기존에 컴퓨터로 이 단백질의 변신 모습을 예측하는 방법들이 좀 아쉬웠어요.
- 전통적인 시뮬레이션: 엄청 느리고 컴퓨터 자원을 많이 잡아먹어요.
- 최신 구조 예측 AI (알파폴드 등): 단백질의 '기본 형태' 하나는 잘 맞추지만, 얘가 어떻게 움직이고 다른 모습으로 변하는지는 잘 못 보여줘요.
- 다른 AI 생성 모델들: 3차원 공간에서 직접 모양을 만들려고 하니, 계산이 너무 복잡하거나 (특히 단백질이 커지면), 모양의 아주 작은 변화에만 집중하고 정작 중요한 큰 변화(다른 기능적 모습)는 잘 못 찾아내는 경향이 있었어요.
그래서 이 논문의 새로운 아이디어 (SLM): 3차원 모양 그 자체를 다루는 대신, 좀 더 똑똑한 방법을 쓰자는 거예요.
- 모양을 '단어'로 요약하기: 먼저, 단백질이 가질 수 있는 다양한 3차원 모양들을 분석해서, 각 모양의 핵심 특징만 뽑아내 간단한 '코드'나 '단어'(latent token)로 만들어요. 마치 모양들의 사전을 만드는 거죠. 복잡한 3D 정보를 단순화하는 거예요.
- '단어'로 문장 만들기 (언어 모델 사용): 그 다음, 우리가 쓰는 언어를 배우는 AI(Language Model)처럼, 이 '모양 단어'들의 순서나 조합 규칙을 배우는 AI를 학습시켜요. 특정 단백질(아미노산 서열)이 주어지면, 그 단백질이 가질 법한 '모양 단어'들의 그럴듯한 '문장'(sequence)을 생성하도록 하는 거죠.
- '문장'을 다시 3D 모양으로 번역하기: 마지막으로, AI가 만들어낸 '모양 단어 문장'을 다시 원래의 3차원 단백질 모양으로 복원해요.
이 방법의 좋은 점:
- 복잡한 3D 계산을 피할 수 있어서 더 효율적이에요.
- 이미 발전된 언어 모델 기술을 활용할 수 있어요.
- 작은 떨림 같은 노이즈보다는 단백질의 전체적인 큰 변화나 다양한 핵심 모습들을 더 잘 찾아낼 수 있을 것으로 기대해요.
- 결과적으로 훨씬 빠르게 (논문에서는 수십~수백 배) 다양한 단백질 모습을 생성할 수 있다고 해요.
이 논문에서는 이런 아이디어를 바탕으로 'ESMDiff'라는 구체적인 모델도 만들어서 성능을 보여줬다고 합니다.
2 RELATED
Protein language models. 최근 몇 년 동안 protein sequence의 여러 language models가 구축되었습니다. 이 중 ESM-series 및 기타 유사한 models는 protein engineering과 같은 광범위한 downstream applications 때문에 큰 주목을 받았습니다. 다른 한편으로, recurrent neural networks 또는 ProGen 및 ProtGPT2를 포함한 Transformer 기반의 auto-regressive protein language models는 input controlling tokens를 사용하여 de novo sequences를 generate할 수 있습니다. 특히, inverse folding models는 geometric-aware encoders를 사용하여 structure-based protein design을 수행하도록 학습합니다.
Generative conformation sampling. 전통적인 MD simulations의 많은 computation을 고려하여, data-driven 방식으로 conformation distributions을 학습하기 위해 generative models가 사용되어 왔습니다. Boltzmann generator는 target-specific simulation data로부터 Boltzmann distribution에 맞추기 위해 normalizing flow를 사용합니다. 한 연구는 coarse-grained protein conformations를 위해 denoising diffusion models를 사용하여 이를 확장했습니다. 나아가 EigenFold, Str2Str, AlphaFlow, ConfDiff, 그리고 DiG는 PDB data로부터 학습하여 protein conformations를 conditionally sample하기 위해 diffusion 또는 flow matching을 활용합니다. 최근 AlphaFold3는 diversified structure prediction을 위해 AlphaFold2의 structure decoder를 diffusion-based module로 수정했습니다.
Quantized representation for protein structures. 단백질 구조를 위한 지배적인 diffusion models 외에도, discrete variational autoencoders (dVAE)를 사용한 단백질 구조의 representation learning이 최근 몇 년간 점점 더 많은 주목을 받고 있습니다. FoldSeek는 빠른 structure search 및 alignment를 위해 dVAE를 구축하려는 초기 시도 중 하나입니다. 이를 기반으로, SaProt는 sequence 및 structure tokens를 모두 input으로 사용하여 learned representations를 구축하는 반면, ProtT5는 structure tokens를 input으로 받아들이도록 기존 language model을 fine-tuned했습니다. PVQD는 conditional protein structure generation을 위해 dVAE의 embedding space에서 latent diffusion을 적용했습니다. ProSST는 latent space에 K-means clustering이 적용된 autoencoder를 trained했습니다. 다른 연구들은 각각 protein structure representations 학습을 위해 large vocabularies를 가진 dVAE를 구축했습니다.
Remarks: 우리의 연구는 단백질 구조의 quantized representation에 대해 conformation generation을 model하고 효율적으로 수행하기 위해 LMs를 활용함으로써 이러한 동시 진행 연구 방향들과 밀접하게 관련되어 있습니다. 우리는 이 framework를 “structure language models”라고 지칭하며 이를 자세히 설명합니다.
AI 연구자를 위한 Related Work 정리 노트 (SLM 논문)
1. Protein Language Models (Sequence 기반)
- 주요 모델: ESM-series, ProtGPT2 등.
- 기능: 주로 protein sequence를 input/output으로 사용.
- Representation learning (e.g., ESM) → Downstream tasks (protein engineering 등) 활용.
- Auto-regressive models (e.g., ProtGPT2) → De novo sequence generation.
- Inverse folding models → Structure 기반 sequence design (Structure → Sequence).
- SLM과의 관계: SLM은 LM을 활용하지만, sequence가 아닌 **structure의 quantized representation (token)**을 직접 modeling하고 generation하는 데 사용함. (ESMDiff는 ESM3를 fine-tuning).
2. Generative Conformation Sampling (직접적인 Conformation 생성)
- 목표: MD simulation의 비용 문제를 해결하고 data-driven 방식으로 conformation distribution 학습.
- 주요 접근법:
- Normalizing Flows: Boltzmann generator (MD data 기반 Boltzmann 분포 fitting).
- Diffusion Models: EigenFold, Str2Str, ConfDiff, DiG, AlphaFold3 decoder 등 (주로 3D/Coarse-grained space에서 직접 작동, PDB data 기반 conditional sampling).
- SLM과의 관계: SLM은 이러한 기존 generative model들이 3D space에서 겪는 계산 비용, equivariance 처리, local perturbation 집중 경향 등의 한계를 latent space modeling을 통해 극복하고자 함.
3. Quantized Representation for Protein Structures (dVAE 활용)
- 핵심 아이디어: Discrete Variational Autoencoder (dVAE)를 사용하여 protein structure를 discrete token으로 encoding/representation 학습.
- 주요 연구: FoldSeek (fast search/alignment), SaProt (sequence+structure token input), ProtT5 (LM fine-tuning for structure token input), PVQD (dVAE embedding space에서 latent diffusion), ProSST (AE + K-means), 기타 dVAE 구축 연구.
- SLM과의 관계: SLM은 이 quantized representation (structure token) 아이디어를 직접적으로 활용 및 확장함. 특히, 생성된 structure token sequence에 LM을 적용하여 conformation distribution을 modeling하고 generation하는 것이 SLM의 핵심 차별점임 (PVQD는 latent diffusion 사용).
4. SLM의 위치 (Remarks 요약)
- SLM은 상기 연구 흐름들을 융합: LMs(1)를 활용하여, quantized structure representation(3) 상에서, conformation generation(2)을 효율적으로 수행하는 새로운 framework임.
쉬운 설명: Related Work 섹션 요약
이 논문이 나오기 전에 관련 분야에서 어떤 연구들이 있었는지 소개하는 부분이에요. 크게 세 가지 흐름이 있습니다.
1. 단백질 '언어' 전문가 AI:
- 단백질은 아미노산이라는 재료들이 순서대로 길게 이어진 '설계도(sequence)'로 만들어져요. 어떤 AI들은 이 '설계도 언어'를 아주 잘 이해해서, 설계도만 보고 단백질의 특징을 파악하거나 (ESM 같은 모델), 심지어 새로운 단백질 설계도를 직접 만들기도 해요 (ProtGPT2 같은 모델). 또 어떤 AI는 완성된 단백질 구조를 보고 거꾸로 설계도를 추측하기도 하고요 (Inverse folding).
- 이 논문과의 관계: 이 논문도 '언어'를 다루는 AI를 쓰긴 하는데, '설계도 언어'가 아니라 **'단백질 모양 자체를 표현하는 새로운 언어'**를 만들어서 사용한다는 점이 달라요.
2. 단백질 '변신 모습' 생성 AI:
- 단백질은 한 가지 모양이 아니라 여러 모습으로 변신하면서 일한다고 했죠? 기존의 어떤 AI들은 이 '변신 모습(conformation)'들을 직접 만들어내려고 했어요. 느린 물리 시뮬레이션 결과를 AI가 따라 배우거나 (Boltzmann generator), 아니면 '디퓨전(diffusion)'이라는 요즘 유행하는 AI 기법 (흐릿한 이미지 → 선명한 이미지 만들듯이)을 써서 3차원 모양을 직접 생성하려고 시도했어요 (EigenFold, AlphaFold3 등).
- 이 논문과의 관계: 이 논문도 '변신 모습'을 만드는 게 목표인데, 3차원 공간에서 직접 만드는 건 너무 복잡하고 비효율적일 수 있다고 생각해요. 그래서 다른 방법을 쓰는 거죠.
3. 단백질 모양을 '코드'로 바꾸는 AI:
- 최근에는 복잡한 3차원 단백질 모양을 더 간단하게 표현하려는 시도들이 있었어요. AI(dVAE라는 종류)를 이용해서 각 단백질 모양의 핵심 특징만 뽑아내 **간단한 '코드'나 '단어'(token)**로 만드는 거예요. 마치 모양마다 별명을 붙여주는 것처럼요. 이렇게 하면 모양들을 더 빨리 검색하거나 (FoldSeek), 이 코드를 다른 AI의 입력으로 사용할 수 있어요 (SaProt).
- 이 논문과의 관계: 이 논문은 바로 이 '모양 코드' 아이디어를 적극적으로 활용해요!
결론 (Remarks):
그래서 이 논문(SLM)은 위 아이디어들을 합쳤어요. 단백질 모양을 **'코드'(3번 아이디어)**로 만들고, 그 '코드'들의 순서나 조합 패턴을 **'언어' 전문가 AI(1번 아이디어)**를 이용해서 학습하는 거예요. 이렇게 해서 단백질의 다양한 **'변신 모습'(2번 아이디어의 목표)**들을 훨씬 효율적으로 만들어내는 새로운 방식, 즉 "Structure Language Modeling"을 제안하는 겁니다.
3 PROTEIN CONFORMATION GENERATION WITH LANGUAGE MODELING
Notation. 개의 residues를 가진 단백질은 아미노산 종류의 sequence 로 식별되며, 여기서 는 20가지 표준 아미노산의 vocabulary입니다. 단백질 (backbone) structure는 모든 backbone heavy atoms를 포함하는 구성 3D 원자 위치 로 represented됩니다.
3.1 LEARNING THE SEQUENCE-STRUCTURE DISTRIBUTION
conformation generation 문제를 해결하기 위해, 우리는 관심 있는 sequence-to-structure translation distribution 을 modeling하는 것부터 시작하여 이 섹션에서 learning objective를 유도합니다. structure space에서 명시적으로 learning하는 것을 피하기 위해, 3D 원자 단백질 structure를 encode하기 위해 roto-translation invariant* latent representation 가 도입되며, 여기서 입니다. 이를 고려할 때, 목표 distribution 는 joint distribution을 marginalizing하여 유도될 수 있습니다: . 우리는 Bayes’ rule에 따라 latent variable 를 분리하여 이 joint distribution을 추가로 factorize합니다: , 여기서 는 structure token과 sequence가 주어졌을 때 3D 단백질 structure에 대한 (decoding) distribution을 나타내고, 는 structure tokens에 대한 conditional distribution을 나타내며, 각각 parameter set 를 가진 neural networks로 modeled됩니다. 이는 sequence에 대해 conditioned된 단백질 structure에 대한 model distribution의 likelihood에 대한 evidence lower bound를 제공합니다:
여기서 는 latent representation 에 대한 posterior distribution을 parameterized하기 위해 도입됩니다. Eq. (1)의 전체 유도는 Appendix G.2.1을 참조하십시오. Eq. (1)의 우변을 직접 optimizing하는 것은 posterior 를 알 수 없기 때문에 intractable하고 어려울 수 있습니다. 실제로는 간단하고 parameter-free prior distribution 를 사용하여 와 를 먼저 jointly learning한 다음, 학습된 와 를 사용하여 에 대한 optimization을 수행하는 one-step expectation–maximization (EM) approach를 채택할 수 있습니다. 이는 전체적으로 two-stage 및 separable training pipeline을 산출합니다:
I. Learning quantized representation for structure. prior 가 fixed된 상태에서, 우리는 protein structure samples 를 사용하여 encoder 와 decoder 에 대해 ELBO 를 maximizing하는 것으로 시작합니다. discrete latent spaces의 맥락에서, 이 process는 단백질 structure에 대한 quantized representations를 learning하기 위해 discrete VAE (dVAE)를 training하는 것과 유사합니다. 여기서, encoder 는 structures를 latent tokens로 maps하고, decoder 는 이러한 tokens†로부터 structures를 reconstructs합니다. prior 는 이 stage 동안 uniform하게 fixed됩니다.
II. Learning the prior over latent tokens. 이 stage에서는 learned parameters 와 를 fix하고, ELBO를 maximizing하여 prior 를 train합니다: . 와 가 모두 fixed되어 있으므로, ELBO의 reconstruction term은 cancels out되고, training은 KL divergence 를 minimizing하는 것으로 reduces됩니다. 이는 에 대한 maximum likelihood estimation 수행과 equivalent합니다: . 와 가 모두 categorical variables라는 점을 감안할 때, 이 formulation은 translation task와 유사하여 가 language models에 의해 parameterized될 수 있도록 합니다.
Eq. (1)을 Optimizing하는 것은 conformation generation을 위한 일반적인 learning framework를 제공합니다. 실제로, 우리는 이 objective에 대해 보다 명확한 관점에서 접근할 수 있습니다: 우리는 복잡한 geometric modeling을 structure auto-encoder에 offloading하면서 sequence-to-structure (seq2str) network를 learning함으로써 invariant latent space에서 새로운 "conformations"를 exploring하고 있습니다. 이를 통해 practitioners는 인기 있는 structure encoders/decoders 및 modern language models의 architectures 중에서 선택할 수 있습니다.
3.2 STRUCTURE LANGUAGE MODELING
이전 stage에서 learned된 prior는 이제 conformation generation에 applied되며, 이는 seq2str translation을 위한 conditional generative modeling 문제로 framed될 수 있습니다. molecular topology를 결정하는 input condition 이 주어졌을 때, 목표는 로부터 conformation ensemble을 sample하는 것입니다. 이를 위해, 우리는 먼저 이전에 learned된 prior distribution에서 latent variables 집합 를 sample한 다음, decoder 를 사용하여 이러한 latents를 decode합니다. decoder는 sampled latents가 reconstruction과 align되도록 보장하면서 첫 번째 stage에서 encoder 와 jointly trained됩니다. 이 framework는 roto-translation invariant inference를 supports하며 Algorithm 1에 설명되어 있습니다. 다음으로, structure language models (SLM)의 두 가지 간단한 예시인 encoder-decoder 및 decoder-only architectures를 사용하여 이 approach를 illustrate합니다.
Encoder-decoder. translation의 conditional nature를 고려할 때, prior 는 T5와 같은 encoder-decoder architecture에 의해 explicitly modeled될 수 있습니다. decoder는 context 에 conditions하고 structure tokens를 sequentially factorizes합니다: , 여기서 는 quantized structure tokens를 represents합니다. training objective는 에 conditioned된 negative log-likelihood (NLL) loss입니다: , .
Decoder-only. 대안적으로, latent prior 는 GPT와 같은 decoder-only architecture를 사용하여 autoregressively하게 modeled될 수 있으며, 여기서 는 "prompt" 역할을 합니다. 로 정의하고, training은 NLL minimization을 통해 에 대한 likelihood를 maximizing하는 것을 포함합니다: , 여기서 는 각각 associated amino-acid sequence를 condition 로 갖는 structures에 대한 data distribution으로부터의 i.i.d. samples입니다. 실제로는 이 두 modalities를 differentiate하기 위해 추가적인 special token [sep]을 추가합니다.
Inference는 두 language models의 autoregressive factorization에 의해 정의된 대로 left-to-right decoding order로 sampling하는 것을 포함합니다. Fig. 3은 이러한 두 가지 modeling strategies를 간략하게 illustrate합니다.
AI 연구자를 위한 Section 3 정리 노트 (SLM 논문)
섹션 3: PROTEIN CONFORMATION GENERATION WITH LANGUAGE MODELING
Notation:
- Sequence: (L = length, S = AA vocabulary)
- Structure: (Backbone heavy atom coordinates)
- Latent Structure Tokens: (Discrete, roto-translation invariant representation)
3.1 LEARNING THE SEQUENCE-STRUCTURE DISTRIBUTION
- 목표: (sequence 가 주어졌을 때 structure 의 분포) modeling.
- 핵심 전략: 직접적인 modeling 대신, latent variable (structure tokens) 도입하여 로 분해.
- : Decoder (token , sequence → structure )
- : Prior / Structure Language Model (sequence → token )
- Learning Objective: 의 log-likelihood에 대한 Evidence Lower Bound (ELBO) 최대화 (Eq. 1).
- : Encoder (structure → token , approximate posterior)
- Two-Stage Training Pipeline: (EM-like 접근, VQ-VAE 방식과 유사)
- Stage I: Learning Quantized Representation (dVAE Training):
- 고정된(uniform) prior 하에서, ELBO를 와 에 대해 최대화.
- 사용. 와 학습 (Structure Autoencoder 학습).
- Stage II: Learning the Prior (Structure LM Training):
- 학습된 와 고정.
- ELBO를 prior 에 대해 최대화 ().
- Reconstruction term 소거, 최소화로 귀결됨.
- 이는 에 대한 Maximum Likelihood Estimation과 동일: .
- 가 categorical이므로, LM을 사용하여 (seq-to-structure-token) 학습.
- Stage I: Learning Quantized Representation (dVAE Training):
- 핵심 통찰: 복잡한 geometric modeling ()은 structure autoencoder (Stage I)에 맡기고, 강력한 LM (Stage II)은 더 단순한 discrete latent space에서 sequence-to-structure-token mapping () 학습에 집중.
3.2 STRUCTURE LANGUAGE MODELING (SLM Implementation)
- Inference Process:
- Input sequence 제공.
- 학습된 prior (LM) 로부터 latent structure token 를 sample.
- 학습된 decoder 를 사용하여 로부터 3D structure 를 decode/reconstruct.
- Ensemble 생성을 위해 2-3단계 반복. (Roto-translation invariant inference 지원)
- LM Architectures for :
- Encoder-Decoder (e.g., T5):
- 를 encoder 입력, 를 decoder에서 autoregressive하게 생성.
- 학습: Conditional NLL 최소화 .
- Decoder-Only (e.g., GPT):
- 형태로 입력 구성. 가 prompt 역할.
- 를 autoregressive하게 모델링.
- 학습: Joint NLL 최소화 .
- Inference: 를 prompt로 주고 부분을 sampling.
- Encoder-Decoder (e.g., T5):
쉬운 설명: Section 3 요약
이 섹션에서는 논문의 핵심 기술인 "Structure Language Modeling (SLM)"이 수학적으로 어떻게 작동하고 어떻게 학습되는지 설명합니다.
기본 아이디어 (3.1절): 복잡한 3D 구조 대신 '모양 코드' 사용하기
- 목표: 아미노산 서열(레시피)을 주면, 가능한 단백질 3D 모양(conformation)들을 생성하는 AI 만들기.
- 문제: 3D 모양을 직접 다루는 건 수학적으로 너무 복잡해요 (회전해도 같은 모양으로 인식해야 하는 등).
- 해결책: 중간 단계인 **'모양 코드(latent structure token, )'**를 도입해요.
- Decoder(): '모양 코드'()와 '레시피'()를 받아서 3D 모양()으로 바꿔주는 번역기.
- Language Model (): '레시피'()를 받아서 어떤 '모양 코드'()가 나올지 예측하는 핵심 모델. (이게 바로 Structure Language Model!)
- Encoder(): (학습 때만 사용) 진짜 3D 모양()을 보고 '정답 모양 코드'()가 무엇인지 알려주는 역할.
- 수학 공식(ELBO): 이 모든 과정이 잘 돌아가도록 (Decoder는 복원을 잘하고, Language Model은 Encoder가 알려준 정답 코드를 잘 예측하도록) AI를 훈련시키는 기준점 같은 거예요.
AI 훈련 계획 (3.1절): 2단계로 나누어 학습하기
- 1단계: '모양 코드'와 '번역기(Decoder)' 학습시키기:
- 먼저 Encoder와 Decoder를 함께 훈련시켜요. 3D 모양을 '모양 코드'로 잘 바꾸고(Encoding), 그 코드를 다시 원래 3D 모양으로 잘 복원(Decoding)할 수 있도록 만들어요. 즉, 3D 모양과 그 별명(코드) 사이의 좋은 사전을 만드는 과정이에요.
- 2단계: '랭귀지 모델' 학습시키기:
- 1단계에서 만든 Encoder와 Decoder는 이제 그대로 두고(고정), Language Model을 훈련시켜요. Language Model은 '레시피(아미노산 서열)'를 보고, 1단계의 Encoder가 만들었던 '정답 모양 코드'를 잘 예측하도록 배워요. "레시피 → 모양 코드" 번역 실력을 키우는 거죠.
학습된 AI 사용법 (3.2절): 새로운 모양 생성하기
- 입력: 만들고 싶은 단백질의 '레시피(아미노산 서열)'를 줍니다.
- 과정:
- 2단계에서 훈련된 Language Model이 레시피를 읽고 그럴듯한 '모양 코드'() 시퀀스를 생성해요.
- 1단계에서 훈련된 Decoder가 이 생성된 '모양 코드'()를 받아서 최종 3D 모양()으로 바꿔줘요.
- 결과: 새로운 3D conformation이 생성됩니다! (이 과정을 여러 번 반복하면 다양한 모양들을 얻을 수 있어요.)
(참고) Language Model의 종류 (3.2절): "레시피 → 모양 코드"를 예측하는 Language Model을 만드는 방법으로 두 가지 스타일(Encoder-Decoder 방식: T5 모델 스타일, Decoder-Only 방식: GPT 모델 스타일)을 사용할 수 있다고 소개합니다.
핵심: 복잡한 3D 기하학 문제는 Autoencoder(1단계)에게 맡기고, 강력한 Language Model(2단계)은 더 단순화된 '모양 코드' 세계에서 "서열 → 코드" 관계를 학습하는 데 집중하게 함으로써, 효율적으로 단백질 모양 생성을 하려는 전략입니다.
1. 아미노산 서열 정보, 3D 원자 좌표 구조 정보가 인풋
2. 3D 원자 좌표 구조 정보를 넣어서 인코더를 통과, 그 피쳐를 가지고 아미노산 위치 마다 코드북에서 토큰 인덱싱, 그 코드북에서 리플레이스된 값과 아미노산 서열 정보를 넣어서 디코더를 통해 3D 원자 좌표 구조 정보를 다시 맞추게 하면서 인코더, 디코더, 코드북 학습. (1스테이지)
3. 아미노산 서열 정보를 인코더에 넣고 디코더를 통해 z를 뽑게됨. (스테이지 2)
실제 인퍼런스
아미노산 서열 정보 -> z생성 -> z랑 c를 통해 3D 원자 좌표 구조 정보 예측
---
자세히
1. 스테이지 1: 이산형 구조 표현 학습 (dVAE Training)
(참고: 논문의 실제 실험에서는 이 과정을 직접 학습하지 않고, 이미 학습된 모델(Hayes et al., 2024)의 가중치를 가져와 얼려두고(Frozen) 사용했습니다. 하지만 논문이 제시한 프레임워크 상의 동작은 작성하신 내용이 정확히 맞습니다.)
Step 1.1: 3D 원자 좌표 (x)를 Structure Encoder에 입력하여 각 아미노산 위치(residue-level)마다의 로컬 기하학적 특징(feature)을 추출.
Step 1.2: 추출된 연속적 feature들을 Codebook과 매칭(Vector Quantization)하여, 가장 가까운 인덱스를 찾아 이산적인 구조 토큰 시퀀스 (z)로 변환.
Step 1.3: 이 구조 토큰 (z)와 아미노산 서열 (c)를 조건(condition)으로 Structure Decoder에 함께 입력.
Step 1.4: Decoder가 3D 원자 좌표 구조 (x_hat)를 다시 복원(reconstruct)하여 출력.
Loss 계산: 복원된 3D 좌표(x_hat)와 원본 좌표(x) 간의 오차(Reconstruction Loss) 및 z 분포에 대한 정규화 오차(KL Divergence)를 합산하여 계산.
업데이트: 계산된 Loss를 통해 Structure Encoder, Structure Decoder, Codebook의 가중치를 업데이트.
2. 스테이지 2: 구조 언어 모델 학습 (ESMDiff / Masked Diffusion Training)
작성하신 내용에서 가장 디테일이 추가되어야 할 부분입니다. 스테이지 2에서는 스테이지 1에서 학습된 Encoder와 Decoder를 완전히 고정(Freeze)시킵니다.
Step 2.1: 원본 3D 구조 (x)를 고정된 Structure Encoder에 통과시켜 완벽한 정답 구조 토큰 시퀀스 (z_0)를 추출.
Step 2.2 (Forward Process): 임의의 시간 스텝(t)을 샘플링하고, 정답 구조 토큰 (z_0) 중 t에 비례하는 일정 확률만큼의 토큰을 [MASK] 토큰으로 덮어버림(Corrupt). 이렇게 마스킹된 노이즈 토큰 시퀀스를 z_t라고 함.
Step 2.3: 아미노산 서열 (c), 시간 정보 (t), 그리고 마스킹된 토큰 시퀀스 (z_t)를 양방향 트랜스포머(Bidirectional Transformer, ESM3)에 인풋으로 입력.
Step 2.4 (Reverse Process): 트랜스포머 모델이 각 위치별 예측 확률 분포(Logits)를 출력하며, [MASK]로 가려진 자리에 원래 어떤 구조 토큰(z_0)이 있었을지 예측.
Loss 계산: 전체 시퀀스가 아닌, 오직 [MASK] 처리된 위치에 대해서만 모델이 예측한 분포와 실제 정답 토큰(z_0) 간의 Cross-Entropy Loss (Negative Log-Likelihood)를 계산.
업데이트: 계산된 Loss를 통해 트랜스포머 언어 모델(ESMDiff)의 가중치만 업데이트.
3. 실제 인퍼런스 (Conformation Generation)
작성하신 흐름(아미노산 서열 정보 -> z생성 -> z랑 c를 통해 3D 원자 좌표 구조 정보 예측)이 완벽히 맞습니다. 내부 동작을 한 줄씩 나열하면 다음과 같습니다.
Step 3.1: 아미노산 서열 정보 (c)만 인풋으로 주어짐.
Step 3.2: 아미노산 길이(L)만큼 전부 [MASK]로 채워진 완전한 노이즈 토큰 시퀀스 (z_T)를 생성.
Step 3.3: z_T와 c를 학습된 ESMDiff 모델에 입력하여 확률이 높은 일부 [MASK]를 실제 구조 토큰으로 샘플링하여 변환 (Denoising).
Step 3.4: 이 과정을 정해진 스텝(예: 25번) 동안 반복(Iterative Decoding 또는 DDPM Sampling)하여 [MASK]를 점진적으로 전부 걷어내고, 완전히 깨끗한 최종 구조 토큰 시퀀스 (z)를 생성.
Step 3.5: 생성된 구조 토큰 (z)와 아미노산 서열 (c)를 스테이지 1에서 고정해둔 Structure Decoder에 입력.
Step 3.6: 최종적으로 Structure Decoder가 3D 원자 좌표 구조 (x)를 출력하며 인퍼런스 종료.
