단백질 : 논문 리뷰 : Simulating 500 million years of evolution with a language model
쉬운 설명
ESM3는 단백질의 여러 "언어" - 아미노산 sequence(글자), 3D structure(모양), function(역할) - 에 모두 능통한 초능력 번역가와 같습니다. 방대한 단백질 데이터로부터 이 언어들 사이의 "문법"을 학습하여, 기존 단백질을 이해할 뿐만 아니라 특정 기능을 수행하는 완전히 새로운 단백질 "이야기"(서열/구조)를 "작성"할 수 있습니다. 심지어 자연이 아직 발견하지 못한, 마치 5억년 전 살았던 작가의 스타일로 새로운 소설을 쓰는 것처럼 매우 독창적인 단백질도 만들어낼 수 있습니다.
ESM3 논문 학습 노트
Purpose of the Paper
- 기존 단백질 연구는 sequence 예측 Language Model (LM)의 scaling 또는 structure/function 예측/생성을 위한 복잡한 비-LM 아키텍처 (e.g., diffusion models)에 개별적으로 초점을 맞추었음.
- 단백질의 핵심 요소인 sequence, structure, function 세 가지 modality를 통합적으로 이해하고 생성할 수 있는, scalable한 단일 language model 부재의 한계를 극복하고자 함.
- Discrete tokenization을 통해 모든 modality를 통일된 형식으로 처리하고, 표준 masked language modeling 방식으로 학습 및 생성 가능한 frontier multimodal 모델을 제시하는 새로운 접근 방식을 제안함.
Key Contributions & Novelty
- Unified Multimodal Protein LM (ESM3):
- Sequence, structure, function 정보를 discrete token으로 표현하여 단일 transformer 아키텍처 내에서 통합적으로 처리.
- Novelty: 거대 규모(최대 98B parameters)에서 세 가지 핵심 modality를 language modeling 패러다임 안에서 효과적으로 통합하고 cross-modal reasoning 및 생성을 가능하게 한 최초의 시도.
- Structure Tokenization:
- 3D 원자 구조를 discrete autoencoder를 사용해 discrete token 시퀀스로 변환. Invariant geometric attention 메커니즘으로 원자 좌표 직접 conditioning 가능.
- Novelty: 단백질 구조를 언어의 일부로 취급하여 표준 LM 학습/생성 프레임워크에 통합. 기존의 geometric deep learning이나 diffusion 기반 구조 모델링과 차별화됨.
- Demonstrated Scalability:
- 1.4B, 7B, 98B 파라미터 모델 학습을 통해 multimodal 단백질 LM에서도 scaling law가 적용됨을 보임.
- Novelty: 복잡한 생물학적 modality (구조)를 token으로 표현해도 language modeling 원칙이 효과적으로 scale up됨을 입증.
- Controllable Generation via Complex Prompting:
- Sequence, structure (원자 수준 motif 포함), function (keyword) 제약 조건을 결합한 복잡한 prompt에 따라 단백질 생성이 가능함을 보임.
- Novelty: 단일 모델 내에서 여러 modality에 걸쳐 자연어와 유사한 prompt를 사용하여 높은 수준의 생성 제어 능력을 달성.
- Alignment for Enhanced Fidelity:
- Preference tuning (alignment)을 통해 모델이 복잡한 프롬프트(특히 3차 구조 관련)를 따르는 능력이 극적으로 향상됨을 입증.
- Novelty: NLP 분야의 alignment 기술이 단백질 LM의 생물학적 fidelity와 제어 가능성을 높이는 데 매우 효과적이며, 모델의 잠재된 능력을 끌어낼 수 있음을 보여줌.
Experimental Highlights
- Novel Functional GFP Generation (esmGFP):
- 기존에 알려진 가장 가까운 GFP (tagRFP)와 sequence identity가 58%에 불과한 새로운 기능성 GFP (esmGFP) 생성 성공. 이는 약 5억년 이상의 진화적 거리에 해당한다고 추정됨.
- Significance: 자연에 존재하지 않는 매우 먼 거리의 새로운 기능성 단백질을 생성할 수 있음을 보여, 심층 진화 시뮬레이션 및 de novo 단백질 설계의 가능성을 입증. (Fig. 4)
- Complex Prompt Following & Creative Solutions:
- 원자 수준 motif (e.g., binding sites, catalytic triad)와 high-level 제약 조건 (e.g., fold type, secondary structure)을 동시에 만족하는 단백질 생성 성공. 활성 부위를 유지하면서 단백질 길이를 33% 압축하는 등 창의적인 문제 해결 능력 시연. (Fig. 2C, 2D)
- Significance: 정교한 reasoning 및 compositional generation 능력을 보여줌.
- Alignment Impact:
- Alignment 후, 어려운 3차 구조 prompting 작업 성공률 (Pass@128)이 98B 모델 기준 26.8%에서 65.5%로 크게 증가. (Fig. 3A)
- Significance: Alignment를 통해, 특히 대규모 모델에서, 숨겨진 강력한 능력이 발현됨을 정량적으로 입증.
- Scaling Benefits:
- 모델 규모 증가(1.4B -> 7B -> 98B)에 따라 Test NLL 감소, representation learning 성능 향상, 생성 능력 개선 등 명확한 성능 향상 관찰. (Fig. 1D)
- Significance: Multimodal 단백질 LM 아키텍처에 scaling law가 유효함을 확인.
- Out-of-Distribution Generation:
- 자연 단백질 분포와 다른 구조 (e.g., 인공 대칭 단백질 prompt)를 따르는 단백질 생성 성공. (Fig. 2B)
- Significance: 알려진 단백질 공간을 넘어선 일반화 능력을 보여줌.
Limitations and Future Work
- Implicit Limitations:
- 모델의 이해는 여전히 데이터(자연 + 예측 구조 + 합성 서열) 패턴에 기반하며, 근본적인 물리/화학 법칙을 first-principles 방식으로 이해하는 것은 아님.
- 5억년 진화 거리 추정은 sequence identity 상관관계에 기반한 외삽(extrapolation)임.
- GFP 외 다른 기능성 단백질 생성 능력에 대한 광범위한 실험적 검증 필요.
- Future Work (Inferred):
- 학습된 internal representation에 대한 심층 분석 (초기 ESM 논문들보다 생성/alignment에 더 초점).
- Function 관련 어휘 및 prompt 유형 확장.
- 다양한 기능을 가진 생성 단백질의 추가적인 실험적 검증.
- 모델의 예측/생성 결과에 대한 물리화학적 타당성 검증 방법 통합.
Overall Summary
ESM3는 단백질의 sequence, structure, function을 discrete tokenization을 통해 통합적으로 다루는 frontier-scale (98B) multimodal 언어 모델이다. 이 모델은 뛰어난 scalability와 복잡한 prompt를 통한 controllable generation 능력을 보여주며, 특히 자연계에서 5억년 이상 떨어진 것으로 추정되는 새로운 기능성 GFP (esmGFP)를 생성함으로써 심층 진화 시뮬레이션 및 de novo 생체 분자 설계의 새로운 지평을 열었다. 또한, alignment를 통해 모델의 fidelity를 크게 향상시킬 수 있음을 입증하여 단백질 설계 분야에 중요한 기여를 할 것으로 기대된다.
Abstract
30억 년 이상의 진화는 자연 단백질 공간에 암호화된 생물학의 이미지를 만들어냈습니다. 여기서 우리는 진화 데이터에 대해 대규모로 trained된 language models이 알려진 단백질과는 거리가 먼 기능성 단백질을 generate할 수 있음을 보여줍니다. 우리는 단백질의 sequence, structure, function에 대해 reasoning하는 최첨단 multimodal generative language model인 ESM3를 제시합니다.
ESM3는 modalities를 결합하는 복잡한 prompts를 따를 수 있으며 fidelity를 향상시키기 위한 alignment에 매우 잘 반응합니다. 우리는 ESM3에 형광 단백질을 generate하도록 prompt했습니다. 우리가 합성한 generations 중에서, 알려진 형광 단백질과 먼 거리(58% sequence identity)에 있는 밝은 형광 단백질을 발견했으며, 이는 5억 년의 진화를 시뮬레이션한 것과 동일하다고 추정합니다.
Introduction
오늘날 존재하는 단백질은 수십억 년의 자연 진화 과정을 거쳐 현재의 형태로 발전했으며, 광대한 진화적 체를 통과했습니다. 지질학적 시간에 걸쳐 진행된 병렬 실험에서 자연은 무작위 돌연변이를 만들고 선택을 적용하여 단백질을 무수한 sequences, structures, functions에 따라 걸러냅니다.
그 결과, 오늘날 우리가 관찰하는 단백질의 패턴은 시간에 따른 진화를 형성해 온 생물학의 깊은 숨겨진 변수들의 작용을 반영합니다. 지구의 자연 다양성에 대한 유전자 sequencing 조사는 단백질의 sequences와 structures를 목록화하고 있으며, 이는 수십억 개의 sequences와 수억 개의 structures를 포함하여 생명 전반에 걸친 변이 패턴을 밝혀줍니다. 이러한 sequences의 기저에는 language models을 사용하여 이해할 수 있는 단백질 생물학의 근본적인 language가 있다는 공감대가 형성되고 있습니다.
이제 단백질 sequences에 대한 여러 language models이 개발되고 평가되었습니다. language models 내에서 나타나는 representations는 단백질의 생물학적 structure와 function을 반영하며, 이러한 속성에 대한 어떠한 supervision 없이 학습되고 scale에 따라 향상된다는 것이 밝혀졌습니다.
artificial intelligence 분야에서는 scale 증가에 따른 능력 향상을 예측하는 scaling laws가 발견되었으며, 이는 compute, parameters, data에서의 frontier를 설명합니다.
여기서 우리는 단백질의 sequences, structures, functions에 대해 reasoning하는 frontier multimodal generative model인 ESM3를 제시합니다. ESM3는 각 modality에 대한 discrete tokens에 대해 generative masked language model로 trained됩니다. Structural reasoning은 최근의 predictive 및 generative models of proteins에서 사용된 복잡한 architecture와 3D 공간에서의 diffusion 대신, 3차원(3D) 원자 structure를 discrete tokens로 encoding함으로써 달성됩니다. discrete tokens의 All-to-all modeling은 scalable하며 ESM3가 modalities의 어떤 조합으로든 prompted될 수 있게 하여, prompts의 조합을 따르는 단백질의 controllable generation을 가능하게 합니다.
우리는 ESM3가 prompts에 매우 responsive하며 복잡한 prompts 조합에 대한 창의적인 해결책을 찾는다는 것을 관찰했습니다. 여기에는 자연에서 일치하는 structure를 찾을 수 없는 해결책도 포함됩니다. 모든 scales의 Models는 prompts를 더 잘 따르도록 aligned될 수 있으며, 더 큰 models는 alignment에 훨씬 더 responsive하여 alignment 후 가장 어려운 prompts를 해결하는 더 큰 capability를 보여줍니다. ESM3를 사용하여, 우리는 기존 단백질로부터 5억 년 이상의 진화를 시뮬레이션하는 것과 동등한 정도로 분기된 녹색 형광 단백질(GFP) 변이체의 generation을 보고합니다.
ESM3 Introduction 정리노트 (AI 연구자 대상)
- Motivation: 자연 단백질 sequence, structure, function 데이터에 내재된 진화적 "language"를 language models로 학습 가능하며, scale이 중요함. 기존 models은 주로 sequence 기반 representations 학습에 초점.
- ESM3 제안: Sequence, structure, function을 통합적으로 reasoning하는 frontier multimodal generative model.
- Training: 각 modality를 discrete tokens화하여 generative masked language model로 학습.
- Structural Handling: 3D 원자 structure를 복잡한 architecture나 diffusion 대신 discrete tokens로 encoding하여 처리. (기존 predictive/generative models과의 차별점)
- Key Feature: Discrete tokens 기반 All-to-all modeling -> scalable하며, modalities 조합 prompting을 통한 controllable generation 가능.
- ESM3 Characteristics:
- 복합 prompts에 responsive하며 창의적 해결책 제시 (자연에 없는 structure 포함).
- Alignment 통해 prompt 준수 능력 향상 가능 (특히 large models에서 효과 큼).
- Showcase: Alignment된 ESM3를 이용, 기존 단백질과 5억 년 이상 진화적 거리에 상응하는 새로운 기능성 GFP 변이체 generation 성공 보고.
쉬운 설명: Introduction 섹션 요약
이 섹션은 ESM3라는 새로운 AI model을 소개합니다. 지구상의 단백질들은 수십억 년 동안 진화하면서 만들어졌고, 그 안에는 생명의 비밀이 담겨있습니다. 과학자들은 이 비밀을 풀기 위해 AI, 특히 language models을 사용해왔는데, 마치 AI가 단백질의 '언어'를 배우는 것과 같습니다.
기존 AI들은 주로 단백질의 구성 요소(sequence) 정보에 집중했지만, ESM3는 한 단계 더 나아가 단백질의 구성 요소(sequence), 3차원 모양(structure), 그리고 실제 역할(function) 정보까지 한꺼번에 이해하고 다룰 수 있는 강력한 multimodal generative model입니다.
특히 ESM3는 단백질의 3차원 구조를 기존의 복잡한 방식 대신 '디지털 조각'(discrete tokens)처럼 다루는 새로운 접근법을 사용합니다. 덕분에 연구자가 "이런 모양과 기능을 가진 단백질을 만들어줘" 같은 복합적인 명령(prompt)을 내리면, ESM3는 그 요구사항에 맞춰 새로운 단백질을 '설계'(generation)할 수 있습니다. 연구진은 실제로 ESM3를 이용해 기존에 없던, 아주 독특한 형광 단백질(GFP)을 만들어내는 데 성공했다고 밝히고 있습니다. 이는 ESM3가 단백질 설계 분야에서 매우 유용할 수 있음을 보여줍니다.
ESM3
ESM3는 language modeling을 통해 단백질의 세 가지 기본 속성인 sequence, structure, function에 대한 scalable generative model을 달성합니다. 이전의 단백질에 대한 generative modeling 노력은 주로 개별 modalities에 초점을 맞추었으며, 단백질을 3D 객체로 나타내는 structures에 대해 복잡한 architectures와 training objectives를 활용했습니다. 현재까지 scaled된 유일한 language models은 단백질 sequences를 위한 것들이었습니다. ESM3에서는 sequence, structure, function이 discrete tokens의 알파벳을 통해 represented됩니다. Modalities는 model 내에서 단일 latent space로 fused되는 별도의 sequence tracks로 input되고 output됩니다. 이 단순성은 ESM3가 scalable transformer architecture를 활용하여 최대 98 billion parameters와 1조 테라플롭스 이상의 compute로 train할 수 있게 하며, sequence, structure, function에 대한 복잡한 reasoning capabilities의 출현을 보여줍니다.
ESM3는 다음 방정식으로 설명되는 모든 tracks에 걸쳐 generative masked language modeling objective로 trained됩니다: 단백질을 설명하는 tokens 에 무작위 mask 이 적용되고, model은 masked된 tokens의 정체를 predict하도록 supervised됩니다. Training 동안, mask는 masked되는 위치의 비율을 변화시키는 noise schedule을 사용하여 sampled되므로, ESM3는 masked된 sequence, structure, function의 다양한 조합을 보게 되고 다른 어떤 modality 조합으로부터든 해당 modalities의 조합을 completion하도록 predicts합니다. 이는 supervision이 단일 고정 masking rate가 아닌 모든 가능한 masking rates에 걸쳐 적용된다는 점에서 고전적인 masked language modeling과 다릅니다. 이 supervision은 이전 tokens의 어떤 조합이 주어졌을 때 다음 token의 모든 가능한 predictions에 대한 probability distribution을 factorizes하여, tokens이 어떤 시작점에서든 어떤 순서로든 generated될 수 있도록 보장합니다.
ESM3로부터 generate하기 위해, tokens는 반복적으로 sampled됩니다. 완전히 또는 부분적으로 masked context에서 시작하여, tokens는 모든 위치가 완전히 unmasked될 때까지 한 번에 하나씩 또는 parallel하게 그리고 어떤 순서로든 sampled될 수 있습니다. Generation을 가능하게 하는 것 외에도, ESM3의 training objective는 representation learning에도 효과적입니다. High masking rates는 generative capability를 향상시키는 반면, lower masking rates는 representation learning을 향상시킵니다. 우리는 generative capabilities와 representation learning의 균형을 맞추는 noise schedule로 ESM3를 train하기로 선택했습니다.
ESM3는 bidirectional transformer입니다. Sequence, structure, function tokens는 input에서 embedded되고 fused된 다음 transformer blocks의 stack을 통해 processed됩니다. Model의 output에서는, 얕은 multilayer perceptron heads가 final layer representation을 각 tracks에 대한 token probabilities로 project합니다. ESM3는 specialized architectural components 대신 tokenization을 사용하여 학습된 multimodal feature space에서 단백질의 complexity를 represent합니다. 이 접근 방식은 efficient하고 highly scalable training을 가능하게 합니다.
Protein structures는 3D structure를 discrete tokens로 compress하도록 trained된 discrete autoencoder에 의해 tokenized됩니다. 우리는 3D structure를 efficiently process하기 위해 invariant geometric attention mechanism을 제안합니다. 이 mechanism은 각 아미노산의 결합 기하학에 의해 정의된 local reference frames에서 작동하며, local frames가 global frame으로의 transformation을 통해 전역적으로 상호작용할 수 있게 합니다. 각 아미노산 주위의 local structural neighborhoods는 각 아미노산에 대해 하나씩, discrete tokens의 sequence로 encoded됩니다.
단백질 structure를 predicting하거나 generating할 때, ESM3에 의해 output된 structure tokens는 decoder를 통과하여 전체 원자 structure를 reconstructs합니다. Autoencoder는 결합 벡터와 법선 벡터의 쌍별 거리 및 상대적 방향을 supervises하는 geometric loss를 사용하여 원자 좌표를 encode하고 reconstruct하도록 trained됩니다. 이 tokenization은 단백질 structure의 거의 완벽한 reconstruction (<0.5 Å root mean square difference (RMSD))을 제공합니다.
각 structure token의 local neighborhoods가 structure의 이웃 부분에 대한 information을 포함하기 때문에, 우리는 또한 첫 번째 transformer block에서 geometric attention을 통해 backbone atomic coordinates에 직접 condition할 수 있는 mechanism을 model에 제공했습니다. structure의 higher-level abstractions를 지원하기 위해, 우리는 secondary structure (SS8) tokens와 solvent accessible surface area (SASA) tokens를 위한 tracks를 포함했습니다.
Binding, enzymatic function, domain 또는 fold classifications과 같은 생물학적 활성을 설명하는 Key words는 단백질 architecture와 function에 대한 훨씬 higher-level semantic description을 가능하게 합니다. InterPro의 free-text descriptions와 각 잔기(residue)에 대한 Gene Ontology (GO) terms에서 파생된 이러한 keywords는 tokenized되고 embedded되어 network input에서 합산됩니다. Residue-level annotations는 촉매 부위 및 번역 후 변형과 같은 개별 잔기의 functions에 대한 multi-hot labeling을 제공합니다.
가장 큰 ESM3 model은 sequence 및 structure databases에서 수집된 27억 8천만 개의 자연 단백질에 대해 trained됩니다. sequences에 비해 실험적으로 결정된 structures의 비율이 작기 때문에, 우리는 predicted structures를 활용했습니다. Sequences는 hidden Markov models 라이브러리를 사용하여 function keywords로 annotated되었습니다. 우리는 또한 예측된 것을 포함한 모든 structures에 대해 inverse folding model을 사용하여 synthetic sequences를 generated했습니다. 전반적으로, 이는 training data를 31억 5천만 개의 protein sequences, 2억 3천6백만 개의 protein structures, 그리고 function annotations가 있는 5억 3천9백만 개의 단백질로 증가시켜, 총 7710억 개의 고유 tokens에 달합니다. Training dataset의 전체 세부 정보는 보충 자료에 설명되어 있습니다.
우리는 세 가지 scales에서 ESM3 models를 trained했습니다: 1.4, 7, 98 billion parameters (각각 1.4B, 7B, 98B). architecture hyperparameters에 대한 representation learning performance 반응을 평가하기 위한 초기 일련의 실험에서, 우리는 너비(width)보다 깊이(depth) 증가에 대한 더 큰 반응을 발견했습니다. 이 behavior는 최종 architectures에 대해 상대적으로 deep networks를 선택하는 데 영향을 미쳤으며, 98B parameter model은 216개의 transformer blocks를 통합합니다.
ESM3를 1.4B에서 98B parameters로 Scaling하면 test set에서 모든 tracks에 대한 loss가 상당히 개선되며, 가장 큰 개선은 sequence loss에서 관찰됩니다. unconditional negative log-likelihoods와 conditional negative log-likelihoods 사이의 간격은 scale에 따라 증가합니다. function keywords에 Conditioning하는 것은 주로 high masking rates에서 sequence를 제약하므로, key word conditioning에 대한 responsiveness가 high mask rates에서 관찰되지만, 평균 negative log-likelihood에서는 덜 분명합니다. 이러한 test loss에서의 이득은 더 나은 representation learning으로 이어집니다. 단일 sequence structure prediction에서 ESM3 98B는 ESMFold를 능가합니다 (CAMEO test set 기준 평균 local distance difference test (LDDT) 0.880 대 0.861).
model에서 prompting 없이 (unconditional generation) sequences를 Generating하면 평균 predicted LDDT (pLDDT) 0.84 및 predicted template modeling score (pTM) 0.52의 고품질 단백질을 produces하며, 이는 sequence (평균 쌍별 sequence identity 0.155)와 structure (평균 쌍별 TM score 0.48) 모두에서 다양하고 알려진 단백질의 분포에 걸쳐 있습니다.
우리의 결과는 tokenization, efficient architectures, masked token prediction에 의해 가능해진 language modeling을 통한 scaling이 representational 및 generative applications 모두에서 지속적인 개선을 가져온다는 것을 보여줍니다. 이 접근 방식은 model이 architecture에 명시적으로 hardcoded되기보다는 data로부터 학습된 공유 multimodal representation space를 구축할 수 있게 합니다. compute와 data가 증가함에 따라, model은 점점 더 풍부하고 일반적인 feature space를 학습할 수 있습니다. 다음 섹션에서는 이 접근 방식이 단백질의 controllable generation에 대해 high fidelity를 달성함을 보여줍니다.
ESM3 Section 정리노트 (AI 연구자 대상)
- Core Concept: 단백질 sequence, structure, function 통합 language modeling을 위한 scalable generative model.
- Unified Representation: 모든 modalities (sequence, structure (3D coords, SS8, SASA), function (keywords, residue annotations))를 discrete tokens로 변환하여 별도 tracks로 input/output. Model 내부에서 latent space로 fused. ⇒ Modality-specific architectures 불필요, transformer 확장성 활용.
- Architecture: Bidirectional Transformer (최대 98B parameters, 216 layers). Tokenization이 복잡성을 representation으로 흡수하여 architecture 단순화 및 scaling 용이성 확보.
- Training:
- Objective: 모든 tracks에 걸쳐 Generative Masked Language Modeling.
- Variable Masking: 고정 비율 대신 noise schedule 사용 → 다양한 masking 조합 학습, 임의 modality 조합으로부터 completion/generation 가능. Generative vs. Representation Learning 능력 조절.
- Structure Tokenization:
- Discrete Autoencoder (invariant geometric attention 사용)로 3D structure를 tokens로 압축/복원 (<0.5 Å RMSD).
- Backbone coordinates 직접 conditioning 위한 geometric attention 포함.
- Function Representation: InterPro/GO keywords 및 residue-level annotations (catalytic sites 등) tokenized 및 embedded.
- Data Strategy: 대규모 데이터셋 (총 771B tokens: 3.15B sequences, 236M structures, 539M function annotations). 부족한 실험 structure 데이터 보완 위해 predicted structures (ESMFold 등) 및 inverse folding으로 생성된 synthetic sequences 활용.
- Scaling Findings (1.4B → 7B → 98B):
- Scale 증가 시 모든 track에서 test loss 개선 (특히 sequence loss).
- Conditional/Unconditional NLL 간극 증가 → Scale이 클수록 conditioning 정보 활용 능력 향상.
- Representation learning 성능 향상 (98B, single sequence structure prediction에서 ESMFold 능가: LDDT 0.880 vs 0.861).
- Unconditional generation 품질 향상 (pLDDT 0.84, pTM 0.52), 생성된 단백질의 sequence/structure 다양성 확보.
- Conclusion: Tokenization + Masked Token Prediction + Efficient Architecture 조합이 scaling을 가능하게 하며, representational 및 generative 성능 지속 향상. Data로부터 학습된 공유 multimodal representation space 구축하여 high fidelity controllable generation 달성.
쉬운 설명: ESM3 섹션 요약
이 섹션은 ESM3라는 AI model이 구체적으로 어떻게 작동하는지 설명합니다. ESM3의 가장 큰 특징은 단백질의 여러 정보, 즉 아미노산 서열(sequence), 3차원 입체 구조(structure), 그리고 단백질의 역할(function)을 하나의 AI model 안에서 동시에 다룬다는 점입니다.
이를 위해 ESM3는 이 모든 다양한 정보들을 '디지털 레고 블록'(discrete tokens) 같은 형태로 변환합니다. 덕분에 복잡하게 생긴 단백질 구조 정보든, 단백질의 기능을 설명하는 키워드든 모두 같은 종류의 데이터처럼 취급할 수 있게 됩니다. 이렇게 통일된 tokens 정보를 거대한 transformer라는 AI 두뇌에 넣어 학습시킵니다.
ESM3를 학습시키는 방식은 마치 빈칸 채우기 퀴즈와 같습니다. 단백질 정보의 일부를 무작위로 가리고 (masking), AI에게 가려진 부분을 맞추게 합니다 (masked language modeling). 이때 가리는 정보의 종류(서열, 구조, 기능)와 양을 계속 바꿔가며 학습시키기 때문에, ESM3는 어떤 정보가 주어지든 나머지 정보를 예측하거나 아예 새로운 단백질 정보를 만들어내는(generation) 능력을 키우게 됩니다.
특히 3차원 구조 정보는 autoencoder라는 기술과 geometric attention이라는 특별한 주의 집중 방식을 사용해 효율적으로 token으로 만듭니다. 연구진은 이렇게 만든 ESM3 model을 아주 큰 규모(최대 980억 개의 parameters)로 만들었고, model이 커질수록 단백질 구조 예측 능력과 새로운 단백질 생성 능력이 크게 향상되는 것을 확인했습니다. 이 방식 덕분에 데이터만 충분하다면 단백질에 대한 더 깊고 넓은 이해를 AI가 스스로 학습할 수 있으며, 연구자가 원하는 대로 단백질을 정교하게 설계하는 것이 가능해집니다.
"Programmable design with ESM3" 섹션 정리노트 (AI 연구자 대상)
- Prompting Capabilities: ESM3는 다양한 input tracks (sequence, structure coords, SS8, SASA, function keywords)를 통해 여러 levels of abstraction에서 prompts를 받아 programmable 디자인 수행 가능.
- Single-Track Prompt Fidelity: 개별 track prompt (예: structure constraints, keyword) 준수 능력 검증됨 (cRMSD, SS3 accuracy, SASA Spearman r, keyword recovery 지표 사용). 생성된 단백질은 높은 구조적 confidence (pTM > 0.8) 보임 (단, mode switching - 구조는 맞으나 keyword 불일치 등 - 경우 관찰됨).
- Out-of-Distribution (OOD) Generalization: Training set과 유사도 낮은 (TM < 0.7) 구조 또는 인공 디자인 기반 prompts 제공 시, training data와 sequence/structure 유사도가 낮은 (<20% seq id, 낮은 TM score) 새로운 단백질을 높은 구조적 confidence (pTM > 0.8, pLDDT > 0.8)로 generation 가능. 이는 model이 학습 분포를 넘어 일반화함을 시사.
- Composable Prompting & Complex Task Solving: Atomic-level motif (예: catalytic site) 제약과 high-level fold (secondary structure 또는 keyword prompt) 제약을 결합한 복합 prompts 해결 능력 입증.
- Novel Scaffold Generation: Motif의 원래 scaffold를 단순히 retrieving하는 대신, 종종 새로운 scaffold (median TM score 0.40 ± 0.10 vs original)를 generation. 때로는 알려진 구조와 유사성 낮은 (max TM < 0.5) 완전히 새로운 fold 생성 또는 기존 fold에 motif를 grafting하는 방식으로 해결.
- High Designability: 생성된 solutions은 inverse folding (ESM-IF1) 및 refolding (ESMFold) 후에도 원래 구조를 잘 복구하여 높은 designability (median pTM 0.80 ± 0.08, scTM 0.96 ± 0.04)를 보임.
- Creative Design Example (Protein Compression): 특정 sequence/coordinates (catalytic triad)와 function keywords (trypsin)를 prompt하면서 전체 길이를 1/3 단축(223→150 residues)하도록 요구. ESM3는 활성 부위 구조(RMSD 0.73 Å)와 전체 fold를 유지하면서 단축된 단백질을 high designability (pTM 0.84)로 성공적으로 디자인.
- Conclusion: ESM3의 prompt 기반 제어 능력은 high-level 요구사항부터 atomic-level 제약까지 다양한 abstraction level에서 단백질 설계를 위한 rational approach를 제공하며, generative model이 prompt와 생물학적 complexity 사이의 간극을 메움.
쉬운 설명: "Programmable design with ESM3" 섹션 요약
이 섹션은 ESM3라는 AI를 우리가 원하는 대로 '프로그래밍'해서 단백질을 디자인할 수 있는지 보여줍니다. 마치 컴퓨터 프로그램을 짜듯이, ESM3에게 다양한 종류의 '지시사항'(prompts)을 줄 수 있습니다. 예를 들어, 단백질의 특정 부위 모양(structure coordinates), 전체적인 접힘 구조(fold topology), 또는 단백질의 기능(function keywords) 등을 지정해 줄 수 있습니다.
실험 결과, ESM3는 이런 지시사항들을 꽤 잘 따르는 것으로 나타났습니다. 심지어 "이런 특정 기능 부위(motif)를 가지고 있으면서, 전체적으로는 저런 모양(fold)을 갖는 단백질을 만들어줘"와 같이 여러 종류의 복잡한 지시사항을 조합해서 줘도 ESM3는 해결책을 찾아냈습니다.
더 흥미로운 점은 ESM3가 단순히 기존에 있던 단백질 디자인을 베끼는 것이 아니라, 주어진 조건에 맞춰 완전히 새로운 단백질 구조(scaffold)를 창조해낼 수 있다는 것입니다. 때로는 자연에서 발견된 적 없는 독특한 구조를 만들어내기도 했습니다.
한 예로, 연구진은 특정 단백질(트립신)의 핵심 기능 부위 정보만 주고 "이 기능을 유지하면서 단백질 크기를 1/3 줄여봐"라고 지시했습니다. ESM3는 이 어려운 요구사항을 만족시키는, 더 작지만 제대로 작동하는 단백질 디자인을 성공적으로 만들어냈습니다. ("단백질 압축" protein compression)
결론적으로, ESM3는 사용자가 원하는 다양한 수준의 요구사항에 맞춰 단백질을 설계할 수 있는 강력하고 창의적인 도구이며, 단백질 디자인 분야에 새로운 가능성을 열어줍니다.
여러 정보 + 3D 좌표 -> 디스크립트한 토큰 -> 다시 컨티뉴어스한 피쳐로 -> 트랜스포머 통과 -> task에 사용