AI바라기의 인공지능
Protein : 빠른논문리뷰 : Evolutionary-scale prediction of atomic-level protein structure with a language mode 본문
Protein : 빠른논문리뷰 : Evolutionary-scale prediction of atomic-level protein structure with a language mode
AI바라기 2025. 11. 17. 20:18ESM-2 & ESMFold 학습 노트
용어 설명 (Terminology)
- ESM-2 (Evolutionary Scale Model 2): 이 논문에서 개발한 단백질 서열 전용 large language model. 8 million부터 최대 15 billion parameters까지 다양한 크기로 학습되었으며, 오직 단백질 서열 데이터만을 사용하여 pre-trained 됨.
- ESMFold: ESM-2 language model의 내부 representation을 입력으로 받아 3D 원자 구조를 직접 예측하는 end-to-end structure prediction model. ESM-2 backbone에 "folding head" (structure module)가 결합된 형태.
- MSA (Multiple Sequence Alignment): 특정 단백질과 진화적으로 관련된 여러 서열들을 정렬한 것. 기존의 AlphaFold2 같은 모델들은 이 MSA 정보로부터 공통적인 진화적 패턴을 추출하여 구조를 예측했으나, 생성에 많은 시간이 소요되는 bottleneck이었음.
- Perplexity: Language model이 특정 sequence를 얼마나 잘 예측하는지를 나타내는 지표. 낮을수록 모델이 해당 sequence의 패턴을 잘 "이해"하고 있음을 의미. 이 논문에서는 perplexity와 구조 예측 정확도 사이의 강한 상관관계를 핵심적인 발견으로 제시함.
- pLDDT (predicted Local Distance Difference Test): 예측된 구조의 각 아미노산 잔기(residue)가 얼마나 정확하게 예측되었는지를 0과 100 사이의 점수로 나타내는 신뢰도 지표.
- TM-score: 두 단백질 구조가 전반적으로 얼마나 유사한지를 0과 1 사이의 값으로 나타내는 지표. 0.5 이상이면 일반적으로 동일한 fold로 간주.
Purpose of the Paper
- 기존 연구의 한계 극복: State-of-the-art인 AlphaFold2는 매우 정확하지만, 진화적으로 연관된 서열들의 MSA를 생성하고 처리하는 과정이 매우 복잡하고 시간이 오래 걸리는 계산적 bottleneck을 가지고 있음. 이로 인해 metagenomic 데이터처럼 방대한 규모의 단백질 구조를 예측하는 데 한계가 있었음.
- 새로운 접근 방식 제시: 이 논문은 "MSA 없이 단일 아미노산 서열(single sequence)만으로 원자 수준의 정확한 3D 구조를 직접 추론할 수 있는가?" 라는 근본적인 질문에 답하고자 함.
- 핵심 가설: Text 분야의 LLM처럼, 단백질 language model을 엄청난 규모(massive scale)로 확장하면, 모델이 서열 데이터에 내재된 진화적, 물리적 제약 조건을 스스로 학습하여 원자 수준의 구조 정보가 모델의 representation에서 '창발(emerge)'할 것이라는 가설을 세움. 즉, 구조 예측을 '검색(search)' 문제에서 '직접 추론(direct inference)' 문제로 전환하고자 함.
Key Contributions & Novelty
Key Contributions (무엇을 했는가)
- Scale에 따른 구조 정보의 창발(Emergence) 현상 증명: Language model의 parameter 수를 8 million에서 15 billion까지 4-orders of magnitude에 걸쳐 확장시키자, 모델의 내부 representation에서 원자 수준의 3D 구조 정보가 저절로 나타나고 정확도가 체계적으로 향상됨을 최초로 보임.
- 초고속, 단일 서열 기반 구조 예측 모델 ESMFold 개발: MSA 탐색 과정을 완전히 제거하여 기존 SOTA 모델 대비 최대 60배 빠른 속도로 구조 예측을 수행하는 ESMFold를 개발.
- ESM Metagenomic Atlas 구축: ESMFold의 빠른 속도를 활용하여, 기존에 구조가 거의 알려지지 않았던 >617 million개의 metagenomic 단백질 서열의 구조를 예측하여 대규모 구조 데이터베이스를 구축함. 이 중 >225 million개는 높은 신뢰도를 가짐.
Novelty (무엇이 새로운가)
- MSA-free 패러다임 전환: 단백질 구조 예측의 필수 요소로 여겨졌던 MSA를 완전히 배제하고, pre-trained 된 large language model의 잠재력만으로 SOTA에 근접한 정확도를 달성한 최초의 연구.
- 단백질 구조에 대한 Scaling Law 발견: 모델의 성능(구조 정확도)이 parameter 수에 따라 예측 가능하게 향상되는 scaling law가 단백질 구조 정보에도 적용됨을 실험적으로 입증함.
- Perplexity와 구조 정확도의 직접적 연결: Language model의 sequence 이해도(perplexity)가 3D 구조 예측 정확도와 직접적으로 강한 상관관계를 가짐을 밝혀내어, language modeling objective 자체가 구조 학습에 기여함을 보임.
Experimental Highlights
- Perplexity와 TM-score의 강한 음의 상관관계: 모델의 validation perplexity와 CASP14 TM-score 간의 상관계수가 -0.99, CAMEO TM-score와는 -1.00에 달함을 보임. 이는 language model이 "이해하기 쉬운" 서열일수록 구조를 더 정확하게 예측한다는 핵심 가설을 강력하게 뒷받침함.
- SOTA 모델과의 경쟁력 있는 성능: ESMFold는 단일 서열만 사용함에도 불구하고, MSA를 사용하는 RoseTTAFold와 CAMEO benchmark에서 유사한 성능(TM-score 0.83 vs 0.82)을 보였으며, perplexity가 낮은 단백질에 대해서는 AlphaFold2와 거의 동등한 성능을 달성함.
- Metagenomic Atlas를 통한 새로운 구조 발견: Atlas의 고신뢰도 예측 구조 중 76.8%가 기존 UniRef90 데이터베이스와 서열 유사도가 90% 미만이었고, 12.6%는 기존 PDB에 알려진 구조와 구조적 유사성(TM-score < 0.5)이 거의 없는 완전히 새로운 fold임을 발견하여 단백질 구조 세계의 "암흑 물질(dark matter)"을 대규모로 밝혀냄.
- 전례 없는 예측 규모와 속도: >617 million개의 단백질 구조 예측을 2000개의 GPU로 단 2주 만에 완료하여, 제안된 방법론의 압도적인 효율성과 확장성을 입증함.
Limitations and Future Work
- Limitation:
- 여전히 AlphaFold2와의 전반적인 정확도 격차는 존재함. 특히 language model이 잘 이해하지 못하는 고(high) perplexity 서열에 대한 예측 정확도가 상대적으로 떨어짐.
- 진화적 정보가 부족한 단백질(low evolutionary depth proteins)에 대한 모델링은 모델 scale이 커질수록 향상되었지만, 여전히 개선의 여지가 있음.
- Future Work:
- 논문은 현재 모델들이 **"parameter, sequence data, computing power 측면에서 scale의 한계에 훨씬 못 미친다"**고 명시적으로 언급함. 이는 향후 더 큰 모델, 더 많은 데이터로 pre-training을 계속하면 현재의 정확도 격차를 더욱 줄이고, 어려운 단백질에 대한 예측 성능도 향상시킬 수 있다는 강한 기대를 시사함.
Overall Summary
이 논문은 15 billion parameter의 초거대 단백질 language model(ESM-2)이 별도의 진화 정보(MSA) 없이 단일 서열만으로 원자 수준의 3D 구조를 직접 학습하고 예측할 수 있음을 증명한 연구이다. 이를 기반으로 개발된 ESMFold는 기존 SOTA 모델 대비 압도적인 속도 향상을 이루어냈으며, 이를 활용해 >617 million개의 구조를 예측한 ESM Metagenomic Atlas를 구축했다. 이 연구는 단백질 구조 예측의 패러다임을 '검색 기반'에서 'LLM의 직접 추론'으로 전환시키며, 진화적 규모(evolutionary-scale)의 구조 생물학 시대를 여는 중요한 이정표를 제시했다.
쉬운 설명
이 논문의 핵심 아이디어는 다음과 같이 비유할 수 있습니다.
- 기존 방식 (AlphaFold2): 처음 보는 고대 언어의 문장 하나를 번역하기 위해, 도서관에 가서 그 문장과 비슷한 모든 문장들(MSA)을 찾아 일일이 비교하고, 공통적으로 나타나는 단어들의 패턴을 분석하여 뜻을 추론하는 방식입니다. 정확하지만 시간이 매우 오래 걸립니다.
- 이 논문의 방식 (ESMFold): 그 언어로 된 도서관의 모든 책(방대한 서열 데이터)을 수없이 읽어서 언어의 문법과 규칙, 뉘앙스를 통째로 체득한 언어학의 대가(ESM-2 LLM)가 되는 것입니다. 이제 새로운 문장을 보면, 굳이 다른 문장들을 찾아보지 않아도 직관적으로 그 구조와 의미를 즉시 파악할 수 있습니다. 이때 'Perplexity'는 이 대가가 새로운 문장을 보고 얼마나 헷갈리는지를 나타내며, 헷갈리지 않을수록(perplexity가 낮을수록) 정확하게 번역할 확률이 높습니다.
Abstract
최근 machine learning의 발전은 protein structure를 예측하기 위해 multiple sequence alignments에 포함된 진화적 정보를 활용해 왔습니다.
우리는 large language model을 사용하여 primary sequence로부터 완전한 원자 수준의 protein structure를 직접 inference하는 것을 입증합니다. Protein sequences를 다루는 language models가 $15$ billion parameters 규모로 확장됨에 따라, learned representations 내에서 protein structure에 대한 원자 해상도의 형상이 나타납니다.
이는 high-resolution structure prediction의 속도를 대폭 가속화하여, metagenomic proteins에 대한 large-scale 구조적 특성 분석을 가능하게 합니다.
우리는 이러한 역량을 적용하여 ESM Metagenomic Atlas를 구축하였으며, $>617$ million 개의 metagenomic protein sequences에 대해 structures를 predicting 했습니다. 이 중 $>225$ million 개가 high confidence로 predicted 되었으며, 이는 자연 단백질의 방대한 범위와 다양성에 대한 시각을 제공합니다.
주인장 이해
서열 준비
서열을 가지고 아미노산 하나하나가 토큰이 됨
각 토큰간의 외적 (순서 고려) -> pair 정보
그 후 pair 정보를 가지고 시퀀스 벡터 다시 업데이트 반복
그 후 각 아미노산 별로 Translation과 Rotation 를 맞추고
그걸 가지고 수정값 계산
그럼 원점이었던 아미노산들이 약간 이동이 되게됨.,
이 과정을 계속 반복
