AI바라기의 인공지능

Protein : 논문 리뷰 : PROTDYN: A FOUNDATION PROTEIN LANGUAGE MODEL FOR THERMODYNAMICS AND DYNAMICS GENERATION 본문

논문리뷰

Protein : 논문 리뷰 : PROTDYN: A FOUNDATION PROTEIN LANGUAGE MODEL FOR THERMODYNAMICS AND DYNAMICS GENERATION

AI바라기 2026. 4. 7. 20:39

 

[Study Note: ProTDyn: A Foundation Protein Language Model for Thermodynamics and Dynamics Generation]

Terminology

  • Conformational Ensemble: 단백질이 평형 상태(equilibrium)에서 가질 수 있는 다양한 구조적 상태들의 집합.
  • Molecular Dynamics (MD) Simulation: 원자 수준에서 시간에 따른 분자의 움직임을 계산하여 단백질의 구조 변화를 예측하는 물리적 시뮬레이션 방식.
  • Thermodynamics: 단백질의 평형 구조 분포(equilibrium distribution)를 다루는 영역.
  • Dynamics: 단백질 구조가 한 상태에서 다른 상태로 변하는 시간적 전이 과정(transition)을 다루는 영역.
  • Structure Token: 3차원 단백질 구조를 VQ-VAE를 통해 이산화(discretization)하여 만든 모델 입력용 토큰.
  • Dynamics Inpainting: 거친 시간 해상도(coarse time-resolution)의 궤적 사이의 빈 공간을 정교한(fine-grained) 움직임으로 채워 넣는 기술.
  • TICA (Time-lagged Independent Component Analysis): 단백질의 느린 역학적 움직임(slow dynamic modes)을 추출하기 위한 차원 축소 기법.
  • JSD (Jensen-Shannon Divergence): 두 확률 분포 간의 유사도를 측정하는 지표 (값이 낮을수록 MD 시뮬레이션과 유사함).
  • Rotary Positional Embedding: Sequence와 Time 정보(temporal position)를 동시에 인코딩하기 위해 도입된 위치 정보 임베딩 방식.

Purpose of the Paper

  • 기존 연구의 한계: 기존의 단백질 생성 모델들은 Thermodynamics(평형 구조 생성) 또는 Dynamics(전이 과정 생성) 중 하나에만 특화되어 있었음. 이로 인해 단백질의 생물물리학적 핵심인 '평형 상태'와 '전이 역학' 사이의 유기적인 연결을 설명하지 못함.
  • 새로운 접근 방식: Thermodynamics와 Dynamics를 별개의 작업으로 처리하던 기존 방식에서 벗어나, 이를 하나의 Multimodal Foundation Model 내에서 통합하여 단일 프레임워크로 구현하고자 함.
  • 연구 목표: 고비용의 MD Simulation을 대체할 수 있도록, 다양한 timescale을 아우르는 확장 가능하고 효율적인 단백질 모델링 도구인 ProTDyn을 제안함.

Key Contributions & Novelty

  • Key Contributions
    • Unified Multimodal Architecture: ESM3를 backbone으로 사용하여, 구조 토큰(structure tokens)을 통해 Thermodynamics와 Dynamics를 동시에 학습할 수 있는 구조 설계.
    • Three Complementary Objectives:
      1. Thermodynamics generation: Boltzmann statistics에 부합하는 i.i.d. 평형 구조 샘플링.
      2. Multiscale dynamics generation: 다양한 시간 해상도에서 시간적으로 일관된(temporally coherent) 궤적 생성.
      3. Dynamics inpainting: coarse trajectory를 물리적으로 타당한 fine-grained 경로로 복원.
    • Two-layer Rotary Positional Embedding: Residue 단위의 위치 정보와 Temporal(시간) 단위의 위치 정보를 동시에 인코딩하여 dynamic transition 정보를 효과적으로 캡처.
  • Novelty
    • Task Unification: 기존 모델들이 놓쳤던 Thermodynamics와 Dynamics의 통계 역학적 연결 고리를 하나의 모델로 통합함.
    • Multi-timescale Bridging: Nanoseconds에서 Microseconds까지의 폭넓은 timescale을 하나의 프레임워크에서 다룰 수 있는 유연한 scheduling 도입.

Experimental Highlights

  • Experimental Setup
    • Datasets: Swiss-Prot (AlphaFold subset), mdCath, BioEmu (Octapeptides, CATH1, CATH2, MEGAsim) 등 대규모 MD 데이터 결합.
    • Baselines: 최신 SOTA 모델인 BioEmu와 비교.
    • Metrics: Rg (Radius of Gyration), RMSD, TICA 성분을 이용한 JSD 측정.
  • Key Results
    • Superior Distributional Similarity: CATH1 테스트 데이터셋에서 ProTDyn은 BioEmu 대비 Rg, RMSD, TICA 모든 지표에서 더 낮은 JSD를 기록하며 MD 시뮬레이션에 더 가까운 성능을 보임 (Table 1 참조).
    • Dynamics (100 ns) vs (10 ns): 100 ns 단위의 큰 time step을 사용하는 것이 10 ns 단위보다 더 높은 품질의 ensemble을 생성함. 이는 작은 time step을 반복할 때 발생하는 Error accumulation(오차 누적) 문제를 큰 step과 Inpainting의 조합으로 극복했음을 입증함 (Fig 3, 4 참조).
    • Generalization: 학습 데이터에 포함되지 않은 Octapeptides에 대해서도 BioEmu와 대등하거나 우수한 Generalization 성능을 보임 (Table 2 참조).

Limitations and Future Work

  • Limitations
    • Data Dependency: 모델 성능이 고품질의 equilibrium MD 데이터 가용성에 크게 의존함. 데이터가 부족한 영역에서는 성능 제약이 발생할 수 있음.
    • Manual Memory Kernel: 현재는 각 timescale에 맞는 memory kernel을 수동으로 지정함. 이를 자동화하거나 최적화하는 정교한 방법론이 필요함.
  • Future Work
    • Transition Path Sampling: 현재 inpainting 기술로 사용하는 방식을 넘어, 보다 정밀한 transition path sampling 기법을 통합하여 모델의 물리적 정확도를 높일 계획임.
    • Physics-based Integration: 모델이 제공하는 Exact likelihood evaluation 능력을 활용하여, Detailed balance와 같은 통계 역학적 법칙을 loss function에 직접 강제(enforce)함으로써 더욱 물리적으로 일관된(physically consistent) 모델로 발전시킬 가능성이 있음.

Overall Summary

ProTDyn은 단백질의 평형 구조(Thermodynamics)와 동적 움직임(Dynamics)을 하나의 Multimodal Foundation Model로 통합한 혁신적인 연구입니다. ESM3 기반의 architecture에 이중 Rotary Positional Embedding과 세 가지 학습 목적 함수를 도입하여, 기존 SOTA 모델인 BioEmu를 능가하는 성능을 보여주었습니다. 특히, 큰 time step과 Dynamics inpainting을 결합하여 오차 누적 문제를 해결하고 다양한 timescale을 성공적으로 모사했다는 점에서, 고비용 MD Simulation을 대체할 강력한 대안으로서 큰 의의를 가집니다.


쉬운 설명

기존 연구들이 단백질의 **'정지 사진(평형 상태)'**만 잘 찍거나, 혹은 화질이 깨진 **'끊기는 영상(짧은 움직임)'**만 만들 수 있었다면, ProTDyn은 **'고화질 사진'**과 **'부드러운 고해상도 영상'**을 모두 만들어낼 수 있는 카메라와 같습니다. 특히, 영상의 중간중간 끊긴 부분을 AI가 자연스럽게 채워넣는(Inpainting) 기술을 써서, 아주 긴 시간 동안의 단백질 움직임도 마치 눈앞에서 보는 것처럼 매끄럽게 재현해냅니다.

 

 

ABSTRACT

Molecular dynamics (MD) simulation은 오랫동안 단백질의 conformational landscapes와 dynamics를 탐구하기 위한 주요 계산 도구로 사용되어 왔지만, 높은 계산 비용으로 인해 그 적용에 한계가 있었습니다. 우리는 단일 framework 내에서 conformational ensemble generation과 multi-timescale dynamics modeling을 통합하는 foundation protein language model인 ProTDyn을 제시합니다.

이러한 작업들을 개별적으로 처리하는 이전 접근 방식들과 달리, ProTDyn은 유연한 independent and identically distributed (i.i.d.) ensemble sampling과 dynamic trajectory simulation을 가능하게 합니다. 다양한 단백질 시스템 전반에 걸쳐, ProTDyn은 thermodynamically consistent ensembles를 생성하고, 여러 시간 척도에 걸친 dynamical properties를 충실히 재현하며, training data를 넘어선 단백질들에도 generalize 합니다.

이는 기존의 MD simulations에 대한 scalable하고 efficient한 대안을 제공합니다. Code는 다음 링크에서 확인할 수 있습니다: https://github.com/Harrydirk41/ProTDyn

 

 

1 INTRODUCTION

더보기

Proteins는 촉매 작용, 신호 전달 및 운반과 같은 필수적인 기능을 수행하는 생명체의 기본 구성 요소입니다. 이들의 conformation flexibility와 dynamic한 특성을 이해하는 것은 protein 기능의 분자적 메커니즘을 밝히는 데 중요합니다.

molecular dynamics (MD) simulations과 같은 전통적인 계산 방법들은 protein folding 및 unfolding과 같은 생체 분자 과정을 연구하기 위해 수십 년 동안 최적화되고 널리 사용되어 왔습니다. 그러나 simulation time step이 생물학적으로 유의미한 과정의 timescales보다 수십 배 작아야 하기 때문에 MD는 여전히 계산적으로 비용이 많이 듭니다. 결과적으로, long-timescale protein dynamics를 simulating하는 것은 종종 불가능합니다.

machine learning, 특히 deep generative models의 최근 발전은 proteins를 model하기 위한 강력한 대안들을 도입했습니다. equilibrium conformational ensembles를 sample하고, 별도로 protein dynamics를 learn하기 위해 Generative approaches가 개발되었습니다. 최근의 models는 또한 thermodynamics와 dynamics를 연관시키는 statistical mechanics의 원리를 통합합니다. 그러나 equilibrium conformational ensembles (thermodynamics)와 여러 timescales에 걸친 conformational transitions (dynamics)를 동시에 설명할 수 있는 scalable하고 transferable한 protein emulator models는 아직 사용할 수 없습니다. 이는 protein-protein interaction, allosteric regulation, biocondensation, 그리고 conformational heterogeneity를 이해하는 데 equilibrium ensembles와 transition dynamics가 모두 필수적인 protein biophysics를 정확하게 modeling하는 것과 같은 추가적인 발전을 제한합니다.

최근의 발전과 한계점들을 바탕으로, 우리는 Protein Thermodynamics 및 Dynamics의 generative modeling을 위한 통합된 framework인 ProTDyn을 소개합니다. conformational ensemble generation과 conformational dynamics propagation을 개별적으로 처리하는 이전 approaches와 달리, ProTDyn은 이를 단일 multimodal architecture 내에 통합합니다. ProTDyn은 수십만 개의 protein sequences와 백만 개 이상의 conformations에 대해 trained되며, protein conformational space에 대한 포괄적인 이해를 위해 model을 train하기 위해 single-structure 및 equilibrium MD simulation data를 모두 활용합니다. 게다가, ProTDyn은 nanoseconds에서 microseconds에 이르는 timescale을 가진 다양한 protein systems의 conformational transitions를 modeling할 수 있게 해주는 multi-timescale training을 수행할 수 있습니다. 이러한 flexible scheduling은 short-timescale 및 long-timescale dynamics를 연결합니다. 종합하면, 이러한 capabilities는 상호 보완적입니다. 정확한 thermodynamic ensembles는 dynamic propagation을 위한 안정적인 baselines를 제공하는 반면, 현실적인 dynamics는 generated된 equilibrium ensembles의 diversity와 fidelity를 향상시킵니다.

요약하자면, 우리는 ProTDyn의 세 가지 핵심 capabilities를 보여줍니다:

  1. Thermodynamics generation: Boltzmann statistics와 일치하는 learned ensemble distributions로부터 independent and identically distributed (i.i.d.) equilibrium protein structures를 sampling합니다.
  2. Multiscale dynamics generation: 빠른 local fluctuations와 느린 global transitions를 모두 포착하여, 여러 time-resolutions에서 temporally coherent trajectories를 generating합니다.
  3. Dynamics inpainting: finegrained time-resolution, 즉 물리적으로 타당한 dynamic pathways를 recovering함으로써 coarse time-resolution trajectories를 refining합니다.

thermodynamics와 dynamics를 단일 generative framework 내에 통합함으로써, ProTDyn은 scalable하고 transferable하며 flexible하고 계산적으로 효율적인 protein modeling을 가능하게 합니다. 특히, 기존의 protein ensemble 및 dynamics generators와 비교하여, ProTDyn은 다양한 설정 전반에 걸쳐 conformational ensembles를 generating하는 데 더 큰 유연성을 제공합니다. 우리는 training dataset 외부의 proteins에 대한 conformational ensembles를 generating하고 training regime을 넘어선 protein dynamics를 simulating하는 것을 포함한 multiple tasks에서 ProTDyn의 accuracy와 transferability를 validate합니다. Experimental results는 ProTDyn이 reference MD simulations와 잘 일치하는 동시에 unseen systems에 효과적으로 generalizing한다는 것을 확인시켜 줍니다.

 

 

📝 ProTDyn 1 INTRODUCTION 정리 노트

1. 연구 배경 및 문제 제기

  • 한계점: 전통적인 MD simulation은 높은 연산 비용으로 인해 생물학적으로 유의미한 long-timescale 단백질 dynamics를 모델링하는 데 사실상 불가능함.
  • 연구 공백: 최근 deep generative models가 도입되었으나, equilibrium conformational ensembles 생성(thermodynamics)과 protein dynamics 학습을 개별적인 task로 다루고 있음. 이 두 가지를 동시에 설명할 수 있는 scalable하고 transferable한 통합 단백질 emulator model이 부재함.

2. 제안 방법론: ProTDyn

  • 핵심 개념: 단백질 Thermodynamics와 Dynamics의 generative modeling을 단일 multimodal architecture 내에 통합한 foundation protein language model.
  • 학습 방식: 수십만 개의 sequence와 백만 개 이상의 conformation에 대해 학습. 모델이 단백질 conformational space를 포괄적으로 이해할 수 있도록 single-structure 및 equilibrium MD simulation data를 모두 활용함.
  • Multi-timescale training: Nanoseconds에서 microseconds에 이르는 광범위한 timescale의 conformational transitions 모델링이 가능하며, short 및 long-timescale dynamics를 유연하게 연결함.
  • 상호 보완 효과(Synergy): 정확한 thermodynamic ensembles는 dynamic propagation을 위한 안정적인 baseline을 제공하며, 현실적인 dynamics는 생성된 equilibrium ensembles의 다양성과 정확도를 크게 향상시킴.

3. 핵심 기능 3가지

  • Thermodynamics generation: Boltzmann statistics에 부합하는 분포에서 i.i.d. equilibrium protein structures를 유연하게 샘플링.
  • Multiscale dynamics generation: 빠른 local fluctuations와 느린 global transitions를 모두 포착하여, 다양한 time-resolutions에서 temporally coherent trajectories 생성.
  • Dynamics inpainting: 물리적으로 타당한 fine-grained time-resolution pathways를 복원하여, 듬성듬성한 coarse time-resolution trajectories를 정밀하게 정제.

4. 결과 및 의의

  • 기존 generator들과 비교하여 훨씬 뛰어난 유연성을 제공하며, 학습 데이터 외부의 unseen proteins 및 training regime을 넘어선 상황에서도 reference MD simulations와 잘 일치하는 강력한 transferability 입증.

💡 쉬운 설명 : 1 INTRODUCTION

이 섹션은 단백질의 형태와 움직임을 연구하는 데 있어서 기존 방식의 답답함을 단번에 해결해 줄 새로운 인공지능 모델, ProTDyn의 등장을 알리는 부분입니다.

단백질을 무대 위에서 춤을 추는 '무용수'라고 상상해 보세요. 무용수가 취할 수 있는 모든 멈춤 동작(사진)들을 파악하는 것을 Thermodynamics(열역학, 앙상블)라고 하고, 한 동작에서 다른 동작으로 자연스럽게 이어지는 춤의 과정(동영상)을 아는 것을 Dynamics(동역학, 궤적)라고 합니다.

  • 기존의 문제점: 기존 방식(MD simulation)은 무용수의 춤을 1초에 수백만 프레임씩 일일이 계산하며 그려야 해서 너무 느리고 컴퓨터 자원이 많이 들었습니다. 그래서 AI를 도입했지만, 어떤 AI는 '사진'만 잘 찍고 어떤 AI는 짧은 '동영상'만 잘 만들 뿐, 사진과 동영상을 모두 완벽하게 다루는 똑똑한 카메라 모델은 없었습니다.
  • ProTDyn의 해결책: ProTDyn은 사진(형태 분포)과 동영상(시간에 따른 변화)을 하나의 AI 모델에서 동시에 처리할 수 있는 만능 도구입니다. 정지된 사진과 변화하는 영상을 모두 학습하여, 짧은 찰나의 움직임부터 긴 시간 동안의 변화까지 모두 파악할 수 있게 되었습니다.
  • 어떤 마법을 부릴 수 있나? 1. 사진 찍기 (Thermodynamics generation): 무용수가 자연스럽게 취할 수 있는 다양하고 현실적인 포즈 사진들을 무작위로 척척 뽑아냅니다. 2. 동영상 찍기 (Multiscale dynamics generation): 손가락의 미세한 떨림(빠른 움직임)부터 무대 반대편으로 크게 도약하는 동작(느린 움직임)까지 흐름이 자연스러운 전체 춤 영상을 만들어냅니다. 3. 끊긴 영상 복원하기 (Dynamics inpainting): 중간중간 프레임이 빠져서 뚝뚝 끊어지는 저화질 춤 영상을 입력하면, 비어있는 중간 동작들을 물리적으로 말이 되게 촘촘히 채워 넣어 부드러운 고화질 영상으로 살려냅니다.

결과적으로 ProTDyn은 처음 보는 단백질에 대해서도 기존의 복잡하고 느린 시뮬레이션 방식만큼이나 정확하면서도, 훨씬 빠르고 똑똑하게 단백질의 형태와 움직임을 예측해 낼 수 있다는 것이 이 논문의 핵심 출발점입니다.

 

 

2 BACKGROUND

더보기

Molecular dynamics.

Molecular dynamics(MD)는 Newton의 운동 방정식을 integrating하여 molecular system의 time evolution을 simulate합니다. molecular configuration $x=(x_1,\dots,x_N) \in \mathbb{R}^{3N}$ 내의 각 입자 $i$에 대해, 방정식은 다음과 같습니다.

$$M_i\ddot{x}_i=-\nabla_{x_i}U(x_1,\dots,x_N)$$

여기서 $M_i$는 입자 $i$의 질량이며, $U:\mathbb{R}^{3N} \rightarrow \mathbb{R}$는 종종 force field에 의해 모델링되는 potential energy입니다. 구조적으로, 고정된 온도 $T$에서의 MD simulation은 시스템의 Boltzmann distribution으로 converge할 것입니다.

$$P(x) \propto e^{-U(x)/k_BT}$$

여기서 $k_B$는 Boltzmann 상수입니다.

Deep generative modeling for proteins.

deep generative modeling의 최근 발전은 단백질 conformational ensembles를 simulate할 수 있는 새로운 기회를 열었습니다. 이러한 models는 몇 시간 내에 conformational ensembles와 transitions를 generate할 수 있으며, 기존 MD simulations에 대한 efficient alternative를 제공합니다. 일련의 연구는 thermodynamics를 목표로 하며, structural databases나 equilibrium MD trajectories로부터 conformations에 대한 stationary Boltzmann distribution $P(x|s)$를 직접 learning합니다. 이러한 models는 equilibrium ensembles를 recover하지만 dynamical information이 부족합니다. thermodynamics modeling 외에도, 상호 보완적인 approaches는 MD를 가속화하기 위해 transition density $P(x_{t+\Delta t}|x_t,s)$를 learning하며 dynamics에 집중합니다. 비록 이러한 방법들이 short-time kinetics를 predict할 수 있지만, 종종 제한된 MD data에 대해 trained되어, 드물거나 long-timescale transitions에 generalize하는 능력에 제한을 받습니다. 빠른 발전에도 불구하고, 현재의 approaches는 statistical mechanics에 기반한 본질적인 연결을 간과한 채 thermodynamics나 dynamics 중 하나에만 특화되어 있습니다. 여러 scales에 걸쳐 equilibrium ensembles와 transition dynamics를 모두 predict할 수 있는 통합된 foundation model은 아직 확립되지 않았습니다.

Protein conformation representation.

단백질이 본질적으로 three-dimensional objects임에도 불구하고, 최근의 발전은 conformations가 discrete tokens의 sequences로도 represent될 수 있음을 보여주었으며, 이는 강력한 sequence modeling 기술의 사용을 가능하게 합니다. 본 연구에서, 우리는 단백질 conformations를 tokenized sequences $c \in \mathbb{Z}^N$으로 map하기 위해 pretrained ESM3 structure tokenizer를 채택하며, 여기서 각 residue에는 4,096개의 structure tokens (그리고 4개의 special tokens) 중 하나가 할당됩니다. 이러한 tokens는 각 residue 주변의 local structural neighborhood에 대한 작고 learned representation을 제공합니다. discretization은 VQ-VAE encoder로 수행되며, paired decoder는 generated token sequences를 다시 three-dimensional coordinates로 reconstructs합니다.

 

📝 ProTDyn 2 BACKGROUND 정리 노트

1. Molecular dynamics(MD)의 본질과 한계

  • 전통적인 MD는 Newton의 운동 방정식($M_i\ddot{x}_i=-\nabla_{x_i}U(x_1,\dots,x_N)$)을 기반으로 분자 시스템의 time evolution을 시뮬레이션함.
  • 고정된 온도에서 시스템은 결국 Boltzmann distribution($P(x) \propto e^{-U(x)/k_BT}$)으로 수렴하게 됨. 하지만 time step을 극도로 작게 설정해야 하므로 생물학적으로 유의미한 긴 시간의 과정을 시뮬레이션하기에는 연산 비용이 너무 높음.

2. Deep generative modeling for proteins의 현주소와 Research Gap

  • 높은 연산 비용의 MD를 대체하기 위해 deep generative modeling이 도입되었으나, 현재 크게 두 갈래로 나뉘어 한계를 보임.
    • Thermodynamics 타겟: 구조 데이터베이스나 MD 궤적으로부터 $P(x|s)$를 직접 학습함. Equilibrium ensembles를 성공적으로 생성하지만 dynamical information을 담지 못함.
    • Dynamics 타겟: MD를 가속화하기 위해 transition density인 $P(x_{t+\Delta t}|x_t,s)$를 학습함. Short-time kinetics 예측은 가능하지만, 학습 데이터의 한계로 인해 rare 하거나 long-timescale transitions로 generalize 하는 데 실패함.
  • 핵심 논점: 현존하는 모델들은 statistical mechanics 기반의 연결성을 간과한 채 thermodynamics나 dynamics 중 하나에만 특화되어 있음. 이 두 가지를 multi-scale로 아우르는 unified foundation model이 부재한 상황임.

3. Protein conformation representation 전략

  • 3D 단백질 conformation을 강력한 sequence modeling 기법에 적용하기 위해 discrete tokens의 sequence($c \in \mathbb{Z}^N$)로 변환하는 방식을 채택함.
  • Pretrained ESM3 structure tokenizer를 사용하여 VQ-VAE encoder로 각 residue를 4,096개의 structure tokens 중 하나로 맵핑함. 이후 paired decoder를 통해 생성된 token sequences를 다시 3D 좌표로 reconstruct 함.

💡 쉬운 설명 : 2 BACKGROUND

이 섹션은 왜 ProTDyn 같은 새로운 AI 모델이 필요했는지, 그리고 복잡한 입체 단백질 구조를 AI가 어떻게 쉽게 읽고 쓰게 만들었는지에 대한 배경지식을 설명합니다.

  • 기존 시뮬레이션(MD)의 한계: 단백질의 움직임을 물리 법칙으로 하나하나 계산하는 전통적인 방식입니다. 아주 정확하지만, 1초의 움직임을 시뮬레이션하기 위해 엄청난 시간이 걸리는 비효율적인 방식입니다.
  • 기존 AI 모델들의 반쪽짜리 성공: 시뮬레이션 속도를 높이기 위해 AI(Generative modeling)가 도입되었습니다. 하지만 현재 AI들은 '이 단백질은 평소에 어떤 모양(Thermodynamics)을 하고 있을까?'만 맞추거나, '다음 0.001초 동안 어떻게 움직일까(Dynamics)?'만 예측하는 식으로 각기 따로 놀고 있습니다. 단백질의 전체적인 형태 분포와 시간에 따른 움직임을 하나로 완벽하게 합친 AI가 아직 없다는 것이 이 논문이 짚어낸 핵심 문제입니다.
  • 단백질을 '글자'로 바꾸는 마법: 단백질은 3D 입체 구조라 AI가 통째로 이해하기 어렵습니다. 그래서 연구진은 3D 모양의 특징들을 마치 알파벳처럼 4,096개의 단어장(Token)으로 쪼갰습니다(ESM3 사용). 이렇게 하면 복잡한 3D 단백질 구조를 단순한 '문장(Sequence)'처럼 만들 수 있어서, 텍스트를 다루는 강력한 언어 모델 AI 기술을 단백질 연구에 그대로 가져다 쓸 수 있게 됩니다.

 

 

 

더보기

Figure 1: ProTDyn Framework 설명

제공해주신 이미지는 논문의 핵심인 ProTDyn의 전체적인 framework를 시각적으로 요약한 모식도입니다. 이 모델은 protein sequence와 structure의 discretized representations를 입력으로 받아 작동하는 multimodal protein language model입니다. 이미지는 크게 모델이 수행하는 세 가지 주요 역할(상단)과 데이터가 처리되는 내부 구조(중·하단)로 나눌 수 있습니다.


1. 세 가지 핵심 Tasks (상단 영역)

이미지 맨 위쪽의 상자들은 ProTDyn이 단일 framework 내에서 동시에 수행할 수 있는 세 가지 주요 작업을 직관적으로 보여줍니다.

  • Thermodynamics: 왼쪽 상단의 겹쳐진 여러 단백질 구조들처럼, 주어진 단백질이 가질 수 있는 다양한 안정적인 상태의 구조들을 무작위로 생성해 내는 equilibrium conformational ensemble generation 작업을 의미합니다.
  • Dynamics: 오른쪽 상단의 화살표로 이어지는 일련의 단백질 구조들처럼, 시간에 따라 단백질의 형태가 어떻게 변해가는지를 보여주는 forward trajectory generation 작업을 나타냅니다. multiple timescales에 걸친 변화를 예측합니다.
  • Dynamics inpainting: 처음 구조와 끝 구조 사이에 물음표(?)가 있는 것처럼, 시간 간격이 커서 듬성듬성한 coarse trajectories 사이의 잃어버린 중간 과정을 예측하여 촘촘한 fine-grained trajectories로 recovery하는 작업입니다.

2. Architecture 흐름 (하단에서 상단으로)

이미지의 아래쪽에서 위쪽으로 향하는 화살표들은 데이터가 어떻게 처리되고 학습되는지 그 흐름을 보여줍니다.

  • Inputs: 맨 아래쪽을 보면 Sequence $s$(파란색 블록)와 시간에 따른 여러 단계의 Structure $c^0, c^{\delta t}, \dots, c^{M\delta t}$(주황색 블록)가 모델의 입력값으로 들어갑니다.
  • Embeddings: 입력된 sequence와 structure 토큰들은 각각 Residual positional embedding을 통과하여 위치 정보를 갖게 됩니다. 특히 동적인 변화를 나타내는 구조 데이터들(Structure $c^{\delta t}$ 등)은 시간에 따른 순서와 간격을 모델이 이해할 수 있도록 Temporal positional embedding을 추가로 거치게 됩니다.
  • ProTDyn Backbone: 임베딩된 정보들은 중앙의 회색 박스인 ProTDyn 내부의 강력한 autoregressive 기반 Transformer Blocks를 통과하며 복잡한 패턴을 학습합니다.
  • Output & Loss: 모델은 연산을 마친 후 상단의 Structure head를 통해 다음 단계에 올 구조 토큰들을 예측하여 출력합니다(가장 위쪽의 길쭉한 주황색 블록들). 그리고 오른쪽의 점선 화살표가 보여주듯이, 모델의 예측값과 실제 정답 데이터를 비교하여 Cross-entropy loss를 계산하고 이를 최소화하는 방향으로 전체 모델을 학습시킵니다.

 

 

3 METHOD

더보기

이 섹션에서는 Fig. 1에 설명된 바와 같이 ProTDyn의 high-level framework를 소개합니다. ProTDyn은 단일 framework 내에서 세 가지 상호 보완적인 tasks를 수행하도록 설계된 multimodal protein language model입니다: (i) equilibrium conformation ensemble generation (thermodynamics), (ii) multi-timescale dynamic trajectory generation (dynamics), 그리고 (iii) coarse time-resolution trajectories로부터의 fine-grained trajectories recovery (dynamics inpainting). 이 model은 연속적인 residues의 structure tokens를 autoregressively predicting함으로써 작동합니다. 이 architecture는 state-of-the-art protein language model인 ESM3를 기반으로 구축되었으며, dynamic transition information을 encode하기 위해 temporal positional embedding을 추가로 통합합니다.

3.1 OBJECTIVE

우리는 protein conformations를 discrete tokenized space에 표현하고 세 가지 상호 보완적인 learning objectives를 정의합니다:

  1. Thermodynamics: ProtDyn의 thermodynamics module은 conformations의 equilibrium distribution인 $P_\theta(c | s)$를 learn하는 것을 목표로 합니다. 구체적으로, 다음과 같이 equilibrium conformation distributions를 autoregressively하게 models합니다.
$$P_\theta(c | s) = \prod_{i=0}^{N-1} P_\theta(c_i | c_{<i}, s)$$

여기서 $c_i$는 residue $i$의 structure token을 나타내고, $c_{<i}$는 앞선 모든 residues를 나타냅니다. thermodynamics module은 $P_\theta$와 관찰된 protein equilibrium conformation ensemble distribution 사이의 cross entropy를 minimizing함으로써 learned됩니다:

$$L_{\text{thermo}}(\theta) = -\mathbb{E}_{(s,c)\sim\mathcal{D}}\left[ \sum_{i=0}^{N-1} \log P_\theta(c_i | c_{<i}, s) \right]$$

여기서 $\mathcal{D}$는 protein sequences와 그들의 equilibrium conformations의 dataset을 나타냅니다.

  1. Dynamics: dynamics module은 여러 timescales에 걸친 temporal correlations $P_\theta(C | s)$를 learn하는 것을 목표로 하며, 여기서 $C = (c^0, \dots, c^{M \delta t})$는 time step $\delta t$를 가진 길이 $M$의 trajectory segment입니다. 우리는 trajectory distribution을 다음과 같이 factorize합니다.
$$P_\theta(C | s) = \prod_{j=0}^{M} P_\theta(c^{j\delta t} | C_{<t}, s)$$

여기서 $C_{<t}$는 time step $t-1$까지의 이전의 모든 conformations를 나타냅니다. 각 conformation $c^{j\delta t} = (c^{j\delta t}0, \dots, c^{j\delta t}{N-1})$는 다음과 같이 residue-wise하게 추가로 decomposed됩니다.

$$P_\theta(c^{j\delta t} | C_{<t}, s) = \prod_{i=0}^{N-1} P_\theta(c^{j\delta t}_i | c^{j\delta t}_{<i}, C_{<t}, s)$$

model parameters는 관찰된 trajectory data의 negative log-likelihood를 minimizing하여 optimized됩니다:

$$L_{\text{dyn}}(\theta) = -\mathbb{E}_{(s,C)\sim\mathcal{D}}\left[ \sum_{j=0}^{M} \log P_\theta(c^{j\delta t} | C_{<t}, s) \right]$$

여기서 $\mathcal{D}$는 길이 $M$의 dynamic segments와 paired된 protein sequences의 dataset을 나타냅니다. 이 프로젝트에서 우리는 여러 timescales에서 protein dynamical behaviors를 capture하는 것을 목표로 합니다. 구체적으로, model이 $\delta t$ = 1 ns, 10 ns, 그리고 100 ns resolution을 learn하도록 합니다. 또한, 우리는 memory kernel을 $M = 10$으로 설정하며, 이는 각각 10 ns, 100 ns 및 1000 ns의 effective timescales에 해당합니다.

  1. Dynamic inpainting: dynamics module은 큰 timesteps로 trajectory generation을 가능하게 하지만, 이는 fine-grained temporal resolution을 잃는다는 비용을 수반합니다. 이를 해결하기 위해, 우리는 metastable conformational states 사이의 물리적으로 타당한 transition sequences를 reconstructs하는 dynamic inpainting module을 도입합니다. 공식적으로, inpainting task는 두 상태 $c^0$ $c^{M\delta t}$ 사이의 fine-resolution conformations trajectory $C$를 recover하는 것이며, coarse trajectories $P_\theta(C | c^0, c^{M\delta t}, s)$로부터 modeled됩니다. dynamics module과 유사하게, 두 상태 $c^0$ $c^{M\delta t}$ 사이의 dynamic inpainting은 다음과 같은 autoregressive conditional generation problem으로 formulated됩니다:
$$P_\theta(C | c^0, c^{M\delta t}, s) = \prod_{j=1}^{M-1} P_\theta(c^{j\delta t} | C_{<t}, c^0, c^{M\delta t}, s)$$

그리고 training objective는 다음과 같습니다:

$$L_{\text{dynI}}(\theta) = -\mathbb{E}_{(s,C)\sim\mathcal{D}}\left[ \sum_{j=1}^{M-1} \log P_\theta(c^{j\delta t} | C_{<t}, c^0, c^{M\delta t}, s) \right]$$

time step의 선택은 1 ns와 10 ns이며 memory kernel은 dynamics module의 training과 동일하게 따릅니다.

종합하면, 이러한 objectives는 model이 동시에 equilibrium ensembles를 generate하고 여러 timescales에서 protein dynamics를 reproduce할 수 있게 해줍니다. training 동안, ProTDyn은 세 가지 modules 모두의 losses를 minimize하도록 optimized됩니다. losses는 hyperparameter weights를 사용하여 결합됩니다:

$$L_{\text{ProTDyn}} = \omega_1 L_{\text{thermo}} + \omega_2 L_{\text{dyn}} + \omega_3 L_{\text{dynI}}$$

여기서 $\omega_1$, $\omega_2$, 그리고 $\omega_3$는 hyperparameters입니다.

3.2 TRANSFORMER ARCHITECTURE

우리는 ESM3를 따라 transformer backbone을 채택합니다. 특히, 우리는 Post-LN 대신 Pre-LN을, absolute positional embeddings 대신 rotary embeddings를, 그리고 ReLU 대신 SwiGLU activations를 사용합니다. residue-level과 temporal-level positional information을 모두 encode하기 위해, 우리는 two-layer rotary embedding scheme을 도입합니다. 첫 번째 layer는 protein sequence를 따라 residue positions를 나타내는 반면, 두 번째 layer는 temporal positions를 encodes합니다. temporal embedding은 가장 작은 단위가 1 ns에 해당하도록 정의되며, 이는 우리 model이 접근할 수 있는 최소 time resolution입니다.

 

 

📝 ProTDyn 3 METHOD 정리 노트

1. 핵심 프레임워크: Autoregressive Multimodal Protein LM

  • 단백질 구조를 discrete token sequence로 변환 후, 다음 residue의 structure token을 예측하는 Autoregressive(자기회귀) 방식으로 학습함.
  • 하나의 단일 프레임워크 내에서 Thermodynamics(열역학), Dynamics(동역학), Dynamics inpainting(동역학 인페인팅) 3가지 태스크를 동시에 최적화함.

2. 3대 학습 목표 (Objectives)

  • Thermodynamics ($L_{\text{thermo}}$): 주어진 sequence $s$에 대해 평형 상태의 conformation 분포 $P_\theta(c | s)$를 모델링함. 관측된 평형 앙상블 분포와의 Cross-entropy를 최소화하는 방향으로 학습.
  • Dynamics ($L_{\text{dyn}}$): 여러 timescale에 걸친 시간적 상관관계 $P_\theta(C | s)$를 학습함.
    • 타겟 해상도 $\delta t$: 1 ns, 10 ns, 100 ns.
    • Memory kernel $M$: 10으로 설정하여, 유효 timescale을 각각 10 ns, 100 ns, 1000 ns(1 µs)까지 확장하여 캡처함.
  • Dynamic Inpainting ($L_{\text{dynI}}$): 큰 timestep으로 인해 손실된 fine-grained 시간 해상도를 복원하는 태스크. 두 상태($c^0$, $c^{M\delta t}$)가 주어졌을 때 그 사이의 물리적으로 타당한 전이 시퀀스를 조건부 생성(conditional generation)함.

3. Total Loss Formulation

  • 최종 손실 함수는 세 가지 모듈의 Loss를 하이퍼파라미터 가중치($\omega_1, \omega_2, \omega_3$)로 결합하여 동시 최적화(Joint Training)를 수행함.
  • $L_{\text{ProTDyn}} = \omega_1L_{\text{thermo}} + \omega_2L_{\text{dyn}} + \omega_3L_{\text{dynI}}$

4. Transformer Architecture 혁신 요소

  • Backbone: ESM3 구조 채택 (Pre-LN, SwiGLU 활성화 함수 사용).
  • 2-Layer Rotary Embedding 도입 (핵심 기여):
    • 1계층: 단백질 서열 상의 잔기(Residue) 위치 정보를 인코딩.
    • 2계층: Temporal positional embedding을 도입하여 동적 전이(시간) 정보를 인코딩함. 이때 최소 단위를 모델의 최소 시간 해상도인 1 ns로 정의하여 시간적 맥락을 정확히 주입함.

💡 쉬운 설명 : 3 METHOD

이 섹션은 ProTDyn이 내부적으로 어떻게 똑똑하게 학습하고 작동하는지, 그 '두뇌 구조와 공부 방법'을 설명하는 부분입니다.

기본적으로 이 모델은 챗GPT 같은 언어 모델과 똑같은 방식(Autoregressive)으로 작동합니다. 챗GPT가 앞의 단어들을 보고 '다음 단어'를 예측하듯이, ProTDyn은 단백질의 앞부분 구조(토큰)들을 보고 '다음 부분의 구조'를 예측해 냅니다.

ProTDyn은 한 번에 세 가지 과목을 동시에 공부하는 우등생입니다.

1. 열역학 과목 (Thermodynamics): "이 단백질은 가만히 놔두면 주로 어떤 안정적인 모양들을 하고 있을까?"를 수많은 사진 데이터를 보며 통계적으로 학습합니다.

2. 동역학 과목 (Dynamics): "시간이 1 나노초, 10 나노초, 100 나노초 지날 때마다 모양이 어떻게 변할까?"를 학습합니다. 과거의 형태들을 기억($M=10$)하면서 미래의 궤적을 예측해 냅니다.

3. 인페인팅 과목 (Inpainting): "시작 모양과 끝 모양만 주어졌을 때, 그사이의 잃어버린 중간 과정(프레임)을 어떻게 자연스럽게 채워 넣을 수 있을까?"를 연습합니다.

가장 중요한 모델의 비밀 무기 (시간 감각 장착)

단순히 단백질 구조만 다루는 기존 모델과 달리, ProTDyn은 **'시간 위치 임베딩(Temporal positional embedding)'**이라는 특별한 시계를 뇌 안에 달았습니다. 공간적인 위치(이 아미노산이 몇 번째에 있나?)뿐만 아니라 시간적인 위치(이 구조가 몇 나노초 때의 모습인가?)까지 동시에 파악하는 2중 회전 임베딩 방식을 사용합니다. 덕분에 모델이 시간의 흐름에 따른 단백질의 섬세한 율동을 완벽하게 이해하고 그려낼 수 있게 된 것입니다.

 

 

 

 

 

 

 

 

더보기

task는 3개

서열 to 3차원 구조(Conformations) (원자별 좌표)

서열, 초기 구조, time  to 3차원 구조(Conformations) (원자별 좌표)

서열, 초기구조, 끝 구조  to 중간 3차원 구조(Conformations) (원자별 좌표)



학습 방법 설명
서열 to 3차원 구조(Conformations) (원자별 좌표)
이 방법을 기준으로 설명

esm3를 사용해서 3차원 구조를 4096개의 코드북에서 아미노산 1개가 토큰1개로 변환

그리고 본격적으로 ProTDyn 모델 학습
서열, 구조 토큰 시퀀스 두개를 입력으로 하고 위치 정보 결합

모델은 0번부터 i-1번째까이의 이전 구조토큰을과 서열을 인풋으로 받아서 다음 i번쨰 토큰을 맞추게됨.

예측한 토큰들과 정답 토큰을 비교해서 계산.

그리고 디코더를 태워서 다시 3D 원자 좌표로 복원

여기서 학습하는건 오토리그레시브 모델뿐, 나머진 esm3꺼 사용 어이없음


하나씩 task를 학습하는건 아니고 3개의 task를 사실 전부 다 해버림

남은 2개는 어케하느냐

비슷하게 감.
서열 + 특정 시간대 까지의 구조 토큰들(10개 정도 본다함. 최대)
그리고 나서 i-1까지의 그 시점의 토큰들 
이 들어가서 i번째 토큰을 맞춤. 


task3은 어케 하느냐

서열 + 초기구조의 토큰 + 끝 시점의 토큰, 그리고 0부터 t-1 시점의 토큰들
그리고 지금 t시점의 0~t-1번째의 토큰,
이 들어가서 i번쨰 토큰을 맞춤.

task 3도 마찬가지로 10개 프레임만봄.






 

별점 2.5점 / 3점

아무것도 안 한 논문은 아니지만, 새로운 원리를 보여준 논문도 아니다. 잘 만든 패키징과 대규모 학습의 힘이 커서 2.5점