AI바라기의 인공지능

Protein : DynaFold: A Latent Diffusion Based Generative Framework for Protein Dynamic Trajectory 본문

논문리뷰

Protein : DynaFold: A Latent Diffusion Based Generative Framework for Protein Dynamic Trajectory

AI바라기 2026. 4. 15. 10:43

용어 설명

  • Molecular Dynamics (MD) simulation: 분자 내 원자들의 물리적 움직임을 시간에 따라 뉴턴의 운동 방정식을 풀어 시뮬레이션하는 기법입니다. 단백질 동역학 연구에 가장 정확하지만 연산 비용이 막대합니다.
  • Latent Diffusion: 원본 고차원 데이터를 직접 다루지 않고, 데이터를 압축한 저차원의 latent space(잠재 공간)에서 노이즈를 점진적으로 추가/제거하며 새로운 데이터를 생성하는 모델링 방식입니다.
  • Variational Autoencoder (VAE): 복잡한 3D 구조 데이터를 단순하고 연속적인 latent space로 변환(Encoder)하고, 다시 원래의 3D 구조로 복원(Decoder)하는 딥러닝 아키텍처입니다.
  • Latent Denoising Transformer (LDT): 이 논문에서 제안한 핵심 모듈로, 잠재 공간 상에서 노이즈가 낀 trajectory(궤적) 데이터를 입력받아 공간적/시간적 어텐션(Attention)을 통해 노이즈를 제거하며 동역학적 흐름을 학습합니다.
  • TICA (Time-lagged Independent Component Analysis): 분자 동역학 궤적에서 시간이 지나도 천천히 변하는(slowly relaxing) 주요 구조적 변화를 찾아내어, 복잡한 단백질의 움직임을 저차원(주로 Free Energy Surface)으로 매핑하고 시각화하는 차원 축소 기법입니다.
  • RMSF (Root Mean Square Fluctuation) / RMSD (Root Mean Square Deviation): 단백질 구조가 시간에 따라 얼마나 유연하게 변동하는지(RMSF), 그리고 두 구조 간의 절대적인 형태 차이가 얼마나 나는지(RMSD)를 나타내는 주요 평가 지표입니다.

Purpose of the Paper

  • 기존 연구의 한계: 단백질의 기능은 형태 변화(conformational change)와 직결되므로 이를 분석하는 MD simulation이 필수적이나, 원자 단위의 계산으로 인해 치명적인 연산 비용(비확장성)이 발생합니다. 기존의 generative deep learning 모델들(MDGen, Alphaflow 등)은 MD 수준의 Boltzmann distribution을 정확히 샘플링하지 못하거나, 특정 구조 간의 연속적인 transition trajectory를 제대로 묘사하지 못하며, 여전히 막대한 학습 연산량이 필요하다는 한계가 있었습니다.
  • 새로운 문제 정의 및 접근 방식: 이 연구는 복잡하고 물리적 제약이 강한 3D Cartesian 공간에서 직접 확산(diffusion) 모델을 적용하는 대신, 컴퓨터 비전 분야에서 성공한 Latent Diffusion 방식을 단백질 동역학에 최초로 도입했습니다. VAE를 이용해 단백질 구조를 연속적인 latent space로 단순화시킨 뒤, 이 공간에서 LDT를 통해 궤적(trajectory)을 생성함으로써 적은 데이터와 연산량으로도 정확하고 끊김 없는 protein dynamic trajectory를 생성하는 것을 목표로 합니다.

Key Contributions

  • Architecture 혁신 (Latent Space의 도입):
    • 단백질 구조를 3D 공간 대신 VAE를 통해 학습된 12차원의 latent space로 매핑하여 데이터의 불연속성(물리화학적 충돌 등)문제를 해결했습니다. 이로 인해 모델이 화학적으로 의미 있는 구조적 유사성을 더 매끄럽고 연속적으로 학습할 수 있는 환경을 제공한다는 점에서 큰 참신성을 가집니다.
  • 효율적인 Latent Denoising Transformer (LDT) 설계:
    • 복잡한 3D 구조 특화 네트워크 대신, LDT 내부의 Dynaformer 모듈이 표준 self-attention 매커니즘만을 사용하여 공간적(spatial) 및 시간적(temporal) 의존성을 포착합니다.
    • MDGen(34M)보다 적은 26M parameters라는 매우 가벼운 모델 크기로 설계되어, 연산 효율성을 극대화하면서도 구조적/시간적 흐름을 정확히 캡처합니다.
  • Continuous Conformational Transition Pathway 샘플링:
    • 단순히 독립적인 단백질 앙상블(ensemble) 구조들을 생성하는 기존 방식과 달리, 두 개의 완전히 다른 상태(예: alpha-helix에서 beta-sheet로의 변화) 사이를 연결하는 다양하고 연속적인 전환 경로(transition pathway) 를 시간 흐름에 따라 직접 생성할 수 있는 독창적인 능력을 입증했습니다.

Experimental Highlights

  • Sub-microsecond Dynamics 검증 (ATLAS dataset):
    • Metrics: RMSF, RMSD, PCA space, MMD(Maximum Mean Discrepancy)
    • 결과: DynaFold는 동급 파라미터를 가진 MDGen보다 훨씬 더 다양하고 실제 MD 앙상블에 가까운 RMSF/RMSD 분포를 캡처했습니다. 심지어 대규모 사전 학습을 거친 무거운 Alphaflow-MD 모델과 대등한 수준의 state-of-the-art 성능을 입증했습니다.
  • Large-scale Dynamics 및 폴딩 과정 묘사 (Fast-folding dataset):
    • 10,000 프레임 단위의 평가에서 TICA space 상의 MD ground truth와 매우 유사한 conformational ensembles 영역을 생성했습니다.
    • 특히 단백질의 폴딩/언폴딩 과정에서 핵심 지표인 SASA (Solvent Accessible Surface Area) 가 실제 허용 범위 내에 위치했으며, 전통적인 MD 방식보다 안정 상태에서의 무의미한 반복 움직임을 줄이고 구조적 전환(transition)을 더 빈번하게 탐색하여 탐색 효율성을 입증했습니다.
  • Transition Pathways 샘플링 성공:
    • Alpha-beta transition, folding, unfolding이라는 세 가지 주요 이벤트에서 초기/최종 구조를 조건으로 주었을 때, 생성된 trajectory TICA space 상에서 실제 MD 경로와 밀접하게 안착했습니다. 2차 구조 변화 및 RMSD 추이 곡선이 MD와 매우 유사한 패턴을 보여, 끊기지 않는 자연스러운 동적 경로 생성을 증명했습니다.

Limitations and Future Work

  • Limitations:
    • VAE의 복원 정밀도 한계: 손실 함수를 줄이는 과정에서 모델이 backbone 위주로 학습하여, 일부 beta-sheet 구조나 긴 side-chain 원자들의 물리적 배치를 완벽하게 복원하지 못하는 한계가 있습니다.
    • Side-chain dynamics 묘사 부족: VAE가 정적인 결정 구조(crystal structures)로 학습되었기 때문에, 실제 수용액 상태의 정밀한 side-chain 동적 움직임(dynamics)을 캡처하는 데는 무리가 있습니다.
    • Free energy surface 예측의 한계: 극히 제한된 학습 데이터 양과 소규모 모델 사이즈로 인해, 방대한 데이터로 사전 학습된 거대 앙상블 모델들만큼 완벽한 자유 에너지 표면(free energy surface)을 예측하지는 못합니다.
  • Future Work:
    • 잠재 공간의 고도화: latent space의 복잡성을 줄이면서도 3D 구조 재구성(reconstruction)의 정밀도(특히 side-chain)를 유지하거나 향상시키는 새로운 인코딩 방법론 연구가 필수적입니다.
    • 목표 및 의의: 본 연구의 한계를 극복함으로써 제한된 컴퓨팅 리소스를 가진 연구자들도 고가의 장비나 방대한 시간 없이, 크고 다양한 단백질의 유효한 structural ensembles를 빠르고 정확하게 탐색할 수 있는 보편적인 프레임워크로 발전시킬 계획입니다.

Overall Summary

DynaFold는 막대한 연산량이 소모되는 기존의 분자 동역학(MD) 시뮬레이션을 대체하기 위해, Variational Autoencoder (VAE)  Latent Denoising Transformer (LDT) 를 결합한 Latent diffusion 기반의 생성 프레임워크입니다. 복잡한 3D 단백질 구조를 연속적인 저차원 잠재 공간으로 변환하여 학습함으로써, 모델 크기를 극적으로 줄이면서도 실제 MD 시뮬레이션에 필적하는 정확도로 단백질의 동적인 움직임과 형태 변화 경로를 예측해 냈습니다. 이 논문은 기존 딥러닝 모델들이 해결하지 못했던 '시간에 따른 연속적인 구조 변화(transition pathway)' 샘플링을 효율적으로 구현해 냄으로써, 컴퓨팅 자원이 부족한 환경에서도 신약 개발이나 효소 설계 등에 필요한 단백질 동역학 연구를 획기적으로 가속할 수 있는 중요한 이정표를 제시합니다.


쉬운 설명

단백질이 형태를 바꾸는 과정을 "고화질 3D 비디오"로 만든다고 상상해 보세요. 기존 방식(MD 시뮬레이션)은 비디오의 픽셀(원자) 하나하나가 어떻게 움직일지 복잡한 물리 법칙을 일일이 계산해서 다음 프레임을 만들었기 때문에 시간이 엄청나게 오래 걸렸습니다.

DynaFold는 이 방식을 영리하게 바꿨습니다. 먼저 복잡한 3D 단백질 모양의 '핵심 특징'만 뽑아내어 아주 단순한 '스케치(Latent space)'로 압축합니다. 그리고 이 단순해진 스케치 상태에서 시간에 따라 형태가 어떻게 변할지 슥슥 빠르게 그려낸 다음(Diffusion), 마지막에 다시 세밀한 3D 고화질 형태로 복원해 냅니다. 덕분에 가벼운 컴퓨터로도 단백질이 A 형태에서 B 형태로 변신하는 자연스러운 흐름(Transition pathway)을 놀랍도록 빠르고 정확하게 예측할 수 있게 된 획기적인 기술입니다.

 

Abstract

단백질 접힘 및 conformation 전환의 역동적인 과정은 단백질 기능의 기반을 설명합니다. Molecular dynamics (MD) simulations는 단백질 역학을 탐색하기 위한 정밀한 계산 도구이지만, 높은 computational 비용으로 인해 확장(scale up)하기 어렵습니다.

Deep learning 방법론들은 분자 시뮬레이션의 Boltzmann distribution을 model 하는 데 사용되어 왔지만, MD 수준의 accuracy를 달성하는 것은 여전히 주요한 과제로 남아있습니다.

본 논문에서는 단백질의 dynamic trajectories를 sampling 하기 위해 latent diffusion 기반의 generative deep learning framework인 DynaFold를 제시합니다. DynaFold는 initial structure를 입력으로 받아 training 과정에서 최소한의 trajectory data만으로 다양한 단백질의 conformational dynamics를 일반화(generalize)합니다.

이 모델은 conformational ensembles를 predicting 하고 conformational transition pathways를 sampling 하는 데 있어 state-of-the-art accuracy를 달성하며, 기존 방법들에 비해 우수한 generalization capability와 computational efficiency를 보여줍니다.

우리의 framework는 단백질에 대한 conformation distributions 및 다양한 conformations 간의 전환 과정을 generating 하기 위한 범용적인 솔루션을 제공하여, structural ensembles의 신속한 sampling 및 Boltzmann 시스템 분석을 가능하게 합니다.

 

 

Introduction

 

더보기

단백질은 대부분의 생물학적 과정의 기반이 되며 신약 개발, 효소 공학 및 질병 연구에서 기초 구성 요소로 작용하는 중요한 분자 기계입니다. 이들의 다양한 기능은 내부적으로는 물론 다른 분자들과 상호 작용할 수 있게 해주는 복잡한 conformations 변화에서 비롯됩니다. 결과적으로, 단백질 접힘 원리와 conformations의 ensemble을 규명하는 것은 단백질 기능을 해석하기 위한 전제 조건입니다. 실험적 방법론들이 놀라운 충실도로 conformational ensemble과 probability distribution을 탐색할 수 있지만, 여전히 확장하기는 어렵습니다. Nuclear magnetic resonance (NMR)은 광범위한 시간 척도에 걸쳐 구조적 역학을 측정할 수 있지만, NMR 데이터의 복잡한 인코딩으로 인해 측정값에서 구체적인 구조적 정보를 해석하는 것은 어렵습니다. Cryo-electron microscopy는 여러 conformational states와 이들의 probability distributions을 제공할 수 있지만, 시간과 금전적인 비용이 많이 듭니다.

Molecular dynamics simulation (MD)은 단백질의 conformational landscape를 탐구하기 위한 주요 계산 전략입니다. Newton의 운동 방정식을 수치적으로 적분함으로써, MD는 분자 시스템 내 모든 원자의 위치를 추적하고 conformational transition pathways를 밝히는 시간 분해 trajectories를 산출하며, 이때 sampling 된 states의 ensemble은 Boltzmann distributions을 따릅니다. Molecular dynamics simulations는 해상도에 따라 all-atom과 coarse-grained simulations로 분류됩니다. All-atom simulations는 시스템 내 모든 원자의 자유도를 유지하여, 복잡한 분자 내 역학을 정확하게 특성화할 수 있게 합니다. 그러나 all-atom simulations에 대한 computational 요구량은 원자 수에 따라 비선형적인 스케일링을 보이며, 이로 인해 conformational ensembles의 충분한 sampling을 어렵게 만듭니다. 반대로 MARTINI, CALVADOS, Mpipi와 같은 coarse-grained force fields는 여러 원자를 하나의 coarse-grained 입자로 매핑하여 computational cost를 크게 줄이고 더 큰 생체 분자 시스템의 simulation을 가능하게 합니다. 그러나 coarse-grained 방법은 분자 내 미세한 디테일을 희생하며 정확한 원자 상호작용을 설명할 수 없습니다.

최근 generative deep learning의 발전은 단백질의 구조-기능 연구를 극적으로 가속화하여, 요구되는 computational 시간을 단 몇 GPU 시간으로 단축시켰습니다. Boltzmann generator와 같은 접근법은 generative 시스템의 잠재력을 입증했지만, 이러한 방법을 더 큰 단백질로 scaling 하는 것은 여전히 어려운 과제입니다. Conformational ensembles를 generating 하기 위한 방법들은 암묵적으로 학습된 Boltzmann distributions으로부터 평형 단백질 conformations를 sample 할 수 있는 반면, machine learning 기반의 MD models는 감소된 computational 복잡도로 dynamical trajectories를 generating 하는 능력을 제공합니다. 이러한 발전에도 불구하고, 현재의 generative 방법들은 Boltzmann distributions을 sampling 하는 데 있어 여전히 molecular dynamics simulations에 미치지 못하며, MD 데이터로 trained 된 models는 MD가 설명하는 conformational transition trajectories를 아직 충실하게 재현하지 못하고 있습니다. 더욱이, conformational ensemble models를 training 하는 데 드는 computational cost 또한 상당한 도전 과제를 제시합니다.

본 논문에서 우리는 높은 효율로 conformational trajectories를 sampling 할 수 있는 강력한 latent diffusion 기반의 generative framework인 DynaFold를 소개합니다. 소수의 trajectories에 대한 training 만을 요구하는 DynaFold의 latent denoising model은 단백질 dynamic trajectories를 포착하고 계산 친화적인 model 크기 내에서 주요 conformations 간의 전환 경로를 설명할 수 있습니다. DynaFold는 conformational ensemble prediction 및 conformational changes modelling에 있어 기존 방법들을 능가합니다.

 

 

📝 Introduction 핵심 정리 노트 (AI 연구자 대상)

단백질 역학(protein dynamics) 연구에 있어 기존 시뮬레이션 및 생성 AI 모델들이 가진 한계를 극복하기 위해, 효율적이고 정확한 새로운 diffusion 기반 프레임워크를 제안하는 데 초점을 맞추고 있습니다.

1. 연구 배경 및 기존 방법론의 한계 (Problem Statement)

  • MD Simulation의 딜레마: 단백질의 conformational landscape를 탐색하는 핵심 도구인 MD는 해상도에 따라 All-atom과 Coarse-grained 방식으로 나뉩니다. All-atom은 원자 단위의 정밀도를 제공하지만 연산량이 비선형적으로 증가해 확장이 불가능하고, Coarse-grained는 연산량은 줄지만 미시적 상호작용의 디테일을 잃는 트레이드오프가 존재합니다.
  • 기존 Generative Models의 한계: 최근 Boltzmann generator 등의 generative deep learning이 도입되어 연산 시간을 GPU 시간 단위로 단축했습니다. 그러나 현재의 generative 방법론들은 여전히 MD 수준의 Boltzmann distributions sampling에 미치지 못합니다.
  • MD 기반 학습 모델의 한계: MD 데이터로 trained 된 모델들 역시 MD가 보여주는 정교한 conformational transition trajectories를 충실히 재현하는 데 실패하고 있으며, 모델 training 자체에 드는 막대한 computational cost도 큰 병목입니다.

2. 제안하는 해결책: DynaFold

  • Architecture: latent diffusion 기반의 robust generative framework.
  • 핵심 아이디어: 무거운 MD 시뮬레이션 전체를 돌리는 대신, 컴퓨팅 친화적인(compute-friendly) 크기의 latent denoising model을 사용하여 단백질의 dynamic trajectories를 효율적으로 포착합니다.

3. 핵심 기여도 (Key Contributions)

  • Data Efficiency: 막대한 데이터 대신, 아주 소수의 trajectories 데이터만으로도 training이 가능합니다.
  • Trajectory & Transition Modeling: 주요 conformations 간의 transition paths를 성공적으로 설명하고 묘사해 냅니다.
  • SOTA 달성: 결과적으로 conformational ensemble prediction과 conformational changes modelling 모두에서 기존 방법론들을 능가(outperform)하는 성능을 증명했습니다.

💡 쉬운 설명 :

단백질은 우리 몸속에서 끊임없이 움직이고 모양을 바꾸며 일(기능)을 합니다. 이 단백질이 "어떻게 움직이는지" 알아내는 것은 신약 개발 같은 곳에서 아주 중요합니다.

원래 과학자들은 컴퓨터로 이 움직임을 하나하나 계산하는 시뮬레이션(MD)을 돌렸습니다. 그런데 이 방법은 정확하긴 한데, 컴퓨터가 터질 정도로 계산량이 너무 많고 시간이 오래 걸렸습니다. 그래서 최근에 AI 연구자들이 **"AI한테 단백질 움직임을 학습시켜서 순식간에 결과를 뽑아내자!"**라고 접근했습니다. 하지만 기존 AI들은 단백질의 복잡한 움직임을 완벽하게 흉내 내지 못했고, AI를 가르치는(학습) 데만 해도 돈과 시간이 너무 많이 들었습니다.

이 논문은 바로 이 문제를 해결하기 위해 DynaFold라는 새로운 AI 모델을 만들었다고 소개하고 있습니다. DynaFold는 요즘 이미지 생성에 많이 쓰이는 확산 모델(diffusion) 기술을 응용한 것입니다. 이 모델의 가장 큰 장점은 **"적은 데이터만 보고도, 가벼운 컴퓨터 자원으로 단백질이 A 모양에서 B 모양으로 어떻게 변해가는지 그 과정을 아주 빠르고 정확하게 예측해 낸다는 것"**입니다. 한마디로, 기존 방식보다 훨씬 가성비 좋고 똑똑한 단백질 움직임 예측 AI를 개발했다는 선언입니다.

 

더보기

이 그림은 단백질의 동적 움직임(trajectory)을 생성하기 위해 Latent Diffusion 모델과 Transformer 기반 아키텍처를 어떻게 결합했는지 보여줍니다.

A. Overall Latent Diffusion Pipeline (전체 파이프라인)

  • Latent Space 변환: 무거운 원자 단위의 단백질 3D 구조(Frames)를 직접 다루지 않고, Encoder($E$)를 통해 저차원의 Latent Trajectory($x_0$)로 압축하여 연산 효율을 높입니다. 최종 결과물은 Decoder($D$)를 거쳐 다시 3D 구조로 복원됩니다.
  • Diffusion Process: 원본 Latent Trajectory에 점진적으로 노이즈를 주입하여 Noising Trajectory($x_t$)를 만듭니다.
  • Latent Denoising Transformer: 노이즈가 낀 $x_t$를 원래의 $x_0$로 복원하는 역과정(reverse process)을 수행합니다. 이때 단백질의 아미노산 서열(Protein Sequence, $s$)과 초기 상태 혹은 기준이 되는 구조 정보(Condition Frames, $x_{cond}$)를 condition으로 받아 generation의 방향을 가이드합니다.

B. Latent Denoising Transformer 구조 (핵심 Denoising 블록)

  • A 패널의 핵심 엔진인 Denoising Transformer의 내부 거시 구조입니다.
  • Input Embedder: 노이즈가 섞인 궤적 데이터와 condition 데이터들을 모델이 이해할 수 있는 형태의 Representation으로 변환합니다.
  • 그 결과물인 Protein Representations($p^0$)와 Trajectory Representations($x^0$)가 Dynaformer라고 불리는 핵심 블록을 $N$번 반복 통과(layer 반복)하며 점점 정교하게 denoising을 수행합니다.

C. Input Embedder (입력 데이터 임베딩 과정)

  • B 패널의 Input Embedder가 구체적으로 어떻게 작동하는지 보여줍니다.
  • Noising Trajectory와 Condition Frames는 각각의 Embed 레이어를 통과합니다.
  • 핵심 포인트: Protein Sequence의 경우, pre-trained 된 대형 단백질 언어 모델인 ESM2를 활용하여 sequence의 풍부한 생물학적/구조적 문맥(context)을 추출한 뒤 임베딩합니다.

D. Dynaformer Block (다이나포머 내부 연산 구조)

  • B 패널의 Dynaformer 레이어 1개가 어떻게 구성되어 있는지 보여주는 미시 구조입니다.
  • $l$번째 레이어의 입력값인 $p^l$$x^l$을 받아, 시공간적 특징을 분리하여 학습합니다.
  • Spatial Attention & Temporal Attention: 궤적 데이터의 '공간적(구조적)' 특징과 시간에 따른 '시간적(동적)' 특징을 순차적으로 Attention 매커니즘을 통해 분석합니다.
  • 이후 잔차 연결(Residual Connection, $\oplus$ 기호)과 함께 Trajectory와 Protein의 Representation을 각각 Update하여 다음 레이어($l+1$)로 전달합니다($x^{l+1}$, $p^{l+1}$).

💡 쉬운 설명 :

이 그림은 쉽게 말해 **"단백질 움직임 동영상을 만들어내는 AI 스튜디오의 설계도"**입니다. 영상 생성 AI 모델들의 구조와 굉장히 유사한 철학을 가지고 있습니다.

  • A 부분 (전체 과정): 초고화질 단백질 영상을 그대로 다루면 컴퓨터가 터지니까, 일단 용량을 확 줄여서(압축, $E$) 가벼운 형태(Latent)로 만듭니다. 여기에 지지직거리는 노이즈(Diffusion)를 잔뜩 낀 다음, AI가 **"이 단백질 서열($s$)과 시작 장면($x_{cond}$)을 줄 테니까, 노이즈를 걷어내고 원래 움직임을 복원해 봐!"**라고 시키는 전체 과정입니다.
  • B & C 부분 (재료 준비): AI에게 그냥 알파벳(아미노산 서열)만 주면 잘 모르니까, ESM2라는 '단백질 언어 전문가'를 섭외해서 이 단백질이 어떤 특성을 가졌는지 깊이 있게 번역해서 AI 엔진에 넣어주는 준비 과정입니다.
  • D 부분 (엔진 내부): 핵심 AI 엔진인 Dynaformer의 내부입니다. 단백질이 움직이는 과정을 이해하려면 **"현재 어떤 모양인가?(Spatial)"**와 **"시간이 지나면서 어떻게 변하는가?(Temporal)"**를 모두 알아야 합니다. 그래서 이 엔진은 공간과 시간을 나누어서 집중적으로 파악(Attention)하며 단백질의 다음 동작을 정교하게 예측해 나갑니다.

 

 

Results

더보기

우리는 단백질 역학을 예측하기 위한 generative framework인 DynaFold를 개발했습니다. DynaFold는 computational efficiency와 high-fidelity 디테일 간의 균형을 맞추는 데 있어 computer vision 분야에서 효과적이라고 입증된 latent diffusion 방법을 적용합니다. DynaFold architecture의 핵심은 Variational Autoencoder (VAE)입니다. 이 VAE는 복잡한 단백질 conformations를 단순화된 latent space로 매핑하는 encoder와, 이 latent space에서 sampling하여 conformations를 재구성하는 decoder를 포함합니다. latent diffusion process를 model 하기 위해, 우리는 Figure 1A에 설명된 바와 같이 Latent Denoising Transformer (LDT)를 설계했습니다. 방대한 단백질 구조에 대해 trained 된 DynaFold의 VAE는 conformational landscape를 더 연속적인 feature space로 구성합니다. 이 space 내에서 LDT는 복잡한 3차원 structural representations를 처리하기 위한 복잡한 model architectures의 필요성을 회피합니다. 대신, 오직 표준 self-attention 메커니즘만을 활용하여 trajectories의 structural features와 temporal dependencies를 포착함으로써 computational efficiency를 크게 향상시킵니다.

DynaFold의 VAE는 ESM3에 도입된 model architecture를 채택합니다. Encoder는 backbone structures를 입력으로 받아 각 아미노산을 learned 12-dimensional feature representation으로 압축합니다. Decoder는 이러한 latent features를 all-atom structures로 재구성합니다. LDT는 핵심 처리 구성 요소로서 Input Embedder 모듈과 다수의 Dynaformer 모듈로 구성됩니다 (Figure 1B). Input Embedder는 아미노산 서열 및 conditional frames에 conditioned 된 noisy trajectories를 입력으로 받아, 모든 입력을 protein representations 및 trajectory representations로 처리합니다 (Figure 1C). Dynaformer는 두 representations를 반복적으로 업데이트합니다: trajectory representation은 먼저 spatial attention 연산과 temporal attention 연산을 거쳐 각각 spatial and temporal dimensions에서의 상호 작용을 포착합니다. 이어서 protein representation이 업데이트된 후, trajectory representation이 업데이트됩니다 (Figure 1D). Dynaformer의 trajectory representation의 final layer는 denoised trajectories를 직접 재구성합니다.

우리는 DynaFold를 위한 diffusion framework로 EDM을 채택합니다. training set은 VAE를 위한 단백질 구조와 LDT를 위한 molecular dynamics all-atom simulation trajectories 두 부분으로 구성됩니다. 구조 데이터에는 Protein Data Bank (PDB)와 AlphaFold Protein Structure Database (AFDB)가 포함됩니다. trajectory 데이터에는 ATLAS dataset과 Fast-folding dataset이 포함됩니다. DynaFold training은 두 stages로 나뉩니다: 첫 번째 stage에서는 backbone resolution encoder-decoder가 trained 됩니다. 두 번째 stage에서는 backbone encoder의 weights가 frozen 되고, backbone encoder에 의해 mapped 된 latent space의 평균 및 분산을 사용하여 all-atom decoder와 LDT가 trained 됩니다. Implementation details와 training procedures는 Supplementary methods에 제공됩니다.

 

 

📝 Results 핵심 정리 노트 (AI 연구자 대상)

Vision 도메인에서 검증된 Latent Diffusion 모델링 방식을 단백질 동역학(Protein Dynamics)에 성공적으로 이식하여 연산 효율성(computational efficiency)과 디테일 보존(high-fidelity) 사이의 최적의 균형을 맞춘 DynaFold의 구조와 학습 전략을 설명합니다.

1. 핵심 Architecture: VAE + LDT 결합 모델

  • VAE (Variational Autoencoder): 무거운 3D 복합 구조를 직접 다루는 대신, ESM3의 구조를 차용하여 단순화된 latent space로 매핑.
    • Encoder: Backbone structures를 입력받아 각 아미노산을 학습된 12차원 feature representation으로 압축. 이로써 단백질의 conformational landscape를 연속적인(contiguous) feature space로 재구성.
    • Decoder: Latent features를 다시 All-atom structures로 복원.
  • LDT (Latent Denoising Transformer): 복잡한 3D 전용 architecture 없이 표준 self-attention 메커니즘만으로 시공간적 특징을 포착하여 computational efficiency 극대화. (Diffusion framework로는 EDM 채택).

2. LDT 내부 모듈 및 데이터 흐름

  • Input Embedder: Noisy trajectories (조건: amino acid sequences, conditional frames)를 입력받아, 두 가지 독립적인 임베딩인 protein representationstrajectory representations로 분리하여 초기화.
  • Dynaformer Modules: 위 두 가지 representation을 반복적으로(iteratively) 업데이트하는 핵심 블록. 연산 순서는 다음과 같음:
    1. Trajectory representation에 대해 Spatial Attention (공간적 상호작용) $\rightarrow$ Temporal Attention (시간적 의존성) 순차 적용.
    2. 이후 Protein representation 업데이트.
    3. 마지막으로 Trajectory representation 최종 업데이트.
    • 최종 레이어의 trajectory representation이 denoised trajectories를 직접 재구성함.

3. Two-Stage Training Strategy (효율적인 2단계 학습법)

  • Data: [구조 데이터] PDB, AFDB / [궤적 데이터] ATLAS, Fast-folding.
  • Stage 1 (구조 학습): 정적 구조 데이터를 활용해 Backbone resolution 단위의 Encoder-Decoder 학습.
  • Stage 2 (동역학 학습): 학습된 Backbone Encoder의 weight를 동결(frozen)시킨 후, 매핑된 latent space의 평균(mean)과 분산(variance) 통계량을 기반으로 All-atom Decoder와 LDT를 학습 (MD trajectories 데이터 활용).

💡 쉬운 설명 :

이 섹션은 **DynaFold가 어떻게 그렇게 빠르고 정확하게 단백질 움직임을 예측할 수 있는지, 그 '엔진의 비밀'**을 설명하고 있습니다.

핵심 아이디어는 **"무거운 원본 영상(3D 단백질)을 그대로 편집하지 않고, 가볍게 압축해서 편집한 뒤 다시 압축을 푸는 방식"**을 쓴 것입니다.

  1. VAE (압축 및 해제 역할): 단백질은 원자가 너무 많아서 계산이 복잡합니다. 그래서 먼저 VAE라는 부품을 통해 단백질의 뼈대 구조를 아주 가벼운 형태(Latent Space)로 꾹꾹 압축합니다.
  2. LDT (움직임 예측 역할): 이렇게 가벼워진 상태에서 LDT라는 인공지능이 "이 단백질은 공간적으로 어떻게 생겼고, 시간의 흐름에 따라 어떻게 움직일까?"를 계산합니다. 가벼운 상태에서 계산하니까 복잡한 수학 공식 없이 기본적인 AI 기술(Self-attention)만으로도 아주 빠르고 쾌적하게 움직임을 예측할 수 있습니다.
  3. 영리한 2단계 학습법: AI를 가르칠 때도 한 번에 다 가르치지 않습니다. 1단계에서는 수많은 단백질 정지 사진을 보여주며 "단백질 뼈대를 압축하고 푸는 법"만 집중적으로 가르칩니다. 기초가 쌓이면 2단계에서 압축하는 기능은 그대로 고정해 두고, 단백질이 움직이는 동영상 데이터를 보여주며 "세밀한 원자 단위의 움직임"을 예측하는 방법을 가르칩니다. 이렇게 역할을 나누어 학습시켜서 모델의 성능과 효율을 극대화했습니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

더보기

VAE로 구조 압축해서 피쳐 뽑고 x0를 얻음
거기서 노이즈를 주게됨.
백워드는 노이즈를 복원하는 것을 학습하는데

그렇다면 x0를 잘 만들뿐 트래젝토리를 만들지 못함. 어떻게 하는지?

x0를 컨디션으로 주고 2~200개를 한번에 만든다고 함. ㄷㄷ