AI바라기의 인공지능

Protein : 논문 리뷰 : DIFFDOCK: DIFFUSION STEPS, TWISTS, AND TURNS FOR MOLECULAR DOCKING 본문

논문리뷰

Protein : 논문 리뷰 : DIFFDOCK: DIFFUSION STEPS, TWISTS, AND TURNS FOR MOLECULAR DOCKING

AI바라기 2025. 10. 13. 10:36

용어 설명 (Terminology)

  • Molecular Docking: 단백질(protein)과 같은 거대 분자에 작은 분자(ligand, 예: 약물 후보)가 어떻게 결합하는지 예측하는 계산 과정.
  • Blind Docking: 단백질의 어느 부분에 ligand가 결합할지(binding pocket) 사전 정보 없이 전체 단백질을 대상으로 docking을 수행하는 더 어렵고 일반적인 시나리오.
  • RMSD (Root Mean Square Deviation): 예측된 ligand의 원자 위치와 실제 결정 구조(crystal structure)의 원자 위치 간의 평균 편차. 2Å 미만일 경우 일반적으로 성공적인 docking으로 간주됨.
  • Holo-structure vs. Apo-structure: Holo-structure는 ligand가 결합된 상태의 단백질 구조이며, Apo-structure는 ligand가 결합되지 않은 상태의 구조. 실제 신약 개발에서는 Apo-structure에 docking을 시도하는 경우가 많아 더 현실적이지만 어려운 문제임.
  • Diffusion Generative Model (DGM): 데이터에 점진적으로 noise를 추가하는 forward process와, noise로부터 원본 데이터를 복원하는 reverse process를 학습하여 새로운 데이터를 생성하는 모델.
  • Ligand Pose Manifold (Mc): Ligand의 결합 위치, 방향, 내부 구조(conformation)를 포함하는 모든 가능한 자세(pose)들의 집합으로, 수학적으로 non-Euclidean manifold(비유클리드 다양체)를 형성함.
  • Product Space (P): 이 논문의 핵심 아이디어로, 복잡한 ligand pose manifold를 다루기 쉬운 세 가지 요소, 즉 이동 (translation, T(3)), 회전 (rotation, SO(3)), 비틀림 (torsion, SO(2)^m) 의 곱 공간으로 분해하여 정의한 공간. Diffusion process가 이 공간에서 효율적으로 수행됨.
  • Score Model & Confidence Model: DiffDock의 2단계 구조. Score model은 diffusion process를 통해 다양한 후보 포즈(pose)들을 생성하고, Confidence model은 생성된 포즈들이 정확할 확률(RMSD < 2Å)을 예측하여 순위를 매김.

Purpose of the Paper

기존의 분자 도킹(molecular docking) 방법들은 다음과 같은 한계를 가졌습니다:

  • 전통적인 탐색 기반 방법 (Search-based methods): 광범위한 탐색 공간 때문에 속도가 느리고 정확도가 낮음.
  • 최신 딥러닝 기반 방법 (Deep learning methods): Docking을 회귀(regression) 문제로 접근하여 속도는 빠르지만, 정확도 개선이 미미함. 특히, 모델의 불확실성(uncertainty)으로 인해 여러 가능한 결합 위치의 '평균'을 예측하려는 경향이 있어 원자 간 충돌(steric clash) 등 물리적으로 불가능한 구조를 생성하는 문제가 있었음.

이 논문은 이러한 한계를 극복하기 위해, molecular docking을 회귀 문제가 아닌 생성 모델링(generative modeling) 문제로 재정의하고, ligand pose의 복잡한 manifold 위에서 작동하는 효율적인 Diffusion Model (DiffDock) 을 제안하는 것을 목표로 합니다.

Key Contributions & Novelty

  • Generative Modeling으로의 패러다임 전환:
    • Contribution: Molecular docking을 ligand pose의 분포를 학습하는 생성 문제로 공식화함.
    • Novelty: 단일 좌표를 예측하는 기존 딥러닝의 회귀적 접근에서 벗어나, 물리적으로 타당하고 다양한 결합 후보들을 생성할 수 있는 새로운 패러다임을 제시함.
  • Degrees of Freedom에 대한 Diffusion Process 설계:
    • Contribution: Ligand pose의 복잡한 manifold를 직접 다루는 대신, 이를 이동(translation), 회전(rotation), 비틀림(torsion) 이라는 세 가지 자유도(degrees of freedom)의 Product Space로 분해하고, 이 공간상에서 diffusion model을 개발함.
    • Novelty: 3차원 원자 좌표 전체에 diffusion을 적용하는 기존 방식과 달리, docking에 필수적인 자유도만 분리하여 학습함으로써 훨씬 효율적이고 안정적인 생성이 가능해짐.
  • State-of-the-Art (SOTA) 정확도 달성:
    • Contribution: 표준 벤치마크인 PDBBind에서 기존의 모든 탐색 기반 및 딥러닝 기반 모델들을 큰 차이로 능가하는 성능을 보임.
    • Novelty: Top-1 예측 성공률(RMSD<2Å) 38.2%를 달성하여, 기존 SOTA 방법들(전통적 방식 23%, 딥러닝 20%) 대비 약 2배 가까운 성능 향상을 이룸.
  • Apo-structure에 대한 강건함(Robustness) 입증:
    • Contribution: 추가 학습 없이, 계산적으로 예측된 단백질 구조(ESMFold로 생성된 apo-structure)에 대해서도 유의미한 docking 성능(21.7%)을 보임.
    • Novelty: 기존 방법들은 이처럼 불완전한 구조에 대해 거의 성능을 내지 못했으나(10% 미만), DiffDock은 더 현실적인 시나리오에서도 강건함을 보여줌으로써 실제 신약 개발 파이프라인에 적용될 잠재력을 입증함.
  • 신뢰도 높은 Confidence Score 제공:
    • Contribution: 생성된 포즈들의 순위를 매기는 Confidence model을 도입하여, 예측 결과의 신뢰도를 정량적으로 제시함.
    • Novelty: 가장 신뢰도 높은 상위 1/3의 예측에 대해서는 성공률이 83%까지 상승하는 높은 선택적 정확도(selective accuracy)를 보여줌. 이는 후속 연구나 실험에서 우선순위를 정하는 데 매우 유용함.

Experimental Highlights

  • Datasets & Metrics: PDBBind 벤치마크를 사용했으며, 주된 평가 지표는 예측된 ligand와 실제 구조 간의 RMSD가 2Å 미만인 비율(%)임.
  • Baselines: SMINA, GNINA (탐색 기반), EquiBind, TANKBind (딥러닝 기반) 등 SOTA 모델들과 비교.
  • 주요 결과 (Holo-structure):
    • DiffDock (40개 샘플링): 38.2% 성공률 (Top-1 RMSD < 2Å).
    • EquiBind+GNINA (기존 최고 조합): 28.8%.
    • GNINA (단일 모델): 22.9%.
    • TANKBind: 20.4%.
    • 이 결과는 DiffDock이 기존 방법론들을 압도적으로 능가함을 명확히 보여줌.
  • 주요 결과 (Apo-structure on ESMFold):
    • DiffDock: 21.7% 성공률.
    • TANKBind: 10.4%.
    • 기타 방법들: 10% 미만.
    • 이는 더 현실적이고 어려운 문제에 대한 DiffDock의 독보적인 강건함을 증명함.
  • 물리적 타당성 (Physically Plausible Predictions):
    • 회귀 기반 모델인 EquiBind와 TANKBind가 각각 26%, 6.6%의 예측에서 원자 충돌(steric clashes)을 일으킨 반면, **DiffDock은 2.2%**로 훨씬 물리적으로 타당한 구조를 생성함.

Limitations and Future Work

  • Limitations:
    • Holo-structure 의존성: 현재 모델은 ligand가 이미 결합된 상태의 단백질 구조(holo-structure)를 입력으로 가정함. 하지만 실제 응용에서는 ligand가 없는 apo-structure만 주어진 경우가 많아 적용에 한계가 있음.
    • 단백질 고정: Docking 과정에서 단백질의 구조는 고정되어 있다고 가정함. 실제로는 ligand가 결합하면서 단백질의 구조도 유연하게 변할 수 있는데, 이러한 단백질 유연성(protein flexibility)을 모델링하지 못함.
  • Future Work:
    • Apo-structure Docking 개선: 단백질 유연성을 모델에 통합하여 apo-structure에 대한 docking 성능을 본격적으로 향상시키는 연구.
    • 적용 분야 확장: 이 논문의 diffusion 기반 프레임워크를 단백질-단백질(protein-protein) 또는 단백질-핵산(protein-nucleic acid) 상호작용 예측과 같은 다른 분자 인식 문제로 확장하는 연구.

Overall Summary

DiffDock은 분자 도킹(molecular docking)을 생성 모델링(generative modeling) 문제로 재정의한 혁신적인 논문입니다. 이 연구는 ligand pose를 이동, 회전, 비틀림의 product space로 분해하고 그 위에서 작동하는 독창적인 diffusion model을 제안했습니다. 그 결과, 표준 벤치마크에서 기존의 모든 방법론을 압도하는 SOTA 성능을 달성했으며, 특히 더 현실적인 시나리오인 계산적으로 예측된 단백질 구조(apo-structure)에서도 전례 없는 강건함을 보였습니다. 이 연구는 딥러닝 기반 분자 도킹 분야의 새로운 방향을 제시했으며, 계산 신약 개발의 정확성과 신뢰도를 한 단계 끌어올릴 중요한 기여로 평가됩니다.

쉬운 설명 (Easy Explanation)

기존의 AI 모델들은 약물(ligand)이 단백질의 어느 한 지점에 정확히 '어디'에 위치할지 한번에 맞추려는 **'좌표 예측 게임'**과 같았습니다. 이 때문에 여러 가능한 정답 위치가 있을 때, 어색한 '평균 지점'을 예측하여 물리적으로 불가능한 결과를 내놓곤 했습니다.

반면, DiffDock은 완전히 다른 접근 방식을 취합니다. 이는 마치 **'길 찾기 내비게이션'**과 같습니다. 처음에는 약물을 완전히 무작위적인 위치와 형태로 흩어놓고, 점진적으로 "이쪽으로 조금 이동", "이렇게 살짝 회전", "내부 구조를 약간 비틀기"와 같은 작은 수정을 반복하며 가장 안정적이고 자연스러운 결합 위치로 안내합니다. 이 '생성(generative)' 방식 덕분에 하나의 어색한 평균값 대신, 여러 개의 타당한 결합 후보들을 찾아낼 수 있어 훨씬 더 정확하고 현실적인 예측이 가능합니다.

 

 

 

 

1 INTRODUCTION

더보기

단백질의 생물학적 기능은 이와 결합하는 small molecule ligands (예: 약물)에 의해 조절될 수 있습니다. 따라서 computational drug design에서 중요한 작업은 molecular docking입니다. 이는 target protein에 결합했을 때의 ligand의 position, orientation, conformation을 predicting하는 것이며, 이로부터 ligand의 (있다면) effect를 추론할 수 있습니다.

docking을 위한 Traditional approaches는 제안된 structure나 pose의 정확성을 추정하는 scoring-functions와 이 scoring-function의 global maximum을 탐색하는 optimization algorithm에 의존합니다. 그러나 search space가 방대하고 scoring-functions의 landscape가 험난하기 때문에, 이러한 방법들은 특히 high-throughput workflows에서 너무 느리고 부정확한 경향이 있습니다.

Recent works는 docking을 regression problem으로 취급하여 binding pose를 one shot으로 predict하는 deep learning models를 개발했습니다. 이러한 방법들은 전통적인 search-based methods보다 훨씬 빠르지만, accuracy에서 상당한 개선을 보여주지는 못했습니다.

우리는 이것이 regression-based paradigm이 molecular docking의 objectives와 불완전하게 일치하기 때문일 수 있다고 주장합니다. 이는 표준 accuracy metrics가 regression loss라기보다는 predictive model 하에서의 데이터 likelihood와 유사하다는 사실에 반영됩니다. 따라서 우리는 molecular docking을 generative modeling problem으로 규정합니다. 즉, 주어진 ligand와 target protein structure에 대해 ligand poses에 대한 distribution을 학습합니다.

이를 위해 우리는 molecular docking을 위한 ligand poses의 space 상에서 diffusion generative model (DGM)인 DIFFDOCK을 개발합니다. 우리는 docking에 관여하는 degrees of freedom, 즉 protein에 대한 ligand의 position (binding pocket 위치 찾기), pocket 내에서의 orientation, 그리고 conformation을 설명하는 torsion angles에 대해 diffusion process를 정의합니다.

DIFFDOCK은 학습된 (reverse) diffusion process를 실행하여 poses를 samples합니다. 이 process는 ligand poses에 대한 정보가 없는 noisy prior distribution을 학습된 model distribution으로 반복적으로 transforms합니다 (Figure 1). 직관적으로, 이 process는 translations, rotations, torsion angles의 updates를 통한 random poses의 progressive refinement로 볼 수 있습니다.

DGM이 molecular machine learning의 다른 문제들에 적용되어 왔지만, 기존 접근 방식들은 molecular docking에는 적합하지 않습니다. molecular docking에서 ligand poses의 space는 $(m + 6)$-dimensional submanifold $M \subset R^{3n}$이며, 여기서 $n$ $m$은 각각 atoms와 torsion angles의 수입니다.

DIFFDOCK을 개발하기 위해, 우리는 docking degrees of freedom이 $M$을 허용된 ligand pose transformations 집합을 통해 accessible한 poses의 space로 정의한다는 것을 인식합니다. 우리는 이 아이디어를 사용하여 $M$의 elements를 해당 transformations에 대응하는 groups의 product space로 map하며, 여기서는 DGM이 효율적으로 개발되고 trained될 수 있습니다.

docking models의 applications은 종종 고정된 수의 predictions와 이에 대한 confidence score만을 요구하므로, 우리는 DGM에서 sampled된 poses에 대한 confidence estimates를 제공하고 가장 가능성 있는 sample을 선택하기 위해 confidence model을 train합니다. 이 two-step process는 brute-force search와 one-shot prediction 사이의 중간 접근 방식으로 볼 수 있습니다. 즉, 우리는 high-dimensional search의 어려움 없이 multiple poses를 고려하고 비교하는 능력을 유지합니다.

Empirically, 표준 blind docking benchmark PDBBind에서 DIFFDOCK은 $2\AA$ 미만의 ligand root mean square distance (RMSD)를 갖춘 top-1 predictions 38%를 달성하여, 이전 state-of-the-art deep learning model (20%)의 performance를 거의 두 배로 높였습니다. DIFFDOCK은 state-of-the-art search-based methods (23%)조차도 상당히 능가하는 동시에 GPU에서 3배에서 12배 더 빠릅니다. 더욱이, predictions에 대한 accurate confidence score를 제공하며, 이전에 보지 못한 complexes 중 가장 confident한 1/3에서 83%의 $RMSD<2\AA$를 달성합니다.

우리는 더 나아가 ESMFold에 의해 generated된 structures에서 methods를 evaluate합니다. 우리의 results는 기존 methods가 이러한 approximate apo-structures에 대해 docking할 수 없음(10% 이하의 $RMSD<2\AA$)을 보여준 previous analyses를 confirm합니다. 대신, 추가 training 없이 DIFFDOCK은 top-1 predictions의 22%를 $2\AA$ 이내에 배치하여, accurate protein folding methods가 가져온 protein-ligand interactions의 modeling에 혁명의 길을 열었습니다.

요약하자면, 이 작업의 main contributions는 다음과 같습니다:

  1. 우리는 molecular docking task를 generative problem으로 규정하고 previous deep learning approaches의 issues를 강조합니다.
  2. 우리는 molecular docking에 관련된 degrees of freedom에 해당하는 ligand poses에 대한 novel diffusion process를 formulate합니다.
  3. 우리는 PDBBind blind docking benchmark에서 $RMSD<2\AA$로 38%의 new state-of-the-art top-1 prediction을 달성하여, 이전 최고 search-based (23%) 및 deep learning methods (20%)를 상당히 능가합니다.
  4. ESMFold를 사용하여 approximate protein apo-structures를 generate함으로써, 우리 method가 complexes의 28%에서 $RMSD<2\AA$로 top-1 prediction을 배치하여, 가장 accurate한 baseline의 accuracy를 거의 세 배로 높였음을 보여줍니다.

 

 

 

 

DIFFDOCK (Introduction) 정리노트

문제 제기 (Problem Statement)

  • Traditional molecular docking (search-based)은 scoring-function landscape가 복잡하고 search space가 방대하여 느리고 부정확합니다.
  • Recent deep learning approaches (regression-based)는 빠르지만 accuracy에서 큰 향상을 보이지 못했습니다.
  • 본 논문은 regression-based paradigm 자체가 molecular docking의 objective와 불완전하게 일치하며 (standard accuracy metrics는 regression loss보다 likelihood와 유사함), 이것이 accuracy 한계의 원인이라고 주장합니다.

핵심 제안 (Core Proposal: DIFFDOCK)

  • Paradigm Shift: Molecular docking을 regression problem이 아닌 generative modeling problem으로 재정의합니다. (목표: Ligand poses에 대한 distribution $P(\text{pose} | \text{ligand}, \text{protein})$을 학습)
  • Model: Diffusion Generative Model (DGM)을 활용하여 ligand poses space를 탐색하는 DIFFDOCK을 제안합니다.
  • Diffusion Process 정의: Docking에 관여하는 핵심 degrees of freedom (DOF)에 대해 직접적으로 diffusion process를 정의합니다.
    1. Ligand의 position (translation)
    2. Ligand의 orientation (rotation)
    3. Ligand의 conformation (torsion angles)
  • Technical Novelty:
    • Ligand pose space는 복잡한 $(m+6)$-dimensional submanifold $M \subset R^{3n}$입니다.
    • 기존 DGM은 이 공간에 적용하기 어렵습니다.
    • DIFFDOCK은 이 $M$ space를 docking DOFs에 해당하는 transformation groups의 product space로 mapping하여 DGM을 효율적으로 개발하고 훈련하는 방법을 제안합니다.
  • Two-Step Process:
    1. Sampling: DIFFDOCK (DGM)이 reverse diffusion process를 통해 noisy prior로부터 multiple candidate poses를 iteratively refine하여 sample합니다.
    2. Scoring: 별도의 confidence model을 훈련시켜 DGM이 생성한 poses의 confidence estimates를 제공하고, 이 중 most likely sample을 최종 prediction으로 선택합니다.
    • 이는 brute-force search와 one-shot prediction의 중간적 접근 방식입니다.

주요 결과 (Key Results)

  • PDBBind (Standard Benchmark):
    • DIFFDOCK (본 논문): Top-1 prediction $RMSD < 2\AA$ 달성률 38%.
    • Previous SOTA (Deep Learning): 20%.
    • Previous SOTA (Search-based): 23%.
    • Speed: SOTA search-based methods 대비 GPU에서 3~12배 빠릅니다.
    • Confidence Model: 가장 confident한 1/3의 unseen complexes에서 83% $RMSD < 2\AA$를 달성했습니다.
  • ESMFold Structures (Approximate apo-structures):
    • Apo-structures (ligand가 없는 구조)에 대한 docking은 매우 어려운 task입니다.
    • Existing methods: $RMSD < 2\AA$ 달성률 10% 이하.
    • DIFFDOCK (no further training): $RMSD < 2\AA$ 달성률 22% (Contribution list에서는 28%로 요약됨)를 달성하여, accurate protein folding method를 docking workflow에 통합할 가능성을 열었습니다.

쉬운 설명 :

이 논문은 약물(ligand)이 우리 몸의 단백질(protein)에 어떻게 결합하는지 예측하는 molecular docking 문제를 다룹니다.

기존 방식들은 크게 두 가지였습니다.

  1. 전통 방식 (Search): 가능한 모든 결합 자세(pose)를 시도해보고 점수를 매기는 방식. 너무 느리고 부정확합니다.
  2. 최근 AI 방식 (Regression): AI에게 정답 자세의 '좌표 값'을 한 번에 맞추라고 시키는 방식. 빠르지만, 여전히 정확도가 낮았습니다.

이 논문은 '좌표 값 맞추기'(regression) 방식이 문제 자체와 잘 맞지 않는다고 지적합니다.

그래서 이 논문은 완전히 새로운 접근법인 DIFFDOCK을 제안합니다. 이는 '정답 자세 그리기'(generative modeling) 방식입니다.

DIFFDOCK은 요즘 그림 그리는 AI로 유명한 diffusion model을 사용합니다.

  1. AI에게 처음에는 완전히 엉망인(noisy) ligand 자세를 줍니다.
  2. AI가 이 엉망인 자세를 단계별로 '점점 더 정답에 가까운' 자세로 다듬어(refine)가도록 훈련시킵니다.
  3. 이때 AI는 3가지를 동시에 고려하며 자세를 다듬습니다: ligand의 (1)위치, (2)방향, (3)스스로 꺾이는 각도(conformation).

이렇게 AI가 여러 개의 '정답 후보' 자세를 생성하면, 따로 훈련시킨 '심사위원 AI'(confidence model)가 이 후보들 중 1등을 뽑습니다.

결과는 놀라웠습니다. 기존 AI(20%)나 전통 방식(23%)보다 훨씬 높은 38%의 정확도($RMSD < 2\AA$)를 달성했고, 속도도 훨씬 빨랐습니다.

특히, 대략적인 단백질 구조(ESMFold로 예측한 구조)에 대해서도 기존 방법들(10% 이하)보다 월등히 높은 22%의 정확도를 보여주어, AI 기반 신약 개발의 새로운 가능성을 열었습니다.

 

 

 

 

2 BACKGROUND AND RELATED WORK

더보기

Molecular docking. Molecular docking task는 일반적으로 known-pocket docking과 blind docking으로 나뉩니다. Known-pocket docking algorithms는 molecule이 결합할 protein 위의 position (binding pocket)을 input으로 받아 correct orientation과 conformation만 찾으면 됩니다. 반면 Blind docking은 binding pocket에 대한 어떤 prior knowledge도 assume하지 않습니다; 이 work에서는 이 general setting에 focus를 맞출 것입니다. Docking methods는 일반적으로 protein holo-structure (결합 상태)에 대한 knowledge를 assume하지만, 이 assumption은 많은 real-world applications에서 비현실적입니다. 따라서 우리는 holo-structures와 computationally generated apo-structures (미결합 상태) 모두로 methods를 evaluate합니다. Methods는 일반적으로 hits의 percentage, 즉 approximately correct predictions로 evaluate되며, 이는 일반적으로 ligand RMSD error가  미만인 경우로 간주됩니다.

Search-based docking methods. Traditional docking methods는 parameterized physics-based scoring function과 search algorithm으로 구성됩니다. Scoring-function은 3D structures를 받아 주어진 pose의 quality/likelihood에 대한 estimate를 반환하는 반면, search는 scoring function의 global optimum을 찾는 것을 goal로 ligand pose (position, orientation, torsion angles)를 stochastically modifies합니다. Recently, machine learning이 scoring-function을 parameterize하기 위해 적용되었습니다. 그러나 이러한 search-based methods는 run하기에 computationally expensive하고, blind docking의 특징인 vast search space에 직면할 때 often inaccurate하며, apo-structures가 제시될 때 significantly suffer합니다.

Machine learning for blind docking. Recently, EquiBind는 ligand와 protein 모두에서 pocket keypoints를 directly predicting하고 이를 aligning함으로써 blind docking task를 tackle하려 시도했습니다. TANKBind는 가능한 각 pocket에 대해 independently docking pose (interatomic distance matrix 형태로)를 predicting한 다음 ranking함으로써 이를 improved했습니다. 이러한 one-shot 또는 few-shot regression-based prediction methods는 orders of magnitude 빠르지만, performance는 아직 traditional search-based methods의 수준에 도달하지 못했습니다.

Diffusion generative models. Data distribution을 로 설명되는 continuous diffusion process의 initial distribution $p_0(x)$라 합시다. 여기서 는 Wiener process입니다. Diffusion generative models (DGMs)는 reverse diffusion 를 통해 data를 generate하기 위해 diffusing data distribution의 score $\nabla_x \log p_t(x)$를 model합니다. 이 work에서는 항상 으로 설정합니다. Molecule generation, conformer generation, protein design 등 molecular ML tasks를 위해 여러 DGM이 개발되었습니다. 그러나 이러한 approaches는 atom 당 3개의 coordinates를 가진 full Euclidean space $R^{3n}$에 대한 distributions를 learn하므로, degrees of freedom이 훨씬 더 restricted된 molecular docking에는 적합하지 않습니다 (see Appendix E.2).

 

 

 

 

BACKGROUND AND RELATED WORK (정리노트)

Molecular Docking Context

  • Focus: 이 논문은 binding pocket 위치를 모르는 Blind docking (general setting)에 집중합니다.
  • Evaluation Challenge: 대부분의 methods는 holo-structure (ligand 결합 상태)를 가정하지만, 이는 비현실적입니다. 따라서 이 논문은 holo-structureapo-structure (computionally generated, 미결합 상태) 모두에서 evaluate합니다. (Apo-structure에서의 performance가 SOTA method들의 주요 약점임).
  • Metric: $RMSD < 2\AA$를 hit (correct prediction)으로 간주하고, 이 hits의 percentage로 성능을 평가합니다.

Existing Approaches & Limitations

  1. Search-based Docking Methods (Traditional)
    • Mechanism: Physics-based scoring function의 global optimum을 찾는 search algorithm (stochastic search).
    • Limitations:
      • Computationally expensive.
      • Blind docking의 vast search space에서 inaccurate함.
      • Apo-structures가 주어질 때 performance가 significantly suffer함.
  2. Machine Learning for Blind Docking (Regression-based)
    • Mechanism: One-shot 또는 few-shot regression-based prediction (e.g., EquiBind, TANKBind).
    • Limitations:
      • Orders of magnitude 빠르다는 장점이 있음.
      • 하지만, performance가 아직 traditional search-based methods에도 미치지 못함. (This paper가 regression paradigm을 비판하는 핵심 근거).
  3. Diffusion Generative Models (DGMs)
    • Prior Art: Molecule generation, conformer generation 등 molecular ML tasks에 적용됨.
    • Key Limitation for Docking: 기존 DGM들은 full Euclidean space $R^{3n}$ (모든 atom의 3D 좌표)에 대한 distribution을 학습함.
    • Problem: 이 방식은 docking 문제에 ill-suited합니다. Docking의 degrees of freedom은 $R^{3n}$ 전체가 아니라, (position, orientation, torsion angles)로 구성된 훨씬 더 restricted된 space (submanifold)이기 때문입니다. (이것이 이 논문이 novel diffusion process를 제안하는 이유).

쉬운 설명 :

이 섹션은 이 논문이 풀려는 'molecular docking' 문제와 기존 연구들의 한계를 설명합니다.

  1. Molecular Docking이란?
    • 약물(ligand)이 단백질(protein)의 어디에, 어떤 자세로 붙는지 맞추는 문제입니다.
    • 'Blind docking'은 단백질의 어디에 붙을지 전혀 힌트가 없는, 가장 어렵고 일반적인 상황을 말합니다.
    • 이 논문은 정답(holo-structure)뿐만 아니라, 약물이 아직 붙지 않은 상태의 단백질 구조(apo-structure)라는 더 현실적이고 어려운 조건에서도 테스트합니다.
  2. 기존 방법들의 문제점
    • 전통 방식 (Search-based): 수많은 결합 자세를 시도해보고 점수를 매겨 최고점을 찾는 방식입니다. 하지만 너무 느리고, 'blind docking'처럼 찾아야 할 공간이 너무 넓으면 정확도도 떨어집니다. 특히 apo-structure에서는 잘 안 맞습니다.
    • 최근 AI 방식 (Regression-based): AI에게 정답 자세(좌표)를 한 번에 예측하도록 시키는 방식입니다. (e.g., EquiBind, TANKBind). 훨씬 빠르지만, 이상하게도 정확도가 아직 전통 방식보다도 낮습니다.
  3. Diffusion Models (DGM)과 이 논문의 차별점
    • 요즘 유행하는 diffusion models (그림 그려주는 AI)을 분자 구조 생성에 쓴 연구들이 이미 있습니다.
    • 하지만, 기존 연구들은 분자를 구성하는 '모든 원자'의 3D 좌표($R^{3n}$)를 생성하도록 설계되었습니다.
    • 이 방식은 docking 문제에 적합하지 않습니다. Docking에서 우리가 알고 싶은 것은 '모든 원자'의 개별 위치가 아니라, 약물 덩어리 자체의 (1)위치, (2)방향, (3)비틀림 각도(torsion angles)라는 훨씬 더 제한된 '움직임'이기 때문입니다.
    • 따라서, 이 논문은 docking 문제에 맞는 새로운 diffusion model이 필요하다고 말합니다.

 

 

 

 

 

 

 

3 DOCKING AS GENERATIVE MODELING

더보기

EquiBind와 other ML methods가 expensive search process를 피함으로써 strong runtime improvements를 제공했지만, their performance는 search-based methods의 그것에 도달하지 못했습니다. As our analysis below argues, 이는 models’ uncertainty와 in practice molecular docking이 사용되고 evaluated되는 방식과 correspond하지 않는 objective의 optimization 때문일 수 있습니다.

Molecular docking objective.

Molecular docking은 drug discovery에서 critical role을 합니다. 왜냐하면 bound protein-ligand complex의 3D structure prediction이 binding interaction의 strength와 properties에 대한 further computational and human expert analyses를 가능하게 하기 때문입니다. Therefore, a docked prediction은 true structure로부터의 deviation이 such analyses의 output에 significantly affect하지 않을 때만 useful합니다. Concretely, a prediction은 (ligand RMSD로 measured된) structures 간의 distance가 atomic interactions의 length scale (a few Ångström) order의 some small tolerance 미만일 때 acceptable하다고 considered됩니다. Consequently, 이 field에서 used되는 standard evaluation metric은 (crystal ligand pose에 대한) ligand RMSD가 some value $\epsilon$ 미만인 predictions의 percentage였습니다.

However, $RMSD < \epsilon$ tolerance 내의 predictions proportion을 maximizing하는 objective는 differentiable하지 않으며 stochastic gradient descent로 training하는 데 used될 수 없습니다. Instead, $RMSD < \epsilon$인 predictions의 expected proportion을 maximizing하는 것은 $\epsilon$이 0으로 갈 때, model’s output distribution 하에서 true structure의 likelihood를 maximizing하는 것과 corresponds합니다. This observation은 model’s distribution 하에서 observed structures의 negative log-likelihood에 대한 upper bound를 minimize하기 위해 generative model을 training하도록 motivate합니다. Thus, 우리는 molecular docking을 protein structure에 conditioned된 ligand poses에 대한 distribution을 learning하는 problem으로 view하고 이 space에 대해 diffusion generative model을 develop합니다 (Section 4).

Confidence model.

With a trained diffusion model, it is possible to sample an arbitrary number의 ligand poses를 posterior distribution으로부터 model에 따라 sample하는 것이 possible합니다. However, researchers는 often downstream analysis를 위해 only one or a small number의 predicted poses와 associated confidence measure를 보는 데 interested합니다. Thus, 우리는 diffusion model에 의해 sampled된 poses에 대해 confidence model을 train하고, error tolerance 내에 있다는 confidence를 based on하여 rank합니다. The top-ranked ligand pose와 associated confidence가 DIFFDOCK’s top-1 prediction과 confidence score로 taken됩니다.

Problem with regression-based methods.

Molecular docking을 위한 deep learning models development의 difficulty는 pose에 대한 aleatoric (data inherent uncertainty, e.g., ligand가 protein에 multiple poses로 bind할 수 있음) and epistemic uncertainty (limited model capacity and data available에 비해 task의 complexity로 인해 arises)에 있습니다. Therefore, available co-variate information (only protein structure and ligand identity)이 주어졌을 때, any method는 many viable alternatives 중에서 correct binding pose에 대한 uncertainty를 exhibit할 것입니다. Any regression-style method는 expected square error를 minimizes하는 single configuration을 select하도록 forced되어 such alternatives의 (weighted) mean을 predict하도록 learn할 것입니다. In contrast, a generative model은 same co-variate information으로 instead alternatives에 대한 distribution을 capture하는 것을 aim하며, correct target을 distinguish하지 못하더라도 all/most of the significant modes를 populating합니다. This behavior는 Figure 2에서 illustrated되며, regression-based models이 our method보다 significantly more physically implausible poses를 produce하도록 causes합니다. In particular, 우리는 EquiBind’s and TANKBind’s predictions에서 frequent steric clashes (e.g., EquiBind’s predictions의 26%) and self-intersections를 observe합니다 (Figures 4 and 12). 우리는 DIFFDOCK’s predictions에서 no intersections를 found했습니다. Visualizations and quantitative evidence of these phenomena는 Appendix F.1에 있습니다.

 

 

3 DOCKING AS GENERATIVE MODELING (정리노트)

Regression-based ML의 한계와 새로운 Objective 정의

  • EquiBind 등 기존 ML methods는 빠르지만 search-based methods보다 performance가 낮은데, 이는 models의 uncertainty와 잘못된 objective function 때문이라고 주장합니다.
  • Molecular docking의 실제 evaluation metric은 $RMSD < \epsilon$ (e.g., $2\AA$)인 prediction의 비율(%)입니다.
  • 이 metric은 non-differentiable하여 gradient-based training에 직접 사용할 수 없습니다.
  • 핵심 주장: $RMSD < \epsilon$인 prediction의 비율을 maximize하는 것($\epsilon \to 0$일 때)은, model의 output distribution 하에서 true structure의 likelihood를 maximize하는 것과 동일합니다.
  • 결론: 따라서 molecular docking은 regression 문제가 아니라, protein structure에 conditioned된 ligand poses의 distribution, $P(\text{pose} | \text{protein})$, 을 학습하는 generative modeling 문제로 접근해야 합니다. (Training objective: NLL, negative log-likelihood의 upper bound를 minimize).

Confidence Model의 필요성

  • Generative model (DGM)은 posterior distribution에서 수많은 ligand poses를 sample할 수 있습니다.
  • 그러나 실제 사용자는 소수의 유력한 prediction과 그에 대한 confidence measure를 원합니다.
  • 해결책: 별도의 confidence model을 훈련시켜 DGM이 sample한 poses를 ranking합니다. (Error tolerance 내에 있을 confidence를 예측).
  • DIFFDOCK의 top-1 prediction은 이 confidence model이 1위로 선정한 pose입니다.

Regression-based Methods가 실패하는 근본적인 이유

  • Molecular docking은 본질적으로 높은 uncertainty를 가집니다.
    1. Aleatoric uncertainty: Ligand가 실제로 protein에 multiple poses로 결합할 수 있습니다 (data-inherent).
    2. Epistemic uncertainty: Task의 복잡도 대비 model capacity나 data가 부족합니다 (model-inherent).
  • Regression의 함정: Regression (e.g., expected square error 최소화)은 이러한 uncertainty 하에서 모든 가능한 alternatives의 (weighted) mean을 예측하도록 학습됩니다.
  • 결과: 이 "평균" pose는 종종 physically implausible합니다 (e.g., 원자가 겹치는 steric clashes, self-intersections).
  • Generative Model의 장점: Generative model (DIFFDOCK)은 "평균"이 아닌, alternatives에 대한 distribution 자체를 capture합니다. 따라서 correct target을 하나로 특정하지 못하더라도, 모든 significant modes (가능한 후보 자세들)를 populate (sampling)할 수 있습니다.
  • 증거: Regression-based인 EquiBind 예측의 26%에서 steric clashes가 발견되었고 TANKBind에서도 self-intersections가 발견되었으나, DIFFDOCK의 predictions에서는 intersections가 발견되지 않았습니다.

쉬운 설명 :

이 섹션은 "왜 기존 AI(regression) 방식이 docking 문제에 실패했고, 우리(generative) 방식이 옳은가?"를 설명합니다.

  • 기존 AI 방식 (Regression)의 문제:
    • 기존 AI에게는 "정답 자세(좌표) 딱 하나만 맞춰봐"라고 시켰습니다.
    • 하지만 약물이 단백질에 결합하는 자세는 한 가지가 아닐 수도 있습니다 (e.g., A자세, B자세 둘 다 가능함).
    • 이때 'Regression AI'는 정답 A와 정답 B의 '평균'인 C자세를 예측하려 합니다.
    • 문제는 이 '평균' C자세가 물리적으로 불가능한, 즉 원자가 서로 겹쳐버리는(steric clash) 엉터리 자세일 수 있다는 것입니다. (실제로 EquiBind 예측의 26%가 이런 겹침 오류를 보였습니다.)
  • 이 논문 (Generative)의 해결책:
    • DIFFDOCK은 접근을 바꿔서, AI에게 "정답 하나만 찍지 말고, 가능한 정답 후보들을 '여러 개 생성'해봐" (generative modeling)라고 시킵니다.
    • Diffusion model (DGM)이 A자세, B자세, 그 외 가능한 자세 등 후보(samples)를 100개쯤 생성합니다.
    • 그다음, 따로 훈련시킨 '심사위원 AI'(confidence model)가 이 100개 중 "가장 정답(error tolerance 내)일 것 같은" 1등을 고릅니다.
    • 이 방식은 '평균'의 함정에 빠지지 않고, 물리적으로 말이 되는(plausible) 자세들만 생성해내기 때문에 훨씬 정확합니다. (DIFFDOCK은 원자 겹침 오류가 0%였습니다.)

 

 

4 METHOD

더보기

4.1 OVERVIEW

A ligand pose는 $R^3$에서의 atomic positions의 assignment이므로, in principle, 우리는 pose $x$를 $R^{3n}$의 element로 regard할 수 있습니다. 여기서 $n$은 atoms의 number입니다. However, 이것은 molecular docking에서 relevant한 것보다 far more degrees of freedom을 encompasses합니다. In particular, ligand 내의 bond lengths, angles, small rings는 essentially rigid하며, such that ligand flexibility는 rotatable bonds의 torsion angles에 almost entirely lies합니다 (further discussion은 Appendix E.2 참조).

Traditional docking methods, as well as most ML ones,는 isolation된 ligand의 seed conformation $c \in R^{3n}$을 input으로 take하며 final bound conformation에서는 오직 relative position과 torsion degrees of freedom만을 change합니다. The space of ligand poses consistent with $c$는, therefore, an $(m + 6)$-dimensional submanifold $M_c \subset R^{3n}$입니다. 여기서 $m$은 rotatable bonds의 number이며, six additional degrees of freedom은 fixed protein에 relative한 rototranslations에서 come from합니다. 우리는 a seed conformation $c$를 input으로 taking하는 this paradigm을 follow하며, molecular docking을 a protein structure $y$에 conditioned된, manifold $M_c$ 상의 a probability distribution $p_c(x | y)$를 learning하는 것으로 formulate합니다.

DGMs on submanifolds는 ambient space 내의 a diffusion을 a submanifold로 projecting하는 terms로 formulate되었습니다. However, such a diffusion의 kernel $p(x_t | x_0)$은 closed form으로 available하지 않으며 a geodesic random walk로 numerically sampled되어야 하므로, training을 very inefficient하게 만듭니다. We instead diffusion kernel이 directly sampled될 수 있는 another, “nicer” manifold로의 a one-to-one mapping을 define하고 that manifold에서 DGM을 develop합니다.

To start, 우리는 a last paragraph의 discussion을 as follows restate합니다:

A seed conformation과 consistent한 Any ligand pose는 (1) ligand translations, (2) ligand rotations, (3) changes to torsion angles의 combination으로 reached될 수 있습니다.

This는 manifold $M_c$의 an informal definition으로 viewed될 수 있습니다. Simultaneously, 이것은 $m + 6$ degrees of freedom에 corresponding하는 a continuous family of ligand pose transformations가 given일 때, $M_c$ 상의 a distribution이 corresponding groups의 product space—which is itself a manifold—상의 a distribution으로 lifted될 수 있음을 suggests합니다. We will then this product space 상에서 diffusion kernel을 sample하는 how와 over it a DGM을 train하는 how를 show합니다.

4.2 LIGAND POSE TRANSFORMATIONS

우리는 ligand position의 translations를 3D translation group $T(3)$와 associate하고, ligand의 rigid rotations를 3D rotation group $SO(3)$와, each rotatable bond에서의 changes in torsion angles를 2D rotation group $SO(2)$의 a copy와 associate합니다. More formally, 우리는 a ligand pose $c \in R^{3n}$에 대한 each of these groups의 operations를 define합니다. The translation $A_{tr} : T(3) \times R^{3n} \to R^{3n}$은 isomorphism $T(3) \cong R^3$를 using하여 $A_{tr}(r, x)_i = x_i+r$로 straightforwardly defined됩니다. 여기서 $x_i \in R^3$ $i$번째 atom의 position입니다. Similarly, the rotation $A_{rot} : SO(3) \times R^{3n} \to R^{3n}$은 $A_{rot}(R, x)_i = R(x_i - \bar{x}) + \bar{x}$로 defined됩니다. 여기서 $\bar{x} = \frac{1}{n} \sum x_i$이며, ligand의 (unweighted) center of mass around rotations에 corresponding합니다.

A change in torsion angles의 Many valid definitions가 possible합니다. as any bond $(a_i, b_i)$ around the torsion angle은 $a_i$ side, $b_i$ side, or both를 rotating함으로써 updated될 수 있기 때문입니다. However, 우리는 changes of torsion angles가 rotations or translations로부터 disentangled되도록 specify할 수 있습니다. To this end, 우리는 $SO(2)^m$의 elements의 operation을 define하여 structure에 a minimal perturbation (in an RMSD sense)을 cause하도록 합니다:

Definition. $B_{k, \theta_k}(x) \in R^{3n}$을 $k$번째 rotatable bond $(a_k, b_k)$ around $\theta_k$에 의한 any valid torsion update라 합시다. 우리는 $A_{tor} : SO(2)^m \times R^{3n} \to R^{3n}$을 $A_{tor}(\theta, x) = \text{RMSDAlign}(x, (B_{1, \theta_1} \circ \cdots \circ B_{m, \theta_m})(x))$ (여기서 $\theta = (\theta_1, \ldots, \theta_m)$)와 같이 define합니다.

그리고

$\text{RMSDAlign}(x, x') = \arg \min_{x^\dagger \in \{gx' | g \in SE(3)\}} \text{RMSD}(x, x^\dagger)$ (1)

This means that 우리는 all the $m$ torsion updates를 in any order apply하고 then unmodified pose와의 a global RMSD alignment를 perform합니다. The definition은 a torsion의 infinitesimal effect가 any rototranslation에 orthogonal함을 ensuring, i.e., no linear or angular momentum을 induce함을 ensuring함으로써 motivated됩니다. These properties는 as follows more formally stated될 수 있습니다 (proof in Appendix A):

Proposition 1. $y(t) := A_{tor}(t\theta, x)$ (for some $\theta$ and where $t\theta = (t\theta_1, \ldots, t\theta_m)$)라 합시다. Then the linear and angular momentum은 zero입니다: $\frac{d}{dt}\bar{y}|_{t=0} = 0$ and $\sum_i (x-\bar{x}) \times \frac{d}{dt}y_i|_{t=0} = 0$ where $\bar{x} = \frac{1}{n} \sum_i x_i$.

Now product space $P = T^3 \times SO(3) \times SO(2)^m$을 consider하고 $A : P \times R^{3n} \to R^{3n}$을 $A((r, R, \theta), x) = A_{tr}(r, A_{rot}(R, A_{tor}(\theta, x)))$ (2)로 define합니다.

These definitions는 collectively the docking degrees of freedom에 corresponding하는 the sought-after product space를 provide합니다. Indeed, a seed ligand conformation $c$에 대해, 우리는 a space of ligand poses $M_c = {A(g, c) | g \in P}$를 formally define할 수 있습니다. This는 rigid-body motion plus torsion angle flexibility에 의해 reached될 수 있는 the space of ligand poses의 intuitive notion에 precisely corresponds합니다.

4.3 DIFFUSION ON THE PRODUCT SPACE

We now a DGM over ligand poses in $M_c$를 learn하기 위해 product space가 how used될 수 있는지 show하기 위해 proceed합니다. First, we need a theoretical result (proof in Appendix A):

Proposition 2. A given seed conformation $c$에 대해, the map $A(\cdot, c) : P \to M_c$는 a bijection입니다.

which means that $A(g, c) \mapsto g$로 given된 the inverse $A_c^{-1} : M_c \to P$는 ligand poses $x \in M_c$를 product space $P$ 상의 points로 maps합니다. We are now ready to develop a diffusion process on $P$.

DGM framework가 the score and score model을 elements of the tangent space로, the geodesic random walk을 the reverse SDE solver로 하여 Riemannian manifolds로 straightforwardly transfers됨을 established했습니다. Further, the score model은 denoising score matching으로 standard manner로 trained될 수 있습니다. Thus, $P$ 상에 a diffusion model을 implement하기 위해, it suffices to $P$ 상의 diffusion kernel의 score를 computing하고 from it sampling하기 위한 a method를 develop하는 것으로 sufficient합니다. Furthermore, since $P$는 a product manifold이므로, the forward diffusion은 each manifold에서 independently proceeds하며, and the tangent space는 a direct sum입니다: $T_g P = T_r T^3 \oplus T_R SO(3) \oplus T_\theta SO(2)^m \cong R^3 \oplus R^3 \oplus R^m$ (where $g = (r, R, \theta)$). Thus, it suffices to diffusion kernel로부터 sample하고 each group에서 independently its score에 against regress하는 것으로 sufficient합니다.

In all three groups, 우리는 the forward SDE를 $dx = \sqrt{d\sigma^2(t)/dt} dw$로 define합니다. 여기서 $\sigma^2 = \sigma^2_{tr}$, $\sigma^2_{rot}$, or $\sigma^2_{tor}$ (for $T(3)$, $SO(3)$, $SO(2)^m$ respectively)이고 $w$는 corresponding Brownian motion입니다. Since $T(3) \cong R^3$이므로, the translational case는 trivial하며 $variance \sigma^2(t)$를 가진 a standard Gaussian의 score를 computing하고 sampling하는 것을 involves합니다. The diffusion kernel on $SO(3)$는 IGSO(3) distribution으로 given되며, which는 a unit vector $\hat{\omega} \in so(3)$를 uniformly sampling하고 random angle $\omega \in [0, \pi]$를 according to $p(\omega) = \frac{1-\cos \omega}{\pi} f(\omega)$ (where $f(\omega) = \sum_{l=0}^{\infty} (2l + 1) \exp(-l(l + 1)\sigma^2/2) \frac{\sin((l + 1/2)\omega)}{\sin(\omega/2)}$) (3) 로 sampling함으로써 axis-angle parameterization에서 sampled될 수 있습니다.

Further, the score of the diffusion kernel은 $\nabla \ln p_t(R_0 | R) = (\frac{d}{d\omega} \log f(\omega))\hat{\omega} \in T_{R_0}SO(3)$입니다. where $R_0 = R(\omega\hat{\omega})R$은 Euler vector $\omega\hat{\omega}$를 $R$에 applying한 result입니다. The score computation and sampling은 truncated infinite series를 precomputing하고 $p(\omega)$의 CDF를 interpolating함으로써 respectively efficiently accomplished될 수 있습니다. Finally, the $SO(2)^m$ group은 torus $T^m$에 diffeomorphic하며, on which the diffusion kernel은 variance $\sigma^2(t)$를 가진 a wrapped normal distribution입니다. This는 directly sampled될 수 있으며, and the score는 truncated infinite series로 precomputed될 수 있습니다.

4.4 TRAINING AND INFERENCE

Diffusion model. Although $P$ 상에서 diffusion kernel and score matching objectives를 defined했지만, we nevertheless 3D coordinates의 ligand poses에 directly operate하도록 training and inference procedures를 develop합니다. Abstract elements of the product space rather than full 3D structure를 score model에 providing하는 것은, it이 $SE(3)$ equivariant models를 using하여 physical interactions에 대해 reason하고, arbitrary definitions of torsion angles에 dependent하지 않으며, unseen complexes에 better generalize하도록 allows합니다. In Appendix B, 우리는 training and inference procedures를 present하고 $M_c$와 product space 간의 mapping을 define하기 위해 used된 seed conformation $c$의 choice에 대한 their dependence를 how resolve하는지 discuss합니다.

Confidence model. Confidence model $d(x, y)$를 위한 training data를 collect하기 위해, we trained diffusion model을 run하여 every training example에 대한 a set of candidate poses를 obtain하고 each pose가 $2\AA$ below의 RMSD를 갖는지 whether or not testing하여 labels를 generate합니다. The confidence model은 then each pose에 대한 a binary label을 correctly predict하도록 cross-entropy loss로 trained됩니다. During inference, diffusion model은 $N$ poses를 in parallel generate하도록 run되며, which는 $2\AA$ below의 RMSD를 갖는다는 its confidence를 based on하여 them을 rank하는 confidence model로 passed됩니다.

4.5 MODEL ARCHITECTURE

We score model $s(x, y, t)$와 confidence model $d(x, y)$를 construct하여 3D space의 current ligand pose $x$와 protein structure $y$를 input으로 take하도록 합니다. The output of the confidence model은 $SE(3)$-invariant (with respect to joint rototranslations of $x$, $y$)인 a single scalar입니다. as ligand pose distributions는 arbitrary location and orientation을 가질 수 있는 protein structure에 relative하게 defined되기 때문입니다. On the other hand, the output of the score model은 tangent space $T_r T^3 \oplus T_R SO(3) \oplus T_\theta SO(2)^m$에 must be in합니다. The space $T_r T^3 \cong R^3$는 translation vectors에, $T_R SO(3) \cong R^3$는 rotation (Euler) vectors에 corresponds하며, both of which는 $SE(3)$-equivariant합니다. Finally, $T_\theta SO(2)^m$ $SE(3)$-invariant quantities (torsion angles)에 대한 scores에 corresponds합니다. Thus, the score model은 ligand as a whole에 대해 two $SE(3)$-equivariant vectors와 each of the $m$ freely rotatable bonds에서 an $SE(3)$-invariant scalar를 predict해야 must be합니다.

The score model and confidence model은 point clouds 상의 $SE(3)$-equivariant convolutional networks에 based on한 similar architectures를 가집니다. However, the score model은 $\alpha$-carbon atoms를 가진 protein의 a coarse-grained representation 상에서 operates하는 while, the confidence model은 all-atom structure에 access합니다. This multiscale setup은 whole process를 atomic scale에서 doing하는 w.r.t. improved performance and a significant speed-up을 yields합니다. The architectural components는 below에 summarized되어 있으며 Appendix C에 detailed되어 있습니다.

Structures는 ligand atoms, protein residues, (for the confidence model) protein atoms로 formed된 heterogeneous geometric graphs로 represented됩니다. Residue nodes는 protein sequences에 trained된 language model embeddings를 initial features로 receive합니다. Nodes는 linked되는 nodes의 types와 diffusion time에 depend하는 distance cutoffs에 based on하여 sparsely connected됩니다. The final interaction layer 이후의 ligand atom representations는 then different outputs를 produce하기 위해 used됩니다.

Translational and rotational scores를 representing하는 two $R^3$ vectors를 produce하기 위해, we center of mass에 placed된 a tensor product filter로 node representations를 convolve합니다. For the torsional score, 우리는 ligand의 each rotatable bond에서 a scalar를 obtain하기 위해 a pseudotorque convolution을 analogously use합니다. with the distinction that, since the score model이 coarse-grained representations 상에서 operates하므로, the output은 a pseudoscalar가 아닙니다 (its parity is neither odd nor even). For the confidence model, the single scalar output은 ligand atoms’ scalar representations를 mean-pooling한 followed by a fully connected layer에 의해 produced됩니다.

 

 

 

4 METHOD (정리노트)

4.1-4.2: 핵심 아이디어: Pose Submanifold $M_c$ $\to$ Product Space $P$

  • Problem: Ligand pose $x$$R^{3n}$ (n=원자 수) 공간에 있지만, 이는 molecular docking의 실제 degrees of freedom (DOF)보다 훨씬 큽니다. 실제 DOF는 $(m+6)$ 차원 (m=torsion angles, +6=rototranslations)의 submanifold $M_c \subset R^{3n}$에 있습니다.
  • Challenge: $M_c$ 같은 submanifold에서 직접 diffusion DGM을 훈련하는 것은 매우 비효율적입니다 (diffusion kernel $p(x_t|x_0)$이 closed-form이 아님).
  • Solution: $M_c$one-to-one mapping (일대일 대응)이 되는 "더 좋은" (nicer) manifold $P$를 정의하고, $P$에서 DGM을 개발합니다.
  • "Nicer" Space $P$: Docking의 실제 DOF에 해당하는 transformation groups의 product space로 정의합니다.
    • $P = T(3) \times SO(3) \times SO(2)^m$
    • $T(3)$: 3D translation (위치)
    • $SO(3)$: 3D rotation (방향)
    • $SO(2)^m$: $m$개의 rotatable bonds에 대한 torsion (내부 비틀림)
  • Novel Torsion Definition $A_{tor}$: Torsion $A_{tor}$을 정의하는 것이 핵심입니다. Torsion이 translation이나 rotation을 유발하지 않도록 (disentangled) 정의해야 합니다.
    • 방법: Torsion updates를 적용한 후, $\text{RMSDAlign}$ (Eq. 1)을 통해 원래 pose와 global alignment를 수행합니다.
    • 결과 (Proposition 1):$A_{tor}$는 linear / angular momentum을 유발하지 않아($=0$), 다른 DOF와 orthogonal합니다.
  • Pose Space $M_c$: $M_c = \{A(g, c) | g \in P\}$, 여기서 $A$는 $A_{tr}$, $A_{rot}$, $A_{tor}$의
  • composition입니다.

4.3: Diffusion on the Product Space $P$

  • Key Theory (Proposition 2): $A: P \to M_c$ 맵은 bijection (전단사 함수)입니다.
    • 이는 3D pose $x \in M_c$와 product space $g \in P$ 간의 완벽한 상호 변환($A_c^{-1}$)을 보장합니다.
  • Diffusion in $P$: $M_c$ 대신 $P$에서 diffusion을 수행합니다.
  • Advantage: $P$는 product manifold이므로, diffusion이 각 component ($T(3)$, $SO(3)$, $SO(2)^m$)에서 independent하게 진행됩니다.
    • Tangent space도 $T_g P \cong R^3 \oplus R^3 \oplus R^m$로 분리됩니다.
  • Known Kernels: 각 component의 diffusion kernel과 score는 효율적으로 sampling/computation이 가능합니다.
    • $T(3) \cong R^3$: Standard Gaussian (Trivial).
    • $SO(3)$: $IGSO(3)$ distribution (axis-angle로 sampling 가능).
    • $SO(2)^m \cong T^m$: Wrapped normal distribution (directly sampling 가능).

4.4: Training and Inference

  • Input to Model: Diffusion의 수학$P$ (abstract space)에서 일어나지만, score model $s(x, y, t)$의 입력full 3D coordinates ($x \in R^{3n}$)입니다.
    • 이유: Model이 $SE(3)$-equivariant GNN을 통해 3D
    • physical interactions를 직접 reasoning하고, unseen complexes에 대해 generalize할 수 있도록 하기 위함입니다.
  • Confidence Model $d(x, y)$:
    • DGM이 생성한 candidate poses를 ranking하기 위해 별도로 훈련됩니다.
    • Training: DGM이 생성한 pose들을 $RMSD < 2\AA$ (True/False)로 labeling하여 binary classification (cross-entropy loss) 문제로 훈련합니다.
    • Inference: DGM이 $N$개의 poses를 생성 $\to$ Confidence model이 $N$개 pose의 $RMSD < 2\AA$일 confidence를 예측 $\to$ Top-1 pose 선택.

4.5: Model Architecture

  • Framework: Score model $s$와 Confidence model $d$ 모두 $SE(3)$-equivariant convolutional networks (point clouds 기반)를 사용합니다.
  • Score Model Output $s(x, y, t)$:
    • Tangent space $T_g P \cong R^3 \oplus R^3 \oplus R^m$에 대응하는 output을 예측해야 합니다.
      1. Translation score: $R^3$ vector ($SE(3)$-equivariant)
      1. Rotation score: $R^3$ vector ($SE(3)$-equivariant)
      1. Torsion score: $m$ scalars ($SE(3)$-invariant)
  • Confidence Model Output $d(x, y)$:
    • A single scalar ($SE(3)$-invariant) (confidence score).
  • Multiscale Strategy: (Performance와 Speed 향상)
    • Score Model (DGM): Coarse-grained protein (C-$\alpha$ atoms) representation 사용 (빠름).
    • Confidence Model (Ranker): All-atom structure 사용 (정확함).
  • Initial Features: Protein residue nodes는 pre-trained language model (ESMFold) embeddings를 initial features로 받습니다.

쉬운 설명 :

이 섹션은 DIFFDOCK이 실제로 어떻게 작동하는지 그 '기술적 방법'을 설명합니다.

핵심 아이디어: 3D 공간(어려움) vs. '조종간' 공간(쉬움)

  1. 문제: 약물(ligand)의 자세는 3D 공간($R^{3n}$)에 있지만, 이 3D 좌표를 직접 생성/수정하도록 AI를 가르치는 것은 너무 복잡하고 비효율적입니다. (마치 로봇팔의 모든 나사못 좌표를 하나하나 맞추려는 것과 같습니다.)
  2. 해결책: '조종간' 공간($P$)을 정의하기
    • 이 논문은 약물의 자세가 실제로는 (1)위치, (2)방향, (3)내부 비틀림(torsions)이라는 $m+6$개의 '조종간' 값으로 완벽하게 결정된다고 봅니다. (로봇팔의 '관절 각도'를 조종하는 것과 같습니다.)
    • $m+6$개의 값으로 이루어진 수학적 공간을 $P$라고 부릅니다.
    • 가장 중요한 기술적 성과는, 3D 자세 공간($M_c$)과 이 '조종간' 공간($P$)이 **완벽하게 일대일 대응(bijection)**된다는 것을 증명한 것입니다. (어떤 3D 자세든 단 하나의 '조종간' 값 세트로 변환 가능하고, 그 반대도 가능합니다.)
  3. '조종간' 공간에서 Diffusion 수행하기
    • 3D 자세를 직접 diffusion(노이즈 $\to$ 복원)하는 대신, 훨씬 간단한 '조종간' 값($P$)을 diffusion합니다.
    • $P$ 공간은 (1)위치, (2)방향, (3)비틀림이 서로 분리되어 있어서, AI는 이 3가지를 '독립적으로' 학습하고 복원할 수 있습니다. (예: 위치 노이즈 따로, 방향 노이즈 따로 복원)
    • 이 각 공간에서의 diffusion은 이미 수학적으로 잘 알려진 방법들(Gaussian, $IGSO(3)$ 등)을 사용할 수 있어 매우 효율적입니다.
  4. AI 모델(Score Model)의 역할
    • AI에게는 노이즈가 낀 '3D 자세'($x_t$)를 보여줍니다.
    • AI는 이 3D 자세를 보고 물리적 상호작용을($SE(3)$-equivariant GNN으로) 이해한 다음, '조종간'을 어떻게 수정해야 하는지 (예: "왼쪽으로 0.5Å 이동, 30° 회전, 2번 비틀림 10° 수정") 그 '수정값'(score)을 예측합니다.
  5. 두 단계 AI 전략 (Multiscale)
    • 1단계 (Score Model): 빠르고 효율적인 생성을 위해, 단백질을 듬성듬성(C-$\alpha$ 원자만) 보고 '후보 자세'들을 여러 개 생성합니다.
    • 2단계 (Confidence Model): 1단계에서 생성된 후보들을 랭킹 매기기 위해, 더 꼼꼼한 '심사위원 AI'가 단백질의 모든 원자(all-atom)를 자세히 보고 $RMSD < 2\AA$일 확률이 가장 높은 1등을 고릅니다.

 

 

 

주인장 이해

더보기

diffdock 이해하기

준비물
단백질 원자마다 3D 좌표가 있어야함.
- 얻는방법 : AI로 예측하거나, 노가다

아미노산 서열 

- 리간드 화학식 
- RDKit를 이용해서 3D 변환을 진행 시킬 수 있음.

최종 준비물
단백질마다 3D 좌표, 서열
아미노산 서열
리간드 3D 좌표

그래프 생성
단백질의 경우 아미노산 마다 노드가 된다.
리간드의 경우 원자 마다 노드가 된다.
리간드 : 5옹스트롬 이내를 모두 연결 (기준은 달라 질 수 있음)
단백질 : 15옹스트롬 이내를 모두 연결 (기준은 달라 질 수 있음)


아미노산과 원자도 20옹스토롬 이내를 연결 함 기준은 달라질 수 있음


임베딩
ESM2를 통해 서열을 Feature로 뽑을 수 있음. 그 피쳐를
그래프의 아미노산 피쳐로 사용

리간드의 경우 별다른 모델을 쓰지 않음. 원자번호, 카이랄성, 전하, 고리정보, 결합정보를 이용해서 원핫인코딩을 진행

두 차원을 맞추기 위해 MLP를 태워서 차원을 맞춤

그리고 3D 좌표로 각 노드 사이의 거리와 방향을 계산해서 Geometric Convolution을 통해 주변 정보를 확인하여 정보 강화


그 뒤 디퓨전을 통해
xyz를 얼마나 이동시킬지 (3)
얼마나 회전시킬지 (3)
내부 관절을 얼마나 꺾을지 (n)

그럼 어떻게 좋은 score인데?


여러개 예측해서 RMSD 가 가장 낮은 애를 뽑음.

실제론 심판 AI 가 가장 신뢰도 높은 놈을 예측







용어 이해하기
아미노산 : 단백질을 만드는 가장 작은 재료(20 종류 있음)M-K-L-V...