AI바라기의 인공지능
dataset : mdCATH: A Large-Scale MD Dataset for Data-Driven Computational Biophysics 본문
dataset : mdCATH: A Large-Scale MD Dataset for Data-Driven Computational Biophysics
AI바라기 2026. 4. 17. 13:48
용어 설명
- Molecular Dynamics (MD): 분자와 원자들의 물리적 움직임을 시간에 따라 컴퓨터로 시뮬레이션하여 동적 거동을 모델링하는 기법.
- CATH classification: 단백질 도메인을 구조적 아키텍처와 진화적 기원에 따라 계층적으로 분류한 데이터베이스 (Class, Architecture, Topology, Homologous superfamily).
- Neural Network Potentials (NNPs): 원자 간의 상호작용 에너지와 힘(forces)을 기계학습 모델을 통해 빠르고 정확하게 예측하는 기술.
- Radius of gyration: 분자의 질량 중심으로부터 원자들이 얼마나 넓게 퍼져 있는지를 나타내는 척도. 단백질이 단단하게 접혀 있는지(folded) 혹은 풀려 있는지(unfolded) 확인하는 지표로 쓰임.
- RMSF (Root-mean-square fluctuation): 시뮬레이션 과정에서 특정 잔기(residue)나 원자가 평균 위치에서 얼마나 크게 흔들리는지(유연성)를 나타내는 수치.
- CHARMM22* / TIP3P: 본 연구의 시뮬레이션에서 사용된 최신의 all-atom force field와 물 분자 모델.
- HDF5: 대용량의 복잡한 수치 데이터를 계층적으로 저장하고 고속으로 읽고 쓸 수 있게 해주는 바이너리 데이터 포맷.
Purpose of the Paper
- 기존 연구의 한계: GPCRmd, SCOV2-MD 등 기존 MD 데이터베이스들은 특정 단백질군(GPCR, COVID 관련 등)에만 국한되거나, 막대한 계산 비용 문제로 인해 단일 온도(상온) 및 단일 replica 조건에 머물러 있어 proteome-wide한 단백질의 동적(dynamic) 거동을 학습하기에는 턱없이 부족함.
- 새로운 접근 방식: 기계학습 기반의 NNPs 및 구조 예측 모델을 훈련시키기 위해서는 단백질 접힘(folding) 및 풀림(unfolding)과 같은 광범위한 에너지 상태의 샘플링이 필수적임. 이를 위해 단백질 전체 구조 공간을 대표하는 CATH 분류를 바탕으로, 극한 환경의 동역학까지 포괄하는 대규모 범용 all-atom MD dataset인 mdCATH를 구축하여 제공하고자 함.
Key Contributions
- Proteome-wide 대규모 MD Dataset (mdCATH) 구축: CATH 분류를 기반으로 엄선된 5,398개의 단백질 도메인에 대해 총 62 ms 이상(134,950 trajectories)의 all-atom 시뮬레이션 수행.
- Novelty: 기존 특정 타겟 중심의 데이터셋과 달리 프로테옴 전반의 구조적 다양성을 아우르는 독보적인 스케일 달성.
- 폭넓은 Conformational Space Sampling: 단백질마다 5개의 온도 조건(320K부터 450K까지 기하급수적 증가)과 각각 5개의 replica를 적용.
- Novelty: 단백질이 안정된 상태뿐만 아니라 열에 의해 완전히 구조가 붕괴되는 high-energy 거동까지 포착하여, AI가 모든 궤적의 구조 변화를 학습할 수 있게 함.
- Coordinates와 Forces 동시 수록: 1 ns 간격으로 원자의 좌표(coordinates)뿐만 아니라 순간적인 힘(forces) 데이터까지 함께 제공.
- Novelty: 기계학습 기반 force field (NNPs) 모델을 훈련하기 위해서는 force 데이터가 절대적으로 필요하며, 이는 기존 일반 MD DB와 mdCATH를 구분 짓는 가장 핵심적인 특징임.
- AI 연구 친화적 파이프라인: RMSD, RMSF, secondary structure 등의 metadata를 사전 계산하여 제공하고, TorchMD-Net에 즉시 연동 가능한 데이터 로더 및 효율적인 HDF5 포맷 지원.
Experimental Highlights
- Validation of temperature denaturation (열변성 검증): 시뮬레이션 온도가 올라감에 따라 단백질이 물리적으로 올바르게 붕괴하는지 검증. 320K 부근에서는 안정적이나, 413K 이상에서 radius of gyration이 급증하고 alpha/beta 구조가 coil 구조로 붕괴됨을 ternary plot을 통해 명확히 입증.
- Fluctuation-unfolding cooperativity 확인: 개별 잔기의 RMSF(흔들림)와 secondary structure 유지 비율 사이의 뚜렷한 반비례 관계를 입증. 저온(320K)과 고온(450K) 데이터를 비교하여 시뮬레이션의 물리화학적 신뢰성(로컬 구조와 변동성 간의 상호작용)을 성공적으로 검증함.
- Class-wise thermodynamics 발굴: 단백질의 CATH Class에 따라 열에 저항하는 동역학이 다름을 확인. Mainly beta 도메인은 450K까지 가장 안정적으로 구조를 유지하는 반면, Mainly alpha 도메인은 413K에서 구조 소실이 시작되고 450K에서는 약 100 ns 이내에 매우 빠르고 급격하게 붕괴하는 패턴을 실험적으로 밝혀냄.
Limitations and Future Work
- Limitations (한계점): 데이터셋의 시뮬레이션 온도가 단백질의 변성을 보기 위해 320K에서 450K 범위에 집중되어 있음. 이로 인해 생리적 활성이 주로 일어나는 완벽한 상온(room-temperature, 약 300K 부근) 조건에서의 coverage가 상대적으로 부족함. 이는 생체 내 기본 상태의 미세한 dynamic 거동을 분석하는 연구에는 다소 해상도가 떨어질 수 있음을 의미함.
- Future Work (향후 연구 방향): 향후 데이터셋 업데이트를 통해 300K 조건의 시뮬레이션을 대량으로 추가 배포할 계획임. 이를 통해 열변성 상태의 데이터와 상온에서의 기저 상태 데이터를 완벽히 조화시켜, 범용적인 biomolecular force field 모델 학습의 완벽성을 높일 예정임.
Overall Summary
본 논문은 프로테옴 전반을 아우르는 5,398개의 CATH 도메인을 대상으로 다양한 온도 조건(320K~450K)에서 생성된 초대형 all-atom 분자동역학 데이터셋 mdCATH를 소개합니다. 안정적인 상태부터 열변성으로 구조가 무너지는 과정까지 폭넓은 conformational space를 샘플링하였으며, 특히 원자의 좌표와 힘(forces) 데이터를 동시에 제공하는 것이 특징입니다. 이 데이터셋은 향후 머신러닝 기반의 단백질 동역학 모델(NNPs) 개발 및 구조 기반 신약 설계(drug discovery)를 위한 핵심적인 기초 인프라로 자리 잡을 것입니다.
쉬운 설명
기존의 단백질 데이터베이스가 단백질의 완성된 형태만 보여주는 "정지된 증명사진" 이라면, mdCATH는 수천 종류의 단백질을 다양한 온도 오븐에 넣고 "어떻게 흔들리고, 어떻게 망가지고 풀리는지"를 1초 단위로 기록한 **"초고속 3D 붕괴 영상 모음집"**입니다.
특히 이 영상에는 단순히 모양의 변화만 있는 것이 아니라, 각각의 원자가 서로를 얼마나 강하게 밀고 당기는지에 대한 "힘(forces)의 크기와 방향"이 꼼꼼하게 자막으로 달려 있습니다. 인공지능은 이 방대한 '힘' 데이터를 보고 학습함으로써, 앞으로 처음 보는 단백질이 주어지더라도 자연계의 물리 법칙에 따라 단백질이 어떻게 접히고 움직일지를 스스로 정확하게 예측할 수 있게 됩니다.
Abstract
단백질 구조 결정에 있어서의 최근 발전은 단백질에 대한 우리의 이해를 혁신하고 있습니다.
하지만, 단백질의 기능, 폴딩 및 상호작용을 이해하는 데 필수적인 단백질의 역학에 초점을 맞춘 포괄적인 datasets의 가용성에는 여전히 상당한 격차가 존재합니다.
이러한 중요한 격차를 해결하기 위해, 우리는 다양하고 대표적인 단백질 도메인 모음에 대한 광범위한 전원자 분자 역학 시뮬레이션 세트를 통해 generated된 dataset인 mdCATH를 소개합니다.
이 dataset은 320K에서 450K 사이의 5가지 온도에서 각각 5회씩 시뮬레이션되고, state-of-the-art 고전 역장을 사용하여 modeled된 5,398개 도메인에 대한 전원자 시스템으로 구성됩니다.
mdCATH dataset은 62ms 이상의 누적 시뮬레이션 시간 동안 매 1ns마다 좌표와 힘을 기록함으로써, 다양한 도메인 클래스의 역학을 효과적으로 포착하고 단백질 언폴딩 열역학 및 동역학에 대한 프로테옴 전반의 통계 분석을 위한 독보적인 리소스를 제공합니다.
우리는 dataset의 구조를 개괄하고 쉽게 재현 가능한 4가지 사례 연구를 통해 그 잠재력을 보여줌으로써, 단백질 과학 발전에 기여할 수 있는 역량을 강조합니다.

그림은 6개의 수평 색띠와 이를 가로지르는 파란색 꺾은선 그래프로 구성되어 있으며, x축은 '도메인 수(Number of Domains)'를 나타냅니다. 가장 위에서부터 아래로 각 필터링 단계는 다음과 같습니다.
- 1단계 (보라색): CATH S20 v4.2.0: 초기 데이터셋에는 14,433개의 도메인이 있습니다.
- 2단계 (회색빛 파란색): 잔기 수(numRes)가 $50 \leq numRes \leq 500$ 사이: 도메인의 크기(잔기 수)를 제한합니다. 이 단계 후 13,470개가 남습니다.
- 3단계 (청록색): 해결되지 않은 영역, 비표준 아미노산 또는 여러 체인 제외: 구조적 문제나 복잡한 체인을 포함하는 도메인을 제외합니다. 이 단계 후 5,883개가 남습니다. (이 단계에서 가장 많은 수의 도메인이 제외되었습니다).
- 4단계 (초록색): 시스템 구축 및 용매화에 성공: 계산을 위한 시스템 준비가 성공적으로 이루어진 도메인만 남깁니다. 이 단계 후 5,680개가 남습니다.
- 5단계 (연두색): 박스 크기(box)가 $box \leq (100 A)^3$ 이하: 계산 시뮬레이션 박스의 크기를 제한합니다. 이 단계 후 5,425개가 남습니다.
- 6단계 (가장 아래, 노란색): mdCATH 도메인: 최종적으로 mdCATH 데이터셋에 포함된 도메인은 5,398개입니다.
각 수평 색띠는 해당 제외 기준 또는 단계를 나타내며, 파란색 꺾은선은 각 단계에서 남은 도메인의 수를 시각적으로 보여줍니다.
하단 캡션은 이 그림이 CATH 릴리스 4.2.0의 S20 상동성 집합에서 시작하여 최종 mdCATH 데이터셋에 포함된 도메인으로 끝나는 제외 기준과 그 결과 도메인 수를 보여준다고 설명합니다.
Background and Summary
단백질은 생명체의 구성 요소로서 거의 모든 생물학적 과정의 중심에 있으며, 단백질의 구조와 동역학(dynamics)을 이해하는 것은 생화학에서 제약에 이르는 분야의 발전을 위해 필수적입니다. 고도화된 계산 방법과 생물물리학적 기술의 융합은 단백질의 분자 구조와 기능에 대한 전례 없는 통찰력을 이끌어냈습니다. 예를 들어, 분자 동역학(Molecular dynamics, MD)은 수십 년 동안 품질이 향상되어 온 경험적 역장(empirical force-fields)을 기반으로, 실제와 같은 환경에서 종종 모든 원자 수준(all-atom resolution)으로 생물학적 거대 분자의 동역학을 모델링하려는 계산 집약적인 기술입니다. Machine learning은, 특히 neural network potentials (NNPs)의 개발을 통해, 행동에 대한 더 정확한 예측과 시뮬레이션을 가능하게 함으로써 계산 단백질 연구를 더욱 향상시킬 수 있는 잠재력을 가지고 있습니다.
그러나 단백질의 동적인 행동을 포착하는 포괄적인 datasets의 부족은 여전히 중요한 과제로 남아 있습니다. 이러한 datasets는 단백질 폴딩, 기능 및 상호 작용을 예측할 수 있는 machine learning models를 training하는 데 필수적입니다. 이러한 과정은 종종 동적이고 일시적이지만, 거대 분자가 어떻게 작동하고 상호 작용하며 어떻게 표적이 될 수 있는지 이해하는 데 매우 중요합니다. 따라서 고품질 datasets는 이러한 복잡한 현상에 대한 우리의 이해를 발전시키는 데 중추적인 역할을 합니다. 최근 몇 년 동안 특히 신약 개발의 핵심 표적에 대한 MD datasets를 제공하려는 노력이 있었습니다. 주목할 만한 데이터베이스로는 G-단백질 결합 수용체(GPCRs) 동역학 연구 전용 플랫폼인 GPCRmd와 COVID-19 연구 맥락에서 협업 MD 데이터베이스의 힘을 보여주는 SCOV2-MD 및 BioExcel-CV19가 있습니다. 그러나 이러한 이니셔티브는 특정 프로테옴 하위 집합에만 초점을 맞추고 있어 포괄적인 프로테옴 전체 동적 datasets에 공백을 남긴다는 한계가 있습니다. 더 넓은 범위의 단백질을 포괄하는 동력학 datasets를 제공하기 위해 MoDEL, Dynameomics, ATLAS와 같은 이전 프로젝트와 MDDB 및 MDRepo 이니셔티브가 도입되었으며, 종종 단일 레플리카와 실온에서 진행되었지만, MD의 계산 비용은 일반적으로 적용 범위의 폭과 시간 척도 측면에서 데이터베이스를 제한해 왔습니다.
여기서 우리는 CATH classification system의 대부분의 단백질 도메인에 대해 광범위한 모든 원자 MD 기반 동역학(all-atom MD-derived dynamics)을 제공하는 데 중점을 둔 dataset인 mdCATH를 소개합니다. mdCATH는 5가지 다른 온도에서 각각 5개의 레플리카로 5,398개의 도메인에 대한 시뮬레이션을 특징으로 하며, 따라서 다양한 조건에서 단백질 구조 동역학에 대해 통계적으로 유의미한 대규모 통찰력을 제공합니다. 모든 원자 분자 동역학 시뮬레이션으로 구성된 이 광범위하고 균일하게 수집된 dataset은 풍부하고 다양하며 생리학적으로 관련 있는 단백질 도메인 동역학 배열을 제공함으로써, 가용한 분자 datasets의 중요한 공백을 채워주며 단백질 열역학, 폴딩 및 동역학에 대한 체계적이고 프로테옴 전체에 걸친 연구를 가능하게 합니다. 우리가 아는 한 유일하게 state-of-the-art 모든 원자 역장(all-atom force field)에서 파생된 순간적인 힘(instantaneous forces)을 포함하고 있기 때문에, data-driven (e.g. neural network-based) potentials를 학습하는 데 mdCATH를 활용하는 것이 가능합니다. 우리는 mdCATH dataset이 생체 분자 역장(biomolecular force fields)의 설계 및 개선을 촉진하기를 바랍니다.
📝 mdCATH 요약 노트 (Background and Summary)
1. 연구 배경 및 문제 제기 (The Gap)
- 단백질 폴딩, 상호작용 등을 예측하는 Machine learning 모델(특히 Neural network potentials, NNPs)을 훈련하기 위해서는 단백질의 동적인 행동을 담은 포괄적인 데이터셋이 필수적임.
- 기존 데이터셋(GPCRmd, SCOV2-MD 등)은 특정 프로테옴(GPCR, COVID-19 등)에만 국한되어 있음.
- 커버리지를 넓힌 이전 프로젝트들(MoDEL, Dynameomics 등)도 존재하나, 막대한 계산 비용 때문에 대부분 단일 레플리카, 실온(room temperature) 조건에 머무르는 한계가 있었음.
2. mdCATH 데이터셋의 핵심 스펙 (The Solution)
- 규모 및 타겟: CATH classification system 내 대부분의 단백질 도메인을 포괄하는 5,398개 도메인 채택.
- 시뮬레이션 조건: 5가지 다른 온도 조건에서 각각 5개의 레플리카로 시뮬레이션 수행 (다양한 환경 조건 및 통계적 유의성 확보).
- 해상도: 광범위한 All-atom MD-derived dynamics 제공.
3. AI 연구자를 위한 가장 중요한 차별점 (Unique Contribution)
- Instantaneous forces 데이터 포함: State-of-the-art all-atom force field에서 파생된 순간적인 힘(instantaneous forces) 데이터를 제공함.
- 단순한 구조나 궤적(trajectory)을 넘어 힘(force) 데이터가 포함되어 있어, Data-driven 모델(특히 neural network-based potentials)을 학습시키고 생체 분자 역장(biomolecular force fields)을 고도화하는 데 최적화되어 있음.
4. 연구의 의의
- 편향되지 않은 프로테옴 전체 수준(proteome-wide)의 단백질 열역학 및 동역학 분석을 가능하게 하는 최초의 대규모, 고품질 데이터셋.
💡 쉬운 설명 :
이 논문의 배경과 요약을 아주 쉽게 비유하자면 이렇습니다.
단백질은 가만히 멈춰있는 블록이 아니라, 살아서 끊임없이 꼬물거리고 접히고 펴지는 미세한 기계와 같습니다. AI가 이 단백질 기계가 어떻게 작동하는지 정확히 예측하려면, 이 기계가 움직이는 **고화질 동영상 데이터(동역학 데이터)**가 아주 많이 필요합니다.
하지만 기존에 과학자들이 만들어둔 데이터는 몇몇 유명한 기계(예: 코로나 바이러스 단백질)만 찍어두었거나, 딱 쾌적한 실내 온도에서 한 번씩만 작동시켜 본 영상들뿐이었습니다. 세상에 존재하는 다양한 단백질을 학습하기엔 턱없이 부족하고 편향되어 있었죠.
이번에 발표된 mdCATH는 작정하고 만든 초대형 단백질 움직임 아카이브입니다. 세상에 존재하는 거의 모든 종류의 단백질 샘플(5,398개)을 모아서, 미지근한 온도부터 펄펄 끓는 온도까지 5가지의 극한 환경에 집어넣고, 혹시 모를 오차를 줄이기 위해 똑같은 실험을 5번씩 반복해서 촬영한 데이터입니다.
가장 대박인 점은(AI 연구자 입장에서), 단순히 단백질이 어떻게 움직이는지만 찍은 게 아니라, 그 움직임의 매 순간순간마다 원자들 사이에서 밀고 당기는 **힘(force)**의 수치까지 전부 기록해 두었다는 것입니다. 이 힘 데이터를 먹여서 AI를 학습시키면, 앞으로 AI가 새로운 단백질의 물리적인 움직임을 훨씬 더 빠르고 정확하게 시뮬레이션할 수 있게 됩니다.
Dataset Requirements
우리의 목표는 신약 개발을 발전시키고 연구자들이 다양한 단백질 표적의 동적 행동을 탐구할 수 있도록 지원하기 위해 프로테옴 전체의 molecular dynamics dataset을 구축하는 데 한 걸음 더 나아가는 것입니다. 우리는 다음과 같은 설계 특징을 충족하도록 mdCATH dataset을 구축했습니다.
- Comprehensive coverage of structural features. mdCATH는 CATH classification system의 5,398개 단백질 도메인에 걸쳐 molecular dynamics 정보를 제공합니다. 이러한 광범위한 커버리지는 프로테옴의 광범위한 표현을 보장하여, 이 dataset이 신약 개발의 다양한 연구 애플리케이션에 가치 있게 사용될 수 있도록 합니다.
- MD-derived coordinates and forces. 이 dataset은 시뮬레이션된 trajectories의 coordinates와 forces를 모두 포함합니다. forces의 존재는 이 dataset의 고유한 특징이며, 이는 힘 기반(force-based) machine learning potentials의 training을 가능하게 합니다.
- Wide conformational space sampling. mdCATH는 다양한 온도에서 여러 replicas를 특징으로 하며, molecular dynamics 시뮬레이션에서 발생하는 더 높은 에너지 상태를 포함하여 다양한 conformations를 포착합니다. 이는 이 dataset으로 trained된 potential functions가 모든 관련 conformations에 걸쳐 정확한 결과를 생성하도록 보장합니다.
- High quality data. 최고 수준의 정확성을 보장하기 위해, mdCATH는 state-of-the-art force fields, code 및 계산 리소스를 활용합니다. dataset의 정확성은 이를 기반으로 trained된 models의 성능에 직접적인 영향을 미치므로, 실용적이고 가장 정확한 수준의 이론을 사용하는 것을 최우선 과제로 삼습니다.
- Derived metadata. 이 dataset은 root-mean-square deviation (RMSD), root-mean-square fluctuation (RMSF), secondary structure 구성 등과 같은 pre-computed 정보를 포함합니다.
- Reproducibility. dataset에 PDB 및 PSF 파일을 포함하여 재현성을 보장합니다. 또한, 데이터는 효율적인 HDF5 binary data format으로 저장되어 추가 연구 및 model training을 위한 dataset의 쉬운 접근 및 조작을 용이하게 합니다.
Methods
우리는 CATH 데이터베이스에서 제공하는 도메인 정의를 기반으로 dataset을 구축했습니다. Orengo 그룹에서 유지 관리하는 공개적으로 사용 가능한 리소스인 CATH는 class, architecture, topology 및 상동성 슈퍼패밀리(homologous superfamily) 계층 구조에 따라 일반적인 architecture별로 클러스터링된 도메인 세트를 제공합니다. 우리는 CATH 릴리스 4.2.0의 S20 (20%) 상동성 수준(homology level)에서 14,433개의 비상동성(non-homologous) 도메인에서 시작했습니다. 그런 다음 구형 구조(globular structures)에 집중하기 위해 선택 범위를 50에서 500개의 아미노산 사이인 13,470개의 도메인 하위 집합으로 제한했습니다.
다음으로, 원래 실험 구조의 미해결 영역 등으로 인해 골격(backbone)이 연속적이지 않은 모든 구조를 제외했습니다. 또한 비표준 아미노산(CATH model 파일에도 없음)을 포함하는 시퀀스도 제외했습니다. 이러한 포함 기준을 적용한 후 5,883개의 잔기가 추가 처리를 위해 남았습니다.
모든 도메인 구조는 전하 상태 할당(charge state assignments), 양성자 배치(proton placement) 및 수소 결합 네트워크 최적화(H-bond network optimization)를 포함하여 pH 7의 표준 양성자화 프로토콜(standard protonation protocol)로 준비되었습니다. 펩타이드 사슬은 아세틸화(acetylated) 및 N-메틸화(N-methylated) 말단으로 캡핑(capped)되었습니다. 시스템은 각 측면에 최소 9Å의 패딩이 있는 TIP3P 물의 입방형 상자(cubic boxes)에서 용매화(solvated)되었고, 중화(neutralized)되었으며, 0.150M 농도의 Na+ 및 Cl− 이온으로 이온화(ionized)되었습니다. 생성된 용매화 입방형 상자가 $(100\text{\AA})^3$보다 큰 시스템은 폐기되었습니다. 최종 dataset에는 Fig. 1에 설명된 대로 5,398개의 허용된 도메인이 포함됩니다. 모든 구축 단계에는 HTMD 버전 1.16이 사용되었습니다.
모든 시스템은 CHARMM22* forcefield로 매개변수화(parameterized)되었습니다. 장거리 정전기력(Long-range electrostatic forces)은 입자-메시 에발트(particle-mesh Ewald, PME) 합계(summation)로 처리되었으며, H 원자당 4 amu의 수소 질량 재분배 체계(hydrogen mass repartitioning scheme)를 통해 활성화된 4 fs의 통합 타임스텝(integration timestep)을 사용했습니다. 시뮬레이션은 GPUGRID.net 분산 네트워크에서 ACEMD를 사용하여 수행되었습니다.
이렇게 얻은 각 시스템은 1 atm 및 300K의 NPT 앙상블에서 4 fs의 타임스텝으로 20ns 동안 사전 평형 단계(pre-equilibration phase)를 거쳤으며, Montecarlo 바로스타트(barostat)를 활용했습니다. 평형의 전반부(10ns) 동안 초기 위치에 가깝게 유지하기 위해 단백질의 탄소 α 원자 (1.0 kcal/mol/Å)와 무거운 원자 (0.1 kcal/mol/Å)에 조화 구속(Harmonic restraints)이 적용되었습니다. 평형의 후반부(10ns에서 20ns)는 구속 없이 수행되었습니다. 후속 생산 단계(production phase) 동안에는 구속이 사용되지 않았습니다.
각 시스템의 최종 구성은 25개의 생산 시뮬레이션의 시작점으로 사용되었으며, 기하학적 수열(geometric progression) (320K, 348K, 379K, 413K, 450K)에 따른 5가지 온도에서 각각 5개의 replicas로 실행을 파생시켰습니다. 생산 시뮬레이션은 통합을 위한 Langevin 온도조절장치(thermostat)와 $0.1 \text{ ps}^{-1}$의 이완 시간(relaxation time)을 사용하여 NVT 앙상블에서 수행되었습니다. 일정한 부피의 앙상블(constant-volume ensemble)을 사용하면 TIP3P에 의한 수상(water phase) 및 압력의 열악한 재현과 관련된 문제를 피할 수 있습니다. 수소 원자가 포함된 결합은 허용 오차가 $10^{-5}$인 M-shake 알고리즘을 사용하여 평형 길이(equilibrium length)로 제한되었습니다(constrained). 원자 위치와 각 원자에 작용하는 forces는 매 1ns마다 기록되었으며 아래 설명된 대로 dataset의 일부로 제공되었습니다. 1ns의 샘플링 속도(sampling rate)는 다루기 쉬운 동역학(tractable kinetics)을 제한하여, 구조적 변화(conformational changes)와 같이 비교적 느린 자유도(degrees of freedom)의 역학은 해상(resolution)할 수 있지만 더 빠른 움직임(예: 용매 노출 측쇄 회전)은 불가능합니다. NPT 및 NVT 시뮬레이션 모두에서 PME에 대해 9Å 컷오프가 적용된 반면, 반데르발스 상호작용(van der Waals interactions)은 9Å의 컷오프와 7.5Å의 스위칭 거리(switching distance)를 사용했습니다. 유용할 수 있는 pre-computed metadata를 포함하기 위해 HTMD library를 사용하여 trajectories 분석을 수행했습니다. 보편적인 8-class 코드를 따라 인코딩된 moleculekit 버전 1.8.32의 DSSP 알고리즘 구현을 사용하여 각 프레임 및 잔기에 대해 2차 구조 할당(Secondary structure assignments)이 계산되었습니다.
📝 mdCATH 요약 노트 (Methods)
1. 데이터 선별 기준 (Curation & Filtering)
- 소스: CATH database v4.2.0의 S20 (20% homology level) 비상동성(non-homologous) 도메인 세트 활용 (데이터의 다양성 및 편향성 방지).
- 크기 및 구조 제한: 50~500 아미노산 길이의 구형 구조(globular structures)만 채택. 결측 구간(unresolved regions)이 있거나 비표준 아미노산이 포함된 데이터는 과감히 제외.
- 박스 크기 제한: 용매화 상자(solvation cubic box) 크기가 (100Å)³ 이하인 시스템만 남겨 계산 효율성 확보.
- 최종 데이터셋: 엄격한 필터링을 거쳐 최종 5,398개 도메인 확정.
2. 시뮬레이션 환경 세팅 (System Preparation & Equilibration)
- 기본 세팅: pH 7 환경, CHARMM22* forcefield 적용. 4 fs timestep (수소 질량 재분배 기법 활용).
- 사전 평형화 (Pre-equilibration): NPT 앙상블(1 atm, 300K)에서 20ns 동안 진행. 처음 10ns는 단백질 골격 등에 구속(restraints)을 주어 안정화하고, 나머지 10ns는 구속을 풀고 자연스러운 평형 유도.
3. 데이터 생성의 핵심 (Production Run) ★
- NVT 앙상블 채택: 생산 단계에서는 NPT 대신 NVT 앙상블을 사용. (이유: TIP3P 물 모델이 압력과 수상(water phase)을 잘 재현하지 못하는 아티팩트 문제를 원천 차단하기 위함).
- 다중 온도 스케일링: 각 도메인 당 320K ~ 450K 범위의 5가지 온도(기하급수적 간격)에서 시뮬레이션.
- 데이터 증강(Augmentation) 효과: 각 온도별로 5개의 replicas를 실행. 즉, 1개 도메인당 총 25개의 독립적인 시뮬레이션 궤적(trajectories) 생성.
- 샘플링 주기 및 기록: 1ns마다 원자의 좌표(coordinates)와 **각 원자에 작용하는 힘(forces)**을 기록. (초고속 측쇄 회전보다는 단백질의 큼직한 구조적 변화인 conformational changes를 포착하는 데 포커스를 맞춘 해상도).
4. AI 학습 편의를 위한 사전 연산 (Pre-computed Metadata)
- 각 프레임과 잔기(residue)마다 DSSP 알고리즘을 적용해 표준 8-class secondary structure 코드를 미리 계산하여 제공 (라벨링 수고를 덜어줌).
💡 쉬운 설명 :
이 Methods 섹션은 **"AI를 학습시킬 고품질 단백질 움직임 데이터를 어떻게 촬영(시뮬레이션)했는가?"**에 대한 제작 노트입니다.
- 배우(데이터) 캐스팅 엄격화: 아무 단백질이나 쓰지 않았습니다. 족보(CATH)를 뒤져서 서로 안 닮은 다양한 단백질을 뽑고, 너무 크거나 작거나, 중간에 뼈대가 끊어진 불량품은 다 버렸습니다. 최종적으로 진짜 쓸만한 정예 멤버 5,398개를 추렸습니다.
- 촬영장(물리 환경) 세팅: 단백질을 물이 가득 찬 네모난 박스에 넣고, 사람 몸속과 비슷한 pH 7 상태로 맞췄습니다. 그리고 본 촬영에 들어가기 전에 단백질이 물속 환경에 적응할 수 있도록 준비 운동(평형화 과정 20ns)을 시켰습니다.
- 극한의 본 촬영 (가장 중요): AI가 단백질이 어떻게 접히고 풀리는지(conformational changes) 잘 배우게 하려면 다양한 상황을 보여줘야 합니다. 그래서 미지근한 온도(320K)부터 단백질이 익어버릴 만큼 펄펄 끓는 온도(450K)까지 5단계의 극한 환경을 만들었습니다. 우연의 일치(오차)를 없애기 위해 똑같은 실험을 5번씩 반복했습니다. 단백질 하나당 25편의 영상을 찍은 셈입니다.
- 결과물 포장: 물의 압력 때문에 계산 오류가 나는 걸 막기 위해 부피를 고정(NVT)해 놓고 촬영했습니다. 1ns(10억 분의 1초)마다 사진을 찍으면서 원자들의 현재 위치뿐만 아니라, 원자들끼리 서로 밀고 당기는 **힘(force)**까지 영수증처럼 전부 기록했습니다. 나중에 AI 연구자들이 편하게 쓰라고 단백질의 모양(2차 구조) 정보도 미리 다 계산해서 이름표로 붙여두었습니다.
Data Records
mdCATH dataset은 CC BY 4.0 라이선스 하에 trajectories를 제공합니다. 이는 HuggingFace에서 이용할 수 있습니다. (1) 브라우저를 통해 HuggingFace에서 개별 domain 파일을 다운로드하거나, (2) HuggingFace dataset API를 통해 검색하거나 (Listing 2), (3) PlayMolecule 웹사이트에서 (다운로드 없이) 대화형으로 시각화하거나 ("Code Availability" 섹션 참조), (4) PlayMolecule에서 XTC 형식으로 다운로드할 수 있습니다.
Organization.
dataset은 계층적 데이터 형식 버전 5 (HDF5)의 파일 세트로 제공됩니다. HDF5는 파일 시스템과 유사한 계층 구조로 구성된 이기종 데이터 필드 및 배열의 효율적인 저장과 무작위 접근(random access)을 허용합니다. 단순성을 위해 특정 domain과 관련된 모든 데이터는 개별 HDF5 파일로 수집되었습니다. 제공된 dataset은 Table 1에 나타난 바와 같이 분자 시뮬레이션 trajectories의 스냅샷과 파생된 양(derived quantities)을 설명하는 필드로 구성됩니다.
dataset 내 각 파일의 루트 그룹(root group)은 domain ID이며, 이는 chain, element, resid, resname, 그리고 단백질 원자의 수를 나타내는 길이 $N$의 벡터인 z와 같은 필드들을 통합합니다. pdb 및 psf 문자열은 각각 시뮬레이션에 사용된(용매 포함) 원문 PDB 파일과 CHARMM/XPLOR 단백질 구조 파일(PSF) 형식의 토폴로지(topology)를 포함합니다. pdbProteinAtoms는 분석에 사용된 $N$개의 용질 원자(solute atoms)에 대한 PDB를 포함합니다.
동역학(dynamics)에 대한 데이터는 계층적으로 구성됩니다. 최상위 레벨에는 온도에 따라 이름이 지정된 5개의 그룹이 있으며, 각 온도 그룹에는 replicas에 대한 5개의 그룹이 포함됩니다. 마지막으로, 각 replica는 원자 좌표(atomic coordinates), forces, 시뮬레이션 박스뿐만 아니라 secondary structure assignments, 순간 회전 반경(instantaneous gyration radius), 제곱평균제곱근 편차(root-mean-square deviation) 및 변동(fluctuations)과 같은 pre-computed 파생 양(derived quantities)에 대한 필드를 보유합니다. 좌표(Coordinates)와 forces는 3차원 배열(three-dimensional arrays)로 저장되며, 그 축은 frames, 원자 및 공간 차원(spatial dimensions)을 따라 실행됩니다. DSSP secondary structure assignments는 표준 8문자 코드를 따라 잔기(residue) 및 frame별로 제공됩니다.
Size.
생산 마감일(production cut-off date)을 기준으로, 우리는 dataset에 포함된 5,398개의 domains에 대한 134,950개의 trajectories를 수집했습니다. Fig. 2a와 2b는 용질 원자 수와 아미노산 수 측면에서 생산 시뮬레이션 단계(production simulation phase)에 도달한 시스템 크기의 분포를 보여줍니다. 컴퓨팅 네트워크의 분산된 특성으로 인해 시뮬레이션의 길이는 (시스템 크기와 독립적으로) 다양하며, 대부분의 trajectories는 500ns 길이입니다(평균 464ns, 표준 편차 76ns, Fig. 2c). 총 시뮬레이션 시간은 62ms 이상입니다. 전체 dataset 크기는 3 TB 이상입니다. 추가적인 집계 통계는 Table 2에 보고되어 있습니다.
📝 mdCATH 요약 노트 (Data Records)
1. 데이터 접근성 및 저장 포맷 (Accessibility & Format)
- 플랫폼: HuggingFace를 통해 배포 (API를 통한 파이프라인 연동 용이, CC BY 4.0).
- 저장 포맷 (HDF5): 대규모 텐서 데이터의 무작위 접근(random access)과 계층적 관리에 최적화된 HDF5 바이너리 포맷 채택. ML 데이터 로더(Data Loader)와 병목 현상 없이 효율적으로 연동 가능.
- 구성: 단일 도메인당 1개의 HDF5 파일로 패키징하여 관리의 복잡성을 최소화.
2. HDF5 내부 데이터 계층 구조 (Data Hierarchy)
- Root 레벨 (정적 데이터): 시뮬레이션에 사용된 원본 PDB, PSF(토폴로지) 파일 원문 및 체인, 원자 종류 등 정적 메타데이터 포함.
- 동역학 데이터 트리: [온도(5개)] $\rightarrow$ [레플리카(5개)]의 트리 구조로 깔끔하게 정리되어 있어 조건별 필터링 학습에 유리.
3. AI 모델링을 위한 핵심 피처 (Key Features for ML)
- 좌표(Coordinates) & 힘(Forces): [프레임 $\times$ 원자 $\times$ 3D 공간 차원] 형태의 3차원 배열 텐서로 저장. (특히 Forces 데이터는 Neural Network Potential 학습에 직접 활용 가능).
- 사전 연산된 메타데이터(Pre-computed Metadata): 모델 학습 시 특징 추출(Feature extraction) 연산 비용을 줄이기 위해, 매 프레임/잔기별 DSSP 2차 구조(표준 8-class), RMSD, 변동성(Fluctuations), 회전 반경(Gyration radius) 값을 미리 계산하여 포함함.
4. 데이터셋 규모 (Scale & Statistics)
- 총 궤적(Trajectories): 5,398개 도메인에 대한 134,950개의 독립적인 시뮬레이션 궤적.
- 길이 및 용량: 궤적당 평균 약 464ns(대부분 500ns). 총 누적 시뮬레이션 시간 62ms 이상. 전체 데이터셋 용량 3TB 이상.
💡 쉬운 설명 :
이 Data Records 섹션은 완성된 3TB짜리 초대형 단백질 영상 데이터(mdCATH)를 AI가 쉽게 떠먹을 수 있도록 어떻게 정리하고 포장했는지에 대한 설명서입니다.
- 초고속 서랍장(HDF5) 사용: 3TB가 넘는 데이터를 그냥 폴더에 쑤셔 넣으면 AI가 데이터를 읽어오는 데만 한 세월이 걸립니다. 그래서 'HDF5'라는 아주 효율적이고 체계적인 압축 서랍장 시스템을 썼습니다. 단백질 하나당 서랍장 하나를 주고, 맨 위 칸에는 단백질의 기본 신상 정보(이름표, 기본 형태)를 넣고, 아래 칸에는 5가지 온도별 칸을 만들고, 그 안에 또 5개의 촬영본을 깔끔하게 정리했습니다. AI가 학습할 때 필요한 온도나 조건의 데이터만 즉각적으로 쏙쏙 빼갈 수 있습니다.
- AI 맞춤형 정답지 동봉: 영상(좌표)만 덜렁 주면 AI가 힘들어하니까, 원자들끼리 주고받는 '힘(Force)' 데이터를 3차원 숫자로 꽉꽉 채워 넣었습니다. 게다가 영상 매 프레임마다 "지금 이 부분은 나선형으로 꼬였어", "전체적인 크기가 이만큼 변했어" 같은 요약본(사전 연산 데이터)을 이미 다 계산해서 정답지처럼 붙여두었습니다. 연구자들은 이 정답지를 활용해 AI를 더 쉽고 빠르게 학습시킬 수 있습니다.
- 압도적인 물량: 허깅페이스(AI계의 깃허브 같은 곳)에서 누구나 쉽게 코드로 다운받을 수 있으며, 총 13만 4천여 개의 영상, 다 합치면 62밀리초(분자 세계에서는 엄청나게 긴 시간)에 달하는 역대급 분량입니다.
