Dynamic PDB|蛋白质结构数据集|分子动力学数据集

github2024-09-06 更新2024-09-07 收录

下载链接：

https://github.com/fudan-generative-vision/dynamicPDB

下载链接

链接失效反馈

资源简介：

Dynamic PDB是一个大规模的数据集，通过整合动态数据和额外的物理属性，增强了现有的著名静态3D蛋白质结构数据库，如蛋白质数据银行（PDB）。它包含大约12.6k个经过筛选的蛋白质，每个蛋白质都经过全原子分子动力学（MD）模拟以捕捉构象变化。与现有的蛋白质MD数据集相比，Dynamic PDB提供了三个关键的进步：扩展的模拟持续时间（最长可达1微秒/蛋白质）、更细粒度的采样间隔（1皮秒间隔）和丰富的物理属性数组（在MD过程中捕获，包括原子速度和力、势能/动能、模拟环境的温度等）。

创建时间：

2024-09-01

原始信息汇总

Dynamic PDB 数据集概述

概述

Dynamic PDB 是一个大规模数据集，通过整合动态数据和额外的物理属性，增强了现有的静态3D蛋白质结构数据库（如Protein Data Bank，PDB）。该数据集包含约12.6k个经过筛选的蛋白质，每个蛋白质都经过全原子分子动力学（MD）模拟，以捕捉构象变化。

关键进展

扩展的模拟时长：每个蛋白质的模拟时长可达1微秒，有助于更全面地理解显著的构象变化。
更细粒度的采样间隔：采样间隔为1皮秒，允许捕捉更详细的全局路径。
丰富的物理属性：在MD过程中捕捉到的物理属性，包括原子速度和力、势能/动能、模拟环境的温度等。

数据集内容

数据集包含以下属性：

文件名	属性	数据类型	单位
`{protein_id}_T.pkl`	轨迹坐标	float数组	Å
`{protein_id}_V.pkl`	原子速度	float数组	Å/ps
`{protein_id}_F.pkl`	原子力	float数组	kcal/mol·Å
`{protein_id}_npt_sim.dat`	势能<br>动能<br>总能量<br>温度<br>盒子体积<br>系统密度	float<br>float<br>float<br>float<br>float<br>float	kJ/mole<br>kJ/mole<br>kJ/mole<br>K<br>nm³<br>g/mL

此外，MD模拟过程中还存储了以下数据：

文件名	描述
`{protein_id}_minimized.pdb`	最小化后的PDB结构
`{protein_id}_nvt_equi.dat`	NVT平衡信息
`{protein_id}_npt_equi.dat`	NPT平衡信息
`{protein_id}_T.dcd`	轨迹坐标的DCD格式
`{protein_id}_state_npt1000000.0.xml`	MD延长状态文件

数据集下载

可以通过以下命令从ModelScope仓库下载数据集： shell git lfs install git clone https://www.modelscope.cn/datasets/fudan-generative-vision/dynamicPDB.git dynamicPDB

应用

轨迹预测

扩展了SE(3)扩散模型，以结合序列特征和物理属性进行轨迹预测任务。具体任务是给定蛋白质的初始3D结构，预测下一时间步的3D结构。

数据准备

数据准备包括以下步骤：

提取蛋白质的PDB文件和节点/边特征。
处理蛋白质轨迹数据。
提取Cα原子的力和速度。

准备训练和测试蛋白质列表的CSV文件，格式如下：

name	seqres	release_date	msa_id	atlas_npz	embed_path	seq_len	force_path	vel_path	pdb_path
16pk_A	EKKSIN...	1998/11/25	16pk_A	./DATA/16pk_A/16pk_A_new_w_pp.npz	./DATA/16pk_A/16pk_A.npz	415	./DATA/16pk_A/16pk_F_Ca.pkl	./DATA/16pk_A/16pk_V_ca.pkl	./DATA/16pk_A/16pk.pdb
...

训练与推理

训练：使用run_train.sh脚本进行训练。
推理：使用run_eval.sh脚本进行推理。

AI搜集汇总

数据集介绍

构建方式

Dynamic PDB数据集的构建基于现有的静态3D蛋白质结构数据库，如蛋白质数据银行（PDB），通过整合动态数据和物理属性进行扩展。该数据集包含了约12.6k个经过筛选的蛋白质，每个蛋白质都通过全原子分子动力学（MD）模拟进行了处理，以捕捉构象变化。模拟时长最长可达1微秒，采样间隔为1皮秒，确保了更全面和细致的动态行为捕捉。此外，模拟过程中还记录了多种物理属性，如原子速度、力、势能和动能等，进一步丰富了数据集的内容。

使用方法

Dynamic PDB数据集的使用方法包括数据下载、预处理和模型训练。首先，用户可以通过ModelScope仓库下载数据集，并使用Git LFS进行数据管理。下载后，数据需经过合并和解压处理，以获得完整的蛋白质动态数据。预处理步骤包括提取蛋白质的节点和边特征，以及生成轨迹数据。训练过程中，用户需准备训练和测试蛋白质列表，并设置相应的参数进行模型训练和评估。数据集的结构化和详细的使用指南确保了用户能够高效地利用这一丰富的蛋白质动态数据资源。

背景与挑战

背景概述

Dynamic PDB数据集是由上海人工智能科学研究院、复旦大学和Mohamed bin Zayed大学的人工智能学院共同开发，旨在通过整合动态行为和物理特性，增强现有的静态3D蛋白质结构数据库，如蛋白质数据银行（PDB）。该数据集包含了约12.6k经过筛选的蛋白质，每个蛋白质都经过了全原子分子动力学（MD）模拟，以捕捉构象变化。Dynamic PDB的创建不仅延长了模拟时间至1微秒，还提供了更精细的采样间隔（1皮秒），并捕捉了丰富的物理属性，如原子速度和力、势能/动能、模拟环境的温度等。这一数据集的推出，极大地推动了蛋白质结构动态变化的研究，为理解蛋白质功能和设计新型药物提供了宝贵的数据支持。

当前挑战

Dynamic PDB数据集在构建过程中面临了多重挑战。首先，延长模拟时间至1微秒需要强大的计算资源和高效的算法支持，以确保数据的准确性和完整性。其次，精细的采样间隔要求高精度的数据采集和处理技术，以捕捉蛋白质构象变化的微小细节。此外，整合多种物理属性增加了数据处理的复杂性，需要开发新的分析工具和方法。在应用层面，如何有效地利用这些动态数据进行蛋白质结构预测和功能分析，也是一个亟待解决的问题。这些挑战不仅涉及技术层面的创新，还需要跨学科的合作和持续的研究投入。

常用场景

经典使用场景

在蛋白质结构研究领域，Dynamic PDB数据集的经典使用场景主要集中在蛋白质动力学模拟和轨迹预测。通过整合动态数据和物理属性，该数据集能够捕捉蛋白质在微秒级时间尺度上的构象变化，从而为研究人员提供更为详尽的蛋白质动态行为信息。例如，研究人员可以利用该数据集进行蛋白质折叠过程的模拟，预测蛋白质在不同时间点的三维结构变化，进而揭示蛋白质功能与结构之间的复杂关系。

解决学术问题

Dynamic PDB数据集通过提供长达1微秒的分子动力学模拟数据，解决了传统蛋白质结构数据库在动态行为捕捉方面的不足。这一数据集不仅丰富了蛋白质结构研究的维度，还为解析蛋白质功能机制提供了新的视角。其细粒度的采样间隔和高精度的物理属性记录，使得研究人员能够更准确地模拟和预测蛋白质的动态行为，从而推动了蛋白质科学领域的发展。

实际应用

在实际应用中，Dynamic PDB数据集被广泛用于药物设计和开发。通过模拟蛋白质在不同条件下的动态行为，研究人员可以更精确地预测药物分子与蛋白质的相互作用，优化药物设计方案。此外，该数据集还可用于蛋白质工程领域，帮助设计具有特定功能的新型蛋白质，推动生物技术和医疗健康领域的发展。

数据集最近研究