five

Dynamic PDB|蛋白质结构数据集|分子动力学数据集

收藏
github2024-09-06 更新2024-09-07 收录
蛋白质结构
分子动力学
下载链接:
https://github.com/fudan-generative-vision/dynamicPDB
下载链接
链接失效反馈
资源简介:
Dynamic PDB是一个大规模的数据集,通过整合动态数据和额外的物理属性,增强了现有的著名静态3D蛋白质结构数据库,如蛋白质数据银行(PDB)。它包含大约12.6k个经过筛选的蛋白质,每个蛋白质都经过全原子分子动力学(MD)模拟以捕捉构象变化。与现有的蛋白质MD数据集相比,Dynamic PDB提供了三个关键的进步:扩展的模拟持续时间(最长可达1微秒/蛋白质)、更细粒度的采样间隔(1皮秒间隔)和丰富的物理属性数组(在MD过程中捕获,包括原子速度和力、势能/动能、模拟环境的温度等)。
创建时间:
2024-09-01
原始信息汇总

Dynamic PDB 数据集概述

概述

Dynamic PDB 是一个大规模数据集,通过整合动态数据和额外的物理属性,增强了现有的静态3D蛋白质结构数据库(如Protein Data Bank,PDB)。该数据集包含约12.6k个经过筛选的蛋白质,每个蛋白质都经过全原子分子动力学(MD)模拟,以捕捉构象变化。

关键进展

  1. 扩展的模拟时长:每个蛋白质的模拟时长可达1微秒,有助于更全面地理解显著的构象变化。
  2. 更细粒度的采样间隔:采样间隔为1皮秒,允许捕捉更详细的全局路径。
  3. 丰富的物理属性:在MD过程中捕捉到的物理属性,包括原子速度和力、势能/动能、模拟环境的温度等。

数据集内容

数据集包含以下属性:

文件名 属性 数据类型 单位
{protein_id}_T.pkl 轨迹坐标 float数组 Å
{protein_id}_V.pkl 原子速度 float数组 Å/ps
{protein_id}_F.pkl 原子力 float数组 kcal/mol·Å
{protein_id}_npt_sim.dat 势能<br>动能<br>总能量<br>温度<br>盒子体积<br>系统密度 float<br>float<br>float<br>float<br>float<br>float kJ/mole<br>kJ/mole<br>kJ/mole<br>K<br>nm³<br>g/mL

此外,MD模拟过程中还存储了以下数据:

文件名 描述
{protein_id}_minimized.pdb 最小化后的PDB结构
{protein_id}_nvt_equi.dat NVT平衡信息
{protein_id}_npt_equi.dat NPT平衡信息
{protein_id}_T.dcd 轨迹坐标的DCD格式
{protein_id}_state_npt1000000.0.xml MD延长状态文件

数据集下载

可以通过以下命令从ModelScope仓库下载数据集: shell git lfs install git clone https://www.modelscope.cn/datasets/fudan-generative-vision/dynamicPDB.git dynamicPDB

数据集的组织结构如下: text ./dynamicPDB/ |-- 1ab1_A_npt1000000.0_ts0.001 | |-- 1ab1_A_npt_sim_data | | |-- 1ab1_A_npt_sim_0.dat | | -- ... | |-- 1ab1_A_dcd | | |-- 1ab1_A_dcd_0.dcd | | -- ... | |-- 1ab1_A_T | | |-- 1ab1_A_T_0.pkl | | -- ... | |-- 1ab1_A_F | | |-- 1ab1_A_F_0.pkl | | -- ... | |-- 1ab1_A_V | | |-- 1ab1_A_V_0.pkl | | -- ... | |-- 1ab1_A.pdb | |-- 1ab1_A_minimized.pdb | |-- 1ab1_A_nvt_equi.dat | |-- 1ab1_A_npt_equi.dat | |-- 1ab1_A_T.dcd | |-- 1ab1_A_T.pkl | |-- 1ab1_A_F.pkl | |-- 1ab1_A_V.pkl | -- 1ab1_A_state_npt1000000.0.xml |-- 1uoy_A_npt1000000.0_ts0.001 | |-- ... | -- ... -- ...

应用

轨迹预测

扩展了SE(3)扩散模型,以结合序列特征和物理属性进行轨迹预测任务。具体任务是给定蛋白质的初始3D结构,预测下一时间步的3D结构。

数据准备

数据准备包括以下步骤:

  1. 提取蛋白质的PDB文件和节点/边特征。
  2. 处理蛋白质轨迹数据。
  3. 提取Cα原子的力和速度。

准备训练和测试蛋白质列表的CSV文件,格式如下:

name seqres release_date msa_id atlas_npz embed_path seq_len force_path vel_path pdb_path
16pk_A EKKSIN... 1998/11/25 16pk_A ./DATA/16pk_A/16pk_A_new_w_pp.npz ./DATA/16pk_A/16pk_A.npz 415 ./DATA/16pk_A/16pk_F_Ca.pkl ./DATA/16pk_A/16pk_V_ca.pkl ./DATA/16pk_A/16pk.pdb
...

训练与推理

  • 训练:使用run_train.sh脚本进行训练。
  • 推理:使用run_eval.sh脚本进行推理。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Dynamic PDB数据集的构建基于现有的静态3D蛋白质结构数据库,如蛋白质数据银行(PDB),通过整合动态数据和物理属性进行扩展。该数据集包含了约12.6k个经过筛选的蛋白质,每个蛋白质都通过全原子分子动力学(MD)模拟进行了处理,以捕捉构象变化。模拟时长最长可达1微秒,采样间隔为1皮秒,确保了更全面和细致的动态行为捕捉。此外,模拟过程中还记录了多种物理属性,如原子速度、力、势能和动能等,进一步丰富了数据集的内容。
使用方法
Dynamic PDB数据集的使用方法包括数据下载、预处理和模型训练。首先,用户可以通过ModelScope仓库下载数据集,并使用Git LFS进行数据管理。下载后,数据需经过合并和解压处理,以获得完整的蛋白质动态数据。预处理步骤包括提取蛋白质的节点和边特征,以及生成轨迹数据。训练过程中,用户需准备训练和测试蛋白质列表,并设置相应的参数进行模型训练和评估。数据集的结构化和详细的使用指南确保了用户能够高效地利用这一丰富的蛋白质动态数据资源。
背景与挑战
背景概述
Dynamic PDB数据集是由上海人工智能科学研究院、复旦大学和Mohamed bin Zayed大学的人工智能学院共同开发,旨在通过整合动态行为和物理特性,增强现有的静态3D蛋白质结构数据库,如蛋白质数据银行(PDB)。该数据集包含了约12.6k经过筛选的蛋白质,每个蛋白质都经过了全原子分子动力学(MD)模拟,以捕捉构象变化。Dynamic PDB的创建不仅延长了模拟时间至1微秒,还提供了更精细的采样间隔(1皮秒),并捕捉了丰富的物理属性,如原子速度和力、势能/动能、模拟环境的温度等。这一数据集的推出,极大地推动了蛋白质结构动态变化的研究,为理解蛋白质功能和设计新型药物提供了宝贵的数据支持。
当前挑战
Dynamic PDB数据集在构建过程中面临了多重挑战。首先,延长模拟时间至1微秒需要强大的计算资源和高效的算法支持,以确保数据的准确性和完整性。其次,精细的采样间隔要求高精度的数据采集和处理技术,以捕捉蛋白质构象变化的微小细节。此外,整合多种物理属性增加了数据处理的复杂性,需要开发新的分析工具和方法。在应用层面,如何有效地利用这些动态数据进行蛋白质结构预测和功能分析,也是一个亟待解决的问题。这些挑战不仅涉及技术层面的创新,还需要跨学科的合作和持续的研究投入。
常用场景
经典使用场景
在蛋白质结构研究领域,Dynamic PDB数据集的经典使用场景主要集中在蛋白质动力学模拟和轨迹预测。通过整合动态数据和物理属性,该数据集能够捕捉蛋白质在微秒级时间尺度上的构象变化,从而为研究人员提供更为详尽的蛋白质动态行为信息。例如,研究人员可以利用该数据集进行蛋白质折叠过程的模拟,预测蛋白质在不同时间点的三维结构变化,进而揭示蛋白质功能与结构之间的复杂关系。
解决学术问题
Dynamic PDB数据集通过提供长达1微秒的分子动力学模拟数据,解决了传统蛋白质结构数据库在动态行为捕捉方面的不足。这一数据集不仅丰富了蛋白质结构研究的维度,还为解析蛋白质功能机制提供了新的视角。其细粒度的采样间隔和高精度的物理属性记录,使得研究人员能够更准确地模拟和预测蛋白质的动态行为,从而推动了蛋白质科学领域的发展。
实际应用
在实际应用中,Dynamic PDB数据集被广泛用于药物设计和开发。通过模拟蛋白质在不同条件下的动态行为,研究人员可以更精确地预测药物分子与蛋白质的相互作用,优化药物设计方案。此外,该数据集还可用于蛋白质工程领域,帮助设计具有特定功能的新型蛋白质,推动生物技术和医疗健康领域的发展。
数据集最近研究
最新研究方向
在蛋白质结构研究领域,Dynamic PDB数据集的最新研究方向主要集中在利用其丰富的动态数据和物理属性来提升蛋白质结构预测和动力学模拟的精度。通过整合长达1微秒的分子动力学模拟数据和1皮秒的采样间隔,研究人员能够捕捉到蛋白质在不同时间尺度上的构象变化,从而更准确地预测蛋白质的功能和相互作用。此外,该数据集还包含了多种物理属性,如原子速度、力、势能和动能等,这些信息为开发更复杂的机器学习模型提供了基础,特别是在结合序列特征和物理属性进行轨迹预测方面,展现了显著的应用前景。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录