five

Dynamic PDB|蛋白质结构数据集|分子动力学数据集

收藏
github2024-09-06 更新2024-09-07 收录
蛋白质结构
分子动力学
下载链接:
https://github.com/fudan-generative-vision/dynamicPDB
下载链接
链接失效反馈
资源简介:
Dynamic PDB是一个大规模的数据集,通过整合动态数据和额外的物理属性,增强了现有的著名静态3D蛋白质结构数据库,如蛋白质数据银行(PDB)。它包含大约12.6k个经过筛选的蛋白质,每个蛋白质都经过全原子分子动力学(MD)模拟以捕捉构象变化。与现有的蛋白质MD数据集相比,Dynamic PDB提供了三个关键的进步:扩展的模拟持续时间(最长可达1微秒/蛋白质)、更细粒度的采样间隔(1皮秒间隔)和丰富的物理属性数组(在MD过程中捕获,包括原子速度和力、势能/动能、模拟环境的温度等)。
创建时间:
2024-09-01
原始信息汇总

Dynamic PDB 数据集概述

概述

Dynamic PDB 是一个大规模数据集,通过整合动态数据和额外的物理属性,增强了现有的静态3D蛋白质结构数据库(如Protein Data Bank,PDB)。该数据集包含约12.6k个经过筛选的蛋白质,每个蛋白质都经过全原子分子动力学(MD)模拟,以捕捉构象变化。

关键进展

  1. 扩展的模拟时长:每个蛋白质的模拟时长可达1微秒,有助于更全面地理解显著的构象变化。
  2. 更细粒度的采样间隔:采样间隔为1皮秒,允许捕捉更详细的全局路径。
  3. 丰富的物理属性:在MD过程中捕捉到的物理属性,包括原子速度和力、势能/动能、模拟环境的温度等。

数据集内容

数据集包含以下属性:

文件名 属性 数据类型 单位
{protein_id}_T.pkl 轨迹坐标 float数组 Å
{protein_id}_V.pkl 原子速度 float数组 Å/ps
{protein_id}_F.pkl 原子力 float数组 kcal/mol·Å
{protein_id}_npt_sim.dat 势能<br>动能<br>总能量<br>温度<br>盒子体积<br>系统密度 float<br>float<br>float<br>float<br>float<br>float kJ/mole<br>kJ/mole<br>kJ/mole<br>K<br>nm³<br>g/mL

此外,MD模拟过程中还存储了以下数据:

文件名 描述
{protein_id}_minimized.pdb 最小化后的PDB结构
{protein_id}_nvt_equi.dat NVT平衡信息
{protein_id}_npt_equi.dat NPT平衡信息
{protein_id}_T.dcd 轨迹坐标的DCD格式
{protein_id}_state_npt1000000.0.xml MD延长状态文件

数据集下载

可以通过以下命令从ModelScope仓库下载数据集: shell git lfs install git clone https://www.modelscope.cn/datasets/fudan-generative-vision/dynamicPDB.git dynamicPDB

数据集的组织结构如下: text ./dynamicPDB/ |-- 1ab1_A_npt1000000.0_ts0.001 | |-- 1ab1_A_npt_sim_data | | |-- 1ab1_A_npt_sim_0.dat | | -- ... | |-- 1ab1_A_dcd | | |-- 1ab1_A_dcd_0.dcd | | -- ... | |-- 1ab1_A_T | | |-- 1ab1_A_T_0.pkl | | -- ... | |-- 1ab1_A_F | | |-- 1ab1_A_F_0.pkl | | -- ... | |-- 1ab1_A_V | | |-- 1ab1_A_V_0.pkl | | -- ... | |-- 1ab1_A.pdb | |-- 1ab1_A_minimized.pdb | |-- 1ab1_A_nvt_equi.dat | |-- 1ab1_A_npt_equi.dat | |-- 1ab1_A_T.dcd | |-- 1ab1_A_T.pkl | |-- 1ab1_A_F.pkl | |-- 1ab1_A_V.pkl | -- 1ab1_A_state_npt1000000.0.xml |-- 1uoy_A_npt1000000.0_ts0.001 | |-- ... | -- ... -- ...

应用

轨迹预测

扩展了SE(3)扩散模型,以结合序列特征和物理属性进行轨迹预测任务。具体任务是给定蛋白质的初始3D结构,预测下一时间步的3D结构。

数据准备

数据准备包括以下步骤:

  1. 提取蛋白质的PDB文件和节点/边特征。
  2. 处理蛋白质轨迹数据。
  3. 提取Cα原子的力和速度。

准备训练和测试蛋白质列表的CSV文件,格式如下:

name seqres release_date msa_id atlas_npz embed_path seq_len force_path vel_path pdb_path
16pk_A EKKSIN... 1998/11/25 16pk_A ./DATA/16pk_A/16pk_A_new_w_pp.npz ./DATA/16pk_A/16pk_A.npz 415 ./DATA/16pk_A/16pk_F_Ca.pkl ./DATA/16pk_A/16pk_V_ca.pkl ./DATA/16pk_A/16pk.pdb
...

训练与推理

  • 训练:使用run_train.sh脚本进行训练。
  • 推理:使用run_eval.sh脚本进行推理。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Dynamic PDB数据集的构建基于现有的静态3D蛋白质结构数据库,如蛋白质数据银行(PDB),通过整合动态数据和物理属性进行扩展。该数据集包含了约12.6k个经过筛选的蛋白质,每个蛋白质都通过全原子分子动力学(MD)模拟进行了处理,以捕捉构象变化。模拟时长最长可达1微秒,采样间隔为1皮秒,确保了更全面和细致的动态行为捕捉。此外,模拟过程中还记录了多种物理属性,如原子速度、力、势能和动能等,进一步丰富了数据集的内容。
使用方法
Dynamic PDB数据集的使用方法包括数据下载、预处理和模型训练。首先,用户可以通过ModelScope仓库下载数据集,并使用Git LFS进行数据管理。下载后,数据需经过合并和解压处理,以获得完整的蛋白质动态数据。预处理步骤包括提取蛋白质的节点和边特征,以及生成轨迹数据。训练过程中,用户需准备训练和测试蛋白质列表,并设置相应的参数进行模型训练和评估。数据集的结构化和详细的使用指南确保了用户能够高效地利用这一丰富的蛋白质动态数据资源。
背景与挑战
背景概述
Dynamic PDB数据集是由上海人工智能科学研究院、复旦大学和Mohamed bin Zayed大学的人工智能学院共同开发,旨在通过整合动态行为和物理特性,增强现有的静态3D蛋白质结构数据库,如蛋白质数据银行(PDB)。该数据集包含了约12.6k经过筛选的蛋白质,每个蛋白质都经过了全原子分子动力学(MD)模拟,以捕捉构象变化。Dynamic PDB的创建不仅延长了模拟时间至1微秒,还提供了更精细的采样间隔(1皮秒),并捕捉了丰富的物理属性,如原子速度和力、势能/动能、模拟环境的温度等。这一数据集的推出,极大地推动了蛋白质结构动态变化的研究,为理解蛋白质功能和设计新型药物提供了宝贵的数据支持。
当前挑战
Dynamic PDB数据集在构建过程中面临了多重挑战。首先,延长模拟时间至1微秒需要强大的计算资源和高效的算法支持,以确保数据的准确性和完整性。其次,精细的采样间隔要求高精度的数据采集和处理技术,以捕捉蛋白质构象变化的微小细节。此外,整合多种物理属性增加了数据处理的复杂性,需要开发新的分析工具和方法。在应用层面,如何有效地利用这些动态数据进行蛋白质结构预测和功能分析,也是一个亟待解决的问题。这些挑战不仅涉及技术层面的创新,还需要跨学科的合作和持续的研究投入。
常用场景
经典使用场景
在蛋白质结构研究领域,Dynamic PDB数据集的经典使用场景主要集中在蛋白质动力学模拟和轨迹预测。通过整合动态数据和物理属性,该数据集能够捕捉蛋白质在微秒级时间尺度上的构象变化,从而为研究人员提供更为详尽的蛋白质动态行为信息。例如,研究人员可以利用该数据集进行蛋白质折叠过程的模拟,预测蛋白质在不同时间点的三维结构变化,进而揭示蛋白质功能与结构之间的复杂关系。
解决学术问题
Dynamic PDB数据集通过提供长达1微秒的分子动力学模拟数据,解决了传统蛋白质结构数据库在动态行为捕捉方面的不足。这一数据集不仅丰富了蛋白质结构研究的维度,还为解析蛋白质功能机制提供了新的视角。其细粒度的采样间隔和高精度的物理属性记录,使得研究人员能够更准确地模拟和预测蛋白质的动态行为,从而推动了蛋白质科学领域的发展。
实际应用
在实际应用中,Dynamic PDB数据集被广泛用于药物设计和开发。通过模拟蛋白质在不同条件下的动态行为,研究人员可以更精确地预测药物分子与蛋白质的相互作用,优化药物设计方案。此外,该数据集还可用于蛋白质工程领域,帮助设计具有特定功能的新型蛋白质,推动生物技术和医疗健康领域的发展。
数据集最近研究
最新研究方向
在蛋白质结构研究领域,Dynamic PDB数据集的最新研究方向主要集中在利用其丰富的动态数据和物理属性来提升蛋白质结构预测和动力学模拟的精度。通过整合长达1微秒的分子动力学模拟数据和1皮秒的采样间隔,研究人员能够捕捉到蛋白质在不同时间尺度上的构象变化,从而更准确地预测蛋白质的功能和相互作用。此外,该数据集还包含了多种物理属性,如原子速度、力、势能和动能等,这些信息为开发更复杂的机器学习模型提供了基础,特别是在结合序列特征和物理属性进行轨迹预测方面,展现了显著的应用前景。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

历史航班准点率

航班在最近30天里准点程度的参数综合,反映了该航班可能延误的概率指数。具体计算方法:在最近30天内,航班降落时间比计划降落时间(航班时刻表上的时间)延迟半小时以上或航班取消的情况称为延误,将出现延误情况的航班数量除以30天内实际执飞的航班数量得出延误率,准点率=1-延误率。每日全面更新一次。

苏州大数据交易所 收录

Kwaai/food101

该数据集名为Food-101,主要用于图像分类任务。数据集包含101种食物类别,共计101,000张图像。每个类别包含250张经过人工审核的测试图像和750张训练图像。训练图像未经过清洗,可能包含一些噪声,如颜色过于鲜艳或标签错误。所有图像的最大边长被调整为512像素。数据集分为训练集和验证集,训练集包含75,750张图像,验证集包含25,250张图像。数据集的字段包括图像和标签,图像为PIL.Image.Image对象,标签为整数分类标签。

hugging_face 收录

2022_张家界市标准地图行政区划示意版32开

基于湖南省基础地理信息数据库,依据湖南省行政区划界线标准画法和最新境界、标准地名成果,采用其他自然地理要素和人文专题要素的现势性资料编制而成。

湖南大数据交易所 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

中国沙漠边界数据集(2000-2020年)

  本数据集基于Landsat遥感影像,通过辐射定标和大气校正等预处理算法得到沙漠区域影像,通过人工目视解译及波段指数的方法提提取沙漠边界区域。数据集涉及的沙漠主要包括中国八大沙漠。分别为腾格里沙漠,塔克拉马干沙漠,巴丹吉林沙漠,库布奇沙漠,乌兰布和沙漠,库木塔格沙漠,古尔班通古特沙漠,...

国家冰川冻土沙漠科学数据中心 收录