five

Dynamic PDB|蛋白质结构数据集|分子动力学数据集

收藏
github2024-09-06 更新2024-09-07 收录
蛋白质结构
分子动力学
下载链接:
https://github.com/fudan-generative-vision/dynamicPDB
下载链接
链接失效反馈
资源简介:
Dynamic PDB是一个大规模的数据集,通过整合动态数据和额外的物理属性,增强了现有的著名静态3D蛋白质结构数据库,如蛋白质数据银行(PDB)。它包含大约12.6k个经过筛选的蛋白质,每个蛋白质都经过全原子分子动力学(MD)模拟以捕捉构象变化。与现有的蛋白质MD数据集相比,Dynamic PDB提供了三个关键的进步:扩展的模拟持续时间(最长可达1微秒/蛋白质)、更细粒度的采样间隔(1皮秒间隔)和丰富的物理属性数组(在MD过程中捕获,包括原子速度和力、势能/动能、模拟环境的温度等)。
创建时间:
2024-09-01
原始信息汇总

Dynamic PDB 数据集概述

概述

Dynamic PDB 是一个大规模数据集,通过整合动态数据和额外的物理属性,增强了现有的静态3D蛋白质结构数据库(如Protein Data Bank,PDB)。该数据集包含约12.6k个经过筛选的蛋白质,每个蛋白质都经过全原子分子动力学(MD)模拟,以捕捉构象变化。

关键进展

  1. 扩展的模拟时长:每个蛋白质的模拟时长可达1微秒,有助于更全面地理解显著的构象变化。
  2. 更细粒度的采样间隔:采样间隔为1皮秒,允许捕捉更详细的全局路径。
  3. 丰富的物理属性:在MD过程中捕捉到的物理属性,包括原子速度和力、势能/动能、模拟环境的温度等。

数据集内容

数据集包含以下属性:

文件名 属性 数据类型 单位
{protein_id}_T.pkl 轨迹坐标 float数组 Å
{protein_id}_V.pkl 原子速度 float数组 Å/ps
{protein_id}_F.pkl 原子力 float数组 kcal/mol·Å
{protein_id}_npt_sim.dat 势能<br>动能<br>总能量<br>温度<br>盒子体积<br>系统密度 float<br>float<br>float<br>float<br>float<br>float kJ/mole<br>kJ/mole<br>kJ/mole<br>K<br>nm³<br>g/mL

此外,MD模拟过程中还存储了以下数据:

文件名 描述
{protein_id}_minimized.pdb 最小化后的PDB结构
{protein_id}_nvt_equi.dat NVT平衡信息
{protein_id}_npt_equi.dat NPT平衡信息
{protein_id}_T.dcd 轨迹坐标的DCD格式
{protein_id}_state_npt1000000.0.xml MD延长状态文件

数据集下载

可以通过以下命令从ModelScope仓库下载数据集: shell git lfs install git clone https://www.modelscope.cn/datasets/fudan-generative-vision/dynamicPDB.git dynamicPDB

数据集的组织结构如下: text ./dynamicPDB/ |-- 1ab1_A_npt1000000.0_ts0.001 | |-- 1ab1_A_npt_sim_data | | |-- 1ab1_A_npt_sim_0.dat | | -- ... | |-- 1ab1_A_dcd | | |-- 1ab1_A_dcd_0.dcd | | -- ... | |-- 1ab1_A_T | | |-- 1ab1_A_T_0.pkl | | -- ... | |-- 1ab1_A_F | | |-- 1ab1_A_F_0.pkl | | -- ... | |-- 1ab1_A_V | | |-- 1ab1_A_V_0.pkl | | -- ... | |-- 1ab1_A.pdb | |-- 1ab1_A_minimized.pdb | |-- 1ab1_A_nvt_equi.dat | |-- 1ab1_A_npt_equi.dat | |-- 1ab1_A_T.dcd | |-- 1ab1_A_T.pkl | |-- 1ab1_A_F.pkl | |-- 1ab1_A_V.pkl | -- 1ab1_A_state_npt1000000.0.xml |-- 1uoy_A_npt1000000.0_ts0.001 | |-- ... | -- ... -- ...

应用

轨迹预测

扩展了SE(3)扩散模型,以结合序列特征和物理属性进行轨迹预测任务。具体任务是给定蛋白质的初始3D结构,预测下一时间步的3D结构。

数据准备

数据准备包括以下步骤:

  1. 提取蛋白质的PDB文件和节点/边特征。
  2. 处理蛋白质轨迹数据。
  3. 提取Cα原子的力和速度。

准备训练和测试蛋白质列表的CSV文件,格式如下:

name seqres release_date msa_id atlas_npz embed_path seq_len force_path vel_path pdb_path
16pk_A EKKSIN... 1998/11/25 16pk_A ./DATA/16pk_A/16pk_A_new_w_pp.npz ./DATA/16pk_A/16pk_A.npz 415 ./DATA/16pk_A/16pk_F_Ca.pkl ./DATA/16pk_A/16pk_V_ca.pkl ./DATA/16pk_A/16pk.pdb
...

训练与推理

  • 训练:使用run_train.sh脚本进行训练。
  • 推理:使用run_eval.sh脚本进行推理。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Dynamic PDB数据集的构建基于现有的静态3D蛋白质结构数据库,如蛋白质数据银行(PDB),通过整合动态数据和物理属性进行扩展。该数据集包含了约12.6k个经过筛选的蛋白质,每个蛋白质都通过全原子分子动力学(MD)模拟进行了处理,以捕捉构象变化。模拟时长最长可达1微秒,采样间隔为1皮秒,确保了更全面和细致的动态行为捕捉。此外,模拟过程中还记录了多种物理属性,如原子速度、力、势能和动能等,进一步丰富了数据集的内容。
使用方法
Dynamic PDB数据集的使用方法包括数据下载、预处理和模型训练。首先,用户可以通过ModelScope仓库下载数据集,并使用Git LFS进行数据管理。下载后,数据需经过合并和解压处理,以获得完整的蛋白质动态数据。预处理步骤包括提取蛋白质的节点和边特征,以及生成轨迹数据。训练过程中,用户需准备训练和测试蛋白质列表,并设置相应的参数进行模型训练和评估。数据集的结构化和详细的使用指南确保了用户能够高效地利用这一丰富的蛋白质动态数据资源。
背景与挑战
背景概述
Dynamic PDB数据集是由上海人工智能科学研究院、复旦大学和Mohamed bin Zayed大学的人工智能学院共同开发,旨在通过整合动态行为和物理特性,增强现有的静态3D蛋白质结构数据库,如蛋白质数据银行(PDB)。该数据集包含了约12.6k经过筛选的蛋白质,每个蛋白质都经过了全原子分子动力学(MD)模拟,以捕捉构象变化。Dynamic PDB的创建不仅延长了模拟时间至1微秒,还提供了更精细的采样间隔(1皮秒),并捕捉了丰富的物理属性,如原子速度和力、势能/动能、模拟环境的温度等。这一数据集的推出,极大地推动了蛋白质结构动态变化的研究,为理解蛋白质功能和设计新型药物提供了宝贵的数据支持。
当前挑战
Dynamic PDB数据集在构建过程中面临了多重挑战。首先,延长模拟时间至1微秒需要强大的计算资源和高效的算法支持,以确保数据的准确性和完整性。其次,精细的采样间隔要求高精度的数据采集和处理技术,以捕捉蛋白质构象变化的微小细节。此外,整合多种物理属性增加了数据处理的复杂性,需要开发新的分析工具和方法。在应用层面,如何有效地利用这些动态数据进行蛋白质结构预测和功能分析,也是一个亟待解决的问题。这些挑战不仅涉及技术层面的创新,还需要跨学科的合作和持续的研究投入。
常用场景
经典使用场景
在蛋白质结构研究领域,Dynamic PDB数据集的经典使用场景主要集中在蛋白质动力学模拟和轨迹预测。通过整合动态数据和物理属性,该数据集能够捕捉蛋白质在微秒级时间尺度上的构象变化,从而为研究人员提供更为详尽的蛋白质动态行为信息。例如,研究人员可以利用该数据集进行蛋白质折叠过程的模拟,预测蛋白质在不同时间点的三维结构变化,进而揭示蛋白质功能与结构之间的复杂关系。
解决学术问题
Dynamic PDB数据集通过提供长达1微秒的分子动力学模拟数据,解决了传统蛋白质结构数据库在动态行为捕捉方面的不足。这一数据集不仅丰富了蛋白质结构研究的维度,还为解析蛋白质功能机制提供了新的视角。其细粒度的采样间隔和高精度的物理属性记录,使得研究人员能够更准确地模拟和预测蛋白质的动态行为,从而推动了蛋白质科学领域的发展。
实际应用
在实际应用中,Dynamic PDB数据集被广泛用于药物设计和开发。通过模拟蛋白质在不同条件下的动态行为,研究人员可以更精确地预测药物分子与蛋白质的相互作用,优化药物设计方案。此外,该数据集还可用于蛋白质工程领域,帮助设计具有特定功能的新型蛋白质,推动生物技术和医疗健康领域的发展。
数据集最近研究
最新研究方向
在蛋白质结构研究领域,Dynamic PDB数据集的最新研究方向主要集中在利用其丰富的动态数据和物理属性来提升蛋白质结构预测和动力学模拟的精度。通过整合长达1微秒的分子动力学模拟数据和1皮秒的采样间隔,研究人员能够捕捉到蛋白质在不同时间尺度上的构象变化,从而更准确地预测蛋白质的功能和相互作用。此外,该数据集还包含了多种物理属性,如原子速度、力、势能和动能等,这些信息为开发更复杂的机器学习模型提供了基础,特别是在结合序列特征和物理属性进行轨迹预测方面,展现了显著的应用前景。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

日食计算器

此日食计算器能够查询公元前3000至后3000年范围内的日食信息,生成每次日食的覆盖区、中心区范围数据,展示日食带的地图;并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。

国家天文科学数据中心 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录