Dynamic PDB
收藏arXiv2024-08-22 更新2024-08-28 收录
下载链接:
http://arxiv.org/abs/2408.12413v1
下载链接
链接失效反馈官方服务:
资源简介:
Dynamic PDB数据集由上海人工智能科学院创建,专注于蛋白质的动态行为及其物理属性。该数据集包含约12,600个蛋白质,通过分子动力学模拟获取,每1微秒记录一次数据,涵盖原子速度、力、能量等多种物理属性。数据集的创建过程中,采用了精细的时间采样间隔和扩展的采样持续时间,以捕捉蛋白质的详细动态变化。该数据集主要应用于蛋白质结构预测和动态行为分析,旨在提高药物设计的精确性和效率。
The Dynamic PDB Dataset, developed by the Shanghai Academy of Artificial Intelligence, focuses on the dynamic behaviors and physical properties of proteins. Comprising approximately 12,600 proteins, this dataset is generated via molecular dynamics simulations, with data recorded at 1-microsecond intervals and covering a wide range of physical properties including atomic velocity, force, and energy. During its development, precise temporal sampling intervals and extended sampling durations were adopted to capture detailed dynamic changes of proteins. This dataset is primarily applied in protein structure prediction and dynamic behavior analysis, aiming to improve the accuracy and efficiency of drug design.
提供机构:
上海人工智能科学院
创建时间:
2024-08-22
搜集汇总
数据集介绍

构建方式
Dynamic PDB数据集的构建方式包括从Protein Data Bank (PDB)中选择具有实验确定的三维结构的蛋白质,并对其进行预处理,包括选择、清理和补充。选择过程确保所选蛋白质具有高分辨率且不含膜蛋白。清理过程去除所有杂原子,并标准化命名。补充过程使用MODELLER或AlphaFold 2重建缺失的氨基酸残基。之后,对每个蛋白质进行全原子分子动力学(MD)模拟,模拟时间为1微秒,以捕获构象变化。在模拟过程中,以1皮秒的时间间隔记录原子坐标和各种物理属性,包括原子速度和力、蛋白质的势能和动能,以及模拟环境的温度。
特点
Dynamic PDB数据集的特点在于其包含了大约12.6K个蛋白质的大规模数据集,每个蛋白质都进行了1微秒的全原子MD模拟,以捕获构象变化。此外,数据集还提供了丰富的物理属性,包括原子速度和力、蛋白质的势能和动能,以及模拟环境的温度,这些数据以1皮秒的时间间隔记录。这些特点使得Dynamic PDB成为研究蛋白质动态行为的宝贵资源。
使用方法
使用Dynamic PDB数据集的方法包括进行轨迹预测、分析蛋白质的动态行为和物理属性。用户可以利用数据集中的物理属性来改进蛋白质轨迹预测模型,例如通过将物理属性整合到SE(3)扩散模型中。此外,用户可以分析蛋白质的动态行为,例如通过研究RMSF、RMSD和接触图频率等指标。数据集的详细格式和属性为用户提供了便利,以便于分析和解释蛋白质的内在动态行为和性质。
背景与挑战
背景概述
蛋白质是生命活动的基础分子,其动态行为对于理解蛋白质的功能至关重要。然而,蛋白质动态行为的研究一直受到动态蛋白质数据集有限可用性、多样性和异质性的限制。为了解决这一挑战,研究人员提出了一个名为Dynamic PDB的大规模数据集,该数据集通过整合动态数据和额外的物理属性来增强现有的静态三维蛋白质结构数据库。Dynamic PDB包含了大约12.6K个蛋白质,每个蛋白质都经过了1微秒的全原子分子动力学模拟,以捕获构象变化。此外,该数据集还提供了全面的物理属性,包括原子速度和力、蛋白质的势能和动能以及模拟环境的温度,这些数据在模拟过程中以1皮秒的间隔记录。为了评估基准方法,研究人员在提出的轨迹预测任务上对Dynamic PDB数据集进行了评估。为了展示在蛋白质动力学研究及相关模型设计中整合更丰富的物理属性的价值,研究人员基于SE(3)扩散模型,并将这些物理属性纳入轨迹预测过程。初步结果表明,当考虑提出的物理属性时,SE(3)模型的这种简单扩展在MAE和RMSD方面提高了准确性。
当前挑战
Dynamic PDB数据集的创建旨在解决蛋白质动态行为研究中存在的挑战。首先,现有的蛋白质结构数据库主要集中在静态结构上,而蛋白质的动态行为往往被忽视。Dynamic PDB通过全原子分子动力学模拟,捕捉了蛋白质的构象变化,填补了这一空白。其次,构建Dynamic PDB数据集的挑战在于如何处理和分析大规模的动态数据。这些数据不仅需要高时间分辨率的记录,还需要考虑物理属性如速度、力和能量的影响。此外,动态蛋白质数据集的构建还需要考虑蛋白质结构的多样性和异质性,以确保数据的广泛适用性。最后,Dynamic PDB数据集的创建还面临着计算资源的挑战,因为分子动力学模拟需要大量的计算资源,尤其是在处理大规模数据集时。为了克服这些挑战,研究人员采用了先进的分子动力学模拟技术和高性能计算资源,并开发了新的数据分析和模型设计方法。
常用场景
经典使用场景
Dynamic PDB数据集主要被用于蛋白质结构的动态行为研究,特别是蛋白质轨迹预测。通过对大约12.6K个蛋白质进行全原子分子动力学(MD)模拟,每个蛋白质模拟1微秒,以捕捉其构象变化。此外,数据集还提供了丰富的物理属性,包括原子速度和力、蛋白质的势能和动能、模拟环境的温度等,这些数据以1皮秒的间隔记录在整个模拟过程中。使用该数据集,研究人员可以对蛋白质的动态行为进行深入分析,并开发出更精确的蛋白质轨迹预测模型。
衍生相关工作
Dynamic PDB数据集的提出为蛋白质动态行为的研究提供了新的思路和方法。基于该数据集,研究人员开发了基于SE(3)扩散模型的蛋白质轨迹预测方法,并取得了显著的成果。此外,该数据集还促进了蛋白质结构预测和蛋白质设计等领域的研究,为相关领域的发展提供了新的动力。
数据集最近研究
最新研究方向
Dynamic PDB数据集的提出,标志着蛋白质动力学研究迈入了一个新的阶段。该数据集通过整合动态行为和物理属性,为蛋白质结构预测提供了更为丰富的数据基础。研究显示,Dynamic PDB数据集的引入使得蛋白质轨迹预测的准确性得到了显著提升,特别是在考虑了物理属性的情况下。这一研究成果对于理解蛋白质的动态行为、揭示其构象变化以及设计新型药物具有重要意义。同时,该数据集也为蛋白质结构预测领域的研究提供了新的方向和思路。
相关研究论文
- 1Dynamic PDB: A New Dataset and a SE(3) Model Extension by Integrating Dynamic Behaviors and Physical Properties in Protein Structures上海人工智能科学院 · 2024年
以上内容由遇见数据集搜集并总结生成



