five

Dynamic PDB|蛋白质动态行为数据集|药物设计数据集

收藏
arXiv2024-08-22 更新2024-08-28 收录
蛋白质动态行为
药物设计
下载链接:
http://arxiv.org/abs/2408.12413v1
下载链接
链接失效反馈
资源简介:
Dynamic PDB数据集由上海人工智能科学院创建,专注于蛋白质的动态行为及其物理属性。该数据集包含约12,600个蛋白质,通过分子动力学模拟获取,每1微秒记录一次数据,涵盖原子速度、力、能量等多种物理属性。数据集的创建过程中,采用了精细的时间采样间隔和扩展的采样持续时间,以捕捉蛋白质的详细动态变化。该数据集主要应用于蛋白质结构预测和动态行为分析,旨在提高药物设计的精确性和效率。
提供机构:
上海人工智能科学院
创建时间:
2024-08-22
AI搜集汇总
数据集介绍
main_image_url
构建方式
Dynamic PDB数据集的构建方式包括从Protein Data Bank (PDB)中选择具有实验确定的三维结构的蛋白质,并对其进行预处理,包括选择、清理和补充。选择过程确保所选蛋白质具有高分辨率且不含膜蛋白。清理过程去除所有杂原子,并标准化命名。补充过程使用MODELLER或AlphaFold 2重建缺失的氨基酸残基。之后,对每个蛋白质进行全原子分子动力学(MD)模拟,模拟时间为1微秒,以捕获构象变化。在模拟过程中,以1皮秒的时间间隔记录原子坐标和各种物理属性,包括原子速度和力、蛋白质的势能和动能,以及模拟环境的温度。
特点
Dynamic PDB数据集的特点在于其包含了大约12.6K个蛋白质的大规模数据集,每个蛋白质都进行了1微秒的全原子MD模拟,以捕获构象变化。此外,数据集还提供了丰富的物理属性,包括原子速度和力、蛋白质的势能和动能,以及模拟环境的温度,这些数据以1皮秒的时间间隔记录。这些特点使得Dynamic PDB成为研究蛋白质动态行为的宝贵资源。
使用方法
使用Dynamic PDB数据集的方法包括进行轨迹预测、分析蛋白质的动态行为和物理属性。用户可以利用数据集中的物理属性来改进蛋白质轨迹预测模型,例如通过将物理属性整合到SE(3)扩散模型中。此外,用户可以分析蛋白质的动态行为,例如通过研究RMSF、RMSD和接触图频率等指标。数据集的详细格式和属性为用户提供了便利,以便于分析和解释蛋白质的内在动态行为和性质。
背景与挑战
背景概述
蛋白质是生命活动的基础分子,其动态行为对于理解蛋白质的功能至关重要。然而,蛋白质动态行为的研究一直受到动态蛋白质数据集有限可用性、多样性和异质性的限制。为了解决这一挑战,研究人员提出了一个名为Dynamic PDB的大规模数据集,该数据集通过整合动态数据和额外的物理属性来增强现有的静态三维蛋白质结构数据库。Dynamic PDB包含了大约12.6K个蛋白质,每个蛋白质都经过了1微秒的全原子分子动力学模拟,以捕获构象变化。此外,该数据集还提供了全面的物理属性,包括原子速度和力、蛋白质的势能和动能以及模拟环境的温度,这些数据在模拟过程中以1皮秒的间隔记录。为了评估基准方法,研究人员在提出的轨迹预测任务上对Dynamic PDB数据集进行了评估。为了展示在蛋白质动力学研究及相关模型设计中整合更丰富的物理属性的价值,研究人员基于SE(3)扩散模型,并将这些物理属性纳入轨迹预测过程。初步结果表明,当考虑提出的物理属性时,SE(3)模型的这种简单扩展在MAE和RMSD方面提高了准确性。
当前挑战
Dynamic PDB数据集的创建旨在解决蛋白质动态行为研究中存在的挑战。首先,现有的蛋白质结构数据库主要集中在静态结构上,而蛋白质的动态行为往往被忽视。Dynamic PDB通过全原子分子动力学模拟,捕捉了蛋白质的构象变化,填补了这一空白。其次,构建Dynamic PDB数据集的挑战在于如何处理和分析大规模的动态数据。这些数据不仅需要高时间分辨率的记录,还需要考虑物理属性如速度、力和能量的影响。此外,动态蛋白质数据集的构建还需要考虑蛋白质结构的多样性和异质性,以确保数据的广泛适用性。最后,Dynamic PDB数据集的创建还面临着计算资源的挑战,因为分子动力学模拟需要大量的计算资源,尤其是在处理大规模数据集时。为了克服这些挑战,研究人员采用了先进的分子动力学模拟技术和高性能计算资源,并开发了新的数据分析和模型设计方法。
常用场景
经典使用场景
Dynamic PDB数据集主要被用于蛋白质结构的动态行为研究,特别是蛋白质轨迹预测。通过对大约12.6K个蛋白质进行全原子分子动力学(MD)模拟,每个蛋白质模拟1微秒,以捕捉其构象变化。此外,数据集还提供了丰富的物理属性,包括原子速度和力、蛋白质的势能和动能、模拟环境的温度等,这些数据以1皮秒的间隔记录在整个模拟过程中。使用该数据集,研究人员可以对蛋白质的动态行为进行深入分析,并开发出更精确的蛋白质轨迹预测模型。
衍生相关工作
Dynamic PDB数据集的提出为蛋白质动态行为的研究提供了新的思路和方法。基于该数据集,研究人员开发了基于SE(3)扩散模型的蛋白质轨迹预测方法,并取得了显著的成果。此外,该数据集还促进了蛋白质结构预测和蛋白质设计等领域的研究,为相关领域的发展提供了新的动力。
数据集最近研究
最新研究方向
Dynamic PDB数据集的提出,标志着蛋白质动力学研究迈入了一个新的阶段。该数据集通过整合动态行为和物理属性,为蛋白质结构预测提供了更为丰富的数据基础。研究显示,Dynamic PDB数据集的引入使得蛋白质轨迹预测的准确性得到了显著提升,特别是在考虑了物理属性的情况下。这一研究成果对于理解蛋白质的动态行为、揭示其构象变化以及设计新型药物具有重要意义。同时,该数据集也为蛋白质结构预测领域的研究提供了新的方向和思路。
相关研究论文
  • 1
    Dynamic PDB: A New Dataset and a SE(3) Model Extension by Integrating Dynamic Behaviors and Physical Properties in Protein Structures上海人工智能科学院 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

OECD - Education at a Glance

该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。

www.oecd.org 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

The Global Forest Watch (GFW)

The Global Forest Watch (GFW) 是一个全球森林监测平台,提供关于森林覆盖变化、火灾、森林砍伐和土地利用的实时数据和分析。数据集包括全球森林覆盖地图、森林砍伐警报、火灾热点、土地覆盖变化等信息。

globalforestwatch.org 收录