five

mdCATH

收藏
arXiv2024-07-20 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2407.14794v1
下载链接
链接失效反馈
官方服务:
资源简介:
mdCATH数据集由计算科学实验室,庞培法布拉大学创建,专注于通过全原子分子动力学模拟提供蛋白质域的动态信息。该数据集包含5,398个蛋白质域,每个域在五种不同温度下进行五次重复模拟,总计超过62毫秒的模拟时间。数据集记录了每1纳秒的坐标和力,为蛋白质结构动力学研究提供了丰富的资源。创建过程中,使用了先进的力场和计算资源,确保数据的高质量。mdCATH数据集主要应用于计算生物物理学领域,旨在通过提供全面的蛋白质动态数据,推动药物发现和蛋白质科学的发展。

The mdCATH dataset was developed by the Computational Science Laboratory at Pompeu Fabra University, focusing on providing dynamic information of protein domains via all-atom molecular dynamics simulations. This dataset contains 5,398 protein domains, each of which underwent five replicate simulations at five distinct temperatures, resulting in a total simulation time exceeding 62 milliseconds. The dataset records atomic coordinates and forces at 1-nanosecond intervals, serving as a valuable resource for studies on protein structural dynamics. During its development, advanced force fields and computational resources were employed to ensure the high quality of the dataset. Primarily applied in the field of computational biophysics, the mdCATH dataset aims to advance drug discovery and protein science by providing comprehensive dynamic protein data.
提供机构:
计算科学实验室,庞培法布拉大学,巴塞罗那生物医学研究园区(PRBB)
创建时间:
2024-07-20
搜集汇总
数据集介绍
main_image_url
构建方式
mdCATH数据集的构建基于对CATH分类系统中蛋白质域的广泛覆盖。首先,从CATH数据库中选取了14,433个非同源蛋白质域,进一步筛选出13,470个氨基酸长度在50到500之间的球形结构域。经过预处理,最终得到5,398个结构域用于模拟。所有结构域均使用CHARMM22*力场进行参数化,并在TIP3P水模型中进行溶剂化处理。模拟在NPT和NVT系综下进行,记录了原子坐标和作用在每个原子上的力,时间步长为4 fs,温度从320 K到450 K,每个温度下有五个复制品。模拟时间超过62 ms,提供了丰富的蛋白质结构动力学信息。
特点
mdCATH数据集的特点在于其全面性和高质量。它包含了5,398个蛋白质域的动力学数据,模拟时间超过62 ms,覆盖了广泛的温度范围,并提供了原子坐标和力的详细信息。此外,数据集还包括了预计算的信息,如RMSD、RMSF、二级结构组成等,以及用于训练力场机器学习模型的力数据。这些特点使得mdCATH数据集成为蛋白质科学领域的一个重要资源。
使用方法
mdCATH数据集的使用方法灵活多样。用户可以通过HuggingFace平台下载整个数据集或按结构域分割下载。为了方便使用,TorchMD-Net库中集成了一个专门的类,用于加载mdCATH数据集,并提供对蛋白质域选择和轨迹过滤的高级选项。此外,数据集还提供了与VMD、HTMD和其他分子分析库兼容的文件格式转换工具,以及PlayMolecule交互式查看器,以支持可视化和进一步的数据处理。
背景与挑战
背景概述
蛋白质作为生命的基石,其结构和动态研究对于从生物化学到药物开发等多个领域的进步至关重要。分子动力学(MD)模拟作为一种计算密集型技术,试图在现实环境中模拟生物大分子的动态,为理解蛋白质的功能、折叠和相互作用提供了前所未有的洞察。尽管近年来在蛋白质结构确定方面取得了显著进展,但在捕捉蛋白质动态行为的综合数据集方面仍存在显著差距。为了填补这一空白,mdCATH数据集应运而生。该数据集由Antonio Mirarchi、Toni Giorgino和Gianni De Fabritiis等研究人员创建,通过广泛的原子分子动力学模拟,为CATH分类系统中大多数蛋白质域提供了丰富的动态数据。mdCATH数据集包含5,398个蛋白质域的全原子系统,使用先进的经典力场建模,并在五种不同的温度下进行模拟,每种温度下有五个副本。该数据集记录了超过62毫秒的累积模拟时间内的坐标和力,有效捕捉了各种域类的动态,为蛋白质展开的热力学和动力学进行广泛的统计分析提供了独特的资源。
当前挑战
mdCATH数据集的创建和利用面临着多方面的挑战。首先,在构建过程中,研究人员需要确保数据集的全面性,覆盖CATH分类系统中大多数蛋白质域的动态行为,这需要巨大的计算资源和技术支持。其次,数据集的高质量要求,包括使用最先进的力场和计算资源,以及提供易于使用的预计算元数据,都是对研究人员技术和资源的考验。此外,如何有效地利用mdCATH数据集进行蛋白质折叠、功能和相互作用的预测,以及如何将数据集整合到药物发现和生物物理研究中,都是当前面临的挑战。
常用场景
经典使用场景
mdCATH数据集在蛋白质科学研究中的经典应用包括蛋白质折叠、功能和相互作用的研究。该数据集提供了广泛的蛋白质结构动力学信息,为训练机器学习模型提供了基础,从而可以预测蛋白质的折叠过程、功能和相互作用。此外,mdCATH数据集还包含来自最先进的经典力场的原子坐标和力,这为训练基于力的机器学习势能提供了独特的资源。
解决学术问题
mdCATH数据集解决了蛋白质动力学研究中的数据缺乏问题。尽管蛋白质结构测定技术取得了重大进展,但缺乏全面的数据集来关注蛋白质的动力学。mdCATH数据集通过广泛的原子分子动力学模拟,提供了多样化的蛋白质结构动力学信息,填补了这一空白。此外,mdCATH数据集还提供了蛋白质结构动力学的高质量数据,为蛋白质科学的发展提供了重要的资源。
衍生相关工作
mdCATH数据集衍生了许多相关的经典工作。例如,mdCATH数据集可以用于训练基于力的机器学习势能,从而提高蛋白质动力学模拟的准确性。此外,mdCATH数据集还可以用于研究蛋白质折叠、功能和相互作用的机制,为蛋白质科学的发展提供新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作