compsciencelab/mdCATH

Name: compsciencelab/mdCATH
Creator: compsciencelab
Published: 2024-11-30 10:02:49
License: 暂无描述

Hugging Face2024-11-30 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/compsciencelab/mdCATH

下载链接

链接失效反馈

官方服务：

资源简介：

mdCATH数据集包含5,398个CATH域的全原子系统，使用最先进的经典力场建模，并在五个温度（从320 K到450 K）下进行五次模拟。数据集的大小包括134,950条轨迹、62.6毫秒的总采样时间、11,671,592个原子、740,813个氨基酸、464纳秒的平均轨迹长度、2,162个原子的平均系统大小、137个氨基酸的平均域长度以及3.3 TB的总文件大小。

The mdCATH dataset comprises all-atom systems for 5,398 CATH domains, modeled with a state-of-the-art classical force field, and simulated in five replicates each at five temperatures from 320 K to 413 K. It is primarily used for data-driven computational biophysics research, covering a large number of molecular dynamics trajectories and related parameters.

提供机构：

compsciencelab

搜集汇总

数据集介绍

构建方式

在计算生物物理学领域，大规模原子级分子动力学模拟数据集对于推动基于机器学习的势能函数发展至关重要。mdCATH数据集基于CATH蛋白质结构域分类体系，选取了5,398个具有代表性的结构域，采用经典力场构建全原子系统，并在320K至450K的五个温度梯度下，对每个结构域进行了五个独立重复的模拟，累计采样时间达62.6毫秒，生成了134,950条轨迹，系统总原子数超过1,167万个，充分覆盖了蛋白质构象空间的多样性。

特点

该数据集具有显著的规模与多样性特征，涵盖近5,400个结构域、超过1,100万原子和74万氨基酸残基，平均轨迹长度达464纳秒，平均系统大小为2,162个原子。多温度多重复的设计使得数据能够捕捉蛋白质在不同热力学条件下的动态行为，为训练高精度神经网络势能模型提供了丰富的构象样本，同时其基于CATH分类的构建方式确保了结构域的广泛代表性。

使用方法

研究人员可通过多种途径高效利用该数据集。官方提供了基于TorchMD-Net框架的数据加载器，支持直接集成到深度学习工作流中进行模型训练与评估。此外，用户可通过PlayMolecule平台在线浏览和交互式分析数据，或从GitHub仓库获取脚本进行数据格式转换、重建与自定义处理。数据集以CC-BY-4.0许可发布，引用时需注明相关科学文献以确保学术规范。

背景与挑战

背景概述

在计算生物物理学领域，分子动力学（MD）模拟已成为揭示蛋白质构象动态与功能机制的核心工具，但传统模拟数据集的规模与多样性严重制约了数据驱动方法的发展。2024年，由A. Mirarchi、T. Giorgino与G. De Fabritiis领导的研究团队（隶属于计算科学实验室）发布了mdCATH数据集，旨在为神经网络势函数与生物分子建模提供大规模、高保真的训练基准。该数据集涵盖5,398个CATH结构域，采用经典力场构建全原子体系，并在320K至450K五个温度下分别进行五次重复模拟，总采样时间达62.6毫秒，包含超过1,100万个原子及134,950条轨迹。作为CATH蛋白质结构分类数据库的衍生资源，mdCATH填补了现有生物物理数据集在规模与温度覆盖上的空白，为力场参数化、蛋白质折叠动力学及温度依赖性构象变化研究提供了前所未有的数据支撑，对推动数据驱动的计算生物物理学具有里程碑意义。

当前挑战

mdCATH数据集所面临的挑战主要体现在两个层面。在领域问题层面，尽管数据集提供了丰富的构象采样，但蛋白质动态行为的高度复杂性——如长时间尺度下的稀有事件、溶剂效应与多体相互作用的精确捕捉——仍对基于机器学习的势函数模型构成严峻考验，现有方法难以在保持计算效率的同时兼顾全局能量面的准确性。在构建过程中，数据集面临多重技术难题：首先，5,398个结构域的系统选择需平衡结构多样性与模拟可行性，确保覆盖不同折叠类型的同时避免冗余；其次，全原子力场参数化与多温度（320K至450K）模拟的收敛性要求极高的计算资源与优化策略，平均每条轨迹长达464纳秒的采样需克服热力学平衡与统计误差的挑战；此外，3.3TB的庞大数据量对存储、索引与高效加载机制（如torchmd-net数据加载器）提出了工程化要求，而跨平台兼容性与标准化格式的维护亦需持续投入。

常用场景

经典使用场景

在计算生物物理学与数据驱动分子模拟的交汇领域，mdCATH数据集以其大规模、多温度、多副本的全原子分子动力学轨迹，为研究者提供了前所未有的基准资源。其经典使用场景在于训练和验证神经网络势函数，尤其是针对蛋白质折叠与构象动态的预测模型。通过覆盖5398个CATH结构域在320K至450K五个温度下的重复模拟，该数据集能够捕获蛋白质从天然态到部分去折叠的丰富热力学与动力学行为，为开发高精度、可迁移的机器学习力场奠定了数据基础。

解决学术问题

该数据集有效解决了蛋白质构象空间采样不足与势函数泛化能力弱两大核心学术难题。传统分子动力学模拟受限于计算成本，难以系统性地探索不同结构域在多种热力学条件下的动态行为；而现有神经网络势函数常因训练数据匮乏，在未知蛋白体系上表现欠佳。mdCATH通过提供134,950条轨迹、总计62.6毫秒的模拟时间，覆盖超过1100万个原子，使得研究者能够从海量构象中学习蛋白质内在的能量景观，显著提升了机器学习模型在复杂生物体系中的预测准确性与鲁棒性，推动了数据驱动计算生物物理学的范式演进。

衍生相关工作

围绕mdCATH数据集，已衍生出多项具有影响力的经典工作。其中，TorchMD-Net框架直接集成了mdCATH数据加载器，便于研究者无缝使用该数据集训练等变神经网络势函数。此外，基于该数据集的基准测试催生了多种新型架构，如Equiformer与MACE在蛋白质动力学预测上的改进版本。该数据集还促进了力场重参数化方法的发展，例如通过对比模拟与实验数据，优化经典力场中的二面角参数。这些衍生工作共同构建了一个从数据生成到模型部署的完整生态，深刻影响了计算生物物理学的研究范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集