DynateinDB
收藏Hugging Face2025-11-16 更新2025-11-17 收录
下载链接:
https://huggingface.co/datasets/RPDGroup/DynateinDB
下载链接
链接失效反馈官方服务:
资源简介:
DynateinDB是一个包含来自全原子分子动力学模拟的小蛋白质构象集合的数据库。
DynateinDB is a database containing collections of small protein conformations derived from all-atom molecular dynamics simulations.
创建时间:
2025-11-12
原始信息汇总
DynateinDB 数据集概述
数据集简介
DynateinDB 是一个包含小蛋白质构象集合的数据库,数据来源于全原子分子动力学模拟。
数据集规模
| 指标 | 数值 |
|---|---|
| 轨迹数量 | 8,385 |
| 单条轨迹长度 | 100 ns |
| 累计模拟时间 | 838.5 µs |
| 原子总数 | 3,990,516 |
| 平均系统大小(原子) | ~476 |
| 残基总数 | 491,395 |
| 平均系统大小(残基) | ~59 |
许可证
许可证类型:GPL-3.0
分子动力学模拟工作流程
数据集提供了基于GROMACS 2024.1的完整分子动力学模拟流程,包括以下步骤:
环境配置
- 下载并安装GROMACS 2024.1
- 配置CUDA GPU支持
- 设置编译环境
模拟步骤
- 生成拓扑和初始结构(使用CHARMM36m力场)
- 定义模拟盒子
- 溶剂化系统
- 添加离子
- 能量最小化
- NVT平衡
- NPT平衡
- 生产分子动力学模拟
引用要求
使用DynateinDB数据集的研究论文需要引用相关手稿。
搜集汇总
数据集介绍

构建方式
在计算结构生物学领域,DynateinDB的构建依托全原子分子动力学模拟技术,采用GROMACS 2024.1软件框架执行标准化流程。该流程涵盖从蛋白质初始结构处理到最终轨迹生成的八个关键阶段:通过pdb2gmx工具生成拓扑文件,经立方体水盒定义、TIP3P水模型溶剂化及离子浓度平衡后,依次进行能量最小化、NVT与NPT系综平衡,最终完成长达100纳秒的生产模拟。每个体系平均包含476个原子与59个残基,累计838.5微秒的模拟时长确保了构象采样的充分性。
使用方法
针对计算生物学研究需求,该数据集支持多层级分析范式。用户可通过GROMACS环境直接读取轨迹文件,利用内置工具进行构象聚类、自由能计算或二级结构演化分析。对于机器学习应用,可提取原子坐标时间序列作为训练特征,或结合拓扑文件构建图神经网络输入。数据集提供的标准化预处理流程(如1A11案例)允许研究者复现模拟条件,其模块化设计便于拓展至突变体研究或配体结合模拟等场景。
背景与挑战
背景概述
在结构生物学领域,理解蛋白质构象动态变化对揭示其功能机制至关重要。DynateinDB作为基于全原子分子动力学模拟的小型蛋白质构象集成数据库,由计算生物学研究团队于近年创建,旨在系统记录蛋白质在溶液环境中的动态行为。该数据库通过累积838.5微秒的模拟轨迹,涵盖8385条100纳秒时长的全原子模拟数据,为研究蛋白质构象空间采样、构象转变路径等核心问题提供了标准化数据支撑。其构建采用CHARMM36m力场和TIP3P水模型,通过严格的能量最小化与平衡步骤确保模拟数据的物理可靠性,显著推动了计算结构生物学领域的发展。
当前挑战
在蛋白质构象动力学研究中,传统实验手段难以捕捉微秒级动态过程,而计算模拟面临构象采样不足与力场精度限制的双重挑战。DynateinDB构建过程中需克服大规模分子动力学模拟的技术瓶颈,包括数千万原子体系的并行计算效率、长期模拟的数值稳定性保障,以及海量轨迹数据的存储与标准化处理。同时,数据库需确保不同蛋白质体系模拟参数的一致性,避免因溶剂化条件或离子浓度差异引入系统误差,这对模拟流程的标准化与质量控制提出了极高要求。
常用场景
经典使用场景
在分子动力学研究领域,DynateinDB数据集通过提供8385条全原子分子动力学轨迹,为小蛋白质构象动态分析奠定了坚实基础。这些轨迹平均长度为100纳秒,覆盖了广泛的蛋白质结构空间,使得研究人员能够深入探索蛋白质在溶液环境中的构象变化、折叠路径及稳定性机制。该数据集常被用于验证和优化分子力场参数,以及评估蛋白质构象采样的充分性,为理论模拟与实验观测之间的桥梁构建提供了关键数据支持。
解决学术问题
DynateinDB有效解决了分子模拟中构象采样不足的经典难题,其微秒级累积模拟时间显著提升了罕见构象事件的捕获概率。该数据集通过系统化的轨迹数据,为研究蛋白质动力学与功能关系、构象熵计算及自由能景观构建等核心问题提供了量化依据。尤其在小蛋白领域,它填补了实验手段难以观测瞬时构象状态的空白,推动了统计力学理论与生物物理实验的深度融合。
实际应用
该数据集在药物设计领域展现出重要价值,其构象系综数据可用于识别潜在的别构调控位点,辅助基于结构的虚拟筛选。在酶工程应用中,研究人员通过分析催化残基的动态波动,能够优化蛋白质的催化效率与稳定性。此外,生物技术产业借助这些轨迹数据改进工业酶的热适应性,为生物制造过程的优化提供了分子层面的理论指导。
数据集最近研究
最新研究方向
在结构生物学领域,DynateinDB作为涵盖8385条全原子分子动力学轨迹的蛋白质构象集成数据库,正推动着动态结构生物学的前沿探索。当前研究聚焦于利用深度学习模型解析微秒级模拟数据,揭示小蛋白构象转变与功能调控的分子机制,尤其在药物靶点识别和变构效应预测方面展现出突破性潜力。该数据集通过标准化分子动力学流程与人工智能方法的深度融合,为理解蛋白质动态行为提供了前所未有的微观视角,显著加速了精准药物设计与合成生物学的发展进程。
以上内容由遇见数据集搜集并总结生成



