five

DD-13M

收藏
arXiv2025-04-25 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2504.18367v1
下载链接
链接失效反馈
官方服务:
资源简介:
DD-13M数据集是一个专注于药物-蛋白质解离过程的轨迹数据库。该数据集基于PDBbind+ koff数据集的680个配体-蛋白质3D结构,通过分子动力学模拟生成了26,612个解离轨迹,包含约1,278万个复合物构象框架。该数据集的创建利用了元动力学增强采样算法,克服了传统分子动力学模拟在药物-蛋白质解离动力学研究中的局限性。DD-13M数据集的发布为计算结构生物学带来了重大突破,预期将在药物-蛋白质相互作用的人工智能研究中得到广泛应用。

The DD-13M dataset is a trajectory database dedicated to the drug-protein dissociation process. Built upon 680 ligand-protein 3D structures sourced from the PDBbind+ koff dataset, this dataset generated 26,612 dissociation trajectories via molecular dynamics simulations, encompassing approximately 12.78 million complex conformational frames. The development of this dataset leveraged metadynamics-enhanced sampling algorithms, overcoming the limitations of conventional molecular dynamics simulations in studies of drug-protein dissociation kinetics. The release of the DD-13M dataset marks a significant breakthrough for computational structural biology, and is expected to be widely applied in artificial intelligence research on drug-protein interactions.
提供机构:
深圳湾实验室系统与物理生物学研究所, 国际数字经济发展研究院
创建时间:
2025-04-25
搜集汇总
数据集介绍
main_image_url
构建方式
DD-13M数据集的构建采用了分子动力学(MD)模拟与增强采样技术的结合,特别是基于Metadynamics(MetaD)方法。研究团队从PDBbind+数据库的koff子集中选取了680个药物-蛋白质复合物作为初始结构,通过MetaD模拟生成了26,612条解离轨迹,共计约1300万帧。在模拟过程中,配体的质心坐标被用作三维集体变量(CV),蛋白质表面被设定为反应边界。每个复合物进行了50次并行MetaD模拟,以确保路径的多样性和统计显著性。这一流程在28个GPU上运行30天完成,确保了数据的高效生成和广泛覆盖。
使用方法
DD-13M数据集可用于训练生成模型(如UnbindingFlow)以预测药物-蛋白质解离路径,显著降低计算成本。用户可以通过Python接口加载数据,利用提供的轨迹进行聚类分析或自由能面重建。例如,使用Nudged Elastic Band(NEB)方法可以从多条轨迹中提取平均解离路径。此外,数据集还可用于验证其他增强采样方法的有效性,或作为分子动力学模拟的初始输入。数据集的公开访问和标准化格式使其易于集成到现有研究流程中。
背景与挑战
背景概述
DD-13M数据集由深圳湾实验室和国际数字经济学院的联合研究团队于2024年创建,旨在解决药物-蛋白质解离动力学这一计算结构生物学中的关键问题。该数据集包含来自565个药物-蛋白质复合物的26,612条解离轨迹,总计约1300万帧分子构象,通过元动力学增强采样技术生成。作为首个大规模解离动力学专用数据库,DD-13M突破了传统静态对接数据集的局限,为理解药物靶标相互作用机制提供了动态视角,其创新性体现在将增强采样、分子动力学与人工智能生成模型相结合的研究范式。该数据集已成功应用于训练深度等变生成模型UnbindingFlow,显著推动了药物设计中动力学特性预测的精度与效率。
当前挑战
在领域问题层面,DD-13M致力于解决药物-蛋白质解离路径预测这一长期存在的计算挑战。传统分子对接方法受限于静态结构分析,难以捕捉瞬态中间态与多路径解离机制;而增强采样虽能获取动力学信息,但存在单系统计算成本过高的问题。在构建过程中,研究团队面临三大技术挑战:1) 开发普适性增强采样策略以实现小分子从深结合口袋的高效逃逸;2) 设计自动化流程处理680个复合物的并行模拟,需克服环状肽配体等特殊体系的建模难题;3) 建立轨迹验证标准确保生成的1300万帧构象既满足几何合理性又保持动力学可及性,最终碰撞分数控制在0.336±0.045的优化区间。
常用场景
经典使用场景
在计算结构生物学领域,DD-13M数据集为研究药物-蛋白质解离动力学提供了丰富的轨迹数据。通过结合分子动力学模拟和增强采样技术,该数据集能够捕捉药物分子从蛋白质结合位点解离的完整动态过程。这一特性使其成为训练AI生成模型的理想选择,例如UnbindingFlow模型,该模型能够高效生成无碰撞的解离轨迹,显著降低了传统分子动力学模拟的计算成本。
解决学术问题
DD-13M数据集解决了药物-蛋白质相互作用研究中动态过程建模的难题。传统方法如静态对接或准静态近似无法准确描述解离动力学,而该数据集通过增强采样策略生成的轨迹,提供了原子级别的瞬态中间态解析和多路径机制区分能力。其意义在于填补了AI生成模型在动态相互作用预测领域的空白,并为结合自由能和动力学常数的计算提供了可靠数据基础。
实际应用
在实际药物研发中,DD-13M数据集支持虚拟筛选和先导化合物优化。制药企业可利用其训练生成模型,快速预测候选药物与靶标蛋白的解离路径,评估药物驻留时间等关键药效参数。相较于传统分子动力学模拟需数小时的计算,基于该数据集的生成模型可在5分钟内完成轨迹预测,大幅提升了早期药物发现的效率。
数据集最近研究
最新研究方向
近年来,DD-13M数据集在计算结构生物学和药物设计领域引起了广泛关注,特别是在药物-蛋白质解离动力学的研究中。该数据集通过结合增强采样技术和分子动力学模拟,生成了包含约13百万帧的26,612条解离轨迹,为AI生成模型提供了丰富的训练数据。前沿研究主要集中在利用这些数据开发深度等变生成模型(如UnbindingFlow),以预测无碰撞的解离轨迹。这一进展不仅加速了药物发现过程,还为理解分子相互作用机制提供了新的视角。此外,DD-13M数据集的公开可用性促进了跨学科合作,推动了药物-蛋白质相互作用研究的进一步发展。
相关研究论文
  • 1
    Enhanced Sampling, Public Dataset and Generative Model for Drug-Protein Dissociation Dynamics深圳湾实验室系统与物理生物学研究所, 国际数字经济发展研究院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作