DD-13M

Name: DD-13M
Creator: 深圳湾实验室系统与物理生物学研究所, 国际数字经济发展研究院
Published: 2025-04-25 22:10:06
License: 暂无描述

arXiv2025-04-25 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.18367v1

下载链接

链接失效反馈

官方服务：

资源简介：

DD-13M数据集是一个专注于药物-蛋白质解离过程的轨迹数据库。该数据集基于PDBbind+ koff数据集的680个配体-蛋白质3D结构，通过分子动力学模拟生成了26,612个解离轨迹，包含约1,278万个复合物构象框架。该数据集的创建利用了元动力学增强采样算法，克服了传统分子动力学模拟在药物-蛋白质解离动力学研究中的局限性。DD-13M数据集的发布为计算结构生物学带来了重大突破，预期将在药物-蛋白质相互作用的人工智能研究中得到广泛应用。

The DD-13M dataset is a trajectory database dedicated to the drug-protein dissociation process. Built upon 680 ligand-protein 3D structures sourced from the PDBbind+ koff dataset, this dataset generated 26,612 dissociation trajectories via molecular dynamics simulations, encompassing approximately 12.78 million complex conformational frames. The development of this dataset leveraged metadynamics-enhanced sampling algorithms, overcoming the limitations of conventional molecular dynamics simulations in studies of drug-protein dissociation kinetics. The release of the DD-13M dataset marks a significant breakthrough for computational structural biology, and is expected to be widely applied in artificial intelligence research on drug-protein interactions.

提供机构：

深圳湾实验室系统与物理生物学研究所, 国际数字经济发展研究院

创建时间：

2025-04-25

搜集汇总

数据集介绍

构建方式

DD-13M数据集的构建采用了分子动力学（MD）模拟与增强采样技术的结合，特别是基于Metadynamics（MetaD）方法。研究团队从PDBbind+数据库的koff子集中选取了680个药物-蛋白质复合物作为初始结构，通过MetaD模拟生成了26,612条解离轨迹，共计约1300万帧。在模拟过程中，配体的质心坐标被用作三维集体变量（CV），蛋白质表面被设定为反应边界。每个复合物进行了50次并行MetaD模拟，以确保路径的多样性和统计显著性。这一流程在28个GPU上运行30天完成，确保了数据的高效生成和广泛覆盖。

使用方法

DD-13M数据集可用于训练生成模型（如UnbindingFlow）以预测药物-蛋白质解离路径，显著降低计算成本。用户可以通过Python接口加载数据，利用提供的轨迹进行聚类分析或自由能面重建。例如，使用Nudged Elastic Band（NEB）方法可以从多条轨迹中提取平均解离路径。此外，数据集还可用于验证其他增强采样方法的有效性，或作为分子动力学模拟的初始输入。数据集的公开访问和标准化格式使其易于集成到现有研究流程中。

背景与挑战

背景概述

DD-13M数据集由深圳湾实验室和国际数字经济学院的联合研究团队于2024年创建，旨在解决药物-蛋白质解离动力学这一计算结构生物学中的关键问题。该数据集包含来自565个药物-蛋白质复合物的26,612条解离轨迹，总计约1300万帧分子构象，通过元动力学增强采样技术生成。作为首个大规模解离动力学专用数据库，DD-13M突破了传统静态对接数据集的局限，为理解药物靶标相互作用机制提供了动态视角，其创新性体现在将增强采样、分子动力学与人工智能生成模型相结合的研究范式。该数据集已成功应用于训练深度等变生成模型UnbindingFlow，显著推动了药物设计中动力学特性预测的精度与效率。

当前挑战

在领域问题层面，DD-13M致力于解决药物-蛋白质解离路径预测这一长期存在的计算挑战。传统分子对接方法受限于静态结构分析，难以捕捉瞬态中间态与多路径解离机制；而增强采样虽能获取动力学信息，但存在单系统计算成本过高的问题。在构建过程中，研究团队面临三大技术挑战：1) 开发普适性增强采样策略以实现小分子从深结合口袋的高效逃逸；2) 设计自动化流程处理680个复合物的并行模拟，需克服环状肽配体等特殊体系的建模难题；3) 建立轨迹验证标准确保生成的1300万帧构象既满足几何合理性又保持动力学可及性，最终碰撞分数控制在0.336±0.045的优化区间。

常用场景

经典使用场景

在计算结构生物学领域，DD-13M数据集为研究药物-蛋白质解离动力学提供了丰富的轨迹数据。通过结合分子动力学模拟和增强采样技术，该数据集能够捕捉药物分子从蛋白质结合位点解离的完整动态过程。这一特性使其成为训练AI生成模型的理想选择，例如UnbindingFlow模型，该模型能够高效生成无碰撞的解离轨迹，显著降低了传统分子动力学模拟的计算成本。

解决学术问题

DD-13M数据集解决了药物-蛋白质相互作用研究中动态过程建模的难题。传统方法如静态对接或准静态近似无法准确描述解离动力学，而该数据集通过增强采样策略生成的轨迹，提供了原子级别的瞬态中间态解析和多路径机制区分能力。其意义在于填补了AI生成模型在动态相互作用预测领域的空白，并为结合自由能和动力学常数的计算提供了可靠数据基础。

实际应用

在实际药物研发中，DD-13M数据集支持虚拟筛选和先导化合物优化。制药企业可利用其训练生成模型，快速预测候选药物与靶标蛋白的解离路径，评估药物驻留时间等关键药效参数。相较于传统分子动力学模拟需数小时的计算，基于该数据集的生成模型可在5分钟内完成轨迹预测，大幅提升了早期药物发现的效率。

数据集最近研究