five

CovDocker

收藏
arXiv2025-06-26 更新2025-06-28 收录
下载链接:
https://doi.org/10.5281/zenodo.12805810
下载链接
链接失效反馈
官方服务:
资源简介:
CovDocker是一个为评估共价药物设计而设计的综合基准,旨在更好地捕捉共价结合的复杂性。它将共价对接过程分解为三个主要任务:活性位点预测、共价反应预测和共价对接。通过采用最先进的模型,如Uni-Mol和Chemformer,建立了基准性能,并展示了该基准在准确预测相互作用位点和模拟共价结合中涉及的分子转化方面的有效性。这些结果表明,该基准作为推动共价药物设计研究的一个严格框架,突出了数据驱动方法在加速选择性共价抑制剂发现方面的潜力,并解决了治疗开发中的关键挑战。

CovDocker is a comprehensive benchmark developed for evaluating covalent drug design, aiming to better capture the complexity of covalent binding. It decomposes the covalent docking process into three core tasks: active site prediction, covalent reaction prediction, and covalent docking. Benchmark performance was established using state-of-the-art models such as Uni-Mol and Chemformer, and the effectiveness of this benchmark in accurately predicting interaction sites and simulating molecular transformations involved in covalent binding was demonstrated. These results indicate that this benchmark serves as a rigorous framework for advancing covalent drug design research, highlighting the potential of data-driven approaches to accelerate the discovery of selective covalent inhibitors and addressing critical challenges in therapeutic development.
提供机构:
华中科技大学, 微软研究院人工智能科学部, 上海人工智能实验室
创建时间:
2025-06-26
原始信息汇总

CovDocker数据集概述

基本信息

  • DOI: 10.5281/zenodo.15524346
  • 发布日期: 2025年5月27日
  • 版本: v3
  • 许可证: MIT License
  • 资源类型: 数据集
  • 发布者: Zenodo

创作者

  • Yangzhe, Peng
  • Kaiyuan, Gao
  • Liang, He
  • Yuheng, Cong
  • Haiguang, Liu
  • Kun, He
  • Lijun, Wu

数据集描述

CovDocker数据集是为论文《CovDocker: Benchmarking Covalent Drug Design with Tasks, Datasets, and Solutions》预处理的数据集,相关代码位于GitHub仓库。数据集文件以lmdb格式保存以便使用。

文件结构

processed ├── bonded │ ├── 1A0L │ │ ├── 1A0L_10Apocket.pdb │ │ ├── 1A0L_5Apocket.pdb │ │ ├── 1A0L_8Apocket.pdb │ │ ├── 1A0L_chain_within_10A.pdb │ │ ├── 1A0L_ligand.pdb │ │ ├── 1A0L_ligand.sdf │ │ └── 1A0L_protein.pdb ..... │ └── 9XIA ├── dataset │ ├── docking │ ├── reaction │ └── reactive_site ├── dataset.csv ├── dataset.filtered.csv ├── dataset.filtered.unseen.csv ├── dataset.unseen.csv └── pdb2mechanism.csv

数据集文件

  • covDocker_data.zip: 708.3 MB
    • MD5: c0f15012216fdb5a4a1a90f4bb672f02

论文摘要

分子对接在预测配体与靶蛋白的结合模式中起着关键作用,共价相互作用尤其有价值,因为它们涉及配体与靶标之间共价键的形成。大多数现有的对接方法和深度学习方法难以解释共价键的形成和相关结构变化。为此,我们引入了一个全面的共价对接基准CovDocker,旨在更好地捕捉共价结合的复杂性。我们将共价对接过程分解为三个主要任务:反应位点预测、共价反应预测和共价对接。通过调整最先进的模型,如Uni-Mol和Chemformer,我们建立了基线性能,并证明了基准在准确预测相互作用位点和建模共价结合中涉及的分子转化方面的有效性。

附加信息

统计信息

  • 总浏览量: 52
  • 总下载量: 12
  • 总数据量: 8.5 GB

版本历史

  • v3: 2025年5月27日
  • v2: 2025年
  • v1: 2024年7月24日
搜集汇总
数据集介绍
main_image_url
构建方式
CovDocker数据集的构建采用了系统化的方法,从CovPDB和CovBinderInPDB两大主要来源收集高质量共价相互作用数据。通过整合和筛选,初始获得2754个条目用于任务2和任务3,并进一步排除蛋白质链超过1024个氨基酸的样本,最终保留2717个条目用于任务1。数据预处理阶段,通过分离复合物中的配体和蛋白质组分,并利用化学组分字典生成后反应配体,确保了数据的一致性和可用性。数据集按时间划分为训练集、验证集和测试集,以2020年为界,确保评估的公平性和防止数据泄漏。
使用方法
CovDocker数据集的使用方法围绕三个核心任务展开:反应位置预测、共价反应预测和共价对接。研究人员可以利用该数据集训练和评估模型在共价药物设计中的表现。具体而言,任务1要求模型预测蛋白质口袋中心和反应位点;任务2需要模型根据前反应配体和反应氨基酸预测后反应配体;任务3则是在已知口袋和后反应配体的基础上,预测低能复合物构象。数据集还引入了新的评估指标,如RMSD (IB),以更精确地衡量共价键形成的准确性。
背景与挑战
背景概述
CovDocker是由华中科技大学与微软研究院AI for Science团队于2025年联合推出的共价药物设计基准数据集,旨在解决传统分子对接方法在共价键形成模拟中的局限性。该数据集通过整合CovPDB和CovBinderInPDB等高质量资源,系统性地构建了2,754个共价蛋白-配体复合物结构,覆盖22种反应机制和10种靶向氨基酸类型。其创新性体现在将共价对接过程分解为反应位点预测、共价反应预测和共价对接构象预测三个核心任务,并引入Uni-Mol和Chemformer等先进模型建立性能基线。作为首个专为深度学习设计的共价对接基准,CovDocker通过开源数据集和标准化评估指标,显著推动了选择性共价抑制剂研发的标准化进程。
当前挑战
CovDocker面临的挑战主要体现在两个方面:领域问题层面,共价药物设计需同时解决反应位点识别、共价键形成模拟和构象优化等复杂问题,而现有非共价对接方法无法建模共价键形成过程中的结构变化;数据构建层面,共价复合物的晶体结构稀缺且质量参差,需处理配体前/后反应态转换、氢原子缺失等数据难题。具体挑战包括:1) 反应位点预测需兼顾蛋白质口袋全局特征与局部残基反应活性;2) 共价反应预测涉及复杂的化学反应空间建模;3) 共价对接需协调几何约束与能量优化,传统力场参数难以准确描述共价键形成能垒。此外,数据预处理中配体原子映射、共价键类型标注等环节均需人工校验,构建过程计算成本较非共价数据集提高约3倍。
常用场景
经典使用场景
在药物发现领域,CovDocker数据集为共价药物设计提供了全面的基准测试框架。该数据集通过将共价对接过程分解为三个核心任务——反应位点预测、共价反应预测和共价对接构象预测,为研究人员提供了一个系统化的研究平台。其经典应用场景包括利用深度学习模型(如Uni-Mol和Chemformer)预测蛋白质与配体间的共价结合模式,特别适用于针对不可逆靶点的抑制剂开发,如新冠病毒主蛋白酶共价抑制剂的虚拟筛选。
解决学术问题
CovDocker解决了共价药物设计中长期存在的关键学术问题:传统对接方法难以建模共价键形成伴随的分子结构变化,且缺乏专门的数据集支持。该数据集通过提供2,754个高质量共价复合物结构(涵盖22种反应机制和10种氨基酸靶点),系统性地解决了共价反应位点识别、反应产物预测和结合构象生成三大挑战。其创新性的距离约束损失函数(L_cib)和反应感知的评估指标(RMSD-IB)为共价相互作用的精确建模提供了定量标准,填补了该领域基准资源的空白。
实际应用
在实际应用中,CovDocker显著加速了共价药物的发现流程。临床案例显示,30%的上市药物通过共价机制发挥作用,该数据集支撑的算法已成功应用于布鲁顿酪氨酸激酶(BTK)共价抑制剂的优化设计。通过整合AlphaFold3预测的蛋白质结构,研究人员可快速筛选候选化合物与靶标蛋白的共价结合模式,将传统需要数月的实验验证周期缩短至数天。此外,其开源的预处理流程可直接对接工业级药物设计平台如Schrödinger和MOE。
数据集最近研究
最新研究方向
近年来,CovDocker数据集在共价药物设计领域引起了广泛关注,特别是在分子对接和共价抑制剂开发方面。该数据集通过整合高质量的结构数据,将共价对接过程分解为三个关键任务:反应位点预测、共价反应预测和共价对接构象预测。这一框架为深度学习模型提供了系统化的评估基准,显著提升了共价相互作用的建模精度。随着AlphaFold3等先进模型在蛋白质结构预测中的突破,CovDocker的引入填补了共价键形成过程中结构变化预测的技术空白。其在加速选择性共价抑制剂发现方面的潜力,为抗病毒药物和靶向癌症治疗等热点研究方向提供了新的计算范式。该数据集的开放性和可重现性特点,使其迅速成为共价药物设计领域的重要基准工具。
相关研究论文
  • 1
    CovDocker: Benchmarking Covalent Drug Design with Tasks, Datasets, and Solutions华中科技大学, 微软研究院人工智能科学部, 上海人工智能实验室 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作