CrossDocked

github2025-02-25 更新2025-02-28 收录

下载链接：

https://github.com/LPDI-EPFL/DrugFlow

下载链接

链接失效反馈

官方服务：

资源简介：

CrossDocked数据集是一个用于药物设计的预处理数据集，包含了蛋白质和配体的三维结构信息。

The CrossDocked dataset is a preprocessed dataset for drug design, which contains three-dimensional structural information of proteins and ligands.

创建时间：

2025-01-29

原始信息汇总

DrugFlow & FlexFlow 数据集概述

数据集基本信息

论文标题: Multi-domain Distribution Learning for De Novo Drug Design
会议: ICLR 2025
作者: Arne Schneuing, Ilia Igashov, Adrian W. Dobbelstein, Thomas Castiglione, Michael M. Bronstein, Bruno Correia

数据集描述

目的: 用于基于结构的药物设计，整合连续流匹配与离散马尔可夫桥，学习三维蛋白质-配体数据的化学、几何和物理特性。
特点:
- 提供不确定性估计以检测分布外样本。
- 支持联合偏好对齐方案，优化采样过程。
- 可扩展至蛋白质构象空间的探索。

数据集内容

预处理数据集: 可从Zenodo获取 processed_crossdocked.zip。
原始数据集: 基于CrossDocked数据集，需按Pocket2Mol作者提供的步骤下载和处理。

模型与工具

预训练模型:
- DrugFlow: drugflow.ckpt
- DrugFlow + 置信度头: drugflow_ood.ckpt
- FlexFlow: flexflow.ckpt
- DrugFlow偏好对齐版本: drugflow_pa_comb.ckpt
工具:
- Gnina: 用于对接分数计算。

数据集使用

采样分子: bash python src/generate.py --protein examples/kras.pdb --ref_ligand examples/kras_ref_ligand.sdf --checkpoint checkpoints/drugflow.ckpt --output examples/samples.sdf
评估样本: bash python scripts/python/evaluate_baselines.py --in_dir $SAMPLES_DIR --out_dir $EVALUATED_DATA_ALL python scripts/python/postprocess_metrics.py --in_dir $EVALUATED_DATA_ALL --out_dir $EVALUATED_DATA

参考

bibtex @inproceedings{ schneuing2025multidomain, title={Multi-domain Distribution Learning for De Novo Drug Design}, author={Arne Schneuing and Ilia Igashov and Adrian W. Dobbelstein and Thomas Castiglione and Michael M. Bronstein and Bruno Correia}, booktitle={The Thirteenth International Conference on Learning Representations}, year={2025}, url={https://openreview.net/forum?id=g3VCIM94ke} }

搜集汇总

数据集介绍

构建方式

CrossDocked数据集的构建方式涉及将蛋白质-配体复合物的三维结构数据进行预处理，以便用于生成模型DrugFlow的训练。该数据集的构建通过整合连续流匹配与离散马尔可夫桥接技术，形成了一种新颖的基于结构的药物设计生成模型。具体而言，数据集的构建包括从原始的CrossDocked数据中提取蛋白质和配体的三维坐标信息，并进行相应的格式转换和特征提取，以适配DrugFlow模型的需要。

特点

CrossDocked数据集的特点在于它提供了大量的蛋白质-配体复合物结构数据，这些数据经过精心预处理，能够有效支持DrugFlow模型的训练与评估。数据集不仅包含蛋白质和配体的结构信息，还提供了关于样本质量的多项评价指标，如medchem.sa、medchem.qed和gnina.vina_efficiency等，这为模型优化和样本选择提供了丰富的依据。此外，数据集还支持偏好对齐技术，进一步提高了模型在特定指标上的性能。

使用方法

使用CrossDocked数据集首先需要通过预处理步骤来准备数据，这可以通过下载预处理好的数据集或本地运行预处理脚本完成。之后，用户可以使用提供的Python脚本和配置文件进行模型训练、采样以及评估。数据集的采样和评估过程可通过指定的配置文件进行调整，以适应不同的实验需求。此外，数据集还支持并行化处理，以提高采样和评估的效率。

背景与挑战

背景概述

CrossDocked数据集是在药物设计领域的一个关键研究工具，由Arne Schneuing、Ilia Igashov等研究人员于2025年开发。该数据集支撑了一项名为DrugFlow的生成模型，该模型结合了连续流匹配与离散Markov桥接技术，旨在学习三维蛋白质-配体数据的化学、几何和物理特性。CrossDocked的创建，为研究蛋白质结合口袋与配体分子的相互作用提供了新的视角，对药物分子设计相关领域产生了显著影响。

当前挑战

该数据集在构建过程中面临的挑战主要包括：如何有效整合连续流匹配与离散Markov桥接技术，以及如何为DrugFlow模型赋予不确定性估计以识别分布外样本。此外，在采样过程中，如何更好地引导模型向具有理想指标值的分布区域发展，以及如何扩展模型以探索蛋白质的构象景观，都是研究中的关键挑战。

常用场景

经典使用场景

CrossDocked数据集作为药物设计的结构基础，其经典使用场景在于生成新型药物分子，通过结合连续流匹配与离散马尔可夫桥技术，学习三维蛋白质-配体数据的化学、几何和物理特性。用户可通过指定蛋白质目标和使用参照配体，利用DrugFlow模型生成分子样本，进而探索蛋白质构象景观，为药物设计提供有力支持。

实际应用

在实际应用中，CrossDocked数据集可用于药物分子的虚拟筛选、生物活性分子的设计以及药物再定位等领域。通过该数据集训练出的模型能够辅助科研人员更高效地发现和优化潜在的药物候选分子，从而加速新药研发的进程。

衍生相关工作

CrossDocked数据集的发布促进了相关领域的研究，衍生出了一系列相关工作，如进一步探索药物分子的生成策略、改进模型以增强样本生成的多样性等。这些研究不仅扩展了数据集的应用范围，也推动了药物设计领域的方法论和技术发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集