CrossDocked
收藏DrugFlow & FlexFlow 数据集概述
数据集基本信息
- 论文标题: Multi-domain Distribution Learning for De Novo Drug Design
- 会议: ICLR 2025
- 作者: Arne Schneuing, Ilia Igashov, Adrian W. Dobbelstein, Thomas Castiglione, Michael M. Bronstein, Bruno Correia
数据集描述
- 目的: 用于基于结构的药物设计,整合连续流匹配与离散马尔可夫桥,学习三维蛋白质-配体数据的化学、几何和物理特性。
- 特点:
- 提供不确定性估计以检测分布外样本。
- 支持联合偏好对齐方案,优化采样过程。
- 可扩展至蛋白质构象空间的探索。
数据集内容
- 预处理数据集: 可从Zenodo获取
processed_crossdocked.zip。 - 原始数据集: 基于CrossDocked数据集,需按Pocket2Mol作者提供的步骤下载和处理。
模型与工具
- 预训练模型:
- DrugFlow:
drugflow.ckpt - DrugFlow + 置信度头:
drugflow_ood.ckpt - FlexFlow:
flexflow.ckpt - DrugFlow偏好对齐版本:
drugflow_pa_comb.ckpt
- DrugFlow:
- 工具:
- Gnina: 用于对接分数计算。
数据集使用
-
采样分子: bash python src/generate.py --protein examples/kras.pdb --ref_ligand examples/kras_ref_ligand.sdf --checkpoint checkpoints/drugflow.ckpt --output examples/samples.sdf
-
评估样本: bash python scripts/python/evaluate_baselines.py --in_dir $SAMPLES_DIR --out_dir $EVALUATED_DATA_ALL python scripts/python/postprocess_metrics.py --in_dir $EVALUATED_DATA_ALL --out_dir $EVALUATED_DATA
参考
bibtex @inproceedings{ schneuing2025multidomain, title={Multi-domain Distribution Learning for De Novo Drug Design}, author={Arne Schneuing and Ilia Igashov and Adrian W. Dobbelstein and Thomas Castiglione and Michael M. Bronstein and Bruno Correia}, booktitle={The Thirteenth International Conference on Learning Representations}, year={2025}, url={https://openreview.net/forum?id=g3VCIM94ke} }




