DO Challenge

Name: DO Challenge
Creator: Deep Origin
Published: 2025-04-28 23:41:28
License: 暂无描述

arXiv2025-04-28 更新2025-05-08 收录

下载链接：

https://zenodo.org/records/15296510

下载链接

链接失效反馈

官方服务：

资源简介：

DO Challenge是一个用于评估AI代理在药物发现领域的决策能力的数据集。数据集包含一百万个独特的分子构象，每个构象都有一个自定义的标签，称为DO Score，表示其作为有效药物候选者的潜力。代理的目标是开发一种计算方法，从数据集中识别出前一千个具有最高DO Score的分子结构。数据集来源于Enamine REAL Database，经过筛选和对接模拟处理。该数据集旨在模拟虚拟筛选场景，要求代理在资源受限的环境中独立地开发、实施和执行有效的策略，以识别有前景的分子结构。

The DO Challenge is a dataset designed to evaluate the decision-making capabilities of AI Agents in the field of drug discovery. This dataset contains one million unique molecular conformations, each paired with a custom label named DO Score, which indicates its potential as a viable drug candidate. The goal for participating AI Agents is to develop a computational method to identify the top 1,000 molecular structures with the highest DO Scores from the dataset. This dataset is derived from the Enamine REAL Database and has undergone screening and docking simulation processing. This dataset aims to simulate virtual screening scenarios, requiring AI Agents to independently develop, implement, and execute effective strategies to identify promising molecular structures within resource-constrained environments.

提供机构：

Deep Origin

创建时间：

2025-04-28

搜集汇总

数据集介绍

构建方式

DO Challenge 数据集构建方法基于虚拟筛选场景，通过对接模拟技术生成了一百万个独特的分子构象，并为每个构象计算了自定义的DO Score。该评分结合了治疗靶点（6G3C）的结合亲和力与ADMET相关蛋白（1W0F、8YXA、8ZYQ）的抑制惩罚，通过两个逻辑回归分类器的平均概率预测生成。数据集源自Enamine REAL Database的分子采样，经过重原子数过滤后，使用Balto对接技术生成每个分子的前5个构象，最终形成包含200,000个分子（共1,000,000个构象）的基准集。

使用方法

使用DO Challenge数据集时，AI代理需自主开发完整的计算流程：首先通过RDKit处理SDF格式的分子结构，在未知DO Score的初始状态下，策略性地选择不超过100,000个结构进行标签查询。典型流程包括构建预测模型（如GNNs或3D CNNs）、实施主动学习策略优化样本选择，并最终提交3,000个候选结构。评估分为限时（10小时）和无限时两种模式，支持Python客户端与服务器交互。用户需注意坐标敏感性，避免使用旋转/平移不变特征，并充分利用多次提交机会迭代优化策略。

背景与挑战

背景概述

DO Challenge数据集由Deep Origin团队于2025年推出，旨在评估人工智能代理在药物发现领域的综合决策能力。该数据集聚焦于虚拟筛选场景，包含100万个分子构象及其自定义的DO Score标签，模拟真实药物研发中资源受限的决策环境。作为首个整合分子空间探索、模型选择和多目标优化的基准，它填补了传统预测性任务评估与端到端药物研发流程之间的空白，为AI驱动的药物发现提供了标准化评估框架。核心研究团队包括Khachik Smbatyan等来自Deep Origin的科学家，其创新性在于将分子对接模拟与机器学习预测相结合，构建了具有明确生物医学意义的评估指标。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决化学空间探索的高维度难题（10^60潜在分子）、多目标优化（药效与安全性平衡）以及有限实验预算下的主动学习策略；在构建过程中，挑战包括分子对接计算的巨大计算成本（每个分子需对4个靶蛋白进行20次构象评估）、ADMET相关蛋白的选择合理性验证，以及确保DO Score与真实结合活性的相关性（经DUD-E数据集验证富集倍数达8.41倍）。此外，基准设计需平衡任务复杂性（允许3次提交、10%标签查询）与可重复性，同时防止数据泄露对后续研究的干扰。

常用场景

经典使用场景

DO Challenge数据集作为评估AI代理在药物发现中决策能力的基准，其经典使用场景集中在虚拟筛选流程的模拟。研究者通过该数据集测试AI系统在资源受限条件下，从百万级分子库中识别潜在药物候选分子的能力。数据集要求代理自主开发策略，涉及化学空间探索、预测模型选择及多目标优化等关键环节，模拟真实药物研发中的计算挑战。

解决学术问题

该数据集解决了药物发现领域两个核心学术问题：一是传统实验方法的高成本与低效率问题，通过AI驱动的计算筛选显著减少湿实验依赖；二是现有基准的碎片化缺陷，提供端到端的评估框架以测试代理的自主决策、代码开发和执行能力。其创新性评分系统DO Score整合了治疗靶点结合与ADMET性质预测，为分子优化提供了多目标量化标准。

实际应用

在制药工业中，DO Challenge数据集可直接应用于先导化合物筛选的算法开发。例如，医药企业可通过该基准测试其AI系统的虚拟筛选效率，优化活性分子发现流程。数据集模拟的真实约束条件（如10万次标签请求限制）有助于评估算法在工业级数据规模下的实用性，加速从计算预测到实验验证的转化。

数据集最近研究