ro4_vs_d2

Hugging Face2025-04-23 更新2025-04-24 收录

下载链接：

https://huggingface.co/datasets/vmsavla/ro4_vs_d2

下载链接

链接失效反馈

官方服务：

资源简介：

RO4 Virtual Screening – d2 Target数据集包含了超过1500万个来自Enamine REAL库的化合物在d2蛋白质目标上的对接得分，这些数据是通过基于结构的虚拟筛选方法得到的。数据集最初由Luttens等人于2022年发布，其中包括经过清理的SMILES字符串、化合物标识符、对接得分和Bemis-Murcko支架。数据集通过支架基方法进行分割，以支持健壮的机器学习基准测试。

RO4 Virtual Screening – d2 Target Dataset contains over 15 million docking scores of compounds sourced from the Enamine REAL library against the d2 protein target, which were generated through structure-based virtual screening methods. Originally published by Luttens et al. in 2022, this dataset encompasses cleaned SMILES strings, compound identifiers, docking scores, and Bemis-Murcko scaffolds. It is partitioned via scaffold-based methods to enable robust machine learning benchmarking.

创建时间：

2025-04-21

搜集汇总

数据集介绍

构建方式

在药物发现领域，虚拟筛选技术已成为加速先导化合物识别的重要工具。ro4_vs_d2数据集由Luttens等人基于Enamine REAL化合物库构建，采用结构基础的虚拟筛选方法对d2蛋白靶点进行大规模分子对接评分。该数据集严格遵循科学规范，通过化学信息学工具对原始化合物进行标准化处理，生成清洁的SMILES字符串，并采用Bemis-Murcko骨架分割策略将数据划分为训练集、验证集和测试集，确保机器学习模型评估的严谨性。

特点

作为当前最全面的虚拟筛选数据集之一，ro4_vs_d2收录了超过1500万种化合物的对接评分数据。其显著特征在于包含标准化的分子描述符（clean_smiles）、唯一化合物标识符（id）、对接能量值（value）以及分子骨架信息（scaffold）。数据集采用骨架分割法划分样本，有效避免了分子结构相似性对模型性能评估的干扰，为基于结构的药物设计研究提供了高质量的基准数据。

使用方法

该数据集主要服务于计算药物化学和机器学习交叉领域的研究。研究人员可通过HuggingFace平台直接下载预处理好的数据文件，按标准分割方案加载训练集（约1237万样本）、验证集（约154万样本）和测试集（约154万样本）。典型应用场景包括开发新型分子对接评分函数、构建化合物活性预测模型，或评估机器学习算法在药物发现任务中的泛化性能。使用时应遵循原始文献描述的评估协议，确保结果的可比性。

背景与挑战

背景概述

RO4虚拟筛选数据集（ro4_vs_d2）由Luttens等人于2022年首次发布，旨在为药物发现领域的结构基础虚拟筛选研究提供关键数据支持。该数据集收录了来自Enamine REAL库的1500多万种化合物针对d2蛋白靶点的对接评分，涵盖了经过标准化的SMILES字符串、化合物标识符、对接评分以及Bemis-Murcko骨架信息。作为计算化学与机器学习交叉领域的重要资源，其采用的基于骨架的数据分割策略显著提升了分子性质预测模型的泛化能力验证可靠性，相关成果已发表于Nature Computational Science期刊。

当前挑战

该数据集致力于解决药物虚拟筛选中的核心难题——如何从海量化合物库中高效识别潜在活性分子。主要挑战体现在两方面：在科学层面，分子对接评分与真实生物活性的非线性关系导致假阳性率居高不下；在技术层面，数据构建过程中需处理超大规模分子构象采样带来的计算复杂度，以及骨架分割时保持化学空间代表性的平衡问题。这些挑战直接影响了基于该数据集训练的机器学习模型在跨骨架预测任务中的表现稳定性。

常用场景

经典使用场景

在药物发现领域，ro4_vs_d2数据集为虚拟筛选研究提供了重要支持。该数据集包含超过1500万种化合物的对接分数，广泛应用于机器学习模型的训练和验证。研究人员利用这些数据评估化合物与d2蛋白靶标的结合能力，从而加速先导化合物的发现和优化过程。

实际应用

ro4_vs_d2数据集在实际应用中显著提升了药物筛选的效率。制药公司和研究机构利用该数据集训练机器学习模型，快速识别潜在的活性化合物，缩短药物开发周期。其高质量的数据和标准化格式也为跨机构合作和数据共享提供了便利，促进了药物发现领域的协同创新。

衍生相关工作

基于ro4_vs_d2数据集，多项经典研究工作得以展开。例如，Luttens等人利用该数据集开发了新型虚拟筛选算法，显著提高了预测精度。此外，该数据集还被用于评估深度学习模型在分子对接任务中的表现，推动了计算药物设计领域的技术进步。这些衍生工作进一步验证了数据集的价值和影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集