scikit-fingerprints/MoleculeNet_PCBA

Name: scikit-fingerprints/MoleculeNet_PCBA
Creator: scikit-fingerprints
Published: 2025-02-02 13:56:37
License: 暂无描述

Hugging Face2025-02-02 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/scikit-fingerprints/MoleculeNet_PCBA

下载链接

链接失效反馈

官方服务：

资源简介：

MoleculeNet PCBA数据集是MoleculeNet基准的一部分，来源于PubChem BioAssay。该数据集用于预测128个生物测定的生物活性，任务为多任务分类，样本总数为437929。推荐使用scaffold分割方法，评估指标为AUPRC和AUROC。注意目标值存在缺失值，算法应仅在存在的标签上进行评估，训练数据可能需要用零值进行填补。

The MoleculeNet PCBA dataset is part of the MoleculeNet benchmark, designed to predict biological activity against 128 bioassays generated by high-throughput screening (HTS). All tasks are binary active/non-active classifications. The dataset contains 437929 samples, with AUPRC and AUROC recommended as evaluation metrics. Target values have missing data, and it is suggested to impute them in the training data.

提供机构：

scikit-fingerprints

原始信息汇总

MoleculeNet PCBA 数据集概述

基本信息

数据集名称: MoleculeNet PCBA
任务类别:
- 表格分类
- 图机器学习
- 文本分类
标签:
- 化学
- 生物学
- 医学
数据规模: 100K < n < 1M
配置:
- 配置名称: default
- 数据文件:
  - 分割: train
  - 路径: "pcba.csv"

任务描述

任务数量: 128
任务类型: 多任务分类
总样本数: 437929
推荐分割方式: scaffold
推荐评估指标: AUPRC, AUROC

数据特征

任务: 预测128个生物测定的生物活性，所有任务均为二元分类（活性/非活性）。
数据缺失: 目标数据存在缺失值，建议仅在有标签的数据上进行算法评估，训练数据可考虑使用零值进行插补。

搜集汇总

数据集介绍

构建方式

在药物发现领域，高通量筛选技术为大规模生物活性数据生成提供了可能。PCBA数据集源自PubChem BioAssay数据库，作为MoleculeNet基准的重要组成部分，其构建过程涉及从高通量筛选实验中系统性地收集437,929个分子样本，并针对128个生物测定任务标注二元活性标签。数据整合时，原始分子结构在较新RDKit版本中因原子超价态问题进行了手动修正，确保化学表示的准确性，同时保留了目标值中的缺失标签，以反映真实实验场景的不完整性。

特点

该数据集在计算化学与机器学习交叉领域展现出显著特色，其核心在于多任务分类框架，涵盖128个独立的生物活性预测任务，每个任务均以二元活性标签呈现。数据集规模庞大，样本量接近百万级别，且目标值存在系统性缺失，要求算法仅基于有效标签进行评估，这模拟了实际药物筛选中的数据稀疏性。推荐使用基于分子骨架的数据划分方法，以促进模型对未知结构泛化能力的检验，评估指标则侧重于AUPRC和AUROC，以精准衡量分类性能。

使用方法

为有效利用该数据集，建议通过scikit-fingerprints库进行访问与处理。在模型训练前，需对缺失的目标值进行适当填补，例如以零值替代，以适配标准机器学习流程。数据划分应遵循推荐的骨架分割策略，确保训练集与测试集在分子结构上具有合理差异性。评估时，仅针对非缺失标签计算AUPRC与AUROC指标，以客观反映模型在多重生物活性预测任务中的综合效能。

背景与挑战

背景概述

在计算化学与药物发现领域，高通量筛选技术的迅猛发展催生了海量生物活性数据，亟需高效的计算模型进行解析与预测。MoleculeNet_PCBA数据集作为MoleculeNet基准的重要组成部分，由斯坦福大学等研究团队于2018年构建，其核心研究问题聚焦于多任务分类，旨在预测化合物针对128种生物测定的活性。该数据集源自PubChem BioAssay，涵盖437,929个样本，通过系统化整合与标注，为分子机器学习提供了标准化评估框架，显著推动了药物虚拟筛选与性质预测模型的创新与发展。

当前挑战

该数据集所解决的领域问题在于药物发现中的生物活性预测，其挑战主要体现在多任务分类的复杂性：128个生物测定任务间存在高度异质性，模型需同时处理稀疏且不平衡的活性标签，而目标变量中的大量缺失值进一步增加了建模难度，要求算法具备鲁棒的缺失值处理与泛化能力。在构建过程中，挑战源于原始数据的标准化与清洗，例如需修正因分子结构超价态导致的读取错误，并确保数据在RDKit等工具中的兼容性，同时维护数据在支架分割下的代表性，以保障评估的公平性与科学性。

常用场景

经典使用场景

在计算化学与药物发现领域，PCBA数据集作为MoleculeNet基准的重要组成部分，其经典使用场景聚焦于多任务分类模型的训练与评估。该数据集通过高通量筛选技术，提供了437,929个分子样本及其在128个生物测定中的活性标签，为研究人员构建和验证机器学习算法提供了标准化平台。通常，学者们采用支架分割策略划分训练与测试集，并利用AUPRC和AUROC等指标衡量模型性能，以系统探索分子结构与生物活性之间的复杂关联。

实际应用

在实际应用中，PCBA数据集直接服务于早期药物研发流程，助力虚拟筛选与先导化合物优化。制药企业和研究机构可利用该数据集训练预测模型，快速从海量化合物库中识别出对特定靶点具有潜在活性的候选分子，显著降低实验筛选的成本与时间。此外，其多任务特性使得模型能够捕捉跨不同生物测定的共享化学模式，为多靶点药物设计或副作用预测提供数据支撑。

衍生相关工作

围绕PCBA数据集，已衍生出一系列经典的分子机器学习研究工作。例如，原始论文提出的Massively Multitask Networks架构，开创了利用深度神经网络同时处理数百个预测任务的先河。后续研究如MoleculeNet基准的建立，系统评估了包括图神经网络、指纹编码等多种方法在该数据集上的表现。这些工作共同推动了分子表示学习、多任务优化以及模型可解释性等方向的进展，成为该领域的重要参考文献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集