scikit-fingerprints/MoleculeNet_BBBP
收藏Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/scikit-fingerprints/MoleculeNet_BBBP
下载链接
链接失效反馈官方服务:
资源简介:
MoleculeNet BBBP数据集是MoleculeNet基准测试的一部分,专注于预测小分子药物穿透血脑屏障的能力。数据集包含2039个样本,任务类型为分类,推荐的评估指标是AUROC。该数据集适用于化学、生物学和医学领域的研究,并且推荐使用scikit-fingerprints库进行处理。
The BBBP (Blood-Brain Barrier Penetration) dataset is part of the MoleculeNet benchmark, designed to predict the blood-brain barrier penetration of small drug-like molecules. It contains 2039 samples, recommends scaffold splitting, and uses AUROC as the evaluation metric. The dataset is relevant to chemistry, biology, and medical fields, and is applicable to tabular classification, graph machine learning, and text classification tasks.
提供机构:
scikit-fingerprints
原始信息汇总
MoleculeNet BBBP 数据集概述
基本信息
- 数据集名称: MoleculeNet BBBP
- 任务类别:
- 表格分类
- 图机器学习
- 文本分类
- 标签:
- 化学
- 生物学
- 医学
- 数据集规模: 1K<n<10K
数据集配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: bbbp.csv
任务描述
- 任务: 预测小分子药物的血脑屏障渗透性(屏障渗透性)
- 任务类型: 分类
- 总样本数: 2039
- 推荐分割: scaffold
- 推荐评估指标: AUROC
参考文献
- 文献1: Ines Filipa Martins et al. "A Bayesian Approach to in Silico Blood-Brain Barrier Penetration Modeling" J. Chem. Inf. Model. 2012, 52, 6, 1686–1697
- 文献2: Wu, Zhenqin, et al. "MoleculeNet: a benchmark for molecular machine learning." Chemical Science 9.2 (2018): 513-530
搜集汇总
数据集介绍

构建方式
在药物化学领域,准确评估小分子药物透过血脑屏障的能力对中枢神经系统药物研发至关重要。BBBP数据集作为MoleculeNet基准的重要组成部分,其构建源于一项严谨的贝叶斯建模研究。研究者从公开文献与数据库中系统收集了2039个具有明确实验测定血脑屏障渗透性的小分子化合物,每个样本均标注了二分类标签,用以指示分子是否能够穿透屏障。数据集的划分遵循基于分子骨架的支架分割策略,这一方法旨在评估模型对未知结构分子的泛化能力,从而模拟真实的药物发现场景。
特点
该数据集的核心特点在于其高度的专业性与明确的预测目标,专注于血脑屏障渗透性这一关键药代动力学性质。数据集规模适中,包含两千余个经过实验验证的样本,为机器学习模型提供了可靠的学习基础。其采用的支架分割方式,通过确保训练集与测试集中的分子在结构骨架上的差异性,有效挑战了模型的化学空间外推能力。此外,数据集被整合于MoleculeNet这一权威分子机器学习基准框架内,并推荐使用曲线下面积作为核心评估指标,确保了评估过程的标准化与可比性,为算法性能提供了严谨的衡量尺度。
使用方法
在计算化学与药物信息学研究中,该数据集主要用于开发和验证分子性质预测模型。用户可通过scikit-fingerprints库便捷地加载数据,该库提供了将分子结构转化为各类特征表示的工具。典型的使用流程包括:利用提供的CSV文件读取分子SMILES字符串与对应标签,随后采用推荐的支架分割方式划分训练集与测试集以进行模型训练与评估。研究者可构建基于分子指纹、图神经网络或深度学习的分类器,以AUROC为主要指标量化模型预测分子能否穿透血脑屏障的效能,从而推动智能药物设计方法的发展。
背景与挑战
背景概述
在药物发现与计算化学领域,准确预测小分子化合物的血脑屏障渗透性至关重要,这直接关系到中枢神经系统药物的研发效率。MoleculeNet_BBBP数据集作为MoleculeNet基准的重要组成部分,由Zhenqin Wu等研究人员于2018年构建,旨在为分子机器学习提供标准化评估平台。该数据集基于Ines Filipa Martins等人2012年提出的贝叶斯建模研究,收录了2039个药物样分子的实验数据,专注于二分类任务,以预测分子能否穿透血脑屏障。其建立推动了计算化学与人工智能的交叉融合,为药物设计中的ADMET性质预测提供了关键数据支撑,显著加速了神经治疗药物的早期筛选进程。
当前挑战
该数据集致力于解决血脑屏障渗透性预测这一复杂生物物理问题,其核心挑战在于分子表征的多样性与生物系统的高度异质性之间的鸿沟。传统分子描述符或图神经网络模型往往难以捕捉细微的立体电子效应与跨膜转运机制,导致预测精度受限。在构建过程中,数据收集面临实验测量标准不统一、样本规模有限且类别不平衡的困境;同时,基于支架的数据分割策略虽增强了泛化性,却加剧了模型对未知结构分子的外推难度。这些因素共同构成了该领域从数据到算法层面的双重挑战。
常用场景
经典使用场景
在药物化学与计算生物学领域,BBBP数据集作为分子性质预测的基准工具,其经典应用场景聚焦于评估机器学习模型预测小分子药物穿透血脑屏障的能力。研究者通常利用该数据集训练分类模型,通过分子结构特征如指纹或图表示,区分分子是否具备血脑屏障渗透性。这一过程不仅验证了模型在化学信息学中的泛化性能,还为高通量虚拟筛选提供了可靠的数据支撑,加速了中枢神经系统药物候选分子的初步识别。
实际应用
在实际药物研发流程中,BBBP数据集被广泛应用于中枢神经系统药物的早期筛选阶段。制药企业借助基于该数据集训练的预测模型,快速评估候选化合物穿透血脑屏障的潜力,从而优先选择具有较高渗透性的分子进行后续实验。这一应用显著降低了研发成本与时间,优化了药物设计策略,并为个性化医疗中的脑部靶向疗法提供了数据驱动的决策支持,增强了药物开发的针对性与成功率。
衍生相关工作
围绕BBBP数据集,衍生出多项经典研究工作,推动了分子机器学习领域的进步。例如,MoleculeNet基准框架将其纳入标准化评估体系,促进了图神经网络、深度学习方法在化学任务中的比较与优化。后续研究如Attentive FP、D-MPNN等模型利用该数据集验证了其在分子表示学习中的有效性,这些工作不仅拓展了人工智能在药物发现中的应用边界,还为血脑屏障预测提供了更先进的算法基础,激发了跨领域的创新合作。
以上内容由遇见数据集搜集并总结生成



