zpn/bbbp|药物化学数据集|生物信息学数据集

hugging_face2022-12-09 更新2024-03-04 收录

药物化学

生物信息学

下载链接：

https://hf-mirror.com/datasets/zpn/bbbp

下载链接

链接失效反馈

资源简介：

bbbp数据集是MoleculeNet的一部分，专注于血液-脑屏障渗透性的二元标签。该数据集包含分子的SMILES和SELFIES表示以及指示血液-脑屏障渗透性的目标字段。数据集采用MIT许可证，由机器生成，并使用支架分割法按80/10/10的比例分割为训练/验证/测试集。

提供机构：

zpn

原始信息汇总

数据集卡片 for bbbp

数据集描述

数据集摘要

bbbp 是 MoleculeNet 中的一个数据集。该数据集包含血液-大脑屏障渗透（渗透性）的二进制标签。

数据集结构

数据字段

每个分割包含：

smiles：分子的 SMILES 表示
selfies：分子的 SELFIES 表示
target：血液-大脑屏障渗透（渗透性）

数据分割

数据集使用 scaffold split 分为 80/10/10 的训练/验证/测试集。

源数据

初始数据收集和规范化

数据最初由斯坦福大学的 Pande 组生成。

许可信息

该数据集最初在 MIT 许可下发布。

引用信息

@misc{https://doi.org/10.48550/arxiv.1703.00564, doi = {10.48550/ARXIV.1703.00564},

url = {https://arxiv.org/abs/1703.00564},

author = {Wu, Zhenqin and Ramsundar, Bharath and Feinberg, Evan N. and Gomes, Joseph and Geniesse, Caleb and Pappu, Aneesh S. and Leswing, Karl and Pande, Vijay},

keywords = {Machine Learning (cs.LG), Chemical Physics (physics.chem-ph), Machine Learning (stat.ML), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Physical sciences, FOS: Physical sciences},

title = {MoleculeNet: A Benchmark for Molecular Machine Learning},

publisher = {arXiv},

year = {2017},

贡献

感谢 @zanussbaum 添加此数据集。

AI搜集汇总

数据集介绍

构建方式

bbbp数据集由斯坦福大学的Pande Group生成，专门用于研究血脑屏障渗透性（permeability）。该数据集通过机器生成的方式构建，包含了分子的SMILES和SELFIES表示形式，以及相应的血脑屏障渗透性标签。数据集采用80/10/10的训练/验证/测试分割比例，基于分子骨架（scaffold）进行分割，确保了数据集的多样性和代表性。

使用方法

bbbp数据集适用于分子机器学习任务，特别是预测血脑屏障渗透性。用户可以通过加载数据集并提取SMILES或SELFIES表示形式，结合目标标签进行模型训练。数据集的80/10/10分割方式为模型提供了标准的训练、验证和测试集，便于评估模型的性能。此外，数据集的MIT许可证允许广泛的使用和分发，适合学术和工业界的研究应用。

背景与挑战

背景概述

bbbp数据集是MoleculeNet基准测试的一部分，由斯坦福大学的Pande实验室于2017年创建。该数据集的核心研究问题围绕血脑屏障渗透性（permeability）的二元标签展开，旨在为分子机器学习提供一个标准化的测试平台。通过包含分子结构的SMILES和SELFIES表示，bbbp数据集为生物化学和生物物理学领域的研究提供了宝贵的资源，特别是在药物发现和分子筛选过程中，帮助研究人员评估化合物通过血脑屏障的能力。

当前挑战

bbbp数据集在构建过程中面临的主要挑战包括数据的标准化和分子表示的选择。首先，血脑屏障渗透性的评估涉及复杂的生物物理过程，数据生成和标注的准确性至关重要。其次，分子结构的表示方式（如SMILES和SELFIES）需要确保在不同模型中的兼容性和有效性。此外，数据集的分割（如80/10/10的训练/验证/测试分割）基于分子支架，这要求在保持数据分布一致性的同时，确保分割的随机性和公平性。

常用场景

经典使用场景

在生物化学领域，bbbp数据集的经典使用场景主要集中在药物分子通过血脑屏障的渗透性预测。通过分析分子结构的SMILES和SELFIES表示，研究人员能够构建模型，预测特定分子是否能够穿透血脑屏障，从而为药物筛选和设计提供关键信息。

解决学术问题

bbbp数据集解决了药物研发中关于血脑屏障渗透性的关键问题。通过提供分子结构与渗透性标签的对应关系，该数据集为机器学习模型提供了训练和验证的基础，推动了分子机器学习在药物发现中的应用，具有重要的学术研究意义。

实际应用

在实际应用中，bbbp数据集被广泛用于药物筛选和设计。通过预测分子是否能够穿透血脑屏障，研究人员可以更高效地筛选出潜在的药物候选分子，减少实验成本和时间，加速新药的研发进程，对药物研发领域具有显著的实际应用价值。

数据集最近研究

最新研究方向

在生物化学领域，bbbp数据集因其专注于血脑屏障渗透性（permeability）的二元标签而备受关注。该数据集的最新研究方向主要集中在利用深度学习和分子表示技术，如SMILES和SELFIES，来提高对药物分子通过血脑屏障的预测精度。这一研究不仅推动了药物筛选和设计的自动化进程，还为神经退行性疾病的治疗提供了新的可能性。随着MoleculeNet平台的广泛应用，bbbp数据集在分子机器学习中的基准作用愈发显著，为跨学科研究提供了宝贵的资源。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录