five

zpn/bbbp

收藏
Hugging Face2022-12-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zpn/bbbp
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - machine-generated language_creators: - machine-generated license: - mit multilinguality: - monolingual pretty_name: bbbp size_categories: - 1K<n<10K source_datasets: [] tags: - bio - bio-chem - molnet - molecule-net - biophysics task_categories: - other task_ids: [] --- # Dataset Card for bbbp ## Table of Contents - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage: https://moleculenet.org/** - **Repository: https://github.com/deepchem/deepchem/tree/master** - **Paper: https://arxiv.org/abs/1703.00564** ### Dataset Summary `bbbp` is a dataset included in [MoleculeNet](https://moleculenet.org/). This dataset has binary labels of blood-brain barrier penetration(permeability). ## Dataset Structure ### Data Fields Each split contains * `smiles`: the [SMILES](https://en.wikipedia.org/wiki/Simplified_molecular-input_line-entry_system) representation of a molecule * `selfies`: the [SELFIES](https://github.com/aspuru-guzik-group/selfies) representation of a molecule * `target`: blood-brain barrier penetration(permeability) ### Data Splits The dataset is split into an 80/10/10 train/valid/test split using scaffold split. ### Source Data #### Initial Data Collection and Normalization Data was originially generated by the Pande Group at Standford ### Licensing Information This dataset was originally released under an MIT license ### Citation Information ``` @misc{https://doi.org/10.48550/arxiv.1703.00564, doi = {10.48550/ARXIV.1703.00564}, url = {https://arxiv.org/abs/1703.00564}, author = {Wu, Zhenqin and Ramsundar, Bharath and Feinberg, Evan N. and Gomes, Joseph and Geniesse, Caleb and Pappu, Aneesh S. and Leswing, Karl and Pande, Vijay}, keywords = {Machine Learning (cs.LG), Chemical Physics (physics.chem-ph), Machine Learning (stat.ML), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Physical sciences, FOS: Physical sciences}, title = {MoleculeNet: A Benchmark for Molecular Machine Learning}, publisher = {arXiv}, year = {2017}, copyright = {arXiv.org perpetual, non-exclusive license} } ``` ### Contributions Thanks to [@zanussbaum](https://github.com/zanussbaum) for adding this dataset.

annotations_creators: - 机器生成 language_creators: - 机器生成 license: - MIT multilinguality: - 单语言数据集 pretty_name: bbbp size_categories: - 1000 < 样本量 < 10000 source_datasets: - 无 tags: - 生物(bio) - 生物化学(bio-chem) - 分子网络(molnet) - 分子网络(molecule-net) - 生物物理学(biophysics) task_categories: - 其他任务 task_ids: - 无 # bbbp 数据集卡片 ## 目录 - [目录](#目录) - [数据集描述](#数据集描述) - [数据集概述](#数据集概述) - [支持任务与排行榜](#支持任务与排行榜) - [语言](#语言) - [数据集结构](#数据集结构) - [数据实例](#数据实例) - [数据字段](#数据字段) - [数据划分](#数据划分) - [数据集构建](#数据集构建) - [数据集整理依据](#数据集整理依据) - [源数据](#源数据) - [注释](#注释) - [个人与敏感信息](#个人与敏感信息) - [数据集使用注意事项](#数据集使用注意事项) - [数据集的社会影响](#数据集的社会影响) - [偏差讨论](#偏差讨论) - [其他已知局限性](#其他已知局限性) - [附加信息](#附加信息) - [数据集维护者](#数据集维护者) - [许可证信息](#许可证信息) - [引用信息](#引用信息) - [贡献](#贡献) ## 数据集描述 - **主页:https://moleculenet.org/** - **仓库:https://github.com/deepchem/deepchem/tree/master** - **论文:https://arxiv.org/abs/1703.00564** ### 数据集概述 `bbbp` 是收录于 [MoleculeNet](https://moleculenet.org/) 的数据集。该数据集包含血脑屏障渗透(blood-brain barrier penetration)的二元分类标签。 ## 数据集结构 ### 数据字段 每个数据划分包含以下字段: * `smiles`:分子的 [SMILES(简化分子线性输入系统,Simplified molecular-input line-entry system)](https://en.wikipedia.org/wiki/Simplified_molecular-input_line-entry_system) 表示形式 * `selfies`:分子的 [SELFIES](https://github.com/aspuru-guzik-group/selfies) 表示形式 * `target`:血脑屏障渗透属性 ### 数据划分 该数据集采用支架拆分(scaffold split)方法划分为训练集、验证集与测试集,比例为80/10/10。 ### 源数据 #### 初始数据收集与标准化 该数据集最初由斯坦福大学潘德课题组生成。 ### 许可证信息 本数据集最初以MIT许可证发布。 ### 引用信息 @misc{https://doi.org/10.48550/arxiv.1703.00564, doi = {10.48550/ARXIV.1703.00564}, url = {https://arxiv.org/abs/1703.00564}, author = {Wu, Zhenqin 与 Ramsundar, Bharath 与 Feinberg, Evan N. 与 Gomes, Joseph 与 Geniesse, Caleb 与 Pappu, Aneesh S. 与 Leswing, Karl 与 Pande, Vijay}, keywords = {机器学习(cs.LG)、化学物理(physics.chem-ph)、机器学习(stat.ML)、FOS: 计算机与信息科学、FOS: 计算机与信息科学、FOS: 物理科学、FOS: 物理科学}, title = {MoleculeNet:面向分子机器学习的基准测试集}, publisher = {arXiv}, year = {2017}, copyright = {arXiv.org永久非排他性许可证} } ### 贡献 感谢 [@zanussbaum](https://github.com/zanussbaum) 为本数据集的收录提供支持。
提供机构:
zpn
原始信息汇总

数据集卡片 for bbbp

数据集描述

数据集摘要

bbbpMoleculeNet 中的一个数据集。该数据集包含血液-大脑屏障渗透(渗透性)的二进制标签。

数据集结构

数据字段

每个分割包含:

  • smiles:分子的 SMILES 表示
  • selfies:分子的 SELFIES 表示
  • target:血液-大脑屏障渗透(渗透性)

数据分割

数据集使用 scaffold split 分为 80/10/10 的训练/验证/测试集。

源数据

初始数据收集和规范化

数据最初由斯坦福大学的 Pande 组生成。

许可信息

该数据集最初在 MIT 许可下发布。

引用信息

@misc{https://doi.org/10.48550/arxiv.1703.00564, doi = {10.48550/ARXIV.1703.00564},

url = {https://arxiv.org/abs/1703.00564},

author = {Wu, Zhenqin and Ramsundar, Bharath and Feinberg, Evan N. and Gomes, Joseph and Geniesse, Caleb and Pappu, Aneesh S. and Leswing, Karl and Pande, Vijay},

keywords = {Machine Learning (cs.LG), Chemical Physics (physics.chem-ph), Machine Learning (stat.ML), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Physical sciences, FOS: Physical sciences},

title = {MoleculeNet: A Benchmark for Molecular Machine Learning},

publisher = {arXiv},

year = {2017},

copyright = {arXiv.org perpetual, non-exclusive license} }

贡献

感谢 @zanussbaum 添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
bbbp数据集由斯坦福大学的Pande Group生成,专门用于研究血脑屏障渗透性(permeability)。该数据集通过机器生成的方式构建,包含了分子的SMILES和SELFIES表示形式,以及相应的血脑屏障渗透性标签。数据集采用80/10/10的训练/验证/测试分割比例,基于分子骨架(scaffold)进行分割,确保了数据集的多样性和代表性。
使用方法
bbbp数据集适用于分子机器学习任务,特别是预测血脑屏障渗透性。用户可以通过加载数据集并提取SMILES或SELFIES表示形式,结合目标标签进行模型训练。数据集的80/10/10分割方式为模型提供了标准的训练、验证和测试集,便于评估模型的性能。此外,数据集的MIT许可证允许广泛的使用和分发,适合学术和工业界的研究应用。
背景与挑战
背景概述
bbbp数据集是MoleculeNet基准测试的一部分,由斯坦福大学的Pande实验室于2017年创建。该数据集的核心研究问题围绕血脑屏障渗透性(permeability)的二元标签展开,旨在为分子机器学习提供一个标准化的测试平台。通过包含分子结构的SMILES和SELFIES表示,bbbp数据集为生物化学和生物物理学领域的研究提供了宝贵的资源,特别是在药物发现和分子筛选过程中,帮助研究人员评估化合物通过血脑屏障的能力。
当前挑战
bbbp数据集在构建过程中面临的主要挑战包括数据的标准化和分子表示的选择。首先,血脑屏障渗透性的评估涉及复杂的生物物理过程,数据生成和标注的准确性至关重要。其次,分子结构的表示方式(如SMILES和SELFIES)需要确保在不同模型中的兼容性和有效性。此外,数据集的分割(如80/10/10的训练/验证/测试分割)基于分子支架,这要求在保持数据分布一致性的同时,确保分割的随机性和公平性。
常用场景
经典使用场景
在生物化学领域,bbbp数据集的经典使用场景主要集中在药物分子通过血脑屏障的渗透性预测。通过分析分子结构的SMILES和SELFIES表示,研究人员能够构建模型,预测特定分子是否能够穿透血脑屏障,从而为药物筛选和设计提供关键信息。
解决学术问题
bbbp数据集解决了药物研发中关于血脑屏障渗透性的关键问题。通过提供分子结构与渗透性标签的对应关系,该数据集为机器学习模型提供了训练和验证的基础,推动了分子机器学习在药物发现中的应用,具有重要的学术研究意义。
实际应用
在实际应用中,bbbp数据集被广泛用于药物筛选和设计。通过预测分子是否能够穿透血脑屏障,研究人员可以更高效地筛选出潜在的药物候选分子,减少实验成本和时间,加速新药的研发进程,对药物研发领域具有显著的实际应用价值。
数据集最近研究
最新研究方向
在生物化学领域,bbbp数据集因其专注于血脑屏障渗透性(permeability)的二元标签而备受关注。该数据集的最新研究方向主要集中在利用深度学习和分子表示技术,如SMILES和SELFIES,来提高对药物分子通过血脑屏障的预测精度。这一研究不仅推动了药物筛选和设计的自动化进程,还为神经退行性疾病的治疗提供了新的可能性。随着MoleculeNet平台的广泛应用,bbbp数据集在分子机器学习中的基准作用愈发显著,为跨学科研究提供了宝贵的资源。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作