zpn/bace_classification

Hugging Face2022-12-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/zpn/bace_classification

下载链接

链接失效反馈

官方服务：

资源简介：

`bace_classification`数据集是MoleculeNet项目的一部分，主要用于分子机器学习的基准测试。该数据集包含人类β-secretase 1（BACE-1）抑制剂的定性（二元标签）结合结果。数据集的结构包括SMILES和SELFIES分子表示以及二元标签结合结果。数据集采用80/10/10的训练/验证/测试分割，并且最初由斯坦福大学的Pande Group生成。数据集发布在MIT许可证下。

The `bace_classification` dataset is part of the MoleculeNet project, primarily serving as a benchmark for molecular machine learning. This dataset contains qualitative (binary-labeled) binding results of human β-secretase 1 (BACE-1) inhibitors. It includes SMILES and SELFIES molecular representations alongside binary binding label results. The dataset adopts an 80/10/10 train/validation/test split, and was originally generated by the Pande Group at Stanford University. It is released under the MIT License.

提供机构：

zpn

原始信息汇总

数据集卡片 for bace_classification

数据集描述

数据集摘要

bace_classification 是 MoleculeNet 包含的数据集之一。该数据集包含一组人β-分泌酶1(BACE-1)抑制剂的定性（二元标签）结合结果。

数据集结构

数据字段

每个分割包含：

smiles: 分子的 SMILES 表示
selfies: 分子的 SELFIES 表示
target: 二元标签结合结果

数据分割

数据集采用 scaffold split 方法分为 80/10/10 的训练/验证/测试集。

源数据

初始数据收集和规范化

数据最初由斯坦福大学的 Pande 组生成。

许可信息

该数据集最初在 MIT 许可证下发布。

引用信息

@misc{https://doi.org/10.48550/arxiv.1703.00564, doi = {10.48550/ARXIV.1703.00564},

url = {https://arxiv.org/abs/1703.00564},

author = {Wu, Zhenqin and Ramsundar, Bharath and Feinberg, Evan N. and Gomes, Joseph and Geniesse, Caleb and Pappu, Aneesh S. and Leswing, Karl and Pande, Vijay},

keywords = {Machine Learning (cs.LG), Chemical Physics (physics.chem-ph), Machine Learning (stat.ML), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Physical sciences, FOS: Physical sciences},

title = {MoleculeNet: A Benchmark for Molecular Machine Learning},

publisher = {arXiv},

year = {2017},

贡献

感谢 @zanussbaum 添加此数据集。

搜集汇总

数据集介绍

构建方式

bace_classification数据集构建于MoleculeNet框架下，专注于人类β-分泌酶1（BACE-1）抑制剂的定性结合结果。数据由斯坦福大学的Pande团队生成，采用机器生成的方式进行注释。数据集通过SMILES和SELFIES两种分子表示法，结合二元标签的结合结果，构建了一个包含数千条记录的化学信息数据库。

特点

该数据集的特点在于其专注于BACE-1抑制剂的结合活性，提供了SMILES和SELFIES两种分子表示法，使得数据在化学信息学和机器学习领域具有广泛的应用潜力。数据集采用支架分割法进行80/10/10的训练/验证/测试分割，确保了数据的多样性和代表性。

使用方法

bace_classification数据集适用于分子机器学习的基准测试，特别是在药物发现和化学信息学领域。研究人员可以利用该数据集训练和验证模型，以预测分子与BACE-1的结合活性。数据集的结构化格式和明确的标签使得其易于集成到现有的机器学习流程中，支持从数据预处理到模型评估的全过程。

背景与挑战

背景概述

bace_classification数据集隶属于MoleculeNet项目，由斯坦福大学的Pande研究组于2017年创建。该数据集专注于人类β-分泌酶1（BACE-1）抑制剂的定性结合结果，旨在为分子机器学习提供基准测试。通过SMILES和SELFIES两种分子表示方法，数据集为研究者提供了丰富的化学信息，推动了药物发现和生物物理学领域的发展。其研究成果发表于arXiv，成为分子机器学习领域的重要参考文献。

当前挑战

bace_classification数据集面临的挑战主要集中在两个方面。首先，数据集的二元标签分类任务要求模型能够准确区分BACE-1抑制剂的结合与非结合状态，这对模型的泛化能力和鲁棒性提出了较高要求。其次，数据集的构建过程中，分子结构的多样性和复杂性使得数据标注和标准化处理成为一大难题，尤其是在确保数据质量的同时，避免引入偏差。此外，数据集的规模相对较小，可能限制了深度学习模型的性能表现。

常用场景

经典使用场景

在生物化学和分子机器学习的交叉领域，`bace_classification`数据集被广泛应用于分子活性预测模型的训练与验证。该数据集通过提供人类β-分泌酶1（BACE-1）抑制剂的结合结果，为研究人员提供了一个标准化的平台，用于评估和比较不同机器学习算法在分子分类任务中的性能。

解决学术问题

`bace_classification`数据集解决了分子机器学习领域中的一个关键问题：如何准确预测分子与特定蛋白质的结合能力。通过提供高质量的二元标签数据，该数据集帮助研究人员开发出更精确的预测模型，从而推动了药物发现和生物化学研究的进展。

衍生相关工作

`bace_classification`数据集衍生了许多经典的研究工作，特别是在分子机器学习和药物设计领域。例如，基于该数据集的研究成果已被应用于开发新型的BACE-1抑制剂，并在多个学术期刊和会议上发表。这些工作不仅验证了数据集的实用性，还进一步拓展了其在生物化学和药物发现中的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集