zpn/bace_regression
收藏Hugging Face2022-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zpn/bace_regression
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- machine-generated
language_creators:
- machine-generated
license:
- mit
multilinguality:
- monolingual
pretty_name: bace_regression
size_categories:
- 1K<n<10K
source_datasets: []
tags:
- bio
- bio-chem
- molnet
- molecule-net
- biophysics
task_categories:
- other
task_ids: []
---
# Dataset Card for bace_regression
## Table of Contents
- [Table of Contents](#table-of-contents)
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **Homepage: https://moleculenet.org/**
- **Repository: https://github.com/deepchem/deepchem/tree/master**
- **Paper: https://arxiv.org/abs/1703.00564**
### Dataset Summary
`bace_regression` is a dataset included in [MoleculeNet](https://moleculenet.org/). This dataset consists of Quantitative (IC50) binding results for a set of inhibitors of human β-secretase 1(BACE-1).
## Dataset Structure
### Data Fields
Each split contains
* `smiles`: the [SMILES](https://en.wikipedia.org/wiki/Simplified_molecular-input_line-entry_system) representation of a molecule
* `selfies`: the [SELFIES](https://github.com/aspuru-guzik-group/selfies) representation of a molecule
* `target`: the `IC50` binding results
### Data Splits
The dataset is split into an 80/10/10 train/valid/test split using scaffold split.
### Source Data
#### Initial Data Collection and Normalization
Data was originially generated by the Pande Group at Standford
### Licensing Information
This dataset was originally released under an MIT license
### Citation Information
```
@misc{https://doi.org/10.48550/arxiv.1703.00564,
doi = {10.48550/ARXIV.1703.00564},
url = {https://arxiv.org/abs/1703.00564},
author = {Wu, Zhenqin and Ramsundar, Bharath and Feinberg, Evan N. and Gomes, Joseph and Geniesse, Caleb and Pappu, Aneesh S. and Leswing, Karl and Pande, Vijay},
keywords = {Machine Learning (cs.LG), Chemical Physics (physics.chem-ph), Machine Learning (stat.ML), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Physical sciences, FOS: Physical sciences},
title = {MoleculeNet: A Benchmark for Molecular Machine Learning},
publisher = {arXiv},
year = {2017},
copyright = {arXiv.org perpetual, non-exclusive license}
}
```
### Contributions
Thanks to [@zanussbaum](https://github.com/zanussbaum) for adding this dataset.
annotations_creators:
- 机器生成
language_creators:
- 机器生成
license:
- MIT
multilinguality:
- 单语言
pretty_name: bace_regression
size_categories:
- 1K<n<10K
source_datasets: []
tags:
- 生物(bio)
- 生物化学(bio-chem)
- 分子网络(molnet)
- 分子网络(molecule-net)
- 生物物理学(biophysics)
task_categories:
- 其他
task_ids: []
# bace_regression 数据集卡片
## 目录
- [目录](#table-of-contents)
- [数据集描述](#dataset-description)
- [数据集摘要](#dataset-summary)
- [支持的任务与排行榜](#supported-tasks-and-leaderboards)
- [语言](#languages)
- [数据集结构](#dataset-structure)
- [数据实例](#data-instances)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [数据集创建](#dataset-creation)
- [筛选依据](#curation-rationale)
- [源数据](#source-data)
- [注释](#annotations)
- [个人与敏感信息](#personal-and-sensitive-information)
- [数据使用注意事项](#considerations-for-using-the-data)
- [数据集的社会影响](#social-impact-of-dataset)
- [偏差讨论](#discussion-of-biases)
- [其他已知局限性](#other-known-limitations)
- [附加信息](#additional-information)
- [数据集策展人](#dataset-curators)
- [许可证信息](#licensing-information)
- [引用信息](#citation-information)
- [贡献](#contributions)
## 数据集描述
- **主页:https://moleculenet.org/**
- **代码仓库:https://github.com/deepchem/deepchem/tree/master**
- **相关论文:https://arxiv.org/abs/1703.00564**
### 数据集摘要
`bace_regression` 是收录于[分子网络(MoleculeNet)](https://moleculenet.org/)的数据集。该数据集包含一系列人类β-分泌酶1(BACE-1)抑制剂的定量半最大抑制浓度(IC50)结合实验结果。
### 支持的任务与排行榜
### 语言
## 数据集结构
### 数据实例
### 数据字段
每个数据划分包含:
* `smiles`:分子的[简化分子线性输入系统(SMILES, Simplified molecular-input line-entry system)](https://en.wikipedia.org/wiki/Simplified_molecular-input_line-entry_system)表示
* `selfies`:分子的[SELFIES](https://github.com/aspuru-guzik-group/selfies)表示
* `target`:IC50结合活性结果
### 数据划分
该数据集采用支架划分(scaffold split)方式,划分为80%训练集、10%验证集与10%测试集。
## 数据集创建
### 筛选依据
### 源数据
#### 初始数据收集与标准化
数据最初由斯坦福大学潘德课题组(Pande Group at Stanford)生成。
### 注释
### 个人与敏感信息
## 数据使用注意事项
### 数据集的社会影响
### 偏差讨论
### 其他已知局限性
## 附加信息
### 数据集策展人
### 许可证信息
该数据集最初以MIT许可证发布。
### 引用信息
@misc{https://doi.org/10.48550/arxiv.1703.00564,
doi = {10.48550/ARXIV.1703.00564},
url = {https://arxiv.org/abs/1703.00564},
author = {Wu, Zhenqin and Ramsundar, Bharath and Feinberg, Evan N. and Gomes, Joseph and Geniesse, Caleb and Pappu, Aneesh S. and Leswing, Karl and Pande, Vijay},
keywords = {Machine Learning (cs.LG), Chemical Physics (physics.chem-ph), Machine Learning (stat.ML), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Physical sciences, FOS: Physical sciences},
title = {MoleculeNet: A Benchmark for Molecular Machine Learning},
publisher = {arXiv},
year = {2017},
copyright = {arXiv.org perpetual, non-exclusive license}
}
### 贡献
感谢[@zanussbaum](https://github.com/zanussbaum)贡献本数据集。
提供机构:
zpn
原始信息汇总
数据集概述
数据集名称
- 名称: bace_regression
- 别名: 无
数据集属性
- 语言: 单语种 (monolingual)
- 许可证: MIT
- 大小: 1K<n<10K
- 标签: bio, bio-chem, molnet, molecule-net, biophysics
- 任务类别: other
数据集描述
- 概述:
bace_regression是 MoleculeNet 中的一个数据集,包含一组抑制人β-分泌酶1(BACE-1)的化合物的定量(IC50)结合结果。
数据集结构
- 数据实例: 包含分子及其结合结果的数据集。
- 数据字段:
smiles: 分子的SMILES表示selfies: 分子的SELFIES表示target: IC50结合结果
- 数据分割: 采用80/10/10的训练/验证/测试分割,使用支架分割方法。
数据集创建
- 来源数据: 数据最初由斯坦福大学的Pande Group生成。
- 许可证: 原始发布时使用MIT许可证。
引用信息
@misc{https://doi.org/10.48550/arxiv.1703.00564, doi = {10.48550/ARXIV.1703.00564}, url = {https://arxiv.org/abs/1703.00564}, author = {Wu, Zhenqin and Ramsundar, Bharath and Feinberg, Evan N. and Gomes, Joseph and Geniesse, Caleb and Pappu, Aneesh S. and Leswing, Karl and Pande, Vijay}, keywords = {Machine Learning (cs.LG), Chemical Physics (physics.chem-ph), Machine Learning (stat.ML), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Physical sciences, FOS: Physical sciences}, title = {MoleculeNet: A Benchmark for Molecular Machine Learning}, publisher = {arXiv}, year = {2017}, copyright = {arXiv.org perpetual, non-exclusive license} }
搜集汇总
数据集介绍

构建方式
在分子机器学习领域,‘bace_regression’数据集的构建采用了基于生物化学领域的数据收集与规范化流程。该数据集的构建始于斯坦福大学Pande Group的研究成果,包含了人类β-secretase 1(BACE-1)抑制剂的一系列定量(IC50)结合结果。数据集通过分子 scaffold split 方法被划分为训练集、验证集和测试集,比例为80/10/10,以确保模型的泛化能力和稳健性。
特点
‘bace_regression’数据集的特点体现在其专注于生物化学领域,特别是对于BACE-1抑制剂的研究。数据集采用SMILES和SELFIES两种分子表示方法,丰富了数据的多样性。此外,数据集遵循MIT许可,便于研究者使用和分享。其结构化的数据分割也便于模型的训练和评估。
使用方法
使用‘bace_regression’数据集时,研究者可依据数据集提供的SMILES和SELFIES格式,对分子结构进行编码。通过训练集对模型进行训练,验证集进行参数调优,测试集评估模型性能。数据集的开放许可使得研究成果易于发表和共享,促进了学术界的合作与交流。
背景与挑战
背景概述
在生物化学与分子建模领域,bace_regression数据集的构建旨在为科研人员提供一个专注于人类β-分泌酶1(BACE-1)抑制剂定量结合结果的数据库。该数据集由斯坦福大学的Pande研究团队于2017年创建,是MoleculeNet项目的一部分,其核心研究问题是如何通过机器学习技术预测分子的生物活性。bace_regression数据集因其全面的分子信息及精确的量化数据,对药物设计与疾病机理研究等领域产生了显著影响,成为相关领域研究的重要资源。
当前挑战
该数据集在构建和应用过程中面临的挑战主要包括:确保分子数据的准确性和一致性,处理化学信息中的噪声和异常值,以及数据集的多样性和代表性。此外,由于涉及生物活性数据的预测,如何提高模型的预测精度和泛化能力,也是研究人员需要克服的关键问题。构建过程中,数据集的规模和质量控制也是重要挑战,尤其是在确保数据标注的准确性和处理个人敏感信息方面。
常用场景
经典使用场景
在药物设计与生物化学研究领域,bace_regression数据集因其包含人类β-secretase 1(BACE-1)抑制剂的定量结合结果而备受瞩目。该数据集的经典使用场景主要集中于通过SMILES和SELFIES分子表示形式,对抑制剂与BACE-1之间的结合强度进行机器学习模型的训练与评估。
解决学术问题
bace_regression数据集解决了生物信息学中关于分子与靶点之间相互作用强度预测的学术难题。它为研究者提供了一个标准化的平台,以评估和比较不同机器学习模型在预测抑制剂与BACE-1结合能力方面的性能,从而加速新药发现的进程。
衍生相关工作
基于bace_regression数据集,研究者们开展了一系列相关工作,如开发新的分子描述符、提出更高效的机器学习模型,以及构建更加复杂的生物分子互动预测系统。这些衍生工作进一步拓展了该数据集在生物信息学和药物设计领域的应用边界,推动了相关领域的科研进展。
以上内容由遇见数据集搜集并总结生成



