SauravMaheshkar/tox21_SRp53
收藏Hugging Face2023-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SauravMaheshkar/tox21_SRp53
下载链接
链接失效反馈官方服务:
资源简介:
`tox21_SRp53`数据集是MoleculeNet的一部分,包含了Tox21计划中关于化合物毒性的定性测量数据。该数据集涉及8000种化合物在12个不同目标上的毒性测量,包括核受体和应激反应通路。数据集的结构包括每个分割中的SMILES和SELFIES分子表示法,以及生物测定的测量结果(活性/非活性)。数据集被随机分割为80/10/10的训练/验证/测试集。
The `tox21_SRp53` dataset is part of MoleculeNet, containing qualitative measurement data on compound toxicity from the Tox21 program. This dataset covers toxicity measurements of 8,000 compounds across 12 distinct targets, including nuclear receptors and stress response pathways. The dataset structure includes SMILES and SELFIES molecular representations for each split, as well as bioassay measurement results (active/inactive). The dataset is randomly split into an 80/10/10 training/validation/test set.
提供机构:
SauravMaheshkar
原始信息汇总
数据集概述
数据集名称
- 名称: tox21_SRp53
- 别名: 无
数据集属性
- 创建者: 机器生成
- 语言: 机器生成
- 标签: bio, bio-chem, molnet, molecule-net, biophysics
- 任务类别: other, graph-ml
数据集描述
- 概述:
tox21_SRp53是 MoleculeNet 中的一个数据集,由 "Toxicology in the 21st Century" (Tox21) 倡议创建。该数据集包含8000种化合物的定性毒性测量,针对12个不同的目标,包括核受体和应激反应途径。
数据集结构
数据字段
数据分割
- 分割方式: 随机分割
- 分割比例: 训练集80%,验证集10%,测试集10%
附加信息
引用信息
@misc{https://doi.org/10.48550/arxiv.1703.00564, doi = {10.48550/ARXIV.1703.00564}, url = {https://arxiv.org/abs/1703.00564}, author = {Wu, Zhenqin and Ramsundar, Bharath and Feinberg, Evan N. and Gomes, Joseph and Geniesse, Caleb and Pappu, Aneesh S. and Leswing, Karl and Pande, Vijay}, keywords = {Machine Learning (cs.LG), Chemical Physics (physics.chem-ph), Machine Learning (stat.ML), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Physical sciences, FOS: Physical sciences}, title = {MoleculeNet: A Benchmark for Molecular Machine Learning}, publisher = {arXiv}, year = {2017}, copyright = {arXiv.org perpetual, non-exclusive license} }
贡献者
搜集汇总
数据集介绍

构建方式
在生物化学领域,`tox21_SRp53`数据集的构建基于Tox21计划,该计划旨在通过测量化合物的毒性来创建一个公共数据库。该数据集包含了8000多种化合物在12个不同靶点上的定性毒性测量结果,涵盖了核受体和应激反应途径。数据集通过随机分割法分为训练集、验证集和测试集,比例为80/10/10,确保了数据在不同应用场景下的适用性。
使用方法
该数据集适用于基于图的机器学习任务,特别是在分子网络分析和生物活性预测方面。用户可以通过加载数据集并利用其提供的SMILES和SELFIES表示,进行分子结构的特征提取和模型训练。数据集的预定义分割(训练/验证/测试)为模型评估提供了标准化的流程,便于在不同模型之间进行性能比较。
背景与挑战
背景概述
`tox21_SRp53`数据集隶属于MoleculeNet项目,由Tox21计划创建,旨在通过测量化合物的毒性来支持21世纪的毒理学研究。该数据集包含8000多种化合物的定性毒性测量结果,涵盖12个不同的靶点,包括核受体和应激反应途径。其创建时间为2017年,主要研究人员包括Zhenqin Wu、Bharath Ramsundar等,研究的核心问题在于通过机器学习方法评估化合物的毒性,进而推动分子机器学习领域的基准测试。该数据集对生物化学和生物物理学领域具有重要影响,为毒理学研究和药物筛选提供了宝贵的数据资源。
当前挑战
`tox21_SRp53`数据集在构建过程中面临多项挑战。首先,数据集涉及的化合物种类繁多,且毒性评估涉及多个复杂的生物靶点,这增加了数据处理的复杂性。其次,数据集的生成依赖于机器学习模型,如何确保模型的准确性和可靠性是一个重要问题。此外,数据集的分割方式(80/10/10的训练/验证/测试集划分)虽为常见做法,但如何进一步优化分割策略以提高模型的泛化能力仍需探索。最后,数据集的标注(Active/Inactive)为定性结果,如何将其转化为定量分析以支持更精细的毒性预测模型,也是未来研究的一个重要方向。
常用场景
经典使用场景
在生物化学领域,`tox21_SRp53`数据集的经典使用场景主要集中在分子毒性预测任务中。该数据集通过提供8000多种化合物的SMILES和SELFIES表示,以及它们在12个不同靶点上的毒性测量结果(活性/非活性),为研究者提供了一个标准化的基准。研究者可以利用这些数据训练和验证机器学习模型,特别是图神经网络(Graph-ML),以预测新化合物的毒性,从而加速药物筛选和毒理学研究。
解决学术问题
`tox21_SRp53`数据集解决了毒理学研究中长期存在的数据稀缺和模型泛化能力不足的问题。通过提供大规模、多样化的化合物毒性数据,该数据集为研究者提供了一个强大的工具,用于开发和验证毒性预测模型。这不仅有助于提高模型的准确性和鲁棒性,还为跨物种毒性预测和环境风险评估提供了重要的数据支持,推动了毒理学领域的科学进步。
实际应用
在实际应用中,`tox21_SRp53`数据集被广泛用于药物研发和环境毒理学评估。制药公司可以利用该数据集训练模型,快速筛选出潜在的毒性化合物,从而减少临床试验阶段的失败率。此外,环保机构和化学品制造商也可以使用该数据集评估新化学品的环境风险,确保其符合安全标准。这些应用显著提高了化学品安全评估的效率和准确性,具有重要的社会和经济价值。
数据集最近研究
最新研究方向
在生物化学与分子生物学领域,`tox21_SRp53`数据集因其对化合物毒性的定性测量而备受关注。该数据集通过SMILES和SELFIES表示法,结合机器学习技术,推动了分子机器学习在毒理学中的应用。当前研究方向主要集中在利用图神经网络(Graph-ML)对分子结构进行建模,以预测化合物对特定生物靶点的活性。此外,随着MoleculeNet平台的广泛应用,该数据集在2014年Tox21数据挑战中的表现,进一步激发了学术界对毒理学数据集的深入挖掘与模型优化。这些研究不仅提升了毒性预测的准确性,还为新药研发和环境安全评估提供了重要的数据支持。
以上内容由遇见数据集搜集并总结生成



