Tox21 Data Challenge 2014 Datasets

github2024-03-29 更新2024-05-31 收录

下载链接：

https://github.com/filipsPL/tox21_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

用于Tox21数据挑战2014的建模数据集。数据集包括化合物的名称、活动和SMILES代码，以及描述符和活动值的表格，格式为csv和arff/weka。

This modeling dataset is designed for the 2014 Tox21 Data Challenge. It includes compound names, activities, SMILES strings of chemical compounds, as well as tables of descriptors and activity values, available in CSV and ARFF/Weka formats.

创建时间：

2018-09-26

原始信息汇总

Tox21 Data Challenge 2014 数据集

数据集介绍

Tox21 Data Challenge 2014 数据集用于模型构建，包含化合物名称、活性及SMILES代码等信息。数据集包括以下部分：

compounds - 训练数据集中化合物的名称、活性及SMILES代码列表。
datasets - 包含描述符和活性值（列名：Activity）的表格，格式为csv和arff/weka。

结果

数据集的结果展示包括全局比较图表，来源包括：

Efficient toxicity prediction via simple features using shallow neural networks and decision trees, A Karim, A Mishra, MAH Newton, A Sattar - ACS Omega, 2019 - ACS Publications.
Toxicity prediction using deep learning, T Unterthiner, A Mayr, G Klambauer… - arXiv preprint arXiv …, 2015 - arxiv.org

搜集汇总

数据集介绍

构建方式

Tox21 Data Challenge 2014数据集的构建基于对新合成或已使用化合物的毒性评估需求，涵盖了多个工业领域的产品开发。数据集通过结合多种属性选择方法和机器学习算法，利用化合物名称、活性值及SMILES代码进行训练。具体构建过程中，采用了二维描述符集，以实现对大规模数据库的快速筛选和化合物优先级排序。该数据集的预处理步骤、描述符及建模方法已在相关文献中详细描述，确保了数据集的科学性和可靠性。

特点

Tox21 Data Challenge 2014数据集的主要特点在于其高效性和广泛适用性。数据集包含了12个目标的毒性评估结果，其中11个目标的AUROC值达到0.72，3个目标的AUROC值为0.80，平均AUROC值为0.784±0.069，显示出较高的预测准确性。此外，数据集采用二维描述符集，使得大规模数据库的快速筛选成为可能，且通过开源工具的使用，进一步促进了社区对该数据集的广泛应用和持续改进。

使用方法

Tox21 Data Challenge 2014数据集的使用方法简便且灵活。用户可以通过提供的化合物名称、活性值及SMILES代码进行模型训练，利用csv和arff/weka格式的数据表进行描述符和活性值的分析。数据集支持多种机器学习算法的应用，如Rotation Forest/ADTree分类器，用户可根据具体需求选择合适的算法进行毒性预测。此外，数据集的开源特性使得用户能够自由地进行二次开发和优化，推动了毒性预测技术的进一步发展。

背景与挑战

背景概述

Tox21 Data Challenge 2014 Datasets 是由美国国家卫生研究院（NIH）发起的一项重要研究项目，旨在通过计算工具预测新合成或已使用化合物的毒性。该数据集的创建背景源于工业产品开发过程中，毒性评估是主要挑战之一，尤其是在药物候选物的临床前和临床研究中，毒性是导致失败的主要原因之一。为了在药物开发的早期阶段避免后期失败，研究人员开发了高效的体外毒性筛选方法，并结合机器学习算法进行毒性预测。该数据集的核心研究问题是如何利用计算模型快速且可靠地预测化合物毒性，从而优化化合物筛选和优先级排序。Tox21 Data Challenge 2014 Datasets 的发布不仅推动了毒性预测领域的研究进展，还为相关领域的科学家提供了宝贵的数据资源，促进了计算毒理学的发展。

当前挑战

Tox21 Data Challenge 2014 Datasets 在构建和应用过程中面临多项挑战。首先，毒性预测的准确性是该领域的核心挑战，尽管已有多种体外筛选方法，但其大规模应用往往耗时且成本高昂。其次，数据集的构建需要处理大量化合物及其相关描述符，如何从中筛选出最具代表性的特征并构建高效的机器学习模型是一大难题。此外，该数据集的应用还面临跨领域合作的挑战，如何将计算毒理学与药物开发、环境科学等领域的实际需求相结合，确保模型的广泛适用性和可靠性，也是研究者需要解决的问题。最后，数据集的开放性和可扩展性要求研究者提供易于使用的工具和方法，以鼓励社区进一步优化和改进现有模型。

常用场景

经典使用场景

Tox21 Data Challenge 2014 Datasets 在药物开发和化学品安全性评估领域中具有经典应用。该数据集通过提供化合物的活性数据和结构描述符，支持机器学习算法预测新合成或现有化合物的毒性。其核心应用场景包括早期药物筛选、化合物优先级排序以及大规模数据库的快速筛查，从而在药物开发早期阶段有效避免因毒性问题导致的项目失败。

实际应用

在实际应用中，Tox21 Data Challenge 2014 Datasets 被广泛用于制药行业和化学品安全评估。通过结合机器学习算法，该数据集能够快速筛选潜在有毒化合物，帮助企业在早期阶段识别和排除高风险候选药物，从而降低研发成本和时间。此外，其在化学品安全性评估中的应用，也为环境保护和公共健康提供了重要支持。

衍生相关工作

基于Tox21 Data Challenge 2014 Datasets，衍生出了多项经典工作。例如，研究者们开发了基于浅层神经网络和决策树的高效毒性预测模型，进一步提升了预测性能。此外，深度学习方法也被应用于该数据集，展示了其在复杂毒性预测任务中的潜力。这些衍生工作不仅推动了毒性预测技术的发展，也为相关领域的研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集