Tox21 (Tox21 Machine Learning Data Set)
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Tox21
下载链接
链接失效反馈官方服务:
资源简介:
Tox21 数据集包含 12,060 个训练样本和 647 个代表化合物的测试样本。有 801 个“密集特征”表示化学描述符,例如分子量、溶解度或表面积,还有 272,776 个“稀疏特征”表示化学子结构(ECFP10、DFS6、DFS8;以矩阵市场格式存储)。机器学习方法可以使用稀疏或密集数据,也可以将它们组合起来。每个样本有 12 个二进制标签,代表 12 个不同毒理学实验的结果(活性/非活性)。请注意,标签矩阵包含许多缺失值 (NA)。原始数据源和 Tox21 挑战网站是 https://tripod.nih.gov/tox21/challenge/。
The Tox21 dataset contains 12,060 training samples and 647 test samples representing chemical compounds. It has 801 "dense features" that represent chemical descriptors such as molecular weight, solubility, or surface area, as well as 272,776 "sparse features" representing chemical substructures (ECFP10, DFS6, DFS8; stored in Matrix Market format). Machine learning methods can utilize either the sparse or dense data, or combine both. Each sample has 12 binary labels corresponding to the results of 12 distinct toxicology experiments (active/inactive). Please note that the label matrix contains numerous missing values (NA). The original data source and Tox21 challenge website are https://tripod.nih.gov/tox21/challenge/.
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

背景与挑战
背景概述
Tox21是一个用于机器学习的毒理学数据集,包含12,060个训练样本和647个测试样本,代表化合物,具有801个密集特征和272,776个稀疏特征,用于预测12个毒理学实验的二进制结果。该数据集由林茨大学于2016年发布,适用于化学和生物信息学领域的毒性预测研究,但需注意标签矩阵中存在缺失值。
以上内容由遇见数据集搜集并总结生成



