NCI1|化学信息学数据集|抗癌药物发现数据集

OpenDataLab2025-04-05 更新2024-05-09 收录

化学信息学

抗癌药物发现

下载链接：

https://opendatalab.org.cn/OpenDataLab/NCI1

下载链接

链接失效反馈

资源简介：

NCI1 数据集来自化学信息学领域，其中每个输入图都用作化合物的表示：每个顶点代表分子的一个原子，顶点之间的边代表原子之间的键。该数据集与抗癌筛查相关，其中化学物质被评估为对细胞肺癌呈阳性或阴性。每个顶点都有一个表示相应原子类型的输入标签，由 one-hot-encoding 方案编码为 0/1 元素的向量。

提供机构：

OpenDataLab

创建时间：

2022-05-23

AI搜集汇总

数据集介绍

构建方式

NCI1数据集源自于化学信息学领域，专门用于图分类任务。该数据集由美国国家癌症研究所（NCI）提供，包含了111个化学分子图，每个图代表一个化合物。这些化合物被标记为具有抗肿瘤活性或不具有抗肿瘤活性。数据集的构建过程包括从化学数据库中筛选出具有代表性的化合物，并通过计算化学方法生成其分子图结构。随后，通过专家评估和实验验证，确定每个化合物的抗肿瘤活性标签。

特点

NCI1数据集以其高质量和明确的应用背景著称。首先，数据集中的每个分子图都经过精心筛选，确保其在化学结构和生物活性上的代表性。其次，标签的确定基于严格的实验验证，确保了数据的可靠性和准确性。此外，NCI1数据集的规模适中，既适合于算法开发和测试，也便于进行深入的分析和解释。

使用方法

NCI1数据集主要用于图分类算法的开发和评估。研究者可以利用该数据集训练和测试图神经网络（GNN）等模型，以预测化合物的抗肿瘤活性。使用时，首先需要将分子图数据预处理为适合模型输入的格式，如邻接矩阵或特征向量。随后，通过交叉验证等方法评估模型的性能，并进行参数调优。最终，研究者可以利用训练好的模型对新化合物进行预测，以辅助药物设计和筛选。

背景与挑战

背景概述

NCI1数据集是由美国国家癌症研究所（National Cancer Institute, NCI）于2008年创建的，主要用于研究分子图结构在药物发现和癌症研究中的应用。该数据集包含了4110个分子图，每个图代表一个化学分子，节点表示原子，边表示化学键。NCI1数据集的核心研究问题是如何通过图神经网络（Graph Neural Networks, GNNs）来预测分子的生物活性，这对于新药开发具有重要意义。该数据集的发布极大地推动了图结构数据在机器学习领域的应用，尤其是在化学信息学和生物信息学领域，为研究人员提供了一个标准化的基准数据集。

当前挑战

NCI1数据集在应用过程中面临多项挑战。首先，分子图的复杂性使得图神经网络的训练和优化变得困难，尤其是在处理大规模数据时。其次，数据集中存在类别不平衡问题，某些生物活性类别的样本数量较少，这影响了模型的泛化能力。此外，分子图的异质性也是一个重要挑战，不同分子图的节点和边的特征差异较大，增加了模型学习的难度。最后，数据集的构建过程中，如何准确地从化学数据库中提取和表示分子图信息，也是一个技术难题。

发展历史

创建时间与更新

NCI1数据集由Sherif Abdelbar和Steffen Heinemann于2008年创建，旨在用于分子图分类任务。该数据集自创建以来未有官方更新记录。

重要里程碑

NCI1数据集的创建标志着分子图分类领域的一个重要里程碑。它首次将非同构图的分类问题引入机器学习领域，为研究人员提供了一个标准化的基准数据集。NCI1的发布促进了图神经网络（GNN）的发展，特别是在化学信息学和药物发现领域，为后续研究提供了坚实的基础。

当前发展情况

当前，NCI1数据集仍然是分子图分类研究中的重要参考数据集。尽管已有更多复杂和大规模的数据集出现，NCI1因其简洁性和代表性，依然被广泛用于验证新算法的有效性。在化学信息学和药物发现领域，NCI1的持续使用证明了其在基础研究和算法开发中的持久价值。

发展历程

NCI1数据集首次发表，作为化学信息学领域中的一个重要基准数据集，用于评估分子图分类算法的性能。
2002年
NCI1数据集首次应用于图神经网络的研究，展示了其在分子图分类任务中的潜力。
2003年
NCI1数据集被广泛用于机器学习算法的基准测试，特别是在图分类和分子特性预测领域。
2005年
NCI1数据集的扩展版本发布，包含更多样化的分子图数据，进一步提升了其在化学信息学研究中的应用价值。
2010年
NCI1数据集成为图分类算法国际竞赛的标准数据集之一，推动了相关算法的发展和优化。
2015年
NCI1数据集在深度学习和图神经网络的快速发展中，继续作为关键的基准数据集，支持新算法的验证和比较。
2020年

常用场景

经典使用场景

在生物信息学领域，NCI1数据集被广泛用于分子图分类任务。该数据集包含了由美国国家癌症研究所（NCI）提供的化学分子图，每个分子图代表一种化合物，标签指示其是否具有抗肿瘤活性。通过分析这些分子图的结构特征，研究人员可以预测化合物的生物活性，从而加速新药的发现和开发过程。

实际应用

在实际应用中，NCI1数据集被制药公司和研究机构用于开发新的抗肿瘤药物。通过分析数据集中的分子图，研究人员可以快速筛选出具有潜在抗肿瘤活性的化合物，从而减少实验成本和时间。此外，该数据集还被用于优化现有药物的结构，以提高其疗效和降低副作用，为临床治疗提供更多选择。

衍生相关工作

基于NCI1数据集，许多经典工作在图神经网络和分子图分类领域取得了显著成果。例如，一些研究提出了新的图卷积网络（GCN）变体，以更好地捕捉分子图的结构信息。此外，还有工作探讨了如何结合化学信息和图神经网络，以提高分子图分类的性能。这些衍生工作不仅丰富了图神经网络的理论基础，还推动了其在实际应用中的广泛使用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集，包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面，平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建，扩展至包含ID #6,857,737的图像，增加了超过180万张新图像，总大小约为8TB。图像以原始格式提供，分为1000个子目录，使用图像ID的模1000进行分桶，以避免文件系统性能问题。

hugging_face 收录

UCM-Captions, Sydney-Captions, RSICD, RSITMD, NWPU-Captions, RS5M, SkyScript

UCM-Captions: 包含613张图像，分辨率为256×256。Sydney-Captions: 包含2,100张图像，分辨率为500×500。RSICD: 包含10,921张图像，分辨率为224×224。RSITMD: 包含4,743张图像，分辨率为256×256。NWPU-Captions: 包含31,500张图像，分辨率为256×256。RS5M: 包含超过500万张图像，分辨率为所有可能的分辨率。SkyScript: 包含520万张图像，分辨率为所有可能的分辨率。

github 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建，包含超过420小时的2D视频，涵盖20种不同语言，旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集，每段视频都配有语言标签和伪转录，部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证，确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力，通过引入语言特定风格嵌入，使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录