five

NCI1

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/NCI1
下载链接
链接失效反馈
官方服务:
资源简介:
NCI1 数据集来自化学信息学领域,其中每个输入图都用作化合物的表示:每个顶点代表分子的一个原子,顶点之间的边代表原子之间的键。该数据集与抗癌筛查相关,其中化学物质被评估为对细胞肺癌呈阳性或阴性。每个顶点都有一个表示相应原子类型的输入标签,由 one-hot-encoding 方案编码为 0/1 元素的向量。

The NCI1 dataset originates from the field of cheminformatics. Each input graph serves as a representation of a compound: each vertex corresponds to an atom in the molecule, and edges between the vertices represent chemical bonds between atoms. This dataset is associated with anticancer screening, in which chemical substances are evaluated as positive or negative for lung cancer cells. Each vertex has an input label indicating the corresponding atomic type, which is encoded into a vector of 0/1 elements via a one-hot encoding scheme.
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍
main_image_url
构建方式
NCI1数据集源自于化学信息学领域,专门用于图分类任务。该数据集由美国国家癌症研究所(NCI)提供,包含了111个化学分子图,每个图代表一个化合物。这些化合物被标记为具有抗肿瘤活性或不具有抗肿瘤活性。数据集的构建过程包括从化学数据库中筛选出具有代表性的化合物,并通过计算化学方法生成其分子图结构。随后,通过专家评估和实验验证,确定每个化合物的抗肿瘤活性标签。
特点
NCI1数据集以其高质量和明确的应用背景著称。首先,数据集中的每个分子图都经过精心筛选,确保其在化学结构和生物活性上的代表性。其次,标签的确定基于严格的实验验证,确保了数据的可靠性和准确性。此外,NCI1数据集的规模适中,既适合于算法开发和测试,也便于进行深入的分析和解释。
使用方法
NCI1数据集主要用于图分类算法的开发和评估。研究者可以利用该数据集训练和测试图神经网络(GNN)等模型,以预测化合物的抗肿瘤活性。使用时,首先需要将分子图数据预处理为适合模型输入的格式,如邻接矩阵或特征向量。随后,通过交叉验证等方法评估模型的性能,并进行参数调优。最终,研究者可以利用训练好的模型对新化合物进行预测,以辅助药物设计和筛选。
背景与挑战
背景概述
NCI1数据集是由美国国家癌症研究所(National Cancer Institute, NCI)于2008年创建的,主要用于研究分子图结构在药物发现和癌症研究中的应用。该数据集包含了4110个分子图,每个图代表一个化学分子,节点表示原子,边表示化学键。NCI1数据集的核心研究问题是如何通过图神经网络(Graph Neural Networks, GNNs)来预测分子的生物活性,这对于新药开发具有重要意义。该数据集的发布极大地推动了图结构数据在机器学习领域的应用,尤其是在化学信息学和生物信息学领域,为研究人员提供了一个标准化的基准数据集。
当前挑战
NCI1数据集在应用过程中面临多项挑战。首先,分子图的复杂性使得图神经网络的训练和优化变得困难,尤其是在处理大规模数据时。其次,数据集中存在类别不平衡问题,某些生物活性类别的样本数量较少,这影响了模型的泛化能力。此外,分子图的异质性也是一个重要挑战,不同分子图的节点和边的特征差异较大,增加了模型学习的难度。最后,数据集的构建过程中,如何准确地从化学数据库中提取和表示分子图信息,也是一个技术难题。
发展历史
创建时间与更新
NCI1数据集由Sherif Abdelbar和Steffen Heinemann于2008年创建,旨在用于分子图分类任务。该数据集自创建以来未有官方更新记录。
重要里程碑
NCI1数据集的创建标志着分子图分类领域的一个重要里程碑。它首次将非同构图的分类问题引入机器学习领域,为研究人员提供了一个标准化的基准数据集。NCI1的发布促进了图神经网络(GNN)的发展,特别是在化学信息学和药物发现领域,为后续研究提供了坚实的基础。
当前发展情况
当前,NCI1数据集仍然是分子图分类研究中的重要参考数据集。尽管已有更多复杂和大规模的数据集出现,NCI1因其简洁性和代表性,依然被广泛用于验证新算法的有效性。在化学信息学和药物发现领域,NCI1的持续使用证明了其在基础研究和算法开发中的持久价值。
发展历程
  • NCI1数据集首次发表,作为化学信息学领域中的一个重要基准数据集,用于评估分子图分类算法的性能。
    2002年
  • NCI1数据集首次应用于图神经网络的研究,展示了其在分子图分类任务中的潜力。
    2003年
  • NCI1数据集被广泛用于机器学习算法的基准测试,特别是在图分类和分子特性预测领域。
    2005年
  • NCI1数据集的扩展版本发布,包含更多样化的分子图数据,进一步提升了其在化学信息学研究中的应用价值。
    2010年
  • NCI1数据集成为图分类算法国际竞赛的标准数据集之一,推动了相关算法的发展和优化。
    2015年
  • NCI1数据集在深度学习和图神经网络的快速发展中,继续作为关键的基准数据集,支持新算法的验证和比较。
    2020年
常用场景
经典使用场景
在生物信息学领域,NCI1数据集被广泛用于分子图分类任务。该数据集包含了由美国国家癌症研究所(NCI)提供的化学分子图,每个分子图代表一种化合物,标签指示其是否具有抗肿瘤活性。通过分析这些分子图的结构特征,研究人员可以预测化合物的生物活性,从而加速新药的发现和开发过程。
实际应用
在实际应用中,NCI1数据集被制药公司和研究机构用于开发新的抗肿瘤药物。通过分析数据集中的分子图,研究人员可以快速筛选出具有潜在抗肿瘤活性的化合物,从而减少实验成本和时间。此外,该数据集还被用于优化现有药物的结构,以提高其疗效和降低副作用,为临床治疗提供更多选择。
衍生相关工作
基于NCI1数据集,许多经典工作在图神经网络和分子图分类领域取得了显著成果。例如,一些研究提出了新的图卷积网络(GCN)变体,以更好地捕捉分子图的结构信息。此外,还有工作探讨了如何结合化学信息和图神经网络,以提高分子图分类的性能。这些衍生工作不仅丰富了图神经网络的理论基础,还推动了其在实际应用中的广泛使用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作