NCI Anti-cancer activity prediction data (NCI)
收藏github2024-05-20 更新2024-05-31 收录
下载链接:
https://github.com/shiruipan/graph_datasets
下载链接
链接失效反馈官方服务:
资源简介:
NCI图数据集常被用作图分类的基准。每个NCI数据集属于一个抗癌活性预测的生物测定任务,其中每个化学化合物被表示为一个图,原子代表节点,键作为边。如果化学化合物对相应的癌症有活性,则标记为正,否则为负。表1总结了从PubChem下载的NCI图数据。我们已经移除了原始图中的不连通图和含有异常原子(某些图中的原子表示为`*`)的图。第2-3列显示了每个数据集中正例和总图的数量,第4-5列分别表示每个数据集的平均节点数和边数。
The NCI graph dataset is frequently utilized as a benchmark for graph classification. Each NCI dataset pertains to a bioassay task aimed at predicting anticancer activity, where each chemical compound is represented as a graph with atoms as nodes and bonds as edges. A chemical compound is labeled as positive if it exhibits activity against the corresponding cancer, otherwise, it is labeled as negative. Table 1 summarizes the NCI graph data downloaded from PubChem. We have removed disconnected graphs and graphs containing anomalous atoms (where certain atoms are represented as `*`) from the original dataset. Columns 2-3 display the number of positive instances and the total number of graphs in each dataset, while columns 4-5 represent the average number of nodes and edges per dataset, respectively.
创建时间:
2017-07-25
搜集汇总
数据集介绍

构建方式
NCI抗肿瘤活性预测数据集(NCI)的构建基于生物测定任务,旨在预测化学化合物的抗肿瘤活性。每个化学化合物被表示为一个图,其中原子作为节点,化学键作为边。数据集从PubChem下载,经过预处理,移除了不连通的图和包含异常原子的图。数据集分为18个子集,包括9个不平衡和9个平衡数据集,分别用于不平衡和成本敏感的图分类任务。
特点
NCI数据集的主要特点是其结构化的图表示方式,适用于图分类任务。数据集包含18个子集,其中9个为不平衡数据集,适合研究不平衡分类问题;另外9个为平衡数据集,适合一般图分类任务。此外,数据集提供了详细的节点和边的统计信息,便于研究者进行深入分析。
使用方法
NCI数据集可用于图分类算法的开发和评估,特别是针对化学化合物抗肿瘤活性的预测任务。研究者可以通过下载完整数据集(NCI_full.zip)或平衡数据集(NCI_balanced.zip)进行实验。数据集支持多种图处理工具,如Moss,并可转换为Matlab等软件支持的格式。使用时需引用相关文献以确保学术规范。
背景与挑战
背景概述
NCI Anti-cancer activity prediction data (NCI) 数据集是用于图分类的基准数据集之一,主要用于预测化学化合物对癌症的活性。该数据集由多个生物测定任务组成,每个化学化合物以图的形式表示,其中原子为节点,化学键为边。每个化合物被标记为对特定癌症的活性(正)或非活性(负)。该数据集由Shirui Pan等研究人员在多个研究中使用,并被广泛应用于图分类算法的研究中,特别是在处理不平衡和成本敏感的图分类问题上。
当前挑战
NCI数据集面临的主要挑战包括:1) 数据不平衡问题,即正负样本数量差异显著,这要求算法能够有效处理不平衡分类;2) 图结构数据的复杂性,化学化合物图的节点和边结构复杂,缺乏自然向量表示,增加了分类难度;3) 数据预处理中的挑战,如去除不连通的图和包含异常原子的图,确保数据质量。这些挑战使得NCI数据集成为评估图分类算法性能的重要基准。
常用场景
经典使用场景
NCI抗肿瘤活性预测数据集(NCI)在生物信息学领域中被广泛用于图分类任务,尤其是在化学化合物的抗肿瘤活性预测中。该数据集将每个化学化合物表示为一个图,其中原子为节点,化学键为边。通过训练模型,可以预测新化合物的抗肿瘤活性,从而为药物筛选和开发提供重要依据。
衍生相关工作
基于NCI数据集,研究者们开发了多种图分类算法,如CogBoost、Graph Ensemble Boosting等,这些算法在处理不平衡和噪声数据方面表现出色。此外,NCI数据集还启发了多任务图分类和图流分类的研究,推动了图神经网络在生物信息学中的应用。
数据集最近研究
最新研究方向
在生物信息学领域,NCI抗肿瘤活性预测数据集(NCI)作为图分类任务的基准数据集,近年来受到了广泛关注。该数据集通过将化学化合物表示为图结构,节点代表原子,边代表化学键,从而实现了对抗肿瘤活性的预测。当前的研究方向主要集中在图分类算法的设计与优化,尤其是在处理不平衡数据和多任务学习方面。例如,研究者们提出了基于图增强的分类方法,通过集成学习技术提升模型在不平衡数据上的表现。此外,多任务图分类的研究也取得了显著进展,旨在通过联合学习多个相关任务来提高预测精度。这些研究不仅推动了图分类技术的发展,也为药物筛选和肿瘤治疗提供了新的工具和方法,具有重要的科学意义和应用价值。
以上内容由遇见数据集搜集并总结生成



