NCI Anti-cancer activity prediction data (NCI)

github2021-05-12 更新2024-05-31 收录

下载链接：

https://github.com/JiaWu-Repository/graph_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

NCI图数据集常被用作图分类的基准。每个NCI数据集属于抗肿瘤活性预测的生物测定任务，其中每个化学化合物被表示为一个图，原子作为节点，键作为边。如果化学化合物对相应癌症有活性，则标记为正，否则为负。表1总结了从PubChem下载的NCI图数据。我们已移除原始图中的不连通图和含有异常原子（某些图中的原子表示为`*`）的图。第2-3列显示了每个数据集中正样本和总图的数量，第4-5列分别表示每个数据集的平均节点数和边数。

The NCI graph datasets are widely used as benchmarks for graph classification. Each NCI dataset corresponds to a bioassay task for anticancer activity prediction, where each chemical compound is represented as a graph, with atoms serving as nodes and chemical bonds as edges. A chemical compound is labeled as positive if it exhibits activity against the corresponding cancer type, and negative otherwise. Table 1 summarizes the NCI graph data downloaded from PubChem. We have removed disconnected graphs from the original dataset, as well as graphs containing abnormal atoms, i.e., atoms denoted as `*` in some of the original graphs. Columns 2 and 3 show the counts of positive samples and total graphs in each dataset, while Columns 4 and 5 respectively report the average number of nodes and edges per dataset.

创建时间：

2020-06-23

原始信息汇总

数据集概述

数据集汇总

本仓库维护了31个用于图分类的基准图数据集，涵盖以下类型：

化学化合物
引用网络
社交网络
脑网络

化学化合物图数据集以“.sdf”或“.smi”格式存储，其他图数据集以“.nel”格式表示。这些图数据集可以通过频繁子图挖掘包（如Moss）或其他软件处理，并可轻松转换为其他格式（如Matlab）。

数据集详情

1. NCI抗肿瘤活性预测数据（NCI）

描述：

NCI图数据集通常用作图分类的基准。每个NCI数据集属于一个抗肿瘤活性预测的生物测定任务，其中每个化学化合物表示为一个图，原子表示节点，键表示边。化学化合物如果对相应癌症有活性则为正，否则为负。

数据集数量： 18（9个不平衡数据集 + 9个平衡数据集）
完整数据集： NCI_full.zip
平衡数据集： NCI_balanced.zip

引用：

Shirui Pan, Jia Wu, and Xingquan Zhu “CogBoost: Boosting for Fast Cost-sensitive Graph Classification", IEEE Transactions on Knowledge and Data Engineering (TKDE), 27(11): 2933-2946 (2015)
Shirui Pan, Jia Wu, Xingquan Zhu, Chengqi Zhang, Philip S. Yu. "Joint Structure Feature Exploration and Regularization for Multi-Task Graph Classification." IEEE Trans. Knowl. Data Eng. 28(3): 715-728 (2016)

2. PTC预测毒理学挑战数据（PTC）

描述：

PTC图数据集包括多个化学化合物毒理学预测的致癌性任务。

数据集数量： 8（4个完整数据集 + 4个子数据集）
完整数据集： PTC_pn.zip
多任务数据集： PTC_mtl.zip

引用：

Shirui Pan, Jia Wu, Xingquan Zhu, Guodong Long, and Chengqi Zhang. " Task Sensitive Feature Exploration and Learning for Multi-Task Graph Classification." IEEE Trans. Cybernetics (TCYB) 47(3): 744-758 (2017).

3. DBLP图数据集（DBLP）

描述：

DBLP数据集包含计算机科学的参考文献数据。每个记录与多个属性（如摘要、作者、年份、地点、标题和参考文献ID）相关联。

数据集数量： 1
数据集： DBLP_v1.zip

引用：

Shirui Pan, Xingquan Zhu, Chengqi Zhang, and Philip S. Yu. "Graph Stream Classification using Labeled and Unlabeled Graphs", International Conference on Data Engineering (ICDE), pages 398-409, 2013

4. Twitter情感图数据（Twitter）

描述：

该数据集来自Twitter情感分类。每个推文表示为一个图，节点表示术语和/或表情符号，边表示两个词或符号在推文中的共现关系。

数据集数量： 1
数据集： Twitter-Graph.zip

引用：

Shirui Pan, Jia Wu, and Xingquan Zhu “CogBoost: Boosting for Fast Cost-sensitive Graph Classification", IEEE Transactions on Knowledge and Data Engineering (TKDE), 27(11): 2933-2946 (2015)

5. 功能脑网络分析数据（Brain）

描述：

脑网络功能脑网络分析数据是从全脑功能磁共振成像（fMRI）图谱构建的。每个节点对应一个感兴趣区域（ROI），边表示两个ROI之间的相关性。

数据集数量： 3
数据集： Brain.zip

引用：

Shirui Pan, Jia Wu, Xingquan Zhu, Guodong Long, and Chengqi Zhang. " Task Sensitive Feature Exploration and Learning for Multi-Task Graph Classification." IEEE Trans. Cybernetics (TCYB) 47(3): 744-758 (2017).

文件格式

1. 分子图：

SDF文件：

SDF是一种化学数据文件格式，用于结构信息。多个化合物由四美元符号（$$$$）分隔。

SMI文件：

SMILES（简化分子输入线性表示规范）是一种分子线性表示法。每行表示一个化学化合物，格式为：ID, 类别标签, SMILES字符串。

2. 通用图：

NEL文件：

NEL文件是图对象的一般表示，明确显示节点和边的信息。每个图由节点定义、边定义、图名称和类别标签组成。

搜集汇总

数据集介绍

构建方式

NCI抗癌活性预测数据集（NCI）的构建基于生物测定任务，旨在预测化学化合物的抗癌活性。每个化学化合物被表示为图结构，其中原子作为节点，化学键作为边。数据集从PubChem下载，并经过预处理，移除了不连通的图以及包含异常原子（如`*`）的图。数据集包含18个子集，其中9个为不平衡数据集，9个为平衡数据集，分别适用于不平衡图分类和多任务图分类任务。

特点

NCI数据集的特点在于其图结构表示，能够有效捕捉化学化合物的复杂结构信息。每个图代表一个化学化合物，节点和边的属性反映了化合物的原子和化学键信息。数据集的不平衡性使其成为研究不平衡图分类和成本敏感图分类的理想基准。此外，数据集提供了平衡和不平衡两种版本，便于研究不同分类任务下的模型性能。

使用方法

NCI数据集的使用方法包括下载完整数据集或平衡数据集，并通过常用的图挖掘工具（如Moss）进行处理。数据集支持多种格式转换，便于在Matlab等软件中使用。研究者可以通过训练图分类模型，预测未知化合物的抗癌活性。使用该数据集时，建议引用相关论文以支持研究的学术性。

背景与挑战

背景概述

NCI抗癌症活性预测数据集（NCI）是图分类领域的重要基准数据集之一，主要用于抗癌活性预测的生物测定任务。该数据集由多个化学化合物组成，每个化合物以图的形式表示，其中原子作为节点，化学键作为边。化合物的抗癌活性通过其是否对特定癌症具有活性来标记为正样本或负样本。该数据集由Shirui Pan等研究人员在2015年首次提出，并广泛应用于图分类算法的研究中，特别是在不平衡图分类和多任务图分类领域。NCI数据集的出现为图分类算法的性能评估提供了重要的实验基础，推动了图分类技术在生物信息学领域的应用。

当前挑战

NCI数据集在应用过程中面临多重挑战。首先，图分类任务本身具有复杂性，由于图数据的非欧几里得结构特性，传统的基于向量表示的分类方法难以直接应用，这要求研究者开发新的图嵌入和图神经网络算法。其次，数据集中存在显著的不平衡问题，正负样本比例差异较大，这对分类模型的鲁棒性和泛化能力提出了更高要求。此外，数据预处理过程中需要处理不连通的图结构以及异常原子表示（如`*`），这增加了数据清洗和标准化的难度。最后，如何在多任务学习框架下有效利用NCI数据集进行抗癌活性预测，仍是一个亟待解决的挑战。

常用场景

经典使用场景

NCI数据集在生物信息学领域中被广泛用于抗癌活性预测任务。该数据集通过将化学化合物表示为图结构，其中原子作为节点，化学键作为边，能够有效捕捉化合物的结构特征。研究人员利用这些图数据训练分类模型，以预测未知化合物是否具有抗癌活性。这一应用场景不仅推动了图分类算法的发展，还为药物发现提供了重要的数据支持。

实际应用

NCI数据集的实际应用主要集中在药物发现和抗癌药物筛选领域。通过预测化学化合物的抗癌活性，研究人员可以快速筛选出潜在的药物候选分子，从而加速新药的研发进程。此外，该数据集还被用于开发自动化药物设计工具，帮助制药公司优化药物筛选流程，降低研发成本。

衍生相关工作

NCI数据集衍生了许多经典的图分类研究工作，例如CogBoost算法和基于多任务学习的图分类方法。这些工作不仅在理论上推动了图分类算法的发展，还在实际应用中取得了显著成果。例如，CogBoost算法通过结合代价敏感学习和图分类，显著提升了不平衡数据下的分类性能。此外，基于NCI数据集的多任务学习研究也为复杂场景下的图分类提供了新的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集