未提及数据集具体名称

Name: 未提及数据集具体名称
Creator: 西安交通大学计算机科学与技术学院, 陕西大数据知识工程省级重点实验室, 西安交通大学远程教育学院, 弗吉尼亚大学
Published: 2025-08-01 18:47:07
License: 暂无描述

arXiv2025-08-01 更新2025-08-05 收录

下载链接：

https://github.com/yimingxu24/CMUCL

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是针对文本属性图异常检测（TAGAD）而创建的，包含了8个数据集，其中最大的一个数据集包含超过110万个节点和630万个边。这些数据集旨在促进TAGAD领域的研究，帮助研究人员更好地理解和解决文本属性图中的异常检测问题。数据集的创建过程并未在论文中详细描述，但可以推测是通过收集和整理现实世界中的文本属性图数据，并进行标注和处理得到的。这些数据集可以应用于各种场景，如电子商务网络、引文网络等，旨在帮助研究人员提高文本属性图异常检测的准确性和效率。

This dataset is developed for Text-Attributed Graph Anomaly Detection (TAGAD). It includes 8 sub-datasets, among which the largest one contains over 1.1 million nodes and 6.3 million edges. These datasets are intended to facilitate research in the TAGAD domain, enabling researchers to better understand and resolve anomaly detection problems in text-attributed graphs. The specific creation process of these datasets is not elaborated in the associated paper, but it can be inferred that they are generated by collecting and curating real-world text-attributed graph data, followed by annotation and processing. These datasets can be applied to various scenarios such as e-commerce networks, citation networks, and more, with the goal of helping researchers enhance the accuracy and efficiency of text-attributed graph anomaly detection.

提供机构：

西安交通大学计算机科学与技术学院, 陕西大数据知识工程省级重点实验室, 西安交通大学远程教育学院, 弗吉尼亚大学

创建时间：

2025-08-01

原始信息汇总

CMUCL数据集概述

1. 数据集简介

研究领域：文本属性图异常检测
方法：基于多尺度跨模态和单模态对比学习

2. 数据集详情

数据集	节点数	边数	平均文档长度	属性维度	异常数
Citeseer	3,186	3,432	153.94	768	128
Pubmed	19,717	90,368	256.08	768	788
History	41,551	369,252	228.36	768	1,662
Photo	48,362	512,933	150.25	768	1,934
Computers	87,229	742,792	93.16	768	3,490
Children	76,875	1,574,664	209.12	768	3,076
ogbn-Arxiv	169,343	1,210,112	179.70	768	6,774
CitationV8	1,106,759	6,396,265	148.77	768	44,270

3. 数据获取

下载地址：https://drive.google.com/drive/folders/1Suws6A-v0jBQpKeMphD0CEgxBjK-72AC?usp=sharing
存放路径：解压后放置于./data目录

4. 训练与推理

bash python main_train.py --dataset Citeseer --lr 0.0002 --epoch_num 2 --gamma 0.005 python main_train.py --dataset Pubmed --lr 2e-05 --epoch_num 2 --gamma 0.001 python main_train.py --dataset History --lr 2e-05 --epoch_num 2 --gamma 0.5 python main_train.py --dataset Photo --lr 5e-05 --epoch_num 3 --gamma 0.001 python main_train.py --dataset Computers --lr 2e-05 --epoch_num 3 --gamma 0.01 python main_train.py --dataset Children --lr 5e-05 --epoch_num 2 --gamma 0.5 python main_train.py --dataset Arxiv --lr 1e-05 --epoch_num 2 --gamma 0.01 python main_train.py --dataset CitationV8 --lr 2e-5 --epoch_num 2 --gamma 0.5

5. 环境配置

Python版本：3.8.13
核心依赖库：
- torch==1.12.1
- torch-geometric==2.1.0.post1
- transformers==4.24.0
- 相关图形处理库（torch-cluster/scatter/sparse/spline-conv）

搜集汇总

数据集介绍

构建方式

该数据集构建于文本属性图（TAGs）的背景下，通过整合图拓扑结构与原始文本序列信息，采用多尺度跨模态和单模态对比学习框架。具体构建过程包括：首先，利用基于GNN的图编码器和基于LM的文本编码器分别从图和文本两个视角学习节点级信息；其次，通过编码节点邻域的上下文信息，获取更具代表性的子图级特征；最后，设计基于不一致性挖掘的异常评分估计器，将一致性度量转化为具体的异常分数。

使用方法

该数据集的使用方法主要包括三个步骤：首先，通过联合优化的双模态编码器（图编码器和文本编码器）提取节点级和上下文级特征表示；其次，利用设计的跨模态和单模态多尺度对比学习目标函数进行模型训练，最大化正常节点在不同模态和尺度下的一致性；最后，采用基于不一致性挖掘的异常评分估计器，通过计算正负样本对的相似度以及对比视图的交叉熵信息，生成最终的节点异常分数。数据集特别适用于研究文本属性图上的自监督异常检测任务。

背景与挑战

背景概述

该数据集由西安交通大学与美国弗吉尼亚大学的研究团队于2025年构建，聚焦文本属性图（Text-Attributed Graphs, TAGs）的异常检测问题。作为首个专门针对TAG异常检测任务构建的基准数据集，其包含8个子集覆盖引文网络和电商网络两大场景，最大规模达110万节点和630万边。该研究突破了传统图异常检测仅利用数值属性特征的局限，创新性地融合图拓扑结构与原始文本序列的跨模态信息，通过端到端的对比学习框架实现了11.13%的平均检测精度提升，为图机器学习与自然语言处理的交叉研究提供了重要基础设施。

当前挑战

领域挑战方面，传统方法难以有效捕捉文本语义与图结构间的复杂关联，且浅层文本编码会损失关键异常信号。构建挑战体现在三方面：跨模态对齐需解决语言模型与图神经网络的特征空间异构性问题；多尺度异常检测要求同步建模节点级与上下文级特征；大规模图数据处理面临计算复杂度与内存消耗的平衡难题。此外，真实场景中异常样本稀缺且类型多样，需设计鲁棒的自监督任务来挖掘潜在异常模式。

常用场景

经典使用场景

在电子商务网络和学术引用网络中，文本属性图（TAGs）异常检测数据集被广泛应用于识别异常节点。这些异常节点可能表现为商品评论中的虚假评论或学术论文中的异常引用模式。通过结合图拓扑结构和文本属性，该数据集能够有效地捕捉这些异常行为，为后续的异常检测算法提供丰富的多模态信息。

解决学术问题

该数据集解决了传统图异常检测方法在处理文本属性图时的局限性问题。传统方法通常将文本编码过程与异常检测目标分离，导致提取的文本特征无法专注于异常相关信息。通过引入跨模态和多尺度对比学习，该数据集能够无缝整合原始文本和图拓扑结构，从而显著提升异常检测的准确性和鲁棒性。

实际应用

在实际应用中，该数据集可用于电子商务平台中的虚假评论检测、学术网络中的异常引用识别以及社交网络中的异常用户行为分析。例如，在电子商务平台中，通过分析商品评论的文本属性和用户之间的交互图结构，可以有效地识别出潜在的虚假评论或刷单行为。

数据集最近研究