Twitter, microblogPCU, Academia.edu, ArXiv, Boys’ Friendship, DBLP, Flixster, Yelp, douban, DARPA, twitterworldcup2014, twittersecurity

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/lizhong2613/GraphAnomalyDetectionDatasets

下载链接

链接失效反馈

官方服务：

资源简介：

Twitter数据集使用接口查询如果用户账号被停用则为异常数据执行代码见python文件, 新浪微博数据集可以使用微博地址+用户编号确定用户是否异常账户账号被停用则为异常数据执行代码见weibo_checker.py文件, 论文作者之间的相互关系, 论文作者之间的相互关系, 该数据集为一个德国学校班级的友谊网络（1880-81年）, DBLP 是计算机领域内对研究的成果以作者为核心的一个计算机类英文文献的集成数据库系统, librec是一个推荐系统，里面公开了很多可用于图异常检测的数据集.Flixster是一个社交电影网站，允许用户分享电影评论和发现新电影, Yelp是美国最大点评网站, 该数据集为异质网络, DARPA是一个入侵检测评估数据集, twitterworldcup2014是一个关于2014年世界杯的推特数据集, twittersecurity是一个关于安全相关的推特数据集

Twitter Dataset: Interface queries are used to identify abnormal data if a user account is deactivated. The execution code can be found in the Python file. Sina Weibo Dataset: The combination of Weibo URL and user ID can be used to determine if a user account is abnormal. Deactivated accounts are considered abnormal data. The execution code is available in the weibo_checker.py file. Relationships among paper authors, Relationships among paper authors, This dataset represents a friendship network of a German school class (1880-81). DBLP is an integrated database system in the field of computer science, focusing on research outputs centered around authors. Librec is a recommendation system that publicly offers many datasets usable for graph anomaly detection. Flixster is a social movie website that allows users to share movie reviews and discover new films. Yelp is the largest review site in the United States. This dataset is a heterogeneous network. DARPA is an intrusion detection evaluation dataset. TwitterWorldCup2014 is a Twitter dataset related to the 2014 World Cup. TwitterSecurity is a Twitter dataset related to security topics.

创建时间：

2019-12-08

原始信息汇总

图异常检测数据集

网络类型为同质网络

数据集名称	节点数目	边数目	下载地址	说明
Twitter	81306	1768149	http://proj.ise.bgu.ac.il/sns/datasets/twitter.csv.gz	使用接口查询如果用户账号被停用则为异常数据
microblogPCU	99413	124642	https://archive.ics.uci.edu/ml/machine-learning-databases/00323/	账号被停用则为异常数据
Academia.edu	85577	137171	http://proj.ise.bgu.ac.il/sns/datasets/academia.csv.gz	论文作者之间的相互关系
ArXiv	5242	14484	见项目文件	论文作者之间的相互关系
Boys’ Friendship	185	360	http://proj.ise.bgu.ac.il/sns/datasets/Relationship_patterns_in_the_19th_century.csv	德国学校班级的友谊网络（1880-81年）
DBLP	317,080	1,049,866	http://snap.stanford.edu/data/com-DBLP.html	计算机类英文文献的集成数据库系统

网络类型为异质网络

数据集名称	节点数目	边数目	下载地址	说明
Flixster	787,213	11,794,648	https://www.librec.net/download.html	社交电影网站，用于图异常检测
Yelp	-	5,200,000	https://www.kaggle.com/yelp-dataset/yelp-dataset	美国最大点评网站
douban	129490	1,692,952	https://www.librec.net/datasets.html	异质网络

时序数据集

数据集名称	节点数目	边数目	下载地址	说明
DARPA	-	-	https://www.ll.mit.edu/r-d/datasets/1998-darpa-intrusion-detection-evaluation-dataset	*
twitterworldcup2014	-	-	http://odds.cs.stonybrook.edu/twitterworldcup2014-dataset/	*
twittersecurity	-	-	http://odds.cs.stonybrook.edu/twittersecurity-dataset/	*

其他数据集

SNAP公开的数据集：地址
BGU公开的数据集：地址

搜集汇总

数据集介绍

构建方式

该数据集的构建基于多个社交网络平台，包括Twitter、新浪微博、Academia.edu、ArXiv等，通过收集和整合这些平台上的用户交互数据，形成了一个综合性的图异常检测数据集。具体而言，Twitter数据集通过接口查询用户账号状态，标记被停用的账号为异常；新浪微博数据集则通过微博地址和用户编号确定异常账户。此外，DBLP数据集整合了计算机领域的研究成果，构建了一个以作者为核心的文献数据库。这些数据集的构建不仅涵盖了同质网络，如Twitter和新浪微博，还包括异质网络，如Flixster和Yelp，以及时序数据集，如DARPA和twitterworldcup2014，从而为图异常检测提供了丰富的数据资源。

特点

该数据集的显著特点在于其多样性和综合性。首先，数据集涵盖了多种社交网络平台，包括Twitter、新浪微博、Academia.edu等，这些平台的数据类型和结构各异，为研究者提供了丰富的分析素材。其次，数据集不仅包含同质网络，还涉及异质网络和时序数据，这使得研究者可以在不同类型的网络结构中探索异常检测的策略。此外，数据集中的标注文件详细记录了异常账户的信息，为研究提供了明确的参考标准。最后，数据集的规模庞大，如Twitter数据集包含超过80,000个节点和近200万条边，为大规模图异常检测提供了充足的数据支持。

使用方法

该数据集的使用方法多样，适用于多种图异常检测任务。首先，研究者可以通过下载地址获取原始数据，并使用提供的标注文件进行异常账户的识别和分析。例如，Twitter数据集的标注文件详细记录了被停用的账号，研究者可以据此进行异常检测模型的训练和验证。其次，数据集中的执行代码，如weibo_checker.py，为研究者提供了直接的工具支持，便于快速实现数据处理和分析。此外，数据集的多样性使得研究者可以在不同类型的网络结构中进行实验，探索适用于不同场景的异常检测算法。最后，数据集的公开性和详细文档，为学术研究和实际应用提供了便利。

背景与挑战

背景概述

图异常检测数据集在社交网络分析和网络安全领域具有重要意义。Twitter数据集由Ben-Gurion University的研究团队创建，包含81,306个节点和1,768,149条边，旨在通过检测被停用的用户账号来识别异常行为。该数据集的构建时间可追溯至社交网络分析的早期阶段，其核心研究问题是如何在庞大的社交网络中有效识别和分类异常节点。Twitter数据集不仅为图异常检测算法提供了丰富的实验数据，还推动了社交网络分析技术的发展，特别是在用户行为模式和网络结构分析方面。

当前挑战

Twitter数据集在构建和应用过程中面临多重挑战。首先，数据集的规模庞大，导致数据处理和存储成为一大难题。其次，异常节点的标注依赖于用户账号的停用状态，这种标注方法可能存在主观性和不一致性。此外，社交网络的动态变化特性使得数据集的时效性和更新频率成为关键问题。最后，如何在保持数据隐私的前提下进行有效的异常检测，是该数据集在实际应用中需要解决的重要挑战。

常用场景

经典使用场景

在图异常检测领域，Twitter数据集被广泛用于识别社交媒体平台上的异常用户行为。通过分析用户之间的互动关系，研究人员可以检测出那些因违反平台规则而被停用的账号。此数据集的经典使用场景包括构建用户社交网络图，并通过图算法识别出潜在的异常节点，从而为社交媒体平台的用户管理提供支持。

衍生相关工作

基于Twitter数据集，许多相关研究工作得以展开。例如，研究人员开发了多种图异常检测算法，如基于社区检测的方法和基于图神经网络的方法。这些工作不仅在学术界引起了广泛关注，还为工业界提供了实用的解决方案。此外，该数据集还促进了社交媒体数据分析工具的发展，推动了相关领域的技术进步。

数据集最近研究