Datasets for Information Diffusion Tasks

github2024-07-07 更新2024-07-12 收录

下载链接：

https://github.com/fuxiaG/Information-Diffusion-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于信息扩散任务的数据集集合，涵盖了信息扩散预测、社交机器人检测和错误信息检测等多个子任务及其相互关系。

This is a dataset collection pertaining to information diffusion tasks, encompassing various subtasks such as information diffusion prediction, social bot detection, and misinformation detection, along with their interrelationships.

创建时间：

2024-07-07

原始信息汇总

信息扩散任务数据集概述

数据集分类与属性

任务分类
- 信息扩散预测
- 社交机器人检测
- 虚假信息检测
六大属性
- 用户属性
  - 用户信息
  - 机器人标签
  - 社交网络
- 内容属性
  - 传播内容
  - 真实性标签
  - 传播网络

数据集详情

信息扩散预测

宏观扩散预测

Cascade Size Prediction
- Twitter-casflow
  - 来源：Twitter
  - 下载链接：https://github.com/Xovee/casflow
  - 论文：https://doi.org/10.1109/TKDE.2021.3126475
  - 时间范围：2012.3 ~ 2012.4
- APS
  - 来源：American Physical Society
  - 下载链接：https://github.com/Xovee/casflow
  - 论文：https://doi.org/10.1109/TKDE.2021.3126475
  - 时间范围：1893 ~ 2009
Popularity Prediction
- SMPD
  - 来源：Flickr
  - 下载链接：https://smp-challenge.com/download.html
  - 论文：https://doi.org/10.1145/3343031.3356084
  - 时间范围：2015.3 ~ 2016.7
User Attitudes Prediction
- COVID-19-rumor
  - 来源：Twitter, news websites
  - 下载链接：https://github.com/MickeysClubhouse/COVID-19-rumor-dataset
  - 论文：https://doi.org/10.3389/fpsyg.2021.644801
  - 时间范围：2018 ~ 2020

微观扩散预测

Next User Prediction
- Twitter-FOREST
  - 来源：Twitter
  - 下载链接：https://github.com/albertyang33/FOREST/tree/master/data
  - 论文：https://doi.org/10.24963/ijcai.2019/560
  - 时间范围：2010.10
Social Influence Prediction
- OAG-DeepInf
  - 来源：Microsoft Academic Graph, AMiner
  - 下载链接：https://github.com/xptree/DeepInf
  - 论文：https://doi.org/10.1145/3219819.3220077
  - 时间范围：2018.11 ~ 2019.1

社交机器人检测

User-based Bot Detection
- cresci-2017
  - 来源：Twitter
  - 下载链接：https://botometer.osome.iu.edu/bot-repository/datasets.html
  - 论文：https://doi.org/10.1145/3041021.3055135
  - 时间范围：2015 ~ 2017

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对信息扩散任务的系统分类，采用了“5W模型”框架。研究团队将信息扩散任务细分为十个子任务，涵盖信息扩散预测、社交机器人检测和虚假信息检测三大主要任务。每个子任务均定义明确，并附有相关数据集的分析和代表性方法。此外，数据集的收集基于六个与用户和内容相关的属性：用户信息、社交网络、机器人标签、传播内容、传播网络和真实性标签。这些属性不仅丰富了数据集的内容，还为后续研究提供了多维度的分析视角。

特点

该数据集的显著特点在于其多维度的属性分类和丰富的数据来源。通过六个关键属性，数据集能够全面捕捉信息扩散过程中的用户行为和内容特征。此外，数据集涵盖了多个公开可用的数据源，包括Twitter、Sina Weibo、arXiv等，确保了数据的多样性和广泛性。这些特点使得该数据集不仅适用于信息扩散预测，还可用于社交机器人检测和虚假信息检测等多个研究领域。

使用方法

该数据集的使用方法简便且灵活。研究者可以通过提供的URL直接下载所需数据集，并根据具体研究需求选择合适的子任务和属性进行分析。数据集的README文件中详细列出了每个数据集的来源、下载链接、相关论文和时间范围，为研究者提供了全面的参考信息。此外，数据集的结构化设计使得数据处理和模型训练更加高效，有助于研究者在信息扩散领域的深入探索和创新研究。

背景与挑战

背景概述

信息扩散任务数据集（Datasets for Information Diffusion Tasks）是由郭福霞等研究人员在天津大学创建的，旨在支持信息扩散领域的研究。该数据集的构建基于“5W模型”框架，涵盖了信息扩散预测、社交机器人检测和虚假信息检测三大主要任务，并细分为十个子任务。数据集的创建不仅为研究人员提供了丰富的资源，还通过系统化的分类和分析，推动了信息扩散领域的理论与实践发展。该数据集的发布标志着信息扩散研究进入了一个新的阶段，为相关领域的研究提供了坚实的基础。

当前挑战

信息扩散任务数据集面临的主要挑战包括数据集的多样性和复杂性。首先，信息扩散任务涉及多个平台和多种数据类型，如用户信息、社交网络、机器人标签、传播内容等，这要求数据集在构建时需考虑多维度的数据整合。其次，数据集的构建过程中，如何确保数据的准确性和时效性也是一个重要挑战。此外，随着信息扩散任务的不断演进，数据集需要不断更新和扩展，以适应新的研究需求和技术发展。最后，数据集的开放性和可访问性也是当前面临的一个挑战，确保研究人员能够方便地获取和使用这些数据，是推动该领域研究的关键。

常用场景

经典使用场景

在信息传播任务领域，该数据集的经典使用场景主要集中在信息扩散预测、社交机器人检测和虚假信息检测三大任务中。通过分析用户信息、社交网络、机器人标签、传播内容、传播网络和真实性标签等六个属性，研究者能够深入理解信息在社交网络中的传播路径和影响机制。例如，在信息扩散预测中，研究者可以利用该数据集预测信息在社交网络中的传播规模和速度，从而为信息传播策略的制定提供科学依据。

衍生相关工作

基于该数据集，研究者们已经开展了一系列经典工作，包括信息扩散预测模型、社交机器人检测算法和虚假信息识别技术。例如，CasFlow模型利用该数据集探索了信息传播的层次结构和不确定性，显著提升了信息扩散预测的准确性。此外，DeepInf模型则通过深度学习技术，有效预测了社交网络中的影响力传播，为社交机器人检测和虚假信息识别提供了新的思路和方法。

数据集最近研究