Datasets for Information Diffusion Tasks
收藏github2024-07-07 更新2024-07-12 收录
下载链接:
https://github.com/fuxiaG/Information-Diffusion-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个关于信息扩散任务的数据集集合,涵盖了信息扩散预测、社交机器人检测和错误信息检测等多个子任务及其相互关系。
This is a dataset collection pertaining to information diffusion tasks, encompassing various subtasks such as information diffusion prediction, social bot detection, and misinformation detection, along with their interrelationships.
创建时间:
2024-07-07
原始信息汇总
信息扩散任务数据集概述
数据集分类与属性
-
任务分类
- 信息扩散预测
- 社交机器人检测
- 虚假信息检测
-
六大属性
- 用户属性
- 用户信息
- 机器人标签
- 社交网络
- 内容属性
- 传播内容
- 真实性标签
- 传播网络
- 用户属性
数据集详情
信息扩散预测
宏观扩散预测
-
Cascade Size Prediction
- Twitter-casflow
- 来源:Twitter
- 下载链接:https://github.com/Xovee/casflow
- 论文:https://doi.org/10.1109/TKDE.2021.3126475
- 时间范围:2012.3 ~ 2012.4
- APS
- 来源:American Physical Society
- 下载链接:https://github.com/Xovee/casflow
- 论文:https://doi.org/10.1109/TKDE.2021.3126475
- 时间范围:1893 ~ 2009
- Twitter-casflow
-
Popularity Prediction
- SMPD
- 来源:Flickr
- 下载链接:https://smp-challenge.com/download.html
- 论文:https://doi.org/10.1145/3343031.3356084
- 时间范围:2015.3 ~ 2016.7
- SMPD
-
User Attitudes Prediction
- COVID-19-rumor
- 来源:Twitter, news websites
- 下载链接:https://github.com/MickeysClubhouse/COVID-19-rumor-dataset
- 论文:https://doi.org/10.3389/fpsyg.2021.644801
- 时间范围:2018 ~ 2020
- COVID-19-rumor
微观扩散预测
-
Next User Prediction
- Twitter-FOREST
- 来源:Twitter
- 下载链接:https://github.com/albertyang33/FOREST/tree/master/data
- 论文:https://doi.org/10.24963/ijcai.2019/560
- 时间范围:2010.10
- Twitter-FOREST
-
Social Influence Prediction
- OAG-DeepInf
- 来源:Microsoft Academic Graph, AMiner
- 下载链接:https://github.com/xptree/DeepInf
- 论文:https://doi.org/10.1145/3219819.3220077
- 时间范围:2018.11 ~ 2019.1
- OAG-DeepInf
社交机器人检测
- User-based Bot Detection
- cresci-2017
- 来源:Twitter
- 下载链接:https://botometer.osome.iu.edu/bot-repository/datasets.html
- 论文:https://doi.org/10.1145/3041021.3055135
- 时间范围:2015 ~ 2017
- cresci-2017
搜集汇总
数据集介绍

构建方式
该数据集的构建基于对信息扩散任务的系统分类,采用了“5W模型”框架。研究团队将信息扩散任务细分为十个子任务,涵盖信息扩散预测、社交机器人检测和虚假信息检测三大主要任务。每个子任务均定义明确,并附有相关数据集的分析和代表性方法。此外,数据集的收集基于六个与用户和内容相关的属性:用户信息、社交网络、机器人标签、传播内容、传播网络和真实性标签。这些属性不仅丰富了数据集的内容,还为后续研究提供了多维度的分析视角。
特点
该数据集的显著特点在于其多维度的属性分类和丰富的数据来源。通过六个关键属性,数据集能够全面捕捉信息扩散过程中的用户行为和内容特征。此外,数据集涵盖了多个公开可用的数据源,包括Twitter、Sina Weibo、arXiv等,确保了数据的多样性和广泛性。这些特点使得该数据集不仅适用于信息扩散预测,还可用于社交机器人检测和虚假信息检测等多个研究领域。
使用方法
该数据集的使用方法简便且灵活。研究者可以通过提供的URL直接下载所需数据集,并根据具体研究需求选择合适的子任务和属性进行分析。数据集的README文件中详细列出了每个数据集的来源、下载链接、相关论文和时间范围,为研究者提供了全面的参考信息。此外,数据集的结构化设计使得数据处理和模型训练更加高效,有助于研究者在信息扩散领域的深入探索和创新研究。
背景与挑战
背景概述
信息扩散任务数据集(Datasets for Information Diffusion Tasks)是由郭福霞等研究人员在天津大学创建的,旨在支持信息扩散领域的研究。该数据集的构建基于“5W模型”框架,涵盖了信息扩散预测、社交机器人检测和虚假信息检测三大主要任务,并细分为十个子任务。数据集的创建不仅为研究人员提供了丰富的资源,还通过系统化的分类和分析,推动了信息扩散领域的理论与实践发展。该数据集的发布标志着信息扩散研究进入了一个新的阶段,为相关领域的研究提供了坚实的基础。
当前挑战
信息扩散任务数据集面临的主要挑战包括数据集的多样性和复杂性。首先,信息扩散任务涉及多个平台和多种数据类型,如用户信息、社交网络、机器人标签、传播内容等,这要求数据集在构建时需考虑多维度的数据整合。其次,数据集的构建过程中,如何确保数据的准确性和时效性也是一个重要挑战。此外,随着信息扩散任务的不断演进,数据集需要不断更新和扩展,以适应新的研究需求和技术发展。最后,数据集的开放性和可访问性也是当前面临的一个挑战,确保研究人员能够方便地获取和使用这些数据,是推动该领域研究的关键。
常用场景
经典使用场景
在信息传播任务领域,该数据集的经典使用场景主要集中在信息扩散预测、社交机器人检测和虚假信息检测三大任务中。通过分析用户信息、社交网络、机器人标签、传播内容、传播网络和真实性标签等六个属性,研究者能够深入理解信息在社交网络中的传播路径和影响机制。例如,在信息扩散预测中,研究者可以利用该数据集预测信息在社交网络中的传播规模和速度,从而为信息传播策略的制定提供科学依据。
衍生相关工作
基于该数据集,研究者们已经开展了一系列经典工作,包括信息扩散预测模型、社交机器人检测算法和虚假信息识别技术。例如,CasFlow模型利用该数据集探索了信息传播的层次结构和不确定性,显著提升了信息扩散预测的准确性。此外,DeepInf模型则通过深度学习技术,有效预测了社交网络中的影响力传播,为社交机器人检测和虚假信息识别提供了新的思路和方法。
数据集最近研究
最新研究方向
在信息扩散任务领域,最新的研究方向主要集中在信息扩散预测、社交机器人检测和虚假信息检测三个主要任务上。这些研究通过分析用户信息、社交网络、机器人标签、传播内容、传播网络和真实性标签等六个属性,深入探讨了信息扩散的动态过程。特别是,研究者们正在利用深度学习和图神经网络等先进技术,提升对信息扩散路径和用户行为的预测精度。此外,随着社交媒体上虚假信息和社交机器人的增加,检测和预测这些现象的方法也在不断演进,以提高信息传播的透明度和可信度。这些研究不仅有助于理解信息扩散的复杂机制,还为制定有效的信息管理策略提供了科学依据。
以上内容由遇见数据集搜集并总结生成



