twitter-influence-propagation-dataset

github2021-12-23 更新2024-05-31 收录

下载链接：

https://github.com/dapurv5/twitter-influence-propagation-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于研究twitter上的影响力传播，包含两个主要部分：followers和tweets。followers部分包含50个随机选择的转发者，可视为伪跟随者。tweets部分是一个时间排序的tsv文件，记录了网络中的推文及其属性。

This dataset is designed for researching the dissemination of influence on Twitter, comprising two main sections: followers and tweets. The followers section includes 50 randomly selected retweeters, who can be considered as pseudo-followers. The tweets section is a time-ordered TSV file that records the tweets and their attributes within the network.

创建时间：

2016-05-28

原始信息汇总

数据集概述

数据集名称

twitter-influence-propagation-dataset

数据集用途

用于研究Twitter上的影响力传播。

数据集结构

followers/
- 包含50个近期转发者的随机样本，可视为伪追随者。
- 每个文件对应一位名人的追随者。
- 当前版本的数据集中，只有部分名人的追随者信息。
tweets/
- 包含时间排序的tsv文件。
- 每行代表网络中的一个推文。
- 第一列存储推文时间，第二列存储网络中的节点ID。
- 名人节点在每个网络中被分配节点ID为1，其他节点ID范围为[2-51]。
- 第三列表示该推文是否为名人节点的转发，1表示是转发，0表示不是转发。

数据集生成代码

数据集生成代码可在此处找到。

贡献者

感谢Tristan Gurtler，他基于初始版本的代码进行了大部分的数据收集工作。

搜集汇总

数据集介绍

构建方式

该数据集构建于社交媒体影响力传播的研究背景之下，旨在捕捉Twitter网络中信息传播的动态变化。数据集的构建过程涉及从特定名人账户的时间线中随机选取50个最近的转发者，这些转发者被视为伪粉丝。每个名人的粉丝数据存储于单独的文件中，而推文数据则以时间排序的TSV文件形式呈现，记录了每条推文的时间、节点ID以及是否为名人节点的转发。

特点

该数据集的特点在于其精细的时间序列数据和节点关系标注。每条推文都精确记录了时间戳和节点ID，使得研究者能够追踪信息在网络中的传播路径。此外，数据集明确标注了每条推文是否为名人节点的转发，为分析影响力传播提供了关键信息。数据集的结构化设计使其适用于动态网络分析和影响力传播模型的验证。

使用方法

使用该数据集时，研究者可以通过分析推文的时间序列数据，探索信息在网络中的传播模式。数据集中的节点ID和转发标注可用于构建网络图，进而研究节点之间的影响力传播路径。此外，数据集还可用于训练和验证影响力传播模型，评估不同节点在网络中的影响力强度。通过结合代码库中的数据处理工具，研究者可以进一步扩展和定制分析流程。

背景与挑战

背景概述

twitter-influence-propagation-dataset数据集由Shuang Li、Yao Xie、Mehrdad Farajtabar和Le Song等研究人员于2016年创建，旨在研究动态网络中弱变化的检测问题。该数据集基于Twitter平台，专注于分析名人账户与其追随者之间的影响力传播机制。通过收集名人账户的推文及其追随者的转发行为，数据集为研究社交网络中的信息传播模式提供了重要支持。该研究发表在《CoRR》期刊上，推动了社交网络分析领域的发展，特别是在影响力传播和网络动态变化检测方面。

当前挑战

twitter-influence-propagation-dataset面临的挑战主要包括两个方面。首先，在解决社交网络影响力传播问题时，如何准确捕捉和量化弱变化是一个关键难题，尤其是在大规模动态网络中，信号微弱且噪声干扰显著。其次，在数据构建过程中，由于Twitter平台的API限制和数据隐私问题，获取完整且高质量的数据集具有较高难度。此外，数据的时间排序和节点关系的复杂性也对数据集的构建提出了更高的技术要求。这些挑战不仅影响了数据集的完整性，也对后续研究的准确性和可靠性提出了更高的要求。

常用场景

经典使用场景

在社交网络分析领域，twitter-influence-propagation-dataset被广泛用于研究信息传播的动态过程。该数据集通过捕捉推特网络中名人账户与其追随者之间的互动，尤其是转发行为，为研究者提供了一个理想的实验平台。通过分析这些互动数据，研究者能够深入探讨信息在网络中的传播路径、速度以及影响力扩散的模式。

衍生相关工作

基于twitter-influence-propagation-dataset，许多经典研究工作得以展开。例如，Li等人（2016）利用该数据集提出了检测网络中动态事件微弱变化的方法，为社交网络分析领域提供了新的研究视角。此外，该数据集还激发了大量关于信息传播模型、影响力最大化算法以及社交网络结构分析的研究，推动了相关领域的快速发展。

数据集最近研究