Truth Social Dataset
收藏arXiv2023-03-21 更新2024-06-21 收录
下载链接:
https://doi.org/10.5281/zenodo.7531625
下载链接
链接失效反馈官方服务:
资源简介:
Truth Social Dataset是由圣母大学计算机科学与工程系创建的数据集,包含超过823,927条Truth Social平台的帖子,涉及454,458名用户。该数据集通过自定义网络爬虫从Truth Social的网页界面直接提取,涵盖了从2022年2月到10月的数据。Truth Social是一个声称提供言论自由避难所的替代社交平台,主要吸引因主流社交网络内容审核政策而感到不满的用户。该数据集可用于研究社交平台对信息消费的影响、用户群体的形成以及政治极化等问题,特别是在理解右翼政治运动用户的行为和信息传播模式方面具有重要价值。
The Truth Social Dataset was created by the Department of Computer Science and Engineering at the University of Notre Dame. It contains over 823,927 posts from the Truth Social platform, involving 454,458 users. The dataset was directly extracted from the web interface of Truth Social via a custom web crawler, covering data collected from February to October 2022. Truth Social is an alternative social platform that claims to provide a safe haven for free speech, primarily attracting users who are dissatisfied with the content moderation policies of mainstream social networks. This dataset can be used to study the impact of social platforms on information consumption, the formation of user groups, political polarization and other related issues, and is particularly valuable for understanding the behaviors and information dissemination patterns of users involved in right-wing political movements.
提供机构:
计算机科学与工程系 圣母大学
创建时间:
2023-03-21
搜集汇总
数据集介绍

构建方式
Truth Social Dataset的构建方法是通过定制的Web爬虫从Truth Social的Web界面直接提取相关数据。由于该网站没有提供公共API,研究人员采用了从特定账户开始逐个抓取的方法,并以广度优先的方式迭代地抓取每个账户的粉丝和关注者。这种方法从2022年9月4日开始,持续到2022年10月14日,共收集了65,536名用户的所有内容。数据元素在抓取过程中存储在本地数据库系统中,并以关系型数据库的方式进行了建模。最终,这些数据被导出为制表符分隔的文本文件,并通过Zenodo数据服务公开发布。
特点
Truth Social Dataset的特点在于其包含了Truth Social平台上大量用户和帖子的数据,特别是对65,536名最活跃用户的完整历史记录。数据集不仅包含了帖子和用户的基本信息,还包括了引用、回复、媒体内容、标签和外部链接等详细信息。此外,数据集还进行了初步的内容分析,揭示了平台上流行网站、外部链接和帖子的时间特征。数据集的设计遵循了FAIR原则,确保了数据的可发现性、可访问性、互操作性和可重用性。
使用方法
Truth Social Dataset的使用方法包括对其内容进行分析和研究。研究人员可以探索用户之间的社交网络、帖子的时间模式、流行网站和外部链接的分布,以及平台上传播的叙事和阴谋论。数据集的结构允许用户根据不同的研究目的进行查询和筛选,例如,通过特定的关键词或时间范围来研究帖子的内容。此外,数据集的开放性和标准化格式使得它能够轻松地与其他数据库或分析工具集成,为更深入的社会媒体研究和信息传播分析提供了基础。
背景与挑战
背景概述
Truth Social数据集是由美国圣母大学计算机科学与工程学院的Patrick Gerard, Nicholas Botzer和Tim Weninger三位研究人员创建的。该数据集收集了自2022年2月21日Truth Social平台启动至2022年10月15日期间的823,927条帖子以及454,458个独立用户的信息。该数据集的创建背景源于前美国总统唐纳德·特朗普在多个主流社交平台上的禁令和暂停使用后,Truth Social作为一个“替代”社交平台兴起,并声称是一个自由言论的避难所。由于其特殊的政治和社会背景,Truth Social迅速成为了右翼社交用户的聚集地,这些用户对现有主流社交平台的内容审核政策感到不满。该数据集的创建为研究Truth Social平台上的内容、用户行为以及社交网络结构提供了宝贵的资源。
当前挑战
Truth Social数据集的创建面临着诸多挑战。首先,由于Truth Social平台没有提供公共API,研究人员不得不使用自定义的Web爬虫来收集数据,这增加了数据收集的复杂性和难度。其次,由于平台对用户粉丝访问的限制,研究人员只能获取到每个用户的50个粉丝信息,这可能导致了数据的不完整性和潜在的采样偏差。此外,由于平台对HTTP请求的限制,研究人员在数据收集过程中可能未能收集到全部的数据。最后,由于数据收集方法是从一个热门用户@realDonaldTrump开始进行广度优先搜索,这可能导致数据样本倾向于政治用户和帖子,可能无法完全代表整个平台。尽管存在这些挑战,Truth Social数据集仍然为研究人员提供了研究该平台及其在社会媒体领域中的影响的重要资源。
常用场景
经典使用场景
Truth Social数据集提供了对Truth Social社交平台上的用户、帖子、回复、引用和媒体等数据的全面分析。这些数据可以用于研究社交平台如何影响信息消费、政治极化以及阴谋论和虚假信息的传播。例如,可以分析不同用户群体之间的信息流动和互动模式,以及特定事件或话题如何影响平台上的讨论。此外,数据集还提供了对Truth Social社交网络结构的研究,可以用于分析社交网络中的中心性、中介性和聚类等特征。这些分析可以帮助我们更好地理解Truth Social平台上的信息传播机制和社会动态。
实际应用
Truth Social数据集在实际应用场景中可以用于多种目的。首先,可以用于监测和识别Truth Social平台上的虚假信息和阴谋论。通过对平台上的用户和帖子进行分析,可以识别出可能传播虚假信息的用户和帖子,并对其进行相应的处理。其次,数据集可以用于研究社交网络上的信息传播和社交动态。通过对平台上的用户和帖子进行分析,可以了解不同用户群体之间的信息流动和互动模式,以及特定事件或话题如何影响平台上的讨论。此外,数据集还可以用于研究社交网络上的社会动态,例如中心性、中介性和聚类等特征。这些分析可以帮助我们更好地理解社交网络中的信息传播机制和社会动态。
衍生相关工作
Truth Social数据集衍生了许多相关的研究工作。例如,可以基于数据集分析Truth Social平台上的用户行为和信息传播模式,从而研究社交网络如何影响信息消费和政治极化。此外,还可以基于数据集分析Truth Social社交网络的结构和特征,从而研究社交网络中的中心性、中介性和聚类等特征。此外,还可以基于数据集研究Truth Social平台上的虚假信息和阴谋论传播,从而为社交网络的治理提供参考。总之,Truth Social数据集为社交网络研究提供了重要的数据支持,有助于推动相关研究的深入发展。
以上内容由遇见数据集搜集并总结生成



