five

Truth Social Dataset|社交网络分析数据集|政治极化数据集

收藏
arXiv2023-03-21 更新2024-06-21 收录
社交网络分析
政治极化
下载链接:
https://doi.org/10.5281/zenodo.7531625
下载链接
链接失效反馈
资源简介:
Truth Social Dataset是由圣母大学计算机科学与工程系创建的数据集,包含超过823,927条Truth Social平台的帖子,涉及454,458名用户。该数据集通过自定义网络爬虫从Truth Social的网页界面直接提取,涵盖了从2022年2月到10月的数据。Truth Social是一个声称提供言论自由避难所的替代社交平台,主要吸引因主流社交网络内容审核政策而感到不满的用户。该数据集可用于研究社交平台对信息消费的影响、用户群体的形成以及政治极化等问题,特别是在理解右翼政治运动用户的行为和信息传播模式方面具有重要价值。
提供机构:
计算机科学与工程系 圣母大学
创建时间:
2023-03-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
Truth Social Dataset的构建方法是通过定制的Web爬虫从Truth Social的Web界面直接提取相关数据。由于该网站没有提供公共API,研究人员采用了从特定账户开始逐个抓取的方法,并以广度优先的方式迭代地抓取每个账户的粉丝和关注者。这种方法从2022年9月4日开始,持续到2022年10月14日,共收集了65,536名用户的所有内容。数据元素在抓取过程中存储在本地数据库系统中,并以关系型数据库的方式进行了建模。最终,这些数据被导出为制表符分隔的文本文件,并通过Zenodo数据服务公开发布。
特点
Truth Social Dataset的特点在于其包含了Truth Social平台上大量用户和帖子的数据,特别是对65,536名最活跃用户的完整历史记录。数据集不仅包含了帖子和用户的基本信息,还包括了引用、回复、媒体内容、标签和外部链接等详细信息。此外,数据集还进行了初步的内容分析,揭示了平台上流行网站、外部链接和帖子的时间特征。数据集的设计遵循了FAIR原则,确保了数据的可发现性、可访问性、互操作性和可重用性。
使用方法
Truth Social Dataset的使用方法包括对其内容进行分析和研究。研究人员可以探索用户之间的社交网络、帖子的时间模式、流行网站和外部链接的分布,以及平台上传播的叙事和阴谋论。数据集的结构允许用户根据不同的研究目的进行查询和筛选,例如,通过特定的关键词或时间范围来研究帖子的内容。此外,数据集的开放性和标准化格式使得它能够轻松地与其他数据库或分析工具集成,为更深入的社会媒体研究和信息传播分析提供了基础。
背景与挑战
背景概述
Truth Social数据集是由美国圣母大学计算机科学与工程学院的Patrick Gerard, Nicholas Botzer和Tim Weninger三位研究人员创建的。该数据集收集了自2022年2月21日Truth Social平台启动至2022年10月15日期间的823,927条帖子以及454,458个独立用户的信息。该数据集的创建背景源于前美国总统唐纳德·特朗普在多个主流社交平台上的禁令和暂停使用后,Truth Social作为一个“替代”社交平台兴起,并声称是一个自由言论的避难所。由于其特殊的政治和社会背景,Truth Social迅速成为了右翼社交用户的聚集地,这些用户对现有主流社交平台的内容审核政策感到不满。该数据集的创建为研究Truth Social平台上的内容、用户行为以及社交网络结构提供了宝贵的资源。
当前挑战
Truth Social数据集的创建面临着诸多挑战。首先,由于Truth Social平台没有提供公共API,研究人员不得不使用自定义的Web爬虫来收集数据,这增加了数据收集的复杂性和难度。其次,由于平台对用户粉丝访问的限制,研究人员只能获取到每个用户的50个粉丝信息,这可能导致了数据的不完整性和潜在的采样偏差。此外,由于平台对HTTP请求的限制,研究人员在数据收集过程中可能未能收集到全部的数据。最后,由于数据收集方法是从一个热门用户@realDonaldTrump开始进行广度优先搜索,这可能导致数据样本倾向于政治用户和帖子,可能无法完全代表整个平台。尽管存在这些挑战,Truth Social数据集仍然为研究人员提供了研究该平台及其在社会媒体领域中的影响的重要资源。
常用场景
经典使用场景
Truth Social数据集提供了对Truth Social社交平台上的用户、帖子、回复、引用和媒体等数据的全面分析。这些数据可以用于研究社交平台如何影响信息消费、政治极化以及阴谋论和虚假信息的传播。例如,可以分析不同用户群体之间的信息流动和互动模式,以及特定事件或话题如何影响平台上的讨论。此外,数据集还提供了对Truth Social社交网络结构的研究,可以用于分析社交网络中的中心性、中介性和聚类等特征。这些分析可以帮助我们更好地理解Truth Social平台上的信息传播机制和社会动态。
实际应用
Truth Social数据集在实际应用场景中可以用于多种目的。首先,可以用于监测和识别Truth Social平台上的虚假信息和阴谋论。通过对平台上的用户和帖子进行分析,可以识别出可能传播虚假信息的用户和帖子,并对其进行相应的处理。其次,数据集可以用于研究社交网络上的信息传播和社交动态。通过对平台上的用户和帖子进行分析,可以了解不同用户群体之间的信息流动和互动模式,以及特定事件或话题如何影响平台上的讨论。此外,数据集还可以用于研究社交网络上的社会动态,例如中心性、中介性和聚类等特征。这些分析可以帮助我们更好地理解社交网络中的信息传播机制和社会动态。
衍生相关工作
Truth Social数据集衍生了许多相关的研究工作。例如,可以基于数据集分析Truth Social平台上的用户行为和信息传播模式,从而研究社交网络如何影响信息消费和政治极化。此外,还可以基于数据集分析Truth Social社交网络的结构和特征,从而研究社交网络中的中心性、中介性和聚类等特征。此外,还可以基于数据集研究Truth Social平台上的虚假信息和阴谋论传播,从而为社交网络的治理提供参考。总之,Truth Social数据集为社交网络研究提供了重要的数据支持,有助于推动相关研究的深入发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

NASA Exoplanet Archive

Exoplanets specifies Confirmed Planets.

kaggle 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

CCPD

CCPD是一个大型的、多样化的、经过仔细标注的中国城市车牌开源数据集。CCPD数据集主要分为CCPD2019数据集和CCPD2020(CCPD-Green)数据集。CCPD2019数据集车牌类型仅有普通车牌(蓝色车牌),CCPD2020数据集车牌类型仅有新能源车牌(绿色车牌)。在CCPD数据集中,每张图片仅包含一张车牌,车牌的车牌省份主要为皖。CCPD中的每幅图像都包含大量的标注信息,但是CCPD数据集没有专门的标注文件,每张图像的文件名就是该图像对应的数据标注。

github 收录

Kaggle Stock Market Data

该数据集包含多个股票市场的历史数据,涵盖了股票的开盘价、收盘价、最高价、最低价、成交量等信息。数据集还包括了股票的代码、日期和市场名称等基本信息。

www.kaggle.com 收录