five

Unfiltered Conversations: A Dataset of 2024 U.S. Presidential Election Discourse on Truth Social

收藏
arXiv2024-11-03 更新2024-11-06 收录
下载链接:
https://github.com/kashish-s/TruthSocial_2024ElectionInitiative
下载链接
链接失效反馈
官方服务:
资源简介:
'Unfiltered Conversations'数据集由南加州大学HUMANS实验室创建,专注于2024年美国大选期间Truth Social平台上的政治讨论。该数据集包含150万条帖子,涵盖2022年2月至2024年10月期间的内容,包括帖子、回复、用户互动和媒体。数据集的创建始于2024年6月,旨在研究Truth Social在选举期间的通信模式、社区形成和信息传播。该数据集的应用领域主要集中在政治话语分析,旨在揭示Truth Social在选举期间对公众舆论和民主进程的影响。

'Unfiltered Conversations' dataset was created by the HUMANS Lab at the University of Southern California, focusing on political discussions on the Truth Social platform during the 2024 U.S. presidential election. This dataset contains 1.5 million posts, covering content from February 2022 to October 2024, including posts, replies, user interactions and media. The development of this dataset began in June 2024, aiming to study the communication patterns, community formation and information dissemination of Truth Social during the election period. The main application fields of this dataset focus on political discourse analysis, aiming to reveal the impact of Truth Social on public opinion and the democratic process during the election.
提供机构:
南加州大学HUMANS实验室
创建时间:
2024-11-03
原始信息汇总

TruthSocial Dataset - The 2024 Election Integrity Initiative

数据集概述

  • 时间范围: 2022年2月 - 2024年10月
  • 帖子数量: 150万
  • 包含数据: 帖子、评论、用户互动、内容和媒体

数据集链接

研究目的和潜力

  • 沟通模式: 分析用户在平台上的沟通和互动方式。
  • 社区形成: 洞察在线社区如何在Truth Social上形成和互动。
  • 信息传播: 理解政治和社会叙事在平台上的传播方式。

数据集目标

  • 支持对alt-tech社交媒体平台上政治话语的进一步研究。
  • 分析有限内容审核对政治讨论和信息传播的影响。

数据处理脚本

  • auto_fire_scraper.py: 自动化抓取趋势关键词的脚本,捕获相关帖子和元数据。
  • auto_fire_scraper_persistent_keywords.py: 持续使用一组关键词进行抓取,确保持续数据收集。
  • data_pipeline.py: 主要数据处理脚本,用于清理、处理和结构化原始数据。
  • keyword_mappings.json: 包含各种关键词和标签映射的JSON文件,用于一致性分析。
  • scrape_one_keyword.py: 针对单个关键词进行数据收集的脚本。
  • scrape_one_keyword_persistent_keywords.py: 针对单个关键词进行持续数据收集的脚本。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过每日数据收集管道构建,涵盖了Truth Social平台上与2024年美国总统选举相关的帖子、回复、用户互动、内容和媒体。数据收集始于2024年6月,但包含最早可追溯至2022年2月的帖子,共计150万条。数据收集方法包括每日两次对热门话题的抓取,以及每日三次对持久关键词的监控,确保捕捉到动态和静态话题的讨论。此外,数据处理阶段进行了去重和无关内容过滤,以确保数据集的高质量。
特点
该数据集具有以下特点:首先,它提供了Truth Social平台上关于2024年美国总统选举的全面活动记录,包括帖子、回复和用户互动。其次,数据集包含了详细的元数据和用户参与度指标,有助于深入分析用户行为和内容传播。最后,该数据集是一个动态更新的资源,将持续收集和更新选举相关的内容,为研究者提供持续的数据支持。
使用方法
研究者可以通过访问公开的GitHub仓库获取该数据集,并利用其进行多种分析,如通信模式研究、在线社区形成分析以及信息传播研究。数据集的详细元数据和用户参与度指标为研究提供了丰富的信息,有助于探索Truth Social在选举期间的角色和影响。此外,数据集的持续更新特性使得研究者能够跟踪选举期间的动态变化,进行纵向研究。
背景与挑战
背景概述
近年来,随着社交媒体平台的多样化,新兴的‘alt-tech’平台如Truth Social逐渐崭露头角,这些平台以强调言论自由和极少的内容审查为特点。Truth Social作为这一类平台的代表,自前美国总统唐纳德·特朗普被主流社交媒体封禁后推出,迅速成为右翼用户的主要聚集地。该平台不仅承载了alt-tech的自由言论理念,还因其独特的政治人物背景,成为2024年美国总统选举期间重要的政治讨论场所。由南加州大学HUMANS实验室的Kashish Shah、Patrick Gerard、Luca Luceri和Emilio Ferrara主导,该团队于2024年6月启动了数据收集工作,涵盖了从2022年2月至2024年10月的150万条帖子,旨在深入研究Truth Social在选举期间的用户互动模式和信息传播动态。
当前挑战
该数据集面临的挑战主要集中在两个方面。首先,Truth Social作为一个内容审查极少的平台,其用户群体的极端化和偏见性言论的传播是一个显著问题,这为研究者提供了分析极端言论和偏见传播机制的机会,但也增加了数据处理的复杂性。其次,数据收集过程中,如何准确捕捉和分类不同政治话题的讨论,尤其是那些迅速变化的热门话题和持续存在的政治关键词,是一个技术上的挑战。此外,随着选举的临近,数据量的急剧增加也对数据存储和分析能力提出了更高的要求。
常用场景
经典使用场景
在研究2024年美国总统选举的社交媒体话语中,Unfiltered Conversations数据集成为了一个不可或缺的资源。该数据集通过捕捉Truth Social平台上与选举相关的帖子、回复、用户互动和媒体内容,提供了对选举期间社交媒体动态的深入洞察。研究者利用这一数据集,可以分析Truth Social上的沟通模式、在线社区的形成以及信息的传播,从而揭示选举期间的政治话语和舆论趋势。
衍生相关工作
Unfiltered Conversations数据集的发布激发了大量相关研究工作。例如,研究者利用该数据集分析Truth Social上的用户互动模式,揭示了平台上的社区结构和信息传播路径。此外,该数据集还被用于研究社交媒体上的阴谋论和超党派叙事的传播机制,以及这些叙事如何影响公众意见和选举结果。这些研究不仅深化了对社交媒体在选举中作用的认识,也为未来的社交媒体研究提供了新的方向。
数据集最近研究
最新研究方向
在当前的政治与社会媒体研究领域,Unfiltered Conversations: A Dataset of 2024 U.S. Presidential Election Discourse on Truth Social数据集的最新研究方向聚焦于揭示Truth Social这一替代性社交媒体平台在2024年美国总统选举中的角色。该数据集通过收集和分析从2022年2月至2024年10月期间发布的150万条帖子,深入探讨了Truth Social上的政治讨论模式、用户互动动态以及信息传播机制。研究者们利用这一数据集,不仅能够分析Truth Social在选举期间如何影响公众舆论和政治观点的形成,还能评估其对选举结果可能产生的潜在影响。此外,该数据集还为研究Truth Social上的社区形成、极端观点传播以及平台在民主进程中的作用提供了宝贵的资源。
相关研究论文
  • 1
    Unfiltered Conversations: A Dataset of 2024 U.S. Presidential Election Discourse on Truth Social南加州大学HUMANS实验室 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作