Election2020: The First Public Twitter Dataset on the 2020 US Presidential Election

Name: Election2020: The First Public Twitter Dataset on the 2020 US Presidential Election
Creator: 南加州大学信息科学研究所
Published: 2020-10-02 02:00:03
License: 暂无描述

arXiv2020-10-02 更新2024-06-21 收录

下载链接：

https://github.com/echen102/us-pres-elections-2020

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为‘Election2020: The First Public Twitter Dataset on the 2020 US Presidential Election’，由南加州大学信息科学研究所创建。该数据集包含超过2.4亿条推文，涵盖了2019年至2020年美国政治和选举相关的所有重要趋势、人物和事件。数据集的创建过程涉及使用Twitter的流API进行不间断收集，并跟踪与选举相关的特定提及和账户。此数据集主要用于研究在线政治言论的动态，特别是在疫情期间的选举背景下，旨在解决如信息操纵、外国干预等问题。

This dataset, titled 'Election2020: The First Public Twitter Dataset on the 2020 US Presidential Election', was developed by the Information Sciences Institute of the University of Southern California. It contains over 240 million tweets covering all key trends, prominent figures, and events related to U.S. politics and elections between 2019 and 2020. The dataset was constructed via continuous data collection using Twitter's Streaming API, with targeted tracking of election-related mentions and user accounts. Primarily designed for research on the dynamics of online political discourse—especially within the context of the 2020 U.S. presidential election amid the COVID-19 pandemic—this dataset aims to address critical issues including information manipulation and foreign interference.

提供机构：

南加州大学信息科学研究所

创建时间：

2020-10-02

搜集汇总

数据集介绍

构建方式

在社交媒体日益影响政治话语的背景下，Election2020数据集通过Twitter流式API系统性地采集了与美国2020年总统大选相关的推文。自2019年5月20日起，研究团队持续追踪了包括总统候选人官方账号、个人提及及手动编纂的关键词与话题标签在内的多维度数据源。数据收集过程动态调整，依据竞选活动的实际进展实时更新追踪列表，例如在候选人退选后暂停追踪，又因后续政治事件重新激活。该数据集最终以推文ID集合的形式发布，遵循Twitter开发者协议，确保了数据的合规性与可复现性。

特点

Election2020数据集作为首个专注于2020年美国总统大选的公开Twitter语料库，其突出特点在于规模宏大与时间跨度完整。该数据集涵盖超过六亿条推文，内容跨越共和党与民主党初选全程，并延伸至大选投票及后续时期，完整记录了竞选周期中的关键事件与舆论演变。数据呈现多语言特性，不仅捕捉了候选人与政党的官方叙事，也深入反映了公众讨论中的党派极化、阴谋论及与新冠疫情交织的公共卫生议题，为分析在线政治话语的动态提供了丰富素材。

使用方法

研究人员可通过项目GitHub仓库获取数据文件，其中包含按时间序列组织的推文ID集合。由于Twitter政策限制，用户需借助Hydrator或Twarc等工具，配合Twitter API将ID还原为完整的推文元数据与文本内容。数据集附带了预处理的Python脚本，以辅助完成数据提取与初步清洗工作。在使用过程中，研究者需严格遵守Twitter平台的使用条款与数据许可协议，并注意已删除推文将无法被检索。该数据集适用于计算社会科学、政治传播学及信息生态学等领域，尤其适合于研究虚假信息、舆论操纵及在线话语干扰等前沿议题。

背景与挑战

背景概述

在数字时代，社交媒体已成为政治话语的核心载体，深刻塑造公众舆论与选举动态。为探究2020年美国总统大选期间在线政治讨论的复杂性，南加州大学信息科学研究所的Emily Chen、Ashok Deb与Emilio Ferrara于2020年10月率先发布了Election2020数据集。该数据集自2019年5月起持续收集，涵盖数百亿条与选举相关的多语言推文，纵向追踪了共和党与民主党初选至大选全过程的核心趋势、关键人物与重大事件。作为首个专注于此次大选的公开Twitter数据集，它不仅为计算社会科学研究提供了宝贵资源，更助力学术界深入剖析虚假信息、政治极化及外国干预等紧迫议题，对理解疫情背景下的民主进程具有里程碑意义。

当前挑战

Election2020数据集致力于解决在线政治话语分析中的核心挑战，尤其是在高度极化的选举环境中识别虚假信息、追踪舆论操纵及量化政治影响力所面临的数据稀缺问题。构建过程中，研究团队需应对多重技术障碍：其一，Twitter API的流式数据获取仅覆盖平台内容的约1%，可能导致关键讨论的遗漏；其二，数据规模庞大，已收集超6000亿条推文，原始数据量达4TB，对存储、处理与清洗提出极高要求；其三，遵循Twitter开发者协议，数据集仅能发布推文ID，用户需自行补全内容，而删除推文将导致数据缺失，影响分析的完整性与可复现性。

常用场景

经典使用场景

在计算社会科学领域，社交媒体数据已成为研究政治传播与公众舆论动态的核心资源。Election2020数据集作为首个聚焦2020年美国总统大选的公开推特数据集，其经典使用场景在于为学者提供了大规模、纵向的在线政治话语分析基础。通过追踪数百名政治人物账号、选举相关关键词与话题标签，该数据集使得研究人员能够深入探究选举周期中的舆论演变、党派极化现象以及突发事件对公众讨论的影响，为理解数字时代政治沟通机制提供了实证支撑。

衍生相关工作

自该数据集发布以来，已衍生出多项具有影响力的学术工作。例如，研究者利用其探究了政治极化如何驱动COVID-19相关讨论，揭示了党派立场与公共卫生话语的关联；另有工作专注于识别推特机器人散布的阴谋论类型，深化了对自动化操纵机制的认识。这些研究不仅拓展了选举干预、虚假信息检测等传统议题的实证边界，还促进了网络叙事分析、多模态内容理解等新兴方向的发展，形成了以数据为中心的政治传播研究子领域。

数据集最近研究