USC X 24 US Election Twitter/X Dataset

github2024-11-11 更新2024-11-28 收录

下载链接：

https://github.com/sinking8/usc-x-24-us-election

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个目录，每个目录包含与2024年美国选举相关的50,000条推文。每个目录包含20个块文件，总计每个部分有1,000,000条推文。

This dataset comprises multiple directories. Each directory contains 50,000 tweets associated with the 2024 United States elections, includes 20 chunk files, and totals 1,000,000 tweets per directory.

创建时间：

2024-11-01

原始信息汇总

USC X 24 US Election Twitter/X Dataset

数据集概述

名称: USC X 24 US Election Twitter/X Dataset
内容: 包含与2024年美国大选相关的推文数据。
结构: 数据集分为多个目录，每个目录包含20个文件块，每个文件块包含50,000条推文，总计每个部分包含1,000,000条推文。

数据集结构

usc-x-24-us-election/ ├── part_1/ │ ├── timeline_chunk_1.csv.gz │ ├── timeline_chunk_2.csv.gz │ └── ... ├── part_2/ │ ├── timeline_2_chunk_21.csv.gz │ ├── timeline_2_chunk_22.csv.gz │ └── ... ├── part_3/ │ ├── timeline_3_chunk_41.csv.gz │ ├── timeline_3_chunk_42.csv.gz │ └── ... └── ...

数据描述

文件块: 每个文件块包含50,000条推文。
推文数量: 每个部分包含1,000,000条推文。

数据模式

字段名称	数据类型	描述
id	object	每个条目的唯一标识符。
text	object	推文文本内容。
url	object	与推文或内容相关的URL。
epoch	object	推文创建的时间戳。
media	object	推文中包含的媒体内容（图片、视频等）。
retweetedTweet	object	转推的推文内容（如果适用）。
retweetedTweetID	object	转推的推文ID。
retweetedUserID	object	原始推文用户的ID。
id_str	object	推文ID的字符串格式。
lang	object	推文内容的语言。
rawContent	object	推文的原始未处理文本。
replyCount	object	推文的回复数。
retweetCount	object	推文的转推数。
likeCount	object	推文的点赞数。
quoteCount	object	推文的引用数。
conversationId	object	推文所属对话的ID。
conversationIdStr	object	对话ID的字符串格式。
hashtags	object	推文中包含的话题标签。
mentionedUsers	object	推文中提到的用户。
links	object	推文中包含的外部链接。
viewCount	object	推文的浏览次数。
quotedTweet	object	引用的推文内容（如果适用）。
in_reply_to_screen_name	object	被回复用户的屏幕名称。
in_reply_to_status_id_str	object	被回复推文的ID字符串格式。
in_reply_to_user_id_str	object	被回复用户的ID字符串格式。
location	object	推文或用户的位置信息。
cash_app_handle	object	推文中提到的Cash App句柄（如果适用）。
user	object	用户信息或元数据。
date	object	推文的日期。
_type	object	推文类型（例如，原始推文、回复、转推）。
epoch_dt	datetime64[ns]	从时间戳派生的日期和时间。
user_id	float64	用户ID的浮点数格式。

使用说明

可以通过导航到相关部分目录并读取文件块进行进一步分析。
数据集结构允许以可管理的方式处理推文块，便于处理大型数据集。

数据使用协议

该数据集根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License (CC BY-NC-SA 4.0)授权。
使用该数据集需遵守许可证中的规定，并引用以下手稿：https://arxiv.org/abs/2411.00376

搜集汇总

数据集介绍

构建方式

在构建X数据集时，研究者们精心设计了一个多层次的存储结构，以确保数据的高效管理和分析。数据集被划分为多个名为`part_{part_number}`的目录，每个目录内包含20个以时间线为前缀的块文件。每个块文件内含50,000条与2024年美国大选相关的推文，这种分块处理不仅便于数据的存储和传输，还为后续的分析提供了便利。通过这种结构，研究者能够有效地管理和处理大规模的社交媒体数据，确保数据的完整性和可用性。

特点

X数据集的显著特点在于其结构化的数据存储方式和丰富的信息内容。每个块文件不仅包含了推文的文本内容，还涵盖了诸如推文ID、时间戳、媒体内容、转发信息、用户提及等多种元数据。这些详细的信息为研究者提供了多维度的分析视角，使得数据集在社交媒体分析、舆情监测和政治研究等领域具有广泛的应用潜力。此外，数据集的分块设计也使得大规模数据的处理和分析变得更加高效和灵活。

使用方法

使用X数据集时，研究者可以通过克隆GitHub仓库获取数据，并根据需要导航至相应的`part_{part_number}`目录，读取其中的块文件进行进一步分析。数据集的结构化设计使得研究者能够以较小的数据块为单位进行处理，从而在处理大规模数据时保持高效和灵活。此外，数据集还提供了详细的数据模式说明，帮助研究者理解和解析数据字段，确保分析的准确性和可靠性。通过这种方式，X数据集为社交媒体和政治研究提供了强大的数据支持。

背景与挑战

背景概述

USC X 24 US Election Twitter/X Dataset是由南加州大学（USC）的研究团队创建的一个专门用于分析2024年美国大选相关推文的公开数据集。该数据集的核心研究问题在于通过大规模的社交媒体数据，深入探讨和预测选举期间的公众情绪、舆论趋势以及候选人的社会影响力。数据集的构建始于2024年，由Ashwin Bhat教授领导的研究团队负责，其目的是为政治科学、社会学和计算机科学领域的学者提供一个丰富的数据资源，以推动相关领域的研究进展。

当前挑战

该数据集在构建过程中面临多项挑战。首先，数据收集的实时性和准确性是关键，需确保在选举期间能够捕捉到最新的公众情绪和舆论动态。其次，数据处理的复杂性在于如何有效过滤和分类海量的推文，以提取有价值的信息。此外，数据隐私和伦理问题也是不可忽视的挑战，特别是在涉及用户个人信息和言论自由的领域。最后，数据集的规模和结构要求高效的存储和检索技术，以支持大规模的数据分析和处理。

常用场景

经典使用场景

在政治分析领域，X Dataset 提供了丰富的社交媒体数据，特别是关于2024年美国大选的推文。研究者可以利用这些数据进行情感分析、舆论趋势预测以及候选人的社交媒体影响力评估。通过分析不同时间段和地区的推文，研究者能够洞察选民情绪变化和政治事件的即时反应，从而为政治策略制定提供数据支持。

衍生相关工作

基于 X Dataset，许多研究工作得以展开，包括社交媒体在选举中的作用研究、情感分析算法优化以及舆论传播模型构建。相关研究不仅提升了对社交媒体数据分析的技术水平，还为政治科学和传播学领域提供了新的研究视角。这些衍生工作进一步推动了数据驱动的政治研究和决策支持系统的发展。

数据集最近研究