USC X 24 US Election Twitter/X Dataset|选举分析数据集|社交媒体数据集

github2024-11-11 更新2024-11-28 收录

选举分析

社交媒体

下载链接：

https://github.com/sinking8/usc-x-24-us-election

下载链接

链接失效反馈

资源简介：

该数据集包含多个目录，每个目录包含与2024年美国选举相关的50,000条推文。每个目录包含20个块文件，总计每个部分有1,000,000条推文。

创建时间：

2024-11-01

原始信息汇总

USC X 24 US Election Twitter/X Dataset

数据集概述

名称: USC X 24 US Election Twitter/X Dataset
内容: 包含与2024年美国大选相关的推文数据。
结构: 数据集分为多个目录，每个目录包含20个文件块，每个文件块包含50,000条推文，总计每个部分包含1,000,000条推文。

数据集结构

usc-x-24-us-election/ ├── part_1/ │ ├── timeline_chunk_1.csv.gz │ ├── timeline_chunk_2.csv.gz │ └── ... ├── part_2/ │ ├── timeline_2_chunk_21.csv.gz │ ├── timeline_2_chunk_22.csv.gz │ └── ... ├── part_3/ │ ├── timeline_3_chunk_41.csv.gz │ ├── timeline_3_chunk_42.csv.gz │ └── ... └── ...

数据描述

文件块: 每个文件块包含50,000条推文。
推文数量: 每个部分包含1,000,000条推文。

数据模式

字段名称	数据类型	描述
id	object	每个条目的唯一标识符。
text	object	推文文本内容。
url	object	与推文或内容相关的URL。
epoch	object	推文创建的时间戳。
media	object	推文中包含的媒体内容（图片、视频等）。
retweetedTweet	object	转推的推文内容（如果适用）。
retweetedTweetID	object	转推的推文ID。
retweetedUserID	object	原始推文用户的ID。
id_str	object	推文ID的字符串格式。
lang	object	推文内容的语言。
rawContent	object	推文的原始未处理文本。
replyCount	object	推文的回复数。
retweetCount	object	推文的转推数。
likeCount	object	推文的点赞数。
quoteCount	object	推文的引用数。
conversationId	object	推文所属对话的ID。
conversationIdStr	object	对话ID的字符串格式。
hashtags	object	推文中包含的话题标签。
mentionedUsers	object	推文中提到的用户。
links	object	推文中包含的外部链接。
viewCount	object	推文的浏览次数。
quotedTweet	object	引用的推文内容（如果适用）。
in_reply_to_screen_name	object	被回复用户的屏幕名称。
in_reply_to_status_id_str	object	被回复推文的ID字符串格式。
in_reply_to_user_id_str	object	被回复用户的ID字符串格式。
location	object	推文或用户的位置信息。
cash_app_handle	object	推文中提到的Cash App句柄（如果适用）。
user	object	用户信息或元数据。
date	object	推文的日期。
_type	object	推文类型（例如，原始推文、回复、转推）。
epoch_dt	datetime64[ns]	从时间戳派生的日期和时间。
user_id	float64	用户ID的浮点数格式。

使用说明

可以通过导航到相关部分目录并读取文件块进行进一步分析。
数据集结构允许以可管理的方式处理推文块，便于处理大型数据集。

数据使用协议

该数据集根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License (CC BY-NC-SA 4.0)授权。
使用该数据集需遵守许可证中的规定，并引用以下手稿：https://arxiv.org/abs/2411.00376

AI搜集汇总

数据集介绍

构建方式

在构建X数据集时，研究者们精心设计了一个多层次的存储结构，以确保数据的高效管理和分析。数据集被划分为多个名为`part_{part_number}`的目录，每个目录内包含20个以时间线为前缀的块文件。每个块文件内含50,000条与2024年美国大选相关的推文，这种分块处理不仅便于数据的存储和传输，还为后续的分析提供了便利。通过这种结构，研究者能够有效地管理和处理大规模的社交媒体数据，确保数据的完整性和可用性。

特点

X数据集的显著特点在于其结构化的数据存储方式和丰富的信息内容。每个块文件不仅包含了推文的文本内容，还涵盖了诸如推文ID、时间戳、媒体内容、转发信息、用户提及等多种元数据。这些详细的信息为研究者提供了多维度的分析视角，使得数据集在社交媒体分析、舆情监测和政治研究等领域具有广泛的应用潜力。此外，数据集的分块设计也使得大规模数据的处理和分析变得更加高效和灵活。

使用方法

使用X数据集时，研究者可以通过克隆GitHub仓库获取数据，并根据需要导航至相应的`part_{part_number}`目录，读取其中的块文件进行进一步分析。数据集的结构化设计使得研究者能够以较小的数据块为单位进行处理，从而在处理大规模数据时保持高效和灵活。此外，数据集还提供了详细的数据模式说明，帮助研究者理解和解析数据字段，确保分析的准确性和可靠性。通过这种方式，X数据集为社交媒体和政治研究提供了强大的数据支持。

背景与挑战

背景概述

USC X 24 US Election Twitter/X Dataset是由南加州大学（USC）的研究团队创建的一个专门用于分析2024年美国大选相关推文的公开数据集。该数据集的核心研究问题在于通过大规模的社交媒体数据，深入探讨和预测选举期间的公众情绪、舆论趋势以及候选人的社会影响力。数据集的构建始于2024年，由Ashwin Bhat教授领导的研究团队负责，其目的是为政治科学、社会学和计算机科学领域的学者提供一个丰富的数据资源，以推动相关领域的研究进展。

当前挑战

该数据集在构建过程中面临多项挑战。首先，数据收集的实时性和准确性是关键，需确保在选举期间能够捕捉到最新的公众情绪和舆论动态。其次，数据处理的复杂性在于如何有效过滤和分类海量的推文，以提取有价值的信息。此外，数据隐私和伦理问题也是不可忽视的挑战，特别是在涉及用户个人信息和言论自由的领域。最后，数据集的规模和结构要求高效的存储和检索技术，以支持大规模的数据分析和处理。

常用场景

经典使用场景

在政治分析领域，X Dataset 提供了丰富的社交媒体数据，特别是关于2024年美国大选的推文。研究者可以利用这些数据进行情感分析、舆论趋势预测以及候选人的社交媒体影响力评估。通过分析不同时间段和地区的推文，研究者能够洞察选民情绪变化和政治事件的即时反应，从而为政治策略制定提供数据支持。

衍生相关工作

基于 X Dataset，许多研究工作得以展开，包括社交媒体在选举中的作用研究、情感分析算法优化以及舆论传播模型构建。相关研究不仅提升了对社交媒体数据分析的技术水平，还为政治科学和传播学领域提供了新的研究视角。这些衍生工作进一步推动了数据驱动的政治研究和决策支持系统的发展。

数据集最近研究

最新研究方向

在社交媒体分析领域，X Dataset的最新研究方向主要集中在利用大规模的Twitter数据进行政治舆情分析和预测。该数据集包含了2024年美国大选相关的推文，为研究者提供了丰富的文本和元数据资源。前沿研究聚焦于通过机器学习和自然语言处理技术，挖掘推文中的情感倾向、用户行为模式以及信息传播路径，从而为选举预测和舆论动态提供科学依据。此外，该数据集还促进了跨学科研究，如社会网络分析和计算社会科学，进一步揭示了社交媒体在现代政治中的影响力和作用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现，包括UIEB、U45和LSUI等数据集，用于支持水下图像增强的研究和开发。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录

中国100m人口密度数据集（2000-2020年）

本数据集为中国100m人口密度数据集，数据来源于WorldPop平台，该数据集为UN-adjusted 且 Constrained 版本。数据集按照年份共计包含21个tif栅格数据，worldpop-year-merged.tif。

国家地球系统科学数据中心收录