five

USC X 24 US Election Twitter/X Dataset

收藏
github2024-11-11 更新2024-11-28 收录
下载链接:
https://github.com/sinking8/usc-x-24-us-election
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个目录,每个目录包含与2024年美国选举相关的50,000条推文。每个目录包含20个块文件,总计每个部分有1,000,000条推文。

This dataset comprises multiple directories. Each directory contains 50,000 tweets associated with the 2024 United States elections, includes 20 chunk files, and totals 1,000,000 tweets per directory.
创建时间:
2024-11-01
原始信息汇总

USC X 24 US Election Twitter/X Dataset

数据集概述

  • 名称: USC X 24 US Election Twitter/X Dataset
  • 内容: 包含与2024年美国大选相关的推文数据。
  • 结构: 数据集分为多个目录,每个目录包含20个文件块,每个文件块包含50,000条推文,总计每个部分包含1,000,000条推文。

数据集结构

usc-x-24-us-election/ ├── part_1/ │ ├── timeline_chunk_1.csv.gz │ ├── timeline_chunk_2.csv.gz │ └── ... ├── part_2/ │ ├── timeline_2_chunk_21.csv.gz │ ├── timeline_2_chunk_22.csv.gz │ └── ... ├── part_3/ │ ├── timeline_3_chunk_41.csv.gz │ ├── timeline_3_chunk_42.csv.gz │ └── ... └── ...

数据描述

  • 文件块: 每个文件块包含50,000条推文。
  • 推文数量: 每个部分包含1,000,000条推文。

数据模式

字段名称 数据类型 描述
id object 每个条目的唯一标识符。
text object 推文文本内容。
url object 与推文或内容相关的URL。
epoch object 推文创建的时间戳。
media object 推文中包含的媒体内容(图片、视频等)。
retweetedTweet object 转推的推文内容(如果适用)。
retweetedTweetID object 转推的推文ID。
retweetedUserID object 原始推文用户的ID。
id_str object 推文ID的字符串格式。
lang object 推文内容的语言。
rawContent object 推文的原始未处理文本。
replyCount object 推文的回复数。
retweetCount object 推文的转推数。
likeCount object 推文的点赞数。
quoteCount object 推文的引用数。
conversationId object 推文所属对话的ID。
conversationIdStr object 对话ID的字符串格式。
hashtags object 推文中包含的话题标签。
mentionedUsers object 推文中提到的用户。
links object 推文中包含的外部链接。
viewCount object 推文的浏览次数。
quotedTweet object 引用的推文内容(如果适用)。
in_reply_to_screen_name object 被回复用户的屏幕名称。
in_reply_to_status_id_str object 被回复推文的ID字符串格式。
in_reply_to_user_id_str object 被回复用户的ID字符串格式。
location object 推文或用户的位置信息。
cash_app_handle object 推文中提到的Cash App句柄(如果适用)。
user object 用户信息或元数据。
date object 推文的日期。
_type object 推文类型(例如,原始推文、回复、转推)。
epoch_dt datetime64[ns] 从时间戳派生的日期和时间。
user_id float64 用户ID的浮点数格式。

使用说明

  • 可以通过导航到相关部分目录并读取文件块进行进一步分析。
  • 数据集结构允许以可管理的方式处理推文块,便于处理大型数据集。

数据使用协议

  • 该数据集根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License (CC BY-NC-SA 4.0)授权。
  • 使用该数据集需遵守许可证中的规定,并引用以下手稿:https://arxiv.org/abs/2411.00376
搜集汇总
数据集介绍
main_image_url
构建方式
在构建X数据集时,研究者们精心设计了一个多层次的存储结构,以确保数据的高效管理和分析。数据集被划分为多个名为`part_{part_number}`的目录,每个目录内包含20个以时间线为前缀的块文件。每个块文件内含50,000条与2024年美国大选相关的推文,这种分块处理不仅便于数据的存储和传输,还为后续的分析提供了便利。通过这种结构,研究者能够有效地管理和处理大规模的社交媒体数据,确保数据的完整性和可用性。
特点
X数据集的显著特点在于其结构化的数据存储方式和丰富的信息内容。每个块文件不仅包含了推文的文本内容,还涵盖了诸如推文ID、时间戳、媒体内容、转发信息、用户提及等多种元数据。这些详细的信息为研究者提供了多维度的分析视角,使得数据集在社交媒体分析、舆情监测和政治研究等领域具有广泛的应用潜力。此外,数据集的分块设计也使得大规模数据的处理和分析变得更加高效和灵活。
使用方法
使用X数据集时,研究者可以通过克隆GitHub仓库获取数据,并根据需要导航至相应的`part_{part_number}`目录,读取其中的块文件进行进一步分析。数据集的结构化设计使得研究者能够以较小的数据块为单位进行处理,从而在处理大规模数据时保持高效和灵活。此外,数据集还提供了详细的数据模式说明,帮助研究者理解和解析数据字段,确保分析的准确性和可靠性。通过这种方式,X数据集为社交媒体和政治研究提供了强大的数据支持。
背景与挑战
背景概述
USC X 24 US Election Twitter/X Dataset是由南加州大学(USC)的研究团队创建的一个专门用于分析2024年美国大选相关推文的公开数据集。该数据集的核心研究问题在于通过大规模的社交媒体数据,深入探讨和预测选举期间的公众情绪、舆论趋势以及候选人的社会影响力。数据集的构建始于2024年,由Ashwin Bhat教授领导的研究团队负责,其目的是为政治科学、社会学和计算机科学领域的学者提供一个丰富的数据资源,以推动相关领域的研究进展。
当前挑战
该数据集在构建过程中面临多项挑战。首先,数据收集的实时性和准确性是关键,需确保在选举期间能够捕捉到最新的公众情绪和舆论动态。其次,数据处理的复杂性在于如何有效过滤和分类海量的推文,以提取有价值的信息。此外,数据隐私和伦理问题也是不可忽视的挑战,特别是在涉及用户个人信息和言论自由的领域。最后,数据集的规模和结构要求高效的存储和检索技术,以支持大规模的数据分析和处理。
常用场景
经典使用场景
在政治分析领域,X Dataset 提供了丰富的社交媒体数据,特别是关于2024年美国大选的推文。研究者可以利用这些数据进行情感分析、舆论趋势预测以及候选人的社交媒体影响力评估。通过分析不同时间段和地区的推文,研究者能够洞察选民情绪变化和政治事件的即时反应,从而为政治策略制定提供数据支持。
衍生相关工作
基于 X Dataset,许多研究工作得以展开,包括社交媒体在选举中的作用研究、情感分析算法优化以及舆论传播模型构建。相关研究不仅提升了对社交媒体数据分析的技术水平,还为政治科学和传播学领域提供了新的研究视角。这些衍生工作进一步推动了数据驱动的政治研究和决策支持系统的发展。
数据集最近研究
最新研究方向
在社交媒体分析领域,X Dataset的最新研究方向主要集中在利用大规模的Twitter数据进行政治舆情分析和预测。该数据集包含了2024年美国大选相关的推文,为研究者提供了丰富的文本和元数据资源。前沿研究聚焦于通过机器学习和自然语言处理技术,挖掘推文中的情感倾向、用户行为模式以及信息传播路径,从而为选举预测和舆论动态提供科学依据。此外,该数据集还促进了跨学科研究,如社会网络分析和计算社会科学,进一步揭示了社交媒体在现代政治中的影响力和作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作