X 2024 U.S. Presidential Election Dataset|社交媒体分析数据集|政治选举数据集
收藏USC X 24 US Election Twitter/X Dataset
数据集概述
- 数据集名称: USC X 24 US Election Twitter/X Dataset
- 数据内容: 包含与2024年美国大选相关的推文数据。
- 数据结构: 数据集分为多个目录,每个目录包含多个分块文件,每个分块文件包含50,000条推文。
数据集结构
usc-x-24-us-election/ ├── part_1/ │ ├── timeline_chunk_1.csv.gz │ ├── timeline_chunk_2.csv.gz │ └── ... ├── part_2/ │ ├── timeline_2_chunk_21.csv.gz │ ├── timeline_2_chunk_22.csv.gz │ └── ... ├── part_3/ │ ├── timeline_3_chunk_41.csv.gz │ ├── timeline_3_chunk_42.csv.gz │ └── ... └── ...
数据描述
- 每个目录:
part_{part_number}
包含多个分块文件,文件名以时间线前缀命名。 - 每个分块文件: 包含50,000条与美国大选相关的推文。
数据模式
字段名称 | 数据类型 | 描述 |
---|---|---|
id | object | 每个条目的唯一标识符。 |
text | object | 推文的文本内容。 |
url | object | 与推文或内容相关的URL。 |
epoch | object | 推文创建的时间戳。 |
media | object | 推文中包含的媒体内容(图片、视频等)。 |
retweetedTweet | object | 转推的推文内容(如果适用)。 |
retweetedTweetID | object | 转推的推文ID。 |
retweetedUserID | object | 原始推文用户的ID。 |
id_str | object | 推文ID的字符串格式。 |
lang | object | 推文内容的语言。 |
rawContent | object | 推文的原始未处理文本。 |
replyCount | object | 推文的回复数。 |
retweetCount | object | 推文的转推数。 |
likeCount | object | 推文的点赞数。 |
quoteCount | object | 推文的引用数。 |
conversationId | object | 推文所属对话的ID。 |
conversationIdStr | object | 对话ID的字符串格式。 |
hashtags | object | 推文中包含的标签。 |
mentionedUsers | object | 推文中提到的用户。 |
links | object | 推文中包含的外部链接。 |
viewCount | object | 推文的浏览次数。 |
quotedTweet | object | 引用的推文内容(如果适用)。 |
in_reply_to_screen_name | object | 被回复用户的屏幕名称。 |
in_reply_to_status_id_str | object | 被回复推文的ID字符串格式。 |
in_reply_to_user_id_str | object | 被回复用户的ID字符串格式。 |
location | object | 推文或用户的位置信息。 |
cash_app_handle | object | 推文中提到的Cash App句柄(如果适用)。 |
user | object | 用户信息或元数据。 |
date | object | 推文的日期。 |
_type | object | 推文类型(例如,原始推文、回复、转推)。 |
epoch_dt | datetime64[ns] | 从时间戳派生的日期和时间。 |
user_id | float64 | 用户ID的浮点格式。 |
使用说明
- 用户可以导航到相关部分目录并读取分块文件以进行进一步分析。
- 数据结构允许用户以可管理的方式处理推文,便于处理大型数据集。
数据使用协议
- 该数据集根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License (CC BY-NC-SA 4.0)授权。
- 使用该数据集时,用户需遵守许可证中的规定,并引用以下手稿:https://arxiv.org/abs/2411.00376

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录