USC X 24 US Election Twitter/X Dataset|选举分析数据集|社交媒体数据集
收藏USC X 24 US Election Twitter/X Dataset
数据集概述
- 名称: USC X 24 US Election Twitter/X Dataset
- 内容: 包含与2024年美国大选相关的推文数据。
- 结构: 数据集分为多个目录,每个目录包含20个文件块,每个文件块包含50,000条推文,总计每个部分包含1,000,000条推文。
数据集结构
usc-x-24-us-election/ ├── part_1/ │ ├── timeline_chunk_1.csv.gz │ ├── timeline_chunk_2.csv.gz │ └── ... ├── part_2/ │ ├── timeline_2_chunk_21.csv.gz │ ├── timeline_2_chunk_22.csv.gz │ └── ... ├── part_3/ │ ├── timeline_3_chunk_41.csv.gz │ ├── timeline_3_chunk_42.csv.gz │ └── ... └── ...
数据描述
- 文件块: 每个文件块包含50,000条推文。
- 推文数量: 每个部分包含1,000,000条推文。
数据模式
字段名称 | 数据类型 | 描述 |
---|---|---|
id | object | 每个条目的唯一标识符。 |
text | object | 推文文本内容。 |
url | object | 与推文或内容相关的URL。 |
epoch | object | 推文创建的时间戳。 |
media | object | 推文中包含的媒体内容(图片、视频等)。 |
retweetedTweet | object | 转推的推文内容(如果适用)。 |
retweetedTweetID | object | 转推的推文ID。 |
retweetedUserID | object | 原始推文用户的ID。 |
id_str | object | 推文ID的字符串格式。 |
lang | object | 推文内容的语言。 |
rawContent | object | 推文的原始未处理文本。 |
replyCount | object | 推文的回复数。 |
retweetCount | object | 推文的转推数。 |
likeCount | object | 推文的点赞数。 |
quoteCount | object | 推文的引用数。 |
conversationId | object | 推文所属对话的ID。 |
conversationIdStr | object | 对话ID的字符串格式。 |
hashtags | object | 推文中包含的话题标签。 |
mentionedUsers | object | 推文中提到的用户。 |
links | object | 推文中包含的外部链接。 |
viewCount | object | 推文的浏览次数。 |
quotedTweet | object | 引用的推文内容(如果适用)。 |
in_reply_to_screen_name | object | 被回复用户的屏幕名称。 |
in_reply_to_status_id_str | object | 被回复推文的ID字符串格式。 |
in_reply_to_user_id_str | object | 被回复用户的ID字符串格式。 |
location | object | 推文或用户的位置信息。 |
cash_app_handle | object | 推文中提到的Cash App句柄(如果适用)。 |
user | object | 用户信息或元数据。 |
date | object | 推文的日期。 |
_type | object | 推文类型(例如,原始推文、回复、转推)。 |
epoch_dt | datetime64[ns] | 从时间戳派生的日期和时间。 |
user_id | float64 | 用户ID的浮点数格式。 |
使用说明
- 可以通过导航到相关部分目录并读取文件块进行进一步分析。
- 数据集结构允许以可管理的方式处理推文块,便于处理大型数据集。
数据使用协议
- 该数据集根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License (CC BY-NC-SA 4.0)授权。
- 使用该数据集需遵守许可证中的规定,并引用以下手稿:https://arxiv.org/abs/2411.00376

Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
UIEB, U45, LSUI
本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。
github 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
中国100m人口密度数据集(2000-2020年)
本数据集为中国100m人口密度数据集,数据来源于WorldPop平台,该数据集为UN-adjusted 且 Constrained 版本。 数据集按照年份共计包含21个tif栅格数据,worldpop-year-merged.tif。
国家地球系统科学数据中心 收录