enryu43/twitter100m_tweets
收藏Hugging Face2023-05-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/enryu43/twitter100m_tweets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为twitter100m_tweets,包含用户、推文、回复、转发、点赞、引用和日期等字段。数据集的训练集部分包含88084332个样本,总大小为20356236942字节。
提供机构:
enryu43
原始信息汇总
数据集概述
数据集信息
特征
- user: 用户名,数据类型为字符串。
- id: 用户ID,数据类型为整数(int64)。
- tweet: 推文内容,数据类型为字符串。
- replies: 回复数,数据类型为整数(int64)。
- retweets: 转发数,数据类型为整数(int64)。
- likes: 点赞数,数据类型为整数(int64)。
- quotes: 引用数,数据类型为整数(int64)。
- date: 日期,数据类型为字符串。
数据分割
- train: 训练集,包含20,356,236,942字节的数据和88,084,332个样本。
数据大小
- 下载大小: 9,614,694,227字节。
- 数据集大小: 20,356,236,942字节。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个大规模的推特数据集,包含约8810万条推文,总大小约9.61 GB,以Parquet格式存储。数据涵盖推文内容、用户信息及互动指标(如回复、转发、点赞和引用),适用于文本分析和社交网络研究。
以上内容由遇见数据集搜集并总结生成



