five

enryu43/twitter100m_tweets

收藏
Hugging Face2023-05-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/enryu43/twitter100m_tweets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为twitter100m_tweets,包含用户、推文、回复、转发、点赞、引用和日期等字段。数据集的训练集部分包含88084332个样本,总大小为20356236942字节。
提供机构:
enryu43
原始信息汇总

数据集概述

数据集信息

特征

  • user: 用户名,数据类型为字符串。
  • id: 用户ID,数据类型为整数(int64)。
  • tweet: 推文内容,数据类型为字符串。
  • replies: 回复数,数据类型为整数(int64)。
  • retweets: 转发数,数据类型为整数(int64)。
  • likes: 点赞数,数据类型为整数(int64)。
  • quotes: 引用数,数据类型为整数(int64)。
  • date: 日期,数据类型为字符串。

数据分割

  • train: 训练集,包含20,356,236,942字节的数据和88,084,332个样本。

数据大小

  • 下载大小: 9,614,694,227字节。
  • 数据集大小: 20,356,236,942字节。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个大规模的推特数据集,包含约8810万条推文,总大小约9.61 GB,以Parquet格式存储。数据涵盖推文内容、用户信息及互动指标(如回复、转发、点赞和引用),适用于文本分析和社交网络研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作