haydenbanz/Tweets_Dataset
收藏Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/haydenbanz/Tweets_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集通过使用Python库Tweepy 3爬取Twitter的REST API获得,包含了20位最受欢迎的Twitter用户的推文,排除了转推。这些用户包括公众人物如Katy Perry和Barack Obama,平台如YouTube和Instagram,以及电视频道如CNN Breaking News和The Ellen Show。数据集展示了从相对结构化到完全非结构化的推文风格。数据集的具体属性包括作者、内容、日期时间、ID、语言、点赞数和分享数。数据集的总推文数为52,543条,并提供了前20位用户的推文数量和时间跨度。
该数据集通过使用Python库Tweepy 3爬取Twitter的REST API获得,包含了20位最受欢迎的Twitter用户的推文,排除了转推。这些用户包括公众人物如Katy Perry和Barack Obama,平台如YouTube和Instagram,以及电视频道如CNN Breaking News和The Ellen Show。数据集展示了从相对结构化到完全非结构化的推文风格。数据集的具体属性包括作者、内容、日期时间、ID、语言、点赞数和分享数。数据集的总推文数为52,543条,并提供了前20位用户的推文数量和时间跨度。
提供机构:
haydenbanz
原始信息汇总
Twitter User Dataset
概述
该数据集是通过使用Python库Tweepy 3爬取Twitter的REST API获得的,包含来自20个最受欢迎的Twitter用户(基于粉丝数量)的推文,排除转发内容。这些账户包括公众人物如Katy Perry和Barack Obama,平台如YouTube和Instagram,以及电视频道如CNN Breaking News和The Ellen Show。
数据集详情
-
目的: 该数据集已被用于生成题为“Machine Learning Techniques for Anomaly Detection in Post Arrays”的研究论文。
-
爬取属性:
- 作者(Twitter用户)
- 内容(推文)
- 日期时间
- ID(Twitter用户ID)
- 语言(推文语言)
- 点赞数
- 分享数
统计信息
- 总推文数: 52,543
前20名用户
| 用户名 | 推文数 | 时间跨度(天) |
|---|---|---|
| TheEllenShow | 3,147 | 662 |
| jimmyfallon | 3,123 | 1,231 |
| ArianaGrande | 3,104 | 613 |
| YouTube | 3,077 | 411 |
| KimKardashian | 2,939 | 603 |
| katyperry | 2,924 | 1,598 |
| selenagomez | 2,913 | 2,266 |
| rihanna | 2,877 | 1,557 |
| BarackObama | 2,863 | 849 |
| britneyspears | 2,776 | 1,548 |
| 2,577 | 456 | |
| shakira | 2,530 | 1,850 |
| Cristiano | 2,507 | 2,407 |
| jtimberlake | 2,478 | 2,491 |
| ladygaga | 2,329 | 894 |
| 2,290 | 2,593 | |
| ddlovato | 2,217 | 741 |
| taylorswift13 | 2,029 | 2,091 |
| justinbieber | 2,000 | 664 |
| cnnbrk | 1,842 | 183 (2017) |



