five

haydenbanz/Tweets_Dataset

收藏
Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/haydenbanz/Tweets_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集通过使用Python库Tweepy 3爬取Twitter的REST API获得,包含了20位最受欢迎的Twitter用户的推文,排除了转推。这些用户包括公众人物如Katy Perry和Barack Obama,平台如YouTube和Instagram,以及电视频道如CNN Breaking News和The Ellen Show。数据集展示了从相对结构化到完全非结构化的推文风格。数据集的具体属性包括作者、内容、日期时间、ID、语言、点赞数和分享数。数据集的总推文数为52,543条,并提供了前20位用户的推文数量和时间跨度。

该数据集通过使用Python库Tweepy 3爬取Twitter的REST API获得,包含了20位最受欢迎的Twitter用户的推文,排除了转推。这些用户包括公众人物如Katy Perry和Barack Obama,平台如YouTube和Instagram,以及电视频道如CNN Breaking News和The Ellen Show。数据集展示了从相对结构化到完全非结构化的推文风格。数据集的具体属性包括作者、内容、日期时间、ID、语言、点赞数和分享数。数据集的总推文数为52,543条,并提供了前20位用户的推文数量和时间跨度。
提供机构:
haydenbanz
原始信息汇总

Twitter User Dataset

概述

该数据集是通过使用Python库Tweepy 3爬取Twitter的REST API获得的,包含来自20个最受欢迎的Twitter用户(基于粉丝数量)的推文,排除转发内容。这些账户包括公众人物如Katy Perry和Barack Obama,平台如YouTube和Instagram,以及电视频道如CNN Breaking News和The Ellen Show。

数据集详情

  • 目的: 该数据集已被用于生成题为“Machine Learning Techniques for Anomaly Detection in Post Arrays”的研究论文。

  • 爬取属性:

    • 作者(Twitter用户)
    • 内容(推文)
    • 日期时间
    • ID(Twitter用户ID)
    • 语言(推文语言)
    • 点赞数
    • 分享数

统计信息

  • 总推文数: 52,543

前20名用户

用户名 推文数 时间跨度(天)
TheEllenShow 3,147 662
jimmyfallon 3,123 1,231
ArianaGrande 3,104 613
YouTube 3,077 411
KimKardashian 2,939 603
katyperry 2,924 1,598
selenagomez 2,913 2,266
rihanna 2,877 1,557
BarackObama 2,863 849
britneyspears 2,776 1,548
instagram 2,577 456
shakira 2,530 1,850
Cristiano 2,507 2,407
jtimberlake 2,478 2,491
ladygaga 2,329 894
Twitter 2,290 2,593
ddlovato 2,217 741
taylorswift13 2,029 2,091
justinbieber 2,000 664
cnnbrk 1,842 183 (2017)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作