awesome-twitter-datasets
收藏数据集概述
数据集名称
awesome-twitter-data
许可证
CC0
数据集描述
awesome-twitter-data 是一个包含多个Twitter数据集和相关资源的列表,所有数据集均在CC0许可下发布。
数据集列表
Tweet数据集
-
Chirps
- 许可证:
Apache License 2.0 - 大小: 900万条
- 描述: 与新闻相关的推文,每日更新。
- 许可证:
-
COVID-19 Twitter Dataset
- 许可证:
CC0 - 大小: 1亿条
- 描述: 与COVID-19相关的推文。
- 许可证:
-
Arab Spring Twitter Dataset
- 许可证: 未知
- 大小: 800万条
- 描述: 与阿拉伯之春相关的推文,包含推文ID和Twitter ID,无内容。
-
Cheng-Caverlee-Lee
- 许可证: 未知
- 大小: 500万条
- 描述: 用于学术项目研究地理位置数据的公开推文集合。
-
3 million Russian troll tweets
- 许可证: 未知
- 大小: 300万条
- 描述: 由538发布的俄罗斯巨魔推文。
-
Lerman Twitter 2010 Dataset
- 大小: 280万条
- 描述: 包含2010年10月发布的含有URL的推文,以及活跃用户的追随者图。
-
Twitter_2010
- 许可证: 未知
- 大小: 200万条
- 描述: 由USC的Kristina Lerman发布。
-
MovieTweetings
- 许可证:
MIT - 大小: 72.5万条
- 描述: 从Twitter收集的实时电影评分数据集。
- 许可证:
-
Geotagged COVID-19 Twitter Dataset
- 许可证: 未知
- 大小: 65万条
- 描述: 美国境内收集的与COVID-19相关的地理位置标记推文。
-
Sanders Analytics Sentiment-labelled tweets
- 大小: 5513条
- 描述: 情感标记的推文。
Tweet ID数据集
-
72 Hours of #Gamersgate
- 大小: 31.3万条
- 描述: 与Gamergate相关的推文ID。
-
RepLab 2013 Dataset
- 描述: 包含超过142,000条英西双语推文。
用户数据集
-
Max Plank Institutes Twitter Dataset
- 大小: 5500万条
- 描述: 仅包含社交图部分,包括54,981,152个用户账户和1,963,263,821个社交链接。
-
Twitter Social Graph
- 大小: 4100万条
- 描述: 来自“What is Twitter, a Social Network or a News Media?”论文的数据集。
-
Arizona State University Twitter Data Set
- 大小: 1100万条
- 描述: 包含Twitter数据集的替代下载。
-
Twitter User Sample (Tweets Loud and Quiet)
- 许可证:
MPL 2.0 - 大小: 40万条
- 描述: 2013年9月至10月期间收集的约400,000个Twitter账户的元数据。
- 许可证:
-
Higgs Twitter Dataset
- 大小: 45.6万条
- 描述: 在Higgs boson发现前后收集的推文。
-
Twitter Data - NIPS 2012
- 大小: 8.1万条
- 描述: 包含Twitter上的“圈子”或“列表”。
-
ego-twitter
- 大小: 8万条
- 描述: 包含80K节点和1.7M边。
-
The SNAP 2010 Dataset
- 大小: 4100万条
- 描述: 包含41m节点和1.4B边。
其他数据集
-
Twitter Event Detection Dataset
- 大小: 1.2亿条
- 描述: 包含1.2亿条推文,涉及500多个事件的相关性判断。
-
Kwak10www
- 描述: 包含41.7M用户配置文件,1.47B社交关系,4,262趋势主题和106M推文。
-
twitter7
- 描述: 包含近5.8亿条推文,来自2000万用户,覆盖2009年6月至2010年2月。
-
burger2011
- 描述: 包含2.13亿条推文,来自18.5M用户,多种语言。
-
calufa2011
- 描述: 包含2亿条推文,来自13M用户,173GB未压缩,MySQL格式。
-
fifa2014
- 描述: 包含2014年FIFA世界杯的8.6万条推文。
结论
awesome-twitter-data 数据集提供了多种Twitter数据集,涵盖了从新闻到社交网络分析的广泛应用。这些数据集的多样性和规模使其成为研究社交媒体和网络动态的宝贵资源。




