awesome-twitter-datasets

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/shaypal5/awesome-twitter-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含多个Twitter数据集及相关资源的列表，这些数据集涵盖了从新闻相关推文到COVID-19讨论等多种主题。

A comprehensive list of multiple Twitter datasets and related resources, encompassing a variety of topics ranging from news-related tweets to discussions on COVID-19.

创建时间：

2018-08-19

原始信息汇总

数据集概述

数据集名称

awesome-twitter-data

许可证

CC0

数据集描述

awesome-twitter-data 是一个包含多个Twitter数据集和相关资源的列表，所有数据集均在CC0许可下发布。

数据集列表

Tweet数据集

Chirps
- 许可证: Apache License 2.0
- 大小: 900万条
- 描述: 与新闻相关的推文，每日更新。
COVID-19 Twitter Dataset
- 许可证: CC0
- 大小: 1亿条
- 描述: 与COVID-19相关的推文。
Arab Spring Twitter Dataset
- 许可证: 未知
- 大小: 800万条
- 描述: 与阿拉伯之春相关的推文，包含推文ID和Twitter ID，无内容。
Cheng-Caverlee-Lee
- 许可证: 未知
- 大小: 500万条
- 描述: 用于学术项目研究地理位置数据的公开推文集合。
3 million Russian troll tweets
- 许可证: 未知
- 大小: 300万条
- 描述: 由538发布的俄罗斯巨魔推文。
Lerman Twitter 2010 Dataset
- 大小: 280万条
- 描述: 包含2010年10月发布的含有URL的推文，以及活跃用户的追随者图。
Twitter_2010
- 许可证: 未知
- 大小: 200万条
- 描述: 由USC的Kristina Lerman发布。
MovieTweetings
- 许可证: MIT
- 大小: 72.5万条
- 描述: 从Twitter收集的实时电影评分数据集。
Geotagged COVID-19 Twitter Dataset
- 许可证: 未知
- 大小: 65万条
- 描述: 美国境内收集的与COVID-19相关的地理位置标记推文。
Sanders Analytics Sentiment-labelled tweets
- 大小: 5513条
- 描述: 情感标记的推文。

Tweet ID数据集

72 Hours of #Gamersgate
- 大小: 31.3万条
- 描述: 与Gamergate相关的推文ID。
RepLab 2013 Dataset
- 描述: 包含超过142,000条英西双语推文。

用户数据集

Max Plank Institutes Twitter Dataset
- 大小: 5500万条
- 描述: 仅包含社交图部分，包括54,981,152个用户账户和1,963,263,821个社交链接。
Twitter Social Graph
- 大小: 4100万条
- 描述: 来自“What is Twitter, a Social Network or a News Media?”论文的数据集。
Arizona State University Twitter Data Set
- 大小: 1100万条
- 描述: 包含Twitter数据集的替代下载。
Twitter User Sample (Tweets Loud and Quiet)
- 许可证: MPL 2.0
- 大小: 40万条
- 描述: 2013年9月至10月期间收集的约400,000个Twitter账户的元数据。
Higgs Twitter Dataset
- 大小: 45.6万条
- 描述: 在Higgs boson发现前后收集的推文。
Twitter Data - NIPS 2012
- 大小: 8.1万条
- 描述: 包含Twitter上的“圈子”或“列表”。
ego-twitter
- 大小: 8万条
- 描述: 包含80K节点和1.7M边。
The SNAP 2010 Dataset
- 大小: 4100万条
- 描述: 包含41m节点和1.4B边。

其他数据集

Twitter Event Detection Dataset
- 大小: 1.2亿条
- 描述: 包含1.2亿条推文，涉及500多个事件的相关性判断。
Kwak10www
- 描述: 包含41.7M用户配置文件，1.47B社交关系，4,262趋势主题和106M推文。
twitter7
- 描述: 包含近5.8亿条推文，来自2000万用户，覆盖2009年6月至2010年2月。
burger2011
- 描述: 包含2.13亿条推文，来自18.5M用户，多种语言。
calufa2011
- 描述: 包含2亿条推文，来自13M用户，173GB未压缩，MySQL格式。
fifa2014
- 描述: 包含2014年FIFA世界杯的8.6万条推文。

结论

awesome-twitter-data 数据集提供了多种Twitter数据集，涵盖了从新闻到社交网络分析的广泛应用。这些数据集的多样性和规模使其成为研究社交媒体和网络动态的宝贵资源。

搜集汇总

数据集介绍

构建方式

该数据集名为'awesome-twitter-datasets'，其构建方式主要通过收集和整理多个公开的Twitter数据集。这些数据集涵盖了从新闻相关推文到特定事件（如COVID-19和阿拉伯之春）的推文，以及用户数据和社交图谱等多种类型。数据集的构建者通过GitHub平台公开征集和整合这些资源，确保数据集的多样性和广泛性。每个数据集的来源、大小和许可信息均在README文件中详细列出，以便用户了解和遵守相关法律和伦理规范。

特点

该数据集的主要特点在于其多样性和广泛性。它包含了从大规模新闻相关推文到小规模特定事件推文的各种数据集，覆盖了多个领域和主题。此外，数据集中的许多资源都附带了明确的许可信息，确保了数据的可访问性和合法使用。数据集还提供了详细的元数据，如推文ID、用户信息和社交关系，为研究者提供了丰富的分析维度。

使用方法

使用该数据集时，用户首先需要访问GitHub页面，下载所需的数据集文件。每个数据集的README文件中都提供了详细的下载和使用说明。用户可以根据研究需求选择合适的数据集，并参考提供的许可信息确保合法使用。数据集中的推文和用户信息可以用于多种分析任务，如情感分析、社交网络分析和事件检测等。此外，数据集还提供了一些工具和脚本，帮助用户更高效地处理和分析数据。

背景与挑战

背景概述

awesome-twitter-datasets数据集是一个汇集了多种Twitter数据集和相关资源的列表，由Shay Palachy创建并维护。该数据集的创建旨在为研究人员和开发者提供一个便捷的平台，以便访问和利用各种Twitter数据集进行研究。这些数据集涵盖了从新闻相关的推文到特定事件（如COVID-19和阿拉伯之春）的推文，以及用户数据和情感分析等多个领域。通过这些数据集，研究人员可以深入探讨社交媒体在不同事件和话题中的作用，以及用户行为和情感表达的多样性。

当前挑战

尽管awesome-twitter-datasets提供了丰富的数据资源，但其面临的挑战也不容忽视。首先，数据集的多样性和规模使得数据管理和处理变得复杂，尤其是在处理大规模数据时，如何高效地存储和分析数据成为一个重要问题。其次，由于Twitter平台的动态性和数据更新的频繁性，确保数据集的实时性和准确性也是一个持续的挑战。此外，数据集的多样性也带来了数据标准化和一致性的问题，如何在不同数据集之间进行有效的比较和分析，需要进一步的研究和工具支持。

常用场景

经典使用场景

在社交媒体分析领域，'awesome-twitter-datasets' 数据集因其丰富的内容和多样性，成为研究者们进行情感分析、用户行为预测和事件检测的经典工具。例如，通过分析'Sentiment140'数据集，研究者可以开发出高效的情感分类模型，用于识别和量化用户在Twitter上的情绪倾向。此外，'COVID-19 Twitter Dataset' 提供了关于全球公共卫生事件的实时数据，使得研究者能够追踪和分析公众对重大事件的反应和传播模式。

衍生相关工作

基于'awesome-twitter-datasets'，许多经典工作得以展开，如情感分析工具'sentimentstwitter'和用户性别预测模型'TwitterGenderPredictor'。这些工具和模型不仅提升了社交媒体数据分析的效率，还推动了相关领域的技术进步。此外，'Twitter-L-LDA' 工具利用该数据集进行主题建模，揭示了社交媒体中隐藏的主题结构，为后续研究提供了新的视角和方法。

数据集最近研究