Black Lives Matter Twitter Corpus

github2023-03-14 更新2024-05-31 收录

下载链接：

https://github.com/sjgiorgi/blm_twitter_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含6390万条推文的数据集，这些推文来自1300万用户，涵盖了100多个国家，关键词包括BlackLivesMatter、AllLivesMatter和BlueLivesMatter。

本数据集由6390万条推文构成，这些推文由1300万不同用户生成，覆盖了100余个国家，其中关键词包括‘BlackLivesMatter’、‘AllLivesMatter’及‘BlueLivesMatter’（黑人的命也是命、所有人的命都是命及蓝人的命也是命）。

创建时间：

2020-09-02

原始信息汇总

数据集概述

数据集名称

Black Lives Matter Twitter Corpus

数据集内容

包含63.9 million条推文，来自13.0 million用户，涉及关键词：BlackLivesMatter, AllLivesMatter, BlueLivesMatter。

数据集限制

仅提供推文ID，需用户自行重新获取完整推文内容。

数据集可用性

数据可通过Zenodo获取。

数据集结构

每日推文计数：tweet_counts_per_day.csv文件提供。
推文ID文件：每年一个文件夹，2020年按月划分，包含字段：message_id, blacklivesmatter, alllivesmatter, bluelivesmatter。

推文内容下载方法

使用Twarc工具：需安装Twarc并配置Twitter API tokens，通过命令行操作重新获取推文内容。
其他工具：如TwitterMySQL和hydrator等。

引用信息

若使用此数据集，请引用以下论文：

@misc{giorgi2022twitter, author = {Salvatore Giorgi and others}, title = {Twitter Data of the #BlackLivesMatter Movement And Counter Protests: 2013 to 2021}, year = {2022}, journal = {Proceedings of the International AAAI Conference on Web and Social Media}, }

联系方式

如有疑问，请联系Salvatore Giorgi at sgiorgi[at]sas[dot]upenn[dot]edu.

许可证

本数据集遵循GNU General Public License v3 (GPLv3)。

搜集汇总

数据集介绍

构建方式

Black Lives Matter Twitter Corpus数据集的构建基于Twitter平台上的公开推文，涵盖了从2013年至2021年间包含关键词*BlackLivesMatter*、*AllLivesMatter*和*BlueLivesMatter*的推文。研究者通过Twitter API收集了来自100多个国家的1300万用户的6390万条推文。由于Twitter的服务条款限制，数据集仅提供了推文的ID，用户需自行通过工具如Twarc进行推文内容的重新获取。

特点

该数据集的特点在于其广泛的时间跨度和地理覆盖范围，涵盖了全球范围内关于Black Lives Matter运动及其对立运动的讨论。数据集不仅包含了推文的基本信息，还提供了每日推文数量的统计，便于研究者进行时间序列分析。此外，数据集的结构化设计使得用户可以轻松地按年份或月份筛选数据，特别适合用于社会运动、舆论分析等领域的研究。

使用方法

使用该数据集时，用户首先需要从Zenodo平台下载包含推文ID的文件，随后通过Twarc等工具进行推文内容的重新获取。Twarc支持命令行操作，用户只需配置好Twitter API密钥，即可通过简单的命令将推文ID转换为完整的推文数据。此外，数据集还提供了Python脚本hydrate.py，用户可通过该脚本批量获取推文内容。获取后的数据可以用于文本分析、情感分析或网络分析等多种研究场景。

背景与挑战

背景概述

Black Lives Matter Twitter Corpus 数据集由宾夕法尼亚大学的 Salvatore Giorgi 等研究人员于2022年创建，旨在捕捉和分析与“Black Lives Matter”运动相关的社交媒体动态。该数据集涵盖了2013年至2021年间来自超过100个国家的1300万用户发布的6390万条推文，内容涉及“BlackLivesMatter”、“AllLivesMatter”和“BlueLivesMatter”等关键词。该数据集为研究社会运动、公众舆论和在线行为提供了宝贵资源，尤其在探讨种族平等和社会正义议题方面具有重要影响力。

当前挑战

该数据集面临的主要挑战包括数据获取与处理的复杂性。由于Twitter的服务条款限制，数据集仅提供推文ID，用户需自行通过API重新获取完整推文内容，这一过程不仅耗时且受限于API的调用频率和推文的公开状态。此外，数据集的规模庞大，尤其是2020年的推文数量显著增加，导致数据处理和存储的技术要求较高。另一个挑战在于数据的时效性和完整性，部分推文可能因用户删除或隐私设置变更而无法获取，这可能会影响研究的准确性和全面性。

常用场景

经典使用场景

Black Lives Matter Twitter Corpus 数据集广泛应用于社交媒体分析领域，特别是在研究社会运动、公众舆论和在线行为模式方面。研究者通过分析包含特定关键词（如#BlackLivesMatter、#AllLivesMatter和#BlueLivesMatter）的推文，能够深入探讨这些社会运动在全球范围内的传播路径、情感倾向以及用户参与度。该数据集为大规模社交媒体数据的挖掘提供了丰富的素材，尤其适合用于文本挖掘、情感分析和网络传播研究。

衍生相关工作

基于 Black Lives Matter Twitter Corpus 数据集，许多经典研究工作得以展开。例如，研究者利用该数据集开发了情感分析模型，用于量化公众对社会运动的态度；还有研究通过社交网络分析方法，揭示了信息传播的关键节点和路径。此外，该数据集还被用于研究跨文化传播中的语言差异和情感表达方式，推动了多语言社交媒体分析技术的发展。这些衍生工作不仅丰富了社交媒体研究的理论框架，也为实际应用提供了技术支持。

数据集最近研究