five

Black Lives Matter Twitter Corpus

收藏
github2023-03-14 更新2024-05-31 收录
下载链接:
https://github.com/sjgiorgi/blm_twitter_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含6390万条推文的数据集,这些推文来自1300万用户,涵盖了100多个国家,关键词包括BlackLivesMatter、AllLivesMatter和BlueLivesMatter。

本数据集由6390万条推文构成,这些推文由1300万不同用户生成,覆盖了100余个国家,其中关键词包括‘BlackLivesMatter’、‘AllLivesMatter’及‘BlueLivesMatter’(黑人的命也是命、所有人的命都是命及蓝人的命也是命)。
创建时间:
2020-09-02
原始信息汇总

数据集概述

数据集名称

Black Lives Matter Twitter Corpus

数据集内容

包含63.9 million条推文,来自13.0 million用户,涉及关键词:BlackLivesMatter, AllLivesMatter, BlueLivesMatter

数据集限制

仅提供推文ID,需用户自行重新获取完整推文内容。

数据集可用性

数据可通过Zenodo获取。

数据集结构

  • 每日推文计数tweet_counts_per_day.csv文件提供。
  • 推文ID文件:每年一个文件夹,2020年按月划分,包含字段:message_id, blacklivesmatter, alllivesmatter, bluelivesmatter

推文内容下载方法

  • 使用Twarc工具:需安装Twarc并配置Twitter API tokens,通过命令行操作重新获取推文内容。
  • 其他工具:如TwitterMySQL和hydrator等。

引用信息

若使用此数据集,请引用以下论文:

@misc{giorgi2022twitter, author = {Salvatore Giorgi and others}, title = {Twitter Data of the #BlackLivesMatter Movement And Counter Protests: 2013 to 2021}, year = {2022}, journal = {Proceedings of the International AAAI Conference on Web and Social Media}, }

联系方式

如有疑问,请联系Salvatore Giorgi at sgiorgi[at]sas[dot]upenn[dot]edu.

许可证

本数据集遵循GNU General Public License v3 (GPLv3)

搜集汇总
数据集介绍
main_image_url
构建方式
Black Lives Matter Twitter Corpus数据集的构建基于Twitter平台上的公开推文,涵盖了从2013年至2021年间包含关键词*BlackLivesMatter*、*AllLivesMatter*和*BlueLivesMatter*的推文。研究者通过Twitter API收集了来自100多个国家的1300万用户的6390万条推文。由于Twitter的服务条款限制,数据集仅提供了推文的ID,用户需自行通过工具如Twarc进行推文内容的重新获取。
特点
该数据集的特点在于其广泛的时间跨度和地理覆盖范围,涵盖了全球范围内关于Black Lives Matter运动及其对立运动的讨论。数据集不仅包含了推文的基本信息,还提供了每日推文数量的统计,便于研究者进行时间序列分析。此外,数据集的结构化设计使得用户可以轻松地按年份或月份筛选数据,特别适合用于社会运动、舆论分析等领域的研究。
使用方法
使用该数据集时,用户首先需要从Zenodo平台下载包含推文ID的文件,随后通过Twarc等工具进行推文内容的重新获取。Twarc支持命令行操作,用户只需配置好Twitter API密钥,即可通过简单的命令将推文ID转换为完整的推文数据。此外,数据集还提供了Python脚本hydrate.py,用户可通过该脚本批量获取推文内容。获取后的数据可以用于文本分析、情感分析或网络分析等多种研究场景。
背景与挑战
背景概述
Black Lives Matter Twitter Corpus 数据集由宾夕法尼亚大学的 Salvatore Giorgi 等研究人员于2022年创建,旨在捕捉和分析与“Black Lives Matter”运动相关的社交媒体动态。该数据集涵盖了2013年至2021年间来自超过100个国家的1300万用户发布的6390万条推文,内容涉及“BlackLivesMatter”、“AllLivesMatter”和“BlueLivesMatter”等关键词。该数据集为研究社会运动、公众舆论和在线行为提供了宝贵资源,尤其在探讨种族平等和社会正义议题方面具有重要影响力。
当前挑战
该数据集面临的主要挑战包括数据获取与处理的复杂性。由于Twitter的服务条款限制,数据集仅提供推文ID,用户需自行通过API重新获取完整推文内容,这一过程不仅耗时且受限于API的调用频率和推文的公开状态。此外,数据集的规模庞大,尤其是2020年的推文数量显著增加,导致数据处理和存储的技术要求较高。另一个挑战在于数据的时效性和完整性,部分推文可能因用户删除或隐私设置变更而无法获取,这可能会影响研究的准确性和全面性。
常用场景
经典使用场景
Black Lives Matter Twitter Corpus 数据集广泛应用于社交媒体分析领域,特别是在研究社会运动、公众舆论和在线行为模式方面。研究者通过分析包含特定关键词(如#BlackLivesMatter、#AllLivesMatter和#BlueLivesMatter)的推文,能够深入探讨这些社会运动在全球范围内的传播路径、情感倾向以及用户参与度。该数据集为大规模社交媒体数据的挖掘提供了丰富的素材,尤其适合用于文本挖掘、情感分析和网络传播研究。
衍生相关工作
基于 Black Lives Matter Twitter Corpus 数据集,许多经典研究工作得以展开。例如,研究者利用该数据集开发了情感分析模型,用于量化公众对社会运动的态度;还有研究通过社交网络分析方法,揭示了信息传播的关键节点和路径。此外,该数据集还被用于研究跨文化传播中的语言差异和情感表达方式,推动了多语言社交媒体分析技术的发展。这些衍生工作不仅丰富了社交媒体研究的理论框架,也为实际应用提供了技术支持。
数据集最近研究
最新研究方向
近年来,Black Lives Matter Twitter Corpus数据集在社会计算和社交媒体分析领域引起了广泛关注。该数据集包含了从2013年至2021年间与#BlackLivesMatter运动相关的6300万条推文,覆盖了来自100多个国家的1300万用户。研究者们利用这一数据集深入探讨了社交媒体在社会运动中的作用,尤其是在种族平等和社会正义议题上的舆论动态。通过分析推文的情感倾向、用户互动模式以及信息传播路径,学者们揭示了社交媒体如何放大社会运动的声量,并影响了公众舆论和政策制定。此外,该数据集还被用于研究虚假信息的传播机制,以及不同社会群体在网络空间中的对抗与对话。这些研究不仅推动了计算社会科学的发展,也为理解和应对社会不平等提供了新的视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作