five

BLMtwitter|社会运动数据集|社交媒体分析数据集

收藏
github2023-03-14 更新2024-05-31 收录
社会运动
社交媒体分析
下载链接:
https://github.com/amaurits/BLMtwitter
下载链接
链接失效反馈
资源简介:
这是一个包含自2010年至2023年2月期间超过5000万条关于Black Lives Matter (BLM)的推文数据集,记录了全球范围内对BLM运动的社交媒体讨论。

This dataset comprises over 50 million tweets related to the Black Lives Matter (BLM) movement, spanning from 2010 to February 2023. It captures the global social media discourse surrounding the BLM movement.
创建时间:
2022-03-02
原始信息汇总

BLMtwitter: The Black Lives Matter (BLM) Twitter Corpus

数据集概述

  • 主题:Black Lives Matter (BLM) 社交媒体讨论
  • 时间范围:2010年至2023年2月
  • 数据量:超过5000万条推文

数据集内容

  • 完整数据集:2010-2022年的数据,包括BLM、All Lives Matter和Blue Lives Matter三个平行语料库,可在Zenodo获取(DOI: 10.5281/zenodo.7730083)。
  • 数据特征:包括推文数量随时间的变化,不同用户数量,以及非英语语言的推文量。

引用信息

  • 引用文献:van der Veen, A. Maurits. 2022. "BLMtwitter: The Black Lives Matter (BLM) Twitter Corpus." SocArxiv (doi 10.31235/osf.io/kna9s).
AI搜集汇总
数据集介绍
main_image_url
构建方式
BLMtwitter数据集的构建始于2020年乔治·弗洛伊德事件引发的全球抗议浪潮,通过追踪社交媒体平台上与“Black Lives Matter”(BLM)相关的讨论,收集了自2010年至2023年2月间的超过5000万条推文。数据集的构建采用了严格的推文筛选标准,重点关注包含BLM缩写的推文,并结合了“All Lives Matter”和“Blue Lives Matter”的相关推文作为对比语料库。数据来源主要通过Twitter API获取,并经过清洗和去重处理,以确保数据的完整性和代表性。
特点
BLMtwitter数据集以其广泛的覆盖范围和多样化的语言背景著称,涵盖了从2010年至2023年间的BLM相关推文,时间跨度长达十余年。数据集不仅包含英语推文,还收录了大量其他语言的推文,反映了BLM运动的全球影响力。此外,数据集还提供了每月更新的动态数据,便于研究者追踪BLM讨论的演变趋势。通过对比“All Lives Matter”和“Blue Lives Matter”的推文,数据集为研究不同社会运动之间的互动提供了丰富的素材。
使用方法
BLMtwitter数据集适用于社会科学、计算语言学以及社交媒体分析等领域的研究。研究者可通过Zenodo平台获取完整数据集,并结合提供的论文了解数据集的构建细节和分析方法。数据集的使用需遵循引用规范,引用时需注明van der Veen, A. Maurits (2022)的相关论文。研究者可利用该数据集分析BLM运动的全球传播模式、语言使用特征以及不同社会运动之间的互动关系,为相关领域的研究提供数据支持。
背景与挑战
背景概述
BLMtwitter数据集由A. Maurits van der Veen等人于2022年创建,旨在追踪全球范围内关于“黑人的命也是命”(Black Lives Matter, BLM)运动的社交媒体讨论。该数据集涵盖了从2010年至2023年2月的超过5000万条推文,是全球范围内关于BLM运动的最广泛社交媒体数据集合之一。BLM运动的兴起源于2020年5月乔治·弗洛伊德(George Floyd)被谋杀事件,引发了全球范围内的抗议活动,并在社交媒体上引发了大量讨论。该数据集不仅记录了美国本土的讨论,还捕捉了国际范围内的声音,为研究社会运动、舆论传播以及跨文化对话提供了宝贵的数据资源。
当前挑战
BLMtwitter数据集在构建过程中面临多重挑战。首先,推文的筛选标准需要精确界定,以确保数据集的代表性和准确性。由于BLM运动涉及复杂的政治和社会议题,推文内容可能包含大量噪音和无关信息,如何有效过滤这些数据成为一大难题。其次,推文的语言多样性增加了数据处理的复杂性,尤其是在非英语推文的处理和分析上。此外,社交媒体数据的动态性和实时性要求数据集必须定期更新,以保持其时效性和研究价值。这些挑战不仅影响了数据集的构建过程,也对后续的研究提出了更高的技术要求和分析难度。
常用场景
经典使用场景
BLMtwitter数据集广泛用于研究社交媒体上关于社会运动的讨论动态。研究者通过分析该数据集中的推文,能够追踪Black Lives Matter(BLM)运动在全球范围内的传播与演变,揭示社交媒体在推动社会变革中的作用。该数据集还为语言分析、情感分析以及网络传播模型的研究提供了丰富的素材。
衍生相关工作
BLMtwitter数据集催生了一系列关于社交媒体与社会运动的经典研究。例如,基于该数据集的研究揭示了BLM运动的全球传播路径,探讨了社交媒体在跨文化传播中的作用。此外,该数据集还被用于开发情感分析算法和多语言文本分类模型,推动了计算社会科学领域的技术创新。
数据集最近研究
最新研究方向
近年来,BLMtwitter数据集在社会运动与社交媒体分析领域引起了广泛关注。该数据集涵盖了自2010年至2023年2月间超过5000万条与“黑人的命也是命”(BLM)运动相关的推文,成为研究全球范围内社会运动传播与公众情绪演变的重要资源。研究者们利用这一数据集,深入探讨了BLM运动在社交媒体上的传播模式、跨文化影响以及多语言表达的特点。特别是在2020年乔治·弗洛伊德事件后,BLM运动在全球范围内引发了广泛讨论,BLMtwitter数据集为分析这一事件的长期社会影响提供了宝贵的数据支持。此外,该数据集还与其他相关运动(如“All Lives Matter”和“Blue Lives Matter”)的推文数据进行了对比研究,进一步揭示了不同社会运动之间的互动与差异。这些研究不仅推动了社交媒体数据分析技术的发展,也为理解当代社会运动的全球化特征提供了新的视角。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

RADIOML 2016.10A

一个合成数据集,使用GNU Radio生成,包含11种调制方式(8种数字和3种模拟),信号噪声比各异。该数据集首次在第六届年度GNU Radio会议上发布。

github 收录

ST-EVCDP

这是一个关于公共电动汽车充电桩的时空充电需求预测的实际数据集,涵盖了18,061个公共充电桩的数据,包括坐标、充电器数量、占用情况和价格等信息。数据集用于学术研究,支持区域电动汽车充电需求预测。

github 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录