BLM-17m
收藏arXiv2023-10-17 更新2024-06-21 收录
下载链接:
https://github.com/senticnet/BLM
下载链接
链接失效反馈官方服务:
资源简介:
BLM-17m是由南洋理工大学等机构创建的大型Twitter数据集,专注于黑人人权运动(BLM)话题检测。该数据集包含约1700万条推文,收集自2020年5月25日至8月21日,涵盖了乔治·弗洛伊德事件后的90天。数据集通过监控全球和本地新闻热点进行标注,使用TF-IDF和LDA作为基线方法进行分析。BLM-17m数据集主要用于情感分析和自然语言处理,旨在通过社交媒体数据深入理解公众对重大人权事件的反应和态度,进而推动人权保护和正义的实现。
BLM-17m is a large-scale Twitter dataset developed by institutions including Nanyang Technological University, focusing on Black Lives Matter (BLM) topic detection. This dataset contains approximately 17 million tweets collected from May 25 to August 21, 2020, covering the 90-day period following the George Floyd incident. The dataset is annotated by monitoring global and local news hotspots, and analyzed using TF-IDF and LDA as baseline methods. The BLM-17m dataset is primarily used for sentiment analysis and natural language processing tasks, aiming to gain in-depth insights into public reactions and attitudes towards major human rights events via social media data, thereby advancing human rights protection and the pursuit of justice.
提供机构:
南洋理工大学
创建时间:
2021-05-04
搜集汇总
数据集介绍

构建方式
在人权保护与现代世界紧密相连的背景下,BLM-17m数据集的构建旨在记录和分析与乔治·弗洛伊德事件相关的全球社会动态。该数据集收集了自2020年5月25日至8月21日约90天内,与BLM运动相关的约1700万条推文。数据采集过程中,研究者们监控了与该事件相关的最热门话题,并从全球和地方报纸中提取关键词,用于数据标注。数据标注通过人工方法进行,以确保数据的准确性和可靠性。
特点
BLM-17m数据集的特点在于其规模庞大,时间跨度广,涵盖了乔治·弗洛伊德事件发生后近三个月内的推文。数据集包含了多种标签,如推文与BLM运动的关联性、推文的情感倾向等。此外,数据集还使用了TF-IDF和LDA等自然语言处理技术进行关键词提取和主题建模,为后续分析提供了基础。数据集的多样性使其成为研究BLM运动、社交媒体情感分析和自然语言处理等领域的重要资源。
使用方法
BLM-17m数据集的使用方法多样,研究者可以根据自己的需求进行数据提取和分析。例如,可以使用TF-IDF和LDA等技术对数据进行主题建模,分析推文中的关键词和主题分布;可以使用情感分析技术对推文进行情感倾向分析,了解公众对BLM运动的态度和情感;还可以使用毒性检测技术识别推文中的负面言论,研究社交媒体中的网络暴力问题。此外,数据集还支持与其他自然语言处理和机器学习技术结合使用,为研究者提供更多深入分析的可能性。
背景与挑战
背景概述
在现代社会中,人权保护是至关重要的议题。BLM-17m数据集的创建,正是为了探讨近年来影响全球的重大人权问题之一——乔治·弗洛伊德事件。该数据集由Hasan Kemik、Nusret Ozates、Meysam Asgari-Chenaghlou、Yang Li和Erik Cambria等研究人员共同构建,收集了从2020年5月25日至2020年8月21日大约90天内的约1700万条推文。这些推文涵盖了乔治·弗洛伊德事件的起因、发展和后续影响,以及公众对这一事件的反应。BLM-17m数据集的创建,旨在为相关领域的研究提供有力支持,帮助人们更好地理解人权问题,并推动社会公正和民主的发展。
当前挑战
BLM-17m数据集的构建过程中,研究人员面临了诸多挑战。首先,数据收集过程中需要确保推文的全面性和代表性,以便准确反映公众对乔治·弗洛伊德事件的态度和观点。其次,数据标签的准确性对后续研究至关重要,因此需要制定一套科学合理的数据标签方法。此外,数据集的分析和挖掘过程中,需要采用先进的自然语言处理和人工智能技术,以揭示推文背后的情感、观点和趋势。最后,数据集的应用和推广过程中,需要关注伦理和隐私问题,确保研究成果的负责任使用。
常用场景
经典使用场景
BLM-17m数据集主要应用于推特上关于黑命贵运动的话题检测。该数据集包含了约1700万条推文,收集时间跨度从2020年5月25日至8月21日,涵盖了从事件开始约90天的时间。这些推文是根据与事件相关的最热门新闻话题进行标注的。BLM-17m数据集使用TF-IDF和LDA作为基线方法,并使用三种不同的k值对精度、召回率和F1分数进行了评估。该数据集的经典使用场景包括:推文主题检测、情感分析、自然语言处理、AI在社交媒体上的应用。
实际应用
BLM-17m数据集在实际应用场景中具有广泛的应用价值。首先,该数据集可以用于社交媒体监测和分析,帮助企业和组织了解公众对黑命贵运动的看法和态度。通过分析推文中的情感和主题,企业可以更好地了解公众的需求和关注点,从而制定更有效的营销策略和公共关系计划。其次,该数据集可以用于舆情分析和危机管理。通过对推文中的情感和主题进行监测,企业和组织可以及时发现和应对潜在的风险和危机,保护自身声誉和利益。此外,该数据集还可以用于社交网络分析和用户行为研究。通过对推文中的用户互动和社交关系进行分析,研究人员可以更好地理解用户的行为模式和社会网络结构。
衍生相关工作
BLM-17m数据集衍生了多项相关工作。首先,基于该数据集的研究成果可以为社交媒体监测和分析提供理论支持和实践指导。通过对推文进行主题检测和情感分析,研究人员可以更好地理解公众对黑命贵运动的看法和态度,从而为企业和组织提供有价值的信息和洞见。其次,该数据集可以用于舆情分析和危机管理的研究。通过对推文中的情感和主题进行监测,研究人员可以及时发现和应对潜在的风险和危机,为企业和组织提供有效的危机管理策略。此外,该数据集还可以用于社交网络分析和用户行为研究。通过对推文中的用户互动和社交关系进行分析,研究人员可以更好地理解用户的行为模式和社会网络结构,从而为社交网络平台和应用程序的设计和优化提供指导。BLM-17m数据集对相关工作的意义和影响在于,它为社交媒体监测和分析、舆情分析和危机管理、社交网络分析和用户行为研究等领域的研究提供了重要的数据支持和实验基础。
以上内容由遇见数据集搜集并总结生成



