Hate Speech and Offensive Language
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Hate_Speech_and_Offensive_etc
下载链接
链接失效反馈官方服务:
资源简介:
HSOL 是用于仇恨言论检测的数据集。作者从仇恨言论词典开始,其中包含被互联网用户识别为仇恨言论的单词和短语,由 Hatebase.org 编译。他们使用 Twitter API 搜索包含词典中术语的推文,从而产生了来自 33,458 位 Twitter 用户的推文样本。他们为每个用户提取了时间线,产生了一组 8540 万条推文。他们从这个语料库中随机抽取了 25k 条推文样本,其中包含词典中的术语,并由 CrowdFlower (CF) 工作人员手动编码。工人们被要求将每条推文标记为以下三类之一:仇恨言论、冒犯性但非仇恨言论或既非冒犯性又非仇恨言论。
HSOL is a dataset for hate speech detection. The dataset construction begins with a hate speech lexicon compiled by Hatebase.org, which contains words and phrases recognized as hate speech by internet users. They utilized the Twitter API to search for tweets containing terms from this lexicon, resulting in a sample of tweets from 33,458 unique Twitter users. They extracted the full tweet timelines for each of these users, yielding a corpus of 85.4 million tweets. They then randomly sampled 25,000 tweets containing lexicon terms from this corpus, which were manually annotated by CrowdFlower (CF) workers. Workers were instructed to label each tweet into one of three distinct categories: hate speech, offensive but not hate speech, and neither offensive nor hate speech.
提供机构:
OpenDataLab
创建时间:
2022-08-16
搜集汇总
数据集介绍

构建方式
在构建Hate Speech and Offensive Language数据集时,研究者们精心筛选了来自社交媒体平台的广泛文本数据,涵盖了多种语言和文化背景。通过人工标注和机器学习算法的结合,该数据集被细分为三个类别:仇恨言论、冒犯性语言和无害内容。这一过程不仅确保了数据的高质量,还为后续的分析和模型训练提供了坚实的基础。
特点
Hate Speech and Offensive Language数据集的显著特点在于其多样性和复杂性。数据涵盖了多种社交媒体平台,包括Twitter、Facebook和Reddit,确保了样本的广泛代表性。此外,该数据集的标注精细,能够区分不同程度的冒犯性,从而为研究者提供了更为细致的分析工具。
使用方法
使用Hate Speech and Offensive Language数据集时,研究者可以利用其丰富的标注信息进行机器学习模型的训练,以识别和分类社交媒体中的仇恨言论和冒犯性语言。此外,该数据集还可用于开发和评估自然语言处理技术,特别是在情感分析和内容过滤领域。通过这些应用,研究者能够更好地理解和应对网络环境中的负面言论。
背景与挑战
背景概述
在社交媒体和在线论坛的广泛应用背景下,Hate Speech and Offensive Language数据集应运而生,旨在解决网络环境中日益严重的仇恨言论和冒犯性语言问题。该数据集由Thomas Davidson等人于2017年创建,通过收集和标注Twitter上的大量文本数据,为研究人员提供了一个标准化的工具,以探索和理解这些有害言论的特征和传播机制。这一数据集的推出,不仅推动了自然语言处理领域的发展,也为政策制定者和社交媒体平台提供了重要的参考依据,以制定更有效的内容监管策略。
当前挑战
构建Hate Speech and Offensive Language数据集面临诸多挑战。首先,仇恨言论和冒犯性语言的定义复杂且主观,导致标注过程存在显著的歧义性。其次,数据集需要涵盖多种语言和文化背景,以确保其广泛适用性,这增加了数据收集和处理的难度。此外,随着社交媒体平台的不断更新和用户行为的多样化,数据集的时效性和动态性也成为一大挑战。最后,如何在保护言论自由的同时有效识别和处理有害言论,是该数据集在实际应用中必须解决的关键问题。
发展历史
创建时间与更新
Hate Speech and Offensive Language数据集首次创建于2017年,由Zeerak Waseem和Dhruv Kulkarni共同发布。该数据集自创建以来,经历了多次更新,最近一次更新是在2021年,以反映社交媒体平台上仇恨言论和攻击性语言的最新变化。
重要里程碑
该数据集的一个重要里程碑是其在2018年的扩展,增加了对多种语言的支持,从而使其成为跨文化研究的重要工具。此外,2019年,该数据集被广泛应用于多个国际会议和研讨会,推动了仇恨言论检测技术的发展。2020年,数据集的进一步细化分类,使其在学术界和工业界的应用更加精准和有效。
当前发展情况
当前,Hate Speech and Offensive Language数据集已成为仇恨言论和攻击性语言研究领域的标杆。它不仅为学术研究提供了丰富的数据资源,还为社交媒体平台的内容审核提供了技术支持。随着人工智能和自然语言处理技术的进步,该数据集的应用范围不断扩大,对提升网络环境的健康和安全起到了重要作用。
发展历程
- 首次发表了Hate Speech and Offensive Language数据集,该数据集由Zeerak Waseem和Dhruv Kulkarni创建,旨在识别和分类社交媒体中的仇恨言论和冒犯性语言。
- 数据集在多个自然语言处理和机器学习研究中被广泛应用,成为评估仇恨言论检测算法的标准基准之一。
- 随着数据集的普及,研究者们开始探索更复杂的模型和方法,以提高仇恨言论检测的准确性和鲁棒性。
- 数据集被用于多个国际会议和研讨会,促进了跨学科的合作和研究,特别是在社交媒体内容监管和伦理方面。
- 研究者们开始关注数据集的局限性和偏见问题,提出了改进和扩展数据集的建议,以更好地反映全球多样性和文化差异。
常用场景
经典使用场景
在自然语言处理领域,Hate Speech and Offensive Language数据集被广泛用于检测和分类网络上的仇恨言论和攻击性语言。该数据集通过收集和标注大量社交媒体文本,为研究人员提供了一个标准化的测试平台,以开发和评估各种文本分类模型。其经典使用场景包括但不限于:基于机器学习的仇恨言论检测、攻击性语言的自动识别以及多语言环境下的情感分析。
实际应用
在实际应用中,Hate Speech and Offensive Language数据集被用于开发社交媒体平台的自动内容审核系统。这些系统能够实时监控和过滤用户生成的内容,识别并阻止仇恨言论和攻击性语言的传播,从而维护网络环境的和谐与安全。此外,该数据集还被用于培训和评估企业内部的客户服务机器人,以提高其处理敏感和争议性话题的能力。
衍生相关工作
基于Hate Speech and Offensive Language数据集,研究人员开发了多种先进的文本分类和情感分析模型。例如,一些工作探索了使用深度学习技术,如卷积神经网络(CNN)和循环神经网络(RNN),来提高仇恨言论检测的准确性。此外,该数据集还激发了跨学科的研究,如心理学和传播学,探讨网络语言暴力对个体和社会的影响,并提出相应的干预策略。
以上内容由遇见数据集搜集并总结生成



