Datasets-for-Hate-Speech-Detection

github2024-05-09 更新2024-05-31 收录

下载链接：

https://github.com/aymeam/Datasets-for-Hate-Speech-Detection

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库提供了用于仇恨言论检测及相关概念（如网络欺凌、辱骂语言、在线骚扰等）的数据集信息，便于研究人员获取所需数据集。

This repository provides information on datasets for hate speech detection and related concepts (such as cyberbullying, abusive language, online harassment, etc.), facilitating researchers in acquiring the necessary datasets.

创建时间：

2019-11-26

原始信息汇总

数据集概述

西班牙语

No	数据集名称	对象	大小	可用性	标签
1	IberEval 2018	Tweets	4138	Download	Misogeny (5 categories), Not Misogeny
2	MEX-A3T	Tweets	11000	Download	Aggressive, Not Aggressive
3	SemEval19, 2019	Tweets	4500	Request Link	Hate Speech, Non Hate Speech
4	Pereira et al., 2019	Tweets	6000	Download	Hate Speech, Non Hate Speech
5	Chilean Dataset	Tweets	9834	Download	Several Categories including hate speech

意大利语

No	数据集名称	对象	大小	可用性	标签
1	Sanguinetti et al., 2018	Tweets	6929	Download	Hate Speech, Non Hate Speech
2	EVALITA 2018	Facebook Posts	4000	Download	No Hate, Weak Hate, Strong Hate
3	EVALITA 2018	Tweets	4000	Download	Hate Speech, Non Hate Speech
4	EVALITA 2020	Tweets	6839	Request Link	Hate Speech, Non Hate Speech

英语

No	数据集名称	对象	大小	可用性	标签
1	Dinakar et al., 2011	YouTube Comments	6000	-	Sexuality, Race, Culture, Intelligence
2	Dadvar and Jong, 2012	Myspace Posts	2200	-	Bullying, Non Bullying
3	Huang et al., 2014	Tweets	4865	-	Bullying, Non Bullying
4	Hosseinmardi et al., 2015	Instagram Media Sessions	998	-	bullying, Non bullying
5	Waseem and Hovy, 2016	Tweets	16914	Download	Racist, Sexist, Either
6	Waseem, 2016	Tweets	6909	Download	Racist, Sexist, Either,Both
7	Nobata et al., 2016	Yahoo Comments	2000	-	Abusive, Clean
8	Chatzakou et al., 2017	Twitter Users	9484	-	Aggressor, Bully, Spammer
9	Davidson et al., 2017	Tweets	24802	Download	hate_speech, offensive, neither
10	Golbeck et al., 2017	Tweets	35000	-	Harassing, Non Harassing
11	Wulczyn et al. 2017	Wikipedia Comments	100000	Download	Personal Attacks
12	Tahmasbi and Rastegari, 2018	Tweets	12837	-	Bullying, Non Bullying
13	Anzovino et al., 2018	Tweets	4454	-	Discredit, Stereotype, Objectification, Sexual_Harassment, Threats of Violence, Dominance, Dearailingy
14	Founta et al., 2018	Tweets	80000	Download	Hate Speech, Offensive, None
15	Gibert et al., 2018	Sentences from Stormfront	10568	Download	Hate Speech, Non Hate Speech
16	SemEval19, 2019	Tweets	9000	Request Link	Hate speech, Non Hate Speech
17	OLID 2019	Tweets	14100	Download	Offensive, Non Offensive
18	TREC2 2020	Messages (Twitter,Facebook,Youtube)	4,263	Request Form	Misogynous (GEN,NGEN), AGGRESSION LEVEL(OAG, CAG, NAG)
19	meTooMA 2020	Tweets	9,973	Download	Hate Speech (Directed, Generalized), Relevance (0,1), STANCE (Support, Opposition, Neither)

阿拉伯语

No	数据集名称	对象	大小	可用性	标签
1	Mubarak et al., 2017	Tweets	1100	Download	Obscene, Offensive but not obscene, Clean
2	Albadi et al., 2018	Tweets	6136	Download	Hate Speech, Non Hate Speech
3	Alakrot A. et al., 2018	Tweets	15050	Download	Offensive, Not Offensive
4	Ousidhoum et al., 2019	Tweets	3353	Download	Hate Speech, Non Hate Speech
5	L-HSAB, 2019	Tweets	5846	Download	Normal, Abuse, Hate Speech

其他语言

No	数据集名称	对象	大小	可用性	语言	标签
1	Hee et al., 2015	Ask.fm Posts	85485	-	Dutch	Threat-Blackmail, Sexual-talk, Insult, Curse-Exclusion, Defense, Defamation-Encouragement
2	Papegnies et al., 2017	Game Chat Logs	2779	-	French	Abusive, Non Abusive
3	Sirihattasak et al., 2018	Tweets	3,300	Yes	Thai	Toxic, Non Toxic
4	Bohra et al., 2018	Tweets	4575	Yes	Hindi-English	Hate Speech, Non Hate Speech
5	Fortuna et al., 2019	Tweets	5668	Download	Portuguese	Hate Speech (81 categories), Non Hate Speech
6	TREC2 2020	Messages (Twitter,Facebook,Youtube)	3,984	Request Form	Hindi	Misogynous (GEN,NGEN), AGGRESSION LEVEL(OAG, CAG, NAG)
8	TREC2 2020	Messages (Twitter,Facebook,Youtube)	3,826	Request Form	Bangla	Misogynous (GEN,NGEN), AGGRESSION LEVEL(OAG, CAG, NAG)

多语言（平行数据）

No	数据集名称	对象	大小	可用性	语言	标签
1	XHate 999	Tweets from previous published English datasets and translated to 5 languages	600 (x 6 l	-	-	-

搜集汇总

数据集介绍

构建方式

该数据集的构建主要依赖于从相关文献中收集和整理已用于仇恨言论检测或相关概念（如网络欺凌、辱骂语言、在线骚扰等）的数据集。这些数据集大多来源于社交媒体平台，如Twitter、Facebook和YouTube等，涵盖了多种语言和不同类型的文本对象。构建过程中，研究人员通过手动标注或请求原作者获取数据集，确保了数据的多样性和代表性。尽管数据集的获取过程耗时且复杂，但通过这种方式，研究人员能够获得高质量的标注数据，为后续的仇恨言论检测研究提供了坚实的基础。

使用方法

该数据集主要用于仇恨言论检测及相关领域的研究，研究者可以通过下载或请求获取数据集，并利用这些数据进行模型训练、验证和测试。数据集的多样性和精细标注使得研究者能够探索不同语言和文化背景下的仇恨言论检测问题。使用时，研究者可以根据具体需求选择合适的语言和平台数据，结合机器学习或深度学习算法，构建和评估仇恨言论检测模型。此外，数据集的开放性也鼓励了跨领域的合作研究，推动了该领域的技术进步。

背景与挑战

背景概述

随着社交媒体的普及，网络仇恨言论的检测成为了一个重要的研究领域。Datasets-for-Hate-Speech-Detection数据集由多个研究机构和学者共同创建，旨在为仇恨言论检测、网络欺凌、辱骂语言等相关研究提供丰富的数据资源。该数据集涵盖了多种语言，包括西班牙语、意大利语、英语、阿拉伯语等，且包含了来自不同社交平台的文本数据，如推特、Facebook和YouTube等。通过这些数据，研究人员可以更好地理解和应对网络环境中的仇恨言论问题，推动相关技术的进步。

当前挑战

尽管该数据集为仇恨言论检测提供了丰富的资源，但其构建过程中仍面临诸多挑战。首先，从不同社交平台获取数据并进行标注是一项耗时且复杂的工作，尤其是确保标注的平衡性和准确性。其次，不同语言和文化背景下的仇恨言论定义和表达方式存在差异，这增加了跨文化研究的难度。此外，数据隐私和伦理问题也是构建此类数据集时必须考虑的重要因素。这些挑战不仅影响了数据集的质量，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

Datasets-for-Hate-Speech-Detection数据集的经典使用场景主要集中在社交媒体内容的自动化检测与分类上。通过这些数据集，研究者能够训练和验证模型，以识别和区分仇恨言论、网络欺凌、滥用语言等不良内容。这些数据集通常包含来自Twitter、Facebook、YouTube等平台的文本数据，标签涵盖了从简单的二分类（如仇恨言论与非仇恨言论）到多分类（如不同类型的仇恨言论）的多种形式。

解决学术问题

该数据集解决了社交媒体内容监管中的关键学术问题，如如何有效识别和分类仇恨言论、网络欺凌等不良行为。通过提供多样化的标注数据，研究者能够开发和评估更精确的检测算法，从而提高社交媒体平台的健康性和安全性。此外，这些数据集还为跨语言和跨平台的仇恨言论检测提供了宝贵的资源，推动了相关领域的研究进展。

实际应用

在实际应用中，Datasets-for-Hate-Speech-Detection数据集被广泛用于开发和部署社交媒体内容过滤系统。这些系统能够自动识别和屏蔽仇恨言论、网络欺凌等不良内容，从而保护用户免受伤害。此外，这些数据集还被用于企业内部的舆情监控，帮助公司及时发现和应对负面言论，维护品牌形象。

数据集最近研究