Datasets-for-Hate-Speech-Detection
收藏github2024-05-09 更新2024-05-31 收录
下载链接:
https://github.com/aymeam/Datasets-for-Hate-Speech-Detection
下载链接
链接失效反馈官方服务:
资源简介:
本仓库提供了用于仇恨言论检测及相关概念(如网络欺凌、辱骂语言、在线骚扰等)的数据集信息,便于研究人员获取所需数据集。
This repository provides information on datasets for hate speech detection and related concepts (such as cyberbullying, abusive language, online harassment, etc.), facilitating researchers in acquiring the necessary datasets.
创建时间:
2019-11-26
原始信息汇总
数据集概述
西班牙语
| No | 数据集名称 | 对象 | 大小 | 可用性 | 标签 |
|---|---|---|---|---|---|
| 1 | IberEval 2018 | Tweets | 4138 | Download | Misogeny (5 categories), Not Misogeny |
| 2 | MEX-A3T | Tweets | 11000 | Download | Aggressive, Not Aggressive |
| 3 | SemEval19, 2019 | Tweets | 4500 | Request Link | Hate Speech, Non Hate Speech |
| 4 | Pereira et al., 2019 | Tweets | 6000 | Download | Hate Speech, Non Hate Speech |
| 5 | Chilean Dataset | Tweets | 9834 | Download | Several Categories including hate speech |
意大利语
| No | 数据集名称 | 对象 | 大小 | 可用性 | 标签 |
|---|---|---|---|---|---|
| 1 | Sanguinetti et al., 2018 | Tweets | 6929 | Download | Hate Speech, Non Hate Speech |
| 2 | EVALITA 2018 | Facebook Posts | 4000 | Download | No Hate, Weak Hate, Strong Hate |
| 3 | EVALITA 2018 | Tweets | 4000 | Download | Hate Speech, Non Hate Speech |
| 4 | EVALITA 2020 | Tweets | 6839 | Request Link | Hate Speech, Non Hate Speech |
英语
| No | 数据集名称 | 对象 | 大小 | 可用性 | 标签 |
|---|---|---|---|---|---|
| 1 | Dinakar et al., 2011 | YouTube Comments | 6000 | - | Sexuality, Race, Culture, Intelligence |
| 2 | Dadvar and Jong, 2012 | Myspace Posts | 2200 | - | Bullying, Non Bullying |
| 3 | Huang et al., 2014 | Tweets | 4865 | - | Bullying, Non Bullying |
| 4 | Hosseinmardi et al., 2015 | Instagram Media Sessions | 998 | - | bullying, Non bullying |
| 5 | Waseem and Hovy, 2016 | Tweets | 16914 | Download | Racist, Sexist, Either |
| 6 | Waseem, 2016 | Tweets | 6909 | Download | Racist, Sexist, Either,Both |
| 7 | Nobata et al., 2016 | Yahoo Comments | 2000 | - | Abusive, Clean |
| 8 | Chatzakou et al., 2017 | Twitter Users | 9484 | - | Aggressor, Bully, Spammer |
| 9 | Davidson et al., 2017 | Tweets | 24802 | Download | hate_speech, offensive, neither |
| 10 | Golbeck et al., 2017 | Tweets | 35000 | - | Harassing, Non Harassing |
| 11 | Wulczyn et al. 2017 | Wikipedia Comments | 100000 | Download | Personal Attacks |
| 12 | Tahmasbi and Rastegari, 2018 | Tweets | 12837 | - | Bullying, Non Bullying |
| 13 | Anzovino et al., 2018 | Tweets | 4454 | - | Discredit, Stereotype, Objectification, Sexual_Harassment, Threats of Violence, Dominance, Dearailingy |
| 14 | Founta et al., 2018 | Tweets | 80000 | Download | Hate Speech, Offensive, None |
| 15 | Gibert et al., 2018 | Sentences from Stormfront | 10568 | Download | Hate Speech, Non Hate Speech |
| 16 | SemEval19, 2019 | Tweets | 9000 | Request Link | Hate speech, Non Hate Speech |
| 17 | OLID 2019 | Tweets | 14100 | Download | Offensive, Non Offensive |
| 18 | TREC2 2020 | Messages (Twitter,Facebook,Youtube) | 4,263 | Request Form | Misogynous (GEN,NGEN), AGGRESSION LEVEL(OAG, CAG, NAG) |
| 19 | meTooMA 2020 | Tweets | 9,973 | Download | Hate Speech (Directed, Generalized), Relevance (0,1), STANCE (Support, Opposition, Neither) |
阿拉伯语
| No | 数据集名称 | 对象 | 大小 | 可用性 | 标签 |
|---|---|---|---|---|---|
| 1 | Mubarak et al., 2017 | Tweets | 1100 | Download | Obscene, Offensive but not obscene, Clean |
| 2 | Albadi et al., 2018 | Tweets | 6136 | Download | Hate Speech, Non Hate Speech |
| 3 | Alakrot A. et al., 2018 | Tweets | 15050 | Download | Offensive, Not Offensive |
| 4 | Ousidhoum et al., 2019 | Tweets | 3353 | Download | Hate Speech, Non Hate Speech |
| 5 | L-HSAB, 2019 | Tweets | 5846 | Download | Normal, Abuse, Hate Speech |
其他语言
| No | 数据集名称 | 对象 | 大小 | 可用性 | 语言 | 标签 |
|---|---|---|---|---|---|---|
| 1 | Hee et al., 2015 | Ask.fm Posts | 85485 | - | Dutch | Threat-Blackmail, Sexual-talk, Insult, Curse-Exclusion, Defense, Defamation-Encouragement |
| 2 | Papegnies et al., 2017 | Game Chat Logs | 2779 | - | French | Abusive, Non Abusive |
| 3 | Sirihattasak et al., 2018 | Tweets | 3,300 | Yes | Thai | Toxic, Non Toxic |
| 4 | Bohra et al., 2018 | Tweets | 4575 | Yes | Hindi-English | Hate Speech, Non Hate Speech |
| 5 | Fortuna et al., 2019 | Tweets | 5668 | Download | Portuguese | Hate Speech (81 categories), Non Hate Speech |
| 6 | TREC2 2020 | Messages (Twitter,Facebook,Youtube) | 3,984 | Request Form | Hindi | Misogynous (GEN,NGEN), AGGRESSION LEVEL(OAG, CAG, NAG) |
| 8 | TREC2 2020 | Messages (Twitter,Facebook,Youtube) | 3,826 | Request Form | Bangla | Misogynous (GEN,NGEN), AGGRESSION LEVEL(OAG, CAG, NAG) |
多语言(平行数据)
| No | 数据集名称 | 对象 | 大小 | 可用性 | 语言 | 标签 |
|---|---|---|---|---|---|---|
| 1 | XHate 999 | Tweets from previous published English datasets and translated to 5 languages | 600 (x 6 l | - | - | - |
搜集汇总
数据集介绍

构建方式
该数据集的构建主要依赖于从相关文献中收集和整理已用于仇恨言论检测或相关概念(如网络欺凌、辱骂语言、在线骚扰等)的数据集。这些数据集大多来源于社交媒体平台,如Twitter、Facebook和YouTube等,涵盖了多种语言和不同类型的文本对象。构建过程中,研究人员通过手动标注或请求原作者获取数据集,确保了数据的多样性和代表性。尽管数据集的获取过程耗时且复杂,但通过这种方式,研究人员能够获得高质量的标注数据,为后续的仇恨言论检测研究提供了坚实的基础。
使用方法
该数据集主要用于仇恨言论检测及相关领域的研究,研究者可以通过下载或请求获取数据集,并利用这些数据进行模型训练、验证和测试。数据集的多样性和精细标注使得研究者能够探索不同语言和文化背景下的仇恨言论检测问题。使用时,研究者可以根据具体需求选择合适的语言和平台数据,结合机器学习或深度学习算法,构建和评估仇恨言论检测模型。此外,数据集的开放性也鼓励了跨领域的合作研究,推动了该领域的技术进步。
背景与挑战
背景概述
随着社交媒体的普及,网络仇恨言论的检测成为了一个重要的研究领域。Datasets-for-Hate-Speech-Detection数据集由多个研究机构和学者共同创建,旨在为仇恨言论检测、网络欺凌、辱骂语言等相关研究提供丰富的数据资源。该数据集涵盖了多种语言,包括西班牙语、意大利语、英语、阿拉伯语等,且包含了来自不同社交平台的文本数据,如推特、Facebook和YouTube等。通过这些数据,研究人员可以更好地理解和应对网络环境中的仇恨言论问题,推动相关技术的进步。
当前挑战
尽管该数据集为仇恨言论检测提供了丰富的资源,但其构建过程中仍面临诸多挑战。首先,从不同社交平台获取数据并进行标注是一项耗时且复杂的工作,尤其是确保标注的平衡性和准确性。其次,不同语言和文化背景下的仇恨言论定义和表达方式存在差异,这增加了跨文化研究的难度。此外,数据隐私和伦理问题也是构建此类数据集时必须考虑的重要因素。这些挑战不仅影响了数据集的质量,也对后续的研究和应用提出了更高的要求。
常用场景
经典使用场景
Datasets-for-Hate-Speech-Detection数据集的经典使用场景主要集中在社交媒体内容的自动化检测与分类上。通过这些数据集,研究者能够训练和验证模型,以识别和区分仇恨言论、网络欺凌、滥用语言等不良内容。这些数据集通常包含来自Twitter、Facebook、YouTube等平台的文本数据,标签涵盖了从简单的二分类(如仇恨言论与非仇恨言论)到多分类(如不同类型的仇恨言论)的多种形式。
解决学术问题
该数据集解决了社交媒体内容监管中的关键学术问题,如如何有效识别和分类仇恨言论、网络欺凌等不良行为。通过提供多样化的标注数据,研究者能够开发和评估更精确的检测算法,从而提高社交媒体平台的健康性和安全性。此外,这些数据集还为跨语言和跨平台的仇恨言论检测提供了宝贵的资源,推动了相关领域的研究进展。
实际应用
在实际应用中,Datasets-for-Hate-Speech-Detection数据集被广泛用于开发和部署社交媒体内容过滤系统。这些系统能够自动识别和屏蔽仇恨言论、网络欺凌等不良内容,从而保护用户免受伤害。此外,这些数据集还被用于企业内部的舆情监控,帮助公司及时发现和应对负面言论,维护品牌形象。
数据集最近研究
最新研究方向
近年来,仇恨言论检测领域的研究持续升温,尤其是在多语言和跨平台数据集的构建与应用方面取得了显著进展。研究者们不仅关注于英语数据集的扩展,还积极探索西班牙语、意大利语、阿拉伯语等多种语言的仇恨言论检测。此外,随着社交媒体平台的多样化,研究者们开始整合来自Twitter、Facebook、YouTube等不同平台的数据,以构建更加全面和多样化的数据集。这些数据集的构建不仅为跨文化、跨语言的仇恨言论检测提供了宝贵的资源,还推动了相关算法和模型的优化与创新。同时,随着深度学习技术的进步,基于多模态数据的仇恨言论检测也成为研究热点,研究者们尝试结合文本、图像、视频等多种数据形式,以提高检测的准确性和鲁棒性。这些前沿研究不仅有助于提升社交媒体平台的监管能力,还对维护网络空间的和谐与安全具有重要意义。
以上内容由遇见数据集搜集并总结生成



