five

Datasets-for-Hate-Speech-Detection

收藏
github2024-05-09 更新2024-05-31 收录
下载链接:
https://github.com/aymeam/Datasets-for-Hate-Speech-Detection
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库提供了用于仇恨言论检测及相关概念(如网络欺凌、辱骂语言、在线骚扰等)的数据集信息,便于研究人员获取所需数据集。

This repository provides information on datasets for hate speech detection and related concepts (such as cyberbullying, abusive language, online harassment, etc.), facilitating researchers in acquiring the necessary datasets.
创建时间:
2019-11-26
原始信息汇总

数据集概述

西班牙语

No 数据集名称 对象 大小 可用性 标签
1 IberEval 2018 Tweets 4138 Download Misogeny (5 categories), Not Misogeny
2 MEX-A3T Tweets 11000 Download Aggressive, Not Aggressive
3 SemEval19, 2019 Tweets 4500 Request Link Hate Speech, Non Hate Speech
4 Pereira et al., 2019 Tweets 6000 Download Hate Speech, Non Hate Speech
5 Chilean Dataset Tweets 9834 Download Several Categories including hate speech

意大利语

No 数据集名称 对象 大小 可用性 标签
1 Sanguinetti et al., 2018 Tweets 6929 Download Hate Speech, Non Hate Speech
2 EVALITA 2018 Facebook Posts 4000 Download No Hate, Weak Hate, Strong Hate
3 EVALITA 2018 Tweets 4000 Download Hate Speech, Non Hate Speech
4 EVALITA 2020 Tweets 6839 Request Link Hate Speech, Non Hate Speech

英语

No 数据集名称 对象 大小 可用性 标签
1 Dinakar et al., 2011 YouTube Comments 6000 - Sexuality, Race, Culture, Intelligence
2 Dadvar and Jong, 2012 Myspace Posts 2200 - Bullying, Non Bullying
3 Huang et al., 2014 Tweets 4865 - Bullying, Non Bullying
4 Hosseinmardi et al., 2015 Instagram Media Sessions 998 - bullying, Non bullying
5 Waseem and Hovy, 2016 Tweets 16914 Download Racist, Sexist, Either
6 Waseem, 2016 Tweets 6909 Download Racist, Sexist, Either,Both
7 Nobata et al., 2016 Yahoo Comments 2000 - Abusive, Clean
8 Chatzakou et al., 2017 Twitter Users 9484 - Aggressor, Bully, Spammer
9 Davidson et al., 2017 Tweets 24802 Download hate_speech, offensive, neither
10 Golbeck et al., 2017 Tweets 35000 - Harassing, Non Harassing
11 Wulczyn et al. 2017 Wikipedia Comments 100000 Download Personal Attacks
12 Tahmasbi and Rastegari, 2018 Tweets 12837 - Bullying, Non Bullying
13 Anzovino et al., 2018 Tweets 4454 - Discredit, Stereotype, Objectification, Sexual_Harassment, Threats of Violence, Dominance, Dearailingy
14 Founta et al., 2018 Tweets 80000 Download Hate Speech, Offensive, None
15 Gibert et al., 2018 Sentences from Stormfront 10568 Download Hate Speech, Non Hate Speech
16 SemEval19, 2019 Tweets 9000 Request Link Hate speech, Non Hate Speech
17 OLID 2019 Tweets 14100 Download Offensive, Non Offensive
18 TREC2 2020 Messages (Twitter,Facebook,Youtube) 4,263 Request Form Misogynous (GEN,NGEN), AGGRESSION LEVEL(OAG, CAG, NAG)
19 meTooMA 2020 Tweets 9,973 Download Hate Speech (Directed, Generalized), Relevance (0,1), STANCE (Support, Opposition, Neither)

阿拉伯语

No 数据集名称 对象 大小 可用性 标签
1 Mubarak et al., 2017 Tweets 1100 Download Obscene, Offensive but not obscene, Clean
2 Albadi et al., 2018 Tweets 6136 Download Hate Speech, Non Hate Speech
3 Alakrot A. et al., 2018 Tweets 15050 Download Offensive, Not Offensive
4 Ousidhoum et al., 2019 Tweets 3353 Download Hate Speech, Non Hate Speech
5 L-HSAB, 2019 Tweets 5846 Download Normal, Abuse, Hate Speech

其他语言

No 数据集名称 对象 大小 可用性 语言 标签
1 Hee et al., 2015 Ask.fm Posts 85485 - Dutch Threat-Blackmail, Sexual-talk, Insult, Curse-Exclusion, Defense, Defamation-Encouragement
2 Papegnies et al., 2017 Game Chat Logs 2779 - French Abusive, Non Abusive
3 Sirihattasak et al., 2018 Tweets 3,300 Yes Thai Toxic, Non Toxic
4 Bohra et al., 2018 Tweets 4575 Yes Hindi-English Hate Speech, Non Hate Speech
5 Fortuna et al., 2019 Tweets 5668 Download Portuguese Hate Speech (81 categories), Non Hate Speech
6 TREC2 2020 Messages (Twitter,Facebook,Youtube) 3,984 Request Form Hindi Misogynous (GEN,NGEN), AGGRESSION LEVEL(OAG, CAG, NAG)
8 TREC2 2020 Messages (Twitter,Facebook,Youtube) 3,826 Request Form Bangla Misogynous (GEN,NGEN), AGGRESSION LEVEL(OAG, CAG, NAG)

多语言(平行数据)

No 数据集名称 对象 大小 可用性 语言 标签
1 XHate 999 Tweets from previous published English datasets and translated to 5 languages 600 (x 6 l - - -
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建主要依赖于从相关文献中收集和整理已用于仇恨言论检测或相关概念(如网络欺凌、辱骂语言、在线骚扰等)的数据集。这些数据集大多来源于社交媒体平台,如Twitter、Facebook和YouTube等,涵盖了多种语言和不同类型的文本对象。构建过程中,研究人员通过手动标注或请求原作者获取数据集,确保了数据的多样性和代表性。尽管数据集的获取过程耗时且复杂,但通过这种方式,研究人员能够获得高质量的标注数据,为后续的仇恨言论检测研究提供了坚实的基础。
使用方法
该数据集主要用于仇恨言论检测及相关领域的研究,研究者可以通过下载或请求获取数据集,并利用这些数据进行模型训练、验证和测试。数据集的多样性和精细标注使得研究者能够探索不同语言和文化背景下的仇恨言论检测问题。使用时,研究者可以根据具体需求选择合适的语言和平台数据,结合机器学习或深度学习算法,构建和评估仇恨言论检测模型。此外,数据集的开放性也鼓励了跨领域的合作研究,推动了该领域的技术进步。
背景与挑战
背景概述
随着社交媒体的普及,网络仇恨言论的检测成为了一个重要的研究领域。Datasets-for-Hate-Speech-Detection数据集由多个研究机构和学者共同创建,旨在为仇恨言论检测、网络欺凌、辱骂语言等相关研究提供丰富的数据资源。该数据集涵盖了多种语言,包括西班牙语、意大利语、英语、阿拉伯语等,且包含了来自不同社交平台的文本数据,如推特、Facebook和YouTube等。通过这些数据,研究人员可以更好地理解和应对网络环境中的仇恨言论问题,推动相关技术的进步。
当前挑战
尽管该数据集为仇恨言论检测提供了丰富的资源,但其构建过程中仍面临诸多挑战。首先,从不同社交平台获取数据并进行标注是一项耗时且复杂的工作,尤其是确保标注的平衡性和准确性。其次,不同语言和文化背景下的仇恨言论定义和表达方式存在差异,这增加了跨文化研究的难度。此外,数据隐私和伦理问题也是构建此类数据集时必须考虑的重要因素。这些挑战不仅影响了数据集的质量,也对后续的研究和应用提出了更高的要求。
常用场景
经典使用场景
Datasets-for-Hate-Speech-Detection数据集的经典使用场景主要集中在社交媒体内容的自动化检测与分类上。通过这些数据集,研究者能够训练和验证模型,以识别和区分仇恨言论、网络欺凌、滥用语言等不良内容。这些数据集通常包含来自Twitter、Facebook、YouTube等平台的文本数据,标签涵盖了从简单的二分类(如仇恨言论与非仇恨言论)到多分类(如不同类型的仇恨言论)的多种形式。
解决学术问题
该数据集解决了社交媒体内容监管中的关键学术问题,如如何有效识别和分类仇恨言论、网络欺凌等不良行为。通过提供多样化的标注数据,研究者能够开发和评估更精确的检测算法,从而提高社交媒体平台的健康性和安全性。此外,这些数据集还为跨语言和跨平台的仇恨言论检测提供了宝贵的资源,推动了相关领域的研究进展。
实际应用
在实际应用中,Datasets-for-Hate-Speech-Detection数据集被广泛用于开发和部署社交媒体内容过滤系统。这些系统能够自动识别和屏蔽仇恨言论、网络欺凌等不良内容,从而保护用户免受伤害。此外,这些数据集还被用于企业内部的舆情监控,帮助公司及时发现和应对负面言论,维护品牌形象。
数据集最近研究
最新研究方向
近年来,仇恨言论检测领域的研究持续升温,尤其是在多语言和跨平台数据集的构建与应用方面取得了显著进展。研究者们不仅关注于英语数据集的扩展,还积极探索西班牙语、意大利语、阿拉伯语等多种语言的仇恨言论检测。此外,随着社交媒体平台的多样化,研究者们开始整合来自Twitter、Facebook、YouTube等不同平台的数据,以构建更加全面和多样化的数据集。这些数据集的构建不仅为跨文化、跨语言的仇恨言论检测提供了宝贵的资源,还推动了相关算法和模型的优化与创新。同时,随着深度学习技术的进步,基于多模态数据的仇恨言论检测也成为研究热点,研究者们尝试结合文本、图像、视频等多种数据形式,以提高检测的准确性和鲁棒性。这些前沿研究不仅有助于提升社交媒体平台的监管能力,还对维护网络空间的和谐与安全具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作