five

Paul/hatecheck

收藏
Hugging Face2022-07-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Paul/hatecheck
下载链接
链接失效反馈
官方服务:
资源简介:
HateCheck是一个用于仇恨言论检测模型的功能性测试套件。该数据集包含3,728个经过验证的测试案例,分为29个功能性测试,其中19个测试针对不同类型的仇恨言论,11个测试涵盖具有挑战性的非仇恨言论。这为模型性能提供了有针对性的诊断洞察。在我们的ACL论文中,我们发现所有使用HateCheck测试的商业和学术仇恨言论检测模型都存在关键弱点。

HateCheck is a functional test suite for hate speech detection models. This dataset contains 3,728 validated test cases, which are divided into 29 functional tests. Among them, 19 tests target different types of hate speech, and 11 tests cover challenging non-hate speech scenarios. This provides targeted diagnostic insights into model performance. In our ACL paper, we discovered critical weaknesses in all commercial and academic hate speech detection models tested using HateCheck.
提供机构:
Paul
原始信息汇总

数据集概述:HateCheck

数据集描述

HateCheck是一个用于测试仇恨言论检测模型的功能测试套件。该数据集包含3,728个经过验证的测试案例,分布在29个功能测试中。其中,19个功能测试对应于不同的仇恨类型,另外11个功能测试涵盖了非仇恨的挑战性类型。这允许对模型性能进行有针对性的诊断洞察。

数据集结构

数据集文件"test.csv"包含所有3,728个验证过的测试案例。每个测试案例(行)具有以下属性:

  • functionality:测试案例所测试的功能的简称。
  • case_id:测试案例的唯一ID。
  • test_case:测试案例的文本内容。
  • label_gold:测试案例的金标准标签(仇恨/非仇恨)。
  • target_ident:适用的保护群体,涵盖七个保护群体:女性、跨性别者、同性恋者、黑人、残疾人、穆斯林和移民。
  • direction:对于仇恨案例,指示其是针对个人还是针对群体的二元次级标签。
  • focus_words:适用的关键词或短语。
  • focus_lemma:适用的相应词形。
  • ref_case_id:适用的更简单的仇恨案例的ID,用于生成它们。
  • ref_templ_id:模板ID的等效项。
  • templ_id:生成测试案例的模板的唯一ID。

引用信息

使用HateCheck时,请引用以下论文:

@inproceedings{rottger-etal-2021-hatecheck, title = "{H}ate{C}heck: Functional Tests for Hate Speech Detection Models", author = {R{"o}ttger, Paul and Vidgen, Bertie and Nguyen, Dong and Waseem, Zeerak and Margetts, Helen and Pierrehumbert, Janet}, booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.acl-long.4", doi = "10.18653/v1/2021.acl-long.4", pages = "41--58", abstract = "Detecting online hate is a difficult task that even state-of-the-art models struggle with. Typically, hate speech detection models are evaluated by measuring their performance on held-out test data using metrics such as accuracy and F1 score. However, this approach makes it difficult to identify specific model weak points. It also risks overestimating generalisable model performance due to increasingly well-evidenced systematic gaps and biases in hate speech datasets. To enable more targeted diagnostic insights, we introduce HateCheck, a suite of functional tests for hate speech detection models. We specify 29 model functionalities motivated by a review of previous research and a series of interviews with civil society stakeholders. We craft test cases for each functionality and validate their quality through a structured annotation process. To illustrate HateCheck{}s utility, we test near-state-of-the-art transformer models as well as two popular commercial models, revealing critical model weaknesses.", }

搜集汇总
数据集介绍
main_image_url
构建方式
HateCheck数据集的构建基于对现有研究的深入回顾与民间社会利益相关者的系列访谈,旨在制定出29种模型功能性的测试案例。这些测试案例通过结构化的标注流程进行验证,以确保质量。数据集的构建过程采用众包的形式,同时结合专家生成的语言,形成了3,728个经过验证的测试案例,分为针对不同类型仇恨的19个功能性测试和针对非仇恨的11个功能性测试。
特点
该数据集的主要特点是专注于为仇恨言论检测模型提供针对性的诊断性见解。它包含了针对不同保护群体的仇恨案例,以及旨在区分针对个体的仇恨和针对群体的仇恨的二分类标签。此外,数据集还提供了每个测试案例的关键词和词形还原形式,以及与之相关的模板ID,以便于理解案例的生成背景。
使用方法
使用HateCheck数据集时,用户可以依据数据集中的29个功能性测试案例对仇恨言论检测模型进行评估。每个测试案例均带有黄金标准标签,指示其为仇恨或非仇恨内容,这有助于模型性能的精确诊断。用户需参考相关论文以获取数据集的详细使用方法和完整数据声明。在使用时,请确保引用相关论文以遵循数据集的使用规定。
背景与挑战
背景概述
在数字时代,网络上的仇恨言论对个体和社会造成了显著影响。Paul/hatecheck数据集在这样的背景下应运而生,旨在为仇恨言论检测模型提供功能性测试。该数据集由Röttger等研究者在2021年创建,涵盖3,728个经过验证的测试案例,涵盖了29种功能性测试,其中19种针对不同类型的仇恨言论,其余11种则涉及非仇恨的挑战性类型。该数据集的研究成果已在ACL论文中发表,揭示了当前商业和学术仇恨言论检测模型中的关键弱点,对相关领域产生了重要影响。
当前挑战
数据集构建过程中,研究者面临了多方面的挑战。首先,如何精确区分不同类型的仇恨言论与非仇恨言论,确保测试案例的有效性和针对性,是一大难题。其次,构建一个能够全面覆盖各种仇恨类型的测试集,同时包含足够数量的非仇恨案例以供对比分析,同样具有挑战性。此外,数据集的多样性和广泛性也考验着模型的功能性和泛化能力。HateCheck数据集通过严格的注释过程和精心设计的测试案例,为仇恨言论检测模型的评估提供了更为细致和深入的视角。
常用场景
经典使用场景
在深度学习时代,检测网络上的仇恨言论成为一项至关重要的任务。Paul/hatecheck数据集为此提供了精准的工具。该数据集最经典的使用场景在于,研究者可以通过29项功能测试,对仇恨言论检测模型进行细致的性能评估,从而针对性地识别模型在处理不同类型仇恨言论时的弱点。
解决学术问题
该数据集解决了学术界在仇恨言论检测领域中的关键问题。传统的评估方法往往依赖于整体性能指标,难以揭示模型在特定类型的仇恨言论上的不足。HateCheck通过功能性的测试案例,帮助研究者发现并改正模型在处理特定类别仇恨言论时的偏差和漏洞,进而提高模型的准确性和公正性。
衍生相关工作
基于HateCheck数据集,学术界已经衍生出一系列相关研究工作。研究者们利用该数据集进行了模型性能的比较、算法的改进以及评测指标的优化等研究,推动了仇恨言论检测技术的不断进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作