Paul/hatecheck-polish

Name: Paul/hatecheck-polish
Creator: Paul
Published: 2022-07-05 10:26:41
License: 暂无描述

Hugging Face2022-07-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Paul/hatecheck-polish

下载链接

链接失效反馈

官方服务：

资源简介：

Multilingual HateCheck (MHC) 是一个用于检测10种不同语言中仇恨言论的功能测试套件，包括阿拉伯语、荷兰语、法语、德语、印地语、意大利语、普通话、波兰语、葡萄牙语和西班牙语。每种语言包含25个以上的功能测试，这些测试对应于不同类型的仇恨和具有挑战性的非仇恨内容，从而提供针对模型性能的定向诊断洞察。数据集的结构包括CSV格式的字段描述，如测试案例ID、功能、测试案例文本、黄金标准标签、目标群体、参考案例ID、模板ID、案例模板、性别相关字段、注释标签、多数投票标签以及分歧标记等。

提供机构：

Paul

原始信息汇总

数据集概述

基本信息

数据集名称： Multilingual HateCheck
别名： MHC
语言： 波兰语（pl）
许可证： CC-BY-4.0
多语言性： 单语种
数据集大小： 1K<n<10K
数据来源： 原始数据
任务类别： 文本分类
任务ID： hate-speech-detection

数据集描述

Multilingual HateCheck (MHC) 是一个针对10种不同语言的仇恨言论检测模型的功能测试套件，包括阿拉伯语、荷兰语、法语、德语、印地语、意大利语、普通话、波兰语、葡萄牙语和西班牙语。每种语言包含超过25种功能测试，对应不同的仇恨和挑战性的非仇恨类型，以提供模型性能的针对性诊断洞察。

数据集结构

mhc_case_id： 跨语言的每个测试案例的唯一ID。
functionality： 测试案例所测试的功能的简称。
test_case： 测试案例文本。
label_gold： 测试案例的金标准标签（“hateful”或“non-hateful”）。
target_ident： 适用的目标或参考的保护群体。
ref_case_id： 适用的仇恨案例的ID，用于生成此测试案例。
ref_templ_id： 与ref_case_id类似，但用于模板ID。
templ_id： 生成测试案例的模板的ID。
case_templ： 生成测试案例的模板（适用的）。
gender_male 和 gender_female： 性别相关语言中的性别男性化和女性化。
label_annotated： 三位注释者给出的标签列表。
label_annotated_maj： 三位注释者的多数投票结果。
disagreement_in_case： 如果label_annotated_maj与label_gold不匹配，则为True。
disagreement_in_template： 如果测试案例由IDENT模板生成，且至少有一个由同一模板生成的案例存在disagreement_in_case，则为True。

5,000+

优质数据集

54 个

任务类型

进入经典数据集