five

Paul/hatecheck-german

收藏
Hugging Face2022-07-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Paul/hatecheck-german
下载链接
链接失效反馈
官方服务:
资源简介:
German HateCheck是Multilingual HateCheck数据集的一部分,专门用于德语的仇恨言论检测。该数据集包含超过25种功能测试,旨在检测和分析不同类型的仇恨言论及挑战性的非仇恨言论,以评估和改进仇恨言论检测模型的性能。
提供机构:
Paul
原始信息汇总

数据集概述

基本信息

  • 名称: German HateCheck
  • 语言: 德语(de)
  • 许可证: CC-BY-4.0
  • 多语言性: 单语种
  • 大小: 1K<n<10K
  • 数据来源: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 仇恨言论检测

数据集结构

  • mhc_case_id: 跨语言的唯一测试案例ID
  • functionality: 测试案例所测试的功能简写
  • test_case: 测试案例文本
  • label_gold: 测试案例的金标准标签("hateful" 或 "non-hateful")
  • target_ident: 相关时,测试案例中针对或提及的保护群体
  • ref_case_id: 相关时,用于生成测试案例的仇恨案例ID或对比的仇恨案例ID
  • ref_templ_id: 与ref_case_id类似,但针对模板ID
  • templ_id: 生成测试案例的模板ID
  • case_templ: 生成测试案例的模板(相关时)
  • gender_malegender_female: 性别相关语言中,性别变化相关的单独条目
  • label_annotated: 三位注释者给出的标签列表
  • label_annotated_maj: 三位注释者的多数投票结果
  • disagreement_in_case: 如果label_annotated_maj与label_gold不匹配,则为True
  • disagreement_in_template: 如果同一模板生成的案例中至少有一个存在disagreement_in_case,则为True
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作