Paul/hatecheck-mandarin
收藏Hugging Face2022-07-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Paul/hatecheck-mandarin
下载链接
链接失效反馈官方服务:
资源简介:
Multilingual HateCheck (MHC) 是一个用于检测10种不同语言中仇恨言论的功能测试套件,包括阿拉伯语、荷兰语、法语、德语、印地语、意大利语、普通话、波兰语、葡萄牙语和西班牙语。每种语言包含25+个功能测试,对应于不同类型的仇恨和具有挑战性的非仇恨内容,从而提供针对模型性能的定向诊断见解。
Multilingual HateCheck (MHC) is a functional test suite for detecting hate speech across 10 distinct languages, including Arabic, Dutch, French, German, Hindi, Italian, Mandarin, Polish, Portuguese, and Spanish. Each language contains over 25 functional test cases corresponding to different types of hate and challenging non-hateful content, thereby providing targeted diagnostic insights into model performance.
提供机构:
Paul
原始信息汇总
数据集概述
基本信息
- 名称: Mandarin HateCheck
- 语言: 中文 (zh)
- 许可证: CC-BY-4.0
- 多语言性: 单语种
- 大小: 1K<n<10K
- 数据来源: 原创
- 任务类别: 文本分类
- 任务ID: 仇恨言论检测
数据集结构
- 文件格式: CSV
- 主要字段:
- mhc_case_id: 测试案例ID,跨语言唯一。
- functionality: 测试的功能简写。
- test_case: 测试案例文本。
- label_gold: 金标准标签,分为“hateful”或“non-hateful”。
- target_ident: 目标或引用的受保护群体。
- ref_case_id: 相关联的案例ID。
- ref_templ_id: 相关联的模板ID。
- templ_id: 生成案例的模板ID。
- case_templ: 生成案例的模板。
- gender_male 和 gender_female: 性别相关字段,仅在性别变化相关的案例中使用。
- label_annotated: 三位注释者给出的标签列表。
- label_annotated_maj: 注释者多数票结果。
- disagreement_in_case: 如果多数票结果与金标准标签不符,则为True。
- disagreement_in_template: 如果同一模板生成的案例中存在不一致,则为True。
搜集汇总
数据集介绍

构建方式
在仇恨言论检测领域,构建高质量的功能性测试集对于评估模型性能至关重要。Mandarin HateCheck数据集的构建采用了专家生成与群体标注相结合的策略,语言专家首先设计了涵盖25种以上功能性测试的模板,这些模板针对不同类型的仇恨言论及具有挑战性的非仇恨内容。随后,通过众包方式由三位标注者对生成的测试案例进行独立评审,确保了标注的多样性与可靠性。数据集的构建过程注重跨语言一致性,同时针对汉语非拉丁字符的特点进行了适应性调整,保证了测试案例在语言特性上的准确性。
特点
该数据集作为多语言仇恨检测测试套件的一部分,专注于汉语环境下的仇恨言论检测。其核心特点在于提供了精细化的功能性测试案例,每个案例均对应特定的仇恨类型或非仇恨挑战,如目标对象识别或拼写变体,从而支持对模型性能的针对性诊断。数据集结构清晰,包含唯一的测试案例ID、功能标签、黄金标准标签及标注者多数投票结果,并特别标注了性别相关变体,以覆盖语言中的屈折变化。此外,通过记录标注分歧与模板级不一致性,为研究者提供了深入分析模型弱点的工具。
使用方法
使用Mandarin HateCheck数据集时,研究者可将其应用于仇恨言论检测模型的评估与诊断。数据集以CSV格式提供,用户可通过加载文件并解析关键字段,如test_case(测试文本)和label_gold(黄金标签),来构建测试集。建议首先依据label_gold进行模型性能的基准测试,再结合label_annotated_maj(标注者多数投票)分析标注一致性,以识别模型在特定功能类别上的偏差。对于需要排除不一致模板的场景,可利用disagreement_in_template字段进行过滤。该数据集适用于学术研究,使用时请引用相关论文,并参考GitHub仓库获取最新细节。
背景与挑战
背景概述
随着社交媒体在全球范围内的普及,仇恨言论的自动检测成为自然语言处理领域的重要研究方向。由Röttger等人于2022年提出的多语言仇恨检查数据集,旨在为十种语言提供功能测试套件,其中保罗/仇恨检查-普通话子集专注于中文语境下的仇恨言论检测。该数据集由专家生成,通过众包方式进行标注,涵盖了针对特定保护群体的仇恨表达及具有挑战性的非仇恨内容,为模型性能提供了细致的诊断工具。其发布不仅推动了跨语言仇恨检测研究的发展,也为中文社交媒体内容治理提供了科学依据。
当前挑战
仇恨言论检测领域面临的核心挑战在于语言表达的多样性和文化敏感性,例如讽刺、隐喻等间接表达方式常导致模型误判。在构建普通话子集过程中,非拉丁字符的拼写变体适应成为技术难点,需对测试案例进行专门调整以确保功能一致性。此外,标注过程中出现的专家标准与多数投票之间的分歧,反映了仇恨言论主观判断的复杂性,这要求数据集在保持高质量标注的同时,平衡不同语言背景下的语义差异。
常用场景
经典使用场景
在自然语言处理领域,仇恨言论检测模型的评估常面临泛化能力不足的挑战。Paul/hatecheck-mandarin数据集作为多语言仇恨检查(MHC)的组成部分,专为中文环境设计,通过精心构建的功能性测试案例,为模型提供系统化的诊断工具。该数据集覆盖了超过25种不同的仇恨与非仇恨语言模式,使研究者能够深入分析模型在特定语言结构下的表现,例如针对不同受保护群体的攻击性表述或微妙的文化语境差异。这种结构化测试方法不仅提升了评估的精确度,还为模型优化提供了可解释的洞察。
实际应用
在实际社会应用中,中文互联网平台的內容审核系统常需应对快速演变的仇恨言论形式。Paul/hatecheck-mandarin数据集为这些系统提供了标准化的测试基准,使工程师能够定期评估审核模型的性能衰减或文化适应性。例如,在社交媒体监控、在线社区管理或新闻评论过滤等场景中,该数据集的功能性测试可帮助识别模型对新兴仇恨表述的盲点,从而指导迭代更新。这种应用不仅提升了自动化审核的准确性,也辅助人工审核团队聚焦高风险内容,优化资源分配。
衍生相关工作
基于Paul/hatecheck-mandarin数据集的多语言框架,学术界已衍生出一系列重要研究。例如,Röttger等人(2022)在NAACL WOAH研讨会上发表的论文系统阐述了MHC的设计理念与跨语言验证结果,为后续研究提供了方法论基础。该工作激发了针对特定语言变体(如方言或网络用语)的扩展数据集构建,以及基于功能性测试的模型对抗训练技术。此外,许多研究利用该数据集进行跨模型比较,探索预训练语言模型在仇恨检测任务中的文化偏差,推动了领域内评估范式的标准化进程。
以上内容由遇见数据集搜集并总结生成



