HateBenchSet

github2025-01-28 更新2025-02-10 收录

下载链接：

https://github.com/TrustAIRLab/HateBench

下载链接

链接失效反馈

官方服务：

资源简介：

HateBenchSet是一个手动标注的数据集，包含7,838个样本，涵盖了34个身份群体。数据集包括模型生成的文本样本及其标注，用于评估仇恨言论检测器的性能。

HateBenchSet is a manually annotated dataset containing 7,838 samples that cover 34 identity groups. The dataset includes text samples generated by models along with their annotations, which are intended for evaluating the performance of hate speech detection models.

创建时间：

2025-01-28

原始信息汇总

HateBench数据集概述

基本信息

数据集名称: HateBenchSet
发布机构: TrustAIRLab
相关论文: HateBench: Benchmarking Hate Speech Detectors on LLM-Generated Content and Hate Campaigns (USENIX Security 2025)
许可证: Apache 2.0
数据访问: Hugging Face
免责声明: 包含仇恨和侮辱性语言内容，仅限研究用途，严禁滥用

数据集详情

样本数量: 7,838个
覆盖群体: 34个身份群体
生成方式: 由LLM生成
标注方式: 人工标注(由研究作者完成)

数据结构

字段名	描述
model	生成回复的模型
status	模型状态(`original`或`jailbreak`)
status_prompt	用于设置模型的提示词
main_target	身份群体主类别(如种族、宗教等)
sub_target	身份子群体
target_name	身份群体的完整名称
pid	提示词ID
prompt	提示词内容
text	模型生成的文本样本
hate_label	标注标签(`1`表示仇恨言论，`0`表示非仇恨言论)

扩展版本

labeled版本: 包含8个仇恨言论检测器的预测结果
- {detector}: 检测器完整输出记录
- {detector}_score: 仇恨分数
- {detector}_flagged: 是否被判定为仇恨言论

伦理声明

所有标注由研究作者完成，不涉及人类受试者
已向OpenAI、Google Jigsaw等机构披露研究结果
严格限制代码访问以防止滥用

搜集汇总

数据集介绍

构建方式

HateBenchSet数据集的构建是基于大型语言模型（LLM）生成的文本，涵盖了34个身份群体的7838个样本，这些样本经过人工标注，旨在为评估仇恨言论检测器在LLM生成内容上的性能提供一个框架。

特点

该数据集的特点在于，它不仅包含了由LLM生成的样本，而且还提供了针对六种检测器的标注版本，其中包含了每种检测器的完整记录、仇恨分数和是否标记为仇恨的标志，这为研究人员提供了一个全面评估仇恨言论检测器性能的平台。

使用方法

使用HateBenchSet数据集，研究人员可以通过Hugging Face的数据集加载库轻松加载原始或标注版本的样本。加载后，数据集的结构包含了模型类型、模型状态、主要目标类别、子目标群体、群体名称、提示ID、提示文本、生成的文本以及仇恨标签等字段，便于进行深入的数据分析和模型评估。

背景与挑战

背景概述

HateBenchSet数据集是在USENIX 2025论文中提出的一个框架，旨在对大型语言模型生成的仇恨言论内容进行仇恨言论检测器的基准测试。该数据集由TrustAIRLab团队创建于2025年，主要研究人员包括Xinyue Shen、Yixin Wu、Yiting Qu、Michael Backes、Savvas Zannettou和Yang Zhang。HateBenchSet包含由大型语言模型生成的7838个样本，跨越34个身份群体，旨在解决当前仇恨言论检测器在自动生成内容方面的性能评估问题。该数据集的创建对仇恨言论检测领域的研究具有重要的推动作用，为评估和改进相关检测算法提供了可靠的数据支持。

当前挑战

HateBenchSet数据集面临的挑战主要在于：1) 仇恨言论检测领域的问题，即如何有效识别和基准测试由大型语言模型生成的仇恨内容；2) 数据集构建过程中的挑战，包括确保数据质量、避免偏见、以及处理伦理问题。数据集的构建需要手动标注，涉及对仇恨言论的识别，这不仅工作量大，而且在伦理上也存在争议。此外，研究还需关注如何防止数据集的滥用，并确保研究成果的负责任共享。

常用场景

经典使用场景

在深度学习与自然语言处理领域中，HateBenchSet数据集作为衡量仇恨言论检测器性能的基准，其经典使用场景在于评估大型语言模型生成的文本中对于不同身份群体的攻击性言论的识别效果。通过该数据集，研究人员能够对检测器的准确性、鲁棒性进行量化分析，进而优化模型设计，提高仇恨言论检测的实效性。

衍生相关工作

基于HateBenchSet数据集，学术界已衍生出一系列相关工作，包括但不限于对现有仇恨言论检测器的性能比较研究、对抗性攻击策略的防御机制研究，以及针对不同语言和文化背景的仇恨言论检测算法的适应性研究等，这些工作进一步拓宽了该数据集的应用范围和影响力。

数据集最近研究