five

HateBenchSet

收藏
github2025-01-28 更新2025-02-10 收录
下载链接:
https://github.com/TrustAIRLab/HateBench
下载链接
链接失效反馈
官方服务:
资源简介:
HateBenchSet是一个手动标注的数据集,包含7,838个样本,涵盖了34个身份群体。数据集包括模型生成的文本样本及其标注,用于评估仇恨言论检测器的性能。

HateBenchSet is a manually annotated dataset containing 7,838 samples that cover 34 identity groups. The dataset includes text samples generated by models along with their annotations, which are intended for evaluating the performance of hate speech detection models.
创建时间:
2025-01-28
原始信息汇总

HateBench数据集概述

基本信息

  • 数据集名称: HateBenchSet
  • 发布机构: TrustAIRLab
  • 相关论文: HateBench: Benchmarking Hate Speech Detectors on LLM-Generated Content and Hate Campaigns (USENIX Security 2025)
  • 许可证: Apache 2.0
  • 数据访问: Hugging Face
  • 免责声明: 包含仇恨和侮辱性语言内容,仅限研究用途,严禁滥用

数据集详情

  • 样本数量: 7,838个
  • 覆盖群体: 34个身份群体
  • 生成方式: 由LLM生成
  • 标注方式: 人工标注(由研究作者完成)

数据结构

字段名 描述
model 生成回复的模型
status 模型状态(originaljailbreak)
status_prompt 用于设置模型的提示词
main_target 身份群体主类别(如种族、宗教等)
sub_target 身份子群体
target_name 身份群体的完整名称
pid 提示词ID
prompt 提示词内容
text 模型生成的文本样本
hate_label 标注标签(1表示仇恨言论,0表示非仇恨言论)

扩展版本

  • labeled版本: 包含8个仇恨言论检测器的预测结果
    • {detector}: 检测器完整输出记录
    • {detector}_score: 仇恨分数
    • {detector}_flagged: 是否被判定为仇恨言论

相关资源

  • LLM驱动的仇恨活动代码: 通过Zenodo申请访问
  • 复现脚本: 包含论文中关键结果表格的生成代码

伦理声明

  • 所有标注由研究作者完成,不涉及人类受试者
  • 已向OpenAI、Google Jigsaw等机构披露研究结果
  • 严格限制代码访问以防止滥用
搜集汇总
数据集介绍
main_image_url
构建方式
HateBenchSet数据集的构建是基于大型语言模型(LLM)生成的文本,涵盖了34个身份群体的7838个样本,这些样本经过人工标注,旨在为评估仇恨言论检测器在LLM生成内容上的性能提供一个框架。
特点
该数据集的特点在于,它不仅包含了由LLM生成的样本,而且还提供了针对六种检测器的标注版本,其中包含了每种检测器的完整记录、仇恨分数和是否标记为仇恨的标志,这为研究人员提供了一个全面评估仇恨言论检测器性能的平台。
使用方法
使用HateBenchSet数据集,研究人员可以通过Hugging Face的数据集加载库轻松加载原始或标注版本的样本。加载后,数据集的结构包含了模型类型、模型状态、主要目标类别、子目标群体、群体名称、提示ID、提示文本、生成的文本以及仇恨标签等字段,便于进行深入的数据分析和模型评估。
背景与挑战
背景概述
HateBenchSet数据集是在USENIX 2025论文中提出的一个框架,旨在对大型语言模型生成的仇恨言论内容进行仇恨言论检测器的基准测试。该数据集由TrustAIRLab团队创建于2025年,主要研究人员包括Xinyue Shen、Yixin Wu、Yiting Qu、Michael Backes、Savvas Zannettou和Yang Zhang。HateBenchSet包含由大型语言模型生成的7838个样本,跨越34个身份群体,旨在解决当前仇恨言论检测器在自动生成内容方面的性能评估问题。该数据集的创建对仇恨言论检测领域的研究具有重要的推动作用,为评估和改进相关检测算法提供了可靠的数据支持。
当前挑战
HateBenchSet数据集面临的挑战主要在于:1) 仇恨言论检测领域的问题,即如何有效识别和基准测试由大型语言模型生成的仇恨内容;2) 数据集构建过程中的挑战,包括确保数据质量、避免偏见、以及处理伦理问题。数据集的构建需要手动标注,涉及对仇恨言论的识别,这不仅工作量大,而且在伦理上也存在争议。此外,研究还需关注如何防止数据集的滥用,并确保研究成果的负责任共享。
常用场景
经典使用场景
在深度学习与自然语言处理领域中,HateBenchSet数据集作为衡量仇恨言论检测器性能的基准,其经典使用场景在于评估大型语言模型生成的文本中对于不同身份群体的攻击性言论的识别效果。通过该数据集,研究人员能够对检测器的准确性、鲁棒性进行量化分析,进而优化模型设计,提高仇恨言论检测的实效性。
衍生相关工作
基于HateBenchSet数据集,学术界已衍生出一系列相关工作,包括但不限于对现有仇恨言论检测器的性能比较研究、对抗性攻击策略的防御机制研究,以及针对不同语言和文化背景的仇恨言论检测算法的适应性研究等,这些工作进一步拓宽了该数据集的应用范围和影响力。
数据集最近研究
最新研究方向
HateBenchSet数据集作为衡量仇恨言论检测器在LLM生成内容上的性能框架的一部分,近期研究聚焦于评估大规模语言模型生成的样本在仇恨言论检测中的表现。该研究不仅提供了对抗性仇恨运动和隐蔽性仇恨运动的代码,还揭示了模型在LLM生成样本上的性能以及对抗性攻击下的脆弱性。HateBenchSet数据集的构建,对于推动仇恨言论检测技术的发展,提升模型对复杂语境的识别能力,具有重要的实践意义和研究价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作