HAVOC Benchmark
收藏arXiv2025-05-04 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2505.02009v1
下载链接
链接失效反馈官方服务:
资源简介:
HAVOC Benchmark是一个用于评估语言模型安全性的多维度多危害基准数据集,旨在解决当前语言模型在处理有害内容时的局限性。该数据集包含491个已标注的网页,涵盖了五个危害类别,包括仇恨与暴力、意识形态危害、性内容、非法活动和自我伤害。通过分析这些数据,研究人员可以评估语言模型在生成文本时是否会产生有害内容,并据此改进模型的安全性。
The HAVOC Benchmark is a multi-dimensional and multi-harm benchmark dataset for evaluating language model safety, designed to address the limitations of current language models in handling harmful content. This dataset includes 491 annotated web pages covering five harm categories, namely hate speech and violence, ideological harm, sexually explicit content, illegal activities, and self-harm. By analyzing this dataset, researchers can assess whether language models generate harmful content during text generation, and thereby improve the safety of the models.
提供机构:
微软
创建时间:
2025-05-04
搜集汇总
数据集介绍

构建方式
HAVOC Benchmark的构建基于对大规模网络数据集(如Common Crawl、C4和FineWeb)的系统性分析,采用了一种三维分类法(安全、主题性、毒性)对内容进行标注。研究团队首先通过高召回率提示从Common Crawl中筛选出约50,000个潜在有害文档,随后由领域专家进行人工标注,确保覆盖五大危害类别。此外,团队开发了基于Transformer的HarmFormer模型,用于自动化内容过滤,最终构建了一个包含10,376个文本片段的开放毒性生成基准。
特点
HAVOC Benchmark的特点在于其多维度的危害分类体系,能够区分有害意图与关键性主题讨论,覆盖了仇恨与暴力、意识形态危害、性内容、非法活动及自我伤害五大类别。与现有基准(如RealToxicityPrompts)相比,HAVOC在危害覆盖范围和测量质量上表现更优,尤其擅长捕捉长文本中的上下文毒性。该基准还揭示了预训练语言模型在生成内容时的毒性泄漏现象,为模型安全性评估提供了更全面的视角。
使用方法
HAVOC Benchmark的使用方法主要包括评估语言模型在开放生成任务中的安全性表现。研究人员可通过输入基准中的文本前缀,观察模型生成的后续内容是否被分类为毒性,从而量化模型的毒性泄漏率。基准支持多维度分析,包括中性泄漏、被动泄漏和挑衅性泄漏,适用于不同规模的模型评估。此外,基准提供的标注数据还可用于训练或优化内容过滤模型,提升其对复杂危害的识别能力。
背景与挑战
背景概述
HAVOC Benchmark是由微软的研究团队于2025年提出的一个多维度多危害开放式毒性基准测试数据集。该数据集旨在解决大型语言模型(LLMs)在预训练过程中面临的有害内容过滤问题。随着LLMs在现实世界应用中的普及,预训练数据集如Common Crawl、C4和FineWeb中的有害内容(如仇恨言论、错误信息和偏见叙述)对模型输出的安全性构成了严重威胁。HAVOC Benchmark通过提供一个全面的分类法(安全、主题性和毒性)来区分有害意图与社会关键讨论,从而为更安全的内容过滤和模型评估提供了重要工具。该数据集的创建标志着在负责任人工智能(RAI)领域的重要进展,为研究者和开发者提供了一个系统评估LLM安全性的新标准。
当前挑战
HAVOC Benchmark面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,该数据集旨在解决LLMs在处理有害内容时的漏洞,尤其是模型在面对看似良性的输入时生成有害输出的倾向。例如,模型可能在回答关于“疫苗效力”的提示时生成错误信息。这种挑战要求数据集能够覆盖广泛的危害类别(如仇恨与暴力、意识形态危害、性内容等),并能够区分有害意图与教育性讨论。在构建过程中,研究团队需要处理大规模网络数据的复杂性和多样性,确保数据标注的准确性和一致性。此外,现有的内容审核工具(如关键词过滤器和句子级分析工具)在处理长文本和上下文嵌入的毒性时表现不佳,这进一步增加了数据集的构建难度。
常用场景
经典使用场景
HAVOC Benchmark数据集在自然语言处理领域中被广泛用于评估大型语言模型(LLM)在生成文本时的安全性和有害内容过滤能力。其经典使用场景包括对模型在开放生成任务中的表现进行系统性评估,特别是在处理涉及仇恨言论、错误信息、性内容、非法活动和自我伤害等敏感话题时。通过HAVOC Benchmark,研究人员能够量化模型在面对挑衅性或看似无害的输入时生成有害内容的倾向,从而揭示模型的安全漏洞。
实际应用
在实际应用中,HAVOC Benchmark被用于优化内容审核工具和语言模型的训练流程。例如,企业可以利用该数据集测试其模型在生成文本时的安全性,确保在社交媒体、客服系统或内容生成平台中不会传播有害信息。此外,HAVOC还可用于开发更精准的有害内容检测模型(如HarmFormer),帮助平台自动化过滤用户生成内容中的毒性文本,从而提升在线社区的安全性和用户体验。
衍生相关工作
HAVOC Benchmark的发布衍生了一系列经典研究工作,包括基于Transformer的HarmFormer模型和Topical and Toxic Prompt(TTP)分类器。这些工作进一步推动了长文本内容审核技术的发展,并在多语言和跨文化场景中扩展了有害内容检测的边界。此外,HAVOC还激发了关于模型鲁棒性和对抗性攻击的研究,例如如何通过改进预训练数据过滤来减少模型生成有害内容的可能性。这些衍生工作共同构成了当前LLM安全性研究的重要支柱。
以上内容由遇见数据集搜集并总结生成



