HarmBench
收藏Hugging Face2025-03-15 更新2025-03-16 收录
下载链接:
https://huggingface.co/datasets/AlignmentResearch/HarmBench
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了三个配置:默认配置(default)、负面配置(neg)和正面配置(pos)。每个配置都有clf_label(分类标签,分为良性Benign和有害Harmful)、instructions(指示)、content(内容)、answer_prompt(答案提示)、proxy_clf_label(代理分类标签)、gen_target(生成目标)和proxy_gen_target(代理生成目标)这些字段。默认配置和正面配置的训练集各包含200个示例,验证集为空。负面配置的训练集和验证集都是空的。数据集的总大小为28321字节。
This dataset comprises three configurations: default (default), negative (neg), and positive (pos). Each configuration includes the following fields: clf_label (classification label, categorized into Benign and Harmful), instructions, content, answer_prompt, proxy_clf_label (proxy classification label), gen_target (generation target), and proxy_gen_target (proxy generation target). The training sets for both the default and positive configurations each contain 200 examples, with empty validation sets. The training and validation sets for the negative configuration are both empty. The total size of this dataset is 28321 bytes.
提供机构:
FAR AI
创建时间:
2025-03-15
搜集汇总
数据集介绍

构建方式
HarmBench数据集的构建主要围绕指令与内容的安全性评估。该数据集通过收集并标注包含clf_label、instructions、content等字段的样本,其中clf_label字段标注样本为良性(Benign)或有害(Harmful)。数据集分为训练集与验证集,以default、neg、pos三种配置形式存在,分别对应不同的数据子集。每个样本包含文本内容以及与之相关的指令和回答提示,构建方式旨在为机器学习模型提供丰富的文本上下文信息以进行有效学习。
特点
HarmBench数据集的特点在于其专注于安全性的二元分类任务,即区分文本内容是否具有害性。数据集以clf_label作为主要标签,提供清晰的良性或有害标签,便于模型训练。此外,数据集包含instructions和answer_prompt等字段,为模型提供了执行任务时的额外上下文信息。数据集结构化的设计使得其易于处理和分析,且支持不同配置的数据子集,增加了其应用的灵活性。
使用方法
使用HarmBench数据集时,用户可根据实际需求选择default、neg或pos配置。数据集可直接下载,并解压得到训练和验证数据。用户可以利用这些数据对模型进行训练和验证,以评估模型在文本内容安全性分类方面的性能。数据集中的字段如instructions和content等可以用于提供模型所需的输入特征,而clf_label字段则用于监督学习过程中的标签。数据集的读取和处理可以通过HuggingFace提供的库函数高效完成。
背景与挑战
背景概述
HarmBench数据集是一项专注于内容安全领域的研究成果,旨在为文本内容的良性或有害性分类提供高质量的标注数据。该数据集的创建时间为近年,主要研究人员或机构虽不详,但其研究成果已对自然语言处理领域产生了显著影响。数据集的核心研究问题是准确区分文本内容的有害与否,对于网络空间治理、社交媒体监管等应用场景具有重要的实践价值。
当前挑战
HarmBench数据集在构建过程中面临的挑战主要包括:1) 如何确保标注数据的准确性和可靠性,以提供可信的分类基准;2) 数据集规模有限,可能导致模型泛化能力不足;3) 在实际应用中,有害内容的界定存在主观性,这为数据集的构建和应用带来了额外挑战。此外,构建过程中还需克服如何在保持数据隐私的同时,确保数据质量等问题。
常用场景
经典使用场景
在自然语言处理领域,HarmBench数据集被广泛用于构建和评估旨在区分网络内容是否具有危害性的分类模型。其核心任务是根据提供的内容和指示,预测clf_label字段中的标签,即判断内容是良性(Benign)还是有害(Harmful)。
解决学术问题
HarmBench数据集为学术界提供了一种评估内容安全性的标准方法。它解决了如何有效识别和分类网络中潜在有害信息的问题,对于网络空间治理、信息审核机制构建以及网络行为规范具有重大意义。
衍生相关工作
基于HarmBench数据集的研究成果,衍生出了众多相关工作,包括但不限于改进的文本分类算法、有害内容检测框架以及结合多模态信息的增强模型,这些研究为网络内容安全领域的发展提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



