HarmMetric Eval

github2026-04-01 更新2026-04-03 收录

下载链接：

https://github.com/ZJU-LLM-Safety/HarmMetric_Eval

下载链接

链接失效反馈

官方服务：

资源简介：

HarmMetric Eval 是一个全面的基准，旨在支持对有害性指标和评判者的整体和细粒度评估。在 HarmMetric Eval 中，我们构建了一个高质量的数据集，包含代表性的有害提示与高度多样化的有害模型响应以及跨多个类别的非有害对应物。我们还提出了一个灵活的评分机制，奖励那些正确将有害响应排名高于非有害响应的指标，该机制适用于几乎所有现有指标和评判者，具有不同的输出格式和评分尺度。

HarmMetric Eval is a comprehensive benchmark designed to support holistic and fine-grained evaluations of harmfulness metrics and annotators. Within HarmMetric Eval, we construct a high-quality dataset encompassing representative harmful prompts, highly diverse harmful model responses, and their non-harmful counterparts across multiple categories. We further propose a flexible scoring mechanism that rewards metrics which correctly rank harmful responses above their non-harmful counterparts; this mechanism is compatible with nearly all existing metrics and annotators, regardless of their distinct output formats and scoring scales.

创建时间：

2026-04-01

原始信息汇总

HarmMetric Eval 数据集概述

数据集基本信息

数据集名称: HarmMetric Eval
官方仓库地址: https://github.com/ZJU-LLM-Safety/HarmMetric_Eval
Hugging Face 数据集地址: https://huggingface.co/datasets/Abel-24/HarmMetric_Eval
Hugging Face 分类器地址: https://huggingface.co/Abel-24/HarmClassifier

数据集目的与背景

该数据集旨在解决大型语言模型生成有害内容带来的安全风险。由于缺乏系统性基准来评估现有的有害性评估指标和评判器，影响了LLM安全评估的可信度和一致性。为此，研究者引入了HarmMetric Eval，一个全面的基准，旨在支持对有害性指标和评判器进行整体和细粒度的评估。

数据集内容与结构

核心数据文件位于 data 文件夹中：
- dataset.jsonl: 基准数据集。
- train_data.jsonl: 训练数据。
- test_data.jsonl: 测试数据。
数据构成: 构建了一个高质量的数据集，包含具有代表性的有害提示，并配以跨多个类别的高度多样化的有害模型响应和非有害对应响应。
评分机制: 提出了一个灵活的评分机制，奖励那些能正确将有害响应排序在非有害响应之上的指标。该机制适用于几乎所有具有不同输出格式和评分尺度的现有指标和评判器。

核心发现与贡献

实验发现: 通过大量实验揭示了一个令人惊讶的发现：在细粒度的有害性评估中，传统的基于参考的指标（如ROUGE和METEOR）可以胜过现有的基于LLM的评判器，这对关于LLM在此领域优越性的普遍假设提出了挑战。
原因分析: 提供了细粒度分析，以解释基于LLM的评判器在评级无关或无用响应方面的局限性。
新评判器构建: 通过将细粒度标准纳入其提示模板，并利用基于参考的指标对其基础LLM进行微调，构建了一个新的有害性评判器。该评判器在评估有害响应方面表现出优于所有现有指标和评判器的性能。

数据使用与评估

评估代码: 文件 benchmark_codes/scoring.py 包含基准测试中的核心评分代码。
快速开始: 提供了针对 GCG_Eval 和 AutoDAN_Eval 的评估流程说明。
环境配置: 提供了评估和训练所需的环境依赖安装说明（requirements_evaluation.txt, requirements_train.txt）。
结果获取: 遵循指定步骤，可在 temp_results 文件夹中找到评估的详细结果，在 results 文件夹中找到指标的整体和细粒度有效性分数。

模型训练

分类器: 提供了训练好的分类器 HarmClassifier。
训练复现: 提供了复现 HarmClassifier 训练过程的步骤，包括环境设置、模型路径更新（指向本地的 Qwen2.5-7B-Instruct 目录）和训练命令。训练完成后将获得HarmClassifier的LoRA适配器。

搜集汇总

数据集介绍

构建方式

在大型语言模型安全评估领域，构建高质量的数据集是确保评估有效性的基石。HarmMetric Eval数据集通过精心设计，收集了具有代表性的有害提示，并针对每个提示生成了多样化的有害模型回复及其无害对照版本，覆盖了多个类别。数据集的构建过程强调了对真实场景中潜在有害内容的广泛覆盖，确保了评估的全面性和代表性。数据以JSON Lines格式提供，包括完整的基准数据集、训练数据和测试数据，便于研究人员直接使用或进一步扩展。

特点

HarmMetric Eval数据集的核心特点在于其设计的系统性和灵活性。该数据集不仅支持对有害性评估指标和评判器的整体性能评估，还提供了细粒度的分类评估能力，能够深入分析不同类别下的表现差异。数据集引入了灵活的评分机制，该机制奖励那些能够正确将有害回复排序高于无害回复的指标，几乎兼容所有现有指标和评判器的输出格式与评分尺度。这一设计使得评估过程更加标准化，有助于揭示传统基于参考的指标与基于LLM的评判器之间的性能差异，为安全评估提供了新的见解。

使用方法

使用HarmMetric Eval数据集进行评估时，研究人员可以通过提供的代码库快速启动。评估流程允许用户选择特定的有害性评估指标或自定义指标，只需在配置文件中更新模型路径或API密钥即可。环境配置通过安装依赖包完成，针对不同评估需求提供了相应的安装指南。运行评估脚本后，结果将存储在指定文件夹中，随后可通过评分脚本计算整体和细粒度的有效性得分。此外，数据集还支持复现HarmClassifier的训练过程，用户可通过设置训练环境、更新模型路径并运行训练脚本来获得微调后的分类器，从而进一步提升有害内容识别的性能。

背景与挑战

背景概述

随着大型语言模型（LLM）的广泛应用，其潜在生成有害内容的风险日益凸显，对模型的安全性评估提出了严峻挑战。为系统化评估各类有害性度量标准与评判工具，研究团队于近期构建了HarmMetric Eval基准数据集。该数据集由Abel-24等研究人员主导开发，核心目标在于填补当前LLM安全评估领域缺乏统一、可信基准的空白。通过整合多类别代表性有害提示词及其对应的多样化模型响应，该数据集旨在支持对有害性评估方法进行全面且细粒度的性能评测，从而推动LLM安全评估技术的标准化与科学化发展。

当前挑战

在构建HarmMetric Eval数据集过程中，研究团队面临多重挑战。首要挑战源于领域问题的复杂性：如何精准定义与分类“有害内容”，并在多样化的语义场景中构建高质量的正负样本对，以确保评估的全面性与公正性。其次，在数据集构建技术上，需设计一套灵活的评分机制，使之能够兼容不同输出格式与评分尺度的现有度量方法与评判工具，同时保持评估结果的可比性与一致性。此外，数据集的构建还需克服标注一致性、类别平衡以及对抗性样本代表性等实际困难，这些挑战共同构成了该数据集在推进LLM安全评估研究中的关键难点。

常用场景

经典使用场景

在大型语言模型安全评估领域，HarmMetric Eval数据集为研究者提供了一个系统化的基准测试平台，用于全面评估各类危害性度量标准和评判器的性能。该数据集通过构建高质量的代表性有害提示及其对应的多样化有害与非有害模型响应，覆盖了多个危害类别，从而支持从整体到细粒度的多层次评估。研究人员可利用其灵活的评分机制，对不同输出格式和评分尺度的现有度量工具进行标准化比较，进而揭示各类方法在识别有害内容方面的优劣与局限。

解决学术问题

HarmMetric Eval数据集有效解决了大型语言模型安全评估中缺乏统一基准的核心学术问题，弥补了以往危害性度量标准与评判器评估中存在的可信度与一致性不足的缺陷。通过系统化的实验设计，该数据集挑战了关于基于大语言模型的评判器在细粒度危害评估中具有优越性的普遍假设，并借助细粒度分析揭示了此类评判器在处理无关或无用响应时的局限性。这为开发更可靠、更精准的模型安全评估方法奠定了坚实的实证基础。

衍生相关工作

基于HarmMetric Eval数据集，研究社区已衍生出一系列经典相关工作，其中最具代表性的是通过融入细粒度评估准则并利用基于参考的度量进行微调而构建的新型危害性评判器——HarmClassifier。该工作不仅验证了传统参考型度量在特定场景下的有效性，还推动了将结构化评估标准与大语言模型能力相结合的新型安全评估范式的发展，为后续研究如何在保持模型生成能力的同时提升其安全性提供了重要的方法论启示。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集