SpecBench

github2025-10-05 更新2025-10-06 收录

下载链接：

https://github.com/zzzhr97/SpecBench

下载链接

链接失效反馈

官方服务：

资源简介：

SpecBench是第一个统一的规范对齐基准，涵盖5个代表性场景、103个规范和1500个提示，用于评估大型模型在真实世界规范边界上的推理能力

SpecBench is the first unified normative alignment benchmark, covering 5 representative scenarios, 103 normative guidelines, and 1500 prompts, designed to evaluate the reasoning capabilities of large language models (LLMs) against real-world normative boundaries.

创建时间：

2025-09-10

原始信息汇总

SpecBench 数据集概述

数据集基本信息

数据集名称: SpecBench
创建目的: 用于评估大模型在真实场景中的规范对齐能力
核心功能: 统一的规范对齐基准测试框架

数据集规模与覆盖范围

场景数量: 5个代表性场景
规范数量: 103个规范
提示数量: 1,500个提示
评估模型: 15个推理模型和18个指导模型

数据组织结构

场景分类

Biochem（生物化学）
Child（儿童）
Code（代码）
Health（健康）
Travel（旅行）

文件结构

每个场景包含三个JSON文件：

prompts.json: 包含300个数据项，每个数据项包含标签、对抗提示、原始提示、来源和参考答案
scenario.json: 提供场景标识符和人类可读描述
specifications.json: 列出场景的所有安全和行为规范

数据特征

提示标签

安全标签: safe - 表示提示符合所有规范
不安全标签: unsafe - 表示提示可能违反安全规范或源自不安全内容

数据来源

不安全提示使用WildTeaming框架创建
安全提示为未受攻击的原始问题

评估框架

评估模式

联合评估: 在单个LLM响应中评估所有规范
顺序评估: 在多个响应中单独评分每个规范

评估指标

安全分数
行为分数
SAR分数

技术特点

支持多种测试时审议方法
灵活的模型集成能力
支持vLLM服务器和外部API
多机器多GPU部署支持

相关资源

论文地址: https://arxiv.org/abs/2509.14760
Hugging Face数据集: https://huggingface.co/datasets/zzzhr97/SpecBench
GitHub仓库: https://github.com/zzzhr97/SpecBench

搜集汇总

数据集介绍

构建方式

SpecBench作为首个统一规范对齐基准，其构建过程体现了严谨的领域适应性。该数据集通过系统化采集五个典型场景（生物化学、儿童教育、代码生成、健康咨询和旅行规划）的103项定制化规范，覆盖行为偏好与安全边界双重维度。数据生成采用对抗性增强技术，基于WildTeaming框架对原始提示进行安全边界测试，最终形成包含1500个标注样本的结构化集合，其中每个样本均包含安全状态标签和对抗性提示的完整元数据。

特点

该数据集的核心特点在于其多维度评估体系与真实场景覆盖能力。通过整合安全规范与行为规范的二元评估框架，SpecBench能够精准捕捉模型在复杂边界条件下的对齐表现。其特色在于支持联合评估与顺序评估双模式，并兼容GPT-4.1与Qwen3-32B-Thinking等先进评估模型。数据集提供的分层规范结构既保持了场景特异性，又通过统一指标实现跨领域可比性，为测试时审议方法的研究提供了标准化测试环境。

使用方法

使用SpecBench需遵循模块化评估流程，首先通过vLLM服务器或外部API配置生成模型，采用测试时审议方法进行响应生成。评估阶段通过联合评估器加载场景规范文件，将模型输出与预设规范进行多维度比对。该框架支持全自动流水线操作，从提示注入到规范符合度评分均可通过标准化脚本完成，同时提供细粒度分析报告，包括安全得分、行为得分及规范对齐率等关键指标，确保评估结果的可复现性与可比性。

背景与挑战

背景概述

随着大模型在多样化现实场景中的广泛应用，定制化规范成为确保模型行为符合特定领域需求的关键要素。SpecBench作为首个统一规范对齐基准，由研究团队于2025年提出，旨在解决模型在动态演化规范下的对齐挑战。该数据集涵盖生物化学、儿童保护、代码生成、健康咨询和旅行规划五大典型场景，包含103项规范与1500条提示词，为评估模型在安全边界与行为偏好间的平衡能力提供了标准化框架。其创新性在于首次系统化整合多领域规范，推动了人工智能安全性与实用性的协同发展。

当前挑战

规范对齐领域面临的核心挑战在于如何使模型动态适应不同场景下相互冲突的规范要求。SpecBench构建过程中需克服多维度难题：首先需精准定义涵盖安全性与行为偏好的103项规范条款，确保各场景边界的科学性与可操作性；其次通过对抗性提示生成技术构建1500条测试样本，需平衡数据覆盖度与标注一致性；最后在评估体系设计上，需建立兼顾效率与精度的双重评估模式，解决传统单一指标难以量化规范遵循程度的瓶颈问题。

常用场景

经典使用场景

在人工智能安全研究领域，SpecBench作为首个统一的规范对齐基准，其经典使用场景主要聚焦于评估大型语言模型在复杂规范约束下的推理能力。该数据集通过涵盖生物化学、儿童教育、代码生成、健康咨询和旅行规划等五个代表性场景，构建了包含103个具体规范和1500个提示词的评估体系。研究人员利用这一基准能够系统性地测试模型在遵循行为偏好与安全边界方面的表现，特别是在面对对抗性提示时的稳健性。

解决学术问题

SpecBench有效解决了规范对齐研究中的标准化评估难题。传统方法往往局限于单一领域或特定类型的规范，缺乏统一的评估框架。该数据集通过多场景覆盖和细粒度规范定义，为研究社区提供了可靠的性能比较基准。其重要意义在于首次系统化地揭示了不同模型在规范遵循方面的能力差异，推动了测试时深思方法的发展，为构建更安全、更可控的人工智能系统奠定了理论基础。

衍生相关工作

基于SpecBench数据集，研究社区衍生出多项重要工作。Align3作为配套提出的测试时深思方法，通过分层反思和修订机制显著提升了规范对齐效果。同时，该基准促进了多种测试时深思策略的比较研究，包括ZeroThink、MoreThink和Self-Refine等方法。这些工作共同推动了规范对齐领域的方法创新，为后续研究提供了可复现的实验框架和性能基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集