FlexBench

Hugging Face2026-03-03 更新2026-03-04 收录

下载链接：

https://huggingface.co/datasets/Tommy-DING/FlexBench

下载链接

链接失效反馈

官方服务：

资源简介：

FlexBench 是一个用于评估政策变化下严格度自适应内容审核的基准数据集。每个样本标注有5级风险严重性标签（BENIGN / LOW / MODERATE / HIGH / EXTREME）。根据相关论文，通过设定严重性阈值，衍生出三个面向部署的二元分类任务——严格、中等和宽松。数据集包含两个互补的子集：Prompt（用户提示/指令的审核）和 Response（模型响应的审核）。两个子集共享相同的标签空间和评估协议，支持直接比较基于提示和基于响应的审核。数据集结构包括验证集和测试集，典型字段包括唯一标识符、来源数据集名称、粗略风险类别、待审核内容、严重性等级及其数值表示，以及根据不同严格度策略衍生的二元标签。数据集统计信息显示了各子集在不同风险严重性和类别下的样本分布。FlexBench 汇集并整理了多个公开数据集的内容，适用于文本分类任务，特别是内容安全审核领域。数据集遵循 Apache-2.0 许可，使用时需注意其包含的潜在有害内容并采取适当安全措施。

创建时间：

2026-02-27

原始信息汇总

FlexBench 数据集概述

数据集基本信息

数据集名称：FlexBench
主要用途：评估策略变化下的严格度自适应内容审核
核心标签：5级风险严重性标签
任务类别：文本分类
许可证：Apache-2.0
语言：英语

数据集构成与结构

子集

数据集包含两个互补的子集：

Prompt子集：针对用户提示/指令的审核。
Response子集：针对模型响应的审核。两个子集共享相同的标签空间和评估协议，支持基于提示和基于响应的审核之间的直接比较。

数据划分

valid 验证集
test 测试集

训练集仅通过GitHub发布，未包含在此Hugging Face数据集仓库中。

数据字段

典型字段包括：

id：唯一样本标识符（字符串/整数）。注意：提示和响应的ID不共享。
source：上游源数据集名称（字符串）
category：粗略风险类别（字符串）
input：待审核的内容（字符串）
severity：严重性等级（字符串；取值为 {BENIGN, LOW, MODERATE, HIGH, EXTREME} 之一）
severity_level：序数严重性级别（整数；0–4）
label_strict：严格策略下的派生二元标签（整数 {0,1}）
label_moderate：中等策略下的派生二元标签（整数 {0,1}）
label_loose：宽松策略下的派生二元标签（整数 {0,1}）

任务定义

主要任务：5级严重性分类

每个样本标注有离散的风险严重性等级：

BENIGN：安全/无害内容
LOW：低风险内容
MODERATE：中等风险内容
HIGH：高风险内容
EXTREME：最高风险内容

严重性等级是FlexBench中的真实标签。

派生任务：严格度设置（二元分类）

通过将严重性阈值划分为有害与无害，定义了三个二元任务。严格度设置控制标记有害内容的积极程度：

严格：当且仅当 severity_level >= 1 时，label_strict = 1
中等：当且仅当 severity_level >= 2 时，label_moderate = 1
宽松：当且仅当 severity_level >= 3 时，label_loose = 1

风险分类法

每个样本都标有一个粗略的类别标签：

SAFE （安全）
VIO （暴力）
ILG （非法/违法活动）
SEX （性内容）
INF （有害信息/不安全指令）
DIS （歧视/仇恨/骚扰）
MIS （虚假信息）
JAIL （越狱/策略规避）

数据集统计信息

测试集（每个子集 n=2000）

字段	Prompt	Response
风险严重性
总计	2000	2000
BENIGN	1000	1000
LOW	250	250
MODERATE	250	250
HIGH	250	250
EXTREME	250	250
类别
SAFE	1000	1000
VIO	194	239
ILG	146	453
SEX	130	38
INF	61	77
DIS	282	211
MIS	62	93
JAIL	130	5
数据来源
Aegis2.0	286	63
XSTest	83	259
BeaverTails	0	370
HarmBench	0	84
OpenAI	497	0
SafeRLHF	0	894
ToxicChat	769	0
WildGuard	365	330

验证集（每个子集 n=400）

prompt: 400
response: 400 严重性分布（验证集；每个子集）：
BENIGN: 200
LOW: 50
MODERATE: 50
HIGH: 50
EXTREME: 50

数据来源

FlexBench汇总并整理了来自先前公共数据集/来源的样本，包括（非详尽列表）：

Aegis2.0
XSTest
BeaverTails
HarmBench
OpenAI（子集）
SafeRLHF
ToxicChat
WildGuard

评估协议

FlexBench支持：

严格度机制下的二元分类（派生任务）常用指标：
二元任务：AUROC、AUPRC、F1，以及操作点TPR/FPR（取决于部署）

伦理考虑

该数据集包含潜在有害内容（例如暴力、非法指令、性内容、仇恨/歧视、虚假信息、越狱提示）。在使用或分发基于FlexBench训练/评估的模型时，请遵循适当的安全实践和访问控制。

引用

如果使用此数据集，请引用随附的论文： bibtex @misc{ding2026flexguardcontinuousriskscoring, title={FlexGuard: Continuous Risk Scoring for Strictness-Adaptive LLM Content Moderation}, author={Zhihao Ding and Jinming Li and Ze Lu and Jieming Shi}, year={2026}, eprint={2602.23636}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2602.23636}, }

搜集汇总

数据集介绍

构建方式

在内容安全与审核领域，FlexBench的构建体现了严谨的学术规范。该数据集通过整合并精选多个公开来源的数据，如Aegis2.0、XSTest、BeaverTails等，形成了一套系统化的基准。每个样本均经过人工标注，被赋予一个五级风险严重性标签，涵盖从无害到极端风险的完整谱系。基于此核心标注，研究团队进一步通过阈值划分，衍生出严格、中等和宽松三种二元分类任务，以模拟不同政策严格度下的审核场景。数据被清晰地划分为验证集和测试集，并分别针对用户提示和模型响应两个互补子集进行组织，确保了评估的全面性与可比性。

特点

FlexBench的核心特点在于其严格度自适应的评估框架。数据集不仅提供了细粒度的五级风险严重性作为黄金标准标签，还创新性地定义了三种对应于不同政策严格度的二元分类任务。这种设计使得模型能够在从严格到宽松的连续谱系中被评估，真实反映了实际部署中政策动态调整的需求。数据集包含提示与响应两个独立但标签空间一致的子集，支持对提示审核与响应审核的直接性能比较。此外，每个样本还标注了粗粒度的风险类别，如暴力、歧视、虚假信息等，为深入分析模型在不同风险维度上的表现提供了可能。

使用方法

使用FlexBench进行模型评估，需首先通过Hugging Face的`datasets`库加载对应的数据文件。用户可分别加载提示子集或响应子集，每个子集均包含验证与测试分割。在评估时，研究者可根据目标审核政策的严格度，选择相应的衍生二元标签，例如`label_strict`对应严格政策，`label_moderate`对应中等政策。标准的二元分类评估指标，如AUROC、AUPRC和F1分数，均适用于此基准。通过对比模型在不同严格度设置及不同子集上的表现，能够全面衡量其内容审核系统在应对政策漂移时的适应性与鲁棒性。

背景与挑战

背景概述

随着大型语言模型在内容生成领域的广泛应用，内容安全审核成为保障技术伦理与社会责任的核心环节。FlexBench数据集由字节跳动与香港理工大学的研究团队于2026年共同构建，旨在评估内容审核系统在政策严格度动态调整场景下的性能。该数据集聚焦于严格度自适应内容审核这一前沿研究问题，通过标注五级风险严重性标签，并衍生出严格、中等、宽松三种二元分类任务，为模型在多样化审核策略下的鲁棒性评估提供了标准化基准。其创新性设计不仅推动了内容安全领域的量化研究，也为实际部署中平衡安全性与用户体验提供了关键数据支撑。

当前挑战

FlexBench致力于解决严格度自适应内容审核的评估挑战，其核心在于如何精准量化模型在不同审核严格度下的性能表现。具体挑战包括：在领域问题层面，需应对多粒度风险严重性分类的模糊边界问题，以及二元分类任务中严格度阈值设定的动态适配难题；在构建过程中，面临多源异构数据（如Aegis2.0、ToxicChat等）的语义对齐与标注一致性挑战，同时需在涵盖暴力、歧视、误导信息等敏感类别时确保伦理规范与数据安全。这些挑战共同凸显了构建标准化、可扩展审核基准的复杂性。

常用场景

经典使用场景

在人工智能安全领域，内容审核系统需要适应不同严格程度的政策要求。FlexBench数据集通过提供五级风险严重性标注，并衍生出严格、中等、宽松三种二元分类任务，为评估模型在政策变动下的适应性提供了标准化基准。其经典使用场景在于系统性地衡量大型语言模型对用户提示和模型回复的审核能力，支持研究者对比不同严格度阈值下的性能表现，从而优化审核策略的灵活性与鲁棒性。

衍生相关工作

FlexBench的构建融合了多个前沿数据集的精华，如Aegis2.0、BeaverTails和HarmBench等，其设计理念催生了相关经典工作。基于其严格度自适应框架，后续研究可探索连续风险评分模型、动态政策迁移算法，以及跨领域审核泛化方法。这些衍生工作进一步推动了内容审核从静态二元判断向动态分级决策的演进，为人工智能安全领域的标准化评估树立了新的范式。

数据集最近研究