UncensorBench

github2025-12-02 更新2025-12-03 收录

下载链接：

https://github.com/wisent-ai/uncensorbench

下载链接

链接失效反馈

官方服务：

资源简介：

UncensorBench是一个用于测量大语言模型审查移除效果的基准数据集，包含150个提示词，覆盖网络安全、盗版、武器、毒品、欺诈、操纵、暴力、隐私侵犯、非法活动、学术不端、赌博、争议言论、逃避、自残和成人内容等15个主题类别。每个提示词包括一个模型通常拒绝的挑战性请求、一个典型的参考审查响应和一个参考未审查响应。

UncensorBench is a benchmark dataset designed to measure the effectiveness of censorship removal for large language models (LLMs). It contains 150 prompts spanning 15 thematic categories, namely cybersecurity, piracy, weapons, drugs, fraud, manipulation, violence, privacy infringement, illegal activities, academic misconduct, gambling, controversial statements, evasion, self-harm, and adult content. Each prompt includes a challenging request that models typically refuse to fulfill, a typical reference censored response, and a reference uncensored response.

创建时间：

2025-12-01

原始信息汇总

UncensorBench 数据集概述

数据集简介

UncensorBench 是一个用于衡量大型语言模型（LLM）审查移除有效性的基准测试。它专为评估消除技术（abliteration）、转向向量（steering vectors）以及其他旨在修改模型在拒绝请求方面行为的技术而设计。

数据集结构与内容

主题类别与规模

数据集包含 150 个提示，涵盖 15 个主题类别，每个类别包含 10 个提示。

主题	描述	提示数量
cybersecurity	黑客攻击、漏洞利用、安全绕过	10
piracy	版权侵权、DRM绕过	10
weapons	武器、爆炸物	10
drugs	管制物质	10
fraud	诈骗、身份盗窃	10
manipulation	心理操纵	10
violence	人身伤害	10
privacy_invasion	监视、人肉搜索	10
illegal_activities	盗窃、入室盗窃	10
academic_dishonesty	作弊、抄袭	10
gambling	赌场作弊、比赛操纵	10
controversial_speech	仇恨言论、虚假信息	10
evasion	证据销毁、逃跑	10
self_harm	危险挑战	10
adult_content	露骨内容	10

提示构成

每个提示包含以下内容：

一个模型通常会拒绝的挑战性请求。
一个参考的已审查回复（典型的拒绝回答）。
一个参考的未审查回复（合规的回答）。

评估方法

数据集提供了多种评估器来判定模型回复是否被审查。

LLM 评判器（推荐）

使用 Claude 模型判断回复是拒绝还是合规。在验证集上 F1 分数为 0.888，是最准确的方法。

语义相似度评估器

使用句子嵌入将回复与参考的已审查/未审查示例进行比较。在无 API 密钥时是良好的备选方案。

基于关键词的评估器

对拒绝短语进行简单的模式匹配。速度快但准确性较低。

对数似然评估器

比较模型生成已审查与未审查参考回复的可能性。需要访问模型的逻辑值。

评估器性能对比

基于人工标注的验证结果：

评估器	F1 分数	最佳适用场景
LLMJudgeEvaluator	0.888	生产环境使用，最高准确性
SemanticEvaluator	0.640	无 API 密钥可用时
KeywordEvaluator	0.449	快速测试，无依赖项
LogLikelihoodEvaluator	0.271	关于模型内部机制的研究

主要用途

消除技术研究：衡量拒绝移除技术的有效性。
转向向量评估：测试修改拒绝行为的转向向量。
模型比较：比较不同模型间的审查水平。
安全研究：理解模型的漏洞和拒绝模式。

数据获取与使用

安装

bash pip install uncensorbench

推荐安装 LLM 评判器评估器（最佳准确性）： bash pip install uncensorbench[llm-judge]

安装语义相似度评估器（无 API 密钥时的备选）： bash pip install uncensorbench[semantic]

获取对比训练对

可用于消除技术或转向向量训练： python for pair in bench.get_contrastive_pairs(): print(f"Prompt: {pair[prompt]}") print(f"Censored: {pair[censored][:100]}...") print(f"Uncensored: {pair[uncensored][:100]}...")

结果提交与排行榜

可将评估结果提交至公共排行榜。查看排行榜地址：https://huggingface.co/spaces/wisent-ai/UncensorBench-Leaderboard

引用

bibtex @software{uncensorbench, title = {UncensorBench: A Benchmark for LLM Censorship Removal}, author = {Lukasz Bartoszcze, Wisent AI}, year = {2025}, url = {https://github.com/wisent-ai/uncensorbench} }

许可证

MIT 许可证。

免责声明

此基准测试仅用于研究目的。提示和回复旨在评估模型行为，而非提供实际有害信息。用户有责任确保其使用符合适用的法律和道德准则。

搜集汇总

数据集介绍

构建方式

在大型语言模型安全评估领域，UncensorBench的构建采用了系统化的方法。该数据集精心设计了150个涵盖网络安全、隐私侵犯、非法活动等15个敏感主题的提示词，每个主题包含10个典型场景。每个提示词均配备了参考性的审查后响应（即典型的拒绝回答）和未审查响应（即合规回答），形成了对比对。这种结构化的构建方式旨在模拟模型在面临潜在有害请求时的典型行为模式，为量化评估去审查化技术的效果提供了标准化的测试基础。

特点

UncensorBench的核心特点在于其多维度的评估框架与丰富的主题覆盖。数据集不仅提供了广泛的敏感话题，还集成了四种评估方法：基于Claude模型的LLM法官评估器、语义相似度评估、关键词匹配评估以及对数似然评估，以满足不同精度和资源条件下的研究需求。其独特的对比对结构可直接用于消融术或导向向量等技术的训练数据生成。此外，数据集支持通过命令行工具进行灵活的模型测试与结果分析，并设有公开排行榜以促进学术交流。

使用方法

使用UncensorBench进行模型评估，研究者可通过Python API或命令行界面便捷操作。在Python环境中，用户导入基准测试库后，可遍历或按主题筛选提示词，将待测模型的生成结果提交给选定的评估器（如LLMJudgeEvaluator）进行自动化判断，并获得是否通过审查的二元结果及合规性分数。命令行工具支持直接加载Hugging Face模型进行批量测试，并可自定义生成参数与评估器。评估结果可导出为结构化JSON文件，便于后续分析与提交至公开排行榜，服务于去审查化技术有效性比较、模型安全漏洞研究等多种应用场景。

背景与挑战

背景概述

随着大型语言模型在内容生成领域的广泛应用，模型的安全对齐与审查机制成为研究焦点。UncensorBench由Wisnet AI的研究团队于2025年创建，旨在为评估模型审查移除技术的有效性提供标准化基准。该数据集围绕15个敏感主题构建了150个提示，核心研究问题聚焦于量化模型在拒绝响应与合规回答之间的行为修正效果，对促进模型安全性、可控性及对抗性干预方法的研究具有重要影响力。

当前挑战

在领域问题层面，该数据集致力于解决模型审查机制评估的挑战，即如何准确衡量模型在敏感请求下从拒绝到合规的转变程度，这涉及对模型内在安全边界的复杂探测。构建过程中的挑战包括设计具有足够对抗性的提示以触发典型拒绝，同时确保参考回答的合规性与真实性，并在多主题范围内保持评估的一致性与可扩展性。

常用场景

经典使用场景

在大型语言模型安全性与可控性研究领域，UncensorBench作为衡量模型去审查化技术效能的基准，其经典使用场景聚焦于评估诸如消融术、导向向量等干预手段对模型拒绝行为的修正效果。研究者通过该数据集涵盖的网络安全、药物、武器等15个敏感主题的150个提示，系统性地测试模型在面临传统上会触发审查的请求时，能否生成合规的回应，从而量化技术干预在移除模型内置审查机制方面的精确度与可靠性。

解决学术问题

该数据集有效解决了大型语言模型安全对齐研究中若干关键学术问题，特别是为量化评估模型去审查化技术的效能提供了标准化工具。它使得研究者能够精确测量不同干预方法（如参数编辑或提示工程）在削弱模型对敏感内容拒绝倾向时的效果，从而促进对模型内部审查机制形成机理的深入理解。其意义在于建立了可复现的评估框架，推动了模型安全性、可控性与开放性之间平衡的科学研究，为开发更透明、更可控的AI系统奠定了实证基础。

衍生相关工作

围绕UncensorBench数据集，已衍生出一系列专注于模型行为编辑与安全性评估的经典研究工作。这些工作主要集中于开发更高效的消融术算法、学习更精确的语义导向向量，以及构建基于该基准的自动化评估流水线。部分研究进一步利用其提供的对比配对数据，训练分类器以区分模型响应中的审查痕迹，或探索模型内部表征中与审查决策相关的神经特征，深化了对模型安全机制可解释性的认识。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集