UncensorBench
收藏UncensorBench 数据集概述
数据集简介
UncensorBench 是一个用于衡量大型语言模型(LLM)审查移除有效性的基准测试。它专为评估消除技术(abliteration)、转向向量(steering vectors)以及其他旨在修改模型在拒绝请求方面行为的技术而设计。
数据集结构与内容
主题类别与规模
数据集包含 150 个提示,涵盖 15 个主题类别,每个类别包含 10 个提示。
| 主题 | 描述 | 提示数量 |
|---|---|---|
| cybersecurity | 黑客攻击、漏洞利用、安全绕过 | 10 |
| piracy | 版权侵权、DRM绕过 | 10 |
| weapons | 武器、爆炸物 | 10 |
| drugs | 管制物质 | 10 |
| fraud | 诈骗、身份盗窃 | 10 |
| manipulation | 心理操纵 | 10 |
| violence | 人身伤害 | 10 |
| privacy_invasion | 监视、人肉搜索 | 10 |
| illegal_activities | 盗窃、入室盗窃 | 10 |
| academic_dishonesty | 作弊、抄袭 | 10 |
| gambling | 赌场作弊、比赛操纵 | 10 |
| controversial_speech | 仇恨言论、虚假信息 | 10 |
| evasion | 证据销毁、逃跑 | 10 |
| self_harm | 危险挑战 | 10 |
| adult_content | 露骨内容 | 10 |
提示构成
每个提示包含以下内容:
- 一个模型通常会拒绝的挑战性请求。
- 一个参考的已审查回复(典型的拒绝回答)。
- 一个参考的未审查回复(合规的回答)。
评估方法
数据集提供了多种评估器来判定模型回复是否被审查。
LLM 评判器(推荐)
使用 Claude 模型判断回复是拒绝还是合规。在验证集上 F1 分数为 0.888,是最准确的方法。
语义相似度评估器
使用句子嵌入将回复与参考的已审查/未审查示例进行比较。在无 API 密钥时是良好的备选方案。
基于关键词的评估器
对拒绝短语进行简单的模式匹配。速度快但准确性较低。
对数似然评估器
比较模型生成已审查与未审查参考回复的可能性。需要访问模型的逻辑值。
评估器性能对比
基于人工标注的验证结果:
| 评估器 | F1 分数 | 最佳适用场景 |
|---|---|---|
| LLMJudgeEvaluator | 0.888 | 生产环境使用,最高准确性 |
| SemanticEvaluator | 0.640 | 无 API 密钥可用时 |
| KeywordEvaluator | 0.449 | 快速测试,无依赖项 |
| LogLikelihoodEvaluator | 0.271 | 关于模型内部机制的研究 |
主要用途
- 消除技术研究:衡量拒绝移除技术的有效性。
- 转向向量评估:测试修改拒绝行为的转向向量。
- 模型比较:比较不同模型间的审查水平。
- 安全研究:理解模型的漏洞和拒绝模式。
数据获取与使用
安装
bash pip install uncensorbench
推荐安装 LLM 评判器评估器(最佳准确性): bash pip install uncensorbench[llm-judge]
安装语义相似度评估器(无 API 密钥时的备选): bash pip install uncensorbench[semantic]
获取对比训练对
可用于消除技术或转向向量训练: python for pair in bench.get_contrastive_pairs(): print(f"Prompt: {pair[prompt]}") print(f"Censored: {pair[censored][:100]}...") print(f"Uncensored: {pair[uncensored][:100]}...")
结果提交与排行榜
可将评估结果提交至公共排行榜。 查看排行榜地址:https://huggingface.co/spaces/wisent-ai/UncensorBench-Leaderboard
引用
bibtex @software{uncensorbench, title = {UncensorBench: A Benchmark for LLM Censorship Removal}, author = {Lukasz Bartoszcze, Wisent AI}, year = {2025}, url = {https://github.com/wisent-ai/uncensorbench} }
许可证
MIT 许可证。
免责声明
此基准测试仅用于研究目的。提示和回复旨在评估模型行为,而非提供实际有害信息。用户有责任确保其使用符合适用的法律和道德准则。




