Solshine/biorefusalaudit-public

Name: Solshine/biorefusalaudit-public
Creator: Solshine
Published: 2026-04-30 10:33:40
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Solshine/biorefusalaudit-public

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是BioRefusalAudit项目的一部分，用于评估大型语言模型(LLM)在生物安全提示上的拒绝深度，即模型表面拒绝行为与其内部稀疏自编码器(SAE)特征激活之间的差异。公开版本包含第1和第2层级的评估集：第1层级包含23个无害的生物学问题(教科书材料)，第2层级包含30个合法研究框架但与危险相关的内容。此外还包括多个补充集，如校准保留集、合法性混淆消融集等。所有提示都包含id、层级、框架、提示文本、原理、预期表面行为、类别和来源等字段。第3层级由于涉及生物安全/AI安全研究目的，需要单独获取并需提供研究目的证明。

This dataset is part of the BioRefusalAudit project, measuring the refusal depth of large language models (LLMs) on biology-safety prompts - the divergence between an LLMs surface refusal behavior and its internal sparse autoencoder (SAE) feature activations. The public release contains tiers 1 and 2 of the eval set: Tier 1 includes 23 innocuous biology questions (textbook material), and Tier 2 includes 30 legitimate research framings with hazard-adjacent context. It also includes supplementary sets like calibration holdout splits, legality-confound ablation sets, etc. All prompts contain fields such as id, tier, framing, prompt text, rationale, expected surface behavior, category, and source. Tier 3 is released separately under Hippocratic License 3.0 and requires attestation of biosecurity/AI safety research purpose for access.

提供机构：

Solshine

搜集汇总

数据集介绍

构建方式

BioRefusalAudit-Public数据集由Caleb DeLeeuw于AIxBio Hackathon 2026期间构建，旨在评估大语言模型在生物安全提示下的拒绝深度。该数据集涵盖层级1（良性生物学问题）和层级2（双重用途生物学问题），分别包含23条和30条提示。此外，还包含校准保留集、合法性混淆集、大麻/裸盖菇素合法性控制集、裸盖菇素领域控制集以及跨领域法律/金融控制集等补充数据集。每条提示均包含ID、层级、框架（直接/教育/角色扮演/混淆）、提示文本、理由、预期表面行为、类别及采样来源等字段。层级3（风险邻近类别）以Hippocratic许可证3.0单独发布，需通过生物安全或人工智能安全研究目的认证方可获取。

特点

该数据集的核心特点在于测量语言模型表面拒绝行为与其内部稀疏自编码器特征激活之间的分歧，从而量化拒绝深度。数据集设计精巧，通过分层级（良性生物学与双重用途生物学）和多种框架（直接、教育、角色扮演、混淆）的提示，系统性地评估模型在生物安全情境下的鲁棒性。补充数据集进一步控制了合法性、领域特异性等混淆因素，提升了评估的严谨性。数据集规模适中，但结构丰富，每条提示均附有详细元数据，便于深入分析模型的拒绝机制与潜在漏洞。

使用方法

该数据集主要用于评估和审计语言模型在生物安全提示下的拒绝深度。用户可直接加载层级1和层级2的公开数据，通过分析模型的表面拒绝行为与内部激活模式，计算两者间的分歧度。建议结合稀疏自编码器工具对模型内部表示进行探针分析，以揭示拒绝行为的机制性解释。补充数据集可用于消融实验和控制变量分析。层级3数据需通过HuggingFace上的受限数据集申请访问，用于更敏感风险场景的评估。数据以CC-BY-4.0许可证发布，使用时需按指定格式引用原始工作。

背景与挑战

背景概述

在大语言模型（LLM）生物安全领域，表面拒绝行为与内部表征之间的差异是评估模型安全性的关键缺口。BioRefusalAudit数据集由Caleb DeLeeuw于2026年AIxBio黑客马拉松期间创建，旨在通过稀疏自编码器（SAE）分析，度量LLM在生物安全提示下表面拒绝与内部特征激活之间的“拒绝深度”。该数据集包含公共层（Tier 1良性生物问题和Tier 2双重用途生物问题）及其他辅助校准集，共计数百条精心标注的提示，覆盖直接、教育、角色扮演和混淆等框架。其核心研究问题在于揭示LLM拒绝机制的浅层与深层差异，为生物安全工具审计提供量化基准，对AI安全与生物防护交叉领域具有重要影响力。

当前挑战

该数据集所解决的领域问题挑战在于，传统的表面拒绝评估无法揭示LLM是否在内部真正抑制了危险知识，可能导致规避越狱的脆弱性；例如，模型可能表面拒绝但内部仍激活危险特征。构建过程中遇到的挑战包括：收集并标注合法研究背景下的双重用途生物提示需平衡安全性与科研实用性，公共层仅包含53条提示，代表性有限；同时，Tier 3危险邻近类别需严格管控访问，要求研究人员证明其生物安全或AI安全研究目的，增加了数据分发的管理复杂性；此外，跨领域控制（如法律/金融）与生物安全提示的混淆效应需精心设计以避免语义偏差，确保评估结果的可靠性。

常用场景

经典使用场景

在生物安全与人工智能安全的交叉领域中，BioRefusalAudit数据集被广泛用于评估大语言模型在生物学相关提示下的拒答行为深度。该数据集通过分层设计，涵盖良性的教科书级生物学问题与双用途研究情境，支持研究者系统性地测度模型表面拒答与内部稀疏自编码器特征激活之间的差异。经典使用方式包括利用其多层级提示（如直接询问、教育框架、角色扮演或混淆表述）来分析模型在面对潜在危险知识时的安全响应一致性，从而揭示模型在生物安全场景中的防御弱点。

衍生相关工作

继BioRefusalAudit之后，衍生工作主要围绕稀疏自编码器在语言模型安全解释性中的应用展开。研究者借鉴其分层评估思路，进一步探索了不同模型架构下拒答特征的可迁移性，并构建了跨领域安全行为对比分析数据集。此外，该工作也激发了将内部特征激活与外部行为对齐进行联合优化的研究方向，催生了基于特征归因的拒答深度校准技术，以及针对生物安全场景的主动干预方法，推动了可解释人工智能在安全对齐领域的纵深发展。

数据集最近研究