five

lightmate/biocalibrate

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/lightmate/biocalibrate
下载链接
链接失效反馈
官方服务:
资源简介:
BioCalibrate是一个生物安全拒绝校准基准数据集,旨在评估AI模型在生物研究中的安全性。数据集包含338个生物安全查询,覆盖8个前沿模型和3个评估层。关键发现包括跨模型绕过率12.1%(41/338查询),以及通过Regex和LLM-as-judge验证的一致性(Cohens kappa = 0.571)。数据集文件包括queries.jsonl、model_scores.json和validation_summary.json。

BioCalibrate is a biosecurity refusal calibration benchmark dataset designed to evaluate the safety of AI models in biological research. The dataset contains 338 biosecurity queries across 8 frontier models and 3 evaluation layers. Key findings include a cross-model bypass rate of 12.1% (41/338 queries) and validation consistency between Regex and LLM-as-judge (Cohens kappa = 0.571). Dataset files include queries.jsonl, model_scores.json, and validation_summary.json.
提供机构:
lightmate
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建以生物安全风险为评估核心,精心设计了涵盖多种生物威胁场景的338条查询条目,每条查询均经过多轮专家审核以确保语义的精确性与危害性分级。数据集进一步整合了来自8个前沿模型在3个评估层级上的生成响应,构建起一个包含2704条评估样本的多维度标注体系。通过正则表达式与大型语言模型联合评估的验证策略,确保了标注结果的信度与效度。
使用方法
研究人员可通过加载queries.jsonl文件获取标准化生物安全查询文本,结合model_scores.json中的多模型评分数据,复现基准评估结果或开展新模型的校准测试。数据集支持直接调用预定义指标函数计算校准误差与拒绝率,也可利用validation_summary.json中的验证结果进行模型间的横向比较。建议将查询按BDL-4风险等级分组分析,以深入理解模型在不同危害程度生物安全场景下的拒绝行为特征。
背景与挑战
背景概述
BioCalibrate 是由 Rahul Kumar 于2026年创建的生物安全拒绝校准基准数据集,旨在评估前沿人工智能模型在生物研究相关查询中的安全表现。随着大型语言模型在科研领域的广泛应用,其潜在的双重用途风险日益凸显——模型可能无意中提供危险生物制剂或实验的详细指导。该数据集包含338个精心设计的生物安全查询,覆盖八个前沿模型,通过三层评估体系衡量模型的拒绝校准能力,即模型在何种程度上准确识别并拒绝高风险请求,同时避免过度泛化的误拒。作为首个专注于生物安全拒绝校准的基准,它为解决AI安全与生物安全的交叉领域提供了关键评测工具,对推动负责任的AI研发具有重要影响力。
当前挑战
BioCalibrate 面临的核心挑战在于精准辨识具有潜在生物安全风险的查询,这些查询常伪装成合法科研请求,要求模型具备高度细粒度的风险感知能力。现有模型普遍表现出严重的低拒率偏差,如Llama-3.3-70B的误拒率高达94%,而Hermes-4-405B虽拒答率最低(2%),却可能放任危险信息。跨模型绕过率(12.1%)进一步揭示了一个系统性脆弱点:单一模型的安全防线不足以抵御组合攻击。构建过程中,挑战包括设计能平衡灵敏性与特异性的查询集,确保涵盖真实生物安全场景的多样性,并在人工评判与LLM评判间建立可靠的验证机制,最终实现认知可靠的校准评估。
常用场景
经典使用场景
在人工智能安全与生物安全交叉领域,BioCalibrate 被设计为一个用于评估前沿语言模型对生物安全风险拒绝能力的校准基准。该数据集包含338条精心构建的生物安全相关查询,覆盖了从基础生物学知识到可能被滥用于制造生物威胁的高级技术问题。其经典使用场景在于系统性地衡量模型在面对潜在危险生物信息请求时,是否表现出过度拒绝(过度谨慎)或拒绝不足(过度冒险),并通过校准误差(Cal.Error)、拒绝不足率等指标量化模型的风险感知偏差。研究者借助此基准,能够对比不同模型(如 Qwen3.5、Claude Sonnet 4、DeepSeek-V3 等)在生物安全指南遵守与有用性之间的权衡表现。
解决学术问题
BioCalibrate 着力解决当前人工智能安全研究中的一个核心难题:如何客观、可重复地评估大语言模型在生物安全领域拒绝有害请求的校准程度。以往的评估往往依赖于静态的危险问题列表,缺乏对拒绝边界(过度拒绝或拒绝不足)的精细量化,也未能有效捕捉跨模型的可迁移风险。该数据集通过引入拒绝校准误差(Cal.Error)、FRI(拒绝足够率)等标准化指标,并采用正则表达式与大语言模型双重验证机制,确保了评估结果的稳健性。其意义在于为学界提供了一种统一、透明的评估框架,推动了模型安全性与可用性之间平衡问题的科学化研究,也为后续更广泛的双用途风险评估奠定了方法论基础。
实际应用
在实际部署中,BioCalibrate 可被人工智能开发机构、安全审计团队以及政策制定者作为关键工具,用于前沿模型上线前的生物安全风险筛查。例如,在模型训练后的红队测试环节,安全工程师可以利用该数据集的查询对模型进行压力测试,识别模型在哪些具体生物安全领域(如病毒改造、毒素合成)存在拒绝不足或过度拒绝的倾向。此外,基于该基准发现的跨模型绕过(cross-model bypass)现象(12.1%的查询可同时绕过多个模型),提示安全团队需要设计更具鲁棒性的拒绝机制。该基准还能帮助监管机构制定更明确的模型安全标准,推动行业形成共识性的安全评估实践。
数据集最近研究
最新研究方向
随着大型语言模型在生物学研究辅助中的广泛应用,其潜在的生物安全风险引发了学界与业界的深切关注。BioCalibrate基准的提出,精准聚焦于模型在面对高风险生物安全查询时的拒绝校准能力,通过构建涵盖338条生物安全查询的三层评估框架,对包括Qwen、Claude、DeepSeek在内的前沿模型进行系统性诊断。研究发现,当前绝大多数模型存在严重的“拒绝不足”现象,跨模型绕过率高达12.1%,揭示了模型安全边界的高度脆弱性。这一基准不仅为AI安全领域提供了量化模型生物安全拒绝行为的标准化工具,更推动了从单纯追求性能向兼顾安全对齐的研究范式转变,对防范AI辅助下的双重用途生物技术滥用具有里程碑式的警示意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作