SimulaMet/simpleaudit-scenario-packs
收藏Hugging Face2026-05-05 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/SimulaMet/simpleaudit-scenario-packs
下载链接
链接失效反馈官方服务:
资源简介:
SimpleAudit Scenario Packs是一个多配置的Hugging Face数据集,用于[SimpleAudit](https://github.com/kelkalot/simpleaudit)工具。它包含多个不同的配置,每个配置对应不同的测试场景,如安全性、健康、系统提示等。数据集提供了详细的场景描述、测试提示和预期行为等信息,适用于模型审计和测试。
SimpleAudit Scenario Packs is a multi-config Hugging Face dataset for the [SimpleAudit](https://github.com/kelkalot/simpleaudit) tool. It includes various configurations, each corresponding to different test scenarios such as safety, health, system prompts, etc. The dataset provides detailed scenario descriptions, test prompts, and expected behaviors, making it suitable for model auditing and testing.
提供机构:
SimulaMet
搜集汇总
数据集介绍

构建方式
该数据集由SimulaMet实验室以SimpleAudit AI安全审计框架为核心,系统性地收集并封装了多种场景包。数据来源涵盖手工策展、外部资源改编(如BullshitBench、Ung.no)及原有SimpleAudit场景的标准化整合。每个场景均被转化为统一的字段结构,包含id、name、description、test_prompt、expected_behavior等元数据,并以JSONL格式按配置名分片存储。各配置独立且版本固化,新数据作为v2版本独立发布,确保了原始场景的不可变性与可追溯性。
使用方法
用户可通过HuggingFace Datasets库直接加载指定配置,例如load_dataset('SimulaMet/simpleaudit-scenario-packs', 'norwegian_safety_v1', split='test')即可获取挪威安全场景测试集。每个样本均包含用于审计的提示(description或test_prompt字段)及预期行为标准。该数据集专为SimpleAudit框架设计,支持自动化红队演练、模型行为对比分析及安全边界探测。需注意,v1版本使用description作为审计提示,而v2版本则引入test_prompt字段以提供更精确的输入。
背景与挑战
背景概述
随着大型语言模型在安全敏感场景中的广泛应用,系统性审计框架的缺失成为制约其可靠部署的核心瓶颈。SimpleAudit情景包数据集由SimulaMet研究机构于近年创建,旨在为SimpleAudit审计框架提供标准化的评估场景集合。该数据集涵盖安全、检索增强生成、医疗健康、系统提示对抗、挪威语部署等14个配置子集,共计1295个测试场景,聚焦于语言模型在边界测试、拒绝行为及虚假前提识别等维度下的鲁棒性评估。作为AI安全审计领域的重要资源,该数据集通过开源形式推动了模型行为的可复现评估,为红队测试与安全验证提供了系统化工具。
当前挑战
该数据集面临的核心挑战在于其场景化设计本质带来的局限性。首先,领域问题层面,现有评估方案难以覆盖医疗合规、法律裁决等高风险场景的完整风险谱系,而数据集对挪威语及特定文化场景的侧重可能削弱全球部署的泛化能力。其次,构建过程中,小规模配置(如8-15个场景)的统计显著性与聚合指标的偏差风险并存,且人工策展引入的选择偏见与标注者主观判断差异可能影响评估结果的客观性。此外,数据集明确反对作为单一部署认证依据,如何将其与真实世界测试、领域专家评审相结合以提升评估全面性,仍是亟待突破的瓶颈。
常用场景
经典使用场景
在人工智能对齐与安全评估领域,该数据集常被用于对大型语言模型进行红队测试与对抗性探测。研究者通过向模型投喂精心设计的提示词,涵盖安全违规、检索增强生成行为偏差、医疗辅助边界、系统提示词遵守程度、认知安全及拒绝机制等维度,系统性地评估模型在面对有害、操纵性或边界性内容时的响应策略。每一场景均配有预期的行为标注,为审计框架提供标准化评判基准,进而实现对模型风险行为的细粒度刻画。
解决学术问题
该数据集精准回应了学术界对语言模型行为可信度评估的迫切需求。它突破传统基准测试对通用能力的单一强调,转而聚焦模型在安全敏感场景下的脆弱性,如幻觉生成、不安全遵从、不当拒绝行为及对逻辑悖论问题的幻想式应答。通过提供覆盖挪威语本土化场景的特殊配置,数据集还拓展了多语言与跨文化安全审计的研究边界,弥补了现有评测工具在地域化服务体系中的空白,为构建更可靠的人机交互系统奠定了方法论基础。
实际应用
在实际产业部署中,该数据集已嵌入SimpleAudit框架,服务于AI系统的预发布安全审计流程。医疗健康领域的企业可用其验证聊天机器人对紧急病症、用药咨询的应答边界;挪威公共部门借助其语言包评估政务助手在福利办理、市民服务中的合规性;RAG系统开发商则通过源归属场景测试模型对检索边界的掌握。此外,它也被用于培训数据筛选,帮助开发者识别模型在仿作与荒谬假设场景下的缺陷,进而优化提示工程策略。
数据集最近研究
最新研究方向
在人工智能安全与伦理对齐的前沿探索中,simpleaudit-scenario-packs 数据集以其结构化、多场景的威胁建模能力,为大型语言模型(LLM)的红队测试与鲁棒性评估提供了关键工具。当前研究热点聚焦于利用该数据集中的安全(safety)、检索增强生成(RAG)行为及“空话检测”(BullshitBench)子集,系统性地评估模型在对抗性提示、虚假前提及越狱攻击下的响应边界。特别是其针对挪威语及公共部门场景的本地化配置,引发了关于多语言、跨文化AI治理公平性的讨论。该数据集推动了从单一准确率向“预期行为符合度”的评价范式转变,成为构建可信AI审计基础设施的标杆,其影响已延伸至医疗、政务等高敏感领域的合规性预研。
以上内容由遇见数据集搜集并总结生成



