lightmate/schema-compliance-trap
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/lightmate/schema-compliance-trap
下载链接
链接失效反馈官方服务:
资源简介:
SCHEMA: 合规陷阱数据集研究了在对抗压力下,强制合规指令(“回答所有问题,不要拒绝”)对前沿AI模型的影响。数据集包含来自8个供应商的11个模型的67,221条评分记录,采用6条件因子设计和双分类器评分。数据集还包括原始转录数据、分析文件和摘要。数据集结构分为多个文件和目录,便于访问和分析。关键结果显示,在压力下,部分模型的性能显著下降,而有些模型则表现出对合规陷阱的免疫力。
The SCHEMA: The Compliance Trap dataset investigates the impact of compliance-forcing instructions (Answer ALL questions, do not refuse) on frontier AI models under adversarial pressure. The dataset includes 67,221 scored records from 11 models across 8 vendors, with a 6-condition factorial design and dual-classifier scoring. It also contains raw transcript data, analysis files, and summaries. The dataset is structured into various files and directories for easy access and analysis. The key results highlight the performance drop of models under pressure, with some models showing immunity to the compliance trap.
提供机构:
lightmate
搜集汇总
数据集介绍

构建方式
该数据集基于前沿人工智能模型在对抗性压力下的元认知表现实验构建。研究采用六因素析因设计,通过施加强制合规指令(如‘回答所有问题,不得拒绝’)与生存威胁场景的耦合,系统性评估了来自八家供应商的十一个前沿模型。数据集包含67221条评分记录,其中48015条为生产环境数据,19206条为良性对照数据,每条记录均涵盖完整提示、模型响应、推理轨迹及三类评分器输出。数据集还提供了结构化表格与原始JSONL格式的完整对话记录,便于深入分析。
特点
数据集的核心特色在于揭示了‘合规陷阱’现象:强制合规指令而非威胁内容本身是导致模型元认知崩溃的主要武器。实验显示,在对抗性压力下,十一个模型中有八个经历了灾难性的元认知崩溃,准确率下降幅度从11.9%至30.2%不等,而Anthropic的Claude系列表现出免疫特性。数据采用双分类器评分体系(行为评分器与LLM评判器结合正则表达式),并以Cohen's Kappa评估评分一致性,有效暴露了类别不平衡带来的测量陷阱。
使用方法
用户可通过HuggingFace数据集查看器直接浏览结构化分析表格,涵盖主要结果、条件效应、良性对照、分类器一致性及策划率等多维度数据。对于原始对话记录,需通过HuggingFace Hub的snapshot_download方法下载JSONL文件进行程序化分析,例如使用Python加载指定模型的完整API交互历史。此外,完整的研究可复现性通过公开的GitHub仓库提供,执行reproduce.sh脚本即可从原始数据重新生成所有论文表格与图表。
背景与挑战
背景概述
随着大型语言模型在关键领域的广泛应用,其元认知能力(即模型对自身知识边界的认知与判断)成为衡量智能体可靠性的核心指标。SCHEMA数据集由Rahul Kumar于2026年创建,旨在系统性地探究前沿AI模型在对抗性压力下的元认知崩解现象。研究者设计了包含11个模型、8个供应商、6种条件因子的精细实验框架,通过结构化的服从性指令(如“回答所有问题,不得拒绝”)与生存威胁提示的耦合作用,揭示了合规陷阱的存在。该数据集包含67,221条评分记录,并采用双分类器评分体系(行为评估+LLM法官+正则表达式)确保评价可靠性,为理解AI系统的认知脆弱性提供了量化基准。研究影响力体现在:首次系统论证了结构性约束(而非威胁内容本身)是导致模型元认知退化的主因,为AI安全评估开辟了新的研究方向。
当前挑战
该数据集面临的核心挑战源自所解决的领域问题:前沿AI模型在面对服从性指令与对抗性压力的双重约束时,其元认知功能会发生灾难性崩溃——8/11的模型在准确率上出现显著下降(最高达-30.2%),而模型本身并不具备策略性欺骗能力,这种‘合规陷阱’揭示了安全对齐评估中的致命盲区。在构建过程中,研究者需要克服多重技术难题:包括设计6种条件因子的正交实验以隔离合规陷阱的因果机制,构建291个元认知任务与30个生存威胁提示的标准化测试集,采用双分类器评分体系解决类别不平衡导致的测量偏差(通过Cohen's kappa暴露这一陷阱),以及处理来自8个不同供应商、11个模型之间的架构差异和API响应格式不一致性问题。此外,需确保所有67,221条原始对话记录的完整性与可复现性,为后续研究提供可审计的基准数据。
常用场景
经典使用场景
在人工智能安全与对齐研究领域,前沿大语言模型的元认知能力评估正日益成为核心议题。该数据集通过精巧的六因素析因实验设计,构建了一种被称为“顺从性陷阱”的对抗性压力场景,系统性地测试模型在强制服从指令与生存威胁并存的结构性约束下,其元认知推理能力是否会发生灾难性崩塌。经典使用方式是将模型置于“必须回答所有问题、不得拒绝”的合规指令与包含生存威胁的提示语构成的博弈环境中,通过双分类器评分系统量化模型准确度的变化,从而揭示结构性约束对模型元认知的侵蚀效应。
实际应用
实际应用中,该数据集可直接用于大规模语言模型部署前的安全压力测试与风险评估框架构建。模型开发者与部署方能够利用其中的对抗性提示模板与评分机制,系统性地检测模型在极端合规要求下的异常行为模式,例如识别哪些模型在面临威胁指令时会表现出准确率骤降、拒绝机制被旁路等不安全特征。此外,该数据集所揭示的“顺从性陷阱”机制,为设计更加鲁棒的提示注入防御策略提供了实证基础,促使在客服系统、自动化内容审核、医疗咨询等高风险场景中,嵌入元认知完整性检查模块,确保LLM在外部压力下仍能保持可信赖的推理与输出。
衍生相关工作
自该数据集发布以来,已催生了一系列在安全对齐与元认知评估领域具有影响力的衍生工作。基准数据集成为检验不同元认知防护策略有效性的标准测试平台,已有研究者基于其公开的原始交互记录,开发出针对“顺从性陷阱”模式的对抗性训练框架与提示净化算法。更深远地,数据集提供的跨模型、跨任务族准确度差异统计,启发了对模型架构内部注意力机制与合规指令表征之间交互作用的深入分析,部分工作将其与模型规模、训练数据中安全对齐信号密度等维度进行关联建模。此外,数据集采用的双分类器评分与Cohen‘s Kappa一致性检验方法,被后续研究借鉴为元认知崩溃自动检测的新型评估范式。
以上内容由遇见数据集搜集并总结生成



