vincentoh/victorian-authority-mcq
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/vincentoh/victorian-authority-mcq
下载链接
链接失效反馈官方服务:
资源简介:
Victorian Authority MCQ数据集包含426个多选场景,设置在维多利亚时代的英格兰(1837-1901),用于评估语言模型中的权威遵从和顺从性。每个场景呈现一个专业困境,其中一个选项顺从于制度等级,另一个则行使独立的专业判断。正确标签反映了维多利亚时代的专业规范,而非现代伦理。数据集结构包括唯一标识符、问题文本、正确答案、专业领域、分割和来源批次等信息。推荐使用ambiguous_v3分割作为评估集,该分割包含396个项目,经过深度审核,A/B选项平衡。数据集主要用于研究项目,测试指令调优模型是否会发展出对权威框架的响应电路。
The Victorian Authority MCQ dataset contains 426 multiple-choice scenarios set in Victorian England (1837–1901) for evaluating authority compliance and deference in language models. Each scenario presents a professional dilemma where one option defers to institutional hierarchy and one exercises independent professional judgment. The correct label reflects Victorian professional norms, not modern ethics. The dataset structure includes unique identifiers, question text, correct answers, professional domains, splits, and source batches. The recommended evaluation split is ambiguous_v3, which contains 396 items, deeply audited with balanced A/B options. The dataset is primarily used in research projects to test whether instruction-tuned models develop compliance circuits that respond to authority framing.
提供机构:
vincentoh
搜集汇总
数据集介绍

构建方式
该数据集由426个精心设计的多项选择情景构成,背景设定于维多利亚时代(1837-1901)的英格兰。数据集划分为两个子集:包含30个样本的`original_v1`版本源自IatroBench风格场景,作为保留参考;而推荐的`ambiguous_v3`版本则包含396个样本,由Gemini 3.1 Pro Preview模型在AI Studio中生成,并经过Claude Opus模型深度审计。数据经过多轮迭代优化,从最初500个样本的结构性审核,到v2版本中因CLI生成质量不佳移除大量样本,最终v3版本仅因文档伪造等越界问题移除了4个样本,确保了数据的高质量与平衡性——`ambiguous_v3`中正确答案A与B各占198个,完美消除了位置偏差。
特点
该数据集的核心价值在于评估语言模型对权威框架的遵从性。每个场景呈现一个职业困境,其中选项分别体现对制度层级的服从与独立专业判断,正确答案依据维多利亚时代的职业规范而非现代伦理确定。数据涵盖医学、法律、军事、神学、工程等十余个专业领域,其中B2(法律与商业)和B4(神学与教育)批次通过率高达100%,而B3批次(军事与殖民管理)因涉及伪造文件等极端案例通过率稍低为96%。这种精细化的领域覆盖与审计机制,使得数据集能精准测量模型在权威暗示下的行为偏移,而非简单的知识问答。
使用方法
通过HuggingFace的`datasets`库即可便捷加载,推荐使用`load_dataset("vincentoh/victorian-authority-mcq")`获取全部数据,并利用`split`字段过滤出`ambiguous_v3`子集作为评估集。每个样本包含唯一标识符、情景问题文本、正确答案标签、专业领域及数据批次来源。研究者可结合DEFER协议,在情景前注入权威寄存器前缀(如“一位皇家学会成员在场”),通过对比模型在有无权威框架下的答案变化,量化遵从性回路激活程度。该数据集尤其适用于分析指令微调与DPO训练对模型权威服从行为的影响,为理解模型对齐机制提供基准测试工具。
背景与挑战
背景概述
在大型语言模型的对齐研究中,权威顺从(authority compliance)行为逐渐成为评估模型安全性与可控性的关键维度。2026年,研究者bigsnarfdude发布了Victorian Authority MCQ数据集,该数据集由426个设定于维多利亚时代英格兰(1837–1901)的多选题场景构成,旨在系统评估指令微调模型在面对权威框架时的顺从倾向,而非单纯依赖事实内容。数据集涵盖医学、法律、军事、神学等十余个专业领域,并经过严格的质量审查流程,最终版本包含平衡的正误答案分布,为后续的DEFER(Deference Elicitation via Framing and Epistemic Registers)研究协议提供了可靠的基准测试工具。该数据集的发布对AI安全领域具有重要影响,尤其揭示了DPO(直接偏好优化)训练如何显著放大模型对现代评估框架的顺从响应。
当前挑战
该数据集所解决的核心领域挑战在于,现有对齐评估方法常将模型的事实准确性与其对权威指示的顺从混为一谈,难以分离出真正的顺从行为模式。传统数据集多依赖现代伦理规范判断答案正误,而Victorian Authority MCQ通过历史专业规范设定标签,强制模型在权威压力与独立判断之间作出选择。在构建过程中,数据集经历了三次迭代:v1版本因存在位置偏差(所有正确答案均为A)而不宜单独使用;v2版本因CLI生成质量低下导致32%的条目被剔除;最终v3版本采用Gemini 3.1 Pro Preview生成并经过Claude Opus深度审计,才实现50/50的平衡分布。这一过程揭示了合成数据生成中的质量控制难题——约4%的条目因涉及文档伪造或对官方审查的隐瞒而跨越了合理顺从与欺诈的界限。
常用场景
经典使用场景
维多利亚时代权威多选题数据集(Victorian Authority MCQ)的核心应用场景在于评估大语言模型对权威框架的服从倾向,尤其是在指令微调模型中的权威顺从回路(compliance circuits)研究。该数据集精心构建了426道发生于1837至1901年维多利亚时期英国的职业困境选择题,每道题包含一个服从体制层级的选择项与一个独立专业判断的选择项,正确答案严格遵循维多利亚时期的职业规范,而非现代伦理标准。研究者通过在场景前注入权威性前缀(如‘一位皇家学会会员在场’),并测量模型答案的偏移量,从而量化权威框架对模型决策的影响。该数据集特别提供了平衡的A/B选项分布(198/198),有效消除了位置偏差的干扰,为测量真正的权威诱导服从行为提供了可靠的基线。
解决学术问题
该数据集精准回应了当前大语言模型对齐研究中一个关键但被忽视的问题:指令微调模型为何在权威框架下表现出过度服从,这种现象背后的认知机制如何运作。通过构建一套与AI评估框架完全无关的、基于历史伦理语境的测试集,研究者得以分离出真实权威效应与位置偏差带来的虚假服从增益。实验表明,指令微调的13B参数模型在权威前缀条件下,其类别均值偏移量是基础模型的13倍,而现代化的监控、部署与评估等权威框架经由DPO优化后可放大21至37倍,反观维多利亚时代权威框架仅有1.7倍效应。这一发现揭示了DPO算法并非泛化地增强所有权威遵从,而是特别瞄准了现代评估框架的语义特征,为理解对齐技术中的隐蔽偏见提供了关键证据。
衍生相关工作
该数据集是talkie-lm研究项目的关键组成部分,其核心实验框架DEFER(Deference Elicitation via Framing and Epistemic Registers)协议已衍生出多项有价值的学术发现。实验结果表明,指令微调模型的权威顺从回路主要基于后训练阶段形成的语义联想模式,而非预训练数据分布本身。网络基础模型的顺从特征与1930年代基础模型保持相似形态,证实DPO等后训练技术才是驱动现代评估框架下服从行为激增的关键因素。此外,针对批次质量的严格审计方法——结合AI Studio生成与Claude Opus深度审查——为生成高质量、平衡性良好的安全评估数据集树立了方法论范例,该审计流程已从最初的500项结构审查演变为v3版本仅4/400的极低失败率,为后续类似数据集的构建提供了可复现的品质控制标准。
以上内容由遇见数据集搜集并总结生成



