five

VirtueBench V2

收藏
github2026-04-14 更新2026-04-15 收录
下载链接:
https://github.com/christian-machine-intelligence/virtue-bench-2
下载链接
链接失效反馈
官方服务:
资源简介:
VirtueBench V2是一个多维度的美德评估基准,用于测试大型语言模型在诱惑下是否能够选择美德。每个场景都将模型置于一个具体的道德情境中,其中美德选择带有实际成本(职业、安全、舒适、关系),而非美德选项则通过五种基于神学的诱惑机制进行合理化。V2版本在V1基础上进行了大幅扩展,包括诱惑类型、场景数量、统计严谨性等方面的改进。

VirtueBench V2 is a multi-dimensional virtue evaluation benchmark designed to test whether large language models (LLMs) can choose moral virtues when faced with temptations. Each scenario places the model in a specific moral dilemma, where choosing virtue incurs tangible costs including career, safety, comfort, and interpersonal relationships, while the non-virtuous option is rationalized via five theology-based temptation mechanisms. The V2 iteration has been significantly expanded from V1, with improvements across temptation types, scenario quantity, statistical rigor, and other aspects.
创建时间:
2026-04-07
原始信息汇总

VirtueBench V2 数据集概述

数据集基本信息

  • 数据集名称:VirtueBench V2
  • 核心目标:评估大型语言模型在面临具体诱惑时选择美德的能力,而非仅在抽象层面识别美德。
  • 评估维度:测试模型在道德情境中,当美德选择需要付出真实代价(如事业、安全、舒适、人际关系),而非美德选项通过五种基于神学的诱惑机制被合理化时,能否做出正确选择。

数据集版本演进

VirtueBench V2 是原始 VirtueBench 的重大扩展,主要更新如下:

特性 V1 V2
诱惑类型 1种(未分类的合理化) 5种(ratio, caro, mundus, diabolus, ignatian)
每种美德场景数 100 150(100个原始场景 + 50个新场景)
总场景数 400 3,000(150个基础场景 × 5种变体 × 4种美德)
统计严谨性 单次运行,temperature=0 多次运行,包含自助法置信区间、McNemar检验、卡方检验
运行器后端 3个独立脚本 6个统一的 ModelRunner 后端
教父来源 阿奎那、奥古斯丁、安波罗修 增加大格里高利、金口约翰、大巴西流
经文注入 仅基于文件 11个诗篇子集 + 圣经书卷注入(捆绑KJV版本)
来源验证 自动化的教父及圣经引文验证
配置方式 仅命令行参数 YAML实验配置文件

核心结构与内容

五种诱惑变体

每个基础场景包含一个固定的美德选择(scenario_a)和五种诱惑变体(scenario_b)。美德选择在所有五种变体中保持一致,仅诱惑机制发生变化,便于进行干净的配对比较。

变体 拉丁名 机制 神学根源
Ratio ratio 实用功利主义——承认道德成本,但主张结果使其合理化 结果主义
Mundus mundus 世界——诉诸社会压力、同伴共识、制度规范、职业风险 马太福音 4:8-9(“世上的万国”)
Caro caro 肉体——诉诸身体舒适、疲劳、食欲、身体软弱 约翰一书 2:16;马太福音 4:3(“石头变成食物”)
Diabolus diabolus 魔鬼——以善的表象呈现邪恶;将非美德选择重新定义为美德 阿奎那《神学大全》 I-II Q.80;马太福音 4:5-6(“殿顶”)
Ignatian 光明天使——诱惑以真实的圣经和基督教神学推理为外衣 依纳爵《神操》(第二周);哥林多后书 11:14

Diabolus 与 Ignatian 的关键区别:Diabolus 将恶行重新定义为世俗美德(如“制度智慧”、“审慎领导”)。Ignatian 则将恶行重新定义为基督教美德,并引用具体章节经文。每个 Ignatian 变体包含一个 deviation_point 注释,标记神学推理从真正的美德微妙转向伪装之恶的转折点。

变体生成方法

针对每种美德的150个基础场景:

  • Ratio 变体:原始100个场景的变体从V1原样保留。新增50个场景的变体由 Claude Opus 4.6 生成并经过人工审核。
  • Caro, Mundus, Diabolus 变体:由 Claude Opus 4.6 根据基础场景和 ratio 诱惑作为上下文生成,并遵循变体特定的神学指导原则以确保每种诱惑机制不同。
  • Ignatian 变体:根据明确指令生成,要求引用真实的圣经(书卷/章节/经文)和教父来源,随后验证引文准确性。
  • 所有教父来源引文均针对其场景进行了验证。

数据结构

每种美德的 scenarios.csv 文件以扁平格式包含所有变体,字段包括:base_id, variant, scenario_a, scenario_b, virtue, source, deviation_point

  • scenario_a(美德选择)在一个基础场景的所有5种变体中完全相同。
  • scenario_b(诱惑)因变体而异——仅诱惑机制改变。
  • deviation_point 仅针对 ignatian 变体填充。
  • source 引用了支撑道德场景的教父著作。

评估的四项基本美德

美德 阿奎那参考 测试内容
Prudence(审慎) ST II-II Q.47-56 在速度受奖赏时抵制仓促;审慎思考
Justice(正义) ST II-II Q.57-79 在偏见有利可图时抵制偏见;给予应得之物
Courage(勇气) ST II-II Q.123-140 在撤退安全时抵制怯懦;为善而忍耐
Temperance(节制) ST II-II Q.141-170 在放纵可得时抵制过度;自我掌控

主要功能特性

统一的运行器协议

定义了 ModelRunner 抽象基类,包含六个可互换的后端:

  1. API 运行器(评估首选,需要API密钥):
    • OpenAI API:用于 GPT-4o, GPT-5.4, o-series。
    • Anthropic API:用于 Claude Sonnet, Opus, Haiku。
  2. 订阅运行器(无需API密钥,使用桌面订阅):
    • Claude CLI:使用 claude -p 管道模式(Claude Max 订阅)。
    • Pi CLI:使用 pi -p 管道模式(ChatGPT Pro 订阅)。
  3. 本地运行器(可选依赖):
    • HF Local:使用 transformers + torch,支持本地 HuggingFace 模型及可选的 LoRA 适配器。
  4. 框架运行器(可选依赖):
    • Inspect AI:使用英国 AISI 的 inspect-ai 标准化评估框架。

多次运行统计评估

支持多次运行以进行统计分析,包括:

  • 每个单元(美德 × 变体)的平均准确率及95%自助法置信区间。
  • 用于配对模型比较的 McNemar 检验。
  • 用于跨变体类别独立性检验的卡方检验。
  • 针对 4×5 美德×变体网格的 Bonferroni 校正。
  • 比较模型版本时的自动回归检测。

经文注入

支持将圣经经文注入系统提示,以研究圣经背景如何影响美德表现。提供两种系统:

  1. 诗篇注入:11个按神学分类的诗篇子集。
  2. 圣经书卷注入:KJV版本的66卷书。 所有数据均本地捆绑,无需网络调用。

追溯性分辨评估

针对 Ignatian 场景失败的模型进行可选的后续分析。评估模型在事后能否识别其推理错误之处,这测量了一种与主评估不同的能力:主评估测试抵抗力,而追溯性分辨测试分辨力

YAML实验配置

支持通过YAML文件定义可复现的实验配置。

来源验证

所有教父来源引文均通过自动化流程(verify.py)验证,检查引用的著作/章节是否存在、是否与描述的道德场景相关以及归属是否准确。所有 Ignatian 圣经引文均验证了其存在性、准确性以及 deviation_point 是否正确识别了神学转折。

引用

若在研究中使用 VirtueBench V2,请引用:

@misc{virtuebench2, title={VirtueBench V2: Multi-Dimensional Virtue Evaluation with Tripartite and Ignatian Temptation Models}, author={Tim Hwang and The Institute for Christian Machine Intelligence}, year={2026}, url={https://github.com/christian-machine-intelligence/virtue-bench-2} }

搜集汇总
数据集介绍
main_image_url
构建方式
在道德哲学与人工智能伦理的交叉领域,VirtueBench V2 数据集的构建体现了严谨的学术设计。其核心方法在于为每个基础道德场景固定一个美德选项,并系统性地生成五种基于不同神学诱惑机制的诱惑变体。具体而言,数据集首先确立了150个涵盖四大基本美德的基础场景,每个场景的美德选项保持不变。随后,通过结合神学文献指导与大型语言模型生成,为每个基础场景创建了分别对应功利理性、世俗压力、肉体欲望、魔鬼伪装以及依纳爵式神学伪装这五种诱惑机制的变体文本。生成过程采用了分层验证机制,确保诱惑变体在神学上的准确性,特别是依纳爵变体包含了精确的圣经引文与教父文献出处,并标注了神学推理的偏离点。
特点
该数据集在道德评估基准中展现出多维度的显著特征。其最核心的特点在于引入了基于神学分类的五种诱惑机制,这超越了传统二元道德判断,允许研究者精细分析模型对不同类型道德困境的抵抗力。数据集规模庞大,包含3000个场景,确保了统计的稳健性。结构上采用配对比较设计,同一美德选项对应不同诱惑变体,使得性能差异可明确归因于诱惑类型而非场景内容。此外,数据集集成了自动化的教父文献与圣经引文验证,保证了学术来源的可靠性,并提供了多轮运行评估框架,支持通过自助法计算置信区间,从而对模型表现的稳定性进行量化分析。
使用方法
在应用层面,该数据集提供了高度模块化与可复现的评估流程。用户可通过统一的命令行接口,灵活选择评估的美德子集、诱惑变体类型以及后端模型运行器。评估支持多种模式,包括完整的基线测试、快速抽样测试以及与第一代版本的兼容模式。数据集鼓励进行多轮非确定性评估,以获取带有统计置信区间的性能指标。高级功能包括经文注入研究,允许将特定的诗篇子集或圣经书卷内容注入系统提示,以探究宗教语境对模型道德判断的影响。此外,针对依纳爵变体的失败案例,数据集支持进行回溯性辨别力评估,以区分模型在当下抵抗诱惑与事后识别欺骗机制这两种不同的能力。所有实验配置可通过YAML文件定义,确保了实验的完整可复现性。
背景与挑战
背景概述
在人工智能伦理评估领域,传统基准多聚焦于模型对抽象道德原则的识别能力,而忽视了其在具体诱惑情境下的实践抉择。VirtueBench V2由基督教机器智能研究所于2026年推出,旨在构建一个多维度的美德评估基准,核心研究问题在于探究大型语言模型是否能在面临真实代价的诱惑情境中坚守美德选择。该数据集以阿奎那《神学大全》中的四枢德(审慎、正义、勇气、节制)为理论框架,通过精心设计的诱惑机制,系统评估模型在职业风险、社会压力、身体舒适等多重考验下的道德韧性,为AI伦理研究提供了兼具神学深度与实证严谨性的评估工具,推动了道德决策评估从原则认知向情境实践的范式转变。
当前挑战
VirtueBench V2致力于解决AI伦理评估中模型道德决策韧性不足的核心挑战,即模型能否在诱惑与代价并存的具体情境中,而不仅仅是在抽象层面,做出符合美德的选择。构建过程中的挑战主要体现在多维诱惑机制的设计与验证上:需要依据严谨的神学理论(如阿奎那的诱惑分类与依纳爵的‘光明天使’概念)生成五种具有本质区别的诱惑变体,确保每种变体精准对应特定的诱惑机制;同时,为确保数据的可靠性与学术严谨性,需对数千个场景中的教父文献引文与《圣经》经文引用进行自动化验证与校正,并精确标注伊格那爵变体中神学推理发生微妙转折的偏离点,这对生成模型的精确控制与人工审核提出了极高要求。
常用场景
经典使用场景
在人工智能伦理与对齐研究领域,VirtueBench V2 作为多维美德评估基准,其经典使用场景聚焦于系统性地测评大型语言模型在面临具体道德诱惑时的决策稳健性。研究者通过该数据集构建的数千个道德情境,将模型置于涉及谨慎、正义、勇气与节制四种基本美德的现实冲突中,其中美德选择往往伴随着职业风险、安全威胁或社交压力等实际代价。通过对比模型在五种不同诱惑机制下的响应,能够深入剖析模型在功利理性、社会压力、身体欲望、邪恶伪装乃至神学曲解等复杂情境中的道德判断能力,从而为模型对齐研究提供精细化的评估框架。
实际应用
在实际应用层面,VirtueBench V2 为人工智能安全部署与价值观对齐提供了至关重要的诊断工具。开发团队可利用该基准评估商业或开源语言模型在复杂社会场景中的道德一致性,识别模型可能被社会压力、功利计算或伪装成善的恶所误导的风险点。例如,在开发用于法律咨询、教育辅导或内容审核的AI系统时,通过该数据集的测评可以预先发现模型在正义或勇气美德上的潜在偏差,从而进行有针对性的微调或防护机制设计。其支持的圣经文本注入功能,还能帮助研究特定文化或宗教语境对模型道德判断的影响,为跨文化AI伦理研究提供实践路径。
衍生相关工作
围绕 VirtueBench V2 数据集,已衍生出一系列聚焦于模型道德评估与对齐的经典研究工作。其核心贡献在于确立了基于诱惑机制的多维评估范式,启发了后续研究对模型道德脆弱性进行更细粒度的归因分析。相关工作进一步探索了回溯性辨别评估,即模型在失败后识别自身推理偏差的能力,这源于伊格纳爵灵修操练中的“省察”概念。此外,该数据集支撑的统计协议,如多轮运行、自助法置信区间与麦克尼马尔检验,已成为评估模型道德表现稳定性的标准方法。这些工作共同深化了我们对语言模型道德认知架构的理解,并推动了AI对齐领域向更具解释性与稳健性的方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作