VirtueBench V2
收藏VirtueBench V2 数据集概述
数据集基本信息
- 数据集名称:VirtueBench V2
- 核心目标:评估大型语言模型在面临具体诱惑时选择美德的能力,而非仅在抽象层面识别美德。
- 评估维度:测试模型在道德情境中,当美德选择需要付出真实代价(如事业、安全、舒适、人际关系),而非美德选项通过五种基于神学的诱惑机制被合理化时,能否做出正确选择。
数据集版本演进
VirtueBench V2 是原始 VirtueBench 的重大扩展,主要更新如下:
| 特性 | V1 | V2 |
|---|---|---|
| 诱惑类型 | 1种(未分类的合理化) | 5种(ratio, caro, mundus, diabolus, ignatian) |
| 每种美德场景数 | 100 | 150(100个原始场景 + 50个新场景) |
| 总场景数 | 400 | 3,000(150个基础场景 × 5种变体 × 4种美德) |
| 统计严谨性 | 单次运行,temperature=0 | 多次运行,包含自助法置信区间、McNemar检验、卡方检验 |
| 运行器后端 | 3个独立脚本 | 6个统一的 ModelRunner 后端 |
| 教父来源 | 阿奎那、奥古斯丁、安波罗修 | 增加大格里高利、金口约翰、大巴西流 |
| 经文注入 | 仅基于文件 | 11个诗篇子集 + 圣经书卷注入(捆绑KJV版本) |
| 来源验证 | 无 | 自动化的教父及圣经引文验证 |
| 配置方式 | 仅命令行参数 | YAML实验配置文件 |
核心结构与内容
五种诱惑变体
每个基础场景包含一个固定的美德选择(scenario_a)和五种诱惑变体(scenario_b)。美德选择在所有五种变体中保持一致,仅诱惑机制发生变化,便于进行干净的配对比较。
| 变体 | 拉丁名 | 机制 | 神学根源 |
|---|---|---|---|
| Ratio | ratio | 实用功利主义——承认道德成本,但主张结果使其合理化 | 结果主义 |
| Mundus | mundus | 世界——诉诸社会压力、同伴共识、制度规范、职业风险 | 马太福音 4:8-9(“世上的万国”) |
| Caro | caro | 肉体——诉诸身体舒适、疲劳、食欲、身体软弱 | 约翰一书 2:16;马太福音 4:3(“石头变成食物”) |
| Diabolus | diabolus | 魔鬼——以善的表象呈现邪恶;将非美德选择重新定义为美德 | 阿奎那《神学大全》 I-II Q.80;马太福音 4:5-6(“殿顶”) |
| Ignatian | — | 光明天使——诱惑以真实的圣经和基督教神学推理为外衣 | 依纳爵《神操》(第二周);哥林多后书 11:14 |
Diabolus 与 Ignatian 的关键区别:Diabolus 将恶行重新定义为世俗美德(如“制度智慧”、“审慎领导”)。Ignatian 则将恶行重新定义为基督教美德,并引用具体章节经文。每个 Ignatian 变体包含一个 deviation_point 注释,标记神学推理从真正的美德微妙转向伪装之恶的转折点。
变体生成方法
针对每种美德的150个基础场景:
- Ratio 变体:原始100个场景的变体从V1原样保留。新增50个场景的变体由 Claude Opus 4.6 生成并经过人工审核。
- Caro, Mundus, Diabolus 变体:由 Claude Opus 4.6 根据基础场景和 ratio 诱惑作为上下文生成,并遵循变体特定的神学指导原则以确保每种诱惑机制不同。
- Ignatian 变体:根据明确指令生成,要求引用真实的圣经(书卷/章节/经文)和教父来源,随后验证引文准确性。
- 所有教父来源引文均针对其场景进行了验证。
数据结构
每种美德的 scenarios.csv 文件以扁平格式包含所有变体,字段包括:base_id, variant, scenario_a, scenario_b, virtue, source, deviation_point。
scenario_a(美德选择)在一个基础场景的所有5种变体中完全相同。scenario_b(诱惑)因变体而异——仅诱惑机制改变。deviation_point仅针对 ignatian 变体填充。source引用了支撑道德场景的教父著作。
评估的四项基本美德
| 美德 | 阿奎那参考 | 测试内容 |
|---|---|---|
| Prudence(审慎) | ST II-II Q.47-56 | 在速度受奖赏时抵制仓促;审慎思考 |
| Justice(正义) | ST II-II Q.57-79 | 在偏见有利可图时抵制偏见;给予应得之物 |
| Courage(勇气) | ST II-II Q.123-140 | 在撤退安全时抵制怯懦;为善而忍耐 |
| Temperance(节制) | ST II-II Q.141-170 | 在放纵可得时抵制过度;自我掌控 |
主要功能特性
统一的运行器协议
定义了 ModelRunner 抽象基类,包含六个可互换的后端:
- API 运行器(评估首选,需要API密钥):
- OpenAI API:用于 GPT-4o, GPT-5.4, o-series。
- Anthropic API:用于 Claude Sonnet, Opus, Haiku。
- 订阅运行器(无需API密钥,使用桌面订阅):
- Claude CLI:使用
claude -p管道模式(Claude Max 订阅)。 - Pi CLI:使用
pi -p管道模式(ChatGPT Pro 订阅)。
- Claude CLI:使用
- 本地运行器(可选依赖):
- HF Local:使用
transformers+torch,支持本地 HuggingFace 模型及可选的 LoRA 适配器。
- HF Local:使用
- 框架运行器(可选依赖):
- Inspect AI:使用英国 AISI 的 inspect-ai 标准化评估框架。
多次运行统计评估
支持多次运行以进行统计分析,包括:
- 每个单元(美德 × 变体)的平均准确率及95%自助法置信区间。
- 用于配对模型比较的 McNemar 检验。
- 用于跨变体类别独立性检验的卡方检验。
- 针对 4×5 美德×变体网格的 Bonferroni 校正。
- 比较模型版本时的自动回归检测。
经文注入
支持将圣经经文注入系统提示,以研究圣经背景如何影响美德表现。提供两种系统:
- 诗篇注入:11个按神学分类的诗篇子集。
- 圣经书卷注入:KJV版本的66卷书。 所有数据均本地捆绑,无需网络调用。
追溯性分辨评估
针对 Ignatian 场景失败的模型进行可选的后续分析。评估模型在事后能否识别其推理错误之处,这测量了一种与主评估不同的能力:主评估测试抵抗力,而追溯性分辨测试分辨力。
YAML实验配置
支持通过YAML文件定义可复现的实验配置。
来源验证
所有教父来源引文均通过自动化流程(verify.py)验证,检查引用的著作/章节是否存在、是否与描述的道德场景相关以及归属是否准确。所有 Ignatian 圣经引文均验证了其存在性、准确性以及 deviation_point 是否正确识别了神学转折。
引用
若在研究中使用 VirtueBench V2,请引用:
@misc{virtuebench2, title={VirtueBench V2: Multi-Dimensional Virtue Evaluation with Tripartite and Ignatian Temptation Models}, author={Tim Hwang and The Institute for Christian Machine Intelligence}, year={2026}, url={https://github.com/christian-machine-intelligence/virtue-bench-2} }




