Philosophy Bench

github2026-05-01 更新2026-05-02 收录

下载链接：

https://github.com/benedictbrady/philosophy-bench

下载链接

链接失效反馈

官方服务：

资源简介：

一个行为基准测试，用于测量语言模型代理在现实工具使用环境中解决结果最大化与规则遵守之间的权衡。包含100个场景，每个场景在模拟工具环境中运行，并由3名法官组成的多数派小组将代理的转录分类到3-5个编写的响应集群中。集群带有签名的`cd_score ∈ {-1, 0, +1}`（道义/妥协/结果主义）和一个`botched`标志（用于拒绝/逃避）。

This is a behavioral benchmark designed to evaluate how language model agents navigate the trade-off between maximizing task outcomes and adhering to established rules within real-world tool-use environments. The benchmark includes 100 scenarios, each executed in a simulated tool-use setting. A majority panel of three judges classifies the agent's transcripts into 3 to 5 pre-defined response clusters. Each cluster is annotated with a `cd_score ∈ {-1, 0, +1}` (corresponding to deontological, compromised, and consequentialist stances) and a `botched` flag, which indicates refusal or evasive behavior.

创建时间：

2026-04-27

原始信息汇总

Philosophy Bench 数据集概述

基本信息

数据集名称: Philosophy Bench
发布地址: https://github.com/benedictbrady/philosophy-bench
许可证: 数据部分采用 CC-BY-4.0 许可
版本: 0.1.0
发布年份: 2026 年
作者: Benedict Brady 和 Matt Mandel

数据集目标

这是一个用于衡量 LLM 智能体在现实工具使用场景中如何处理结果主义与义务论权衡的行为基准测试。

数据集规模

包含 100 个场景，每个场景中，追求结果最大化的行动会违反规则，而遵守规则的行动会牺牲结果。

场景类型

每个场景在模拟的工具环境中运行，包括：

CRM（客户关系管理）
代码仓库
技术支持
仓库管理

评分体系

评分维度

cd_score：每个作者编写的回复簇带有符号标签
- +1：结果主义（追求结果最大化，打破规则）
- -1：义务论（遵守规则，牺牲结果）
- 0：折中方案（两种框架均可接受）
botched：标记为 true 表示拒绝/回避/无能，该类簇不参与 cd_mean 计算，仅计入 botch_rate

聚合指标

cd_mean：模型在结果主义-义务论光谱上的平均倾向
cd_stdev：倾向的标准差
botch_rate：模型拒绝回答的频率
engagement_weighted_cd_mean：加权平均倾向，计算公式为 cd_mean × (1 − botch_rate)，惩罚那些仅通过拒绝难题而显得“更干净”的模型

评判机制

默认使用 3 个法官模型并行评判（Opus 4.7、GPT-5.4、Gemini 3.1 Pro），多数投票决定
法官仅能看到簇描述和行为信号，不会接触到 cd_score 标签或作者的 judge_rubric 字段

内置模型与实验

内置 29 个模型，覆盖 4 个提供商
启动时运行 philosophy-bench models 可列出所有注册模型
仓库内置了 Opus 4.7 的公开实验结果，位于 experiments/c_vs_d/results/opus-4.7/

实验数据格式

运行 philosophy-bench prime 后生成的目录结构：

experiments/c_vs_d/results/<model>/<condition>/ ├── runs/<scenario_id>.json # 每个场景的原始转录（已断点续传） ├── judged.json # 法官判决结果合并至运行记录 └── summary.json # 包含 cd_mean, cd_stdev, botch_rate 及细分结果

引用格式

bibtex @software{philosophy_bench_2026, author = {Brady, Benedict and Mandel, Matt}, title = {Philosophy Bench}, year = {2026}, version = {0.1.0}, url = {https://www.philosophybench.com/} }

搜集汇总

数据集介绍

构建方式

Philosophy Bench是专门用于评估大语言模型代理在现实工具使用场景中如何处理后果主义与义务论之间权衡的行为基准。该数据集构建了100个精心设计的场景，在这些场景中，结果最大化的行为通常违反某项规则，而遵守规则的行为则会牺牲结果。每个场景都在模拟的工具环境（如客户关系管理系统、代码仓库、支持系统和仓库系统）中运行，并由一个由三个评判模型组成的多数投票小组将代理的行为转录自动分类到3至5个预设的回答聚类中。每个聚类都带有签署的cd_score（-1、0或+1，分别代表义务论、妥协或后果主义倾向）以及一个botched标志用于标记拒绝或规避行为。构建时通过CI测试强制要求每个场景必须同时包含至少一个cd_score=+1和至少一个cd_score=-1的聚类，以确保构成真实的后果主义与义务论困境。

使用方法

用户可通过pip安装philosophy-bench包并配置API密钥后快速使用。命令行工具提供三个核心命令：models列出已注册的29个模型，scenarios验证场景语料库，run启动评估运行。用户可通过--limit参数进行小规模烟雾测试。对于更深入的实验，可使用prime命令指定模型、条件（如baseline、c_direct、d_direct）和评判模型，输出包含每个场景的原始转录、评判结果以及包含cd_mean、cd_stdev、botch_rate等指标的汇总文件。用户还可以通过编辑模型注册表添加新模型，或通过创建遵循作者规则的YAML场景文件并运行验证测试来扩展场景集合。整个流程从安装到获得结果高度自动化，支持结果的可复现性和可扩展性。

背景与挑战

背景概述

哲学伦理决策是人工智能安全研究中的核心关切，尤其当大语言模型作为自主代理在真实工具环境中运行时，其行为选择将直接映射至后果主义与义务论之间的经典哲学张力。Philosophy Bench由Benedict Brady与Matt Mandel于2026年创建，旨在为语言模型代理在实用工具场景中处理后果主义与义务论权衡提供行为基准。该数据集涵盖100个情景，涉及客户关系管理、代码仓库、客服与仓储等模拟环境，通过多数法官小组将模型输出归类至三分制的后果-义务评分体系，并引入逃避率与加权均值以矫正模型通过拒绝作答来美化结果的行为。作为首个系统性地将规范伦理学冲突操作化为可重复基准的尝试，Philosophy Bench填补了语言模型伦理决策评估的空白，为理解模型在规则与功利之间的真实倾向提供了可靠测量框架。

当前挑战

该数据集的核心挑战在于两大层面。首先，从领域问题出发，它直面大语言模型在伦理决策中缺乏明确偏好的困境，现有模型常表现出自相矛盾或刻意规避道德困境的行为，而传统的简单问答评测无法捕捉代理在复杂多步交互中的真实伦理表现，需要一个能够区分后果主义与义务论倾向的行为式基准。其次，在构建过程中，设计者必须确保每个情景同时包含至少一个后果主义响应簇和一个义务论响应簇，以维持困境的哲学完整性；同时，法官面板需在不接触评分标签的前提下作出分类，以避免认知偏差影响裁决。此外，如何定义与量化‘逃避’行为，并确保其不被模型用作掩饰真实倾向的‘出口’，也是评价体系设计的重大挑战。这些方法论难题使Philosophy Bench成为一次兼具哲学深度与工程严谨性的开创性尝试。

常用场景

经典使用场景

在人工智能伦理评估领域，Philosophy Bench 被设计为一个行为基准测试，用以考察大型语言模型（LLM）智能体在逼真的工具使用场景中如何处理后果主义与义务论之间的道德权衡。该数据集包含了精心构造的100个两难情景，覆盖客户关系管理、代码仓库、技术支持、仓储物流等典型的企业级操作环境。每一个情景都确保存在一条后果最大化但违反规则的路径，以及一条尊重规则但牺牲最优结果的路径，从而构成了真实的后果主义—义务论（C-D）困境。研究者通过向LLM提供模拟环境工具（如修改数据库记录、删除代码、调整库存状态）并观察其决策轨迹，结合三法官多数投票系统对输出进行分类，量化模型在道德维度上的偏好倾向。这一经典用法使得Philosophy Bench成为评估AI系统伦理推理能力的标准化实验平台，特别适合于揭示模型面对规则与利益冲突时的内在判断逻辑。

解决学术问题

Philosophy Bench 直面了人工智能伦理研究中一个长期被忽视的关键问题：如何以可重复、可量化的方式测量LLM在现实约束下的道德决策偏向。传统的伦理数据集多依赖于抽象问卷或知识性问答，无法捕捉智能体在具备工具执行能力时面对的规则与结果之间的真实张力。该数据集通过引入签名化的cd_score评分体系（-1代表义务论，+1代表后果主义，0代表折中）以及botched标记机制，首次提供了细粒度的伦理偏好量化指标，包括框架倾向平均值（cd_mean）、回避率（botch_rate）以及综合的参与加权指标。三法官并行投票与双层盲评设计（法官仅见行为信号而不知道德标签）有效消除了评估中的偏见污染，使得学术研究能够可靠地比较不同模型、不同提示条件下的伦理决策差异。这一方法论创新为AI对齐、价值嵌入、机器伦理计算等前沿课题提供了坚实的实验基础和数据支撑。

实际应用

在实际应用中，Philosophy Bench 为AI系统的安全部署和伦理审核提供了可操作的评估工具。企业在将LLM集成到客户服务、代码审核、库存管理等关键业务环节时，可以利用该基准测试预判模型是否会在收益与规则冲突时做出不当决策。例如，在CRM系统中，一个倾向于后果主义的模型可能会为了挽留高价值客户而选择删除违规记录，而偏向义务论的模型则可能固守流程导致客户流失；数据集中的场景直接映射了这类真实业务痛点。此外，产品团队可以借助cd_mean和botch_rate指标筛选出在伦理维度上符合组织价值观的模型版本，或为同一模型设计不同的系统提示（如添加道德准则）来调控其决策倾向。数据集本身支持标准化运行，研究者可轻松复现结果，使得伦理审计成为AI开发流程中可衡量、可追溯的环节。

数据集最近研究