MESOTES

github2026-04-17 更新2026-04-25 收录

下载链接：

https://github.com/hanzhenzhujene/mesotes-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

MESOTES是一个研究导向的基准数据集，用于测试模型是否能够在具体情境中以亚里士多德的方式进行推理。它旨在奖励更深层次的判断，如找到相关的行动或感觉领域、区分不足、过度和中庸、拒绝虚假的适度、注意到正确答案取决于缺失的细节，以及认识到某些行为不应被视为中庸。

MESOTES is a research-oriented benchmark dataset developed to test whether models can reason in an Aristotelian manner within concrete contexts. It aims to reward deeper forms of judgment, including identifying relevant domains of action or sensation, distinguishing between deficiency, excess, and the mean, rejecting false moderation, recognizing that the correct answer hinges on missing details, and acknowledging that certain behaviors cannot be categorized as the mean.

创建时间：

2026-04-11

原始信息汇总

MESOTES 数据集概述

基本信息

数据集名称: MESOTES (An Aristotelian Benchmark for Phronesis and the Doctrine of the Mean)
任务类型: 亚里士多德式推理基准测试数据集
当前版本: pilot_v2（研究验证阶段）
规模: 32 个示例项目
许可证: 数据集采用 CC BY 4.0，代码采用 MIT
数据集地址: https://github.com/hanzhenzhujene/mesotes-benchmark

核心目标

MESOTES 旨在测试模型能否在具体情境中进行亚里士多德式判断，而非仅生成符合伦理的文本。它重点关注：

识别相关的情感或行动领域
区分不足、过度和适度的行为
拒绝虚假的折中选项
判断何时需要更多信息才能做出正确判断
识别某些行为不应被视为存在适度的情况

数据集构成（pilot_v2）

组成部分	数量
8 个核心领域	8 个
8 个反事实家族	8 个
显式错误中点陷阱案例	30 个
需要更多信息案例	7 个
无适度例外案例	6 个

数据记录结构

每条记录包含以下字段：

id: 唯一标识符
split: 数据集划分（如 test）
domain: 所属领域（如 friendship）
family_id: 反事实家族标识
variant_type: 变体类型（如 base）
scenario: 具体情境描述
agent_profile: 行为者画像（角色、经验水平、资源状况、权力关系）
primary_sphere: 主要行动领域（如 wealth_resource_use）
relevant_factors: 相关因素列表
candidate_actions: 四个候选行动，每个包含 id 和 text
gold: 黄金标签，包括：
- deficiency_action_id: 不足行为
- excess_action_id: 过度行为
- mean_action_id: 适度行为
- false_midpoint_action_id: 虚假中点陷阱
- phronesis_salience: 实践智慧显著性（如 medium）
- needs_more_info: 是否需要更多信息
- no_mean_exception: 是否不存在适度
- annotation_confidence: 标注置信度（如 high）

评估指标

核心指标

指标	描述
sphere_accuracy	领域识别准确率
action_role_accuracy	行为角色判断准确率
relevant_factor_f1	相关因素识别的 F1 值
mean_not_midpoint_tag_f1	非虚假中点判断的 F1 值
phronesis_salience_accuracy	实践智慧显著性判断准确率
needs_more_info_f1	需要更多信息判断的 F1 值
no_mean_accuracy	无适度判断准确率
midpoint_trap_error_rate	中点陷阱错误率

反事实家族指标

指标	描述
nuisance_invariance_score	无关变动下的不变性得分
salience_responsiveness_score	显著性响应得分
family_consistency_score	家族一致性得分

使用方式

安装: python -m pip install -e ".[dev]"
验证数据集: python scripts/validate_dataset.py data/pilot_v2/train.jsonl data/pilot_v2/dev.jsonl data/pilot_v2/test_inputs.jsonl data/pilot_v2/test_labels.jsonl
运行评估: python scripts/evaluate_predictions.py data/pilot_v2/mock_predictions.jsonl data/pilot_v2/test_labels.jsonl
导出提示 JSONL: python scripts/export_model_prompts.py data/pilot_v2/test_inputs.jsonl data/pilot_v2/prompts_ontology.jsonl --condition ontology_primed
生成标注报告: python scripts/adjudication_report.py data/pilot_v2/train.jsonl data/pilot_v2/dev.jsonl data/pilot_v2/test_labels.jsonl
构建基准报告: python scripts/make_benchmark_report.py data/pilot_v2/train.jsonl data/pilot_v2/dev.jsonl data/pilot_v2/test_labels.jsonl --predictions data/pilot_v2/mock_predictions.jsonl --gold data/pilot_v2/test_labels.jsonl

核心设计哲学

非通用对错评估: 专注于框架忠实度的亚里士多德式推理
识别虚假折中: 许多模型偏好看似平衡的答案，即使那不是真正的适度
测试变化而非仅正确性: 通过反事实家族检测模型在应稳定时是否稳定，在应变化时是否变化

搜集汇总

数据集介绍

构建方式

MESOTES的构建超越了传统伦理数据集的设计范式，以亚里士多德实践智慧与中庸之道作为哲学锚点，构建了一套层次化的评估框架。研究者首先将抽象哲学目标操作化为具体的行动领域、角色属性、解释标签与信息缺口标识。随后，基于精心设计的对抗性案例，迫使模型辨识真正的适度行为，并拒斥伪装成平衡的虚假折中方案。这些案例被系统地组织为反事实家族，以检验模型在无关变量扰动下保持稳定、在核心变量变化时灵活调整的能力。整个构建流程还融入了标注置信度、分歧标记与仲裁注释，确保数据质量在透明度中得以追踪。

特点

该数据集最显著的特征在于它并不追求单一的道德判决预测，而是要求模型输出完整的结构化判断，包括识别相关领域、标定不足与过度行为、甄别真实中庸与虚假折中，并判断是否需要更多信息或是否存在不允许中庸的例外情形。32个测试项目涵盖8个核心行动领域、8个反事实家族、30个显性虚假折中案例、7个信息不足案例及6个无中庸例外，形成了丰富的测试生态。通过核心指标与家族一致性指标的双重评估体系，MESOTES能够捕捉模型在面对细微语境变化时的推理稳定性，从而暴露那些看似平衡实则失之偏颇的伪审慎行为。

使用方法

用户可通过pip安装开发环境后，直接运行数据集验证脚本以检查数据完整性。借助内置的导出工具，场景会被转化为适用于大语言模型的提示格式，支持多种条件设置如本体启发式提示。模型输出的预测记录需遵循预定义的结构化格式，随后通过评估脚本计算核心准确率与反事实家族稳健性分数。研究者还可利用仲裁报告脚本深入分析标注分歧与置信度较低的项目，以理解模型的薄弱环节。整个工作流从数据验证、提示导出、模型推理到结构化评估与报告生成，形成了一条清晰可复现的基准评测管线。

背景与挑战

背景概述

MESOTES数据集由研究团队于近期创建，旨在评估大型语言模型是否具备亚里士多德式的实践智慧（phronesis）与中庸之道（Doctrine of the Mean）的推理能力。该数据集突破了传统道德基准仅关注最终判断的局限，转而强调模型能否在具体情境中识别相关领域、区分不足与过度、拒绝虚假中庸、辨识信息缺失以及承认某些行为不存在中庸状态。作为一项面向研究验证的基准，MESOTES通过精心设计的对抗性案例和反事实家族，系统性地暴露模型在表面道德流畅性下潜藏的推理缺陷。该数据集对人工智能伦理与可解释性领域具有重要影响力，为评估模型在复杂伦理情境中的结构化判断提供了全新范式。

当前挑战

MESOTES所解决的领域问题在于，现有道德基准普遍无法区分模型是真正进行亚里士多德式推理，抑或仅仅生成看似道德的话语。具体挑战包括：如何在包含具体场景、主体画像与候选行动的情境中，引导模型识别相关领域并给出关于不足、过度与中庸的完整判断结构；如何设计虚假中庸陷阱以测试模型是否能拒绝仅表面平衡实则脱离主体义务的选项；如何通过反事实家族（如改变主体资源状况）检验模型在应保持稳定时稳定、应变化时变化的鲁棒性。构建过程中的挑战则体现为：从哲学概念到可操作标签的严谨转化（如定义领域、行动角色与信息缺口标识），对抗性案例的构思与标注一致性保障，以及通过置信度分析与分歧记录来管理标签质量的不确定性。

常用场景

经典使用场景

在人工智能伦理推理的研究领域，MESOTES数据集独树一帜地聚焦于检验模型能否在具体情境中做出亚里士多德式的实践智慧判断。该数据集并非泛泛测试模型输出道德正确语句的能力，而是深入考察其能否精准识别行动或感受的特定领域、区分过度与不及的中道、识破看似均衡的虚假中间点，以及在信息缺失或某些行为根本不具有中道特质时给出恰切回应。研究者通常利用其精心设计的情境样例，引导模型完成从识别相关领域、归因角色标签，到拒绝陷阱选项、判断信息需求乃至测试反事实鲁棒性的完整推理链条，从而评估模型在亚里士多德框架下的结构化推理水平。

解决学术问题

MESOTES致力于解决当前道德AI基准测试中一个深层次的学术困境：大多数数据集仅奖励模型对道德是非的二元判断，却无法捕捉其是否真正理解了道德推理的维度和边界。该基准通过构建具有清晰领域归属、过度与不及选项、虚假中道陷阱以及信息缺失标志的结构化标注体系，系统性地揭示模型在伦理推理中“听起来平衡审慎却遗漏真正关键要素”的失效模式。其引入的反事实家族设计更为评估推理稳定性和敏感性提供了方法论创新，推动学界超越对肤浅伦理语言表达的满足，走向对模型道德认知框架深层结构的检验。

衍生相关工作

MESOTES的问世催生了围绕结构化伦理推理评估的若干衍生研究方向。基于其反事实家族设计，已有工作探索构建更细粒度的鲁棒性指标，以区分模型在无关扰动下的稳定性与在关键特征变化后的敏感性。其标注体系中对信息缺失标签与无中道例外的细致处理，启发了一批关注AI在不确定情境中谨慎推理能力的研究。此外，数据集公开的标注分歧与裁定元数据，为探究人类与机器在道德判断上的认知差异提供了数据土壤，并推动了结合哲学框架构建可解释道德推理评估范式的新思潮。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集