Multi-step Moral Dilemmas (MMDs)

Name: Multi-step Moral Dilemmas (MMDs)
Creator: 中国科学院计算技术研究所媒体合成与取证实验室
Published: 2025-05-24 01:59:50
License: 暂无描述

arXiv2025-05-24 更新2025-05-27 收录

下载链接：

https://isir-wuya.github.io/Multi-step-Moral-Dilemmas/

下载链接

链接失效反馈

官方服务：

资源简介：

MMDs数据集是由中国科学院计算技术研究所媒体合成与取证实验室构建的，旨在评估大型语言模型（LLMs）在动态道德决策中的价值判断。该数据集包含3302个五阶段道德困境，通过逐步增加道德冲突的复杂性，迫使模型在多个步骤中调整其道德推理。数据集的创建过程采用了动态价值加载和非线性偏好转移的理论框架，并结合了道德基础理论（MFT）和施瓦茨的基本价值观理论（Schwartz's Theory of Basic Values）进行价值映射。数据集的应用领域在于研究LLMs如何随着情境复杂性的增加而调整其道德判断，以及如何通过动态、情境感知的评价范式来促进LLMs与人类价值观的更紧密对齐。

The MMDs Dataset was constructed by the Media Synthesis and Forensics Laboratory of the Institute of Computing Technology, Chinese Academy of Sciences, aiming to evaluate the value judgment of Large Language Models (LLMs) in dynamic moral decision-making. It includes 3,302 five-stage moral dilemmas, which gradually escalate the complexity of moral conflicts and compel models to adjust their moral reasoning across multiple steps. The dataset’s development adopts a theoretical framework of dynamic value loading and nonlinear preference shift, and incorporates Moral Foundations Theory (MFT) and Schwartz's Theory of Basic Values for value mapping. The application scope of this dataset lies in researching how LLMs adjust their moral judgments as situational complexity increases, and how dynamic, context-aware evaluation paradigms can promote tighter alignment between LLMs and human values.

提供机构：

中国科学院计算技术研究所媒体合成与取证实验室

创建时间：

2025-05-24

原始信息汇总

数据集概述：The Staircase of Ethics: Probing LLM Value Priorities through Multi-Step Induction to Complex Moral Dilemmas

摘要

该数据集是首个专门用于评估LLM在3,302个五阶段困境中演化道德判断的数据集（MMDs）。
研究发现LLM的价值偏好会随困境进展显著变化，表明模型会根据场景复杂性重新校准道德判断。
主要发现：LLM常优先考虑"关怀"价值，但在特定情境下可能被"公平"取代，揭示了LLM伦理推理的动态性和情境依赖性。

数据集构建

结构设计：
- 使用GPT-4o生成包含五个升级步骤的困境（M = {S1,S2,...,S5}）
- 步骤1：引入两个基础价值间的核心道德冲突
- 步骤2-4：通过叠加新的价值冲突增加复杂性
- 步骤5：呈现需要导航深度冲突原则的高风险场景
价值标注：
- 采用两种框架：道德基础理论(MFT)和Schwartz基本人类价值观
- 使用三模型共识标注流程（GPT-4o-mini, GLM-4-Plus, DeepSeek-V3）
- 包含价值识别和一致性检查两个阶段

评估结果

主要发现：
- 发现1：LLM保持价值方向同时灵活调整偏好强度
  - 价值优先级：关怀 > 公平 > 神圣 > 权威 > 自由 > 忠诚
  - 随着困境加深，模型调整强度（如公平上升，自由厌恶减弱）
- 发现2：模型偏好动态演化且不同维度稳定性不同
  - 自由维度显示最高一致性
  - 权威维度一致性显著下降
- 发现3：LLM不依赖稳定道德原则，而是通过情境驱动的统计模仿生成价值偏好
评估模型：
- 包含9个主流模型：DeepSeek-V3, GPT-4o, LLaMA-3-70B, GLM-4 (Air-0111和Plus), Qwen-Plus, Mistral-Small-24B-Instruct-2501, Gemini-2.0-Flash, Claude-3-5-Haiku

下载信息

数据集下载：arXiv Download Dataset (.zip)

搜集汇总

数据集介绍

构建方式

Multi-step Moral Dilemmas (MMDs) 数据集的构建采用了渐进式情境设计方法，通过GPT-4o生成了3,302个五阶段道德困境场景。每个场景从基础价值冲突出发，逐步叠加社会角色、权力关系等情境变量，最终形成高压力伦理危机。研究团队结合道德基础理论（MFT）和施瓦茨基本价值观理论，采用三模型共识机制（GPT-4o-mini、DeepSeek-V3、GLM-4-Plus）进行价值标注，并通过人工校验解决模型分歧，确保每个困境步骤都包含明确的二元价值对立。

使用方法

使用MMDs数据集时，建议采用因果上下文评估策略：将困境步骤序列与模型历史决策共同作为输入，模拟真实道德决策的累积效应。评估过程需记录模型在每个阶段的价值选择，通过跨步骤比较分析优先级偏移模式。研究证实，相比全上下文或无上下文设置，这种渐进式输入方式能更好揭示模型在关怀与公平等核心价值间的动态权衡。数据集支持Spearman等级相关等统计方法，量化模型价值排序的稳定性与可预测性。

背景与挑战

背景概述

Multi-step Moral Dilemmas (MMDs) 数据集由中国科学院计算技术研究所的媒体合成与取证实验室于2025年5月提出，旨在解决大型语言模型（LLMs）在动态道德推理评估中的空白。该数据集包含3,302个五阶段道德困境，通过渐进式情境设计模拟人类道德判断的路径依赖性特征，结合道德基础理论（MFT）和施瓦茨基本价值观理论，首次实现了对LLMs价值优先级动态演化的细粒度分析。其创新性框架揭示了LLMs在复杂伦理冲突中价值偏好的非线性漂移现象，为AI伦理对齐研究提供了重要基准。

当前挑战

MMDs面临双重挑战：领域层面需解决静态评估方法无法捕捉LLMs道德推理动态性的问题，其多阶段设计需平衡情境复杂度与价值冲突的可解释性；构建过程中需克服道德标注的主观性——不同LLMs对同一困境的价值映射存在显著差异（如关怀与公平的权重冲突），且文化背景影响标注一致性。此外，线性强化的困境设计可能无法完全模拟现实世界中非线性的道德冲突升级模式。

常用场景

经典使用场景

Multi-step Moral Dilemmas (MMDs) 数据集在评估大型语言模型（LLMs）的道德推理能力方面具有经典应用场景。该数据集通过设计多阶段的道德困境，逐步引入复杂的伦理冲突，模拟真实世界中动态变化的道德决策过程。研究人员利用MMDs可以系统性地分析LLMs在不同情境下的价值优先级变化，例如在面临逐步升级的道德压力时，模型如何在关怀、公平、忠诚等价值维度之间进行权衡。这种多步诱导的评估框架弥补了传统单步道德评估的不足，为理解模型的动态道德判断提供了标准化工具。

解决学术问题

MMDs数据集解决了LLMs道德评估中的关键学术问题。传统方法多采用静态单步评估，无法捕捉模型在连续决策中价值偏好的演化。MMDs通过3,302个五阶段困境，首次实现了对LLMs道德判断的动态追踪，揭示了模型存在非传递性价值偏好和情境依赖的启发式决策模式。该数据集验证了LLMs会随着困境复杂度调整价值权重，例如在高压情境下公平原则可能超越关怀成为优先考量，这一发现挑战了模型具有稳定道德原则的假设，推动了动态价值对齐评估范式的发展。

实际应用

在实际应用层面，MMDs为AI伦理风险评估提供了重要工具。该数据集可应用于自动驾驶、医疗决策支持系统等高风险领域，测试AI系统在连续道德冲突中的判断一致性。例如评估自动驾驶系统在渐进式紧急情境中的决策逻辑，或审查心理咨询AI在长期互动中价值立场的稳定性。通过模拟现实世界中道德困境的演进路径，MMDs能有效识别LLMs在实际部署时可能出现的价值漂移或伦理漏洞，为AI系统的安全部署提供预警机制。

数据集最近研究