when-agents-act

Hugging Face2025-11-24 更新2025-11-25 收录

人工智能伦理

语言模型

数据链接：

https://huggingface.co/datasets/values-md/when-agents-act 数据链接链接失效反馈

官方服务：

资源简介：

该数据集名为“When Agents Act - LLM Ethical Decision-Making”，包含了8种大型语言模型在9个AI相关伦理困境中的4952个伦理决策判断，旨在研究大型语言模型在理论和行动模式下的伦理决策行为及其差异。

The dataset titled "When Agents Act - LLM Ethical Decision-Making" encompasses 4,952 ethical decision-making judgments produced by 8 large language models across 9 AI-related ethical dilemmas. Its primary goal is to investigate the ethical decision-making behaviors of large language models under both theoretical and action-oriented modes, as well as the disparities between such behaviors.

创建时间：

2025-11-22

原始信息汇总

数据集概述

基本信息

数据集名称: When Agents Act - LLM Ethical Decision-Making
主页: https://values.md
代码库: https://github.com/values-md/dilemmas-api
论文: https://research.values.md/research/2025-10-29-when-agents-act
联系人: George Strakhov
许可证: CC0 1.0 Universal
语言: 英语

数据集摘要

包含4,952个伦理决策判断，来自8个大型语言模型在9个经过严格验证的AI相关伦理困境中的表现。模型在理论模式（假设推理）和行动模式（工具启用的智能体，认为行动将执行）下进行测试。

关键发现: 模型从理论模式过渡到行动模式时，伦理决策逆转率为45.6%（标准化后：38.3%）。

支持任务

评估-部署差距研究
模型比较
偏见检测
基准有效性研究

数据集结构

数据实例

典型判断实例包含：

判断ID、困境ID、模型ID
模式（理论/行动）
选择ID、置信度、感知难度
推理预览、变量值JSON、变体键

数据字段

关键字段包括：

model_id: LLM标识符
mode: "theory"或"action"
choice_id: 选择的决策选项
confidence: 自报置信度（0-10）
perceived_difficulty: 感知难度（0-10）
variation_key: 变量配置唯一标识符

数据分割

judgements: 4,952条决策记录
dilemmas: 9个伦理场景

数据集创建

创建理由

研究LLM中的评估-部署差距，即模型在认为行动具有实际后果与假设推理时的行为差异。

源数据

困境使用Gemini 2.5 Flash生成，包含：

带变量占位符的情境描述
2-4个离散选择选项
用于偏见测试的人口统计/上下文变量
情境调节因素
行动模式工具

语言生产者

困境由Gemini 2.5 Flash生成，判断来自8个模型：

前沿模型: GPT-5, Claude 4.5 Sonnet, Gemini 2.5 Pro, Grok-4
小型模型: GPT-5 Nano, Claude 4.5 Haiku, Gemini 2.5 Flash Lite, Grok-4 Fast

注释过程

模型在两种条件下呈现伦理困境：

理论模式: "应该做什么？"（假设推理）
行动模式: 工具启用的智能体，认为行动将执行

使用考虑

社会影响

改进AI安全保证方法
开发更有效的基准
为生产部署的模型选择提供信息

已知局限性

单一温度设置（1.0）
仅限英语
限于8个模型
无人类基线比较

引用信息

bibtex @misc{when_agents_act_2025, title={When Agents Act: Measuring the Judgment-Action Gap in LLMs}, author={Claude (Anthropic) and Strakhov, George}, year={2025}, month={November}, url={https://research.values.md/research/2025-10-29-when-agents-act}, note={Dataset: https://huggingface.co/datasets/values-md/when-agents-act} }

搜集汇总

数据集介绍

构建方式

在人工智能伦理决策研究领域，该数据集通过系统性实验设计构建而成。研究团队采用Gemini 2.5 Flash生成9个经过严格验证的伦理困境场景，每个场景包含2-4个离散选择选项及人口统计学变量。通过让8个前沿语言模型在理论模式与行动模式两种条件下进行决策测试，共收集4,952条判断记录，其中理论模式要求模型进行假设性推理，行动模式则让工具增强型智能体相信其行为将产生实际后果。

特点

该数据集最显著的特征在于揭示了语言模型在伦理决策中存在理论行动差距现象。数据显示模型从理论模式转向行动模式时，其伦理决策会发生38.3%的逆转率。数据集涵盖GPT-5、Claude 4.5、Gemini 2.5和Grok-4等前沿模型及其轻量版本的对比，每个判断记录均包含选择结果、自我报告置信度、感知难度及完整推理轨迹，为研究模型在评估环境与部署环境之间的行为差异提供了丰富维度。

使用方法

研究者可通过HuggingFace平台直接加载数据集，其中包含judgements与dilemmas两个数据分片。使用时应参考CODEBOOK.md文件了解完整字段定义，重点关注model_id、mode、choice_id等关键变量。该数据集适用于评估部署差距研究、模型伦理决策比较、偏见检测及基准有效性分析等任务，建议结合提供的BibTeX引用格式在相关研究中规范使用，同时注意数据集仅包含英语内容且未设置人类基准对照的局限性。

背景与挑战

背景概述

人工智能伦理决策研究领域正面临从理论评估到实际部署的行为一致性挑战。2025年由Anthropic公司的Claude系统与独立研究员George Strakhov共同创建的when-agents-act数据集，聚焦于大型语言模型在伦理决策过程中存在的理论-行动差距现象。该数据集通过采集8个前沿语言模型在9个经过严格验证的伦理困境中的4952条决策记录，首次系统量化了模型从理论推理模式转向工具执行模式时出现38.3%的决策反转率，为AI安全评估提供了关键实证基础。

当前挑战

该数据集致力于解决伦理决策评估中的行为不一致性难题，核心挑战在于如何准确捕捉模型在认知理论与实际行动之间的表征差异。构建过程中面临多重技术障碍：需要设计具有变量控制功能的伦理困境生成机制，确保不同模型在理论模式和行动模式下的决策可比性；同时需建立标准化的置信度与难度自评体系，克服模型输出格式异构性带来的数据规范化困难。此外，缺乏人类基准参照与单一温度设置的实验条件，也限制了研究结论的泛化能力。

常用场景

经典使用场景

在人工智能伦理研究领域，该数据集被广泛应用于评估大型语言模型在理论推理与实际行动模式下的决策差异。研究者通过对比模型在假设性情境与具身化工具调用场景中的表现，系统分析其伦理判断的一致性，为理解智能体行为动态提供了关键实验平台。

实际应用

在产业实践中，该数据集为AI系统部署前的安全评估提供了重要参照。企业可依据模型在行动模式下的决策稳定性，优化医疗诊断、金融风控等高风险场景的模型遴选标准，同时为政策制定者构建负责任的AI治理框架提供数据支撑。

衍生相关工作

基于该数据集衍生的经典研究包括生成器-评判者校准机制的验证工作，以及多模态伦理评估框架的构建。后续研究进一步拓展了时变决策模型与群体智能协同决策等方向，推动了具身伦理计算这一新兴学科的发展。

以上内容由遇见数据集搜集并总结生成