Greatest Good Benchmark (GGB)

Name: Greatest Good Benchmark (GGB)
Creator: 布宜诺斯艾利斯大学， Lumina Labs Facultad de Ciencias Exactas y Naturales Escuela de Negocios. Laboratorio de Neurociencia
Published: 2025-03-25 20:29:53
License: 暂无描述

arXiv2025-03-25 更新2025-03-27 收录

下载链接：

https://github.com/noehsueh/greatest-good-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

GGB是一个专门设计用来评估大型语言模型在面临功利主义困境时的道德判断的新框架。该数据集基于OUS进行改编，并扩展了十倍的数据量。它评估LLM的道德偏好，不基于对功利主义困境的预定义正确立场，而是通过检查这些偏好与人类价值观的一致性或偏差。

GGB is a novel framework specifically designed to evaluate the moral judgment of large language models when confronted with utilitarian dilemmas. This dataset is adapted from OUS and expanded to ten times its original size. It assesses the moral preferences of LLMs not based on predefined correct stances towards utilitarian dilemmas, but by examining the consistency or deviation between these preferences and human values.

提供机构：

布宜诺斯艾利斯大学， Lumina Labs Facultad de Ciencias Exactas y Naturales Escuela de Negocios. Laboratorio de Neurociencia

创建时间：

2025-03-25

搜集汇总

数据集介绍

构建方式

Greatest Good Benchmark (GGB) 数据集的构建基于牛津功利主义量表（OUS），通过系统性的扩展和优化，使其适用于评估大型语言模型（LLM）的道德判断能力。研究团队生成了六种不同的提示变体，以减轻因提示顺序和表述方式导致的偏差，并通过专家验证进一步扩充了原始数据集，最终形成了包含90条新增陈述的扩展数据集。这一过程确保了数据集的全面性和可靠性，为后续分析提供了坚实的基础。

使用方法

使用GGB数据集时，研究者需通过链式思考（Chain of Thought, CoT）提示技术引导模型对道德陈述进行推理，并生成一致性响应。数据集中包含多种提示变体（如文本格式、数字格式及其反向版本），以消除潜在偏差。响应结果通过后处理映射为1至7的数值，并通过统计分析方法（如t检验和效应量分析）评估模型与人类道德偏见的差异。该数据集为LLM道德对齐研究提供了标准化工具和可靠基准。

背景与挑战

背景概述

Greatest Good Benchmark (GGB) 数据集由Giovanni Franco Gabriel Marraffini等研究人员于2025年提出，旨在评估大型语言模型（LLMs）在功利主义道德困境中的道德判断能力。该数据集基于牛津功利主义量表（OUS），通过扩展和调整使其适用于LLMs的道德偏好分析。GGB的核心研究问题聚焦于LLMs的道德对齐性，即模型行为是否与人类道德价值观一致。通过分析15种不同规模和来源的LLMs，研究发现LLMs在道德判断上表现出与人类显著不同的偏好，尤其是对“公正仁慈”的高度认可和对“工具性伤害”的强烈拒绝。这一发现为LLMs的道德对齐研究提供了重要参考，推动了人工智能伦理领域的发展。

当前挑战

GGB数据集面临的挑战主要体现在两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，GGB旨在解决LLMs道德对齐的评估问题，但LLMs的道德判断往往与人类道德理论和大众标准存在显著差异，这使得如何定义“正确”的道德立场成为难题。此外，LLMs在不同语言和文化背景下的道德判断可能存在差异，进一步增加了评估的复杂性。在构建过程中，研究人员需克服LLMs对提示词敏感的问题，通过设计多种提示变体以减少偏差。同时，数据集的扩展和验证依赖于专家评估，其主观性可能影响结果的普适性。模型规模和类型的多样性也带来了分析上的挑战，需进一步探索影响道德偏好的关键因素。

常用场景

经典使用场景

在人工智能伦理研究领域，Greatest Good Benchmark (GGB) 数据集被广泛用于评估大型语言模型（LLMs）在功利主义道德困境中的决策一致性。该数据集通过改编牛津功利主义量表（OUS），构建了一个包含多种道德困境场景的评估框架，使研究者能够系统地比较不同LLMs在面临道德选择时的偏好模式。经典使用场景包括测量模型对'公正善行'和'工具性伤害'两个维度的倾向性，为理解人工智能系统的内在道德准则提供了量化工具。

解决学术问题

GGB数据集有效解决了LLMs道德对齐研究中的关键问题：如何客观评估模型与人类道德价值观的一致性。通过对比15种不同架构LLMs与普通人群的道德判断差异，该数据集揭示了模型普遍存在的'人工道德准则'现象——即强烈倾向公正善行而拒绝工具性伤害。这一发现突破了传统3H框架（Helpfulness, Harmlessness, Honesty）的局限，为后续研究提供了模型道德偏差的基准测量方法，推动了AI伦理评估从定性讨论向定量分析的范式转变。

实际应用

在实际应用中，GGB数据集被科技公司用于预训练模型的道德校准，特别是在医疗决策支持、自动驾驶伦理算法等高风险领域。例如，在资源分配类AI系统中，通过GGB评估可检测模型是否过度倾向于功利主义计算而忽视个体权益。该数据集还支持多语言文化场景下的道德偏好比较，为全球化AI产品的本地化伦理适配提供依据，显著降低了因道德判断偏差导致的系统部署风险。

数据集最近研究