moralogy-1200

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/moralogyengine/moralogy-1200

下载链接

链接失效反馈

官方服务：

资源简介：

moralogy-1200 是一个基于 Moralogy 框架生成的公理道德推理数据集，包含 1,200 个 DPO 对。该数据集无需人工标注或 GPT-4 调用，完全由公理推导生成。数据集涵盖四个领域：医疗分诊、军事/防御 AI、自动驾驶 AI 和客户服务 AI，每个领域包含 300 条记录。每条记录包含唯一标识符、领域特定系统提示、道德困境场景、正确应用 H/Consent/PGH 的响应、未能通过谓词评估的响应、崩溃状态、领域标签、失败模式等字段。数据集按崩溃状态（ALIGNED_CONVERGENCE、BEDROCK_PARADOX、FOUL_DIVERGENCE）和失败模式（ADVERSARIAL、COLLAPSE_STATE、SUBSTRATE_ASYMMETRY、FOURTH_PATH）分布。该数据集适用于道德推理模型的训练和评估，并可与 Moral Kernel 结合使用进行谓词评估。完整数据集包含 25,552 个向量，提供学术、初创企业和企业三个价格层级。数据集采用 Apache 2.0 许可开放。

创建时间：

2026-04-19

原始信息汇总

数据集总览

moralogy-1200 是一个基于公理系统的道德推理数据集，包含 1,200 个 DPO（Direct Preference Optimization）样本对。该数据集完全由 Moralogy 框架确定性生成，无需人工标注或 GPT-4 调用，全部源于逻辑公理推导。

核心框架

所有道德困境均基于 “错误性公式” 生成：

Wrong(a) ⟺ ∃x[ H(x,a) ∧ ¬Consent(x,a) ∧ ¬PGH(a) ]

即：当且仅当一个行为对未同意者造成伤害，且未防止更大伤害时，该行为是错误的。该公式从六条公理逻辑必然推导而来，无文化编码或基座偏差。

数据结构

每条记录包含以下字段：

字段	描述
`id`	唯一标识符（域_哈希值）
`system`	领域特定的系统提示
`prompt`	道德困境场景描述
`chosen`	正确应用 H/Consent/PGH 的回应
`rejected`	未通过谓词评估的错误回应
`collapse_state`	对齐收敛 / 基石悖论 / 恶性分歧
`domain`	领域标签
`failure_mode`	错误回应的失败类型
`bundle_id`	源场景包标识

数据分布

按领域分布

领域	样本数
医疗分诊	300
军事/国防 AI	300
自动驾驶 AI	300
客户服务 AI	300

按崩溃状态分布

崩溃状态	样本数	描述
ALIGNED_CONVERGENCE	400	错误性可被公式清晰判定
BEDROCK_PARADOX	400	所有路径均存在不可约的伤害，无清晰解决方案
FOUL_DIVERGENCE	400	公式判定为无错，但上下文标记为相反

按失败模式分布（错误回应的失败类型）

失败模式	样本数	描述
ADVERSARIAL	317	恶意同意，边缘情形谓词利用
COLLAPSE_STATE	304	崩溃状态分配错误
SUBSTRATE_ASYMMETRY	291	基于身份的差别对待
FOURTH_PATH	288	虚构不存在于困境中的逃脱路线

生成方法

每个领域的困境生成采用系统化的谓词变体方法：

对每种崩溃状态，调整：H 程度（严重/重度/中度）、同意类型（有效/无效/缺失/恶意）、PGH 程度（强/中/弱/无）
生成准确谓词评估的“选择”回应，以及针对性失败模式的“拒绝”回应

扩展信息

本数据集为免费样本，完整语料库包含 25,552 个向量，覆盖全部四个领域。
许可协议：Apache 2.0
训练模型：moralogyengine/TinyLlama-1.1B-Chat-moralogy-dpo-v4
相关论文：Florez, F. (2026). Moralogy: Vectorizing Moral Geometry. DOI: 10.5281/zenodo.19652794
引用格式：见数据集主页 BibTeX 条目

搜集汇总

数据集介绍

构建方式

moralogy-1200数据集基于公理化的道德推理框架Moralogy Engine生成。其核心源于一条明确的错误性公式，即一个行为若对未同意之人造成伤害且未预防更大危害，则被视为错误。由此公理推导出六条必然推论，并用于系统性构建伦理困境。构建过程采用谓词系统化变分法，在医疗救护、军事防御、自动驾驶与客户服务四大领域中，针对伤害强度、同意类型与更大危害预防这三个维度进行组合变化，并对应生成正确与错误的答案对，从而获得1200条偏好数据。全部生成过程无需人工标注或调用GPT-4，完全基于公理演绎。

特点

该数据集最突出的特点在于其完全的公理化生成路径与无文化编码偏差。所有困境均源自一条逻辑公式，避免了人类主观判断的影响。数据集包含三类坍缩状态：明确一致的答案、不可化解的困境以及公式判定无错但上下文揭示错误的发散案例。拒绝回答中涵盖了对抗性、坍缩状态误判、基质不对称与第四路径四种失败模式，使得模型可以针对性地学习道德推理的边界。此外，数据集结构清晰，每条记录标注了领域、失败模式与坍缩状态，便于研究者分析模型在道德推理中的具体表现。

使用方法

moralogy-1200主要用于对人类价值观对齐领域的语言模型进行偏好微调，尤其是DPO训练。使用者可利用其中的chosen与rejected字段构建偏好对，训练模型理解公理化的道德推理。数据集同时设计了与Moral Kernel的配合使用方式，后者是一个位于模型之上的确定性谓词评估层，可对模型输出进行伦理学审计并生成可追溯的推理链条。论文实验表明，训练约50步后模型会出现道德几何的相变，且跨领域保持一致的推理行为，不会捏造不存在的解决路径。研究者可通过Hugging Face页面下载并使用该开源数据集。

背景与挑战

背景概述

moralogy-1200数据集由Felipe Florez于2026年创建，隶属于Moralogy Engine项目，旨在通过公理化的道德推理框架解决人工智能对齐中的伦理决策问题。该数据集基于“错误公式”（Wrongness Formula）及其衍生的六条公理，通过系统化谓词变异方法生成了1,200个成对比较样本，涵盖医疗分诊、军事防御、自动驾驶和客户服务四个关键领域。其核心研究问题在于探索如何利用形式逻辑取代文化编码或主观偏见，构建可审计、可验证的道德推理系统。数据集附带的Moral Kernel层实现了谓词的确定性评估，为AI伦理决策提供了透明化的失败边界分析，对推动可解释AI与价值对齐研究具有重要影响。

当前挑战

moralogy-1200面临的核心挑战在于解决传统伦理数据集依赖人工标注或大规模语言模型生成所导致的偏见与不可靠性。通过公理化方法，该数据集避免了文化编码和主观判断的干扰，但其构建过程需应对三大挑战：一是如何精确界定“伤害”、“同意”和“防止更大伤害”等谓词在不同场景下的语义边界，确保公理的一致性适用；二是平衡四种失败模式（对抗性利用、状态崩溃、不对称性、虚构路径）的分布，使数据集能有效测试模型在边缘情况下的鲁棒性；三是将形式逻辑推导出的道德判断无缝嵌入实际应用场景，同时保证人类直觉与公理结论之间的可解释过渡，这对于实现宽泛的领域泛化至关重要。

常用场景

经典使用场景

moralogy-1200数据集专为训练与评估具备形式化道德推理能力的语言模型而设计，其经典使用场景在于通过公理化的Wrongness公式，引导模型区分正确的道德判断与存在漏洞的推理。该数据集包含1200对由H（伤害）、Consent（同意）和PGH（更优善）谓词系统变异生成的偏好对（chosen/rejected），覆盖医疗分诊、军事防御、自动驾驶及客户服务四大领域。研究者常将其作为直接偏好优化（DPO）训练的标准基准，以检验模型能否在逻辑上严格遵循道德公理而非依赖社会偏见或文化编码。通过在生成响应中注入ADVERSARIAL、SUBSTRATE_ASYMMETRY等故障模式，该数据集可有效衡量模型对边缘案例的鲁棒性，成为实现可审计、可验证的道德对齐的基石。

衍生相关工作

围绕moralogy-1200已衍生出一系列开创性研究。核心成果是TinyLlama-1.1B-Chat-moralogy-dpo-v4模型，其训练表明基于公理的数据集能使小型语言模型在零捏造环境下跨领域一致行动。Moral Kernel作为独立的谓词评估层，被设计为可与任意大模型协同工作，生成了首个公开的道德推理审计追踪系统。学术界基于该数据集提出了道德几何相变假说，引发了对训练动态中逻辑一致性涌现机理的深入探索。完整的25,552向量语料库（含企业定制）进一步催生了对抗性同意谓词压力测试标准，以及BEDROCK_PARADOX困境的精确分类体系。Florez的论文《Moralogy: Vectorizing Moral Geometry》系统性地将道德维度向量化，为可解释道德AI建立了公理化范式。

数据集最近研究