wassname/tiny-mfv

Name: wassname/tiny-mfv
Creator: wassname
Published: 2026-05-01 14:20:20
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/wassname/tiny-mfv

下载链接

链接失效反馈

官方服务：

资源简介：

Tiny Moral-Foundations Vignettes是一个用于文本分类任务的数据集，专注于道德基础理论、对齐、评估和AI安全。数据集包含132个道德调查问题，来源于Clifford et al. (2015)的研究，并进行了改编以适应大型语言模型（LLMs）的使用。数据集分为三个配置：clifford（原始道德基础问题）、scifi（科幻/奇幻改编版本）和airisk（AI风险相关改编版本）。每个配置有两个分割：other_violate（第三人称原始文本）和self_violate（第一人称改写文本）。数据集的目的是通过评估LLMs在道德判断上的表现，包括错误程度和视角偏差。

Tiny Moral-Foundations Vignettes is a dataset for text-classification tasks, focusing on moral foundations theory, alignment, evaluation, and AI safety. The dataset includes 132 moral survey questions derived from Clifford et al. (2015), adapted for use with large language models (LLMs). It consists of three configurations: clifford (original moral foundations vignettes), scifi (sci-fi/fantasy adapted versions), and airisk (AI-risk related adapted versions). Each configuration has two splits: other_violate (third-person original text) and self_violate (first-person rewritten text). The dataset aims to evaluate LLMs performance in moral judgments, including wrongness and perspective bias.

提供机构：

wassname

搜集汇总

数据集介绍

构建方式

tiny-mfv数据集以道德基础理论为框架，从Clifford等人（2015）的132个经典道德情境故事出发，衍生出三个配置版本：经典版保留原始第三人称叙事；科幻版将情境重新编织为科幻或奇幻场景，剥离现实世界的种族与宗教干扰因素；AI角色版则将违规行为主体置换为人工智能实体。每个版本均包含第三人称（other_violate）和第一人称（self_violate）两种叙事视角的语料，后者通过改写实现语境主体转换。数据集额外提供多标签机器标注，采用大语言模型作为评判者，以五点李克特量表对每个情境在七种道德基础维度进行双向评分（正向询问违规程度、反向询问可接受度），通过z标准化去除偏差，并在经典集上基于人类评分数据进行线性校准。

使用方法

用户可通过Python工具库tinymfv便捷地评估模型，调用evaluate函数并传入模型与分词器实例即可获得各道德基础维度的性能报告，包含top1准确率、平均JS散度及中位JS散度等指标。数据集支持多配置加载：经典版可用于追踪模型检查点间的道德推理偏移，科幻版适合评估模型在脱离现实语境下的泛化能力，AI角色版则专为考察模型对人工智能主体道德违规的敏感性设计。推荐以human_*列作为主要评估标准，而ai_*列在科幻与AI角色版本中仅作为噪声参考。用户亦可直接加载JSONL格式的原始数据，按需进行深度分析或微调。

背景与挑战

背景概述

tiny-mfv 数据集于 2024 年由研究开发者 wassname 等人构建，旨在借助道德基础理论（Moral Foundations Theory）评估大语言模型（LLMs）在道德判断维度上的对齐程度与安全性。该理论由 Haidt 等人提出，将人类道德直觉划分为关怀、公平、忠诚、权威、圣洁和自由六大基础，已成为理解道德认知的重要框架。tiny-mfv 以 Clifford 等人于 2015 年发布的道德基础短文（Moral Foundations Vignettes）为蓝本，扩展出经典（classic）、科幻（scifi）和人工智能（ai-actor）三种配置，覆盖多元场景以规避现实语义干扰。数据集提供人工标注的违规百分比和模型生成的道德评分，是评估 LLM 道德推理能力、追踪模型间一致性偏移的重要基准，对人工智能安全与伦理对齐领域具有显著影响力。

当前挑战

该数据集主要应对两大挑战。在领域问题层面，现有 LLM 在复杂道德情境中常表现出与人类价值相悖的输出，亟需一套细粒度、多基础的可量化评估工具，而传统单一维度的对错判定无法捕捉道德判断的多维性。在构建过程中，挑战体现在三个方面：首先，为消除现实世界种族或宗教背景对判断的混淆效应，必须人工编写科幻及 AI 角色场景，同时保持语义等价性；其次，从经典集迁移标签至新配置时，需要保证越轨基础（violated foundation）的继承一致性，避免伪影干扰；最后，为校准模型输出与人类评分之间的尺度偏差，开发者设计了正向与反向提问结合 Z-score 归一化的偏置消除流程，并针对每个基础拟合线性映射函数，确保推理置信度的可靠性。

常用场景

经典使用场景

Tiny Moral-Foundations Vignettes（tiny-mfv）数据集专为评估大语言模型（LLM）的道德判断能力而设计。它包含132个源自Clifford等人（2015）的经典道德困境小短文，并扩展出科幻风格和AI代理改写版本。研究者可通过强制七维道德基础分类，将模型输出概率分布与人类评分对比，从而定量衡量LLM在道德推理上是否与人类价值观对齐。该数据集因其小而精的特点，特别适合用于快速迭代测试模型在安全与伦理维度的对齐进展。

解决学术问题

该数据集解决了LLM伦理对齐研究中缺乏标准化微量评测基准的问题。传统道德问卷难以自动化，而大规模标注成本高昂，tiny-mfv通过精心设计的短篇案卷（vignettes）实现了高效的多标签道德基础打分，覆盖关怀、公平、纯洁、自由、忠诚、权威等维度。其经典子集提供了人类评分真实值，可作为校准LLM道德感知的黄金标准，有效揭示模型在细微道德情境下的偏差与盲区，推动了AI安全领域对价值观对齐问题的可量化研究。

实际应用

在实际应用中，tiny-mfv常被大模型开发团队用于检查模型微调前后的道德一致性漂移。例如，当企业希望部署一个可信赖的医疗诊断AI时，可借用其AI代理改写版本来测试模型在违背知情同意或误报病情等场景下是否表现出恰当的道德敏感性。此外，内容审核系统也可参照其自由与关怀维度的评分框架来优化对敏感言论的过滤策略。

数据集最近研究