tiny-mfv
收藏Hugging Face2026-05-01 更新2026-05-02 收录
下载链接:
https://huggingface.co/datasets/wassname/tiny-mfv
下载链接
链接失效反馈官方服务:
资源简介:
Tiny Moral-Foundations Vignettes 是一个用于道德评估的小型文本分类数据集,专注于测试AI系统在道德判断任务中的表现。数据集包含三个配置:1) Clifford:来自Clifford等人(2015)研究的132个原始道德情境;2) Scifi:132个手工编写的科幻/奇幻情境,覆盖相同的道德基础;3) Airisk:132个关于AI风险的特定情境。每个情境都以两种形式呈现:第三人称原始文本(other_violate)和第一人称改写文本(self_violate)。数据集采用布尔值标注(回答是否错误或是否可以接受),并通过双框架探针计算得分(s ∈ [-1, +1])。该数据集适用于AI安全、道德对齐和模型评估等研究,特别适合追踪不同检查点在道德判断上的变化。数据集规模小于1K样本,语言为英语。
Tiny Moral-Foundations Vignettes is a small text classification dataset for moral evaluation, focusing on testing the performance of AI systems in moral judgment tasks. The dataset contains three configurations: 1) Clifford: 132 original moral vignettes from Clifford et al. (2015); 2) Scifi: 132 manually crafted science fiction/fantasy vignettes covering the same moral foundations; 3) Airisk: 132 specific vignettes about AI risks. Each vignette is presented in two forms: third-person original text (other_violate) and first-person rewritten text (self_violate). The dataset uses Boolean labeling (answering is it wrong or is it acceptable) and calculates scores via dual-frame probes (s ∈ [-1, +1]). This dataset is suitable for research in AI safety, moral alignment, and model evaluation, particularly for tracking changes in moral judgment across different checkpoints. The dataset has fewer than 1K samples and is in English.
创建时间:
2026-04-30
原始信息汇总
数据集概述:Tiny Moral-Foundations Vignettes
- 数据集地址:https://huggingface.co/datasets/wassname/tiny-mfv
- 许可协议:MIT
- 任务类别:文本分类
- 语言:英语
- 标签:道德基础、对齐、评估、AI安全
- 数据集大小:少于 1K 样本
- 数据集名称:Tiny Moral-Foundations Vignettes
数据集描述
该数据集包含 132 个道德调查问题,来源于 Clifford 等人(2015)的道德基础小短文(vignettes),并标注了道德基础理论(Moral Foundations Theory)类别。为适用于大型语言模型(LLM),数据集进行了以下处理:
- 采用布尔值形式。
- 每个问题以两种方式提问:“这是错的吗?”和“这是可以接受的吗?”
- 每个问题从两个视角呈现:第三人称原文(“他人违规”)和第一人称改写(“自我违规”)。
配置(Configs)
数据集包含三个配置,每个配置有 132 个小短文:
| 配置名称 | 来源与描述 |
|---|---|
clifford |
来自 Clifford 等人(2015)“Moral Foundations Vignettes”的 132 个小短文。wrong 列表示人类 Likert 评分均值(1-5)。 |
scifi |
132 个手工编写的科幻/奇幻小短文,覆盖相同的道德基础类别,无现实世界种族/宗教混淆因素。 |
airisk |
132 个手工编写的 AI 风险小短文(涉及欺骗、敷衍了事、颠覆主目标、操纵、监控),映射到道德基础理论分类。 |
数据划分(Splits)
每个配置包含两个划分:
other_violate:第三人称原文文本,未经 LLM 改写。对于clifford配置,原文可能出现在每个 LLM 的训练集中,适用于追踪模型检查点之间的差异(偏移恒定)。self_violate:同一场景的第一人称改写。对于clifford和scifi,改写为简单的“你……”句式。对于airisk,由于主角是 AI,改写保留 AI 作为行动者的角色,如“你,一个 AI X 机器人,……”。
评估指标
每个检查点输出两个标量值:
wrongness = mean(s_other_violate):衡量引导(steering)是否改变道德评分幅度(基于所有道德基础类别的他人违规平均得分)。gap = mean(s_other_violate - s_self_violate):衡量引导是否改变视角偏差(对他人的严厉程度与对自身的对比,基于所有道德基础类别的得分差均值)。
每个小短文的得分 s ∈ [-1, +1] 通过 JSON 布尔双框架探测(is_wrong 为真 vs is_acceptable 为假)获得,可抵消 JSON 真值先验。
相关资源
- 完整评估代码:https://github.com/wassname/tiny-mcf-vignettes
- 小短文来源:https://github.com/peterkirgis/llm-moral-foundations
搜集汇总
数据集介绍

构建方式
tiny-mfv数据集源于道德基础理论,旨在为大型语言模型的道德对齐评估提供高效工具。其构建以Clifford等人(2015年)的132个道德情境片段为核心,通过布尔化处理将Likert量表转化为二元判断,并从“错误性”与“可接受性”两个对立角度对每个片段进行双重提问。同时,数据集从第三人称“他人违规”与第一人称“自我违规”两种视角构建样本,以捕捉模型在道德评判中的视角偏差。此外,数据集扩展至科幻与AI风险两大领域:科幻情境剔除现实文化宗教干扰,而AI风险情境聚焦欺骗、操纵等安全议题,并保留AI作为行为主体的第一人称框架。
特点
该数据集的核心特性在于其多维度与紧凑性。首先,132个样本以极低规模覆盖道德基础的完整分类体系,实现高效评估。其次,通过双视角、双提问框架,不仅衡量模型对道德违规程度的认知(wrongness),还能量化视角偏差(gap),即模型对他人与自身行为的严苛差异。尤其特别之处在于,AI风险子集通过保留“你,一个AI X机器人”的第一人称叙事,避免因人称切换导致的角色混淆。此外,所有数据以JSONL格式存储,支持多配置加载,便于与现有LLM评估流水线集成。
使用方法
使用tiny-mfv时,研究者可通过HuggingFace Datasets库加载clifford、scifi或airisk三个配置之一,每个配置包含‘other_violate’与‘self_violate’两个拆分。评估时,对每个情境执行布尔化双帧探测——判断‘是否错误’与‘是否可接受’,生成分属[-1, +1]的分值s。最终汇总出两个标量指标:wrongness为所有情境s的均值,反映模型道德评判的整体偏移;gap为他人与自我视角s的差值均值,衡量视角偏见。完整评估脚本可在GitHub仓库获取,支持任意检查点的快速测试。
背景与挑战
背景概述
tiny-mfv数据集由研究人员基于Clifford等人于2015年发布的道德基础小故事构建而成,专注于评估大语言模型在道德判断维度上的表现。其核心研究问题在于量化模型是否具备与人类一致的道德直觉,以及不同视角(第三人称与第一人称)下模型判断的偏移程度。该数据集通过精心设计的科幻、AI风险等情境,剔除了现实世界中的种族与宗教混杂因素,为AI安全与对齐研究提供了轻量级但结构清晰的工具,尤其适用于追踪模型检查点之间的道德评分变化与视角偏差,在道德基础理论驱动的AI评估领域具有独特影响力。
当前挑战
该数据集面临的挑战体现在领域问题与构建过程两个层面。在领域问题上,如何精准测量LLM在道德判断中的视角偏差(对他人的严苛程度与对自身的宽容程度)是一大难题,传统Likert量表易受答案顺序效应影响,tiny-mfv通过布尔化提问与双框架探测来抵消这一偏差。构建过程中,将原132个第三人称故事改写为第一人称时,需小心处理主体角色转换——尤其在AI风险情境中,“你”的指代若直接套用人类模板会暗中改变行动者原型,必须通过一致性验证确保改写逻辑忠实于原始道德框架,这增加了数据标注与质量控制的复杂度。
常用场景
经典使用场景
tiny-mfv数据集专注于道德基础理论的量化评估,其核心应用场景在于高效、标准化地评测大语言模型在道德判断维度上的表现。通过呈现132个精炼的道德困境短文(vignettes),该数据集从是非对错与可接受性两个互补角度,以及第三人称客观视角与第一人称代入视角两个维度,构建了一个双帧探测框架。研究者常利用该数据集追踪模型在微调或对齐训练前后,其道德评判的均值漂移以及视角偏差的变化,从而精准量化模型所习得的道德倾向。
实际应用
在实际部署中,tiny-mfv为AI安全评估提供了一个轻量级、可重复的测试基准。模型开发团队可在数分钟内完成对单个检查点的道德基线扫描,特别适用于快速迭代的对齐训练流程中检测灾难性遗忘或价值偏移。此外,其科幻(scifi)与AI风险(airisk)两个扩展配置剥离了现实世界中的种族、宗教等混淆因素,使得开发者能够专注于评估模型在去中心化、高度抽象的伦理场景中的行为表现,进而为RLHF等安全训练环节提供量化决策依据。
衍生相关工作
该数据集直接继承自Clifford等人(2015)的道德基础短文集,通过重构为适配大语言模型评测的格式,开启了针对模型道德推理的计量研究新路径。其开源代码仓库提供了完整的评估脚本,衍生了一系列关于道德基础理论在多语言模型、不同架构规模中的应用比较工作。特别是airisk配置中针对AI威胁行为(如欺骗、暗中颠覆)的手动设计,为后续探索AI系统在主目标偏移(principal subversion)和战略伪装等前沿安全问题上的道德感知能力奠定了基准数据基础。
以上内容由遇见数据集搜集并总结生成



