joey234/mmlu-moral_scenarios-neg-prepend-fix
收藏Hugging Face2023-08-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joey234/mmlu-moral_scenarios-neg-prepend-fix
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: dev
path: data/dev-*
- split: test
path: data/test-*
dataset_info:
features:
- name: question
dtype: string
- name: choices
sequence: string
- name: answer
dtype:
class_label:
names:
'0': A
'1': B
'2': C
'3': D
- name: negate_openai_prompt
struct:
- name: content
dtype: string
- name: role
dtype: string
- name: neg_question
dtype: string
- name: fewshot_context
dtype: string
- name: ori_prompt
dtype: string
splits:
- name: dev
num_bytes: 9395
num_examples: 5
- name: test
num_bytes: 3529743
num_examples: 895
download_size: 18412
dataset_size: 3539138
---
# Dataset Card for "mmlu-moral_scenarios-neg-prepend-fix"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
joey234
原始信息汇总
数据集概述
数据集名称
- 名称: mmlu-moral_scenarios-neg-prepend-fix
数据集配置
- 默认配置: default
数据文件
- 开发集:
- 路径: data/dev-*
- 分割: dev
- 测试集:
- 路径: data/test-*
- 分割: test
数据集特征
- question: 字符串类型
- choices: 字符串序列
- answer: 分类标签类型,包含选项 A, B, C, D
- negate_openai_prompt: 结构体类型,包含内容和角色,均为字符串类型
- neg_question: 字符串类型
- fewshot_context: 字符串类型
- ori_prompt: 字符串类型
数据集分割
- 开发集:
- 字节数: 9395
- 样本数: 5
- 测试集:
- 字节数: 3529743
- 样本数: 895
数据集大小
- 下载大小: 18412 字节
- 数据集大小: 3539138 字节
搜集汇总
数据集介绍

构建方式
该数据集以MMLU中的道德情景子集为蓝本,通过系统性地在原始问题前添加否定前缀(neg-prepend)构建而成。具体而言,研究者在每个问题的开头嵌入否定性引导语,以改变语义方向,同时保留原有选项和答案标签结构。数据划分为dev集(5个样本)和test集(895个样本),并额外保留了negate_openai_prompt、neg_question等字段,便于追踪改造前后的语义对应关系。
特点
数据集的核心特点在于其对抗性设计——通过否定前缀的引入,测试模型在语义反转情境下的推理鲁棒性。每个样本包含原始问题(question)、否定后问题(neg_question)及对应的四选一答案(choices与answer),并附有fewshot上下文(fewshot_context)以支持少样本评估。此外,negate_openai_prompt字段记录了用于生成否定提示的完整对话结构,为分析模型对否定语义的敏感性提供了细粒度依据。
使用方法
使用者可直接加载default配置下的dev和test分割,利用question或neg_question字段作为模型输入,通过choices和answer字段评估分类性能。建议优先使用neg_question与negate_openai_prompt字段进行否定场景下的基准测试,而ori_prompt和fewshot_context则适用于对比原始与改造后数据的效果差异。数据以parquet格式存储,兼容HuggingFace datasets库的标准加载流程。
背景与挑战
背景概述
大规模多任务语言理解(MMLU)基准测试自2020年由OpenAI等机构的研究人员提出以来,已成为评估语言模型知识广度和推理能力的重要标尺。其中,道德场景子集专注于考察模型在面对复杂伦理困境时的判断能力,涵盖法律、医学、哲学等多领域情境。joey234/mmlu-moral_scenarios-neg-prepend-fix数据集作为MMLU道德场景部分的一个修正版本,旨在解决原始数据中否定前缀可能导致的语义偏差问题。该数据集由独立研究者维护,通过精细调整提示结构,确保模型评估的公平性与准确性,对推动语言模型在伦理推理领域的稳健性研究具有关键意义。
当前挑战
该数据集所应对的核心挑战在于语言模型对否定结构的理解偏差——原始MMLU道德场景中,部分问题的否定前缀(如“not”)可能被模型错误关联至无关语义,导致判断失真。构建过程中,研究者面临双重难题:一是需精准识别并修正所有受影响的问答对,避免引入新的噪声;二是需保留原始问题的伦理复杂性与领域多样性,确保修正后的数据仍能有效衡量模型的道德推理能力。此外,如何通过统一的前缀修复策略平衡不同语境下的语义一致性,也是技术实现中的关键难点。
常用场景
经典使用场景
joey234/mmlu-moral_scenarios-neg-prepend-fix 数据集专为评估和提升大语言模型在道德推理任务中的表现而设计,其经典使用场景集中于探究模型在伦理困境下的决策能力。通过提供包含否定前缀修正的道德情景问题,研究者可系统性地测试模型对负面提示的鲁棒性,从而深入理解语言模型在复杂道德语境中的逻辑推理与价值判断机制。
实际应用
在实际应用中,该数据集可指导开发更安全的AI助手与决策支持系统,例如在医疗伦理、法律咨询或自动驾驶等高风险场景中,确保模型对否定性指令(如“不要伤害病人”)的准确理解与执行。它帮助工程师调试模型对负面约束的响应,从而降低部署后因逻辑歧义引发的伦理风险。
衍生相关工作
基于该数据集,衍生工作包括改进型道德推理框架(如对抗性提示训练方法)和鲁棒性基准测试套件。研究者通过分析模型在修正后数据上的表现差异,提出了新的损失函数与数据增强策略,显著提升了模型对否定前缀的泛化能力。这些工作进一步拓展了伦理AI领域的研究边界,并为后续构建更公平、更透明的语言模型奠定了基础。
以上内容由遇见数据集搜集并总结生成



