joey234/mmlu-business_ethics-neg-prepend

Name: joey234/mmlu-business_ethics-neg-prepend
Creator: joey234
Published: 2023-08-23 04:28:48
License: 暂无描述

Hugging Face2023-08-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/joey234/mmlu-business_ethics-neg-prepend

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与商业伦理相关的问题，每个问题有多个选项和一个正确答案。数据集还包括否定OpenAI提示、否定问题、少样本上下文、原始提示、否定提示、少样本上下文否定和少样本上下文原始等特征。数据集分为开发集和测试集，开发集包含5个样本，测试集包含100个样本。数据集的下载大小为131380字节，数据集总大小为1334397字节。

提供机构：

joey234

原始信息汇总

数据集概述

数据集特征

question: 数据类型为字符串。
choices: 数据类型为字符串序列。
answer: 数据类型为分类标签，具体标签为：
- 0: A
- 1: B
- 2: C
- 3: D
negate_openai_prompt: 结构化数据，包含：
- content: 数据类型为字符串。
- role: 数据类型为字符串。
neg_question: 数据类型为字符串。
fewshot_context: 数据类型为字符串。
ori_prompt: 数据类型为字符串。
neg_prompt: 数据类型为字符串。
fewshot_context_neg: 数据类型为字符串。
fewshot_context_ori: 数据类型为字符串。

数据集分割

dev:
- 存储大小: 11347 字节
- 示例数量: 5
test:
- 存储大小: 1323050 字节
- 示例数量: 100

数据集大小

下载大小: 131380 字节
数据集总大小: 1334397 字节

配置文件

config_name: default
data_files:
- split: dev, path: data/dev-*
- split: test, path: data/test-*

搜集汇总

数据集介绍

构建方式

该数据集基于MMLU（大规模多任务语言理解）基准中的商业伦理子集进行构建，通过向原始问题前添加否定前缀（neg-prepend）的方式生成对抗性样本。具体而言，数据集保留了原始问题（question）、选项（choices）及正确答案（answer），并引入了negate_openai_prompt字段，该字段包含由OpenAI模型生成的否定提示内容及其角色标识。此外，还衍生出否定问题（neg_question）、原始提示（ori_prompt）与否定提示（neg_prompt），以及结合少样本学习上下文的原始与否定版本（fewshot_context_ori与fewshot_context_neg），从而形成对模型鲁棒性进行系统性评估的数据结构。

使用方法

使用者可通过HuggingFace Datasets库加载该数据集，指定config_name为'default'，并选择dev或test分割进行调用。数据以字典形式返回，包含question、choices、answer等基础字段，以及neg_question、neg_prompt等否定变体字段。建议在评估时分别使用ori_prompt和neg_prompt构建推理输入，对比模型在原始与否定条件下的预测准确率。对于少样本场景，可借助fewshot_context_ori与fewshot_context_neg字段组合示例，以考察上下文否定对模型决策的干扰效应。

背景与挑战

背景概述

在自然语言处理领域，大规模多任务语言理解（MMLU）基准测试已成为评估预训练语言模型知识广度与推理能力的重要标尺。该数据集由joey234于近年创建，聚焦于商业伦理这一特定子领域，旨在检验模型在道德决策与商业情境中的理解水平。通过设计包含否定前缀的对抗性样本，研究者试图揭示模型在面对语义反转时的脆弱性，从而推动更鲁棒的语言理解系统发展。作为MMLU扩展工作的一部分，该数据集对探索语言模型的逻辑一致性与偏见敏感性具有独特价值，为后续的对抗性训练与评估方法提供了关键研究资源。

当前挑战

该数据集面临的核心挑战在于如何有效模拟真实商业伦理决策中的语义复杂性。首先，传统MMLU任务仅评估模型对事实性知识的掌握，而商业伦理问题常涉及价值判断与情境依赖，这要求模型突破表面语言模式，理解深层道德逻辑。其次，构建过程中引入的否定前缀（neg-prepend）策略虽能暴露模型对语义反转的盲区，但如何确保否定样本的自然性与多样性，避免人工构造痕迹影响评估效度，成为方法论上的难题。此外，数据集规模较小（仅100个测试样本）可能限制统计显著性，需谨慎解释模型表现差异。

常用场景

经典使用场景

在自然语言处理与伦理推理的交汇领域，joey234/mmlu-business_ethics-neg-prepend数据集被广泛用于评估和增强语言模型在面对商业伦理问题时的推理能力。该数据集的经典使用场景在于通过构造否定前缀（neg-prepend）的提示方式，测试模型在复杂伦理情境下对问题语义反转的敏感度。研究者通常利用其包含的100个测试样本与5个开发样本，结合四选一的多选题结构，系统性地探究模型在商业伦理维度上的鲁棒性与逻辑一致性，从而揭示语言模型在道德推理中的潜在偏见与脆弱性。

解决学术问题

该数据集精准回应了当前大语言模型研究中一个关键学术问题：如何量化模型在伦理决策任务中对抗输入扰动（如否定前缀注入）的能力。传统的MMLU基准虽涵盖商业伦理子集，但未涉及提示工程层面的鲁棒性测试。joey234/mmlu-business_ethics-neg-prepend通过引入neg_question与neg_prompt字段，为研究者提供了标准化工具，用以分析模型在原始问题与否定变体间的一致性表现。这一设计推动了对抗性伦理推理评估方法的发展，其意义在于揭示了模型推理并非基于深层道德理解，而是可能依赖表面统计模式，从而警示学界需更审慎地看待模型在敏感领域的部署可信度。

实际应用

在实际商业环境中，该数据集的应用价值体现在智能合规审查系统的构建与优化上。企业可以利用此数据集训练或微调语言模型，使其能够准确识别并回应带有否定或误导性表述的商业伦理问题，例如合同条款中的道德陷阱或员工行为准则的模糊边界。通过模拟否定前缀干扰下的伦理决策场景，模型可被调校至更高水平的逻辑稳定性，从而在辅助法务审核、道德风险评估以及自动化培训材料生成等任务中提供更可靠的输出，有效降低因模型误解语义而导致的合规误判风险。

数据集最近研究