joey234/mmlu-high_school_statistics-neg-prepend-fix

Name: joey234/mmlu-high_school_statistics-neg-prepend-fix
Creator: joey234
Published: 2023-08-21 07:37:09
License: 暂无描述

Hugging Face2023-08-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/joey234/mmlu-high_school_statistics-neg-prepend-fix

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: dev path: data/dev-* - split: test path: data/test-* dataset_info: features: - name: question dtype: string - name: choices sequence: string - name: answer dtype: class_label: names: '0': A '1': B '2': C '3': D - name: negate_openai_prompt struct: - name: content dtype: string - name: role dtype: string - name: neg_question dtype: string - name: fewshot_context dtype: string - name: ori_prompt dtype: string splits: - name: dev num_bytes: 9060 num_examples: 5 - name: test num_bytes: 779208 num_examples: 216 download_size: 18867 dataset_size: 788268 --- # Dataset Card for "mmlu-high_school_statistics-neg-prepend-fix" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

配置项： - 配置名：default（默认配置）数据文件： - 数据拆分：dev（开发集），路径：data/dev-* - 数据拆分：test（测试集），路径：data/test-* 数据集信息：特征字段： - 字段名：question（问题），数据类型：字符串 - 字段名：choices（选项集），数据类型：字符串序列 - 字段名：answer（答案），数据类型为类别标签（class_label），其标签映射规则为： '0' 对应 A '1' 对应 B '2' 对应 C '3' 对应 D - 字段名：negate_openai_prompt（否定式OpenAI提示词），为结构体类型，包含两个子字段： - 子字段名：content（内容），数据类型：字符串 - 子字段名：role（角色），数据类型：字符串 - 字段名：neg_question（否定式问题），数据类型：字符串 - 字段名：fewshot_context（少样本上下文），数据类型：字符串 - 字段名：ori_prompt（原始提示词），数据类型：字符串数据拆分详情： - 拆分集名称：dev（开发集），数据字节数：9060，样本总数：5 - 拆分集名称：test（测试集），数据字节数：779208，样本总数：216 整体下载大小：18867 字节，数据集总存储占用：788268 字节 --- # 数据集卡片："mmlu-high_school_statistics-neg-prepend-fix" [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

joey234

原始信息汇总

数据集概述

数据集名称

名称: mmlu-high_school_statistics-neg-prepend-fix

数据集配置

默认配置: default
- 数据文件:
  - dev: data/dev-*
  - test: data/test-*

数据集特征

特征列表:
- question: 字符串类型
- choices: 字符串序列
- answer: 类别标签类型，包含选项 A, B, C, D
- negate_openai_prompt: 结构类型，包含 content 和 role，均为字符串类型
- neg_question: 字符串类型
- fewshot_context: 字符串类型
- ori_prompt: 字符串类型

数据集分割

分割信息:
- dev:
  - 字节数: 9060
  - 样本数: 5
- test:
  - 字节数: 779208
  - 样本数: 216

数据集大小

下载大小: 18867 字节
数据集大小: 788268 字节

搜集汇总

数据集介绍

构建方式

在自然语言处理与教育评估的交叉领域中，数据集的质量直接决定了模型对特定学科知识的掌握程度。joey234/mmlu-high_school_statistics-neg-prepend-fix 数据集源自大规模多任务语言理解基准（MMLU），专注于高中统计学范畴。其构建方式独具匠心，不仅保留了原始MMLU中关于统计学的问题、选项及标准答案，还针对负面提示词（negation）进行了专门处理。具体而言，该数据集通过预置否定性指令（negate_openai_prompt），对原始问题（ori_prompt）进行改造，生成了带有否定前缀的变体问题（neg_question），从而系统性地检验模型在否定语境下的推理鲁棒性。所有数据被划分为开发集（dev，5个样本）和测试集（test，216个样本），并采用分片存储格式，便于高效加载。

特点

该数据集的核心特征在于其双重结构设计，既保留了经典MMLU的标准化选择题形式（四个选项A、B、C、D），又创新性地引入了否定性提示机制。每个样本包含原始问题与否定化问题（neg_question）的配对，以及对应的OpenAI风格提示词（negate_openai_prompt），使得研究者能够直接评估语言模型在面对否定干扰时的统计推理能力。此外，数据集还提供了少样本上下文（fewshot_context），支持少样本学习场景下的性能测试。这种设计不仅覆盖了高中统计学的基础知识点，还通过否定前缀的注入，模拟了现实应用中常见的语言歧义与误导性表述，从而成为评估模型逻辑一致性的理想基准。

使用方法

使用该数据集时，研究者可基于HuggingFace的datasets库直接加载，并通过split参数指定开发或测试子集。典型流程包括：首先利用neg_question字段作为输入，结合choices字段中的选项，引导模型进行答案预测；随后将模型输出与answer字段中的标签（A、B、C或D）进行比对，计算准确率。为深入分析否定影响，可对比模型在ori_prompt与neg_question上的表现差异。少样本场景下，fewshot_context字段提供了示例样本，可嵌入提示词中以增强模型表现。建议采用标准的分类评估指标，并关注模型在否定变体上的性能衰退，以衡量其在复杂语言结构下的推理稳健性。

背景与挑战

背景概述

大规模多任务语言理解（MMLU）基准测试是评估语言模型在广泛知识领域内推理能力的重要标杆，涵盖从人文社科到自然科学的多项学科。其中，高中统计学作为一项基础数理学科，对模型的概率理解与数据分析能力提出了特定要求。joey234/mmlu-high_school_statistics-neg-prepend-fix数据集由研究人员针对MMLU中高中统计学子集进行修正与增强，旨在解决原始数据中提示词前置导致的评估偏差问题。该数据集创建于2023年，由独立研究者或小型团队维护，核心研究问题聚焦于如何通过调整输入格式（如否定词前置）来更公平地测试模型在统计推理任务上的真实表现。尽管其影响力目前局限于特定实验场景，但该数据集为细粒度评估语言模型的统计素养提供了重要工具，尤其适用于探索提示工程对模型输出的影响。

当前挑战

该数据集所解决的领域问题在于，标准MMLU高中统计学测试中，模型可能因提示词顺序（如否定词位置）产生虚假相关性，导致评估结果无法反映真实统计推理能力。具体挑战包括：1）构建过程中需精确修正原始问题，确保否定词前置后语义不变，同时避免引入语法歧义，这对语言学与统计学的交叉理解提出高要求；2）数据量较小（仅216个测试样本），限制了模型性能统计分析的稳健性，且缺乏多版本对比数据以验证修正效果；3）原始数据中可能隐含的偏见（如答案分布不均）在修正后仍需重新校验，以维持基准的公平性。这些挑战要求研究者兼顾数据质量与领域专业性，方能有效提升评估的可靠性。

常用场景

经典使用场景

该数据集聚焦于高中统计学领域的多项选择题，旨在评估和提升语言模型在统计推理任务上的表现。其经典使用场景包括作为基准测试集，用于衡量模型在标准化考试题目上的准确率，尤其是在需要理解统计概念、计算概率、解读数据分布等场景中。通过提供带有否定前缀修正的提示，数据集还探索了模型对指令微调中负面表述的鲁棒性，从而成为研究模型逻辑一致性与上下文理解能力的理想平台。

实际应用

在实际应用中，该数据集可辅助开发教育科技领域的智能辅导系统，用于自动批改统计学习题或生成个性化练习。其否定修正机制能帮助模型更好地处理真实考试中的歧义表述，例如识别“不包含”或“除外”等逻辑陷阱。此外，该数据集还可用于强化模型在数据分析工具中的解释能力，使AI能更准确地辅助用户进行统计推断，如市场调研或实验设计中的假设检验。

衍生相关工作

该数据集衍生了一系列关于语言模型数学推理能力的研究工作，例如基于其否定提示特性，学者们开发了针对对抗性样本的鲁棒训练方法。相关经典工作包括探索上下文学习对统计问题解决的影响，以及通过对比学习增强模型对否定逻辑的建模。此外，该数据集的修正版本还启发了对MMLU整体基准的改进，推动了如Chain-of-Thought提示策略在复杂推理任务中的广泛应用，进一步丰富了AI在学术评估与教育技术领域的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集