joey234/mmlu-high_school_biology-neg-prepend

Name: joey234/mmlu-high_school_biology-neg-prepend
Creator: joey234
Published: 2023-08-23 04:36:56
License: 暂无描述

Hugging Face2023-08-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/joey234/mmlu-high_school_biology-neg-prepend

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: question dtype: string - name: choices sequence: string - name: answer dtype: class_label: names: '0': A '1': B '2': C '3': D - name: negate_openai_prompt struct: - name: content dtype: string - name: role dtype: string - name: neg_question dtype: string - name: fewshot_context dtype: string - name: ori_prompt dtype: string - name: neg_prompt dtype: string - name: fewshot_context_neg dtype: string - name: fewshot_context_ori dtype: string splits: - name: dev num_bytes: 8554 num_examples: 5 - name: test num_bytes: 3104302 num_examples: 310 download_size: 323194 dataset_size: 3112856 configs: - config_name: default data_files: - split: dev path: data/dev-* - split: test path: data/test-* --- # Dataset Card for "mmlu-high_school_biology-neg-prepend" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

joey234

原始信息汇总

数据集概述

数据集名称

mmlu-high_school_biology-neg-prepend

数据集特征

question: 数据类型为字符串。
choices: 数据类型为序列字符串。
answer: 数据类型为分类标签，具体标签为：
- 0: A
- 1: B
- 2: C
- 3: D
negate_openai_prompt: 结构化数据，包含：
- content: 数据类型为字符串。
- role: 数据类型为字符串。
neg_question: 数据类型为字符串。
fewshot_context: 数据类型为字符串。
ori_prompt: 数据类型为字符串。
neg_prompt: 数据类型为字符串。
fewshot_context_neg: 数据类型为字符串。
fewshot_context_ori: 数据类型为字符串。

数据集分割

dev: 包含5个样本，占用8554字节。
test: 包含310个样本，占用3104302字节。

数据集大小

下载大小: 323194字节
数据集总大小: 3112856字节

配置文件

config_name: default
data_files:
- split: dev, path: data/dev-*
- split: test, path: data/test-*

搜集汇总

数据集介绍

构建方式

该数据集基于MMLU（Massive Multitask Language Understanding）基准测试中的高中生物学子集构建而成。在原始数据的基础上，通过引入否定前缀的预处理策略，对每个问题生成对应的否定版本（neg_question），并构造包含否定上下文的提示词（neg_prompt与ori_prompt），从而形成一套用于评估语言模型在否定推理情境下理解能力的测试样本。数据集包含dev和test两个划分，其中dev集有5个示例，test集有310个示例。

使用方法

使用时，可通过HuggingFace的datasets库加载该数据集，并依据neg_prompt或ori_prompt字段作为模型输入，结合choices字段中的选项进行推理。推荐在评估时对比模型对原始提示与否定提示的响应差异，以量化其否定敏感性。数据集已预定义dev与test划分，可直接用于少样本微调或零样本评估实验，无需额外分割。

背景与挑战

背景概述

大规模多任务语言理解（MMLU）基准测试自2020年由OpenAI等机构提出以来，已成为评估语言模型知识广度和推理能力的重要标杆。该数据集聚焦于高中生物学这一细分领域，旨在衡量模型在专业学科知识上的掌握程度。joey234/mmlu-high_school_biology-neg-prepend是在原始MMLU高中生物学子集基础上构建的变体，由研究人员通过引入否定前缀（neg-prepend）策略生成，用于探究语言模型在面对经过语义反转或干扰处理后的题目时的鲁棒性。该数据集包含310个测试样本和5个开发样本，每个样本均提供原始题目、否定化问题以及多种提示格式，为研究模型对否定语义的敏感性和对抗性干扰下的表现提供了关键资源，在推动语言模型稳健性评估方面具有重要价值。

当前挑战

该数据集所解决的领域问题主要围绕语言模型在知识问答中的鲁棒性挑战，即模型在原始题目上表现优异，但一旦对问题施加否定或语义反转等简单变换，其性能便显著下降，暴露出模型对语义细微变化的脆弱性。构建过程中，研究人员面临的核心挑战包括：如何设计合理的否定前缀策略以保持题目的语义完整性与可解性，同时确保否定化后的题目不引入歧义或错误信息；如何在保留原始答案分布的前提下生成多样化的负样本，避免模型通过模式匹配而非真正理解来作答；此外，还需在有限样本量（310个测试例）下平衡否定操作的强度与代表性，确保评估结果能够可靠反映模型在不同语义扰动下的泛化能力。

常用场景

经典使用场景

在自然语言处理与教育测评的交叉领域，joey234/mmlu-high_school_biology-neg-prepend数据集作为MMLU（Massive Multitask Language Understanding）的子集，专注于高中生物学知识的多选题评估。其经典使用场景在于检验大语言模型在生物学科上的理解与推理能力，通过引入否定提示（neg-prepend）机制，考察模型在对抗性干扰下的鲁棒性。研究者通常利用该数据集的测试集（包含310道题目）来评估模型对生物概念的记忆、逻辑判断以及上下文消歧能力，尤其在模型面对否定性改写问题时的表现，从而揭示其在知识检索与语义理解上的局限性。

解决学术问题

该数据集的核心学术价值在于解决大语言模型在特定学科领域中的脆弱性问题，尤其是对否定形式输入的敏感性。传统评估往往忽略语义翻转带来的挑战，而此数据集通过构造否定提示（neg_question、neg_prompt）与原始问题形成对照，系统性地探究模型是否真正理解生物知识抑或仅依赖表面模式。它帮助研究者量化模型在对抗样本下的性能衰减，并推动对模型推理机制、鲁棒性增强策略以及知识表征深度的理论探讨，为构建更可靠的教育AI系统提供了关键基准。

实际应用

在实际教育科技场景中，该数据集可用于开发智能辅导系统与自动化考试评测工具。例如，通过分析模型在否定提示下的错误模式，可设计针对性的自适应学习算法，帮助学习者识别概念混淆点。同时，它也被用于验证AI助教在生物学科答疑中的准确性，确保其能抵抗误导性问题的干扰。此外，教育机构可借助这一基准筛选更鲁棒的模型，以部署于在线题库生成、学情诊断等环节，提升教学评估的客观性与效率。

数据集最近研究