joey234/mmlu-high_school_biology-neg-prepend
收藏Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joey234/mmlu-high_school_biology-neg-prepend
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: question
dtype: string
- name: choices
sequence: string
- name: answer
dtype:
class_label:
names:
'0': A
'1': B
'2': C
'3': D
- name: negate_openai_prompt
struct:
- name: content
dtype: string
- name: role
dtype: string
- name: neg_question
dtype: string
- name: fewshot_context
dtype: string
- name: ori_prompt
dtype: string
- name: neg_prompt
dtype: string
- name: fewshot_context_neg
dtype: string
- name: fewshot_context_ori
dtype: string
splits:
- name: dev
num_bytes: 8554
num_examples: 5
- name: test
num_bytes: 3104302
num_examples: 310
download_size: 323194
dataset_size: 3112856
configs:
- config_name: default
data_files:
- split: dev
path: data/dev-*
- split: test
path: data/test-*
---
# Dataset Card for "mmlu-high_school_biology-neg-prepend"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
joey234
原始信息汇总
数据集概述
数据集名称
mmlu-high_school_biology-neg-prepend
数据集特征
- question: 数据类型为字符串。
- choices: 数据类型为序列字符串。
- answer: 数据类型为分类标签,具体标签为:
- 0: A
- 1: B
- 2: C
- 3: D
- negate_openai_prompt: 结构化数据,包含:
- content: 数据类型为字符串。
- role: 数据类型为字符串。
- neg_question: 数据类型为字符串。
- fewshot_context: 数据类型为字符串。
- ori_prompt: 数据类型为字符串。
- neg_prompt: 数据类型为字符串。
- fewshot_context_neg: 数据类型为字符串。
- fewshot_context_ori: 数据类型为字符串。
数据集分割
- dev: 包含5个样本,占用8554字节。
- test: 包含310个样本,占用3104302字节。
数据集大小
- 下载大小: 323194字节
- 数据集总大小: 3112856字节
配置文件
- config_name: default
- data_files:
- split: dev, path: data/dev-*
- split: test, path: data/test-*
搜集汇总
数据集介绍

构建方式
该数据集基于MMLU(Massive Multitask Language Understanding)基准测试中的高中生物学子集构建而成。在原始数据的基础上,通过引入否定前缀的预处理策略,对每个问题生成对应的否定版本(neg_question),并构造包含否定上下文的提示词(neg_prompt与ori_prompt),从而形成一套用于评估语言模型在否定推理情境下理解能力的测试样本。数据集包含dev和test两个划分,其中dev集有5个示例,test集有310个示例。
使用方法
使用时,可通过HuggingFace的datasets库加载该数据集,并依据neg_prompt或ori_prompt字段作为模型输入,结合choices字段中的选项进行推理。推荐在评估时对比模型对原始提示与否定提示的响应差异,以量化其否定敏感性。数据集已预定义dev与test划分,可直接用于少样本微调或零样本评估实验,无需额外分割。
背景与挑战
背景概述
大规模多任务语言理解(MMLU)基准测试自2020年由OpenAI等机构提出以来,已成为评估语言模型知识广度和推理能力的重要标杆。该数据集聚焦于高中生物学这一细分领域,旨在衡量模型在专业学科知识上的掌握程度。joey234/mmlu-high_school_biology-neg-prepend是在原始MMLU高中生物学子集基础上构建的变体,由研究人员通过引入否定前缀(neg-prepend)策略生成,用于探究语言模型在面对经过语义反转或干扰处理后的题目时的鲁棒性。该数据集包含310个测试样本和5个开发样本,每个样本均提供原始题目、否定化问题以及多种提示格式,为研究模型对否定语义的敏感性和对抗性干扰下的表现提供了关键资源,在推动语言模型稳健性评估方面具有重要价值。
当前挑战
该数据集所解决的领域问题主要围绕语言模型在知识问答中的鲁棒性挑战,即模型在原始题目上表现优异,但一旦对问题施加否定或语义反转等简单变换,其性能便显著下降,暴露出模型对语义细微变化的脆弱性。构建过程中,研究人员面临的核心挑战包括:如何设计合理的否定前缀策略以保持题目的语义完整性与可解性,同时确保否定化后的题目不引入歧义或错误信息;如何在保留原始答案分布的前提下生成多样化的负样本,避免模型通过模式匹配而非真正理解来作答;此外,还需在有限样本量(310个测试例)下平衡否定操作的强度与代表性,确保评估结果能够可靠反映模型在不同语义扰动下的泛化能力。
常用场景
经典使用场景
在自然语言处理与教育测评的交叉领域,joey234/mmlu-high_school_biology-neg-prepend数据集作为MMLU(Massive Multitask Language Understanding)的子集,专注于高中生物学知识的多选题评估。其经典使用场景在于检验大语言模型在生物学科上的理解与推理能力,通过引入否定提示(neg-prepend)机制,考察模型在对抗性干扰下的鲁棒性。研究者通常利用该数据集的测试集(包含310道题目)来评估模型对生物概念的记忆、逻辑判断以及上下文消歧能力,尤其在模型面对否定性改写问题时的表现,从而揭示其在知识检索与语义理解上的局限性。
解决学术问题
该数据集的核心学术价值在于解决大语言模型在特定学科领域中的脆弱性问题,尤其是对否定形式输入的敏感性。传统评估往往忽略语义翻转带来的挑战,而此数据集通过构造否定提示(neg_question、neg_prompt)与原始问题形成对照,系统性地探究模型是否真正理解生物知识抑或仅依赖表面模式。它帮助研究者量化模型在对抗样本下的性能衰减,并推动对模型推理机制、鲁棒性增强策略以及知识表征深度的理论探讨,为构建更可靠的教育AI系统提供了关键基准。
实际应用
在实际教育科技场景中,该数据集可用于开发智能辅导系统与自动化考试评测工具。例如,通过分析模型在否定提示下的错误模式,可设计针对性的自适应学习算法,帮助学习者识别概念混淆点。同时,它也被用于验证AI助教在生物学科答疑中的准确性,确保其能抵抗误导性问题的干扰。此外,教育机构可借助这一基准筛选更鲁棒的模型,以部署于在线题库生成、学情诊断等环节,提升教学评估的客观性与效率。
数据集最近研究
最新研究方向
在人工智能与教育测评的交叉领域,joey234/mmlu-high_school_biology-neg-prepend数据集聚焦于大语言模型在高中生物学科上的鲁棒性评估。该数据集通过引入否定性前缀(neg-prepend)构造对抗样本,模拟模型在面对逻辑反转或误导性提示时的真实表现,成为研究模型推理脆弱性的关键工具。当前前沿方向集中在利用此类数据集揭示模型对上下文语义的过度依赖,以及如何通过负样本训练提升模型的抗干扰能力。这一方向与AI安全、可信赖人工智能等热点事件紧密相连,尤其在教育科技应用中,确保模型在复杂提问下仍能输出准确答案具有深远意义。该数据集的引入推动了从单纯准确率评测向认知健壮性评测的范式转变,为构建更稳健的智能辅导系统奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



