joey234/mmlu-high_school_biology-neg-prepend-fix

Name: joey234/mmlu-high_school_biology-neg-prepend-fix
Creator: joey234
Published: 2023-08-21 07:34:53
License: 暂无描述

Hugging Face2023-08-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/joey234/mmlu-high_school_biology-neg-prepend-fix

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: dev path: data/dev-* - split: test path: data/test-* dataset_info: features: - name: question dtype: string - name: choices sequence: string - name: answer dtype: class_label: names: '0': A '1': B '2': C '3': D - name: negate_openai_prompt struct: - name: content dtype: string - name: role dtype: string - name: neg_question dtype: string - name: fewshot_context dtype: string - name: ori_prompt dtype: string splits: - name: dev num_bytes: 6848 num_examples: 5 - name: test num_bytes: 953604 num_examples: 310 download_size: 15677 dataset_size: 960452 --- # Dataset Card for "mmlu-high_school_biology-neg-prepend-fix" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 配置项： - 配置名称：default 数据文件： - 数据集划分：dev 路径：data/dev-* - 数据集划分：test 路径：data/test-* 数据集信息：特征字段： - 字段名：question 数据类型：字符串 - 字段名：choices 数据类型：字符串序列 - 字段名：answer 数据类型：类别标签：标签映射： '0': A '1': B '2': C '3': D - 字段名：negate_openai_prompt 结构体类型： - 字段名：content 数据类型：字符串 - 字段名：role 数据类型：字符串 - 字段名：neg_question 数据类型：字符串 - 字段名：fewshot_context 数据类型：字符串 - 字段名：ori_prompt 数据类型：字符串数据集划分详情： - 划分名称：dev 总字节数：6848 样本数量：5 - 划分名称：test 总字节数：953604 样本数量：310 下载总大小：15677 数据集总存储大小：960452 --- # 「mmlu-high_school_biology-neg-prepend-fix」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

joey234

原始信息汇总

数据集概述

数据集名称

名称: mmlu-high_school_biology-neg-prepend-fix

数据集配置

默认配置: default
- 数据文件:
  - dev: data/dev-*
  - test: data/test-*

数据集特征

特征列表:
- question: 字符串类型
- choices: 字符串序列
- answer: 类别标签类型，选项包括 A, B, C, D
- negate_openai_prompt: 结构体类型
  - content: 字符串类型
  - role: 字符串类型
- neg_question: 字符串类型
- fewshot_context: 字符串类型
- ori_prompt: 字符串类型

数据集分割

分割信息:
- dev:
  - 字节数: 6848
  - 样本数: 5
- test:
  - 字节数: 953604
  - 样本数: 310

数据集大小

下载大小: 15677 字节
数据集大小: 960452 字节

搜集汇总

数据集介绍

构建方式

在生物学教育评估领域，该数据集基于MMLU（大规模多任务语言理解）框架中的高中生物学子集构建。原始题目经过系统性的否定转换处理，通过引入否定前缀对问题表述进行重构，生成对应的否定版本。构建过程中，每个原始问题均被映射为带有否定语义的变体，同时保留了原有的选择题结构与答案选项。数据划分遵循标准评估协议，包含开发集与测试集，确保模型在对抗性语义转换下的稳健性评估。

使用方法

使用该数据集时，研究者可将其作为评估语言模型科学推理能力的基准工具，特别适用于检验模型在语义反转情境下的稳定性。开发集可用于超参数调优与提示设计，测试集则用于最终性能评估。典型流程包括加载标准化数据分割、解析问题与选项字段、结合附带的提示模板构建输入，并计算模型在否定问题上的准确率。该数据集兼容HuggingFace生态，可直接通过datasets库加载，支持与现有MMLU评估框架的无缝集成。

背景与挑战

背景概述

在人工智能与自然语言处理领域，大规模多任务语言理解（MMLU）数据集已成为评估模型综合认知能力的重要基准。该数据集衍生于MMLU框架，专注于高中生物学知识，由研究团队于近年构建，旨在探究语言模型在专业学科知识上的推理与理解能力。其核心研究问题聚焦于模型如何应对科学领域的复杂问答任务，通过引入否定性提示与修正机制，深化了对模型鲁棒性与逻辑一致性的考察，为教育技术与认知计算领域提供了关键的数据支持。

当前挑战

该数据集所解决的领域问题在于评估语言模型在专业学科知识问答中的表现，挑战包括模型需准确处理生物学概念的多义性与逻辑关联，同时抵抗误导性提示的干扰。构建过程中的挑战涉及高质量否定性问题的生成，需确保语义反转的严谨性以避免引入偏差，以及数据标注的学科专业性要求高，需依赖领域专家进行验证，以维持数据集的科学性与可靠性。

常用场景

经典使用场景

在生物教育评估与人工智能交叉领域，该数据集作为MMLU基准的衍生变体，其经典使用场景聚焦于评估大型语言模型在高中生物学知识理解与推理方面的能力。通过提供包含否定性提示的标准化多项选择题，研究者能够系统测试模型对复杂生物学概念的掌握程度，考察其在面对语义转换和逻辑干扰时的稳健性。这种设计不仅模拟了真实教育评估环境，还为模型性能的细粒度分析提供了结构化框架，成为衡量AI系统学科素养的关键工具。

解决学术问题

该数据集有效解决了人工智能领域中对模型学科知识深度评估的若干核心问题。传统评估往往局限于表面准确率，而本数据集通过引入否定性提示重构问题，迫使模型必须理解生物学概念的实质内涵而非依赖表面模式匹配。这为研究模型的知识表征质量、逻辑推理能力以及抗干扰性能提供了精准测量工具，推动了可解释AI在教育领域的深入发展，并为构建真正具备学科思维能力的AI系统奠定了评估基础。

实际应用

在实际应用层面，该数据集为智能教育系统的开发提供了重要支撑。基于其构建的评估框架可直接用于优化教育类AI助手的知识检索与答疑能力，确保输出内容的科学准确性。同时，数据集揭示的模型认知偏差可为自适应学习平台的设计提供参考，帮助开发者创建更贴合学生思维特点的交互系统。在生物学科普与在线教育质量监控领域，此类数据驱动的评估方法正逐步成为保障内容可靠性的标准实践。

数据集最近研究