five

joey234/mmlu-abstract_algebra-neg-prepend-fix

收藏
Hugging Face2023-08-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joey234/mmlu-abstract_algebra-neg-prepend-fix
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: dev path: data/dev-* - split: test path: data/test-* dataset_info: features: - name: question dtype: string - name: choices sequence: string - name: answer dtype: class_label: names: '0': A '1': B '2': C '3': D - name: negate_openai_prompt struct: - name: content dtype: string - name: role dtype: string - name: neg_question dtype: string - name: fewshot_context dtype: string - name: ori_prompt dtype: string splits: - name: dev num_bytes: 4909 num_examples: 5 - name: test num_bytes: 196242 num_examples: 100 download_size: 11253 dataset_size: 201151 --- # Dataset Card for "mmlu-abstract_algebra-neg-prepend-fix" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

配置项: - 配置名称:default 数据文件: - 拆分集:dev 路径:data/dev-* - 拆分集:test 路径:data/test-* 数据集信息: 特征字段: - 字段名:question,数据类型:字符串 - 字段名:choices,数据类型:字符串序列 - 字段名:answer,数据类型: 类别标签: 映射关系: '0': A '1': B '2': C '3': D - 字段名:negate_openai_prompt,结构体类型: - 字段名:content,数据类型:字符串 - 字段名:role,数据类型:字符串 - 字段名:neg_question,数据类型:字符串 - 字段名:fewshot_context,数据类型:字符串 - 字段名:ori_prompt,数据类型:字符串 拆分集信息: - 拆分集名称:dev,占用字节数:4909,示例数量:5 - 拆分集名称:test,占用字节数:196242,示例数量:100 下载总大小:11253字节 数据集总大小:201151字节 --- # “mmlu-abstract_algebra-neg-prepend-fix”数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
joey234
原始信息汇总

数据集概述

数据集名称

mmlu-abstract_algebra-neg-prepend-fix

配置

  • 默认配置

数据文件

  • 开发集(dev): 路径为 data/dev-*
  • 测试集(test): 路径为 data/test-*

数据特征

  • question: 类型为字符串(string)
  • choices: 类型为字符串序列(sequence: string)
  • answer: 类型为类别标签(class_label),包含以下类别:
    • 0: A
    • 1: B
    • 2: C
    • 3: D
  • negate_openai_prompt: 结构化数据,包含以下字段:
    • content: 类型为字符串(string)
    • role: 类型为字符串(string)
  • neg_question: 类型为字符串(string)
  • fewshot_context: 类型为字符串(string)
  • ori_prompt: 类型为字符串(string)

数据集划分

  • 开发集(dev):
    • 字节数: 4909
    • 样本数: 5
  • 测试集(test):
    • 字节数: 196242
    • 样本数: 100

数据集大小

  • 下载大小: 11253 字节
  • 数据集大小: 201151 字节
搜集汇总
数据集介绍
main_image_url
构建方式
在抽象代数这一数学分支的背景下,该数据集基于MMLU基准测试中的抽象代数部分进行了重构。构建过程涉及对原始问题的否定性转换,通过引入否定性提示(negate_openai_prompt)和修正后的否定问题(neg_question)来增强数据的多样性。数据集分为开发集(dev)和测试集(test),分别包含5个和100个示例,每个示例包含问题、选项、答案及相关的提示信息,确保了数据结构的完整性和逻辑一致性。
特点
该数据集的核心特点在于其针对抽象代数领域的否定性处理机制,通过neg_question字段实现了问题的语义反转,为模型训练提供了更丰富的推理场景。数据集结构清晰,包含问题、多项选择、答案以及fewshot_context和ori_prompt等辅助字段,支持多模态学习任务。开发集规模较小,便于快速验证,而测试集则提供了充足的评估样本,有助于深入分析模型在复杂数学逻辑下的表现。
使用方法
在机器学习与自然语言处理领域,该数据集适用于评估模型在抽象代数问题上的推理能力,特别是对否定性语义的理解。用户可通过加载开发集进行初步测试,利用fewshot_context和negate_openai_prompt字段优化提示工程策略,再通过测试集进行系统性评估。数据集支持标准的数据处理流程,可直接集成到训练框架中,为研究数学逻辑和模型泛化性能提供可靠基准。
背景与挑战
背景概述
在人工智能与自然语言处理领域,大规模多任务语言理解(MMLU)数据集已成为评估模型综合认知能力的重要基准。该数据集由研究人员于2020年提出,旨在通过涵盖数学、科学、人文等57个学科的多选题,系统检验模型的知识广度与推理深度。其中,抽象代数作为数学分支,其问题往往涉及高度形式化的符号逻辑与概念关联,对模型的抽象思维与结构化理解提出了严峻考验。MMLU-抽象代数子集的构建,不仅推动了模型在专业领域的性能评估,也为探索人工智能的符号推理边界提供了关键数据支撑。
当前挑战
MMLU-抽象代数数据集所应对的核心挑战在于模型对高度抽象数学概念的精准理解与逻辑推演。传统语言模型往往依赖表面语义模式,难以处理代数结构中隐含的公理系统与证明链条,导致在符号运算、定理应用等任务上表现受限。数据构建过程中,挑战同样显著:专业领域知识的标注需依赖数学专家,确保问题与选项的严谨性;同时,为增强模型鲁棒性,数据集中引入了否定改写与提示工程,如“neg_question”与“negate_openai_prompt”字段的设计,这要求对原始问题进行语义反转而不失逻辑一致性,增加了数据清洗与验证的复杂度。
常用场景
经典使用场景
在抽象代数这一数学分支中,评估大型语言模型的推理与知识掌握能力是当前人工智能研究的热点。该数据集通过提供精心设计的否定形式问题,为研究者构建了一个标准化的测试平台。经典使用场景集中于模型在抽象代数概念上的零样本或少样本学习性能评估,例如群论、环论等核心主题的多项选择题解答。这种设置不仅检验模型对专业术语的理解,还深入探究其逻辑推理的鲁棒性,尤其在面对语义转换或否定表述时的表现。
实际应用
在实际应用层面,该数据集为开发教育辅助工具和专业知识问答系统提供了关键的训练与评估资源。例如,在智能辅导系统中,可利用此类数据来构建能够处理抽象代数疑问、甚至识别学生常见概念误解的AI模块。同时,它也为需要高可靠性专业知识的领域,如自动定理证明的辅助工具或科研文献分析系统,提供了验证其推理准确性的基准,从而降低应用风险并提升实用性。
衍生相关工作
围绕该数据集衍生的经典工作,主要集中在提升模型在STEM领域复杂推理的性能上。研究者们利用其独特的否定提示结构,开发了针对性的提示工程方法、对抗性训练策略以及模型微调技术。这些工作进一步催生了更广泛的学科知识基准测试,并启发了对模型校准、幻觉现象以及知识表征的深入分析,形成了从特定领域评估到通用推理能力改进的研究脉络。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作