five

joey234/mmlu-abstract_algebra-original-neg-prepend

收藏
Hugging Face2023-05-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joey234/mmlu-abstract_algebra-original-neg-prepend
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: question dtype: string - name: choices sequence: string - name: answer dtype: class_label: names: '0': A '1': B '2': C '3': D - name: neg_prompt dtype: string splits: - name: test num_bytes: 2949 num_examples: 7 download_size: 5157 dataset_size: 2949 --- # Dataset Card for "mmlu-abstract_algebra-original-neg-prepend" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- ## 数据集信息 ### 特征字段 1. **问题(question)**:数据类型为字符串(string) 2. **选项(choices)**:数据类型为字符串序列 3. **答案(answer)**:数据类型为类别标签(class_label),标签映射关系为:`0`对应A,`1`对应B,`2`对应C,`3`对应D 4. **负向提示词(neg_prompt)**:数据类型为字符串(string) ### 数据集划分 仅包含测试集(test),该划分占用字节数为2949,共包含7条示例数据。 ### 数据集规模 整体下载大小为5157字节,解压后数据集本体总大小为2949字节。 --- # "mmlu-抽象代数-原始负向前置(mmlu-abstract_algebra-original-neg-prepend)"数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
joey234
原始信息汇总

数据集概述

数据集名称

mmlu-abstract_algebra-original-neg-prepend

数据特征

  • question: 字符串类型
  • choices: 字符串序列
  • answer: 分类标签类型,具体标签映射如下:
    • 0: A
    • 1: B
    • 2: C
    • 3: D
  • neg_prompt: 字符串类型

数据分割

  • test:
    • 数据量: 2949 字节
    • 示例数量: 7

数据集大小

  • 下载大小: 5157 字节
  • 数据集总大小: 2949 字节
搜集汇总
数据集介绍
main_image_url
构建方式
在抽象代数这一数学分支的评估背景下,该数据集基于MMLU基准测试中的抽象代数子集构建而成。其构建方式是通过保留原始问答对,并在每个问题前添加一个否定性提示(neg_prompt),从而形成一种对抗性测试样本。数据集中包含7个测试样本,每个样本由问题(question)、四个选项(choices)、正确答案(answer)以及否定提示(neg_prompt)组成,旨在检验模型在面对误导性上下文时的推理鲁棒性。
特点
该数据集的核心特点在于其精巧的对抗性设计。通过引入否定提示,它模拟了现实场景中可能存在的歧义或误导信息,从而评估模型是否能在干扰下仍保持准确的抽象代数知识应用能力。此外,数据集规模虽小但高度聚焦,仅包含7个精心挑选的样本,覆盖了抽象代数中的关键概念,使得评估结果具有明确的诊断价值,适合用于深入分析模型在特定数学领域的脆弱性。
使用方法
使用方法上,该数据集主要用于评估语言模型在抽象代数问题上的推理稳健性。用户可直接加载测试集,将每个样本中的'question'和'choices'字段作为输入,同时将'neg_prompt'拼接到问题之前以构建完整的提示,然后要求模型从A到D四个选项中选择正确答案。模型的预测结果可与'answer'字段中的标准答案进行比对,从而量化其在否定性提示下的表现,适用于模型鲁棒性测试或对抗性训练研究。
背景与挑战
背景概述
抽象代数作为数学的核心分支,其研究涉及群、环、域等代数结构,是人工智能领域知识推理与逻辑建模的重要基石。joey234/mmlu-abstract_algebra-original-neg-prepend数据集由研究人员基于大规模多任务语言理解基准(MMLU)构建,专注于抽象代数子领域,创建时间可追溯至2024年。该数据集的核心研究问题在于评估语言模型对抽象代数概念的理解与推理能力,特别是在引入否定提示(neg_prompt)后模型表现的鲁棒性。尽管该数据集仅包含7个测试样本,但其设计旨在探索提示工程对模型性能的微妙影响,为后续更复杂数学推理任务的数据集构建提供了方法论参考,在评估高阶认知任务的领域内具有探索性价值。
当前挑战
该数据集面临的挑战首先体现在领域问题的复杂性上:抽象代数要求模型具备符号操作与公理推导能力,而现有语言模型对形式化数学推理的掌握仍显薄弱,尤其是在处理否定性上下文时容易产生逻辑混淆。此外,构建过程中的核心挑战在于数据稀缺性——抽象代数的高阶性质导致高质量标注样本难以获取,仅7个示例的测试集难以全面评估模型能力,可能引入统计偏差。同时,否定提示的引入增加了构造难度,需要确保提示语义与原始问题逻辑一致,避免误导性关联。这些挑战共同制约了数据集在泛化性评估和鲁棒性测试中的应用潜力。
常用场景
经典使用场景
该数据集聚焦于抽象代数领域的多项选择问题,是MMLU(Massive Multitask Language Understanding)基准测试的一个子集。其经典使用场景在于评估大规模语言模型在专业数学推理任务中的表现,通过提供包含原始问题、候选选项及正确答案的结构化数据,研究者可系统性地测试模型对抽象代数概念的理解能力。数据集特色在于引入负向提示(neg_prompt),旨在探究模型在面对错误诱导信息时的鲁棒性与判别力,从而揭示语言模型在形式化数学知识推理中的潜在缺陷。
实际应用
在实际应用中,该数据集可服务于教育科技领域,用于开发智能辅导系统或自适应学习平台。通过评估模型对抽象代数问题的解答能力,开发者能够优化数学问答助手的提示策略,降低模型被误导性输入(如负向提示)带偏的风险。此外,其评估框架可迁移至自动化试题生成、学术论文审校等场景,确保算法在专业数学文本处理中保持逻辑一致性,进而提升高等教育数字化工具的实用性与可信度。
衍生相关工作
该数据集衍生出一系列围绕MMLU子集对抗性评估的经典工作,例如通过对比原始提示与负向提示下的模型表现,研究者提出了提示工程优化方法(如对抗性前缀调整)来增强模型鲁棒性。相关工作还拓展至跨学科知识迁移分析,探索抽象代数推理能力如何影响模型在其他数学分支(如线性代数、数论)上的表现。此外,该数据集催生了针对小样本学习场景的元评估研究,推动了低资源领域语言模型泛化能力的理论创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作