five

GSM-Plus

收藏
Hugging Face2024-07-05 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/qintongli/GSM-Plus
下载链接
链接失效反馈
官方服务:
资源简介:
GSM-Plus数据集旨在通过测试广泛的题目变体来评估大型语言模型(LLMs)的数学推理能力的鲁棒性。它是GSM8K的扩展,增加了各种数学扰动。数据集的开发基于Polya的解题原则中提到的能力分类,确定了五个指导开发的角度:数值变化、算术变化、问题理解、干扰项插入和批判性思维。基于GSM8K的1,319个测试问题,每个问题创建了八种变体,最终GSM-Plus包含10,552个问题变体。数据集主要设计为测试集,禁止用作训练集。
创建时间:
2024-07-04
原始信息汇总

数据集描述

GSM-Plus 旨在通过测试广泛的题目变化来评估大型语言模型(LLMs)的数学推理能力的鲁棒性。GSM-Plus 是一个对抗性的基础数学数据集,是 GSM8K 的扩展,增加了各种数学扰动。受波利亚解决数学问题能力分类原则的启发,我们确定了五个角度来指导 GSM-PLUS 的开发:

  1. 数值变化:指改变数值数据或其类型。我们定义了三种数值变化的子类别:数值替换、数字扩展和整数-小数-分数转换。
  2. 算术变化:指反转或引入额外的运算,如加法、减法、乘法和除法,到数学问题中。我们定义了两种算术变化的子类别:反转操作和添加操作。
  3. 问题理解:指重新表述数学问题的文本描述。
  4. 干扰项插入:指插入与主题相关但无用的句子到问题中。
  5. 批判性思维:关注当问题缺乏必要陈述时的质疑能力。

基于 GSM8K 的 1,319 个测试问题,我们为每个问题创建了八种变化,从而产生了包含 10,552 个问题变化的 GSM-PLUS。

数据集使用

python from datasets import load_dataset

dataset = load_dataset("qintongli/GSM-Plus")

以下是如何访问下载的数据集的示例: python

打印第一个示例

print(dataset["test"][0]) print(dataset["test"][0][question]) # 问题变化 print(dataset["test"][0][solution]) # 问题变化的推理链 print(dataset["test"][0][answer]) # 问题变化的数值答案 print(dataset["test"][0][perturbation_type]) # 变化的扰动类型 print(dataset["test"][0][seed_question]) # GSM8K 标准测试集中的问题 print(dataset["test"][0][seed_solution]) # GSM8K 问题的推理链 print(dataset["test"][0][seed_answer]) # GSM8K 变化的数值答案

许可证

我们数据集的新贡献遵循 CC BY-SA 4.0 许可证,包括:

  • 创建八种类型的题目变化;
  • 评估目的的标准实例化。

该数据集主要设计为测试集使用。虽然它可以用于商业测试目的,但其作为训练集的使用是被禁止的。通过访问或使用此数据集,您承认并同意遵守这些条款以及 CC BY-SA 4.0 许可证。

引用

如果您在工作中使用了 GSM-Plus 数据集,请使用以下 BibTeX 引用论文:

@inproceedings{li2024gsm, title={GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers}, author={Li, Qintong and Cui, Leyang and Zhao, Xueliang and Kong, Lingpeng and Bi, Wei}, journal={Association for Computational Linguistics (ACL)}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
GSM-Plus数据集旨在评估大型语言模型在数学推理能力上的鲁棒性,通过引入多种数学扰动扩展了GSM8K数据集。基于Polya的数学问题解决能力分类,研究者从五个角度设计了扰动类型:数值变化、算术变化、问题理解、干扰项插入和批判性思维。每个GSM8K的1,319个测试问题被生成了八种变体,最终形成了包含10,552个问题变体的GSM-Plus数据集。
特点
GSM-Plus数据集的特点在于其多样化的数学问题变体,涵盖了数值替换、数字扩展、整数-小数-分数转换等数值变化,以及操作反转和操作添加等算术变化。此外,问题描述的重新表述、干扰项的插入以及对问题陈述不足的批判性思考,进一步增强了数据集的复杂性和挑战性。这些特点使得GSM-Plus成为评估模型在复杂数学推理任务中表现的有力工具。
使用方法
使用GSM-Plus数据集时,可以通过Hugging Face的`datasets`库加载数据。加载后,用户可以访问每个问题的变体、推理链、数值答案以及扰动类型等信息。数据集主要用于测试目的,禁止用于训练。通过打印示例数据,用户可以直观了解数据结构和内容,从而为模型评估提供支持。
背景与挑战
背景概述
GSM-Plus数据集于2024年由Qintong Li等人提出,旨在评估大型语言模型(LLMs)在数学推理任务中的鲁棒性。该数据集基于GSM8K数据集,通过引入多种数学扰动扩展而成,涵盖了数值变化、算术变化、问题理解、干扰项插入和批判性思维五个维度。这些扰动策略源自Polya的数学问题解决原则,旨在全面测试模型在不同数学问题变体中的表现。GSM-Plus包含10,552个问题变体,为研究LLMs在复杂数学推理任务中的能力提供了重要基准。该数据集由多个知名研究机构共同开发,并在计算语言学领域产生了广泛影响。
当前挑战
GSM-Plus数据集的核心挑战在于如何全面评估LLMs在数学推理任务中的鲁棒性。首先,数值变化和算术变化要求模型能够处理不同类型的数据和操作,这对模型的泛化能力提出了较高要求。其次,问题理解和干扰项插入测试了模型对文本信息的准确解析能力,尤其是在面对冗余或误导性信息时的表现。此外,批判性思维维度的引入进一步增加了问题的复杂性,要求模型能够识别问题中的逻辑缺陷。在数据构建过程中,如何确保扰动策略的科学性和多样性,以及如何保持问题变体与原始问题的一致性,也是构建团队面临的主要技术挑战。
常用场景
经典使用场景
GSM-Plus数据集主要用于评估大型语言模型(LLMs)在数学推理任务中的鲁棒性。通过对GSM8K数据集中的数学问题进行多种形式的扰动,如数值变化、算术变化、问题理解、干扰项插入和批判性思维等,GSM-Plus生成了10,552个问题变体。这些变体能够全面测试模型在不同数学情境下的表现,特别是在面对复杂或非标准问题时,模型的推理能力和适应性。
解决学术问题
GSM-Plus数据集解决了大型语言模型在数学推理任务中的鲁棒性评估问题。通过引入多种扰动类型,该数据集能够揭示模型在处理数值变化、算术操作调整、问题重述、干扰信息插入以及批判性思维等方面的能力。这种多维度的评估方法为研究者提供了更全面的模型性能分析工具,有助于推动数学推理领域的模型优化和理论发展。
衍生相关工作
GSM-Plus数据集的发布推动了多个相关研究领域的发展。基于该数据集,研究者们开发了多种针对数学推理任务的模型优化方法,如对抗训练、多任务学习和鲁棒性增强技术。此外,该数据集还激发了关于数学问题生成和评估标准的研究,为后续的数学推理数据集设计提供了重要参考。这些工作不仅提升了模型的数学推理能力,也为教育技术领域的创新奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作