GSM-Plus
收藏数据集描述
GSM-Plus 旨在通过测试广泛的题目变化来评估大型语言模型(LLMs)的数学推理能力的鲁棒性。GSM-Plus 是一个对抗性的基础数学数据集,是 GSM8K 的扩展,增加了各种数学扰动。受波利亚解决数学问题能力分类原则的启发,我们确定了五个角度来指导 GSM-PLUS 的开发:
- 数值变化:指改变数值数据或其类型。我们定义了三种数值变化的子类别:数值替换、数字扩展和整数-小数-分数转换。
- 算术变化:指反转或引入额外的运算,如加法、减法、乘法和除法,到数学问题中。我们定义了两种算术变化的子类别:反转操作和添加操作。
- 问题理解:指重新表述数学问题的文本描述。
- 干扰项插入:指插入与主题相关但无用的句子到问题中。
- 批判性思维:关注当问题缺乏必要陈述时的质疑能力。
基于 GSM8K 的 1,319 个测试问题,我们为每个问题创建了八种变化,从而产生了包含 10,552 个问题变化的 GSM-PLUS。
数据集使用
python from datasets import load_dataset
dataset = load_dataset("qintongli/GSM-Plus")
以下是如何访问下载的数据集的示例: python
打印第一个示例
print(dataset["test"][0]) print(dataset["test"][0][question]) # 问题变化 print(dataset["test"][0][solution]) # 问题变化的推理链 print(dataset["test"][0][answer]) # 问题变化的数值答案 print(dataset["test"][0][perturbation_type]) # 变化的扰动类型 print(dataset["test"][0][seed_question]) # GSM8K 标准测试集中的问题 print(dataset["test"][0][seed_solution]) # GSM8K 问题的推理链 print(dataset["test"][0][seed_answer]) # GSM8K 变化的数值答案
许可证
我们数据集的新贡献遵循 CC BY-SA 4.0 许可证,包括:
- 创建八种类型的题目变化;
- 评估目的的标准实例化。
该数据集主要设计为测试集使用。虽然它可以用于商业测试目的,但其作为训练集的使用是被禁止的。通过访问或使用此数据集,您承认并同意遵守这些条款以及 CC BY-SA 4.0 许可证。
引用
如果您在工作中使用了 GSM-Plus 数据集,请使用以下 BibTeX 引用论文:
@inproceedings{li2024gsm, title={GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers}, author={Li, Qintong and Cui, Leyang and Zhao, Xueliang and Kong, Lingpeng and Bi, Wei}, journal={Association for Computational Linguistics (ACL)}, year={2024} }




