SVAMP

github2021-03-01 更新2025-02-08 收录

下载链接：

https://github.com/arkilpatel/SVAMP

下载链接

链接失效反馈

资源简介：

在解决基础应用数学问题时，模型往往主要依赖于浅层启发式方法，而非进行深度推理。因此，一个更具挑战性且经过可靠评估的SVAMP数据集被引入。该数据集改编自现有的数据集，用于评估模型在数学问题解决和推理能力方面的敏感性，其难度保持在相当于小学四年级的水平。

In addressing fundamental applied mathematical problems, models typically rely predominantly on shallow heuristic methods rather than in-depth reasoning. Consequently, a more challenging and reliably evaluated SVAMP dataset has been introduced. This dataset is adapted from existing datasets and is designed to assess the sensitivity of models in terms of their problem-solving and reasoning capabilities, maintaining a difficulty level equivalent to that of a fourth-grade elementary school student.

提供机构：

Microsoft Research India

创建时间：

2021-03-01

原始信息汇总

SVAMP数据集概述

数据集背景

研究领域：数学应用题(MWP)求解
研究问题：现有NLP模型在简单数学应用题上的真实解决能力
创建动机：发现现有基准数据集(ASDiv-A和MAWPS)存在缺陷，模型可能依赖浅层启发式方法获得高准确率

数据集特点

名称：SVAMP(SVAMP.json)
数据量：1000个样本
挑战性：通过多种变体测试模型在MWP求解的不同方面表现
测试维度：
- 问题敏感性
- 鲁棒推理能力
- 结构变化不变性

数据文件结构

SVAMP/data/cv_asdiv-a：ASDiv-A的5折交叉验证分割
SVAMP/data/cv_asdiv-a_without_questions：测试集去除问题的ASDiv-A
SVAMP/data/cv_mawps：MAWPS的5折交叉验证分割
SVAMP/data/cv_mawps_without_questions：测试集去除问题的MAWPS
SVAMP/data/mawps-asdiv-a_svamp：
- 训练集：MAWPS+ASDiv-A(2373+1218)
- 测试集：SVAMP(1000)
SVAMP/data/mawps-asdiv-a_svamp_without_questions：测试集去除问题的SVAMP
SVAMP/data/cv_svamp_augmented：MAWPS+ASDiv-A+SVAMP的5折交叉验证

模型实现

RNN Seq2Seq
- 基础编码器-解码器+注意力网络
- 可选RNN单元：LSTM/GRU/RNN
Transformer Seq2Seq
- 基础Transformer网络
GTS
- RNN编码器+基于树的解码器
Graph2Tree
- 基于图的编码器+基于树的解码器
Constrained Model
- 前馈网络+LSTM解码器

引用信息

bibtex @inproceedings{patel-etal-2021-nlp, title = "Are {NLP} Models really able to Solve Simple Math Word Problems?", author = "Patel, Arkil and Bhattamishra, Satwik and Goyal, Navin", booktitle = "Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies", month = jun, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.naacl-main.168", doi = "10.18653/v1/2021.naacl-main.168", pages = "2080--2094" }

搜集汇总

数据集介绍

构建方式

SVAMP数据集的构建旨在解决现有数学应用题（MWP）基准数据集中的缺陷。研究者通过对ASDiv-A和MAWPS数据集的分析，发现现有模型在测试时即使移除问题部分，仍能取得较高的准确率。为了更全面地评估自动解题模型的性能，SVAMP数据集通过精心设计的变体生成，涵盖了不同方面的解题能力测试，如问题敏感性、推理能力以及对结构变化的鲁棒性。数据集的构建基于对现有数据集的采样和修改，确保了其多样性和挑战性。

特点

SVAMP数据集的特点在于其多样性和挑战性。该数据集包含1000个数学应用题，旨在测试模型在不同情境下的解题能力。每个问题都经过精心设计，以确保模型不仅依赖于浅层启发式方法，而是真正理解问题的语义和结构。SVAMP数据集特别关注模型对问题的敏感性、推理能力以及对结构变化的鲁棒性，从而提供了一个更为严格的评估平台。此外，数据集还提供了多种变体，如移除问题部分的数据集，以进一步验证模型的性能。

使用方法

SVAMP数据集的使用方法灵活多样，适用于多种模型的训练和评估。用户可以通过命令行参数配置实验，运行不同模型进行交叉验证。例如，使用Seq2Seq模型对ASDiv-A数据集进行交叉验证时，用户需在指定目录下运行相应的Python脚本，并设置相关参数。数据集的使用还支持多种模型架构，如RNN、Transformer、GTS和Graph2Tree等，用户可以根据需求选择合适的模型进行实验。此外，数据集提供了详细的文件结构和数据描述，便于用户快速上手并进行扩展研究。

背景与挑战

背景概述

SVAMP数据集由Arkil Patel、Satwik Bhattamishra和Navin Goyal等研究人员于2021年创建，旨在解决自然语言处理（NLP）模型在解决简单数学应用题（MWPs）时的性能评估问题。该数据集在NAACL 2021会议上首次亮相，其核心研究问题在于揭示现有模型在解决MWPs时依赖浅层启发式方法的现象。通过对ASDiv-A和MAWPS等现有数据集的深入分析，研究人员发现这些数据集在评估模型性能时存在显著缺陷，导致模型表现被高估。SVAMP的创建为更稳健的MWP求解器评估提供了新的基准，推动了NLP领域对数学问题求解的深入研究。

当前挑战

SVAMP数据集面临的挑战主要体现在两个方面。首先，现有MWP求解器在基准数据集上表现优异，但这些模型往往依赖浅层启发式方法，而非真正的推理能力。SVAMP通过引入多样化的测试样例，揭示了模型在问题敏感性、推理能力和结构变化不变性等方面的不足。其次，构建SVAMP数据集时，研究人员需精心设计样例，确保其能够全面测试模型的各项能力，同时避免引入偏差。这一过程不仅要求对现有数据集的深入理解，还需在数据生成和标注过程中保持高度的严谨性，以确保数据集的科学性和实用性。

常用场景

经典使用场景

SVAMP数据集主要用于评估自然语言处理（NLP）模型在解决简单数学文字问题（MWPs）时的能力。通过提供一系列经过精心设计的数学问题，SVAMP能够测试模型是否能够理解问题的语义、进行逻辑推理，并在面对结构变化时保持稳定的表现。这一数据集特别适用于研究模型在处理基础数学问题时的鲁棒性和泛化能力。

衍生相关工作

SVAMP数据集的发布激发了大量相关研究，尤其是在数学文字问题求解领域。基于SVAMP，研究者提出了多种改进模型，如基于图神经网络的编码器-解码器架构和约束模型，这些模型在SVAMP上的表现显著优于传统方法。此外，SVAMP还促进了跨领域研究，如将数学推理与常识推理相结合，进一步拓展了NLP模型的应用范围。

数据集最近研究