Starscream-11813/ParaMAWPS
收藏数据集概述
基本信息
- 数据集名称: ParaMAWPS
- 许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International
- 任务类别:
- 文本生成
- 问答
- 文本分类
- 零样本分类
- 语言: 英语
- 标签:
- Math Word Problems
- Dataset
- Challenge Set
- Mathematical Reasoning
- 数据集大小: 10K<n<100K
数据集描述
ParaMAWPS 数据集包含数学应用题(Math Word Problems, MWP)的多种语言变体。数据集的分割比例为 80:10:10(训练集:验证集:测试集),并以 .json 格式提供。
数据格式
每行数据包含一个数学应用题,各列的含义如下:
| 列标题 | 描述 |
|---|---|
id |
样本的唯一标识号。种子问题的 id 大小为 ≤ 4,变体问题的 id 大小为 > 4。最后一个变体问题的 id 通常为 "16000i",其中 i 是种子问题的 id。 |
original_text |
数学应用题的问题陈述。种子问题的问题陈述与 Mᴀᴡᴘs 数据集中的相同。 |
equation |
解决数学应用题的方程,包含变量 x。 |
quantity_tagged_text |
数学应用题的问题陈述,其中每个数量被替换为唯一的标签 [Q_i]。 |
quantity_tagged_equation |
解决数学应用题的方程,包含变量 x,但每个数量在问题陈述中被替换为其唯一标签 [Q_i]。 |
have_constant |
是否需要常数值来解决数学应用题。对于样本 i,布尔标签为:<br> |
| $$C_i =egin{cases} ext{FALSE}, & ext{如果 i 需要 0 个常数值}\ ext{TRUE}, & ext{如果 i 需要 ≥ 1 个常数值}end{cases}$$ |
引用
如果使用此数据集,请引用以下论文: bib @inproceedings{raiyan-etal-2023-math, title = "Math Word Problem Solving by Generating Linguistic Variants of Problem Statements", author = "Raiyan, Syed Rifat and Faiyaz, Md Nafis and Kabir, Shah Md. Jawad and Kabir, Mohsinul and Mahmud, Hasan and Hasan, Md Kamrul", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-srw.49", doi = "10.18653/v1/2023.acl-srw.49", pages = "362--378", }



