five

Starscream-11813/ParaMAWPS

收藏
Hugging Face2024-07-17 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/Starscream-11813/ParaMAWPS
下载链接
链接失效反馈
官方服务:
资源简介:
ParaMAWPS数据集是一个用于解决数学文字问题(MWP)的数据集,通过生成问题陈述的语言变体来增强模型的数学推理能力。数据集包含训练、验证和测试集,数据格式为JSON,每行包含一个数学文字问题及其相关信息。数据集中的每个样本都有一个唯一的ID,原始问题文本、方程、数量标记文本、数量标记方程以及是否需要常量的标签。

The ParaMAWPS dataset is designed for solving math word problems by generating linguistic variants of problem statements. It includes paraphrased, adversarial, and inverse variants of selectively sampled math word problems from the benchmark Mawps dataset, aiming to enhance the mathematical reasoning and robustness of models. Each sample contains a math word problem along with its associated equation, quantity-tagged text and equation, and information on whether a constant value is required.
提供机构:
Starscream-11813
原始信息汇总

数据集概述

基本信息

  • 数据集名称: ParaMAWPS
  • 许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International
  • 任务类别:
    • 文本生成
    • 问答
    • 文本分类
    • 零样本分类
  • 语言: 英语
  • 标签:
    • Math Word Problems
    • Dataset
    • Challenge Set
    • Mathematical Reasoning
  • 数据集大小: 10K<n<100K

数据集描述

ParaMAWPS 数据集包含数学应用题(Math Word Problems, MWP)的多种语言变体。数据集的分割比例为 80:10:10(训练集:验证集:测试集),并以 .json 格式提供。

数据格式

每行数据包含一个数学应用题,各列的含义如下:

列标题 描述
id 样本的唯一标识号。种子问题的 id 大小为 ≤ 4,变体问题的 id 大小为 > 4。最后一个变体问题的 id 通常为 "16000i",其中 i 是种子问题的 id
original_text 数学应用题的问题陈述。种子问题的问题陈述与 Mᴀᴡᴘs 数据集中的相同。
equation 解决数学应用题的方程,包含变量 x。
quantity_tagged_text 数学应用题的问题陈述,其中每个数量被替换为唯一的标签 [Q_i]。
quantity_tagged_equation 解决数学应用题的方程,包含变量 x,但每个数量在问题陈述中被替换为其唯一标签 [Q_i]。
have_constant 是否需要常数值来解决数学应用题。对于样本 i,布尔标签为:<br>
$$C_i =egin{cases} ext{FALSE}, & ext{如果 i 需要 0 个常数值}\ ext{TRUE}, & ext{如果 i 需要 ≥ 1 个常数值}end{cases}$$

引用

如果使用此数据集,请引用以下论文: bib @inproceedings{raiyan-etal-2023-math, title = "Math Word Problem Solving by Generating Linguistic Variants of Problem Statements", author = "Raiyan, Syed Rifat and Faiyaz, Md Nafis and Kabir, Shah Md. Jawad and Kabir, Mohsinul and Mahmud, Hasan and Hasan, Md Kamrul", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-srw.49", doi = "10.18653/v1/2023.acl-srw.49", pages = "362--378", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作