five

Alg514, AI2, Dolphin1878, Math23K, ASDiv, Ape210K, GSM8K, SVAMP

收藏
github2024-05-17 更新2024-05-31 收录
下载链接:
https://github.com/PolarisRisingWar/Math_Word_Problem_Collection
下载链接
链接失效反馈
官方服务:
资源简介:
本项目致力于整理math word problem (MWP) 领域的数据集、论文、工具等信息。现有工作的复现详见codes文件夹,其中preprocess_data文件夹放置对数据集的预处理代码,在每个文件的开头位置存放数据集的原始下载位置、引用论文和预处理的逻辑;results文件夹是对公开数据集使用不同算法得到的结果。代码的运行命令可参考codes/README.md。由于数据集可能很大,所以我没有上传到GitHub,但是我会在数据预处理的代码里面介绍数据集的原始下载地址。

This project is dedicated to organizing datasets, papers, and tools in the field of math word problems (MWP). The reproduction of existing work can be found in the 'codes' folder, where the 'preprocess_data' folder contains preprocessing code for the datasets. At the beginning of each file, the original download location of the dataset, the cited papers, and the logic of preprocessing are stored. The 'results' folder contains the outcomes of applying different algorithms to public datasets. The commands for running the code can be referred to in 'codes/README.md'. Due to the potentially large size of the datasets, they have not been uploaded to GitHub, but the original download addresses of the datasets are introduced in the data preprocessing code.
创建时间:
2023-06-28
原始信息汇总

数据集概述

可下载数据集

数据集名称 语言 出处 样本量 其他备注
Alg514 英语 (2014 ACL) Learning to Automatically Solve Algebra Word Problems 514 简单的线性数学题
AI2 英语 (2014 EMNLP) ARIS Learning to Solve Arithmetic Word Problems with Verb Categorization 395 数据集名是MathDQN起的
Dolphin1878 英语 (2015 EMNLP) Automatically Solving Number Word Problems by Semantic Parsing and Reasoning 1878
DRAW-1K 英语 (2017 EACL) Annotating Derivations: A New Evaluation Strategy and Dataset for Algebra Word Problems 1000 求解线性方程组
AQuA-RAT 英语 (2017 ACL) Program Induction by Rationale Generation: Learning to Solve and Explain Algebraic Word Problems 100,000 单选题
Math23K 中文 (2017 EMNLP) Deep Neural Solver for Math Word Problems 训练集21K, 验证集1K, 测试集1K 腾讯人工智能实验室, 数据来源于爬虫
MathQA 英语 (2019 NAACL) MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms 训练集29.8K, 验证集4.48K, 测试集2.99K AQUA-RAT的子集
ASDiv 英语 (2020 ACL) A Diverse Corpus for Evaluating and Developing English Math Word Problem Solvers 2.3K 解决了之前数据集中的缺点
Ape210K 中文 (2020) Ape210K: A Large-Scale and Template-Rich Dataset of Math Word Problems 210K 猿辅导AI Lab, 西北大学
MATH 英语 (2021 NeurIPS) Measuring Mathematical Problem Solving With the MATH Dataset 训练集7.5K, 测试集5K 问题来自可汗学院和Mathematica脚本
GSM8K 英语 (2021) Training Verifiers to Solve Math Word Problems 7473条训练样本, 1319条测试样本 众包生成
Geometry3K 英语 (2021 ACL) Inter-GPS: Interpretable Geometry Problem Solving with Formal Language and Symbolic Reasoning 2401条训练样本, 300条验证样本, 601条测试样本 做几何题
SVAMP 英语 (2021 NAACL) Are NLP Models really able to Solve Simple Math Word Problems? 1000
SVAMP_Sym 英语 (2023 ACL Findings) Reasoning in Large Language Models Through Symbolic Math Word Problems 符号化MWP问题

无法下载的数据集

数据集名称 语言 出处 样本量 无法下载的原因和其他备注
Dolphin18K 英语 (2016 ACL) How well do Computers Solve Math Word Problems? Large-Scale Dataset Construction and Evaluation 18460 需要通过URL从雅虎问答下载数据,但雅虎问答已倒闭
MAWPS 英语 (2016 NAACL) MAWPS: A Math Word Problem Repository 100K 服务器未下载Maven
SuperCLUE-Math6 中文 (2024) SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in Chinese 需要申请,懒得搞
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式主要通过整合和预处理多个数学词问题(MWP)领域的公开数据集。具体而言,项目团队从多个学术论文和公开资源中收集了原始数据,并使用预处理代码对这些数据进行了清洗和格式化。预处理过程包括数据集的划分、标注信息的提取以及必要的转换,以确保数据集的统一性和可用性。此外,数据集的构建还参考了相关论文中的方法和工具,以确保数据集的质量和适用性。
使用方法
使用该数据集时,研究者可以通过提供的预处理代码对原始数据进行处理,以适应特定的模型训练需求。数据集的下载地址和引用信息均在预处理代码中提供,确保了数据来源的透明性和可靠性。研究者可以根据需要选择不同的数据集进行实验,并参考项目中提供的实验结果和代码示例,以优化模型性能。此外,数据集的使用应遵循相关的引用规范,以尊重原始数据集的贡献者。
背景与挑战
背景概述
数学词问题(Math Word Problem, MWP)数据集的构建与研究自2014年以来逐渐成为自然语言处理领域的一个重要分支。主要研究人员和机构包括腾讯人工智能实验室、猿辅导AI Lab、西北大学等,他们致力于通过大规模数据集的创建和算法的研究,提升机器对数学问题的理解和解决能力。核心研究问题集中在如何有效地将自然语言描述的数学问题转化为可计算的数学表达式,并进一步求解。这些研究不仅推动了人工智能在教育领域的应用,也为数值推理和符号计算等基础研究提供了新的视角和方法。
当前挑战
MWP数据集的构建面临多重挑战。首先,数据集的多样性和复杂性要求模型具备强大的语义理解和推理能力,以应对不同类型和难度的数学问题。其次,数据标注的准确性和一致性是保证模型训练效果的关键,但手动标注大量高质量数据耗时且成本高昂。此外,现有模型在处理复杂推理和多步骤问题时仍显不足,尤其是在涉及几何、代数等高级数学概念时。最后,数据集的规模和覆盖范围也需不断扩展,以适应日益增长的实际应用需求。
常用场景
经典使用场景
在数学应用题(MWP)领域,Alg514、AI2、Dolphin1878、Math23K、ASDiv、Ape210K、GSM8K和SVAMP等数据集被广泛用于训练和评估模型解决数学问题的能力。这些数据集包含了各种类型的数学问题,如线性方程、几何问题和代数问题,适用于从小学到高中的不同教育阶段。通过这些数据集,研究人员可以开发和测试模型在不同难度和复杂度下的数学推理能力。
解决学术问题
这些数据集解决了数学应用题自动求解中的关键学术问题,包括如何准确解析自然语言描述的数学问题、如何生成正确的数学表达式以及如何验证解的正确性。通过提供丰富的训练和测试样本,这些数据集帮助研究人员开发出更高效、更准确的数学问题求解模型,推动了自然语言处理和人工智能在教育领域的应用。
实际应用
在实际应用中,这些数据集支持开发智能教育工具,如自动批改数学作业、个性化学习辅导系统等。通过分析学生的解题过程和结果,这些工具可以提供即时反馈和个性化建议,帮助学生提高数学能力。此外,这些数据集还支持开发智能客服系统,用于解答用户的数学问题,提升用户体验。
数据集最近研究
最新研究方向
在数学词问题(MWP)领域,最新的研究方向主要集中在利用大型语言模型(LLMs)进行数值推理和问题解决。研究者们通过引入自一致性(Self-Consistency)和渐进校正提示(Progressive Rectification Prompting, PRP)等技术,显著提升了模型在MWP任务上的表现。此外,结合外部知识如计算器信息和推理过程,进一步增强了模型的推理能力。这些研究不仅推动了MWP任务的解决效率,也为其他领域的数值推理提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作