ASDiv
收藏github2024-05-24 更新2024-05-31 收录
下载链接:
https://github.com/chaochun/nlu-asdiv-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含2305个英语数学单词问题(MWPs)的新多样性数据集,旨在评估和开发MWP求解器。数据集涵盖了多种语言模式和问题类型,使用XML格式存储每个问题,并详细记录了问题的属性如ID、年级和来源,以及问题的属性如问题文本、解决方案类型、答案和公式。
This is a novel and diverse dataset comprising 2,305 English mathematical word problems (MWPs), designed to evaluate and develop MWP solvers. The dataset encompasses a variety of linguistic patterns and problem types, with each problem stored in XML format. It meticulously documents problem attributes such as ID, grade level, and source, alongside detailed problem characteristics including the problem text, solution type, answer, and formula.
创建时间:
2020-04-28
原始信息汇总
Academia Sinica Diverse MWP Dataset (ASDiv) V1.0
概述
ASDiv是一个包含2305个英语数学文字问题(MWPs)的数据集,旨在评估和开发MWP求解器。该数据集在语言模式和问题类型上具有多样性,并已在论文"A Diverse Corpus for Evaluating and Developing English Math Word Problem Solvers"中发布。
数据格式
数据集中的每个MWP使用XML格式表示,包含以下结构: xml <Problem ID="nluds-0001" Grade="1" Source="http://www.k5learning.com"> <Body>Seven red apples and two green apples are in the basket.</Body> <Question>How many apples are in the basket?</Question> <Solution-Type>Addition</Solution-Type> <Answer>9 (apples)</Answer> <Formula>7+2=9</Formula> </Problem>
问题属性
- ID: 唯一10字节字符标识符。
- Grade: 难度等级。
- Source: 问题来源的URL。
问题属性
- Body: 包含解决问题所需的事实和线索的文本。
- Question: 需要解答的问题文本。
- Solution-Type: 指示解决MWP的关键数学操作模式的标签。
- Answer: 注释答案(包含相关测量单位)。
- Formula: 注释公式。
多步骤MWPs
对于多步骤MWPs,公式可以表示为表达式树,其中非叶节点是操作,叶节点是操作数。根节点的操作表示MWP的Solution-Type,其他非叶节点上的操作表示MWP的子类型。
评估
数据集提供了两个Fold-ID集,用于N折交叉验证性能评估,分别位于dataset/nfolds/asdiv-a和dataset/nfolds/asdiv-w子目录中。
搜集汇总
数据集介绍

构建方式
ASDiv数据集的构建基于对多种语言模式和问题类型的广泛收集与整理。该数据集包含了2305个英语数学应用题(MWPs),每个问题以XML格式记录,包含问题ID、年级、来源、问题文本、提问、解决方案类型、答案和公式等属性。特别地,对于多步骤的MWPs,公式以表达树的形式表示,其中非叶节点为操作,叶节点为操作数,根节点的操作被标记为该问题的解决方案类型。
特点
ASDiv数据集的显著特点在于其多样性和结构化。首先,数据集涵盖了24种不同的常见解决方案类型,确保了问题的多样性。其次,每个问题都以XML格式详细记录,便于解析和处理。此外,对于多步骤问题,采用表达树的形式来表示公式,增强了数据集的复杂性和实用性。
使用方法
ASDiv数据集适用于评估和开发数学应用题求解器。用户可以通过解析XML格式的数据,提取问题文本、提问、解决方案类型、答案和公式等信息。数据集还提供了N-folds交叉验证的Fold-ID集,分别用于算术子集和整个数据集的性能评估。此外,数据集的CC BY-NC 4.0许可证允许非商业用途的使用,但需引用相关文献。
背景与挑战
背景概述
ASDiv数据集,全称为Academia Sinica Diverse MWP Dataset,是由台湾中央研究院信息科学研究所的自然语言理解实验室于2020年创建的。该数据集旨在评估和开发数学应用题(MWP)求解器,包含2305个英语数学应用题,涵盖多种语言模式和问题类型。ASDiv数据集的发布标志着在数学应用题求解领域迈出了重要一步,为研究人员提供了一个多样化且高质量的基准数据集,有助于推动该领域的技术进步和算法优化。
当前挑战
ASDiv数据集在构建过程中面临多项挑战。首先,如何确保数据集的多样性和代表性,涵盖不同年级和难度的数学应用题,是一个关键问题。其次,数据集的标注工作复杂,需要准确识别和标注每个问题的解题类型和公式,这对标注人员的专业素养提出了高要求。此外,多步骤数学应用题的表达树结构设计,增加了数据集的复杂性和处理难度。最后,如何在保持数据集质量的同时,确保其广泛适用性和可扩展性,也是该数据集面临的重要挑战。
常用场景
经典使用场景
在自然语言处理领域,ASDiv数据集被广泛用于评估和开发数学应用题(MWP)求解器。该数据集包含2305个英语数学应用题,涵盖了多种语言模式和问题类型,为研究人员提供了一个多样化的基准。通过分析数据集中的问题文本、问题类型、解答类型及公式,研究者能够开发和优化自动求解算法,从而提升MWP求解器的性能。
衍生相关工作
ASDiv数据集的发布催生了一系列相关研究工作。例如,基于该数据集的求解器在多个国际会议和期刊上被广泛讨论,推动了数学应用题求解技术的发展。同时,该数据集也被用于开发新的评估方法和模型,进一步提升了自然语言处理在教育领域的应用水平。
数据集最近研究
最新研究方向
在自然语言处理领域,ASDiv数据集因其多样化的数学应用题(MWP)而备受关注。最新研究方向主要集中在开发和评估MWP求解器,以提高其在不同语言模式和问题类型上的表现。研究者们通过构建复杂的表达树来解析多步骤MWP,并利用深度学习模型来识别和处理这些复杂的数学操作。此外,ASDiv数据集的跨验证性能评估方法也为研究者提供了标准化的测试平台,促进了MWP求解器在实际应用中的可靠性和准确性。这些研究不仅推动了数学应用题求解技术的发展,也为教育领域的智能化辅助工具提供了新的可能性。
以上内容由遇见数据集搜集并总结生成



