five

ASDiv

收藏
arXiv2021-06-30 更新2024-06-21 收录
下载链接:
https://github.com/chaochun/nlu-asdiv-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
ASDiv是由台湾中央研究院开发的一个多样的英语数学应用题(MWP)语料库,旨在评估不同MWP求解器的能力。该数据集包含2,305个MWP,覆盖了小学教学中的大多数问题类型和多种语言使用模式。每个问题都标注了问题类型和年级水平,以指示难度级别。ASDiv通过提出一种度量词汇使用多样性的指标,证明其比现有语料库更为多样。该数据集适用于评估系统的真实能力,并可用于机器学习和系统开发,特别是在自然语言理解和模拟人类问题解决方面。

ASDiv is a diverse English mathematical word problem (MWP) corpus developed by Academia Sinica of Taiwan, which aims to evaluate the capabilities of various MWP solvers. This dataset contains 2,305 MWPs, covering most problem types and multiple language usage patterns taught in primary school education. Each problem is annotated with its problem type and grade level to indicate its difficulty level. ASDiv has been proven to be more diverse than existing corpora by proposing a metric for measuring vocabulary usage diversity. This dataset is suitable for evaluating the real-world capabilities of systems, and can be used for machine learning and system development, especially in the fields of natural language understanding and simulating human problem-solving.
提供机构:
中央研究院
创建时间:
2021-06-30
搜集汇总
数据集介绍
main_image_url
构建方式
在数学应用题求解领域,现有数据集往往在语言模式或问题类型上存在局限。ASDiv数据集的构建遵循严谨的准则,旨在提升词汇使用多样性与问题类型的覆盖广度。研究团队从28个在线资源中收集原始题目,并依据提出的词汇使用多样性度量指标,对与现有题目高度相似的题目进行筛选或文本修订,最终得到2,305道数学应用题。每道题目均由具备自动解题背景的研究助理手动标注问题类型、数学方程、答案及对应年级,并通过程序自动验证方程与答案的一致性,确保标注的准确性与客观性。
特点
ASDiv数据集的核心特征体现在其卓越的多样性上。它不仅涵盖了小学教育阶段所教授的绝大多数问题类型,包括基本算术运算、聚合运算及需要额外领域知识的题目,共计24种具体类型,还通过创新的词汇使用多样性度量证明其在语言模式上比现有语料库更为丰富。此外,数据集为每道题目标注了对应的年级信息,这为指示题目难度提供了可靠依据。这种在问题类型和语言表达上的双重多样性,使得该数据集能够更真实地评估数学应用题求解模型的泛化能力与真实性能。
使用方法
该数据集主要用于评估和开发英文数学应用题求解系统。研究者可利用其丰富的问题类型标注,针对特定类型的解题能力进行细粒度分析。同时,数据集提供的年级信息允许研究者按照难度级别划分测试集,从而系统性地考察模型在不同认知复杂度题目上的表现。在使用时,可遵循标准的机器学习流程,例如进行五折交叉验证,并特别注意利用其词汇多样性高的特点,检验模型是真正理解题意还是仅依赖表面语言模式进行匹配,这对于推动自然语言理解与推理研究具有重要意义。
背景与挑战
背景概述
数学应用题(MWP)作为评估人工智能自然语言理解与问题解决能力的重要工具,其数据集构建一直面临多样性与真实性的挑战。ASDiv(Academia Sinica Diverse MWP Dataset)由台湾中央研究院信息科学研究所的廖昭君、梁朝钧与苏克毅团队于2020年提出,旨在创建一个涵盖广泛问题类型与语言模式的英文数学应用题语料库。该数据集包含2305道题目,覆盖小学阶段大多数数学问题类型,并标注了问题类型、难度等级及标准解答。ASDiv的诞生弥补了现有数据集中语言模式单一、问题类型局限或难度信息缺失的不足,为MWP求解器的真实能力评估提供了更为可靠的基准。
当前挑战
ASDiv数据集所应对的核心挑战在于提升数学应用题求解的多样性与真实性评估。现有数据集往往因语言模式重复或问题类型单一,导致模型通过模式匹配而非真正理解来解题,从而高估了系统性能。ASDiv通过引入词汇使用多样性度量,有效识别并减少了题目间的相似性,确保评估结果更能反映模型的真实理解能力。在构建过程中,团队面临了数据质量控制的严峻挑战:从多个网络来源收集的原始题目中存在大量模式重复、标注不一致或解答错误的问题。为此,研究者不仅设计了自动化的一致性验证流程,还通过人工精细标注与校对,确保了数据集中每道题目的数学逻辑正确性与信息完整性,从而在规模与质量间取得了平衡。
常用场景
经典使用场景
在自然语言处理与数学推理交叉领域,ASDiv数据集常被用于评估数学应用题求解器的真实性能。该数据集涵盖了小学阶段多种问题类型,如基本算术运算、聚合操作及需额外领域知识的几何问题,其丰富的语言模式与问题类型多样性使其成为检验模型泛化能力的理想基准。研究者通过在该数据集上训练与测试,能够深入探究模型对复杂文本的理解与数学逻辑推理能力,避免因数据重复或模式单一导致的性能高估。
实际应用
ASDiv数据集在教育科技与智能辅导系统中具有重要应用价值。基于该数据集开发的数学应用题求解模型可集成至在线学习平台,为学生提供即时解题指导与个性化反馈。其多样的问题类型与难度分级能够模拟真实教学场景,帮助系统适应不同年级学生的学习需求。此外,该数据集还可用于构建自适应评估工具,通过分析学生在各类问题上的表现,精准识别知识薄弱点,从而优化教学内容与方法。
衍生相关工作
ASDiv数据集推动了多项经典研究工作的诞生,尤其在神经符号推理与端到端求解模型领域。例如,基于该数据集的评估催生了如GTS等树结构神经模型的发展,这些模型通过结合语义解析与数学运算步骤生成,显著提升了复杂问题的求解精度。同时,该数据集也被广泛用于验证统计模型如LCA++与UnitDep的鲁棒性,促进了词汇多样性度量与问题难度分级方法的标准化,为后续大规模数学推理数据集的构建提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作