five

PatiGonit

收藏
arXiv2025-01-06 更新2025-01-08 收录
下载链接:
http://arxiv.org/abs/2501.02599v1
下载链接
链接失效反馈
官方服务:
资源简介:
PatiGonit数据集由阿赫萨努拉科技大学的研究团队创建,旨在解决孟加拉语数学应用题的自动求解问题。该数据集包含10,000条来自小学水平的数学应用题,涵盖了基本的算术运算和一些代数问题。数据集的创建过程包括从英文数据集MAWPS中翻译并调整问题,以确保其文化相关性和实用性。数据集的应用领域主要是教育技术,特别是为孟加拉语学生开发AI辅助的数学学习工具,提升他们的数学问题解决能力。

The PatiGonit Dataset was created by the research team at Ahsanullah University of Science and Technology, aiming to tackle the automatic solving task of Bengali mathematical word problems. This dataset contains 10,000 primary school-level mathematical word problems, covering basic arithmetic operations and a range of algebraic problems. The dataset development process includes translating and adapting problems sourced from the English dataset MAWPS to guarantee their cultural relevance and practical utility. The primary application domain of this dataset is educational technology, specifically for developing AI-assisted mathematics learning tools for Bengali-speaking students to enhance their mathematical problem-solving abilities.
提供机构:
阿赫萨努拉科技大学
创建时间:
2025-01-06
搜集汇总
数据集介绍
main_image_url
构建方式
PatiGonit数据集的构建基于对低资源语言——孟加拉语的数学应用题(MWPs)的研究需求。该数据集包含10,000道孟加拉语数学应用题,这些题目最初来源于英文的MAWPS数据集,经过翻译和本地化处理,确保其符合孟加拉语的语言习惯和文化背景。数据集的构建过程包括翻译、数字格式调整、货币符号本地化以及数学术语的精确校对,以确保其适用于孟加拉语教育环境。
特点
PatiGonit数据集的特点在于其专注于低资源语言的数学应用题,涵盖了基本的算术运算(如加法、减法、乘法和除法)以及部分代数问题。数据集中的问题分为简单方程和复杂方程两类,简单方程仅包含单一数学运算,而复杂方程则涉及多个运算步骤。此外,数据集的每个问题都经过人工校对,确保其准确性和文化适应性,为孟加拉语的自然语言处理研究提供了宝贵的资源。
使用方法
PatiGonit数据集的使用方法主要包括将其用于训练和微调基于Transformer的模型,如mT5、BanglaT5和mBART50。这些模型通过将孟加拉语数学应用题转换为数学方程,进而求解答案。数据集被划分为训练集、验证集和测试集,比例为80:10:10,以确保模型在训练过程中能够充分学习,并在验证和测试阶段评估其性能。通过这种方式,PatiGonit数据集为开发适用于孟加拉语教育的AI工具提供了坚实的基础。
背景与挑战
背景概述
PatiGonit数据集由Ahsanullah University of Science and Technology的研究团队于2024年创建,旨在解决孟加拉语数学文字问题(MWPs)的自动求解问题。该数据集包含10,000个孟加拉语数学问题,涵盖了基础算术和部分代数运算,旨在通过自然语言处理技术将文字描述转化为数学方程。PatiGonit的推出填补了孟加拉语在低资源语言自然语言处理领域的空白,特别是在教育技术中的应用。该数据集不仅为孟加拉语学生提供了有效的学习工具,还推动了多语言模型在低资源语言环境中的发展。通过使用Transformer模型(如mT5、BanglaT5和mBART50),研究团队展示了这些模型在解决孟加拉语数学问题中的高效性,其中mT5模型达到了97.30%的准确率。
当前挑战
PatiGonit数据集在构建和应用过程中面临多重挑战。首先,孟加拉语作为一种低资源语言,缺乏足够的计算资源和数据集支持,导致模型训练和优化难度较大。其次,数学文字问题的复杂性要求模型能够准确理解自然语言中的语义和逻辑关系,并将其转化为正确的数学方程,这对模型的上下文理解能力提出了较高要求。此外,数据集的构建过程中,研究团队需要将英文数学问题翻译为孟加拉语,并确保其文化适应性和语言准确性,这一过程耗时且容易引入误差。最后,尽管Transformer模型在简单问题上表现优异,但在处理多步复杂问题时仍存在局限性,表明数据集需要进一步扩展以提升模型的泛化能力。
常用场景
经典使用场景
PatiGonit数据集主要用于解决孟加拉语数学文字问题(MWPs),通过将自然语言描述转换为数学方程。这一过程在自然语言处理(NLP)领域具有重要挑战,尤其是对于低资源语言如孟加拉语。该数据集为研究人员提供了一个标准化的基准,用于训练和评估基于Transformer的模型,如mT5、BanglaT5和mBART50,以解决孟加拉语数学问题。
解决学术问题
PatiGonit数据集填补了孟加拉语数学问题求解领域的空白,解决了低资源语言在NLP应用中的资源匮乏问题。通过提供10,000个孟加拉语数学问题,该数据集为研究人员提供了丰富的训练数据,支持了基于Transformer的模型在孟加拉语数学问题求解中的性能优化。这一工作不仅推动了孟加拉语NLP的发展,还为教育AI工具的开发提供了重要资源。
衍生相关工作
PatiGonit数据集的推出催生了一系列相关研究,特别是在低资源语言的数学问题求解领域。基于该数据集的研究工作包括对mT5、BanglaT5和mBART50等模型的微调和优化,进一步提升了这些模型在孟加拉语数学问题求解中的性能。此外,该数据集还为其他低资源语言的数学问题求解研究提供了参考,推动了多语言NLP模型的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作