five

BanglaMATH

收藏
arXiv2025-10-13 更新2025-10-17 收录
下载链接:
https://github.com/BanglaMATH
下载链接
链接失效反馈
官方服务:
资源简介:
BanglaMATH数据集是一个包含约1.7千个孟加拉语数学文字问题的数据集,涵盖了算术、代数、几何和逻辑推理等主题,来源于孟加拉语小学练习册,并标注了年级水平和推理步骤的数量。该数据集旨在评估LLM在孟加拉语中的数学能力,为低资源语言的数学推理提供了重要的评估基准。

The BanglaMATH dataset is a corpus of approximately 1,700 Bengali mathematical word problems spanning topics including arithmetic, algebra, geometry, and logical reasoning. Sourced from Bengali primary school exercise workbooks, the dataset is annotated with grade levels and the number of reasoning steps. It is designed to evaluate the mathematical proficiency of large language models (LLMs) in Bengali, serving as a critical evaluation benchmark for mathematical reasoning in low-resource languages.
提供机构:
美国佛蒙特大学计算故事实验室
创建时间:
2025-10-13
搜集汇总
数据集介绍
main_image_url
构建方式
在低资源语言数学推理评估领域,BanglaMATH数据集通过系统化采集流程构建而成。研究团队从孟加拉国小学教材、练习册及考试材料中提取原始文本,采用自动化工具与人工转录相结合的方式完成格式转换。所有文本均经过去重清洗与多轮人工验证,确保问题质量与语言规范性。每个数学问题均标注了年级、答案类型、推理步骤数量及数字复杂度等元数据,形成包含1700道涵盖算术、代数、几何与逻辑推理的标准化语料库。
特点
该数据集展现出鲜明的多维度特征,其问题设计严格对应六至八年级课程体系,呈现逐级递增的认知复杂度。标注体系创新性地引入推理步骤数量作为逻辑难度指标,数字位数作为算术复杂度度量,构成双维度评估框架。问题类型涵盖数值计算与描述性解答,其中9.63%为开放式回答题目,有效模拟真实教学场景。数据分布呈现阶梯性特征,八年级问题平均包含2.19个推理步骤与10.17个词汇量,显著高于六年级的1.69步与7.78词。
使用方法
数据集采用零样本评估范式,将原始孟加拉语问题直接输入大语言模型而不提供示例提示。评估过程严格遵循教育测量标准,通过精确匹配数值答案与人工判读描述性回答相结合的方式计算准确率。研究设计包含多组对照实验:通过注入干扰信息测试模型鲁棒性,借助英译版本分析语言偏差,并基于标注元数据开展年级分层与复杂度分级评估。这种标准化测试流程为跨模型性能比较提供了可靠基准,特别适用于低资源语言环境下的数学推理能力诊断。
背景与挑战
背景概述
随着大语言模型在数学推理领域展现出巨大潜力,多语言数学基准数据集的构建成为推动人工智能公平发展的重要方向。BanglaMATH数据集由佛蒙特大学复杂系统实验室联合圣塔菲研究所于2025年发布,聚焦孟加拉语数学推理能力评估,填补了低资源语言数学基准的空白。该数据集收录1.7千道小学六至八年级数学应用题,涵盖算术、代数、几何与逻辑推理等主题,通过系统标注年级层级与推理步骤等元数据,为评估大语言模型的跨语言数学能力提供了标准化测试平台。
当前挑战
该数据集致力于解决低资源语言数学推理评估的核心难题:现有数学基准大多局限于英语,导致孟加拉语等语言社区难以获得适配的人工智能教育支持。在构建过程中,研究团队面临原始资料格式异构的挑战,需通过人工转录与自动化工具结合的方式处理PDF与Word文档;同时需建立严谨的数据清洗流程,排除依赖视觉解析的题目,并通过多轮人工验证确保标注质量。当前测试表明,即使顶尖模型在面临干扰信息或高复杂度运算时仍会出现显著性能下降,凸显了低资源语言数学推理的持续挑战。
常用场景
解决学术问题
该数据集有效解决了多语言数学推理评估体系缺失的核心学术问题。传统数学推理基准主要集中于英语语境,导致低资源语言社区的模型能力评估存在显著空白。BanglaMATH通过构建首个孟加拉语数学基准,为研究社区提供了探究语言偏见、跨语言迁移学习以及低资源语言模型鲁棒性的实验基础,推动了多语言人工智能研究的均衡发展。
衍生相关工作
该数据集的发布催生了多项重要的衍生研究。在鲁棒性分析方面,研究者通过注入干扰信息探索了模型抗干扰能力;在语言偏见研究中,通过英译对比揭示了模型在低资源语言中的性能差距。这些工作不仅深化了对多语言模型数学推理机制的理解,还为开发更具包容性的人工智能系统提供了方法论指导。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作