five

Guji_MATH

收藏
arXiv2025-05-22 更新2025-05-24 收录
下载链接:
https://github.com/Xunzi-LLM-of-Chinese-classics/Guji_Math
下载链接
链接失效反馈
官方服务:
资源简介:
Guji_MATH数据集是基于《算经十书》构建的,用于评估经典文本的基准。数据集包含了538个数学问题,这些问题从8部经典文本中提取出来,形成了一个以“问题-答案-解决方案”框架为中心的结构化数据集,并补充了问题类型和难度级别。该数据集旨在评估主流推理模型在古典中文的独特语言限制下的数学问题解决能力。数据集采用机器辅助注释和人工验证的方式,对数学问题进行提取和标注,为从古代文本中挖掘数学知识并传播传统文化提供了方法论支持,同时为评估推理模型的跨语言和跨文化能力提供了新的视角。

The Guji_MATH dataset is constructed based on *Ten Books on Arithmetic (Suanjing Shishu)*, a collection of ancient Chinese mathematical classics. It contains 538 mathematical problems extracted from 8 classical texts, forming a structured dataset centered on the "problem-answer-solution" framework, with supplementary annotations including problem types and difficulty levels. This dataset aims to evaluate the mathematical problem-solving capabilities of mainstream reasoning models under the unique linguistic constraints of classical Chinese. The extraction and annotation of its mathematical problems were completed through machine-assisted annotation and manual verification. It provides methodological support for excavating mathematical knowledge from ancient texts and disseminating traditional Chinese culture, while offering a novel perspective for evaluating the cross-linguistic and cross-cultural capabilities of reasoning models.
提供机构:
南京农业大学信息管理系
创建时间:
2025-05-22
搜集汇总
数据集介绍
main_image_url
构建方式
Guji_MATH数据集的构建基于中国古代数学经典《算经十书》,通过机器辅助标注与人工验证相结合的方式,从8部典籍中系统提取了538道数学问题。研究团队首先利用Xunzi系列模型对未标点文本进行断句处理,随后采用Qwen2.5模型自动识别'问-答-术'三元组结构,并通过人工校验补充隐含前提条件。每个问题最终被结构化表示为包含来源、问题描述、标准答案、解题方法、前提条件、难度等级和问题类型的七元组,形成符合JSON格式的标准化数据集。这种构建方法既保留了古籍原貌,又通过现代技术手段解决了古典数学问题隐含前提的识别难题。
特点
该数据集的核心特征体现在三个方面:其一,问题覆盖从汉代到唐代的数学体系,包含基础算术、比例计算、勾股定理等15类数学方法,其中31%的问题涉及多方法综合运用;其二,采用四级难度体系标注,中等难度(2-3级)问题占比达87%,真实反映古代数学注重实际应用的特点;其三,创新性地设计'闭卷'与'开卷'双评估模式,前者测试模型自主解题能力,后者考察对古典解法的复现能力。数据集还包含115道需特殊前提条件的问题,为研究模型的文化语境理解能力提供了独特素材。
使用方法
使用该数据集时,研究者可通过两种路径开展实验:闭卷模式仅提供问题描述和前提条件,要求模型直接输出解答;开卷模式额外提供古典解题方法,评估模型对传统数学逻辑的复现能力。评估过程需注意古代计量单位的标准化处理,建议参照《中国科学技术史》中的换算体系建立转换表。对于生成式模型的输出,可采用QwQ-32B模型进行答案提取与标准化比对,重点考察数值等价性而非表述形式的一致性。该数据集特别适用于探究推理模型在非拉丁语系数学问题上的表现,以及语言特征对数学推理的影响机制研究。
背景与挑战
背景概述
Guji_MATH数据集由南京农业大学信息管理学院的刘畅、王东波等研究人员于近年创建,旨在评估推理模型对《算经十书》等中国古代数学经典的理解能力。该数据集包含538个结构化数学问题,采用“问题-答案-解法”三元组框架,并标注问题类型与难度等级。作为首个专注于古典中文数学问题的基准,它填补了现有数学推理评估体系在非拉丁语系文本上的空白,为探索语言特征对数学推理的影响提供了重要工具。该数据集的建立不仅推动了中国传统数学文化的数字化传承,也为跨语言、跨文化的数学推理研究开辟了新路径。
当前挑战
Guji_MATH面临双重挑战:在领域问题层面,古典中文的凝练表达与古代数学特有的计量体系、算法逻辑构成理解障碍,导致模型在文化语境识别和传统解题方法复现上表现欠佳;在构建过程中,典籍文本的标点缺失、隐含前提条件(如单位换算规则)的提取,以及多方法融合问题的分类标注都增加了数据处理复杂度。实验显示,即使最优模型在开放书模式下的准确率仅达70%,凸显出古典数学特有的二次方程、三次方程及数论问题的解决仍是当前推理模型的薄弱环节。
常用场景
经典使用场景
Guji_MATH数据集作为首个基于《算经十书》构建的古汉语数学问题评测基准,其经典使用场景聚焦于评估推理模型对文言文语境下数学问题的理解能力。通过“问题-答案-解法”三元组结构,该数据集支持闭卷(自主解题)和开卷(复现古籍解法)双模式评测,为探究语言模型在跨时代、跨文化数学表达上的泛化性提供了标准化实验框架。
解决学术问题
该数据集有效解决了古文数学智能化处理中的三大核心问题:一是填补了现有数学推理评测基准在非拉丁语系文本上的空白,揭示了语言特征对模型数学认知的影响机制;二是通过结构化标注古代计量单位与解题逻辑,为模型在历史文化语境下的数学知识迁移提供了可解释性分析基础;三是建立了难度分级与问题类型体系,首次量化评估了模型对勾股计算、天元术等中国传统数学方法的掌握程度。
衍生相关工作
该数据集已衍生出三类重要研究:一是催生了Xunzi古汉语大模型在数学典籍标点与结构化任务上的专项优化;二是启发DeepSeek团队开发融合传统数学知识的R1-Distill-Qwen模型;三是推动学术界建立“数理人文计算”交叉方向,相关成果见于2024年数字人文研讨会对《缉古算经》立方方程的可视化重构研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作