calculator

Hugging Face2026-05-11 更新2026-05-14 收录

下载链接：

https://huggingface.co/datasets/pymlex/calculator

下载链接

链接失效反馈

官方服务：

资源简介：

算术表达式数据集生成器是一个合成的确定性数据集，专门设计用于训练小型语言模型学习结构化数学推理。该数据集包含嵌套算术表达式及其逐步解决方案，支持三种括号类型（圆括号、方括号、花括号）和三种运算符（加、减、乘）。数据集规模为18,750个样本，其中训练集15,000个、验证集750个、测试集3,000个，并平衡覆盖了1到15的归约深度（每个深度级别在训练集出现1,000次、验证集50次、测试集200次）。每个样本包含六个字段：原始算术表达式（expression）、模型输入提示（prompt）、目标答案（completion，采用特定标记格式）、最终数值结果（answer）、归约步骤数（steps）以及完整格式化训练样本（text）。数据集适用于文本生成任务，特别是数学推理和算术问题求解，旨在评估和提升语言模型处理复杂嵌套表达式的能力。

The Arithmetic Expression Dataset Generator is a synthetic deterministic dataset specifically designed for training small language models in structured mathematical reasoning. It includes nested arithmetic expressions with step-by-step solutions, supporting three types of brackets (parentheses, square brackets, curly braces) and three operators (addition, subtraction, multiplication). The dataset consists of 18,750 samples, with 15,000 for training, 750 for validation, and 3,000 for testing, and it balances coverage of reduction depths from 1 to 15 (each depth level appears 1,000 times in training, 50 in validation, and 200 in testing). Each sample contains six fields: the original arithmetic expression (expression), model input prompt (prompt), target answer (completion, in a specific token format), final numerical result (answer), number of reduction steps (steps), and a fully formatted training sample (text). The dataset is suitable for text generation tasks, particularly in mathematical reasoning and arithmetic problem-solving, aiming to evaluate and enhance language models ability to handle complex nested expressions.

创建时间：

2026-05-10

搜集汇总

数据集介绍

构建方式

Calculator数据集是一个合成的确定性算术数据集，专为训练小型语言模型（SLM）的结构化数学推理能力而设计。数据集生成器通过嵌套算术表达式（包含圆括号、方括号和花括号）及四种运算符（+、-、*）构造多样化的运算问题。每个表达式按简化深度从1到15层级均匀分布，每层级在训练、验证与测试集中分别包含1000、50和200个样本，总计18750条数据。每个样本均包含原始表达式、模型输入提示词、分步推理与最终答案的完整结构，确保了数据集的系统性与平衡性。

使用方法

数据集通过HuggingFace平台以标准格式提供，包含训练、验证与测试三个分割，文件路径分别为data/train-*、data/validation-*和data/test-*。用户可直接加载名为default的配置，适配text-generation任务类别。每个样本的text字段已预先格式化为完整的训练样本，可直接用于序列生成模型的微调或评估。研究者可依据步骤数、表达式复杂度等属性筛选数据，利用提供的加权准确度公式自定义评估指标，从而深入分析模型在多步数学推理中的能力边界。

背景与挑战

背景概述

在自然语言处理与数学推理交叉领域，结构化算术推理能力的评估成为衡量语言模型逻辑严谨性的重要维度。Calculator数据集由相关研究团队于近年构建，旨在为小参数语言模型提供嵌套算术表达式及逐步解答的合成确定性样本。该数据集包含约18,750个样本，覆盖从1到15的不同规约深度，并平衡了括号类型与运算符组合，用于探索模型在缺乏外部计算工具时的数学推理能力。其设计借鉴了认知科学中分步推理的理论，通过精确控制表达式复杂度，为评估和提升模型的符号操作与系统性泛化性能提供了标准化基准，对推动数学语言模型的发展具有不可忽视的影响。

当前挑战

该数据集面临的核心挑战在于：所解决的领域问题是语言模型在嵌套算术表达式推理中表现出的能力退化，即模型在处理多步规约时准确率随深度增加近似二次下降，反映出其在结构化符号操作与长期依赖维护上的固有局限。构建过程中的挑战则包括确保数据集在规约深度上严格平衡，避免因样本分布不均导致评估偏差；同时设计包含多种括号类型与运算符的复杂表达式，以生成足够多样化的推理路径。此外，还需构建合适的加权评估指标，以更精确地反映模型在不同难度层级上的实际表现稳定性。

常用场景

经典使用场景

在结构化数学推理研究领域，calculator数据集作为一项精心设计的合成数据资源，为小型语言模型（SLMs）提供了嵌套算术表达式及其逐步求解过程。该数据集通过平衡从1到15的归约深度，涵盖了括号、方括号和花括号的混合运算，并包含运算符+、-、*的多种组合。其经典的使用场景是在监督学习框架下，利用包含15,000条训练样本的丰富语料，训练模型掌握从表达式识别到逐步化简直至得出最终数值的系统性推理能力，从而在小参数规模模型上评估和增强其数学逻辑思维。

解决学术问题

该数据集着力解决小型语言模型在处理多步分层数学问题时普遍存在的推理精度随深度增加而显著衰退的学界难题。通过提供粒度细致的逐步归约步骤，研究者能够量化模型在执行嵌套算术运算时的误差累积模式。基于Qwen2.5-Math系列的评估揭示，无集成计算工具模型的准确率呈二次方下降趋势，这一发现为构建更鲁棒的数学推理框架提供了重要启示，推动了关于模型内在计算机制与外部工具协同的研究边界拓展。

实际应用

在实际应用层面，calculator数据集所衍生出的加权准确率评估方法，为教育科技领域中的智能辅导系统开发提供了可靠基准。当前，基于该数据集训练的模型可被部署于自动数学题目解析、解题步骤生成等场景中，尤其适合需要逐步推导解释的在线学习平台。同时，该数据集所揭示的归约深度与准确率衰减关系，为设计自适应提示词策略或混合专家模型提供了数据驱动的决策支持，助力自动化教育工具在复杂算术问题上的表现提升。

数据集最近研究