Arithmetic Word Problem Compendium (AWPC)

github2025-02-05 更新2025-02-10 收录

下载链接：

https://github.com/MatthewWaller/Arithmetic_Word_Problem_Compendium

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含数学正确、多步骤算术问题的全面数据集，旨在鼓励展示解题过程并保持计算过程中适当的十进制精度。该数据集涵盖了从小学到高级问题解决的不同难度级别，并且问题背景涉及多个现实世界领域。

A comprehensive dataset consisting of mathematically correct multi-step arithmetic problems. It is designed to encourage the demonstration of problem-solving procedures and maintain appropriate decimal precision during computational processes. This dataset covers varying difficulty levels ranging from primary school-level to advanced problem-solving tasks, with problem contexts spanning multiple real-world domains.

创建时间：

2025-02-05

原始信息汇总

Arithmetic Word Problem Compendium (AWPC)

数据集描述

领域：数学文字问题
设计目的：训练和评估大型语言模型（LLMs）在数学推理任务中的表现
特点：包含1-5步数学运算的数学文字问题，鼓励展示计算过程并保持适当的十进制精度
数据量：样本包含1000个问题，商业选项可用于获取100,000至10,000,000个问题或授权使用生成数据的数据模板系统

关键特性

数学验证：所有问题和解决方案均经过数学验证
多步推理：解决问题需要多步逻辑推理
现实世界背景：问题基于实际现实世界情景
难度多样：涵盖从基础到高级的问题解决难度
结构化格式：数据以JSONL格式提供，包含明确的问题-解决方案对
丰富领域：问题跨越多个现实世界领域，包括农业、体育、建筑、烹饪、教育、娱乐和金融等

数据格式

文件：sample_train.jsonl（训练数据集，1000个问题），sample_eval.jsonl（评估数据集，1000个问题）
数据条目结构： json { "id": "problem_X", "question": "Text of the math problem", "metadata": { "discrete": boolean, "domain": string, "numbers": number[], "object_type": string, "solution": number, "operators": string[], "decimals": number } }

模型性能

不同模型大小的基准测试显示，准确率在33.7%（Llama 3.2 1B Instruct）到87.7%（ChatGPT 4 Turbo）之间

使用

提供了Python代码示例用于加载数据

使用目的与限制

使用目的：预训练、指令微调、微调、现有模型基准测试
限制：目前仅限英文，限于特定数学运算，基于模板的生成可能会引入结构化模式，专注于最多包含5个数字的算术运算

许可

本数据集遵循MIT许可证发布

引用

如果在研究中使用此数据集，请按照给定格式引用

贡献

欢迎贡献以改进数据集，可提交问题或拉取请求

联系

对于数据集相关问题或反馈，可在仓库中开启问题或联系hello@cephalopod.studio

搜集汇总

数据集介绍

构建方式

Arithmetic Word Problem Compendium (AWPC)数据集的构建，是在数学逻辑正确性的基础上，通过精心设计涵盖1至5步数学运算的单词问题，旨在训练和评估大型语言模型在数学推理任务上的性能。该数据集的构建采用了模板生成系统，确保了问题及解决方案的准确性，并且可以根据需求调整问题的复杂度、数量以及应用领域。

特点

AWPC数据集的特点在于其数学验证的正确性、多步骤推理的要求、现实世界的情境设定、难度级别的多样性、结构化的数据格式以及丰富的应用领域。该数据集覆盖了农业、体育、建筑、烹饪、教育、娱乐和金融等多个现实世界领域，为模型提供了广泛的训练和评估场景。

使用方法

使用AWPC数据集时，用户可以加载JSONL格式的数据文件，每个问题条目包含问题文本、元数据和解决方案。该数据集适用于模型的预训练、指令微调、微调以及现有模型的基准测试，以训练数学推理系统、开发逐步问题解决能力、测试算术运算在多样化真实世界情境下的表现以及评估小数计算的精确度。

背景与挑战

背景概述

Arithmetic Word Problem Compendium (AWPC)数据集，创建于近期，由Matthew Waller主导，Cephalopod Studio发布。该数据集旨在为大型语言模型（LLMs）提供数学推理任务的训练与评估资源，包含数学上准确的多步骤算术问题。这些问题涉及1至5步的数学运算，设计上鼓励展现解题过程，并保持适当的十进制精度。AWPC数据集在数学问题解决领域具有显著影响力，为相关研究提供了丰富的样本资源。

当前挑战

AWPC数据集面临的挑战主要包括：如何提升LLMs在数学推理任务中的准确率，尤其是在处理多步骤算术问题时；构建过程中，如何确保问题的真实性和多样性，同时避免模板生成引入的结构性模式。此外，数据集目前仅限英语，且局限于特定的数学运算，这些也是未来需要克服的限制。

常用场景

经典使用场景

针对数学推理任务，Arithmetic Word Problem Compendium (AWPC) 数据集被广泛应用于训练和评估大型语言模型（LLMs）。其包含的多步骤算术问题，旨在促使模型展现解题过程，并在计算中保持适当的小数精度，从而成为评估数学问题解决能力的一个典型场景。

衍生相关工作

AWPC 数据集衍生出了多项相关工作，包括对现有模型的基准测试、数学推理系统的训练、问题解决能力的开发，以及模型在处理不同领域问题时的性能评估，推动了数学问题解决领域的研究进展。

数据集最近研究