MathClean

Name: MathClean
Creator: 北京大学, 北京理工大学, 南京大学, 蚂蚁集团
Published: 2025-02-26 19:17:50
License: 暂无描述

arXiv2025-02-26 更新2025-02-28 收录

下载链接：

https://github.com/YuYingLi0/MathClean

下载链接

链接失效反馈

官方服务：

资源简介：

MathClean是一个专门为合成数学数据清洗而设计的基准数据集，由北京大学、北京理工大学、南京大学和蚂蚁集团共同创建。该数据集包含2000个正确的问题和2000个错误的问题，以及基于GSM8K和MATH数据集合成的2000个正确和错误的答案。每个问题或答案都标注了错误类型，用于评估模型能否正确识别错误类别以指导未来的改进。

MathClean is a benchmark dataset specifically designed for synthetic mathematical data cleaning, jointly created by Peking University, Beijing Institute of Technology, Nanjing University and Ant Group. This dataset contains 2000 correct questions, 2000 incorrect questions, as well as 2000 correct answers and 2000 incorrect answers synthesized based on the GSM8K and MATH datasets. Each question or answer is annotated with error types, which is used to evaluate whether a model can correctly identify error categories to guide future improvements.

提供机构：

北京大学, 北京理工大学, 南京大学, 蚂蚁集团

创建时间：

2025-02-26

搜集汇总

数据集介绍

构建方式

MathClean数据集的构建过程始于两个基础数学数据集GSM8K和MATH，这些数据集被用作种子数据来生成带有各种错误类型的数学问题。为了确保数据集的多样性，研究者设计了10种错误增强提示和16种多样性增强提示，以引导模型生成具有预期错误类型的数学问题。此外，所有增强的问题都经过人工审核，以确保数据质量。数据集包含2000个正确的问题和2000个错误的问题，以及2000个正确和错误的答案，每个错误的问题或答案都被标注了错误类型，以便评估模型是否能正确识别错误类别。

使用方法

MathClean数据集可用于评估数学数据清理模型的有效性。研究者们使用多种模型，包括闭源大型语言模型和开源大型语言模型，在MathClean基准上进行测试。数据集的使用包括错误检测和错误类型检测两个任务，评估指标包括准确率和F1分数。此外，数据集还可以用于案例研究，以深入了解模型在MathClean基准上的失败原因，并为未来的研究提供有价值的见解。

背景与挑战

背景概述

随着大型语言模型（LLMs）的快速发展，训练数据的质量已成为至关重要的因素。在各类训练数据中，数学数据对于LLMs获取强大的推理能力发挥着关键作用。虽然高质量的开放源代码数据非常重要，但它通常不足以用于预训练，需要添加合成的数学问题。然而，合成的数学问题和答案可能会引入不准确性，这可能会降低训练数据和网络数据的质量。因此，一种有效的合成数学数据清洗方法是必不可少的。在本文中，我们提出了MathClean基准，用于评估数学数据清洗模型的有效性。MathClean基准包括2,000个正确的问题和2,000个错误的问题，以及基于GSM8K和MATH的增强数据中额外来源的2,000个正确和错误答案。此外，我们还为每个问题或答案标注了错误类型，因为它可以评估模型是否能够正确识别错误类别，以便进行未来的改进。最后，我们使用最先进的（SOTA）模型进行了全面的评估。我们的结果表明，即使是像GPT-o1和DeepSeek-R1这样的强大模型在这个基准上表现也很差，这突出了MathClean的实用性。我们的代码和数据可在https://github.com/YuYingLi0/MathClean上获取。

当前挑战

MathClean数据集的创建旨在解决数学数据清洗中的挑战。首先，高质量的MathQA数据稀缺，通常需要数据生成。其次，确保合成数学数据的正确性具有挑战性。最后，评估数学数据的正确性仍然是一项复杂的任务。为了解决这些挑战，本研究提出了MathClean基准，它包含正确和错误的问题和答案，并为每个错误的问题或答案标注了错误类型。此外，还提出了10种错误增强提示和16种多样性增强提示，以生成更多样化的问题和答案。MathClean基准为评估模型区分正确和错误数学数据以及识别错误类型的能力提供了一个全面的平台。

常用场景

经典使用场景

在当前大型语言模型（LLMs）快速发展的背景下，训练数据的质量变得至关重要。数学数据作为LLMs推理能力的关键训练素材，其数据清洗的有效性评价显得尤为重要。MathClean数据集应运而生，旨在评估数学数据清洗模型的效果。该数据集由2000个正确问题和2000个错误问题组成，并包含额外的2000个正确和错误答案，这些答案来源于基于GSM8K和MATH的扩充数据。此外，每个问题或答案都标注了错误类型，以便评估模型是否能正确识别错误类别，为未来的改进提供指导。

解决学术问题

MathClean数据集解决了合成数学数据中可能存在的错误问题，这些问题可能来自于数据生成过程中的不准确性，从而影响训练数据和网络数据的质量。该数据集的提出，为评估数学数据清洗模型的效果提供了一个标准化的基准，有助于研究者改进模型，提高数学数据的质量。此外，MathClean数据集还通过标注错误类型，为模型识别错误类别提供了指导，有助于未来的数据清洗工作。

实际应用

MathClean数据集的实际应用场景广泛，例如在教育领域，可以用于评估和改进数学教育软件中自动生成的问题的质量；在人工智能领域，可以用于训练和评估数学推理模型，提高模型的准确性和鲁棒性；在数据清洗领域，可以用于开发和评估数据清洗算法，提高数据的质量和可用性。

数据集最近研究