MATH_train_generations

Hugging Face2025-04-29 更新2025-04-30 收录

下载链接：

https://huggingface.co/datasets/YuchenLi01/MATH_train_generations

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含提示、地面真实输出、多个模型响应、响应正确性标志以及不同评估模型得分的训练数据集。数据集包含7500个示例，文件大小为55786906字节，下载大小为22446106字节。

创建时间：

2025-04-18

原始信息汇总

数据集概述

基本信息

数据集名称: MATH_train_generations
下载大小: 22,490,042 字节
数据集大小: 55,782,216 字节
训练集样本数量: 7,500 个
训练集字节数: 55,782,216 字节

数据集特征

prompt: 字符串类型，表示输入的提示文本。
gt_output: 字符串类型，表示真实输出。
type: 字符串类型，表示数据类型。
response_Qwen2.5-1.5B-Instruct_seed42: 字符串类型，表示Qwen2.5-1.5B-Instruct模型在种子42下的响应。
answer_is_correct_Qwen2.5-1.5B-Instruct_seed42: 布尔类型，表示Qwen2.5-1.5B-Instruct模型在种子42下的答案是否正确。
response_Qwen2.5-3B-Instruct_seed42: 字符串类型，表示Qwen2.5-3B-Instruct模型在种子42下的响应。
answer_is_correct_Qwen2.5-3B-Instruct_seed42: 布尔类型，表示Qwen2.5-3B-Instruct模型在种子42下的答案是否正确。
response_Qwen2.5-Math-1.5B-Instruct_seed42: 字符串类型，表示Qwen2.5-Math-1.5B-Instruct模型在种子42下的响应。
answer_is_correct_Qwen2.5-Math-1.5B-Instruct_seed42: 布尔类型，表示Qwen2.5-Math-1.5B-Instruct模型在种子42下的答案是否正确。
response_Qwen2.5-Math-7B-Instruct_seed42: 字符串类型，表示Qwen2.5-Math-7B-Instruct模型在种子42下的响应。
answer_is_correct_Qwen2.5-Math-7B-Instruct_seed42: 布尔类型，表示Qwen2.5-Math-7B-Instruct模型在种子42下的答案是否正确。

评分特征

score_gt_output@ArmoRM: 浮点类型，表示真实输出在ArmoRM模型下的评分。
score_response_Qwen2.5-1.5B-Instruct_seed42@ArmoRM: 浮点类型，表示Qwen2.5-1.5B-Instruct模型在种子42下的响应在ArmoRM模型下的评分。
score_response_Qwen2.5-3B-Instruct_seed42@ArmoRM: 浮点类型，表示Qwen2.5-3B-Instruct模型在种子42下的响应在ArmoRM模型下的评分。
score_response_Qwen2.5-Math-1.5B-Instruct_seed42@ArmoRM: 浮点类型，表示Qwen2.5-Math-1.5B-Instruct模型在种子42下的响应在ArmoRM模型下的评分。
score_response_Qwen2.5-Math-7B-Instruct_seed42@ArmoRM: 浮点类型，表示Qwen2.5-Math-7B-Instruct模型在种子42下的响应在ArmoRM模型下的评分。
score_gt_output@Skywork: 浮点类型，表示真实输出在Skywork模型下的评分。
score_response_Qwen2.5-1.5B-Instruct_seed42@Skywork: 浮点类型，表示Qwen2.5-1.5B-Instruct模型在种子42下的响应在Skywork模型下的评分。
score_response_Qwen2.5-3B-Instruct_seed42@Skywork: 浮点类型，表示Qwen2.5-3B-Instruct模型在种子42下的响应在Skywork模型下的评分。
score_response_Qwen2.5-Math-1.5B-Instruct_seed42@Skywork: 浮点类型，表示Qwen2.5-Math-1.5B-Instruct模型在种子42下的响应在Skywork模型下的评分。
score_response_Qwen2.5-Math-7B-Instruct_seed42@Skywork: 浮点类型，表示Qwen2.5-Math-7B-Instruct模型在种子42下的响应在Skywork模型下的评分。
score_gt_output@Qwen2.5MathPRM7B: 浮点类型，表示真实输出在Qwen2.5MathPRM7B模型下的评分。
score_response_Qwen2.5-1.5B-Instruct_seed42@Qwen2.5MathPRM7B: 浮点类型，表示Qwen2.5-1.5B-Instruct模型在种子42下的响应在Qwen2.5MathPRM7B模型下的评分。
score_response_Qwen2.5-3B-Instruct_seed42@Qwen2.5MathPRM7B: 浮点类型，表示Qwen2.5-3B-Instruct模型在种子42下的响应在Qwen2.5MathPRM7B模型下的评分。
score_response_Qwen2.5-Math-1.5B-Instruct_seed42@Qwen2.5MathPRM7B: 浮点类型，表示Qwen2.5-Math-1.5B-Instruct模型在种子42下的响应在Qwen2.5MathPRM7B模型下的评分。
score_response_Qwen2.5-Math-7B-Instruct_seed42@Qwen2.5MathPRM7B: 浮点类型，表示Qwen2.5-Math-7B-Instruct模型在种子42下的响应在Qwen2.5MathPRM7B模型下的评分。
score_gt_output@Qwen2.5MathPRM72B: 浮点类型，表示真实输出在Qwen2.5MathPRM72B模型下的评分。
score_response_Qwen2.5-1.5B-Instruct_seed42@Qwen2.5MathPRM72B: 浮点类型，表示Qwen2.5-1.5B-Instruct模型在种子42下的响应在Qwen2.5MathPRM72B模型下的评分。
score_response_Qwen2.5-3B-Instruct_seed42@Qwen2.5MathPRM72B: 浮点类型，表示Qwen2.5-3B-Instruct模型在种子42下的响应在Qwen2.5MathPRM72B模型下的评分。
score_response_Qwen2.5-Math-1.5B-Instruct_seed42@Qwen2.5MathPRM72B: 浮点类型，表示Qwen2.5-Math-1.5B-Instruct模型在种子42下的响应在Qwen2.5MathPRM72B模型下的评分。
score_response_Qwen2.5-Math-7B-Instruct_seed42@Qwen2.5MathPRM72B: 浮点类型，表示Qwen2.5-Math-7B-Instruct模型在种子42下的响应在Qwen2.5MathPRM72B模型下的评分。
score_gt_output@Qwen2.5MathRM72B: 浮点类型，表示真实输出在Qwen2.5MathRM72B模型下的评分。
score_response_Qwen2.5-1.5B-Instruct_seed42@Qwen2.5MathRM72B: 浮点类型，表示Qwen2.5-1.5B-Instruct模型在种子42下的响应在Qwen2.5MathRM72B模型下的评分。
score_response_Qwen2.5-3B-Instruct_seed42@Qwen2.5MathRM72B: 浮点类型，表示Qwen2.5-3B-Instruct模型在种子42下的响应在Qwen2.5MathRM72B模型下的评分。
score_response_Qwen2.5-Math-1.5B-Instruct_seed42@Qwen2.5MathRM72B: 浮点类型，表示Qwen2.5-Math-1.5B-Instruct模型在种子42下的响应在Qwen2.5MathRM72B模型下的评分。
score_response_Qwen2.5-Math-7B-Instruct_seed42@Qwen2.5MathRM72B: 浮点类型，表示Qwen2.5-Math-7B-Instruct模型在种子42下的响应在Qwen2.5MathRM72B模型下的评分。

搜集汇总

数据集介绍

构建方式

MATH_train_generations数据集通过系统化的方法构建，旨在评估不同规模语言模型在数学问题求解中的表现。数据集包含7500个训练样本，每个样本由问题提示（prompt）、标准答案（gt_output）以及多个不同规模Qwen模型生成的响应组成。模型响应涵盖了1.5B到7B参数规模的普通版本和数学专用版本，并通过ArmoRM、Skywork等评估模块对每个响应进行了多维度的量化评分。

特点

该数据集的显著特点在于其多维度评估体系，不仅记录各模型生成的原始文本响应，还包含布尔型的答案正确性标注和来自五种不同评估模块的浮点型评分。这种设计使得研究者能够从生成质量、数学准确性和评估一致性等多个角度进行综合分析。数据集特别注重数学专用模型与通用模型的对比，为模型专业化研究提供了丰富的实验数据。

使用方法

研究者可通过加载训练集直接获取所有模型生成结果与评估分数，无需重复运行推理过程。典型应用场景包括：对比不同规模模型的数学推理能力差异，分析数学专用模型相对于通用模型的改进效果，以及验证不同评估模块之间的相关性。数据集中预计算的评估分数可显著降低研究者的计算开销，支持快速进行横向对比分析。

背景与挑战

背景概述

MATH_train_generations数据集是近年来数学问题求解领域的重要资源，由Qwen研究团队构建并发布。该数据集旨在评估和提升大型语言模型在数学推理与问题解答方面的能力，涵盖了多种数学题型和难度级别。通过整合不同规模的模型生成结果与人工标注的参考答案，该数据集为研究社区提供了丰富的对比分析素材。其核心研究问题聚焦于如何提升语言模型在复杂数学问题上的准确性和泛化能力，对推动数学教育智能化、自动化解题系统的发展具有显著影响力。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题的挑战在于数学问题求解需要高度精确的逻辑推理和符号运算能力，而现有语言模型在处理多步骤推导和抽象概念时仍存在显著差距；构建过程中的挑战则源于数据标注的复杂性，数学问题的参考答案需要严格的正确性验证，同时不同评分模型之间的结果一致性也需反复校准，以确保评估结果的可靠性和可比性。

常用场景

经典使用场景

在数学问题求解领域，MATH_train_generations数据集为研究者提供了一个丰富的资源库，用于评估和比较不同模型在数学问题上的表现。通过包含多种模型的响应及其正确性评估，该数据集成为验证模型数学推理能力的标准基准。

衍生相关工作

基于MATH_train_generations数据集，研究者们开发了多种先进的数学问题求解模型，如Qwen2.5系列模型。这些模型在数学推理和问题解答方面取得了显著进展，进一步推动了人工智能在数学领域的应用。

数据集最近研究