MATH_train_generations-mathgenpair2_1.5Bpretrained_sft_lm1_ebs32_lr1e-06_epoch1.0_42

Hugging Face2025-09-11 更新2025-09-12 收录

下载链接：

https://huggingface.co/datasets/YuchenLi01/MATH_train_generations-mathgenpair2_1.5Bpretrained_sft_lm1_ebs32_lr1e-06_epoch1.0_42

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，包括提示（prompt）、地面真实输出（gt_output）以及多个模型生成的响应和对应的正确性判断。数据集包含7500个训练样本，总大小为1.64GB，下载大小为236MB。

创建时间：

2025-09-10

原始信息汇总

数据集概述

基本信息

数据集名称: MATH_train_generations-mathgenpair2_1.5Bpretrained_sft_lm1_ebs32_lr1e-06_epoch1.0_42
下载大小: 246871417字节
数据集大小: 1636757473字节
训练集样本数量: 7500条

数据结构

数据集包含以下字段：

核心字段

prompt: 字符串类型，表示输入提示
gt_output: 字符串类型，表示真实输出

模型响应字段

包含多个模型生成的响应及其正确性评估，采用统一的命名模式：

response_mathgenpair2_1.5Bpretrained_sft_lm1_ebs32_lr1e-06_epoch1.0_42_p{概率值}_t{温度值}_seed{种子值}: 字符串类型，模型生成的响应
answer_is_correct_mathgenpair2_1.5Bpretrained_sft_lm1_ebs32_lr1e-06_epoch1.0_42_p{概率值}_t{温度值}_seed{种子值}: 布尔类型，表示响应是否正确

评分字段

使用Qwen2.5MathRM72B模型对各类输出进行评分：

score_gt_output@Qwen2.5MathRM72B: 浮点数类型，真实输出的评分
score_response_mathgenpair2_1.5Bpretrained_sft_lm1_ebs32_lr1e-06_epoch1.0_42_p{概率值}_t{温度值}_seed{种子值}@Qwen2.5MathRM72B: 浮点数类型，模型响应的评分

参数配置

模型生成响应时使用了不同的超参数组合：

概率值(p): 固定为1.0
温度值(t): 包含0.0、0.3、0.5、0.7四种设置
种子值(seed): 包含0-15共16个不同的随机种子

数据配置

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在数学问题求解领域，该数据集基于MATH训练集构建，通过1.5B参数预训练模型进行监督微调生成。采用多组温度参数（0.0至0.7）和随机种子（0至15）组合，生成多样化的问题解答对，每个原始提示对应多个生成响应，并配备标准答案和正确性标注。

使用方法

研究人员可借助该数据集开展数学语言模型的对比分析，通过不同温度参数下的生成质量评估模型稳定性。评测时需综合考量正确性布尔标签和连续评分指标，建议采用分层抽样方法分析生成多样性，并结合标准答案进行误差模式挖掘。

背景与挑战

背景概述

数学问题求解作为自然语言处理领域的核心挑战，始终是衡量人工智能推理能力的重要标尺。MATH数据集由哈佛大学与麻省理工学院的研究团队于2021年联合推出，专门针对高级数学问题的机器求解任务。该数据集涵盖代数、几何、数论等数学分支的复杂问题，旨在推动大语言模型在数学推理领域的突破性进展。通过构建标准化的评估基准，该数据集为数学自动求解系统的性能评估提供了重要依据，显著促进了教育科技与人工智能的交叉研究。

当前挑战

数学问题求解面临多重挑战：模型需要同时处理自然语言理解和符号逻辑推理，确保解题步骤的严格正确性；构建过程中需保证数学问题的多样性和难度梯度，避免数据偏差；标注过程要求专业的数学知识验证，确保标准答案的精确性；不同采样参数下模型输出的稳定性控制，以及评估指标与人类评判标准的一致性协调，都是亟待解决的技术难点。

常用场景

经典使用场景

在数学推理模型的训练与评估领域，该数据集通过提供大量数学问题及其对应的标准答案与模型生成响应，成为测试语言模型数学推理能力的基准工具。研究者利用其丰富的prompt-response配对数据，系统分析模型在不同温度参数和随机种子下的输出稳定性与准确性，为数学问题求解的算法优化提供关键数据支撑。

解决学术问题

该数据集有效解决了数学自动推理中模型输出一致性与可靠性的评估难题，通过多维度标注的正确答案布尔值和Qwen评分数据，为量化模型数学推理能力提供标准化度量体系。其意义在于建立了可重复的评估框架，推动了解释性人工智能在数学领域的可信度研究，显著提升了模型输出结果的透明度和可验证性。

实际应用

在实际应用层面，该数据集被广泛应用于智能教育系统的开发，为数学辅导机器人提供高质量的应答训练数据。教育科技公司借助其生成的多样化解题路径，构建能够逐步引导学生的自适应学习系统，同时也在金融建模和工程计算领域为专业问题的自动化求解提供验证基准。

数据集最近研究