MATH_train_generations-Qwen2.5-1.5B-Instruct-reeval

Hugging Face2025-06-05 更新2025-06-06 收录

下载链接：

https://huggingface.co/datasets/YuchenLi01/MATH_train_generations-Qwen2.5-1.5B-Instruct-reeval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个模型在不同条件下的响应及其正确性标志。特征包括不同种子、温度和顶部概率下的模型响应。每个响应都有一个相应的正确性标志。数据集似乎用于评估模型对提示的响应，可能用于指令跟随任务。

创建时间：

2025-05-29

原始信息汇总

数据集概述

基本信息

数据集名称: MATH_train_generations-Qwen2.5-1.5B-Instruct-reeval
数据集地址: https://huggingface.co/datasets/YuchenLi01/MATH_train_generations-Qwen2.5-1.5B-Instruct-reeval

数据集特征

数据集包含以下字段：

主要字段

prompt: 字符串类型，表示输入的提示文本。
gt_output: 字符串类型，表示真实的输出文本。

模型响应字段

每个模型响应字段包含两部分：
- response_Qwen2.5-1.5B-Instruct_...: 字符串类型，表示模型生成的响应文本。
- answer_is_correct_Qwen2.5-1.5B-Instruct_...: 布尔类型，表示模型生成的响应是否正确。

参数配置

模型响应字段根据不同的参数配置生成，包括：

种子（seed）: 0到15。
温度（t）: 0.3, 0.5, 0.7, 1.0。
概率（p）: 0.7, 0.8, 0.9, 0.95, 1.0。

特殊字段

paraphrase响应: 包含15种不同的提示变体（prompt1到prompt15），每种变体对应一个模型响应和正确性判断。
- 字段格式：response_paraphrase_Qwen2.5-1.5B-Instruct_p1.0_t0.0_seed0_promptX
- 正确性判断字段：answer_is_correct_paraphrase_Qwen2.5-1.5B-Instruct_p1.0_t0.0_seed0_promptX

数据集用途

该数据集主要用于评估Qwen2.5-1.5B-Instruct模型在不同参数配置下的生成效果和正确性。

搜集汇总

数据集介绍

构建方式

在数学问题求解领域，该数据集基于MATH基准训练集构建，采用Qwen2.5-1.5B-Instruct模型进行多轮推理生成。通过系统化设置不同的温度参数（0.3/0.5/0.7）和随机种子（0-15），生成多样化的问题解答序列，并同步记录标准答案与模型输出的匹配验证结果，形成结构化评估数据。

使用方法

研究人员可借助该数据集系统性分析温度参数与随机种子对数学推理性能的影响规律，通过对比不同超参数配置下的正确率变化，优化模型解码策略。工程层面可直接调用响应字段及其正确性标注，作为评估数学推理模型鲁棒性的基准测试集，或用于构建知识蒸馏的训练样本。

背景与挑战

背景概述

MATH数据集作为数学推理领域的基准测试集合，由卡内基梅隆大学等研究机构于2021年联合推出，旨在评估大型语言模型在复杂数学问题求解中的能力。该数据集涵盖代数、几何、数论等多个数学分支，其构建源于对模型逻辑推理与符号运算能力的深度探索，为人工智能在STEM教育领域的应用提供了重要评估标准。通过系统化的问题设计和严谨的答案标注，MATH数据集已成为衡量模型数学认知水平的核心工具，推动了数学智能研究的发展。

当前挑战

数学推理任务要求模型具备严格的逻辑推导和符号计算能力，面临公式理解、多步推理和答案一致性等核心挑战。构建过程中需解决数学问题的高复杂度标注、答案标准化以及对抗模型过拟合等问题，同时需确保不同难度级别问题的平衡分布。生成式模型的输出稳定性受超参数影响显著，需通过多种子和采样策略的交叉验证来评估模型鲁棒性，这增加了数据构建的技术复杂性。

常用场景

经典使用场景

在数学推理领域，该数据集通过提供标准数学问题提示与Qwen2.5-1.5B-Instruct模型的多组生成响应及正确性标注，成为评估语言模型数学推理能力的基准工具。研究者通过对比不同温度参数和随机种子下的输出差异，系统分析模型在代数、几何、数论等子领域的演绎能力，为数学问题求解的可靠性研究提供量化依据。

解决学术问题

该数据集有效解决了大语言模型数学推理能力可重复性验证的学术难题，通过控制生成策略的变量参数，揭示了模型输出稳定性与采样策略的关联机制。其构建的标准化评估框架为数学推理领域的模型对比研究提供实证基础，推动了对神经网络符号推理内在机理的探索，显著提升了该领域研究的科学性与可比性。

实际应用

在教育科技场景中，该数据集支撑智能辅导系统的答案生成质量评估，通过多维度响应分析优化教学反馈机制。工业界将其用于构建高可靠性数学问答引擎，特别是在金融计算、工程建模等需要精确数值推理的领域，通过温度参数控制实现精准度与多样性的平衡，提升专业场景下的应用安全性。

数据集最近研究