brm-dapo-qwen2.5math-7B-base-lr2e-6-beta0.002_matheval

Hugging Face2025-05-05 更新2025-05-06 收录

下载链接：

https://huggingface.co/datasets/RyanYr/brm-dapo-qwen2.5math-7B-base-lr2e-6-beta0.002_matheval

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含问题和解决方案以及相关提示、评分模型等信息的综合性数据集。它适用于数学问题解答相关的任务，特别针对AIME24数学竞赛的问题。数据集按照不同的难度和类型分为多个部分，每个部分包含一定数量的例子，可用于训练和评估模型。

This is a comprehensive dataset encompassing problems, their corresponding solutions, along with supplementary resources including relevant prompts and scoring models. It is designed for mathematical problem-solving tasks, with a particular focus on problems from the AIME24 mathematics competition. The dataset is partitioned into multiple sections according to different difficulty levels and problem categories, where each section includes a certain number of examples suitable for model training and evaluation.

创建时间：

2025-05-03

原始信息汇总

数据集概述

基本信息

数据集名称: RyanYr/brm-dapo-qwen2.5math-7B-base-lr2e-6-beta0.002_matheval
下载大小: 184862834 字节
数据集大小: 494395202 字节

数据集特征

data_source: 字符串类型，表示数据来源
problem: 字符串类型，表示数学问题
solution: 字符串类型，表示问题解决方案
answer: 字符串类型，表示问题答案
prompt: 列表类型，包含以下字段：
- content: 字符串类型
- role: 字符串类型
reward_model: 结构类型，包含以下字段：
- ground_truth: 字符串类型
- style: 字符串类型
responses: 字符串序列
gt_ans: 字符串类型
extracted_solution: 字符串序列
rm_scores: 布尔序列
avg_accuracy: 浮点类型
pass_accuracy: 布尔类型
cons_accuracy: 浮点类型

数据集分割

mixed 分割

mixed.810: 1447 个样本，5118451 字节
mixed.800: 1447 个样本，5220141 字节
mixed.760: 1447 个样本，5234641 字节
mixed.720: 1447 个样本，5319138 字节
mixed.680: 1447 个样本，5306596 字节
mixed.640: 1447 个样本，5337501 字节
mixed.600: 1447 个样本，5288333 字节
mixed.560: 1447 个样本，5316821 字节
mixed.520: 1447 个样本，5429849 字节
mixed.480: 1447 个样本，5408608 字节
mixed.440: 1447 个样本，5445870 字节
mixed.400: 1447 个样本，5610635 字节
mixed.360: 1447 个样本，5520311 字节
mixed.320: 1447 个样本，5661357 字节
mixed.280: 1447 个样本，5602514 字节
mixed.240: 1447 个样本，5610809 字节
mixed.200: 1447 个样本，5564163 字节
mixed.160: 1447 个样本，5716534 字节
mixed.120: 1447 个样本，5810053 字节
mixed.80: 1447 个样本，5966870 字节
mixed.40: 1447 个样本，5885455 字节

math_eval_aime24 分割

math_eval_aime24.810: 30 个样本，2904934 字节
math_eval_aime24.1080: 30 个样本，2487030 字节
math_eval_aime24.1040: 30 个样本，2518818 字节
math_eval_aime24.1000: 30 个样本，2475521 字节
math_eval_aime24.960: 30 个样本，2597929 字节
math_eval_aime24.920: 30 个样本，2631390 字节
math_eval_aime24.880: 30 个样本，2635264 字节
math_eval_aime24.840: 30 个样本，2728914 字节
math_eval_aime24.800: 30 个样本，2587711 字节
math_eval_aime24.760: 30 个样本，2688423 字节
math_eval_aime24.720: 30 个样本，2751448 字节
math_eval_aime24.680: 30 个样本，2667731 字节
math_eval_aime24.640: 30 个样本，2656593 字节
math_eval_aime24.600: 30 个样本，2817878 字节
math_eval_aime24.560: 30 个样本，2845903 字节
math_eval_aime24.520: 30 个样本，2868996 字节
math_eval_aime24.480: 30 个样本，2934365 字节
math_eval_aime24.440: 30 个样本，2965286 字节
math_eval_aime24.400: 30 个样本，3027153 字节
math_eval_aime24.360: 30 个样本，2995913 字节
math_eval_aime24.320: 30 个样本，3262766 字节
math_eval_aime24.280: 30 个样本，3357792 字节
math_eval_aime24.240: 30 个样本，3145649 字节
math_eval_aime24.200: 30 个样本，3131628 字节
math_eval_aime24.160: 30 个样本，3388827 字节
math_eval_aime24.120: 30 个样本，3333622 字节
math_eval_aime24.80: 30 个样本，3573449 字节
math_eval_aime24.40: 30 个样本，3700626 字节

math_eval_hard 分割

math_eval_hard.1080: 100 个样本，7355102 字节
math_eval_hard.1040: 100 个样本，7423637 字节
math_eval_hard.1000: 100 个样本，7387047 字节
math_eval_hard.960: 100 个样本，7721924 字节
math_eval_hard.920: 100 个样本，7642914 字节
math_eval_hard.880: 100 个样本，7664673 字节
math_eval_hard.840: 100 个样本，7788538 字节
math_eval_hard.800: 100 个样本，7741218 字节
math_eval_hard.760: 100 个样本，7847904 字节
math_eval_hard.720: 100 个样本，8017598 字节
math_eval_hard.680: 100 个样本，7690148 字节
math_eval_hard.640: 100 个样本，8056084 字节
math_eval_hard.600: 100 个样本，8206062 字节
math_eval_hard.560: 100 个样本，8239796 字节
math_eval_hard.520: 100 个样本，8451757 字节
math_eval_hard.480: 100 个样本，8562825 字节
math_eval_hard.440: 100 个样本，8647870 字节
math_eval_hard.400: 100 个样本，8946487 字节
math_eval_hard.360: 100 个样本，9137749 字节
math_eval_hard.320: 100 个样本，9194806 字节
math_eval_hard.280: 100 个样本，9273818 字节
math_eval_hard.240: 100 个样本，9280200 字节
math_eval_hard.200: 100 个样本，9110095 字节
math_eval_hard.160: 100 个样本，9614587 字节
math_eval_hard.120: 100 个样本，10216632 字节
math_eval_hard.80: 100 个样本，10448611 字节
math_eval_hard.40: 100 个样本，10815495 字节

搜集汇总

数据集介绍

构建方式

在数学问题求解领域，该数据集通过精心设计的架构整合了多元数据源，其构建过程体现了系统性工程思维。数据采集覆盖混合题型、AIME24竞赛题及高难度数学题三大类别，每个样本均包含问题描述、解题步骤、标准答案等结构化字段。技术实现上采用分层抽样策略，确保不同难度系数（从40到1080）的题目均匀分布，并通过奖励模型对解题风格和准确性进行双重标注，形成包含1447个混合题样本和100个高难度题样本的均衡集合。

特点

数据集在数学评估任务中展现出鲜明的专业特性，其多维标注体系尤为突出。每个样本不仅包含传统的问题-答案对，还深度集成了prompt对话结构、奖励模型评分以及解题步骤的语义解析。特征工程方面，通过avg_accuracy、pass_accuracy等量化指标实现解题质量的精确评估，而cons_accuracy字段则揭示了模型输出的稳定性。数据分布上，AIME24竞赛题与常规题目的有机组合，为研究不同难度阶梯的数学推理能力提供了理想实验场。

使用方法

针对数学大模型训练场景，该数据集支持端到端的应用流程。研究者可通过加载指定split（如math_eval_hard.1080）获取特定难度题目，利用prompt字段构建对话式训练样本。奖励模型标注可用于监督式微调，而extracted_solution序列则为分步推理任务提供监督信号。评估阶段，通过比对responses与gt_ans字段计算准确率，结合rm_scores分析不同解题风格的性能差异。数据集的层次化结构支持从基础能力到高阶数学思维的渐进式研究。

背景与挑战

背景概述

brm-dapo-qwen2.5math-7B-base-lr2e-6-beta0.002_matheval数据集是面向数学问题求解领域的高质量评估数据集，旨在推动大型语言模型在复杂数学推理任务上的性能提升。该数据集由专业研究团队构建，涵盖了从基础到高阶的多样化数学问题，包括代数、几何、数论等多个子领域。数据集通过精心设计的prompt-response结构和奖励模型评估机制，为研究者提供了全面评估模型数学推理能力的标准化基准。其独特的混合难度划分和细粒度准确率标注体系，为分析模型在不同认知层级上的表现提供了科学依据。

当前挑战

该数据集面临的核心挑战主要体现在两个方面：在领域问题层面，数学推理要求模型同时具备公式理解、逻辑推导和符号运算能力，现有模型在解决多步骤证明题和非结构化问题时仍存在显著性能瓶颈；在构建过程层面，如何确保问题表述的精确性、解决方案的完备性以及评分标准的客观性构成主要挑战，特别是对于开放型数学问题，需要设计复杂的验证流程来保证数据质量。此外，平衡不同难度问题的分布，以及建立可靠的自动化评估指标也是数据集构建中的关键技术难点。

常用场景

经典使用场景

在数学问题求解领域，brm-dapo-qwen2.5math-7B-base-lr2e-6-beta0.002_matheval数据集被广泛用于评估和优化大语言模型在数学推理任务中的表现。该数据集通过提供多样化的数学问题及其标准解答，为研究者提供了一个标准化的测试平台，用以检验模型在解决复杂数学问题时的准确性和逻辑严谨性。

衍生相关工作

基于该数据集，研究者们开发了多种先进的数学推理模型，例如结合强化学习的解题系统和多模态数学问题处理框架。这些衍生工作不仅扩展了数据集的应用范围，还进一步提升了模型在数学领域的表现，为后续研究奠定了坚实的基础。

数据集最近研究