Open-R1-Math-220k

github2025-02-26 更新2025-02-23 收录

下载链接：

https://github.com/HarleyCoops/smolThinker-.5B

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个高质量、合成的推理模型训练数据集，设计用于训练推理模型。它比GSM8K数据集大得多（220k vs. 约8k），并且已经过滤以保持高水平的正确性和清晰度。

This is a high-quality synthetic training dataset tailored for reasoning model training. It is significantly larger than the GSM8K dataset (220k vs. ~8k) and has been filtered to maintain high levels of correctness and clarity.

创建时间：

2025-02-11

原始信息汇总

数据集概述

数据集名称

smolThinker: Fine-Tuning with the Open-R1-Math-220k Dataset

数据集描述

这是一个使用Qwen 2.5 0.5B蒸馏版本对Open-R1-Math-220k数据集进行微调的项目。项目展示了在有限计算资源下进行高效微调的概念验证，目前正在进行50%的训练。

数据集结构

Problem Statement: 数学问题或问题陈述
Chain-of-Thought Reasoning: 步骤式解题过程
Final Answer: 数值或文本形式的最终答案

使用说明

数据集信息： Open-R1-Math-220k数据集可在Hugging Face上找到。
加载数据集： python from datasets import load_dataset

openr1_dataset = load_dataset("open-r1-math-220k") print(openr1_dataset) print(openr1_dataset[train][0])

训练过程

初始训练（2%）： 使用Open-R1-Math-220k数据集的子集，在配备40GB内存的A100 GPU上进行训练，使用Weights & Biases监控进度。
扩大规模： 逐步在数据集的更大部分上进行训练，每100步保存检查点，并监控性能和验证。

部署

模型发布： 将训练好的模型上传到HuggingFace Hub，并设置推理端点。
本地使用： 通过终端命令运行推理，获取分步推理和解决方案，并将结果保存为JSONL格式。
API集成： 设置HuggingFace推理API，配置端点，格式化响应。

贡献

欢迎对训练过程、推理管道和文档改进的贡献。

许可

本项目开源，遵循MIT许可。

搜集汇总

数据集介绍

构建方式

Open-R1-Math-220k数据集的构建基于Qwen 2.5 0.5B的精简版模型，通过对该模型在特定数学问题子集上的微调，旨在探索小规模模型在数学推理学习上的有效性。此数据集的构建采用了逐步训练的方式，从2%的数据子集开始，逐步扩大到完整数据集，以实现计算资源的有效利用。

特点

该数据集的特点在于其专注于数学问题的链式推理过程，包含问题陈述、逐步推理过程以及最终答案。其设计目标是为小规模语言模型提供一种高效的微调方法，以增强模型在数学推理方面的能力。此外，数据集的结构易于加载和使用，便于研究者快速部署和测试模型。

使用方法

使用该数据集首先需要具备Colab Pro账户以及A100 GPU的访问权限。用户可以通过加载Hugging Face上的数据集开始训练，利用Python脚本进行模型训练和推理。训练完成后，模型可发布至HuggingFace Hub，并通过API调用进行部署，实现本地或远程的推理功能。

背景与挑战

背景概述

Open-R1-Math-220k数据集是一个专注于数学问题解决与推理的语料库，诞生于2025年。该数据集由HarleyCoops等研究人员基于Qwen 2.5 0.5B精简版模型进行微调而创建，旨在探索小型语言模型在数学任务上的表现。其核心研究问题是验证在有限的计算资源下，小型语言模型能否有效地学习数学推理。Open-R1-Math-220k数据集对数学教育、自然语言处理以及人工智能领域的研究具有显著影响，推动了数学问题解决模型的微小化与效率化发展。

当前挑战

该数据集在研究领域面临的挑战主要包括：如何在小型的语言模型中实现复杂的数学推理能力；如何在有限的计算资源下进行有效训练；以及如何将模型训练过程进行规模化处理。在构建过程中，研究人员遇到了如何在40GB RAM限制下进行训练的问题，以及如何优化模型以适应不同大小的GPU。这些挑战对于推动模型在实际应用中的部署和性能优化至关重要。

常用场景

经典使用场景

在数学推理研究领域，Open-R1-Math-220k数据集的经典使用场景主要在于微调预训练语言模型，以使其能够理解和解决数学问题。该数据集提供了数学问题的描述、解题步骤和最终答案，为模型提供了丰富的学习材料，使其能够通过链条式思维过程进行复杂的数学推理。

实际应用

在实际应用中，通过Open-R1-Math-220k数据集训练的模型能够被部署在各类数学教育辅助工具中，例如在线数学解题助手、智能教育软件等，为用户提供解题步骤和指导，从而提高学习效率和效果。

衍生相关工作

基于Open-R1-Math-220k数据集的研究衍生出了多个相关工作，包括但不限于进一步探索小模型在数学推理上的极限，优化训练过程，以及将训练好的模型应用于更广泛的数学教育场景中，推动了数学教育技术领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集