five

Open-R1-Math-220k

收藏
github2025-02-26 更新2025-02-23 收录
下载链接:
https://github.com/HarleyCoops/smolThinker-.5B
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个高质量、合成的推理模型训练数据集,设计用于训练推理模型。它比GSM8K数据集大得多(220k vs. 约8k),并且已经过滤以保持高水平的正确性和清晰度。

This is a high-quality synthetic training dataset tailored for reasoning model training. It is significantly larger than the GSM8K dataset (220k vs. ~8k) and has been filtered to maintain high levels of correctness and clarity.
创建时间:
2025-02-11
原始信息汇总

数据集概述

数据集名称

smolThinker: Fine-Tuning with the Open-R1-Math-220k Dataset

数据集描述

这是一个使用Qwen 2.5 0.5B蒸馏版本对Open-R1-Math-220k数据集进行微调的项目。项目展示了在有限计算资源下进行高效微调的概念验证,目前正在进行50%的训练。

数据集结构

  • Problem Statement: 数学问题或问题陈述
  • Chain-of-Thought Reasoning: 步骤式解题过程
  • Final Answer: 数值或文本形式的最终答案

使用说明

  • 数据集信息: Open-R1-Math-220k数据集可在Hugging Face上找到。

  • 加载数据集: python from datasets import load_dataset

    openr1_dataset = load_dataset("open-r1-math-220k") print(openr1_dataset) print(openr1_dataset[train][0])

训练过程

  • 初始训练(2%): 使用Open-R1-Math-220k数据集的子集,在配备40GB内存的A100 GPU上进行训练,使用Weights & Biases监控进度。
  • 扩大规模: 逐步在数据集的更大部分上进行训练,每100步保存检查点,并监控性能和验证。

部署

  • 模型发布: 将训练好的模型上传到HuggingFace Hub,并设置推理端点。
  • 本地使用: 通过终端命令运行推理,获取分步推理和解决方案,并将结果保存为JSONL格式。
  • API集成: 设置HuggingFace推理API,配置端点,格式化响应。

贡献

欢迎对训练过程、推理管道和文档改进的贡献。

许可

本项目开源,遵循MIT许可。

搜集汇总
数据集介绍
main_image_url
构建方式
Open-R1-Math-220k数据集的构建基于Qwen 2.5 0.5B的精简版模型,通过对该模型在特定数学问题子集上的微调,旨在探索小规模模型在数学推理学习上的有效性。此数据集的构建采用了逐步训练的方式,从2%的数据子集开始,逐步扩大到完整数据集,以实现计算资源的有效利用。
特点
该数据集的特点在于其专注于数学问题的链式推理过程,包含问题陈述、逐步推理过程以及最终答案。其设计目标是为小规模语言模型提供一种高效的微调方法,以增强模型在数学推理方面的能力。此外,数据集的结构易于加载和使用,便于研究者快速部署和测试模型。
使用方法
使用该数据集首先需要具备Colab Pro账户以及A100 GPU的访问权限。用户可以通过加载Hugging Face上的数据集开始训练,利用Python脚本进行模型训练和推理。训练完成后,模型可发布至HuggingFace Hub,并通过API调用进行部署,实现本地或远程的推理功能。
背景与挑战
背景概述
Open-R1-Math-220k数据集是一个专注于数学问题解决与推理的语料库,诞生于2025年。该数据集由HarleyCoops等研究人员基于Qwen 2.5 0.5B精简版模型进行微调而创建,旨在探索小型语言模型在数学任务上的表现。其核心研究问题是验证在有限的计算资源下,小型语言模型能否有效地学习数学推理。Open-R1-Math-220k数据集对数学教育、自然语言处理以及人工智能领域的研究具有显著影响,推动了数学问题解决模型的微小化与效率化发展。
当前挑战
该数据集在研究领域面临的挑战主要包括:如何在小型的语言模型中实现复杂的数学推理能力;如何在有限的计算资源下进行有效训练;以及如何将模型训练过程进行规模化处理。在构建过程中,研究人员遇到了如何在40GB RAM限制下进行训练的问题,以及如何优化模型以适应不同大小的GPU。这些挑战对于推动模型在实际应用中的部署和性能优化至关重要。
常用场景
经典使用场景
在数学推理研究领域,Open-R1-Math-220k数据集的经典使用场景主要在于微调预训练语言模型,以使其能够理解和解决数学问题。该数据集提供了数学问题的描述、解题步骤和最终答案,为模型提供了丰富的学习材料,使其能够通过链条式思维过程进行复杂的数学推理。
实际应用
在实际应用中,通过Open-R1-Math-220k数据集训练的模型能够被部署在各类数学教育辅助工具中,例如在线数学解题助手、智能教育软件等,为用户提供解题步骤和指导,从而提高学习效率和效果。
衍生相关工作
基于Open-R1-Math-220k数据集的研究衍生出了多个相关工作,包括但不限于进一步探索小模型在数学推理上的极限,优化训练过程,以及将训练好的模型应用于更广泛的数学教育场景中,推动了数学教育技术领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作