OpenThoughts-114k

github2025-01-31 更新2025-02-10 收录

下载链接：

https://github.com/open-thoughts/open-thoughts

下载链接

链接失效反馈

官方服务：

资源简介：

OpenThoughts-114k是一个用于训练最先进的小型推理模型的数据集，旨在超越DeepSeek-R1-Distill-Qwen-32B和DeepSeek-R1-Distill-Qwen-7B在数学和代码推理基准上的表现。

OpenThoughts-114k is a dataset intended for training state-of-the-art small reasoning models, aiming to outperform DeepSeek-R1-Distill-Qwen-32B and DeepSeek-R1-Distill-Qwen-7B on mathematical and code reasoning benchmarks.

创建时间：

2025-01-28

原始信息汇总

数据集概述

数据集名称

Open Thoughts

数据集简介

Open Thoughts 是一个专注于推理数据集的项目，旨在训练在小型推理模型中达到最先进水平，超越 DeepSeek-R1-Distill-Qwen-32B 和 DeepSeek-R1-Distill-Qwen-7B 在数学和代码推理基准上的表现。

数据集目的

创建推理数据集，用于训练在数学和代码推理基准上超越特定模型的推理模型。

数据集包含

OpenThoughts-114k 数据集
Bespoke-Stratos-17k 数据集

数据集领域

代码
数学
科学
谜题

数据集生成

数据生成流程图：

数据集来源

由 Bespoke Labs 和 DataComp 社区领导的一个合作项目。

数据集链接

开源信息

模型权重、数据集、数据生成代码、评估代码和训练代码均为开源。

使用说明

安装和配置指南。
数据生成、训练和评估的详细说明。

赞助商

Bespoke Labs
Lambda Labs
NSF IFML
UT Austin Machine Learning Lab
Juelich Supercomputing Center
Toyota Research Institute

引用

@misc{Open Thoughts, author = {Open Thoughts Team}, month = jan, title = {{Open Thoughts}}, year = {2025} }

搜集汇总

数据集介绍

构建方式

OpenThoughts-114k数据集的构建，旨在汇集推理领域的高质量数据，以训练超越当前小型推理模型性能的先进模型。该数据集通过在代码、数学、科学和谜题等领域的精心策划和生成数据，形成了多样化的数据集，旨在推动推理任务的研究与应用。

特点

该数据集的特点在于其开放性、多样性和高性能导向。它不仅涵盖了多个领域的推理问题，还提供了全面的开放资源，包括模型权重、数据集、数据生成和评估代码。此外，该数据集在多个推理基准测试中表现优异，显示其在推动小型推理模型性能方面的潜力。

使用方法

使用OpenThoughts-114k数据集，用户首先需要通过提供的安装命令配置环境。之后，可以通过Hugging Face平台获取数据集，并利用开放的代码库进行模型的训练和评估。详细的安装指导和数据生成方法在官方文档中有详细说明，便于用户高效利用该数据集。

背景与挑战

背景概述

OpenThoughts-114k数据集，由Bespoke Labs和DataComp社区合作创建，旨在搜集整理最佳的开放推理数据集，以训练在数学和代码推理基准测试中超越DeepSeek-R1-Distill-Qwen-32B和DeepSeek-R1-Distill-Qwen-7B的小型推理模型。该数据集的创建标志着在推理模型研究领域的一个重要进展，由多个知名研究机构和高校的研究人员共同参与，旨在推动相关技术的发展。自2025年起，OpenThoughts-114k已成为Hugging Face上排名第一的热门数据集，显示出其在学术和工业界的广泛影响力。

当前挑战

该数据集在构建过程中所面临的挑战主要包括：确保数据质量的高标准，以支持小型推理模型的训练；平衡数据集的多样性和针对性，使其在数学和代码推理任务中具有广泛的应用性；以及开发高效的数据生成和评估框架，以促进模型的快速迭代和优化。此外，该数据集在解决领域问题时，也面临着如何准确评估模型性能、以及如何处理小样本尺寸导致的高方差等挑战。

常用场景

经典使用场景

OpenThoughts-114k数据集旨在训练推理能力卓越的小型推理模型，其经典的使用场景主要集中于对数学和代码推理任务进行模型训练与评估。该数据集通过精心的数据筛选与构建，为模型提供了涵盖数学、代码、科学、谜题等多个领域的高质量训练样本，进而辅助模型在这些领域内实现推理能力的显著提升。

衍生相关工作

OpenThoughts-114k数据集的发布促进了相关领域的研究进展，衍生出了如OpenThinker-7B模型等多个经典工作。这些工作不仅基于该数据集进行了模型的训练与评估，还对推理模型的性能提升和泛化能力进行了深入的研究，推动了推理模型在理论与应用层面的发展。

数据集最近研究