OpenReason

github2025-02-09 更新2025-02-11 收录

下载链接：

https://github.com/aolabsai/OpenReason

下载链接

链接失效反馈

官方服务：

资源简介：

OpenReason 是一个开源的大规模强化学习数据集和生成管道，旨在构建用于训练推理模型的数据集。该数据集包括奖励模型（OR5 和 OR6）和 CoT-SFT 数据生成脚本，这些部分在 DeepSeek 的 R1 系列中未被开源。通过开源努力，确保收集到尽可能广泛、现代且无偏见的数据，以推动推理模型的持续改进。

OpenReason is an open-source large-scale reinforcement learning dataset and generation pipeline, designed to construct datasets for training reasoning models. The dataset includes reward models (OR5 and OR6) and CoT-SFT data generation scripts, components that have not been open-sourced in DeepSeek's R1 series. This open-source effort ensures the collection of the broadest, most modern, and unbiased data possible, thereby advancing the continuous improvement of reasoning models.

创建时间：

2025-02-03

搜集汇总

数据集介绍

构建方式

OpenReason数据集的构建旨在开源DeepSeek-R1系列未公开的强化学习数据管道组件，包括奖励模型（OR5和OR6）和CoT-SFT数据生成脚本。此数据集的构建依托于开源社区的合作，通过生成而非抓取的方式产生训练数据，从而可以从多个基础模型/LLMs的不同温度下生成数据，确保数据来源的多样性和现代性。

使用方法

使用OpenReason数据集，研究者可以遵循开源社区的指导，从种子仓库开始构建，通过初始化文件结构和脚本，创建问题追踪，并可能将一些问题设为奖金任务以吸引更多开发者参与。数据集的使用涉及与可能的开源合作伙伴共享，以及与开发社区的互动，以促进数据管道的完善和推理模型的发展。

背景与挑战

背景概述

OpenReason数据集的构建旨在推动深度强化学习领域的发展，特别是针对推理模型的训练数据集。该数据集的提出，源自于DeepSeek公司的R1-Zero和R1模型的成功逆向工程，这些模型采用了大规模强化学习技术，并将部分成果开源。然而，这些开源成果并未包含构建大规模强化学习数据管道的全部信息，尤其是奖励模型（OR5和OR6）和CoT-SFT数据生成脚本。因此，OpenReason数据集的创建，旨在填补这一空白，通过构建一个大规模强化学习的数据管道开源项目，推动推理模型的持续进步与优化。该数据集的建立，对于开放AI生态系统的发展具有积极意义，且有望加速相关领域的研究进程。

当前挑战

在构建OpenReason数据集的过程中，面临着多个挑战。首先，需要构建一个能够生成大规模、现代且无偏见数据的数据管道，这对于提升推理模型的质量至关重要。其次，由于大规模强化学习数据管道涉及的是数据生成而非抓取，因此需要从多个基础模型/LLM中以不同的温度生成数据。此外，推理模型的质量在很大程度上取决于所使用的数据，因此需要持续更新训练数据以保持模型的现代性和准确性。最后，由于推理是一种流动性强的特质，模型必须能够自我修正和重新学习，这要求数据集能够不断更新以适应世界的变化和动态的偏好。

常用场景

经典使用场景

OpenReason数据集，旨在构建大规模强化学习的数据管道和开源数据集，其经典使用场景主要在于支撑和加速推理型语言模型的研发。该数据集通过提供奖励模型（OR5和OR6）以及CoT-SFT数据生成脚本，使得研究人员能够在大规模数据的基础上，对推理模型进行进一步的微调和优化，以提升其推理能力。

解决学术问题

OpenReason数据集解决了学术研究中缺乏大规模、现代且无偏见推理训练数据的难题。其开源性质保证了数据收集的广泛性，有助于促进推理模型在动态世界和偏好中的自我修正与重学习，进而保持模型的时效性和准确性。

实际应用

实际应用中，OpenReason数据集可被用于训练和部署各种推理模型，如智能对话系统、自动问答系统等，它们需要良好的推理能力来处理复杂的任务。此外，该数据集也为大型语言模型在不同温度下的数据生成提供了可能，拓宽了应用范围。

数据集最近研究