Dolci-Think-RL-7B-2k

Name: Dolci-Think-RL-7B-2k
Creator: MLX Community
Published: 2025-11-21 16:42:21
License: 暂无描述

Hugging Face2025-11-21 更新2025-11-22 收录

下载链接：

https://huggingface.co/datasets/mlx-community/Dolci-Think-RL-7B-2k

下载链接

链接失效反馈

官方服务：

资源简介：

Dolci-Think-RL-7B是一个用于训练Olmo-3-7B-Think模型的强化学习数据集，包含2200个设计用来引发数学、编码、精确指令遵循和一般聊天方面深度推理的提示。该数据集融合了高质量的人工编辑来源和专为刻意推理设计的过滤机制。

提供机构：

MLX Community

创建时间：

2025-11-21

原始信息汇总

Dolci-Think-RL-7B-2k 数据集概述

数据集摘要

Dolci-Think-RL-7B-2k是用于训练Olmo-3-7B-Think模型的强化学习数据集，包含2,200个提示，旨在激发以下领域的深度推理：

数学
编程
精确指令遵循
通用对话

该数据集融合了高质量精选来源和专为深思熟虑推理设计的过滤机制，已转换为兼容MLX-LM-LoRA。

数据规模

训练集：2,000个样本
验证集：100个样本
测试集：100个样本

数据来源与描述

指令遵循

最多5个约束条件
源自IFBench-Train和IFEval风格任务
经过清晰度和非毒性过滤

数学推理

OMEGA
AceReason-Math
ORZ Math
DAPO-Math
MathSub-30K
广泛领域覆盖：几何、代数、组合数学、证明等

代码推理

包含四个主要系列：

AceCoder
KlearReasoner-Code
SYNTHETIC-2 / PrimeIntellect
Llama-Nemotron后训练数据集所有数据均通过测试用例执行过滤

通用长形式推理

多学科RLVR
Tulu 3重写（通过F1分数过滤）
WildChat英文（针对推理适用性过滤）

处理与过滤

基于执行的代码过滤（测试用例验证）
主题过滤以确保安全性和质量
基于F1的重写过滤（Tulu 3）
难度分层的Nemotron子集
严格去重
约束规范化

许可证

本数据集采用ODC-BY许可证，根据Ai2负责任使用指南（https://allenai.org/responsible-use）用于研究和教育目的。

引用

技术手稿即将发布！

搜集汇总

数据集介绍

构建方式

在人工智能强化学习领域，Dolci-Think-RL-7B-2k数据集通过多阶段流程构建而成。原始数据源自数学推理、代码生成、指令遵循及通用对话四大核心领域，涵盖OMEGA几何证明、AceCoder编程任务等权威语料。构建过程中采用测试用例验证的代码执行过滤机制，结合F1分数重写筛选与主题安全过滤，并通过约束归一化与严格去重处理，最终形成包含2200条高质量提示词的标准化数据集。

特点

该数据集显著特征体现在其多维度的深度推理能力培养框架。数学模块覆盖代数、组合数学等分支的复杂问题，代码推理部分通过四类编程语料家族确保逻辑严密性。指令遵循任务设计包含最多五项约束条件，通用对话模块则融合多学科长文本推理。所有数据均经过毒性筛查与质量分级，形成兼具广度与深度的强化学习训练体系。

使用方法

针对机器学习实践需求，该数据集适配MLX-LM-LoRA训练框架。用户可通过安装指定工具包加载预处理后的Parquet格式数据，在训练阶段设置批处理规模与最大生成长度参数。数据集已划分为2000条训练样本与各100条的验证测试集，支持研究者直接调用标准接口进行模型微调，适用于需要复杂推理能力的语言模型强化学习训练场景。

背景与挑战

背景概述

在人工智能强化学习领域，高质量训练数据的构建对提升模型推理能力具有关键意义。Dolci-Think-RL-7B-2k数据集由艾伦人工智能研究所于2024年发布，专为训练Olmo-3-7B-Think模型而设计，聚焦数学演算、程序编码、精准指令执行与通用对话四大核心领域。该数据集通过融合多源高质量语料与精细化过滤机制，旨在推动大语言模型在复杂场景下的深度推理能力发展，为认知智能研究提供了重要基准。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决多模态推理任务中语义理解与逻辑连贯性的平衡问题，特别是数学证明的严谨性与代码生成的功能正确性验证；在构建过程中，需克服跨领域数据融合的异构性，通过测试用例验证、主题过滤与去重算法确保数据质量，同时维持指令约束规范化与毒性内容剔除之间的平衡。

常用场景

经典使用场景

在强化学习驱动的语言模型训练领域，Dolci-Think-RL-7B-2k数据集通过融合数学推理、代码生成与精准指令执行三大核心模块，构建了多维度认知评估体系。其精心设计的2200条提示词覆盖几何证明、算法实现等复杂场景，配合测试用例验证与难度分级机制，为模型深度推理能力的迭代优化提供了标准化实验环境。

衍生相关工作

基于该数据集衍生的Olmo-3-7B-Think模型在数学定理证明任务中取得突破性进展，其采用的GRPO训练范式被后续研究广泛借鉴。MLX-LM-LoRA框架通过适配该数据集的四比特量化方案，推动了边缘设备部署技术的革新，相关过滤方法论更催生出新一代安全对齐数据集构建标准。

数据集最近研究