allenai/Dolci-Think-RL-32B
收藏Hugging Face2025-11-20 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/allenai/Dolci-Think-RL-32B
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: ground_truth
list: string
- name: dataset
list: string
- name: custom_id
dtype: string
- name: original_dataset
dtype: string
- name: outputs
list: string
- name: dataset_source
dtype: string
- name: prompt
dtype: string
- name: id
dtype: string
- name: key
dtype: string
- name: constraint_type
dtype: string
- name: constraint
dtype: string
- name: conversation_hash
dtype: string
- name: model
dtype: string
- name: predicted_label
dtype: string
splits:
- name: train
num_bytes: 1812725678
num_examples: 102026
download_size: 758496439
dataset_size: 1812725678
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Dolci-Think-RL
## Dataset Summary
**Dolci-Think-RL** is a deliberate reasoning RL dataset used for training *Olmo-3-32B-Think* model.
It contains **102,026** high-quality prompts covering:
- Math
- Code
- Precise Instruction Following
- General Chat
This dataset is structurally similar to Dolci-Think-RL-7B but with slightly different mixtures.
---
## Dataset Composition
### **Total Samples:** 102,026
### **Original Dataset Contribution**
| Source Dataset | Count |
|----------------|-------|
| IF Multi-Constraint | 29,847 |
| OMEGA Math ([paper](https://arxiv.org/abs/2506.18880)) | 15,000 |
| AceCoder ([paper](https://arxiv.org/abs/2502.01718)) | 10,107 |
| Multi-Subject RLVR ([paper](https://arxiv.org/abs/2503.23829v1)) | 8,129 |
| Tulu 3 Rewritten ([paper](https://arxiv.org/abs/2411.15124)) | 8,040 |
| AceReason-Math ([paper](https://arxiv.org/abs/2505.16400)) | 6,599 |
| KlearReasoner Code | 6,176 |
| WildChat English ([paper](https://arxiv.org/abs/2405.01470)) | 4,539 |
| ORZ Math ([paper](https://arxiv.org/abs/2503.24290)) | 3,000 |
| SYNTHETIC-2 / PrimeIntellect ([blog](https://www.primeintellect.ai/blog/synthetic-2)) | 3,000 |
| MathSub-30K (KlearReasoner Math) ([paper](https://arxiv.org/abs/2508.07629)) | 2,999 |
| DAPO-Math ([paper](https://arxiv.org/abs/2503.14476)) | 2,584 |
| Llama-Nemotron Post-Training Dataset ([paper](https://arxiv.org/abs/2505.00949)) | 2,006 |
### **Dataset Source Counts (Grouped Mixes)**
| Mix | Count |
|------|-------|
| Math RLVR Mixture | 30,182 |
| IF RLVR Mixture | 29,847 |
| Code RLVR Mixture | 21,289 |
| General RLVR Mixture | 20,708 |
---
## Data Sources & Description
### **Instruction Following**
- IFBench/IFEval-derived multi-constraint tasks
- Normalized and filtered
### **Math Reasoning**
Includes data from:
- OMEGA
- AceReason-Math
- ORZ
- DAPO-Math
- MathSub-30K
Covers algebra, combinatorics, geometry, number theory, proofs, and competition-style problems.
### **Code Reasoning**
Includes:
- AceCoder
- KlearReasoner-Code
- SYNTHETIC-2 (PrimeIntellect)
- Llama-Nemotron Post-Training Dataset
All validated using execution-based filtering.
### **General Long-Form Reasoning**
- Multi-Subject RLVR
- Tulu 3 rewritten (filtered via F1 score)
- WildChat English (topic + character filtering)
---
## Processing & Filtering
- **Keyword & topic filtering**
- **Execution-based test-case validation**
- **F1-score filtering** of rewritten prompts
- **Nemotron difficulty-tier selection**
- **Safety filtering + deduplication**
- **Constraint normalization** for IF tasks
---
## License
This dataset is licensed under ODC-BY. It is intended for research and educational use in accordance with [Ai2's Responsible Use Guidelines](https://allenai.org/responsible-use).
## Citation
A technical manuscript is forthcoming!
数据集信息:
特征字段:
- 名称:ground_truth(真实标签),类型:字符串列表
- 名称:dataset(数据集),类型:字符串列表
- 名称:custom_id(自定义ID),类型:字符串
- 名称:original_dataset(原始数据集),类型:字符串
- 名称:outputs(输出结果),类型:字符串列表
- 名称:dataset_source(数据集来源),类型:字符串
- 名称:prompt(提示词),类型:字符串
- 名称:id(编号),类型:字符串
- 名称:key(键值),类型:字符串
- 名称:constraint_type(约束类型),类型:字符串
- 名称:constraint(约束条件),类型:字符串
- 名称:conversation_hash(对话哈希值),类型:字符串
- 名称:model(模型),类型:字符串
- 名称:predicted_label(预测标签),类型:字符串
划分集:
- 名称:train(训练集),字节数:1812725678,样本数:102026
下载大小:758496439
数据集总大小:1812725678
配置项:
- 配置名称:default(默认配置),数据文件:
- 划分集:train(训练集),路径:data/train-*
---
# Dolci-Think-RL
## 数据集概述
**Dolci-Think-RL** 是一款用于训练 *Olmo-3-32B-Think* 模型的刻意推理强化学习(Reinforcement Learning, RL)数据集。该数据集包含102026条高质量提示词,覆盖以下四大场景:
- 数学推理
- 代码推理
- 精准指令遵循
- 通用对话
本数据集结构与Dolci-Think-RL-7B相似,但数据混合比例略有差异。
---
## 数据集构成
### 总样本量:102026
### 原始数据集贡献占比
| 源数据集 | 样本数 |
|----------------|-------|
| IF多约束任务(IF Multi-Constraint) | 29847 |
| OMEGA数学数据集(OMEGA Math,[论文](https://arxiv.org/abs/2506.18880)) | 15000 |
| AceCoder数据集([论文](https://arxiv.org/abs/2502.01718)) | 10107 |
| 多学科RLVR数据集(Multi-Subject RLVR,[论文](https://arxiv.org/abs/2503.23829v1)) | 8129 |
| Tulu 3重写数据集([论文](https://arxiv.org/abs/2411.15124)) | 8040 |
| AceReason-Math数据集([论文](https://arxiv.org/abs/2505.16400)) | 6599 |
| KlearReasoner代码数据集 | 6176 |
| WildChat英文数据集([论文](https://arxiv.org/abs/2405.01470)) | 4539 |
| ORZ数学数据集([论文](https://arxiv.org/abs/2503.24290)) | 3000 |
| SYNTHETIC-2 / PrimeIntellect数据集([博客](https://www.primeintellect.ai/blog/synthetic-2)) | 3000 |
| MathSub-30K(KlearReasoner数学数据集,[论文](https://arxiv.org/abs/2508.07629)) | 2999 |
| DAPO-Math数据集([论文](https://arxiv.org/abs/2503.14476)) | 2584 |
| Llama-Nemotron后训练数据集([论文](https://arxiv.org/abs/2505.00949)) | 2006 |
### 按分组混合的数据集来源统计
| 混合数据集 | 样本数 |
|------|-------|
| 数学RLVR混合集 | 30182 |
| IF任务RLVR混合集 | 29847 |
| 代码RLVR混合集 | 21289 |
| 通用RLVR混合集 | 20708 |
---
## 数据来源与说明
### 指令遵循类任务
- 源自IFBench/IFEval的多约束任务,经过归一化与过滤处理。
### 数学推理类任务
包含以下数据集的数据:
- OMEGA
- AceReason-Math
- ORZ
- DAPO-Math
- MathSub-30K
覆盖代数、组合数学、几何、数论、定理证明以及竞赛类题型。
### 代码推理类任务
包含以下数据集的数据:
- AceCoder
- KlearReasoner-Code
- SYNTHETIC-2(PrimeIntellect)
- Llama-Nemotron后训练数据集
所有数据均通过基于执行的测试用例过滤验证。
### 通用长文本推理类任务
包含以下数据集的数据:
- 多学科RLVR数据集
- 经F1分数过滤后的Tulu 3重写数据集
- 经过主题与字符过滤的WildChat英文数据集
---
## 数据处理与过滤
- 关键词与主题过滤
- 基于执行的测试用例验证
- 重写提示词的F1分数过滤
- Nemotron难度层级筛选
- 安全过滤与去重
- IF任务的约束条件归一化
---
## 许可协议
本数据集采用ODC-BY许可协议发布,旨在用于研究与教育用途,需遵循[AllenAI负责任使用指南](https://allenai.org/responsible-use)。
## 引用说明
相关技术手稿即将发布!
提供机构:
allenai



