five

allenai/Dolci-Think-RL-32B

收藏
Hugging Face2025-11-20 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/allenai/Dolci-Think-RL-32B
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: ground_truth list: string - name: dataset list: string - name: custom_id dtype: string - name: original_dataset dtype: string - name: outputs list: string - name: dataset_source dtype: string - name: prompt dtype: string - name: id dtype: string - name: key dtype: string - name: constraint_type dtype: string - name: constraint dtype: string - name: conversation_hash dtype: string - name: model dtype: string - name: predicted_label dtype: string splits: - name: train num_bytes: 1812725678 num_examples: 102026 download_size: 758496439 dataset_size: 1812725678 configs: - config_name: default data_files: - split: train path: data/train-* --- # Dolci-Think-RL ## Dataset Summary **Dolci-Think-RL** is a deliberate reasoning RL dataset used for training *Olmo-3-32B-Think* model. It contains **102,026** high-quality prompts covering: - Math - Code - Precise Instruction Following - General Chat This dataset is structurally similar to Dolci-Think-RL-7B but with slightly different mixtures. --- ## Dataset Composition ### **Total Samples:** 102,026 ### **Original Dataset Contribution** | Source Dataset | Count | |----------------|-------| | IF Multi-Constraint | 29,847 | | OMEGA Math ([paper](https://arxiv.org/abs/2506.18880)) | 15,000 | | AceCoder ([paper](https://arxiv.org/abs/2502.01718)) | 10,107 | | Multi-Subject RLVR ([paper](https://arxiv.org/abs/2503.23829v1)) | 8,129 | | Tulu 3 Rewritten ([paper](https://arxiv.org/abs/2411.15124)) | 8,040 | | AceReason-Math ([paper](https://arxiv.org/abs/2505.16400)) | 6,599 | | KlearReasoner Code | 6,176 | | WildChat English ([paper](https://arxiv.org/abs/2405.01470)) | 4,539 | | ORZ Math ([paper](https://arxiv.org/abs/2503.24290)) | 3,000 | | SYNTHETIC-2 / PrimeIntellect ([blog](https://www.primeintellect.ai/blog/synthetic-2)) | 3,000 | | MathSub-30K (KlearReasoner Math) ([paper](https://arxiv.org/abs/2508.07629)) | 2,999 | | DAPO-Math ([paper](https://arxiv.org/abs/2503.14476)) | 2,584 | | Llama-Nemotron Post-Training Dataset ([paper](https://arxiv.org/abs/2505.00949)) | 2,006 | ### **Dataset Source Counts (Grouped Mixes)** | Mix | Count | |------|-------| | Math RLVR Mixture | 30,182 | | IF RLVR Mixture | 29,847 | | Code RLVR Mixture | 21,289 | | General RLVR Mixture | 20,708 | --- ## Data Sources & Description ### **Instruction Following** - IFBench/IFEval-derived multi-constraint tasks - Normalized and filtered ### **Math Reasoning** Includes data from: - OMEGA - AceReason-Math - ORZ - DAPO-Math - MathSub-30K Covers algebra, combinatorics, geometry, number theory, proofs, and competition-style problems. ### **Code Reasoning** Includes: - AceCoder - KlearReasoner-Code - SYNTHETIC-2 (PrimeIntellect) - Llama-Nemotron Post-Training Dataset All validated using execution-based filtering. ### **General Long-Form Reasoning** - Multi-Subject RLVR - Tulu 3 rewritten (filtered via F1 score) - WildChat English (topic + character filtering) --- ## Processing & Filtering - **Keyword & topic filtering** - **Execution-based test-case validation** - **F1-score filtering** of rewritten prompts - **Nemotron difficulty-tier selection** - **Safety filtering + deduplication** - **Constraint normalization** for IF tasks --- ## License This dataset is licensed under ODC-BY. It is intended for research and educational use in accordance with [Ai2's Responsible Use Guidelines](https://allenai.org/responsible-use). ## Citation A technical manuscript is forthcoming!

数据集信息: 特征字段: - 名称:ground_truth(真实标签),类型:字符串列表 - 名称:dataset(数据集),类型:字符串列表 - 名称:custom_id(自定义ID),类型:字符串 - 名称:original_dataset(原始数据集),类型:字符串 - 名称:outputs(输出结果),类型:字符串列表 - 名称:dataset_source(数据集来源),类型:字符串 - 名称:prompt(提示词),类型:字符串 - 名称:id(编号),类型:字符串 - 名称:key(键值),类型:字符串 - 名称:constraint_type(约束类型),类型:字符串 - 名称:constraint(约束条件),类型:字符串 - 名称:conversation_hash(对话哈希值),类型:字符串 - 名称:model(模型),类型:字符串 - 名称:predicted_label(预测标签),类型:字符串 划分集: - 名称:train(训练集),字节数:1812725678,样本数:102026 下载大小:758496439 数据集总大小:1812725678 配置项: - 配置名称:default(默认配置),数据文件: - 划分集:train(训练集),路径:data/train-* --- # Dolci-Think-RL ## 数据集概述 **Dolci-Think-RL** 是一款用于训练 *Olmo-3-32B-Think* 模型的刻意推理强化学习(Reinforcement Learning, RL)数据集。该数据集包含102026条高质量提示词,覆盖以下四大场景: - 数学推理 - 代码推理 - 精准指令遵循 - 通用对话 本数据集结构与Dolci-Think-RL-7B相似,但数据混合比例略有差异。 --- ## 数据集构成 ### 总样本量:102026 ### 原始数据集贡献占比 | 源数据集 | 样本数 | |----------------|-------| | IF多约束任务(IF Multi-Constraint) | 29847 | | OMEGA数学数据集(OMEGA Math,[论文](https://arxiv.org/abs/2506.18880)) | 15000 | | AceCoder数据集([论文](https://arxiv.org/abs/2502.01718)) | 10107 | | 多学科RLVR数据集(Multi-Subject RLVR,[论文](https://arxiv.org/abs/2503.23829v1)) | 8129 | | Tulu 3重写数据集([论文](https://arxiv.org/abs/2411.15124)) | 8040 | | AceReason-Math数据集([论文](https://arxiv.org/abs/2505.16400)) | 6599 | | KlearReasoner代码数据集 | 6176 | | WildChat英文数据集([论文](https://arxiv.org/abs/2405.01470)) | 4539 | | ORZ数学数据集([论文](https://arxiv.org/abs/2503.24290)) | 3000 | | SYNTHETIC-2 / PrimeIntellect数据集([博客](https://www.primeintellect.ai/blog/synthetic-2)) | 3000 | | MathSub-30K(KlearReasoner数学数据集,[论文](https://arxiv.org/abs/2508.07629)) | 2999 | | DAPO-Math数据集([论文](https://arxiv.org/abs/2503.14476)) | 2584 | | Llama-Nemotron后训练数据集([论文](https://arxiv.org/abs/2505.00949)) | 2006 | ### 按分组混合的数据集来源统计 | 混合数据集 | 样本数 | |------|-------| | 数学RLVR混合集 | 30182 | | IF任务RLVR混合集 | 29847 | | 代码RLVR混合集 | 21289 | | 通用RLVR混合集 | 20708 | --- ## 数据来源与说明 ### 指令遵循类任务 - 源自IFBench/IFEval的多约束任务,经过归一化与过滤处理。 ### 数学推理类任务 包含以下数据集的数据: - OMEGA - AceReason-Math - ORZ - DAPO-Math - MathSub-30K 覆盖代数、组合数学、几何、数论、定理证明以及竞赛类题型。 ### 代码推理类任务 包含以下数据集的数据: - AceCoder - KlearReasoner-Code - SYNTHETIC-2(PrimeIntellect) - Llama-Nemotron后训练数据集 所有数据均通过基于执行的测试用例过滤验证。 ### 通用长文本推理类任务 包含以下数据集的数据: - 多学科RLVR数据集 - 经F1分数过滤后的Tulu 3重写数据集 - 经过主题与字符过滤的WildChat英文数据集 --- ## 数据处理与过滤 - 关键词与主题过滤 - 基于执行的测试用例验证 - 重写提示词的F1分数过滤 - Nemotron难度层级筛选 - 安全过滤与去重 - IF任务的约束条件归一化 --- ## 许可协议 本数据集采用ODC-BY许可协议发布,旨在用于研究与教育用途,需遵循[AllenAI负责任使用指南](https://allenai.org/responsible-use)。 ## 引用说明 相关技术手稿即将发布!
提供机构:
allenai
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作