Dolci-Think-SFT
收藏Hugging Face2025-11-20 更新2025-11-21 收录
下载链接:
https://huggingface.co/datasets/allenai/Dolci-Think-SFT
下载链接
链接失效反馈官方服务:
资源简介:
Dolci-Think-SFT数据集是一个用于指令微调的大规模数据集,包含多个来源的推理轨迹和提示,如OpenThoughts 3、SYNTHETIC-2等。该数据集经过严格的数据质量过滤和主题筛选。每个数据点都包含唯一的标识符、消息列表(包括用户提示和助手响应)、数据来源,并且包含模型的推理信息,但不包含答案标签。数据集适用于32B和7B的模型微调,并遵循ODC-BY许可证。
提供机构:
Allen Institute for AI
创建时间:
2025-11-18
原始信息汇总
Dolci-Think-SFT 数据集概述
基本信息
- 许可证: ODC-BY
- 语言: 英语
- 数据规模: 1M<n<10M
- 训练集样本数量: 2,253,684
- 训练集大小: 77,787,559,018 字节
- 下载大小: 36,275,940,834 字节
数据结构
- 特征字段:
id: 字符串类型,唯一标识符messages: 列表类型,包含监督微调使用的消息格式content: 字符串类型role: 字符串类型
source: 字符串类型,样本来源数据集
- 数据格式: 每个数据点包含模型在
<think>...</think>标签中的推理过程,答案直接跟在</think>之后
数据来源
现有推理轨迹混合
- OpenThoughts 3: 941,166个提示,Apache 2.0许可证
- SYNTHETIC-2: 104,569个提示,Apache 2.0许可证
- Nemotron Post-training dataset: 113,777个提示,CC BY 4许可证
新提示和推理轨迹
- Dolci Think Persona IF: 223,123个提示,ODC-BY-1.0许可证
- Dolci Precise IF: 135,792个提示,ODC-BY-1.0许可证
- Dolci Think Python: 466,676个提示,ODC-BY-1.0许可证
现有提示新推理轨迹
- WildChat: 83,267个提示,ODC-BY-1.0许可证
- OpenAssistant Guanaco: 6,800个提示,Apache 2.0许可证
- CoCoNot: 10,227个提示,ODC-BY-1.0许可证
- WildGuardMix: 38,315个提示,Apache 2.0许可证
- WildJailbreak: 41,100个提示,ODC-BY-1.0许可证
- Aya: 98,597个提示,Apache 2.0许可证
- TableGPT: 4,981个提示,MIT许可证
用途说明
- 用于32B模型后训练
- 7B版本数据集略有不同
- 经过更严格的数据质量筛选和主题过滤
搜集汇总
数据集介绍

构建方式
在人工智能指令微调领域,Dolci-Think-SFT数据集通过多源融合策略构建而成。该数据集整合了OpenThoughts 3、SYNTHETIC-2等现有推理轨迹数据,并扩展至32K上下文长度,同时对新生成的Dolci Think Persona IF和Dolci Precise IF等指令遵循数据进行了系统性采集。构建过程中采用严格的质量过滤机制,基于Azure API进行主题筛选,确保数据样本的精确性与适用性,最终形成包含225万余条样本的大规模训练集。
使用方法
研究人员可通过标准指令微调流程直接加载该数据集,每个数据点包含唯一标识符、消息序列及数据来源信息。消息字段采用监督微标准格式,用户提示与助手响应构成完整对话单元。该数据集特别适用于训练具有思维链推理能力的大语言模型,通过解析<think>标签内的推理轨迹,可有效提升模型在复杂指令遵循任务中的表现。使用时应遵循ODC-BY许可协议,并参考责任使用指南进行合规应用。
背景与挑战
背景概述
随着大型语言模型在复杂推理任务中的需求日益增长,Dolci-Think-SFT数据集应运而生,由AllenAI等研究机构于2025年构建。该数据集聚焦于提升模型的思维链推理与指令遵循能力,通过整合OpenThoughts、SYNTHETIC-2等多样化数据源,并引入创新性的人工标注轨迹,旨在解决语言模型在逻辑推导和多约束任务中的泛化问题。其核心贡献在于推动了可验证指令遵循技术的前沿发展,为后续模型如Olmo-3系列提供了关键训练基础。
当前挑战
在构建过程中,数据集面临双重挑战:领域层面需攻克模型在复杂推理中保持逻辑一致性与多步骤准确性的难题,例如处理代码生成和约束性指令时的错误累积;技术层面则涉及大规模数据融合的异构性,包括对原始提示的严格质量过滤、跨数据源格式标准化,以及应对API访问限制导致的样本缩减问题,这些因素共同增加了数据清洗与验证的复杂性。
常用场景
经典使用场景
在语言模型推理能力优化的研究领域中,Dolci-Think-SFT数据集通过整合多源推理轨迹与指令遵循数据,为模型监督微调提供了标准化范例。其独特设计将思维过程封装于<think>标签内,使模型能够显式展示逻辑推导路径,这种结构化表达显著提升了复杂问题求解的透明度与可解释性。
解决学术问题
该数据集有效应对了语言模型在复杂推理任务中存在的黑箱决策难题,通过大规模高质量推理轨迹的聚合,为可验证指令遵循、多约束条件处理等研究提供了基准支持。其融合合成数据与人工标注的双重优势,突破了传统训练数据在逻辑连贯性与泛化能力方面的局限,推动了可信人工智能方法论的发展。
实际应用
在实际部署层面,基于该数据集训练的模型已应用于智能编程助手、多轮对话系统等场景。其包含的Python代码生成与指令精确执行能力,显著提升了开发效率与代码质量。在安全敏感领域,通过集成WildGuardMix等安全对齐数据,进一步强化了模型对恶意请求的识别与防御机制。
数据集最近研究
最新研究方向
在大型语言模型推理能力优化领域,Dolci-Think-SFT数据集通过融合多源思维链数据,推动了可验证指令遵循技术的前沿发展。该数据集整合了OpenThoughts扩展语境与SYNTHETIC-2验证样本,结合最新发布的Nemotron角色框架与多约束指令数据,显著提升了模型在复杂场景下的逻辑推理透明度。其创新性标注范式将思维过程显式嵌入<think>标签,为研究链式推理可解释性提供了重要基准。当前研究热点集中于利用该数据集训练具有显式推理路径的对话系统,特别是在代码生成与安全对齐任务中展现出色性能,为构建透明可靠的人工智能系统奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



