Dolci-Instruct-SFT
收藏Hugging Face2025-11-20 更新2025-11-21 收录
下载链接:
https://huggingface.co/datasets/allenai/Dolci-Instruct-SFT
下载链接
链接失效反馈官方服务:
资源简介:
Dolci Instruct SFT混合数据集是一个用于训练Olmo 3 7B Instruct SFT模型的数据集,包含2152112个样本,来源于多个已有的提示集和新创建的提示。这些来源包括OpenThoughts 3、CoCoNot、FLAN v2、OpenAssistant Guanaco等多个数据集,以及Dolci Tülu 3 Precise IF、WildChat等新提示。数据集用于研究及教育目的,遵循Ai2的负责使用指南。
提供机构:
Allen Institute for AI
创建时间:
2025-11-18
原始信息汇总
Dolci Instruct SFT Mixture 数据集概述
基本信息
- 许可证: ODC-BY
- 语言: 多语言(涵盖72种语言,包括英语、中文、阿拉伯语、印地语等)
- 标注来源: 众包、专家生成、机器生成
- 任务类别: 其他
数据集规模
- 训练集样本数量: 2,152,112
- 训练集大小: 7,109,206,664字节
- 下载大小: 3,077,633,155字节
数据结构
数据集包含以下特征字段:
id: 字符串类型messages: 列表类型,包含:content: 字符串类型function_calls: 字符串类型functions: 字符串类型role: 字符串类型
source: 字符串类型
数据来源
现有提示集合
- OpenThoughts 3: 99,268个提示(Apache 2.0许可证)
- CoCoNot: 10,957个提示(ODC-BY-1.0许可证)
- FLAN v2: 89,981个提示
- OpenAssistant Guanaco: 7,132个提示(Apache 2.0许可证)
- Tulu 3 Persona MATH: 149,958个提示(ODC-BY-1.0许可证)
- Tulu 3 Persona GSM: 49,980个提示(ODC-BY-1.0许可证)
- Tulu 3 Persona Python: 34,999个提示(ODC-BY-1.0许可证)
- Tulu 3 Persona Algebra: 19,999个提示(ODC-BY-1.0许可证)
- Tulu 3 WildGuardMix: 49,373个提示(Apache 2.0许可证)
- Tulu 3 WildJailbreak: 49,965个提示(ODC-BY-1.0许可证)
- Aya: 99,987个提示(Apache 2.0许可证)
- TableGPT: 5,000个提示(MIT许可证)
- SciRIFF: 4,557个提示(ODC-BY-1.0许可证)
- Evol CodeAlpaca: 107,270个提示(Apache 2.0许可证)
新增提示集合
- Dolci Tülu 3 Precise IF: 136,833个提示
- Dolci Instruct Python Algorithms: 186,345个提示
- WildChat with upgraded responses from GPT-4.1: 302,406个提示(ODC-BY-1.0许可证)
- Logic puzzles: 159,882个提示
- Verifiable reasoning: 310,572个提示
- New hardcoded data: 69个提示
- Dolci Instruct Tool Use: 227,579个提示
用途说明
该数据集用于训练Olmo 3 7B Instruct SFT模型,遵循Ai2的负责任使用指南,仅限研究和教育用途。
搜集汇总
数据集介绍

构建方式
在构建Dolci-Instruct-SFT数据集时,研究者整合了多源指令数据,通过精心筛选和重组现有资源实现高效融合。该方法涉及对OpenThoughts 3、FLAN v2等知名数据集的扩展与采样,同时移除推理痕迹以优化指令格式。新生成的数据如逻辑谜题和可验证推理内容,进一步丰富了数据多样性,所有过程均遵循严格的质量过滤标准,确保样本的可靠性和教育适用性。
特点
该数据集以多语言覆盖为显著特征,囊括了从阿姆哈拉语到祖鲁语等超过70种语言,体现了其全球化的应用潜力。数据样本总量达215万条,每条记录包含角色、内容和函数调用等结构化信息,支持复杂的指令跟随任务。其来源广泛,融合了数学、代码和工具使用等多种主题,为模型训练提供了全面的语义场景,同时通过Azure API过滤机制保障了数据的安全性与主题相关性。
使用方法
使用Dolci-Instruct-SFT数据集时,研究者可直接加载训练分割中的2,152,112个样本进行监督微调。数据以标准消息格式组织,便于集成到现有机器学习流程中,适用于多语言指令优化和工具调用等任务。依据ODC-BY许可,该数据集专为研究与教育目的设计,用户需遵循Ai2的负责任使用指南,确保在合规框架下发挥其促进人工智能发展的价值。
背景与挑战
背景概述
随着多语言大语言模型在自然语言处理领域的快速发展,艾伦人工智能研究所于2024年推出了Dolci-Instruct-SFT数据集。该数据集作为Olmo-3-7B-Instruct-SFT模型的核心训练资源,整合了OpenThoughts、FLAN v2等16个权威指令数据集与自主构建的新型提示语料,覆盖包括阿拉伯语、汉语、印地语等在内的72种语言。其设计目标在于解决多语言指令遵循任务中的语义理解与跨语言泛化问题,通过融合专家标注与机器生成的双重机制,为低资源语言的指令微调研究提供了重要支撑。
当前挑战
在构建过程中面临多源数据质量均衡的挑战,需通过Azure API过滤机制消除噪声并保持语义连贯性。针对代码提示与数学推理等专业领域,需平衡不同难度层级的样本分布,同时处理多语言对齐时出现的文化语境差异。该数据集致力于攻克多模态指令理解中的逻辑一致性验证难题,特别是在工具调用与可验证推理任务中,需要确保函数调用的精确性与跨语言指令的语义等价性。
常用场景
经典使用场景
在自然语言处理领域,Dolci-Instruct-SFT数据集作为多语言指令微调的核心资源,其经典应用体现在大语言模型的监督式微调过程中。该数据集通过整合数学推理、代码生成与逻辑谜题等多样化任务,为模型提供了跨领域的指令遵循能力训练。特别在构建如Olmo-3-7B-Instruct-SFT等先进模型时,其精心筛选的215万条样本成为提升模型交互质量与任务适应性的关键支撑。
解决学术问题
该数据集有效应对了多语言指令对齐与知识泛化等核心学术挑战。通过融合FLAN v2的指令模板与Aya数据集的多语言特性,解决了传统模型在低资源语言理解上的局限性。其包含的验证性推理数据显著提升了模型逻辑一致性,而工具调用样本则突破了纯文本模型的功能边界,为具身智能研究提供了数据基础。
衍生相关工作
基于该数据集衍生的经典工作包括OLMo系列模型的持续迭代与Tülu混合框架的演进。WildTeaming团队利用其构建的对抗性训练范式提升了模型安全性,而SciRIFF项目则扩展了科学文献处理能力。这些成果共同推动了指令微调技术从单一任务向复杂系统决策的范式转移,为后续多模态指令数据集建设提供了重要参考。
以上内容由遇见数据集搜集并总结生成



