allenai/tulu-3-sft-mixture

Name: allenai/tulu-3-sft-mixture
Creator: allenai
Published: 2024-12-02 19:48:33
License: 暂无描述

Hugging Face2024-12-02 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/allenai/tulu-3-sft-mixture

下载链接

链接失效反馈

官方服务：

资源简介：

Tulu 3 SFT Mixture数据集是一个用于训练Tulu 3系列模型的多语言数据集，包含939,344个样本。这些样本来源于多个不同的数据集，如CoCoNot、FLAN v2、No Robots等，涵盖了多种语言和任务。每个样本包含唯一标识符、用于监督微调的消息格式以及样本的来源数据集。数据集的结构设计用于支持指令微调任务，适用于研究和教育用途。

The Tulu 3 SFT Mixture dataset is a multilingual dataset used to train the Tulu 3 series of models, containing 939,344 samples. These samples are sourced from various datasets such as CoCoNot, FLAN v2, No Robots, etc., covering multiple languages and tasks. Each sample includes a unique identifier, a message format used for supervised fine-tuning, and the source dataset of the sample. The dataset structure is designed to support instruction-tuning tasks and is intended for research and educational use.

提供机构：

allenai

搜集汇总

数据集介绍

构建方式

在构建大规模语言模型监督微调数据集的背景下，Tulu 3 SFT Mixture 采用了集成策略，通过精心筛选和整合来自18个不同来源的公开数据集。其构建过程并非从零开始创建数据，而是对现有高质量指令遵循、数学推理、代码生成及多语言对话等数据集进行系统性的汇集与重组。每个子集均保留了原始的数据结构，并统一转化为包含唯一标识符、对话消息列表及数据来源的标准格式，最终形成了包含超过93万条样本的混合数据集，为模型训练提供了丰富且多样化的监督信号。

特点

该数据集的核心特征体现在其卓越的多样性与广泛覆盖性。它不仅涵盖了数学、代码、科学文献及安全对齐等多个专业领域，更包含了从英语到祖鲁语等超过70种语言的样本，展现出显著的多语言特性。数据集融合了众包、专家生成与机器生成等多种标注来源，确保了数据在风格与质量上的异质性。这种跨领域、跨语言、跨来源的复合结构，为训练具备强大泛化能力与遵循复杂指令的语言模型奠定了坚实的数据基础。

使用方法

在自然语言处理的研究与应用中，该数据集主要服务于大型语言模型的监督微调阶段。研究人员可通过Hugging Face平台直接加载数据集，利用其标准化的‘messages’字段结构，其中包含用户提示与助手回复的序列，来训练模型理解并执行多样化的指令。鉴于数据集是多个子集的混合体，且部分子集受限于非商业许可，使用者需仔细核查各组成部分的具体许可条款，确保其使用符合相应的研究或教育目的规范，并遵循负责任的AI使用准则。

背景与挑战

背景概述

Tulu 3 SFT Mixture 数据集由艾伦人工智能研究所于2024年构建，旨在推动开放语言模型的后训练研究。该数据集整合了来自CoCoNot、FLAN v2、Aya等18个高质量子集的93万余条指令微调样本，覆盖数学推理、代码生成、安全对齐及多语言对话等多样化任务。其核心研究问题聚焦于如何通过大规模、高质量且任务覆盖广泛的监督微调数据，有效提升大型语言模型在复杂指令遵循与专业领域任务上的泛化能力与鲁棒性。该数据集的发布为后续Tulu 3系列模型的训练提供了关键数据支撑，显著促进了开放领域指令微调技术的标准化与可复现性研究。

当前挑战

该数据集致力于解决开放领域语言模型指令微调中面临的核心挑战，即如何构建一个兼具规模、质量与任务多样性的训练语料，以克服模型在复杂推理、跨领域泛化及安全对齐等方面的性能瓶颈。在构建过程中，研究人员需应对多重挑战：其一，整合来自不同许可证与数据格式的异构子集，确保法律合规性与数据一致性；其二，在涵盖超过70种语言的庞大多语言环境中，维持数据质量与标注标准的统一；其三，平衡数学、代码、安全等专业领域数据与通用指令数据的比例，以优化模型在不同任务上的综合表现。这些挑战对数据清洗、去重与标准化流程提出了极高要求。

常用场景

经典使用场景

在大型语言模型（LLM）的监督微调（SFT）领域，Tulu-3 SFT Mixture数据集扮演着核心角色。该数据集通过整合来自CoCoNot、FLAN v2、Aya等近二十个高质量指令数据源，构建了一个覆盖数学推理、代码生成、多轮对话、安全对齐及多语言任务的混合训练集。其经典使用场景在于为Llama 3.1等基础模型提供全面且多样化的指令遵循微调数据，旨在系统化提升模型在复杂任务中的泛化能力和响应质量。

实际应用

在实际应用层面，基于该数据集微调的Tulu 3系列模型能够服务于智能助手、教育辅导、代码开发辅助及多语言客服等场景。例如，模型可依据用户指令生成解题步骤、编写Python代码片段，或以数十种语言进行信息查询与对话。数据集内含的安全对齐数据（如WildGuardMix）也助力模型在实际部署中识别并规避有害请求，增强了生成内容的可靠性与实用性。

衍生相关工作

该数据集直接催生了Tulu 3模型家族，包括基于Llama 3.1的8B与70B参数的SFT、DPO及最终RLHF版本。相关经典工作如Tulu 3系列模型的训练与评估框架，为后续研究提供了从监督微调到强化学习对齐的完整技术路径。此外，其子集如WildChat-1M、NuminaMath-TIR等也在对话生成、数学推理等细分领域激发了新的模型优化与评估方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集