instruct-mix

Hugging Face2026-01-23 更新2026-01-24 收录

下载链接：

https://huggingface.co/datasets/JonathanMiddleton/instruct-mix

下载链接

链接失效反馈

官方服务：

资源简介：

Instruct Mix Dataset是一个混合指令数据集，包含三个子数据集：smoltalk、arc_easy_challenge和dolly15k。smoltalk子集包含807,107个训练示例和37,482个验证示例，平均每个示例约1006个标记；arc_easy_challenge子集包含3,370个训练示例和167个验证示例，平均每个示例约77个标记；dolly15k子集包含14,261个训练示例和750个验证示例，平均每个示例约187.8个标记。数据集使用jonathanmiddleton/daisy分词器进行标记化，并确保训练和验证分割的独立性以避免数据泄漏。

The Instruct Mix Dataset is a mixed instruction dataset consisting of three subsets: smoltalk, arc_easy_challenge, and dolly15k. The smoltalk subset contains 807,107 training examples and 37,482 validation examples, with an average of approximately 1006 tokens per example; the arc_easy_challenge subset includes 3,370 training examples and 167 validation examples, averaging roughly 77 tokens per example; the dolly15k subset has 14,261 training examples and 750 validation examples, with an average of about 187.8 tokens per example. The dataset is tokenized using the jonathanmiddleton/daisy tokenizer, and the independence of training and validation splits is ensured to prevent data leakage.

创建时间：

2026-01-09

原始信息汇总

Instruct Mix 数据集概述

数据集基本信息

数据集名称: Instruct Mix Dataset
生成日期: 2026-01-22 14:59:26
构建配置:
- 分词器: jonathanmiddleton/daisy
- 分片规格: version=3, magic=20260114, dtype=uint16
- 随机种子: 1337

数据集整体统计

混合子集	数据划分	样本数	词元数
smoltalk	train	807,107	811,957,744
smoltalk	val	37,482	40,689,879
arc_easy_challenge	train	3,370	259,622
arc_easy_challenge	val	167	12,928
dolly15k	train	14,261	2,678,860
dolly15k	val	750	143,600
总计	train	824,738	814,896,226
总计	val	38,399	40,846,407

子集详情

1. Smoltalk

验证集比例: 5.0%
总量统计:

数据划分样本数词元数平均词元数/样本

train 807,107 811,957,744 1006.0

val 37,482 40,689,879 1085.6
来源构成（样本）:

来源 Train Train % Val Val % 独立划分

smoltalk 807,107 100.0% 37,482 100.0% ✓
来源构成（词元）:

来源 Train Train % Val Val % 平均词元数/样本 (Train)

smoltalk 811,957,744 100.0% 40,689,879 100.0% 1006.0

2. Arc Easy Challenge

验证集比例: 5.0%
总量统计:

数据划分样本数词元数平均词元数/样本

train 3,370 259,622 77.0

val 167 12,928 77.4
来源构成（样本）:

来源 Train Train % Val Val % 独立划分

arc_challenge 1,119 33.2% 55 32.9% ✓

arc_easy 2,251 66.8% 112 67.1% ✓
来源构成（词元）:

来源 Train Train % Val Val % 平均词元数/样本 (Train)

arc_challenge 92,718 35.7% 4,542 35.1% 82.9

arc_easy 166,904 64.3% 8,386 64.9% 74.1

3. Dolly15K

验证集比例: 5.0%
总量统计:

数据划分样本数词元数平均词元数/样本

train 14,261 2,678,860 187.8

val 750 143,600 191.5
来源构成（样本）:

来源 Train Train % Val Val % 独立划分

dolly15k 14,261 100.0% 750 100.0% ✗
来源构成（词元）:

来源 Train Train % Val Val % 平均词元数/样本 (Train)

dolly15k 2,678,860 100.0% 143,600 100.0% 187.8

关键说明

独立划分: 标记为 ✓ 的来源在原始数据集中具有独立的训练/验证划分。标记为 ✗ 的来源的数据是从单个划分中分割出来的，以避免训练/验证数据泄露。
词元统计: 词元计数基于使用指定分词器的分词表示。

搜集汇总

数据集介绍

构建方式

在指令微调数据集构建领域，instruct-mix数据集通过精心整合多个高质量子集而形成。其构建过程采用了jonathanmiddleton/daisy分词器进行统一处理，并设定了特定的分片规格与随机种子以确保可复现性。数据集主要融合了smoltalk、arc_easy_challenge和dolly15k三个来源，每个子集均按照5%的比例划分出验证集，总计包含超过82万训练样本与3.8万验证样本。构建时注重数据分割的独立性，对于原始已分拆的源数据采用直接继承，而对单一分割的源数据则进行内部划分，有效避免了训练与验证数据之间的泄露风险。

特点

该数据集在指令遵循与问答任务上展现出鲜明的复合特性。其规模庞大，总token量超过8.55亿，其中smoltalk子集贡献了绝大部分的文本量与样本数，平均每例token数约1000，提供了丰富的语言上下文。arc_easy_challenge子集则专注于科学问答，样本精炼且平均长度较短，体现了知识推理的密集性。dolly15k子集作为指令数据集，平均长度适中，涵盖了多样化的任务类型。整体而言，数据集在规模、领域覆盖与任务多样性之间取得了平衡，为模型训练提供了既宽广又具深度的语言素材。

使用方法

在自然语言处理模型的指令微调实践中，该数据集可直接用于训练与评估。研究者可加载统一处理后的tokenized数据，利用其清晰划分的训练集与验证集进行模型优化与性能验证。由于各子集来源与特点不同，建议在训练时可根据具体研究目标，考虑对混合数据采用均匀采样或按比例加权采样的策略，以平衡不同任务与领域的影响。验证集可用于监控模型在开放域对话、科学问答及通用指令遵循等多方面的泛化能力，为评估模型综合性能提供可靠基准。

背景与挑战

背景概述

Instruct-mix数据集诞生于2026年初，由研究团队通过整合多个高质量指令数据集构建而成，其核心目标在于推进大型语言模型在复杂指令理解与遵循方面的能力。该数据集融合了smoltalk、ARC挑战集以及Dolly15k等多个来源，旨在通过混合多样化的任务类型，如对话生成、常识推理与创造性写作，来模拟真实世界中的多轮交互场景。这种集成策略不仅丰富了训练数据的语义广度与深度，也为模型泛化性能的提升提供了坚实的数据基础，对自然语言处理领域向更通用、更鲁棒的人工智能系统发展具有显著的推动作用。

当前挑战

该数据集致力于解决指令遵循与多任务学习中的核心挑战，即如何让模型准确理解并执行涵盖不同领域与复杂度的开放式指令。在构建过程中，研究人员面临数据源异构性整合的难题，需确保来自smoltalk、ARC等不同结构数据集在格式与质量上的一致性，同时避免训练与验证集之间的信息泄露。此外，平衡各子集间的数据规模与任务代表性，以及采用特定分词器进行高效且无损的文本编码，均是实现数据集高可用性与研究价值的关键技术障碍。

常用场景

经典使用场景

在自然语言处理领域，指令微调已成为提升大型语言模型遵循人类意图能力的关键技术。Instruct-mix数据集通过整合smoltalk、ARC挑战集和Dolly15k等多个高质量指令数据集，构建了一个规模庞大且多样化的训练资源。该数据集最经典的使用场景是作为指令微调的基础语料，用于训练或优化模型在开放域对话、复杂推理和创造性写作等多任务场景下的响应生成能力。其混合特性确保了模型能够同时学习不同风格和难度的指令，从而增强泛化性能。

解决学术问题

Instruct-mix数据集有效应对了指令微调中数据稀缺与多样性不足的核心挑战。它通过融合多个来源的数据，解决了单一数据集可能存在的偏差问题，为研究社区提供了一个标准化的基准平台。该数据集支持探索模型在少样本学习、跨任务迁移以及指令遵循一致性等方面的学术问题，促进了对于模型如何从混合指令中提取通用知识的深入理解。其构建方法也为大规模数据集的合成与评估提供了重要参考。

衍生相关工作

围绕Instruct-mix数据集，研究社区衍生了一系列经典工作，主要集中在高效微调方法与模型评估框架上。例如，研究者利用其混合特性探索了参数高效微调技术，如LoRA，以降低训练成本。同时，该数据集也常被用作评估模型指令遵循能力和推理性能的基准，催生了针对多任务泛化、抗偏见性以及安全对齐等方面的评估协议。这些工作不仅深化了对指令学习机制的认识，也推动了下一代语言模型开发范式的演进。

以上内容由遇见数据集搜集并总结生成

来源	Train	Train %	Val	Val %	独立划分
arc_challenge	1,119	33.2%	55	32.9%	✓
arc_easy	2,251	66.8%	112	67.1%	✓

来源	Train	Train %	Val	Val %	平均词元数/样本 (Train)
arc_challenge	92,718	35.7%	4,542	35.1%	82.9
arc_easy	166,904	64.3%	8,386	64.9%	74.1