mosaicml/instruct-v3

Name: mosaicml/instruct-v3
Creator: mosaicml
Published: 2023-10-02 15:46:55
License: 暂无描述

Hugging Face2023-10-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mosaicml/instruct-v3

下载链接

链接失效反馈

官方服务：

资源简介：

MosaicML Instruct V3是一个聚合数据集，由Dolly HHRLHF（源自Databricks Dolly-15k和Anthropic Helpful and Harmless (HH-RLHF)数据集）、Competition Math、Duorc、CoT GSM8k、Qasper、Quality、Summ Screen FD和Spider等多个数据集组合而成。该数据集的目的是创建一个具有大量长样本的指令跟随数据集。数据处理包括将数据格式化为Alpaca格式、过滤长度和重复项、添加指令（用于摘要和问答数据集）以及使指令更像人类输入（如变换大小写、添加拼写错误等）。数据来源及其比例在README中有详细说明。数据集的使用受CC BY-SA 3.0许可证约束，并提供了引用格式。

提供机构：

mosaicml

原始信息汇总

数据集概述

数据集名称

MosaicML Instruct V3

数据集组成

该数据集由多个子数据集组合而成，包括：
- Dolly HHRLHF (源自Databricks Dolly-15k和Anthropic HH-RLHF)
- Competition Math
- Duorc
- CoT GSM8k
- Qasper
- Quality
- Summ Screen FD
- Spider

数据集特征

prompt (字符串类型)
response (字符串类型)
source (字符串类型)

数据集分割

train
- 样本数量: 56167
- 数据大小: 220790357 字节
test
- 样本数量: 6807
- 数据大小: 18266901 字节

数据集大小

下载大小: 137475849 字节
数据集总大小: 239057258 字节

数据处理

数据在创建过程中经过以下处理：
- 格式化为Alpaca格式
- 长度过滤
- 去重处理
- 添加指令（针对总结和QA数据集）
- 使指令更接近人类输入（如转换大小写，添加拼写错误等）

数据混合比例

数据源	样本数量	比例（按样本数）	源数据中的令牌数	比例（按令牌数）
competition_math	4,995	8.89%	1.6 M	3.66%
cot_gsm8k	4,995	8.89%	3.36 M	7.67%
dialogsum	400	0.71%	0.1 M	0.23%
dolly_hhrlhf	34,333	61.13%	5.89 M	13.43%
duorc	4,986	8.88%	7.8 M	17.80%
qasper	1,998	3.56%	8.72 M	19.90%
quality	1,963	3.49%	11.29 M	25.78%
scrolls/summ_screen_fd	1,498	2.67%	4.97 M	11.33%
spider	999	1.78%	0.089 M	0.20%

许可证/归属

该数据集由MosaicML开发，使用受CC BY-SA 3.0许可证约束。
数据集中某些类别的材料来自以下来源，同样受CC BY-SA 3.0许可证约束：
- Wikipedia
- Dolly — Databricks

引用信息

@misc{mosaicml2023instruct-v3, author = {MosaicML}, title = {MosaicML Instruct-v3 Dataset}, year = {2023}, publisher = {HuggingFace Datasets}, howpublished = {https://huggingface.co/datasets/mosaicml/instruct-v3}, }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的指令遵循数据集对于提升模型的理解与生成能力至关重要。MosaicML Instruct V3数据集通过集成多个知名开源数据集，包括Dolly HHRLHF、Competition Math、Duorc等，形成了一个规模庞大且多样化的集合。其构建过程涉及数据格式的统一转换，采用Alpaca格式进行标准化处理，随后通过长度筛选、去重以及指令增强等步骤，确保数据质量与一致性。特别地，为模拟真实人类输入，部分指令还引入了大小写变换和拼写错误等人为噪声，增强了数据的自然性与实用性。

特点

该数据集的核心特点在于其广泛的领域覆盖与丰富的样本类型，涵盖了数学推理、对话摘要、问答系统及代码生成等多个自然语言处理任务。数据集中包含超过五万条训练样本，其中长文本样本占比较高，有助于模型学习复杂语境下的指令遵循能力。此外，数据集遵循CC BY-SA 3.0许可协议，确保了使用的合法性与开放性，为学术研究和商业应用提供了可靠的数据支持。其多样化的数据源组合不仅提升了模型的泛化性能，还促进了跨任务的知识迁移。

使用方法

使用MosaicML Instruct V3数据集时，研究人员可将其直接应用于指令调优或监督微调任务，以增强大型语言模型在多样化指令下的响应能力。数据集已预先划分为训练集和测试集，用户可通过HuggingFace平台便捷加载，并利用其标准化的提示-响应结构进行模型训练。在实际应用中，建议结合具体任务需求，对数据子集进行选择性采样或进一步预处理，以优化模型性能。该数据集的开放许可允许广泛的二次开发与分发，为自然语言处理领域的创新提供了坚实基础。

背景与挑战

背景概述

在人工智能领域，指令跟随数据集的构建对于提升大型语言模型的交互能力至关重要。MosaicML Instruct-v3数据集由MosaicML公司于2023年发布，旨在整合多个高质量开源数据集，形成一个具有宽松许可的长样本指令数据集。该数据集融合了Dolly HHRLHF、Competition Math、Duorc等多个来源，覆盖数学推理、对话总结、问答等多种任务，其核心研究问题在于如何通过多样化的指令数据优化模型对人类复杂指令的理解与生成能力，对推动开放域对话与任务型AI系统的发展具有显著影响力。

当前挑战

该数据集致力于解决指令跟随模型在多样化、长文本任务中的泛化能力挑战，包括数学推理、文本摘要、问答等复杂场景的准确响应。在构建过程中，面临多重挑战：数据来源异构性导致格式统一与质量控制的复杂性；样本长度过滤与去重需平衡数据多样性与噪声消除；指令的人性化改造，如添加拼写错误与句式转换，以模拟真实用户输入，同时保持语义一致性；以及在不同任务间分配样本比例，确保模型训练的均衡性与有效性。

常用场景

经典使用场景

在大型语言模型指令微调领域，MosaicML Instruct V3数据集凭借其精心整合的多源长文本样本，为模型提供了丰富的指令遵循训练环境。该数据集融合了数学推理、对话摘要、问答生成等多种任务类型，使得模型能够在多样化的人类指令下学习生成连贯、准确且符合伦理的响应，从而显著提升模型在开放域对话和复杂任务处理中的泛化能力。

衍生相关工作

该数据集催生了一系列围绕指令微调与模型对齐的研究，例如基于其构建的MosaicML开源模型系列，以及在模型伦理评估、多任务学习框架上的延伸工作。这些研究进一步探索了数据混合策略对模型性能的影响，并为后续如LLaMA、Vicuna等社区模型的优化提供了数据基础，促进了开源大模型生态的发展。

数据集最近研究