Instruction Tuning Datasets

github2023-12-01 更新2024-05-31 收录

下载链接：

https://github.com/raunak-agarwal/instruction-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

所有可用的大型语言模型指令调整数据集

All available large language model instruction tuning datasets

创建时间：

2023-04-01

原始信息汇总

黄金标准数据集

P3: 包含2000种提示类型的英语数据集，覆盖270个NLP任务。
xP3: 包含13个训练任务，46种语言，提示在20种语言中机器翻译自英语。
Natural Instructions v2: 包含1,616个多样化的NLP任务及其专家编写的指令，覆盖76种任务类型和55种语言。
The Flan Collection: 包含1836个任务，1500万个示例。
OpenAssistant/oasst1: 包含161,443条人类标注的助手风格对话，分布在66,497个对话树中，涉及35种语言，带有461,292个质量评分。
LIMA: 包含1000个高质量指令。
PRESTO: 包含55万条多语言人类与虚拟助手之间的上下文对话。
M3IT: 包含240万个多模态实例和400条指令，覆盖40个任务和80种语言。
Mind2Web: 旨在为Web上的通用代理提供数据。

银标准/生成数据集

Self-Instruct: 使用语言模型生成的指令数据集。
Unnatural Instructions: 包含非自然指令的数据集。
Alpaca: 包含清洁后的数据集Alpaca-Clean。
GPT4All: 包含修剪后的数据集GPT4All-pruned。
LLaVA-Instruct-150K: 包含GPT生成的多模态指令跟随数据。
LaMini-Instruction: 包含258万个指令和响应对。

偏好数据集

HH-RLHF: 包含约16万个人类评级的模型输出，评估其有害性和帮助性。
OpenAI WebGPT: 包含约2万个人类评级的模型答案比较。
OpenAI Summarization: 包含约9.3万个关于模型生成摘要的人类反馈。
Stanford Human Preferences Dataset (SHP): 包含38.5万个关于18个不同主题的人类偏好。

其他数据集

OIG: 包含上述数据集的超集。
oa_leet10k: 包含在多种编程语言中解决的LeetCode问题。

搜集汇总

数据集介绍

构建方式

Instruction Tuning Datasets的构建方式主要依赖于多样化的自然语言处理任务和专家编写的指令。该数据集整合了多个高质量的子数据集，如P3、xP3、Natural Instructions v2等，涵盖了从单语言到多语言、从单一任务到多任务的广泛范围。这些数据集通过人工标注、机器翻译以及模型生成等多种方式构建，确保了数据的多样性和覆盖广度。

使用方法

Instruction Tuning Datasets的使用方法主要包括数据加载、任务选择和模型训练。用户可以通过Hugging Face等平台直接访问数据集，并根据具体需求选择相应的子数据集进行加载。在模型训练过程中，用户可以利用这些数据集进行指令微调，以提升模型在特定任务上的表现。此外，数据集中的多模态数据也为跨领域研究提供了丰富的实验素材。

背景与挑战

背景概述

Instruction Tuning Datasets 是一个专门为大型语言模型（LLMs）的指令微调而设计的多样化数据集集合，涵盖了从自然语言处理任务到多模态指令跟随的广泛领域。该数据集的创建始于近年来，随着大型语言模型在多个领域的广泛应用，研究人员意识到通过指令微调可以显著提升模型的泛化能力和任务适应性。数据集的主要贡献者包括BigScience Workshop、Allen Institute for AI、Google Research等知名机构，涵盖了从P3、xP3到Natural Instructions v2等多个高质量数据集。这些数据集不仅为模型提供了丰富的任务类型和语言多样性，还通过专家编写的指令和人类标注的对话数据，推动了模型在复杂任务中的表现。

当前挑战

Instruction Tuning Datasets 面临的挑战主要体现在两个方面。首先，在领域问题的解决上，尽管数据集覆盖了广泛的NLP任务和多模态任务，但如何确保模型在低资源语言和复杂任务中的表现仍然是一个难题。例如，xP3数据集虽然涵盖了46种语言，但机器翻译的质量可能影响模型的学习效果。其次，在数据集的构建过程中，如何平衡数据的多样性与质量是一个关键挑战。例如，Open Assistant数据集虽然包含了大量人类标注的对话数据，但如何确保标注的一致性和任务的代表性仍需进一步优化。此外，生成式数据集（如Self-Instruct和Alpaca）依赖于语言模型生成数据，可能存在偏差和噪声，这为模型的微调带来了额外的复杂性。

常用场景

经典使用场景

Instruction Tuning Datasets 数据集广泛应用于大语言模型的指令微调领域，特别是在自然语言处理（NLP）任务中。通过提供多样化的任务和指令，该数据集帮助模型更好地理解和执行复杂的语言任务。例如，P3 数据集包含了超过 270 个数据集和 2000 种提示类型，覆盖了广泛的 NLP 任务，使得模型能够在多任务环境中进行高效训练。

解决学术问题

该数据集解决了大语言模型在指令理解和执行中的泛化能力问题。通过提供多语言、多任务和多模态的指令数据，模型能够在不同语言和任务之间进行迁移学习，显著提升了模型的跨任务和跨语言表现。例如，xP3 数据集包含了 46 种语言的训练任务，帮助模型在多语言环境中进行有效微调，解决了单一语言模型在跨语言任务中的局限性。

实际应用

在实际应用中，Instruction Tuning Datasets 被广泛用于开发智能助手和对话系统。例如，Open Assistant 数据集包含了 161,443 条人类标注的对话消息，支持 35 种语言，为开发多语言智能助手提供了丰富的训练数据。此外，该数据集还被用于开发虚拟助手和客服系统，提升了这些系统在复杂对话场景中的表现。

数据集最近研究