Self-Instruct|自然语言处理数据集|指令生成数据集

github2022-12-01 更新2025-01-13 收录

自然语言处理

指令生成

下载链接：

https://github.com/yizhongw/self-instruct

下载链接

链接失效反馈

资源简介：

Self-Instruct-52K 是使用self-instruct 方法生成的英语指令数据集，共包含52K 条指令以及82K 个实例输入和输出。最初，由人工收集创建了175 个种子任务，每个任务包括1 个指令和1 个包含输入输出的实例。然后，每次随机抽取了8 个指令作为示例，以此提示GPT-3 生成了新的指令，之后在这些已有指令的基础上，继续利用GPT-3 生成实例输入及其对应的输出，从而获得了更多数据。这些新得到的指令和输入输出经过滤（去除低质量或重复数据）后会加入数据集中，并继续类似的循环。通过迭代上述过程，最终获得了52K 条指令和82K 个实例数据，其中每一条指令可能会用于生成多个输入输出的实例。

The Self-Instruct-52K dataset is an English instruction dataset generated using the self-instruct method, comprising a total of 52,000 instructions and 82,000 instance inputs and outputs. Initially, 175 seed tasks were manually collected and created, each consisting of one instruction and one instance with input and output. Subsequently, eight instructions were randomly selected each time as examples to prompt GPT-3 to generate new instructions. Based on these existing instructions, GPT-3 was further utilized to generate instance inputs and their corresponding outputs, thereby obtaining more data. The newly acquired instructions and input-output pairs were filtered (removing low-quality or duplicate data) and then added to the dataset, continuing a similar cycle. Through iterative repetition of the above process, a final collection of 52,000 instructions and 82,000 instance data was achieved, where each instruction may be used to generate multiple input-output instances.

提供机构：

University of Washington

创建时间：

2022-12-01

原始信息汇总

Self-Instruct数据集概述

数据集简介

目的：用于提升预训练语言模型遵循自然语言指令的能力
方法：通过模型自身生成创建大规模教学数据
特点：无需依赖大量人工标注

数据内容

规模：
- 52,000条指令
- 82,000个实例输入输出对
数据文件：
- 原始数据：data/gpt3-generations/batch_221203/all_instances_82K.jsonl
- 格式化数据：data/finetuning/self_instruct_221203
评估数据：252个专家编写的任务及指令

数据生成流程

从种子任务生成指令
识别指令是否为分类任务
为每条指令生成实例
进行过滤、处理和重新格式化

使用说明

指令微调：可使用提供的数据对语言模型进行微调
数据生成：支持使用自定义种子任务或其他模型生成新数据
注意事项：
- 数据由GPT-3生成，可能存在错误或偏见
- 随机抽样显示46%的数据点可能存在问题

引用格式

bibtex @misc{selfinstruct, title={Self-Instruct: Aligning Language Model with Self Generated Instructions}, author={Wang, Yizhong and Kordi, Yeganeh and Mishra, Swaroop and Liu, Alisa and Smith, Noah A. and Khashabi, Daniel and Hajishirzi, Hannaneh}, journal={arXiv preprint arXiv:2212.10560}, year={2022} }

AI搜集汇总

数据集介绍

构建方式

Self-Instruct数据集的构建采用了一种迭代的自举算法，该算法从一个手动编写的种子指令集开始，利用这些指令提示语言模型生成新的指令及相应的输入输出实例。生成的指令经过筛选，去除低质量或重复的内容，然后将筛选后的数据重新加入任务池中。这一过程可以多次重复，最终生成一个大规模的指令数据集，用于微调语言模型，使其更好地遵循指令。

特点

Self-Instruct数据集包含了52,000条指令，并配以82,000个实例输入输出对。这些数据由语言模型（如GPT-3）生成，虽然不可避免地存在一些错误或偏差，但通过筛选和处理，数据集能够为语言模型的指令跟随能力提供有效的训练支持。此外，数据集还包含252个专家编写的任务，这些任务基于用户导向的应用场景，进一步丰富了数据的多样性和实用性。

使用方法

Self-Instruct数据集可用于语言模型的指令微调，用户可以通过提供的脚本对GPT-3等模型进行微调，以提升其指令跟随能力。数据集以JSONL格式提供，用户可以直接使用或根据需求进行进一步处理。此外，数据集还提供了生成新指令数据的完整脚本，用户可以根据自己的种子任务或模型生成新的指令数据。使用该数据集时，建议用户注意数据中可能存在的错误或偏差，并结合新的过滤方法进行优化。

背景与挑战

背景概述

Self-Instruct数据集由Yizhong Wang等研究人员于2022年提出，旨在通过自生成指令数据来提升预训练语言模型的指令遵循能力。该数据集的核心研究问题是如何在缺乏大量人工标注数据的情况下，通过模型自身的生成能力，构建高质量的指令数据集，从而增强语言模型在多样化任务中的泛化能力。Self-Instruct框架通过迭代的自举算法，从少量种子指令出发，逐步生成并筛选出大量指令数据，最终用于微调语言模型。这一方法不仅减少了对人工标注的依赖，还为指令调优模型的研究提供了新的思路。该数据集在自然语言处理领域具有重要影响力，特别是在指令调优模型的开发与评估方面。

当前挑战

Self-Instruct数据集在构建过程中面临多重挑战。首先，模型生成的指令数据可能存在质量问题，如错误或偏见，这需要通过严格的筛选机制来确保数据的可靠性。其次，尽管自生成指令数据减少了对人工标注的依赖，但其多样性和创造性仍可能受到模型自身能力的限制。此外，如何有效评估模型在生成指令数据上的表现，以及如何将生成的数据应用于实际任务中，也是亟待解决的问题。最后，数据集的扩展性和通用性仍需进一步验证，以确保其在不同语言模型和任务场景中的适用性。

常用场景

经典使用场景

Self-Instruct数据集在自然语言处理领域中被广泛用于提升语言模型遵循自然语言指令的能力。通过模型自身生成的指令数据，研究者可以有效地对预训练语言模型进行微调，使其在多种任务中表现出更好的指令遵循能力。这一数据集特别适用于那些需要模型理解和执行复杂指令的场景，如自动化客服、智能助手等。

实际应用

在实际应用中，Self-Instruct数据集被广泛用于开发智能对话系统和自动化任务执行工具。例如，在智能客服领域，该数据集可以帮助模型更好地理解用户指令并提供准确的响应；在教育技术中，它可以用于开发智能辅导系统，根据学生的需求生成个性化的学习任务。此外，该数据集还为多语言和多领域的指令遵循任务提供了支持。

衍生相关工作

Self-Instruct数据集的发布催生了一系列相关研究工作，特别是在指令调优和自监督学习领域。许多研究者基于该数据集开发了新的模型微调方法，如多任务学习和元学习框架。此外，该数据集还被用于评估和改进语言模型的鲁棒性和泛化能力，推动了自然语言处理领域的技术创新。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

VoxBox

VoxBox是一个大规模语音语料库，由多样化的开源数据集构建而成，用于训练文本到语音（TTS）系统。

github 收录

Tropicos

Tropicos是一个全球植物名称数据库，包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护，旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

HIT-UAV

HIT-UAV数据集包含2898张红外热成像图像，这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景，如学校、停车场、道路和游乐场，在不同的光照条件下，包括白天和夜晚。