five

Self-Instruct|自然语言处理数据集|指令生成数据集

收藏
github2022-12-01 更新2025-01-13 收录
自然语言处理
指令生成
下载链接:
https://github.com/yizhongw/self-instruct
下载链接
链接失效反馈
资源简介:
Self-Instruct-52K 是使用self-instruct 方法生成的英语指令数据集,共包含52K 条指令以及82K 个实例输入和输出。最初,由人工收集创建了175 个种子任务,每个任务包括1 个指令和1 个包含输入输出的实例。然后,每次随机抽取了8 个指令作为示例,以此提示GPT-3 生成了新的指令,之后在这些已有指令的基础上,继续利用GPT-3 生成实例输入及其对应的输出,从而获得了更多数据。这些新得到的指令和输入输出经过滤(去除低质量或重复数据)后会加入数据集中,并继续类似的循环。通过迭代上述过程,最终获得了52K 条指令和82K 个实例数据,其中每一条指令可能会用于生成多个输入输出的实例。

The Self-Instruct-52K dataset is an English instruction dataset generated using the self-instruct method, comprising a total of 52,000 instructions and 82,000 instance inputs and outputs. Initially, 175 seed tasks were manually collected and created, each consisting of one instruction and one instance with input and output. Subsequently, eight instructions were randomly selected each time as examples to prompt GPT-3 to generate new instructions. Based on these existing instructions, GPT-3 was further utilized to generate instance inputs and their corresponding outputs, thereby obtaining more data. The newly acquired instructions and input-output pairs were filtered (removing low-quality or duplicate data) and then added to the dataset, continuing a similar cycle. Through iterative repetition of the above process, a final collection of 52,000 instructions and 82,000 instance data was achieved, where each instruction may be used to generate multiple input-output instances.
提供机构:
University of Washington
创建时间:
2022-12-01
原始信息汇总

Self-Instruct数据集概述

数据集简介

  • 目的:用于提升预训练语言模型遵循自然语言指令的能力
  • 方法:通过模型自身生成创建大规模教学数据
  • 特点:无需依赖大量人工标注

数据内容

  • 规模
    • 52,000条指令
    • 82,000个实例输入输出对
  • 数据文件
    • 原始数据:data/gpt3-generations/batch_221203/all_instances_82K.jsonl
    • 格式化数据:data/finetuning/self_instruct_221203
  • 评估数据:252个专家编写的任务及指令

数据生成流程

  1. 从种子任务生成指令
  2. 识别指令是否为分类任务
  3. 为每条指令生成实例
  4. 进行过滤、处理和重新格式化

使用说明

  • 指令微调:可使用提供的数据对语言模型进行微调
  • 数据生成:支持使用自定义种子任务或其他模型生成新数据
  • 注意事项
    • 数据由GPT-3生成,可能存在错误或偏见
    • 随机抽样显示46%的数据点可能存在问题

相关资源

  • 论文:https://arxiv.org/abs/2212.10560
  • 代码:包含完整生成流程的脚本

引用格式

bibtex @misc{selfinstruct, title={Self-Instruct: Aligning Language Model with Self Generated Instructions}, author={Wang, Yizhong and Kordi, Yeganeh and Mishra, Swaroop and Liu, Alisa and Smith, Noah A. and Khashabi, Daniel and Hajishirzi, Hannaneh}, journal={arXiv preprint arXiv:2212.10560}, year={2022} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Self-Instruct数据集的构建采用了一种迭代的自举算法,该算法从一个手动编写的种子指令集开始,利用这些指令提示语言模型生成新的指令及相应的输入输出实例。生成的指令经过筛选,去除低质量或重复的内容,然后将筛选后的数据重新加入任务池中。这一过程可以多次重复,最终生成一个大规模的指令数据集,用于微调语言模型,使其更好地遵循指令。
特点
Self-Instruct数据集包含了52,000条指令,并配以82,000个实例输入输出对。这些数据由语言模型(如GPT-3)生成,虽然不可避免地存在一些错误或偏差,但通过筛选和处理,数据集能够为语言模型的指令跟随能力提供有效的训练支持。此外,数据集还包含252个专家编写的任务,这些任务基于用户导向的应用场景,进一步丰富了数据的多样性和实用性。
使用方法
Self-Instruct数据集可用于语言模型的指令微调,用户可以通过提供的脚本对GPT-3等模型进行微调,以提升其指令跟随能力。数据集以JSONL格式提供,用户可以直接使用或根据需求进行进一步处理。此外,数据集还提供了生成新指令数据的完整脚本,用户可以根据自己的种子任务或模型生成新的指令数据。使用该数据集时,建议用户注意数据中可能存在的错误或偏差,并结合新的过滤方法进行优化。
背景与挑战
背景概述
Self-Instruct数据集由Yizhong Wang等研究人员于2022年提出,旨在通过自生成指令数据来提升预训练语言模型的指令遵循能力。该数据集的核心研究问题是如何在缺乏大量人工标注数据的情况下,通过模型自身的生成能力,构建高质量的指令数据集,从而增强语言模型在多样化任务中的泛化能力。Self-Instruct框架通过迭代的自举算法,从少量种子指令出发,逐步生成并筛选出大量指令数据,最终用于微调语言模型。这一方法不仅减少了对人工标注的依赖,还为指令调优模型的研究提供了新的思路。该数据集在自然语言处理领域具有重要影响力,特别是在指令调优模型的开发与评估方面。
当前挑战
Self-Instruct数据集在构建过程中面临多重挑战。首先,模型生成的指令数据可能存在质量问题,如错误或偏见,这需要通过严格的筛选机制来确保数据的可靠性。其次,尽管自生成指令数据减少了对人工标注的依赖,但其多样性和创造性仍可能受到模型自身能力的限制。此外,如何有效评估模型在生成指令数据上的表现,以及如何将生成的数据应用于实际任务中,也是亟待解决的问题。最后,数据集的扩展性和通用性仍需进一步验证,以确保其在不同语言模型和任务场景中的适用性。
常用场景
经典使用场景
Self-Instruct数据集在自然语言处理领域中被广泛用于提升语言模型遵循自然语言指令的能力。通过模型自身生成的指令数据,研究者可以有效地对预训练语言模型进行微调,使其在多种任务中表现出更好的指令遵循能力。这一数据集特别适用于那些需要模型理解和执行复杂指令的场景,如自动化客服、智能助手等。
实际应用
在实际应用中,Self-Instruct数据集被广泛用于开发智能对话系统和自动化任务执行工具。例如,在智能客服领域,该数据集可以帮助模型更好地理解用户指令并提供准确的响应;在教育技术中,它可以用于开发智能辅导系统,根据学生的需求生成个性化的学习任务。此外,该数据集还为多语言和多领域的指令遵循任务提供了支持。
衍生相关工作
Self-Instruct数据集的发布催生了一系列相关研究工作,特别是在指令调优和自监督学习领域。许多研究者基于该数据集开发了新的模型微调方法,如多任务学习和元学习框架。此外,该数据集还被用于评估和改进语言模型的鲁棒性和泛化能力,推动了自然语言处理领域的技术创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

CBIS-DDSM

该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

Stanford Cars

Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。

OpenDataLab 收录

DroneVehicle 大规模无人机航拍车辆检测数据集

这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。

超神经 收录