five

Self-Instruct|自然语言处理数据集|指令生成数据集

收藏
github2022-12-01 更新2025-01-13 收录
自然语言处理
指令生成
下载链接:
https://github.com/yizhongw/self-instruct
下载链接
链接失效反馈
资源简介:
Self-Instruct-52K 是使用self-instruct 方法生成的英语指令数据集,共包含52K 条指令以及82K 个实例输入和输出。最初,由人工收集创建了175 个种子任务,每个任务包括1 个指令和1 个包含输入输出的实例。然后,每次随机抽取了8 个指令作为示例,以此提示GPT-3 生成了新的指令,之后在这些已有指令的基础上,继续利用GPT-3 生成实例输入及其对应的输出,从而获得了更多数据。这些新得到的指令和输入输出经过滤(去除低质量或重复数据)后会加入数据集中,并继续类似的循环。通过迭代上述过程,最终获得了52K 条指令和82K 个实例数据,其中每一条指令可能会用于生成多个输入输出的实例。

The Self-Instruct-52K dataset is an English instruction dataset generated using the self-instruct method, comprising a total of 52,000 instructions and 82,000 instance inputs and outputs. Initially, 175 seed tasks were manually collected and created, each consisting of one instruction and one instance with input and output. Subsequently, eight instructions were randomly selected each time as examples to prompt GPT-3 to generate new instructions. Based on these existing instructions, GPT-3 was further utilized to generate instance inputs and their corresponding outputs, thereby obtaining more data. The newly acquired instructions and input-output pairs were filtered (removing low-quality or duplicate data) and then added to the dataset, continuing a similar cycle. Through iterative repetition of the above process, a final collection of 52,000 instructions and 82,000 instance data was achieved, where each instruction may be used to generate multiple input-output instances.
提供机构:
University of Washington
创建时间:
2022-12-01
原始信息汇总

Self-Instruct数据集概述

数据集简介

  • 目的:用于提升预训练语言模型遵循自然语言指令的能力
  • 方法:通过模型自身生成创建大规模教学数据
  • 特点:无需依赖大量人工标注

数据内容

  • 规模
    • 52,000条指令
    • 82,000个实例输入输出对
  • 数据文件
    • 原始数据:data/gpt3-generations/batch_221203/all_instances_82K.jsonl
    • 格式化数据:data/finetuning/self_instruct_221203
  • 评估数据:252个专家编写的任务及指令

数据生成流程

  1. 从种子任务生成指令
  2. 识别指令是否为分类任务
  3. 为每条指令生成实例
  4. 进行过滤、处理和重新格式化

使用说明

  • 指令微调:可使用提供的数据对语言模型进行微调
  • 数据生成:支持使用自定义种子任务或其他模型生成新数据
  • 注意事项
    • 数据由GPT-3生成,可能存在错误或偏见
    • 随机抽样显示46%的数据点可能存在问题

相关资源

  • 论文:https://arxiv.org/abs/2212.10560
  • 代码:包含完整生成流程的脚本

引用格式

bibtex @misc{selfinstruct, title={Self-Instruct: Aligning Language Model with Self Generated Instructions}, author={Wang, Yizhong and Kordi, Yeganeh and Mishra, Swaroop and Liu, Alisa and Smith, Noah A. and Khashabi, Daniel and Hajishirzi, Hannaneh}, journal={arXiv preprint arXiv:2212.10560}, year={2022} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Self-Instruct数据集的构建采用了一种迭代的自举算法,该算法从一个手动编写的种子指令集开始,利用这些指令提示语言模型生成新的指令及相应的输入输出实例。生成的指令经过筛选,去除低质量或重复的内容,然后将筛选后的数据重新加入任务池中。这一过程可以多次重复,最终生成一个大规模的指令数据集,用于微调语言模型,使其更好地遵循指令。
特点
Self-Instruct数据集包含了52,000条指令,并配以82,000个实例输入输出对。这些数据由语言模型(如GPT-3)生成,虽然不可避免地存在一些错误或偏差,但通过筛选和处理,数据集能够为语言模型的指令跟随能力提供有效的训练支持。此外,数据集还包含252个专家编写的任务,这些任务基于用户导向的应用场景,进一步丰富了数据的多样性和实用性。
使用方法
Self-Instruct数据集可用于语言模型的指令微调,用户可以通过提供的脚本对GPT-3等模型进行微调,以提升其指令跟随能力。数据集以JSONL格式提供,用户可以直接使用或根据需求进行进一步处理。此外,数据集还提供了生成新指令数据的完整脚本,用户可以根据自己的种子任务或模型生成新的指令数据。使用该数据集时,建议用户注意数据中可能存在的错误或偏差,并结合新的过滤方法进行优化。
背景与挑战
背景概述
Self-Instruct数据集由Yizhong Wang等研究人员于2022年提出,旨在通过自生成指令数据来提升预训练语言模型的指令遵循能力。该数据集的核心研究问题是如何在缺乏大量人工标注数据的情况下,通过模型自身的生成能力,构建高质量的指令数据集,从而增强语言模型在多样化任务中的泛化能力。Self-Instruct框架通过迭代的自举算法,从少量种子指令出发,逐步生成并筛选出大量指令数据,最终用于微调语言模型。这一方法不仅减少了对人工标注的依赖,还为指令调优模型的研究提供了新的思路。该数据集在自然语言处理领域具有重要影响力,特别是在指令调优模型的开发与评估方面。
当前挑战
Self-Instruct数据集在构建过程中面临多重挑战。首先,模型生成的指令数据可能存在质量问题,如错误或偏见,这需要通过严格的筛选机制来确保数据的可靠性。其次,尽管自生成指令数据减少了对人工标注的依赖,但其多样性和创造性仍可能受到模型自身能力的限制。此外,如何有效评估模型在生成指令数据上的表现,以及如何将生成的数据应用于实际任务中,也是亟待解决的问题。最后,数据集的扩展性和通用性仍需进一步验证,以确保其在不同语言模型和任务场景中的适用性。
常用场景
经典使用场景
Self-Instruct数据集在自然语言处理领域中被广泛用于提升语言模型遵循自然语言指令的能力。通过模型自身生成的指令数据,研究者可以有效地对预训练语言模型进行微调,使其在多种任务中表现出更好的指令遵循能力。这一数据集特别适用于那些需要模型理解和执行复杂指令的场景,如自动化客服、智能助手等。
实际应用
在实际应用中,Self-Instruct数据集被广泛用于开发智能对话系统和自动化任务执行工具。例如,在智能客服领域,该数据集可以帮助模型更好地理解用户指令并提供准确的响应;在教育技术中,它可以用于开发智能辅导系统,根据学生的需求生成个性化的学习任务。此外,该数据集还为多语言和多领域的指令遵循任务提供了支持。
衍生相关工作
Self-Instruct数据集的发布催生了一系列相关研究工作,特别是在指令调优和自监督学习领域。许多研究者基于该数据集开发了新的模型微调方法,如多任务学习和元学习框架。此外,该数据集还被用于评估和改进语言模型的鲁棒性和泛化能力,推动了自然语言处理领域的技术创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

lmarena-ai/arena-hard-auto-v0.1

--- license: apache-2.0 dataset_info: features: - name: question_id dtype: string - name: category dtype: string - name: cluster dtype: string - name: turns list: - name: content dtype: string splits: - name: train num_bytes: 251691 num_examples: 500 download_size: 154022 dataset_size: 251691 configs: - config_name: default data_files: - split: train path: data/train-* --- ## Arena-Hard-Auto **Arena-Hard-Auto-v0.1** ([See Paper](https://arxiv.org/abs/2406.11939)) is an automatic evaluation tool for instruction-tuned LLMs. It contains 500 challenging user queries sourced from Chatbot Arena. We prompt GPT-4-Turbo as judge to compare the models' responses against a baseline model (default: GPT-4-0314). Notably, Arena-Hard-Auto has the highest *correlation* and *separability* to Chatbot Arena among popular open-ended LLM benchmarks ([See Paper](https://arxiv.org/abs/2406.11939)). If you are curious to see how well your model might perform on Chatbot Arena, we recommend trying Arena-Hard-Auto. Please checkout our GitHub repo on how to evaluate models using Arena-Hard-Auto and more information about the benchmark. If you find this dataset useful, feel free to cite us! ``` @article{li2024crowdsourced, title={From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline}, author={Li, Tianle and Chiang, Wei-Lin and Frick, Evan and Dunlap, Lisa and Wu, Tianhao and Zhu, Banghua and Gonzalez, Joseph E and Stoica, Ion}, journal={arXiv preprint arXiv:2406.11939}, year={2024} } ```

hugging_face 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

全国兴趣点(POI)数据

  POI(Point of Interest),即兴趣点,一个POI可以是餐厅、超市、景点、酒店、车站、停车场等。兴趣点通常包含四方面信息,分别为名称、类别、坐标、分类。其中,分类一般有一级分类和二级分类,每个分类都有相应的行业的代码和名称一一对应。  POI包含的信息及其衍生信息主要包含三个部分:

CnOpenData 收录

CTD (Comparative Toxicogenomics Database)

CTD是一个综合性的数据库,旨在通过整合基因、化学物质、疾病和环境暴露的数据,来促进对环境因素与人类疾病之间关系的理解。该数据库包括化学物质与基因的相互作用、化学物质与疾病的关联、基因与疾病的关联以及化学物质与环境暴露的关联。CTD还提供数据下载、API访问和在线查询工具。

ctdbase.org 收录

QM9

QM9数据集包含134k个有机小分子化合物的量子化学计算结果,涵盖了12个量子化学性质,如分子能量、电离能、电子亲和能等。

quantum-machine.org 收录