yizhongw/self_instruct
收藏Hugging Face2023-03-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yizhongw/self_instruct
下载链接
链接失效反馈官方服务:
资源简介:
Self-Instruct是一个框架,旨在帮助语言模型提升其遵循自然语言指令的能力。该框架通过使用模型自身生成的数据来创建大量的指令数据,从而减少对手动注释的依赖。数据集包含多个子集,如self_instruct、super_natural_instructions、p3和human_eval,每个子集都有特定的用途和结构。self_instruct子集包含82k个由OpenAI的davinci引擎生成的提示和模型完成;super_natural_instructions子集包含50k个从Super Natural Instructions数据集中采样的专家编写的指令和演示;p3子集包含50k个从Public Pool of Prompts (P3)数据集中采样的众包指令和演示;human_eval子集包含252个由专家编写的任务及其指令,这些任务以用户为导向的应用为动机。数据集主要用于指令调优,以提升语言模型的指令跟随能力。
Self-Instruct是一个框架,旨在帮助语言模型提升其遵循自然语言指令的能力。该框架通过使用模型自身生成的数据来创建大量的指令数据,从而减少对手动注释的依赖。数据集包含多个子集,如self_instruct、super_natural_instructions、p3和human_eval,每个子集都有特定的用途和结构。self_instruct子集包含82k个由OpenAI的davinci引擎生成的提示和模型完成;super_natural_instructions子集包含50k个从Super Natural Instructions数据集中采样的专家编写的指令和演示;p3子集包含50k个从Public Pool of Prompts (P3)数据集中采样的众包指令和演示;human_eval子集包含252个由专家编写的任务及其指令,这些任务以用户为导向的应用为动机。数据集主要用于指令调优,以提升语言模型的指令跟随能力。
提供机构:
yizhongw
原始信息汇总
数据集概述
数据集配置
-
self_instruct
- 特征:
prompt: 字符串类型completion: 字符串类型
- 数据分割:
train: 82612个样本,总大小20527462字节
- 下载大小: 24113858字节
- 数据集大小: 20527462字节
- 特征:
-
human_eval
- 特征:
id: 字符串类型motivation_app: 字符串类型instruction: 字符串类型instances: 序列类型,包含:input: 字符串类型output: 字符串类型
- 数据分割:
train: 252个样本,总大小151244字节
- 下载大小: 170193字节
- 数据集大小: 151244字节
- 特征:
-
super_natural_instructions
- 特征:
prompt: 字符串类型completion: 字符串类型
- 数据分割:
train: 50000个样本,总大小40352923字节test: 11810个样本,总大小9713953字节
- 下载大小: 52975509字节
- 数据集大小: 50066876字节
- 特征:
-
prompt_source
- 特征:
prompt: 字符串类型completion: 字符串类型
- 数据分割:
train: 52657个样本,总大小57368889字节
- 下载大小: 60126945字节
- 数据集大小: 57368889字节
- 特征:
-
p3
- 特征:
prompt: 字符串类型completion: 字符串类型
- 数据分割:
train: 52657个样本,总大小57368889字节
- 下载大小: 60126945字节
- 数据集大小: 57368889字节
- 特征:
数据集描述
- 数据集概要:
- Self-Instruct是一个框架,用于帮助语言模型提高遵循自然语言指令的能力。该数据集包含52k指令,配对82K实例输入和输出,用于语言模型的指令调优。
- 支持的任务和排行榜:
- self_instruct: 82k提示和模型完成,由OpenAI的
davinci引擎生成。 - super_natural_instructions: 50k专家编写的指令和演示,来自Super Natural Instructions数据集。
- p3: 50k众包指令和演示,来自Public Pool of Prompts (P3)数据集。
- human_eval: 252个专家编写的任务及其指令,由用户导向的应用程序驱动。
- self_instruct: 82k提示和模型完成,由OpenAI的
- 语言: 数据集中的数据为英语。
数据集结构
-
数据实例:
- self_instruct: 示例包含
prompt和completion。 - super_natural_instructions: 示例包含
prompt和completion。 - p3: 示例包含
prompt和completion。 - human_eval: 示例包含
id、motivation_app、instruction以及instances中的input和output。
- self_instruct: 示例包含
-
数据字段:
- self_instruct:
prompt和completion。 - super_natural_instructions:
prompt和completion。 - p3:
prompt和completion。 - human_eval:
id、motivation_app、instruction、instances.input和instances.output。
- self_instruct:
-
数据分割:
- self_instruct: 仅包含
train分割,82612个样本。 - super_natural_instructions: 包含
train和test分割,分别为50000和11810个样本。 - p3: 仅包含
train分割,52657个样本。 - human_eval: 仅包含
train分割,252个样本。
- self_instruct: 仅包含
搜集汇总
数据集介绍

背景与挑战
背景概述
self_instruct数据集是一个用于提升语言模型遵循自然语言指令能力的框架,包含52k指令和82K实例输入输出,以及252个专家编写的任务。数据集支持指令训练预训练语言模型,包含四个子集,语言为英语。
以上内容由遇见数据集搜集并总结生成



