five

yizhongw/self_instruct

收藏
Hugging Face2023-03-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yizhongw/self_instruct
下载链接
链接失效反馈
官方服务:
资源简介:
Self-Instruct是一个框架,旨在帮助语言模型提升其遵循自然语言指令的能力。该框架通过使用模型自身生成的数据来创建大量的指令数据,从而减少对手动注释的依赖。数据集包含多个子集,如self_instruct、super_natural_instructions、p3和human_eval,每个子集都有特定的用途和结构。self_instruct子集包含82k个由OpenAI的davinci引擎生成的提示和模型完成;super_natural_instructions子集包含50k个从Super Natural Instructions数据集中采样的专家编写的指令和演示;p3子集包含50k个从Public Pool of Prompts (P3)数据集中采样的众包指令和演示;human_eval子集包含252个由专家编写的任务及其指令,这些任务以用户为导向的应用为动机。数据集主要用于指令调优,以提升语言模型的指令跟随能力。

Self-Instruct是一个框架,旨在帮助语言模型提升其遵循自然语言指令的能力。该框架通过使用模型自身生成的数据来创建大量的指令数据,从而减少对手动注释的依赖。数据集包含多个子集,如self_instruct、super_natural_instructions、p3和human_eval,每个子集都有特定的用途和结构。self_instruct子集包含82k个由OpenAI的davinci引擎生成的提示和模型完成;super_natural_instructions子集包含50k个从Super Natural Instructions数据集中采样的专家编写的指令和演示;p3子集包含50k个从Public Pool of Prompts (P3)数据集中采样的众包指令和演示;human_eval子集包含252个由专家编写的任务及其指令,这些任务以用户为导向的应用为动机。数据集主要用于指令调优,以提升语言模型的指令跟随能力。
提供机构:
yizhongw
原始信息汇总

数据集概述

数据集配置

  1. self_instruct

    • 特征:
      • prompt: 字符串类型
      • completion: 字符串类型
    • 数据分割:
      • train: 82612个样本,总大小20527462字节
    • 下载大小: 24113858字节
    • 数据集大小: 20527462字节
  2. human_eval

    • 特征:
      • id: 字符串类型
      • motivation_app: 字符串类型
      • instruction: 字符串类型
      • instances: 序列类型,包含:
        • input: 字符串类型
        • output: 字符串类型
    • 数据分割:
      • train: 252个样本,总大小151244字节
    • 下载大小: 170193字节
    • 数据集大小: 151244字节
  3. super_natural_instructions

    • 特征:
      • prompt: 字符串类型
      • completion: 字符串类型
    • 数据分割:
      • train: 50000个样本,总大小40352923字节
      • test: 11810个样本,总大小9713953字节
    • 下载大小: 52975509字节
    • 数据集大小: 50066876字节
  4. prompt_source

    • 特征:
      • prompt: 字符串类型
      • completion: 字符串类型
    • 数据分割:
      • train: 52657个样本,总大小57368889字节
    • 下载大小: 60126945字节
    • 数据集大小: 57368889字节
  5. p3

    • 特征:
      • prompt: 字符串类型
      • completion: 字符串类型
    • 数据分割:
      • train: 52657个样本,总大小57368889字节
    • 下载大小: 60126945字节
    • 数据集大小: 57368889字节

数据集描述

  • 数据集概要:
    • Self-Instruct是一个框架,用于帮助语言模型提高遵循自然语言指令的能力。该数据集包含52k指令,配对82K实例输入和输出,用于语言模型的指令调优。
  • 支持的任务和排行榜:
    • self_instruct: 82k提示和模型完成,由OpenAI的davinci引擎生成。
    • super_natural_instructions: 50k专家编写的指令和演示,来自Super Natural Instructions数据集。
    • p3: 50k众包指令和演示,来自Public Pool of Prompts (P3)数据集。
    • human_eval: 252个专家编写的任务及其指令,由用户导向的应用程序驱动。
  • 语言: 数据集中的数据为英语。

数据集结构

  • 数据实例:

    • self_instruct: 示例包含promptcompletion
    • super_natural_instructions: 示例包含promptcompletion
    • p3: 示例包含promptcompletion
    • human_eval: 示例包含idmotivation_appinstruction以及instances中的inputoutput
  • 数据字段:

    • self_instruct: promptcompletion
    • super_natural_instructions: promptcompletion
    • p3: promptcompletion
    • human_eval: idmotivation_appinstructioninstances.inputinstances.output
  • 数据分割:

    • self_instruct: 仅包含train分割,82612个样本。
    • super_natural_instructions: 包含traintest分割,分别为50000和11810个样本。
    • p3: 仅包含train分割,52657个样本。
    • human_eval: 仅包含train分割,252个样本。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
self_instruct数据集是一个用于提升语言模型遵循自然语言指令能力的框架,包含52k指令和82K实例输入输出,以及252个专家编写的任务。数据集支持指令训练预训练语言模型,包含四个子集,语言为英语。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作