five

SurgeGlobal/Evol-Instruct|指令进化数据集|文本生成数据集

收藏
hugging_face2024-04-20 更新2024-06-15 收录
指令进化
文本生成
下载链接:
https://hf-mirror.com/datasets/SurgeGlobal/Evol-Instruct
下载链接
链接失效反馈
资源简介:
该数据集基于h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2模型生成,使用了databricks/databricks-dolly-15k数据集中的种子指令,并通过迭代进化方法生成指令。数据集包含2,304个指令调优样本,每个样本包含指令、响应、进化策略和类别等信息。数据集设计用于自动进化指令数据集,以增强指令的复杂性和多样性,从而训练语言模型执行广泛的任务。
提供机构:
SurgeGlobal
原始信息汇总

数据集概述

数据集配置

  • 配置名称: default
  • 数据文件:
    • 分割: train
    • 路径: data/train-*

数据集信息

  • 特征:
    • 名称: instruction
      • 数据类型: string
    • 名称: response
      • 数据类型: string
    • 名称: category
      • 数据类型: string
    • 名称: evolution_strategy
      • 数据类型: string
    • 名称: in-depth-evolving_operation
      • 数据类型: string
    • 名称: epoch
      • 数据类型: int64
    • 名称: falcon_status
      • 数据类型: string
    • 名称: falcon_rating
      • 数据类型: string
    • 名称: falcon_reason
      • 数据类型: string
    • 名称: gpt4_status
      • 数据类型: string
    • 名称: gpt4_rating
      • 数据类型: string
    • 名称: gpt4_reason
      • 数据类型: string
  • 分割:
    • 名称: train
      • 字节数: 4701491
      • 样本数: 2304
  • 下载大小: 2438727
  • 数据集大小: 4701491

任务类别

  • text-generation

语言

  • en

数据集生成

  • 基础模型: h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2
  • 种子指令: 从 databricks/databricks-dolly-15k 数据集中选出
  • 生成方法: 使用对话语法进行深度和广度进化的迭代进化指令
  • 总指令数: 2,304 个指令调优数据样本

数据集结构

  • 指令
  • 响应
  • 进化策略 (深度或广度)
  • 类别 (原始指令的类别)

用途

  • 用于指令数据集的自动进化,增强指令的复杂性和多样性,以训练语言模型执行广泛任务。

引用

@misc{surge2024openbezoar, title={OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data}, author={Chandeepa Dissanayake and Lahiru Lowe and Sachith Gunasekara and Yasiru Ratnayake}, year={2024}, eprint={2404.12195}, archivePrefix={arXiv}, primaryClass={cs.CL} }

数据集作者

  • Chandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, Yasiru Ratnayake
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

长基线雷电密度24小时分布图

长基线雷电密度24小时分布图由长基线探测仪雷电探测数据加工制作而成,长基线探测仪雷电探测数据由分布在亚太地区的多个VLF电磁脉冲探测仪观测产生,本数据集数据产品制作时选取探测范围内24小时的长基线探测仪雷电探测数据计算雷电密度,并叠加探测范围内的地理信息进行制图,长基线雷电密度24小时分布图时间间隔为24小时,每日8时(北京时)分别生成一张,图片以JPEG方式存储,可用于每24小时闪电密度分布直观显示,供用户查看亚欧大陆、太平洋及印度洋大部分地区的雷电发生情况。

国家空间科学数据中心 收录

GTEx (Genotype-Tissue Expression)

GTEx数据集包含了来自多个组织和器官的基因表达数据,旨在研究基因型与组织特异性表达之间的关系。数据集包括基因表达谱、基因型信息、组织样本的详细描述等。

gtexportal.org 收录

CWD30

CWD30包含超过219,770张20种杂草和10种作物的高分辨率图像,涵盖了不同的生长阶段、多个观察角度和环境条件。这些图像是从不同地理位置和季节的多样化农业领域收集的,确保了数据集的代表性。

github 收录