SurgeGlobal/Evol-Instruct|指令进化数据集|文本生成数据集

hugging_face2024-04-20 更新2024-06-15 收录

指令进化

文本生成

下载链接：

https://hf-mirror.com/datasets/SurgeGlobal/Evol-Instruct

下载链接

链接失效反馈

资源简介：

该数据集基于h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2模型生成，使用了databricks/databricks-dolly-15k数据集中的种子指令，并通过迭代进化方法生成指令。数据集包含2,304个指令调优样本，每个样本包含指令、响应、进化策略和类别等信息。数据集设计用于自动进化指令数据集，以增强指令的复杂性和多样性，从而训练语言模型执行广泛的任务。

提供机构：

SurgeGlobal

原始信息汇总

数据集概述

数据集配置

配置名称: default
数据文件:
- 分割: train
- 路径: data/train-*

数据集信息

特征:
- 名称: instruction
  - 数据类型: string
- 名称: response
  - 数据类型: string
- 名称: category
  - 数据类型: string
- 名称: evolution_strategy
  - 数据类型: string
- 名称: in-depth-evolving_operation
  - 数据类型: string
- 名称: epoch
  - 数据类型: int64
- 名称: falcon_status
  - 数据类型: string
- 名称: falcon_rating
  - 数据类型: string
- 名称: falcon_reason
  - 数据类型: string
- 名称: gpt4_status
  - 数据类型: string
- 名称: gpt4_rating
  - 数据类型: string
- 名称: gpt4_reason
  - 数据类型: string
分割:
- 名称: train
  - 字节数: 4701491
  - 样本数: 2304
下载大小: 2438727
数据集大小: 4701491

任务类别

text-generation

语言

数据集生成

基础模型: h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2
种子指令: 从 databricks/databricks-dolly-15k 数据集中选出
生成方法: 使用对话语法进行深度和广度进化的迭代进化指令
总指令数: 2,304 个指令调优数据样本

数据集结构

指令
响应
进化策略 (深度或广度)
类别 (原始指令的类别)

用途

用于指令数据集的自动进化，增强指令的复杂性和多样性，以训练语言模型执行广泛任务。

引用

@misc{surge2024openbezoar, title={OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data}, author={Chandeepa Dissanayake and Lahiru Lowe and Sachith Gunasekara and Yasiru Ratnayake}, year={2024}, eprint={2404.12195}, archivePrefix={arXiv}, primaryClass={cs.CL} }

数据集作者

Chandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, Yasiru Ratnayake

AI搜集汇总

数据集介绍

构建方式

该数据集的构建基于迭代进化策略，选取databricks-dolly-15k数据集中的指令作为种子指令，利用会话语法的深入与广泛进化，形成了2304个指令微调数据样本。构建过程中，采用了h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2作为基础模型，确保了数据集的质量和多样性。

特点

Evol-Instruct数据集的特点在于其独特的进化策略，不仅包含了指令和响应，还详细记录了进化策略（深入或广泛）、原始指令类别，以及与falcon和gpt4模型相关的状态、评分和原因等信息。这些丰富的特征使得数据集在指令数据自动进化领域具有显著的应用价值。

使用方法

使用该数据集时，研究者可以依据其结构化数据格式，轻松进行指令的自动进化训练，以增强语言模型处理各类任务的复杂性和多样性。数据集的详细标注和分类使得其在自动指令生成和语言模型训练中具有广泛的适用性。

背景与挑战

背景概述

在自然语言处理领域，构建能够理解和执行复杂指令的语言模型是研究的热点。Evol-Instruct数据集，由Chandeepa Dissanayake等研究人员于2024年创建，旨在通过自动演化指令数据集，提升语言模型在多样任务中的表现。该数据集基于h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2基础模型，采用迭代演化的方式，对指令进行深入与广泛的优化。其包含了2304个指令调整数据样本，对于推动指令微调技术的发展具有显著的研究价值。

当前挑战

Evol-Instruct数据集在构建过程中所面临的挑战主要包括如何确保演化过程的效率和指令的多样性。在解决领域问题上，数据集需应对如何有效提升语言模型理解和执行复杂指令的能力。此外，构建过程中的挑战还体现在如何平衡指令的深度与广度演化，以及如何客观评估模型对演化后指令的响应质量和准确性。

常用场景

经典使用场景

在自然语言处理领域，SurgeGlobal/Evol-Instruct数据集被广泛应用于指令数据集的自动演化研究。该数据集通过迭代进化方式，深度与广度相结合，生成复杂且多样化的指令，进而用于训练语言模型，以应对多样化的任务挑战。

解决学术问题

该数据集解决了传统指令数据集在多样性和复杂性方面的局限性，有助于提升语言模型对复杂任务的理解和执行能力。其独特的指令演化策略，为学术研究提供了新的视角和方法，促进了指令生成领域的发展。

衍生相关工作

基于该数据集，研究人员已经开展了一系列相关研究工作，如指令优化的新算法、对话系统的改进方法等，这些工作进一步推动了自然语言处理技术的进步和语言模型的应用范围。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

PartNet

我们介绍了PartNet: 一个一致的、大规模的三维对象数据集，用细粒度的、实例级的和分层的三维零件信息进行注释。我们的数据集包括573,585个零件实例，超过26,671个3D模型，涵盖24个对象类别。该数据集支持并充当许多任务的催化剂，例如形状分析，动态3D场景建模和仿真，可承受分析等。使用我们的数据集，我们建立了用于评估3D零件识别的三个基准任务: 细粒度语义分割，分层语义分割和实例分割。我们对四种最先进的3D深度学习算法进行了基准测试，用于细粒度语义分割，并对三种基线方法进行了基准测试。我们还提出了一种新颖的零件实例分割方法，并证明了其优于现有方法的性能。

OpenDataLab 收录

CMU-MOSI

CMU-MOSI数据集包括了从93个YouTube的视频中获取的2199个独白类型的短视频片段。每个片段都是一个独立的多模态示例，其中图像、文本和音频占比是均匀的，情感分数取值为[-3,+3]，表示从强负向到强正向情感。

DataCite Commons 收录

Spambase

Spambase数据集是一个垃圾邮件数据集，包含57个属性和4601个实例。该数据集主要用于垃圾邮件的识别和分类。垃圾邮件的资源都来自邮件管理员和提交垃圾邮件的个人。可用于构建垃圾邮件过滤器。该数据集由惠普实验室在1999年7月发布，马克·霍普金斯、埃里克·里伯、乔治·福尔曼和雅普·苏蒙德为主要贡献者。

OpenDataLab 收录