SurgeGlobal/Evol-Instruct
收藏Hugging Face2024-04-20 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/SurgeGlobal/Evol-Instruct
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2模型生成,使用了databricks/databricks-dolly-15k数据集中的种子指令,并通过迭代进化方法生成指令。数据集包含2,304个指令调优样本,每个样本包含指令、响应、进化策略和类别等信息。数据集设计用于自动进化指令数据集,以增强指令的复杂性和多样性,从而训练语言模型执行广泛的任务。
This dataset is generated based on the h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2 model, utilizing seed instructions from the databricks/databricks-dolly-15k dataset and generating instructions via an iterative evolutionary approach. It contains 2,304 instruction-tuning samples, each including information such as instruction, response, evolutionary strategy, and category. This dataset is designed for automatically evolving instruction datasets to enhance the complexity and diversity of instructions, thereby training language models to perform a wide range of tasks.
提供机构:
SurgeGlobal
原始信息汇总
数据集概述
数据集配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
数据集信息
- 特征:
- 名称: instruction
- 数据类型: string
- 名称: response
- 数据类型: string
- 名称: category
- 数据类型: string
- 名称: evolution_strategy
- 数据类型: string
- 名称: in-depth-evolving_operation
- 数据类型: string
- 名称: epoch
- 数据类型: int64
- 名称: falcon_status
- 数据类型: string
- 名称: falcon_rating
- 数据类型: string
- 名称: falcon_reason
- 数据类型: string
- 名称: gpt4_status
- 数据类型: string
- 名称: gpt4_rating
- 数据类型: string
- 名称: gpt4_reason
- 数据类型: string
- 名称: instruction
- 分割:
- 名称: train
- 字节数: 4701491
- 样本数: 2304
- 名称: train
- 下载大小: 2438727
- 数据集大小: 4701491
任务类别
- text-generation
语言
- en
数据集生成
- 基础模型: h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2
- 种子指令: 从 databricks/databricks-dolly-15k 数据集中选出
- 生成方法: 使用对话语法进行深度和广度进化的迭代进化指令
- 总指令数: 2,304 个指令调优数据样本
数据集结构
- 指令
- 响应
- 进化策略 (深度或广度)
- 类别 (原始指令的类别)
用途
- 用于指令数据集的自动进化,增强指令的复杂性和多样性,以训练语言模型执行广泛任务。
引用
@misc{surge2024openbezoar, title={OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data}, author={Chandeepa Dissanayake and Lahiru Lowe and Sachith Gunasekara and Yasiru Ratnayake}, year={2024}, eprint={2404.12195}, archivePrefix={arXiv}, primaryClass={cs.CL} }
数据集作者
- Chandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, Yasiru Ratnayake
搜集汇总
数据集介绍

构建方式
该数据集的构建基于迭代进化策略,选取databricks-dolly-15k数据集中的指令作为种子指令,利用会话语法的深入与广泛进化,形成了2304个指令微调数据样本。构建过程中,采用了h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2作为基础模型,确保了数据集的质量和多样性。
特点
Evol-Instruct数据集的特点在于其独特的进化策略,不仅包含了指令和响应,还详细记录了进化策略(深入或广泛)、原始指令类别,以及与falcon和gpt4模型相关的状态、评分和原因等信息。这些丰富的特征使得数据集在指令数据自动进化领域具有显著的应用价值。
使用方法
使用该数据集时,研究者可以依据其结构化数据格式,轻松进行指令的自动进化训练,以增强语言模型处理各类任务的复杂性和多样性。数据集的详细标注和分类使得其在自动指令生成和语言模型训练中具有广泛的适用性。
背景与挑战
背景概述
在自然语言处理领域,构建能够理解和执行复杂指令的语言模型是研究的热点。Evol-Instruct数据集,由Chandeepa Dissanayake等研究人员于2024年创建,旨在通过自动演化指令数据集,提升语言模型在多样任务中的表现。该数据集基于h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2基础模型,采用迭代演化的方式,对指令进行深入与广泛的优化。其包含了2304个指令调整数据样本,对于推动指令微调技术的发展具有显著的研究价值。
当前挑战
Evol-Instruct数据集在构建过程中所面临的挑战主要包括如何确保演化过程的效率和指令的多样性。在解决领域问题上,数据集需应对如何有效提升语言模型理解和执行复杂指令的能力。此外,构建过程中的挑战还体现在如何平衡指令的深度与广度演化,以及如何客观评估模型对演化后指令的响应质量和准确性。
常用场景
经典使用场景
在自然语言处理领域,SurgeGlobal/Evol-Instruct数据集被广泛应用于指令数据集的自动演化研究。该数据集通过迭代进化方式,深度与广度相结合,生成复杂且多样化的指令,进而用于训练语言模型,以应对多样化的任务挑战。
解决学术问题
该数据集解决了传统指令数据集在多样性和复杂性方面的局限性,有助于提升语言模型对复杂任务的理解和执行能力。其独特的指令演化策略,为学术研究提供了新的视角和方法,促进了指令生成领域的发展。
衍生相关工作
基于该数据集,研究人员已经开展了一系列相关研究工作,如指令优化的新算法、对话系统的改进方法等,这些工作进一步推动了自然语言处理技术的进步和语言模型的应用范围。
以上内容由遇见数据集搜集并总结生成



