hakurei/open-instruct-v1

Name: hakurei/open-instruct-v1
Creator: hakurei
Published: 2023-04-17 03:03:13
License: 暂无描述

Hugging Face2023-04-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hakurei/open-instruct-v1

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - text-generation language: - en size_categories: - 100K<n<1M --- # Open Instruct V1 - A dataset for having LLMs follow instructions. Open Instruct V1 is an amalgamation of different datasets which are cleaned and then collated into a singular format for training. ## Dataset Breakdown | Dataset | Amount of Samples | |----------------|-------------------| | [Alpaca](https://github.com/tatsu-lab/stanford_alpaca) | 51759 | | [Self Instruct](https://github.com/yizhongw/self-instruct) | 82599 | | [GPT-4 Instruct](https://github.com/teknium1/GPTeacher) | 18194 | | [Code Alpaca](https://huggingface.co/datasets/HuggingFaceH4/CodeAlpaca_20K) | 18019 | | [Dolly](https://huggingface.co/datasets/HuggingFaceH4/databricks_dolly_15k) | 15015 | | [Synthetic](https://huggingface.co/datasets/Dahoas/synthetic-instruct-gptj-pairwise) | 33143 | | [Roleplay](https://github.com/teknium1/GPTeacher) | 3146 | | [asss](https://huggingface.co/datasets/HuggingFaceH4/asss) | 448 | | [instruction-dataset](https://huggingface.co/datasets/HuggingFaceH4/instruction-dataset) | 327 | | Total | 222650 |

--- 许可证：Apache-2.0 任务类别： - 文本生成语言： - 英语样本规模区间： - 100,000 < 样本数 < 1,000,000 --- # Open Instruct V1 —— 大语言模型（Large Language Model，LLM）指令遵循专用数据集 Open Instruct V1 是对多个公开数据集进行清洗预处理后，统一整理为单一标准训练格式的整合合集。 ## 数据集构成详情 | 数据集名称 | 样本数量 | |---------------------------|--------------------| | [Alpaca](https://github.com/tatsu-lab/stanford_alpaca) | 51759 | | [Self Instruct](https://github.com/yizhongw/self-instruct) | 82599 | | [GPT-4 Instruct](https://github.com/teknium1/GPTeacher) | 18194 | | [Code Alpaca](https://huggingface.co/datasets/HuggingFaceH4/CodeAlpaca_20K) | 18019 | | [Dolly](https://huggingface.co/datasets/HuggingFaceH4/databricks_dolly_15k) | 15015 | | [Synthetic](https://huggingface.co/datasets/Dahoas/synthetic-instruct-gptj-pairwise) | 33143 | | [Roleplay](https://github.com/teknium1/GPTeacher) | 3146 | | [asss](https://huggingface.co/datasets/HuggingFaceH4/asss) | 448 | | [instruction-dataset](https://huggingface.co/datasets/HuggingFaceH4/instruction-dataset) | 327 | | 总计 | 222650 |

提供机构：

hakurei

原始信息汇总

数据集概述

基本信息

名称: Open Instruct V1
许可证: Apache-2.0
任务类别: 文本生成
语言: 英语
大小类别: 100K<n<1M

数据集组成

Open Instruct V1 是一个由多个清洗后的数据集合并而成的统一格式数据集，用于训练大型语言模型遵循指令。

数据集详细分解

数据集名称	样本数量
Alpaca	51759
Self Instruct	82599
GPT-4 Instruct	18194
Code Alpaca	18019
Dolly	15015
Synthetic	33143
Roleplay	3146
aSSS	448
instruction-dataset	327
总计	222650

搜集汇总

数据集介绍

构建方式

在指令微调领域，数据集的构建往往依赖于多样化的数据源整合。Open Instruct V1 的构建过程体现了这一理念，它并非从零开始采集数据，而是通过精心筛选与融合多个现有高质量数据集完成。具体而言，该数据集汇集了 Alpaca、Self Instruct、GPT-4 Instruct 等九个知名开源指令数据集，总计包含超过 22 万条样本。构建者对这些来源各异的数据进行了统一的清洗与格式化处理，确保它们符合一致的指令-回复对结构，从而形成了一个规模可观、格式统一的复合型训练资源。

使用方法

作为指令微调领域的训练资源，Open Instruct V1 主要服务于大型语言模型的监督式微调阶段。研究人员或开发者可直接加载该数据集，将其输入模型进行训练，以提升模型理解并遵循自然语言指令的能力。典型的使用流程包括数据加载、预处理（如分词）、模型训练与评估。由于其数据已预先清洗和格式化，使用者可以专注于模型架构与训练策略的探索。该数据集适用于研究指令遵循、模型对齐以及评估模型在多样化任务上的泛化性能。

背景与挑战

背景概述

在大型语言模型（LLM）迅速发展的背景下，如何有效引导模型遵循人类指令成为自然语言处理领域的核心研究问题之一。Open Instruct V1数据集由Hakurei团队于2023年创建，旨在整合多个开源指令数据集，为模型训练提供统一且高质量的指令遵循数据资源。该数据集融合了Alpaca、Self Instruct、Dolly等知名数据集，覆盖了文本生成、代码编写、角色扮演等多种任务类型，显著推动了指令调优技术的发展，并为开源社区在构建高效、可控的语言模型方面提供了重要支持。

当前挑战

Open Instruct V1所针对的领域挑战在于提升语言模型对复杂、多样化指令的理解与执行能力，这要求数据具备高度的多样性和准确性。在构建过程中，团队面临多重挑战：首先，整合来自不同来源的数据需解决格式不一致、质量参差不齐的问题，需通过清洗和标准化确保数据的可靠性；其次，平衡各类任务的数据分布以避免模型偏见，同时保持指令的覆盖广度与深度；此外，合成数据的真实性与自然语言表达的流畅性也是构建过程中需要克服的关键难点。

常用场景

经典使用场景

在大型语言模型（LLM）的指令微调领域，Open Instruct V1数据集扮演着关键角色。该数据集整合了多个高质量指令数据集，如Alpaca、Self Instruct和Dolly，通过统一的格式为模型提供了丰富的指令-响应对。其经典使用场景在于训练模型理解和遵循人类指令，涵盖文本生成、代码编写、角色扮演等多种任务，有效提升了模型在开放域对话中的适应性和准确性。

解决学术问题

该数据集解决了指令微调中数据稀缺和多样性的核心学术问题。通过融合多源数据，它克服了单一数据集覆盖范围有限、指令类型单一的缺陷，为研究指令对齐、少样本学习提供了标准化基准。其意义在于推动了可控制文本生成技术的发展，降低了模型训练对昂贵人工标注的依赖，促进了开源社区在指令跟随模型领域的协作创新。

实际应用

在实际应用中，Open Instruct V1支持开发智能助手、教育工具和内容创作系统。基于该数据集微调的模型能够响应用户的复杂指令，例如生成技术文档、编写程序代码或模拟对话场景，显著提升了人机交互的自然度和效率。这些应用在客户服务、编程辅助和创意产业中展现出广泛潜力，推动了AI技术向实用化迈进。

数据集最近研究