Awesome Instruction Datasets

github2024-04-07 更新2024-05-31 收录

下载链接：

https://github.com/jianzhnie/awesome-instruction-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

收录各种各样的指令数据集，用于训练ChatLLM模型，如ChatGPT、LLaMA、Alpaca等。

This dataset encompasses a diverse collection of instruction datasets, designed for training ChatLLM models such as ChatGPT, LLaMA, Alpaca, and others.

创建时间：

2023-03-25

原始信息汇总

数据集概述

1. Prompt Datasets

Alpaca -Stanford
- 组织：tatsu-lab
- 数量：52002
- 语言：EN
- 任务：MT
- 生成方法：SI
- 类型：general instruct
- 来源：text-davinci-003
Instruction in the Wild
- 组织：XueFuzhao
- 数量：52191
- 语言：EN/CN
- 任务：MT
- 生成方法：SI
- 类型：generation, open-qa, mind-storm
- 来源：text-davinci-003
JosephusCheung/GuanacoDataset
- 组织：JosephusCheung
- 数量：534610
- 语言：ML
- 任务：MT
- 生成方法：SI
- 类型：various linguistic tasks
- 来源：text-davinci-003
Stanford Human Preferences Dataset (SHP)
- 组织：Stanford NLP
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
Hello-SimpleAI/HC3
- 组织：Hello-SimpleAI, 万得资讯
- 数量：37175
- 语言：EN/CN
- 任务：TS
- 生成方法：MIX
- 类型：dialogue evaluation
- 来源：human or ChatGPT
Hello-SimpleAI/HC3-Chinese
- 组织：Hello-SimpleAI, 万得资讯
- 数量：13k
- 语言：CN
- 任务：TS
- 生成方法：MIX
- 类型：dialogue evaluation
- 来源：human or ChatGPT
allenai/prosocial-dialog
- 组织：allenai
- 数量：165681
- 语言：EN
- 任务：TS
- 生成方法：MIX
- 类型：dialogue
- 来源：GPT-3 rewrites questions + humans feedback manually
allenai/natural-instructions
- 组织：Allen AI
- 数量：5040134
- 语言：ML
- 任务：MT
- 生成方法：COL
- 类型：diverse nlp tasks
- 来源：human annotated datasets collection
PhoebusSi/Alpaca-CoT
- 组织：未提供
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
nomic-ai/gpt4all
- 组织：nomic-ai
- 数量：806199
- 语言：EN
- 任务：MT
- 生成方法：COL
- 类型：code, storys and dialogs
- 来源：distillation from GPT-3.5-turbo
bigscience/xP3
- 组织：bigscience
- 数量：78883588
- 语言：ML
- 任务：MT
- 生成方法：COL
- 类型：a collection of prompts & datasets across 46 of languages & 16 NLP tasks
- 来源：human annotated datasets collection
teknium1/GPTeacher
- 组织：teknium1
- 数量：29013
- 语言：EN
- 任务：MT
- 生成方法：SI
- 类型：general, roleplay, toolformer
- 来源：GPT-4 & toolformer
thunlp/UltraChat
- 组织：thunlp
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
cascip/ChatAlpaca
- 组织：cascip
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
YeungNLP/firefly-train-1.1M
- 组织：YeungNLP
- 数量：1649398
- 语言：CN
- 任务：MT
- 生成方法：COL
- 类型：23 nlp tasks
- 来源：human annotated datasets collection
orhonovich/unnatural-instructions
- 组织：orhonovich
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
Instruction-Tuning-with-GPT-4/GPT-4-LLM
- 组织：微软
- 数量：52002
- 语言：EN/CN
- 任务：MT
- 生成方法：SI
- 类型：general instruct
- 来源：generated by GPT-4 using Alpaca
databrickslabs/dolly
- 组织：databrickslabs
- 数量：15015
- 语言：EN
- 任务：TS
- 生成方法：HG
- 类型：closed QA , summarization and etc, Wikipedia as references
- 来源：human annotated
OpenAssistant/oasst1
- 组织：OpenAssistant
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
BELLE/data/1.5M
- 组织：BelleGroup
- 数量：1079517
- 语言：CN
- 任务：TS/MT
- 生成方法：SI
- 类型：general, mathematical reasoning, dialogue
- 来源：text-davinci-003
alpaca_chinese_dataset
- 组织：ymcui(讯飞)
- 数量：51k
- 语言：CN
- 任务：MT
- 生成方法：SI
- 类型：general instruct
- 来源：text-davinci-003
Med-ChatGLM/data
- 组织：SCIR-HI(哈工大)
- 数量：8K
- 语言：CN
- 任务：TS
- 生成方法：SI
- 类型：公开和自建的中文医学知识库
- 来源：GPT3.5
pCLUE
- 组织：未提供
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
COIG
- 组织：未提供
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供

2. RLHF Datasets

Anthropic/hh-rlhf
- 组织：Anthropic
- 数量：284517
- 语言：EN
- 任务：TS
- 生成方法：MIX
- 类型：dialogue
- 来源：dialog between human and RLHF models
HuggingFaceH4/stack-exchange-preferences
- 组织：HuggingFaceH4
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
stanfordnlp/SHP
- 组织：stanfordnlp
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
Instruction-Tuning-with-GPT-4/GPT-4-LLM
- 组织：微软
- 数量：52002
- 语言：EN/CN
- 任务：MT
- 生成方法：SI
- 类型：general instruct
- 来源：generated by GPT-4 using Alpaca
Natural Instruction / Super-Natural Instruction
- 组织：未提供
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
BigScience/P3
- 组织：bigscience
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
xMTF - BigScience
- 组织：bigscience
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
HH-RLHF - Anthropic
- 组织：Anthropic
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
Unnatural Instruction
- 组织：未提供
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
Self-Instruct
- 组织：未提供
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
UnifiedSKG - HKU
- 组织：HKU
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
Google/Flan Collection
- 组织：Google
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
InstructDial
- 组织：未提供
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
ChatGPT Distillation Data
- 组织：未提供
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供
Open Instruction Generalist (OIG)
- 组织：laion
- 数量：49237
- 语言：EN
- 任务：MT
- 生成方法：COL
- 类型：created from various tasks, such as question and answering
- 来源：using data augmentation, human annotated datasets collection
OpenAI WebGPT
- 组织：OpenAI
- 数量：18994
- 语言：EN
- 任务：TS
- 生成方法：MIX
- 类型：information retrieval (IR) QA
- 来源：fine-tuned GPT-3, each instruction has two outputs, select better one
OpenAI Summarization
- 组织：OpenAI
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供

3. 无许可证信息的数据集

alespalla/chatbot_instruction_prompts
- 组织：alespalla
- 数量：未提供
- 语言：未提供
- 任务：未提供
- 生成方法：未提供
- 类型：未提供
- 来源：未提供

搜集汇总

数据集介绍

构建方式

Awesome Instruction Datasets 是一个精心策划的开放源代码指令调优数据集集合，旨在为基于聊天的语言模型（如 ChatGPT、LLaMA、Alpaca）提供高质量的训练资源。该数据集的构建方式主要通过收集和整理多个已有的开源数据集，涵盖了从人类生成的数据到通过自指令方法生成的数据，以及多语言和多任务的混合数据集。这些数据集经过详细的标注和分类，包括语言标签（如英语、中文、多语言）、任务标签（如多任务、特定任务）和生成方法标签（如人类生成、自指令生成、混合生成），以确保数据的多样性和适用性。

特点

该数据集的显著特点在于其多样性和广泛性。首先，它涵盖了多种语言，包括英语、中文和多语言数据集，满足了不同语言环境下的研究需求。其次，数据集包含了多种任务类型，如多任务和特定任务，适用于不同应用场景的模型训练。此外，数据集的生成方法多样，既有通过人类标注的高质量数据，也有通过自指令方法生成的数据，确保了数据的质量和多样性。最后，该数据集还包含了大量的多任务数据集，这些数据集能够帮助模型在多个任务上进行有效的训练和调优。

使用方法

Awesome Instruction Datasets 的使用方法简单且灵活。研究人员和开发者可以通过访问 GitHub 页面下载所需的数据集，并根据具体的任务需求进行筛选和使用。数据集的详细标注和分类使得用户能够快速定位和选择适合自己研究或开发任务的数据。此外，数据集的多样性和广泛性使得它适用于多种自然语言处理任务，如对话生成、代码生成、多任务学习等。用户可以根据自己的需求选择合适的数据集进行模型训练和调优，从而加速研究进程并提升模型的性能。

背景与挑战

背景概述

Awesome Instruction Datasets 是一个汇集了高质量开源指令调优数据集的综合性资源库，旨在为基于聊天的语言模型（如 ChatGPT、LLaMA、Alpaca）提供训练数据。该数据集由多个研究机构和开发者共同创建，主要研究人员包括来自斯坦福大学、谷歌、OpenAI 等知名机构的专家。其核心研究问题是如何通过指令调优和人类反馈强化学习（RLHF）来提升语言模型的指令遵循能力。该数据集的创建时间跨度较大，涵盖了从 2020 年至今的多个版本和更新。其影响力在于为自然语言处理（NLP）领域的研究者和开发者提供了丰富的资源，推动了指令调优技术的发展，并为生成式语言模型的进一步创新奠定了基础。

当前挑战

Awesome Instruction Datasets 面临的挑战主要集中在数据多样性和质量控制方面。首先，构建过程中需要处理多语言、多任务的数据集，确保不同语言和文化背景下的指令调优效果一致。其次，数据生成方法的多样性（如人工生成、自指令生成、混合生成等）带来了数据一致性和可解释性的挑战。此外，数据集的规模庞大，如何高效管理和利用这些数据也是一个重要问题。最后，部分数据集缺乏明确的许可信息，可能引发数据使用和共享的法律问题，这也是当前亟需解决的挑战之一。

常用场景

经典使用场景

Awesome Instruction Datasets 是一个汇集了多种高质量开源指令调优数据集的资源库，主要用于训练基于聊天的语言模型（如 ChatGPT、LLaMA、Alpaca）。这些数据集广泛应用于指令调优和从人类反馈中进行强化学习（RLHF），帮助模型更好地理解和执行用户指令。经典的使用场景包括通过这些数据集对模型进行微调，使其在多任务处理、对话生成、代码生成等特定任务中表现更为出色。

解决学术问题

该数据集解决了自然语言处理领域中指令遵循模型的关键问题，特别是在多任务学习和人类反馈强化学习方面。通过提供多样化的指令数据，研究人员能够训练出更智能、更灵活的模型，这些模型能够处理复杂的自然语言任务，如对话生成、代码生成和多轮对话等。这不仅推动了学术研究的前沿，还为实际应用中的语言模型性能提升提供了坚实的基础。

衍生相关工作

基于 Awesome Instruction Datasets，许多相关的经典工作得以展开。例如，研究人员利用这些数据集开发了多种指令调优模型，如 Alpaca、GPTeacher 和 Dolly 2.0，这些模型在多任务处理和对话生成方面表现出色。此外，这些数据集还促进了多语言模型的发展，如 xP3 和 Natural Instructions，使得模型能够在多种语言和任务中表现优异。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集