Awesome Instruction Datasets
收藏数据集概述
1. Prompt Datasets
-
Alpaca -Stanford
- 组织:tatsu-lab
- 数量:52002
- 语言:EN
- 任务:MT
- 生成方法:SI
- 类型:general instruct
- 来源:text-davinci-003
-
Instruction in the Wild
- 组织:XueFuzhao
- 数量:52191
- 语言:EN/CN
- 任务:MT
- 生成方法:SI
- 类型:generation, open-qa, mind-storm
- 来源:text-davinci-003
-
JosephusCheung/GuanacoDataset
- 组织:JosephusCheung
- 数量:534610
- 语言:ML
- 任务:MT
- 生成方法:SI
- 类型:various linguistic tasks
- 来源:text-davinci-003
-
Stanford Human Preferences Dataset (SHP)
- 组织:Stanford NLP
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
Hello-SimpleAI/HC3
- 组织:Hello-SimpleAI, 万得资讯
- 数量:37175
- 语言:EN/CN
- 任务:TS
- 生成方法:MIX
- 类型:dialogue evaluation
- 来源:human or ChatGPT
-
Hello-SimpleAI/HC3-Chinese
- 组织:Hello-SimpleAI, 万得资讯
- 数量:13k
- 语言:CN
- 任务:TS
- 生成方法:MIX
- 类型:dialogue evaluation
- 来源:human or ChatGPT
-
allenai/prosocial-dialog
- 组织:allenai
- 数量:165681
- 语言:EN
- 任务:TS
- 生成方法:MIX
- 类型:dialogue
- 来源:GPT-3 rewrites questions + humans feedback manually
-
allenai/natural-instructions
- 组织:Allen AI
- 数量:5040134
- 语言:ML
- 任务:MT
- 生成方法:COL
- 类型:diverse nlp tasks
- 来源:human annotated datasets collection
-
PhoebusSi/Alpaca-CoT
- 组织:未提供
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
nomic-ai/gpt4all
- 组织:nomic-ai
- 数量:806199
- 语言:EN
- 任务:MT
- 生成方法:COL
- 类型:code, storys and dialogs
- 来源:distillation from GPT-3.5-turbo
-
bigscience/xP3
- 组织:bigscience
- 数量:78883588
- 语言:ML
- 任务:MT
- 生成方法:COL
- 类型:a collection of prompts & datasets across 46 of languages & 16 NLP tasks
- 来源:human annotated datasets collection
-
teknium1/GPTeacher
- 组织:teknium1
- 数量:29013
- 语言:EN
- 任务:MT
- 生成方法:SI
- 类型:general, roleplay, toolformer
- 来源:GPT-4 & toolformer
-
thunlp/UltraChat
- 组织:thunlp
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
cascip/ChatAlpaca
- 组织:cascip
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
YeungNLP/firefly-train-1.1M
- 组织:YeungNLP
- 数量:1649398
- 语言:CN
- 任务:MT
- 生成方法:COL
- 类型:23 nlp tasks
- 来源:human annotated datasets collection
-
orhonovich/unnatural-instructions
- 组织:orhonovich
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
Instruction-Tuning-with-GPT-4/GPT-4-LLM
- 组织:微软
- 数量:52002
- 语言:EN/CN
- 任务:MT
- 生成方法:SI
- 类型:general instruct
- 来源:generated by GPT-4 using Alpaca
-
databrickslabs/dolly
- 组织:databrickslabs
- 数量:15015
- 语言:EN
- 任务:TS
- 生成方法:HG
- 类型:closed QA , summarization and etc, Wikipedia as references
- 来源:human annotated
-
OpenAssistant/oasst1
- 组织:OpenAssistant
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
BELLE/data/1.5M
- 组织:BelleGroup
- 数量:1079517
- 语言:CN
- 任务:TS/MT
- 生成方法:SI
- 类型:general, mathematical reasoning, dialogue
- 来源:text-davinci-003
-
alpaca_chinese_dataset
- 组织:ymcui(讯飞)
- 数量:51k
- 语言:CN
- 任务:MT
- 生成方法:SI
- 类型:general instruct
- 来源:text-davinci-003
-
Med-ChatGLM/data
- 组织:SCIR-HI(哈工大)
- 数量:8K
- 语言:CN
- 任务:TS
- 生成方法:SI
- 类型:公开和自建的中文医学知识库
- 来源:GPT3.5
-
pCLUE
- 组织:未提供
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
COIG
- 组织:未提供
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
2. RLHF Datasets
-
Anthropic/hh-rlhf
- 组织:Anthropic
- 数量:284517
- 语言:EN
- 任务:TS
- 生成方法:MIX
- 类型:dialogue
- 来源:dialog between human and RLHF models
-
HuggingFaceH4/stack-exchange-preferences
- 组织:HuggingFaceH4
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
stanfordnlp/SHP
- 组织:stanfordnlp
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
Instruction-Tuning-with-GPT-4/GPT-4-LLM
- 组织:微软
- 数量:52002
- 语言:EN/CN
- 任务:MT
- 生成方法:SI
- 类型:general instruct
- 来源:generated by GPT-4 using Alpaca
-
Natural Instruction / Super-Natural Instruction
- 组织:未提供
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
BigScience/P3
- 组织:bigscience
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
xMTF - BigScience
- 组织:bigscience
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
HH-RLHF - Anthropic
- 组织:Anthropic
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
Unnatural Instruction
- 组织:未提供
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
Self-Instruct
- 组织:未提供
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
UnifiedSKG - HKU
- 组织:HKU
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
Google/Flan Collection
- 组织:Google
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
InstructDial
- 组织:未提供
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
ChatGPT Distillation Data
- 组织:未提供
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
-
Open Instruction Generalist (OIG)
- 组织:laion
- 数量:49237
- 语言:EN
- 任务:MT
- 生成方法:COL
- 类型:created from various tasks, such as question and answering
- 来源:using data augmentation, human annotated datasets collection
-
OpenAI WebGPT
- 组织:OpenAI
- 数量:18994
- 语言:EN
- 任务:TS
- 生成方法:MIX
- 类型:information retrieval (IR) QA
- 来源:fine-tuned GPT-3, each instruction has two outputs, select better one
-
OpenAI Summarization
- 组织:OpenAI
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供
3. 无许可证信息的数据集
- alespalla/chatbot_instruction_prompts
- 组织:alespalla
- 数量:未提供
- 语言:未提供
- 任务:未提供
- 生成方法:未提供
- 类型:未提供
- 来源:未提供




