LLM Datasets

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/Rafaelmdcarneiro/llm-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

高质量的数据集、工具和概念，用于LLM微调。

High-quality datasets, tools, and concepts for LLM fine-tuning.

创建时间：

2024-05-15

原始信息汇总

数据集概述

通用目的数据集

数据集	数量	作者	日期	备注
Bagel	>2M?	Jon Durbin	Jan 2024	使用余弦相似度去污染的数据集集合。
Hercules v4.5	1.72M	Sebastian Gabarain	Apr 2024	大规模通用目的数据集，包含数学、代码、RP等。参见v4。
Dolphin-2.9	1.39M	Cognitive Computations	Apr 2023	Dolphin模型使用的大规模通用目的数据集。
WildChat-1M	1.04M	Zhao et al.	May 2023	包含人类用户与GPT-3.5/4的真实对话，包括元数据。参见WildChat论文。
OpenHermes-2.5	1M	Teknium	Nov 2023	OpenHermes模型使用的大规模数据集。
SlimOrca	518k	Lian et al.	Sep 2023	使用GPT-4作为评判，从OpenOrca中精选的子集。
Tulu V2 Mix	326k	Ivison et al.	Nov 2023	高质量数据集混合。参见Tulu 2论文。
UltraInteract SFT	289k	Yuan et al.	Apr 2024	专注于数学、编码和逻辑任务，提供逐步解答。参见Eurus论文。
NeurIPS-LLM-data	204k	Jindal et al.	Nov 2023	NeurIPS LLM效率挑战的获胜者，采用有趣的数据准备策略。
UltraChat 200k	200k	Tunstall et al., Ding et al.	Oct 2023	经过大量过滤的UltraChat数据集版本，包含1.4M对话，由ChatGPT生成。
WizardLM_evol_instruct_V2	143k	Xu et al.	Jun 2023	应用Evol-Instruct到Alpaca和ShareGPT数据上的最新版本。参见WizardLM论文。
sft_datablend_v1	128k	NVIDIA	Jan 2024	公开可用数据集的混合：OASST, CodeContests, FLAN, T0, Open_Platypus, GSM8K等。
Synthia-v1.3	119k	Migel Tissera	Nov 2023	使用GPT-4生成的高质量合成数据。
FuseChat-Mixture	95k	Wan et al.	Feb 2024	高质量数据集样本的选择。参见FuseChat论文。
oasst1	84.4k	Köpf et al.	Mar 2023	35种不同语言的人工生成助手风格对话语料库。参见OASST1论文和oasst2。
WizardLM_evol_instruct_70k	70k	Xu et al.	Apr 2023	应用Evol-Instruct到Alpaca和ShareGPT数据。参见WizardLM论文。
airoboros-3.2	58.7k	Jon Durbin	Dec 2023	高质量未审查数据集。
ShareGPT_Vicuna_unfiltered	53k	anon823 1489123	Mar 2023	经过过滤的ShareGPT数据集版本，包含用户与ChatGPT的真实对话。
lmsys-chat-1m-smortmodelsonly	45.8k	Nebulous, Zheng et al.	Sep 2023	经过过滤的lmsys-chat-1m版本，包含来自GPT-4, GPT-3.5-turbo, Claude-2, Claude-1, Claude-instant-1的响应。
Open-Platypus	24.9k	Lee et al.	Sep 2023	使用Sentence Transformers去重后的数据集集合。参见Platypus论文。
databricks-dolly-15k	15k	Conover et al.	May 2023	由Databricks员工生成的提示/响应对，涵盖八个不同的指令类别。

数学与逻辑数据集

数据集	数量	作者	日期	备注
OpenMathInstruct-1	5.75M	Toshniwal et al.	Feb 2024	来自GSM8K和MATH的问题，解决方案由Mixtral-8x7B生成。
MetaMathQA	395k	Yu et al.	Dec 2023	通过多角度重写数学问题进行自举。参见MetaMath论文。
MathInstruct	262k	Yue et al.	Sep 2023	从13个数学推理数据集中编译，专注于思维链和程序思维。
Orca-Math	200k	Mitra et al.	Feb 2024	使用GPT4-Turbo生成的学校数学问题。参见Orca-Math论文。

代码数据集

数据集	数量	作者	日期	备注
CodeFeedback-Filtered-Instruction	157k	Zheng et al.	Feb 2024	过滤版Magicoder-OSS-Instruct, ShareGPT (Python), Magicoder-Evol-Instruct, Evol-Instruct-Code。
Tested-143k-Python-Alpaca	143k	Vezora	Mar 2024	通过自动测试确保高质量的生成Python代码集合。
glaive-code-assistant	136k	Glaive.ai	Sep 2023	合成数据问题和解决方案，约60% Python样本。参见v2。
Magicoder-Evol-Instruct-110K	110k	Wei et al.	Nov 2023	去污染版evol-codealpaca-v1。参见Magicoder论文。
dolphin-coder	109k	Eric Hartford	Nov 2023	从leetcode-rosetta转换的数据集。
synthetic_tex_to_sql	100k	Gretel.ai	Apr 2024	覆盖多个领域的合成文本到SQL样本。
sql-create-context	78.6k	b-mc2	Apr 2023	清洁和增强版WikiSQL和Spider数据集。
Magicoder-OSS-Instruct-75K	75k	Wei et al.	Nov 2023	由gpt-3.5-turbo-1106生成的OSS-Instruct数据集。参见Magicoder论文。
Code-Feedback	66.4k	Zheng et al.	Feb 2024	多样化的代码解释器类数据集，包含多轮对话和交错文本及代码响应。参见OpenCodeInterpreter论文。
self-oss-instruct-sc2-exec-filter-50k	50.7k	Lozhkov et al.	Apr 2024	通过种子函数、自我指令和自我验证三个步骤创建。参见博客文章。

对话与角色扮演数据集

数据集	数量	作者	日期	备注
Bluemoon	290k	Squish42	Jun 2023	第三方清理和抓取的Blue Moon角色扮演论坛帖子。
PIPPA	16.8k	Gosling et al., kingbri	Aug 2023	去重版Pygmalion的PIPPA数据集。参见PIPPA。

搜集汇总

数据集介绍

构建方式

LLM Datasets 数据集的构建方式主要基于高质量的指令与输出对，旨在通过监督微调将预训练模型转化为能够回答问题和完成任务的助手。这些数据集涵盖了广泛的领域，包括通用任务、数学与逻辑、代码生成以及对话与角色扮演。数据集的构建过程中，注重数据的准确性、多样性和复杂性，确保模型能够处理各种真实世界的语言和任务。部分数据集通过模型生成（如GPT-4），而其他数据集则来源于真实世界的对话、书籍、文章等，以确保数据的广泛性和代表性。

使用方法

LLM Datasets 数据集的使用方法主要集中在监督微调（SFT）阶段，用于将预训练的语言模型转化为能够执行特定任务的助手。用户可以根据需求选择不同的数据集，如通用任务、数学与逻辑、代码生成或对话与角色扮演，以微调模型。使用这些数据集时，建议结合具体的任务需求，选择合适的数据集进行训练，并根据模型的表现进行迭代优化。数据集的多样性和高质量确保了模型在不同任务中的表现更加稳定和可靠。

背景与挑战

背景概述

LLM Datasets数据集由Maxime Labonne等人创建，旨在为大语言模型（LLM）的微调提供高质量的数据资源。该数据集的创建时间跨度从2023年到2024年，涵盖了多个领域的数据，包括通用任务、数学与逻辑、代码生成以及对话与角色扮演等。其核心研究问题是如何通过多样化的、高质量的数据集来提升LLM在不同任务中的表现，使其能够更好地理解和生成自然语言。该数据集的发布对LLM的研究和应用具有重要影响，尤其是在模型微调和指令遵循方面，为研究人员提供了丰富的资源。

当前挑战

LLM Datasets数据集在构建过程中面临多项挑战。首先，确保数据的准确性是一个关键问题，尤其是在处理开放式和主观性问题时，准确性的评估变得极为复杂。其次，数据的多样性要求涵盖广泛的主题、上下文和写作风格，以确保模型能够应对多种任务和场景。此外，数据的复杂性也是一个挑战，需要包含日常语言、真实世界场景以及不同长度的文本，以训练模型处理各种输入。最后，数据集的构建还需要考虑版权和许可问题，确保所有数据集都符合开源许可要求。

常用场景

经典使用场景

LLM Datasets 数据集的经典使用场景主要集中在大型语言模型（LLM）的监督微调（SFT）过程中。这些数据集包含了指令与输出的配对，旨在帮助模型在预训练的基础上进一步提升其指令跟随能力和生成高质量回答的能力。通过使用这些数据集，模型能够更好地适应多样化的任务和场景，从而在问答、对话生成、代码编写等领域展现出更强的实用性。

解决学术问题

LLM Datasets 数据集解决了大型语言模型在处理复杂任务时面临的多个学术研究问题。首先，它通过提供高质量、多样化的数据，帮助模型在指令跟随和回答生成方面达到更高的准确性和相关性。其次，这些数据集涵盖了从日常语言到专业领域的广泛内容，增强了模型在不同场景下的适应能力。此外，通过引入数学和逻辑推理等复杂任务的数据，LLM Datasets 还提升了模型在处理高阶认知任务上的表现。

实际应用

在实际应用中，LLM Datasets 数据集被广泛用于开发和优化各类智能助手、聊天机器人和代码生成工具。例如，在客户服务领域，这些数据集帮助模型生成更自然、更准确的回复，提升用户体验。在编程辅助工具中，数据集的代码相关内容使模型能够更好地理解和生成代码，从而提高开发效率。此外，这些数据集还在教育、医疗等领域中用于开发定制化的智能助手，以满足特定行业的需求。

数据集最近研究