LLM Datasets

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/mlabonne/llm-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

高质量数据集、工具和概念，用于LLM微调。

High-quality datasets, tools, and concepts for fine-tuning LLMs (Large Language Models).

创建时间：

2024-04-28

原始信息汇总

数据集概述

通用目的数据集

通用目的数据集旨在通过暴露模型于高质量、多样化的数据，将其从基础模型转变为多功能且能力强大的助手。这些数据集通常包含真实世界和合成数据的混合，常由GPT-4等模型生成。

数据集	样本数量	作者	日期	备注
Buzz	31.2M	Alignment Lab AI	May 2024	包含435个数据集，应用数据增强、去重等技术。
WebInstructSub	2.39M	Yue et al.	May 2024	从Common Crawl检索文档，提取QA对并精炼。参考MAmmoTH2论文。
Bagel	>2M?	Jon Durbin	Jan 2024	使用余弦相似度去污染的数据集集合。
Hercules v4.5	1.72M	Sebastian Gabarain	Apr 2024	包含数学、代码、RP等的大型通用目的数据集。参考v4。
Dolphin-2.9	1.39M	Cognitive Computations	Apr 2023	被Dolphin模型使用的大型通用目的数据集。
WildChat-1M	1.04M	Zhao et al.	May 2023	包含人类用户与GPT-3.5/4的真实对话，包括元数据。参考WildChat论文。
OpenHermes-2.5	1M	Teknium	Nov 2023	被OpenHermes模型使用的大型数据集。
SlimOrca	518k	Lian et al.	Sep 2023	使用GPT-4作为评判，从OpenOrca中精选出的子集，去除错误答案。
Tulu V2 Mix	326k	Ivison et al.	Nov 2023	高质量数据集混合。参考Tulu 2论文。
UltraInteract SFT	289k	Yuan et al.	Apr 2024	专注于数学、编码和逻辑任务，提供逐步答案。参考Eurus论文。
NeurIPS-LLM-data	204k	Jindal et al.	Nov 2023	NeurIPS LLM效率挑战赛获胜者，采用有趣的数据准备策略。参考挑战赛网站。
UltraChat 200k	200k	Tunstall et al., Ding et al.	Oct 2023	经过严格过滤的UltraChat数据集版本，包含1.4M对话，由ChatGPT生成。参考UltraChat仓库。
WizardLM_evol_instruct_V2	143k	Xu et al.	Jun 2023	应用Evol-Instruct到Alpaca和ShareGPT数据上的最新版本。参考WizardLM论文。
sft_datablend_v1	128k	NVIDIA	Jan 2024	混合公开可用数据集：OASST, CodeContests, FLAN, T0, Open_Platypus, GSM8K等（共45个）。
Synthia-v1.3	119k	Migel Tissera	Nov 2023	使用GPT-4生成的高质量合成数据。
FuseChat-Mixture	95k	Wan et al.	Feb 2024	从高质量数据集中精选的样本。参考FuseChat论文。
oasst1	84.4k	Köpf et al.	Mar 2023	人类生成的助手风格对话语料库，支持35种不同语言。参考OASST1论文和oasst2。
WizardLM_evol_instruct_70k	70k	Xu et al.	Apr 2023	应用Evol-Instruct到Alpaca和ShareGPT数据上。参考WizardLM论文。
airoboros-3.2	58.7k	Jon Durbin	Dec 2023	高质量未审查数据集。
ShareGPT_Vicuna_unfiltered	53k	anon823 1489123	Mar 2023	经过过滤的ShareGPT数据集版本，包含用户与ChatGPT的真实对话。
lmsys-chat-1m-smortmodelsonly	45.8k	Nebulous, Zheng et al.	Sep 2023	经过过滤的lmsys-chat-1m版本，包含GPT-4, GPT-3.5-turbo, Claude-2, Claude-1, Claude-instant-1的响应。
Open-Platypus	24.9k	Lee et al.	Sep 2023	经过去重处理的数据集，包含NC数据集。参考Platypus论文。
databricks-dolly-15k	15k	Conover et al.	May 2023	由Databricks员工生成的提示/响应对，涵盖八个不同的指令类别，包括InstructGPT论文中概述的七个。

数学与逻辑数据集

数学推理和形式逻辑是LLMs常遇到的挑战，因此产生了专门的数据集。这些数据集不仅涵盖纯数学，还包括需要系统思考和逐步推理的广泛问题，最终使LLMs能够处理涉及逻辑演绎和定量分析的复杂现实世界挑战。

数据集	样本数量	作者	日期	备注
OpenMathInstruct-1	5.75M	Toshniwal et al.	Feb 2024	来自GSM8K和MATH的问题，解决方案由Mixtral-8x7B生成。
MetaMathQA	395k	Yu et al.	Dec 2023	通过从多角度重写数学问题来引导数学问题。参考MetaMath论文。
MathInstruct	262k	Yue et al.	Sep 2023	从13个数学推理数据集编译，其中六个是新编制的，专注于思维链和思维程序。
Orca-Math	200k	Mitra et al.	Feb 2024	使用GPT4-Turbo生成的学校数学问题。参考Orca-Math论文。

代码数据集

代码是LLMs面临的另一个挑战领域，缺乏专门的预训练。包含多种编程语言示例的代码数据集用于微调LLMs，增强其理解和生成代码的能力，使它们能够有效地作为编码助手。

数据集	样本数量	作者	日期	备注
CodeFeedback-Filtered-Instruction	157k	Zheng et al.	Feb 2024	过滤版Magicoder-OSS-Instruct, ShareGPT (Python), Magicoder-Evol-Instruct, Evol-Instruct-Code。
Tested-143k-Python-Alpaca	143k	Vezora	Mar 2024	通过自动测试确保高质量的生成Python代码集合。
glaive-code-assistant	136k	Glaive.ai	Sep 2023	合成数据的问题和解决方案，约60%为Python样本。也见v2版本。
Magicoder-Evol-Instruct-110K	110k	Wei et al.	Nov 2023	去污染版evol-codealpaca-v1。去污染方式与StarCoder相同。参考Magicoder论文。
dolphin-coder	109k	Eric Hartford	Nov 2023	从leetcode-rosetta转换的数据集。
synthetic_tex_to_sql	100k	Gretel.ai	Apr 2024	覆盖多个领域的合成文本到SQL样本。
sql-create-context	78.6k	b-mc2	Apr 2023	清洗和增强版WikiSQL和Spider数据集。
Magicoder-OSS-Instruct-75K	75k	Wei et al.	Nov 2023	OSS-Instruct数据集由`gpt-3.5-turbo-1106`生成。参考Magicoder论文。
Code-Feedback	66.4k	Zheng et al.	Feb 2024	多样化的代码解释器类数据集，包含多轮对话和交错的文本和代码响应。参考OpenCodeInterpreter论文。
self-oss-instruct-sc2-exec-filter-50k	50.7k	Lozhkov et al.	Apr 2024	通过StarCoder2自我指导和自我验证创建的数据集。参考博客文章。

对话与角色扮演数据集

许多数据集专注于指令和输出的配对，但聊天模型常用于对话设置。对话和角色扮演数据集使LLMs暴露于真实对话的模式、细微差别和上下文依赖性，使它们能够生成更自然、更吸引人的对话。

数据集	样本数量	作者	日期	备注
Bluemoon	290k	Squish42	Jun 2023	由第三方清理和抓取的Blue Moon角色扮演论坛帖子。
PIPPA	16.8k	Gosling et al., kingbri	Aug 2023	去重版Pygmalion的PIPPA，转换为ShareGPT格式。
Capybara	16k	LDJnr	Dec 2023	强调跨广泛领域信息多样性的多轮对话。
RPGPT_PublicDomain-alpaca	4.26k	practical dream

搜集汇总

数据集介绍

构建方式

LLM Datasets的构建方式主要基于高质量的数据采集与处理，旨在为大语言模型（LLM）的微调提供丰富的训练样本。这些数据集涵盖了多种领域，包括通用任务、数学与逻辑、代码生成、对话与角色扮演以及多语言处理。数据集的构建过程中，注重数据的准确性、多样性和复杂性，确保每条样本在内容上具有代表性，且能够有效提升模型的指令遵循能力。部分数据集通过合成生成，如使用GPT-4等模型生成高质量的指令与响应对，而其他数据集则通过筛选和重构现有开源数据集来确保其质量。

特点

LLM Datasets的特点在于其高度的多样性和专业性。首先，数据集涵盖了广泛的领域，从通用任务到特定领域的数学、代码生成等，确保模型能够应对多种复杂任务。其次，数据集的多样性体现在其涵盖了不同的语言、写作风格、任务类型等，从而增强了模型的泛化能力。此外，部分数据集还通过使用其他LLM作为“裁判”来评估答案的复杂性和准确性，进一步提升了数据集的质量。

使用方法

LLM Datasets的使用方法主要集中在模型的监督微调（SFT）阶段。用户可以根据模型的需求选择合适的子数据集进行训练，例如针对数学推理的MetaMathQA或针对代码生成的CodeFeedback-Filtered-Instruction。数据集通常以指令-响应对的形式提供，用户可以直接将其用于模型的微调，以提升模型在特定任务上的表现。此外，数据集的许可通常较为宽松，允许用户在多种场景下自由使用和修改。

背景与挑战

背景概述

LLM Datasets是由Maxime Labonne主导创建的高质量数据集集合，专注于大语言模型（LLM）的微调。该数据集的创建旨在为LLM的开发提供丰富的训练资源，涵盖了从通用任务到特定领域的多样化数据。其核心研究问题是如何通过高质量的数据集提升LLM的指令遵循能力和回答相关性。LLM Datasets的发布对自然语言处理领域具有重要影响，尤其是在提升模型在复杂任务中的表现方面，为研究人员和开发者提供了宝贵的资源。

当前挑战

LLM Datasets在构建过程中面临多重挑战。首先，确保数据集的准确性是一个关键问题，尤其是在处理开放式、主观性问题时，难以通过自动化工具进行验证。其次，数据集的多样性要求涵盖广泛的主题、上下文和写作风格，这需要复杂的采样和处理技术。此外，数据集的复杂性评估也是一个挑战，需要通过其他LLM进行判断。最后，构建过程中还需考虑数据集的许可问题，确保所有数据集都符合开源许可要求。

常用场景

经典使用场景

LLM Datasets 数据集的经典使用场景主要集中在大型语言模型（LLM）的监督微调（SFT）过程中。这些数据集包含了指令与输出的配对，旨在帮助模型从预训练的通用模型转变为能够执行特定任务的助手。通过使用这些高质量、多样化的数据集，模型能够更好地理解并响应各种复杂的指令，涵盖从数学推理到代码生成、对话模拟等多个领域。

解决学术问题

LLM Datasets 数据集解决了大型语言模型在处理复杂任务时面临的多个学术研究问题。首先，它通过提供高精度的样本，确保模型输出的准确性和相关性。其次，数据集的多样性使得模型能够应对广泛的应用场景，从数学推理到多语言对话。此外，数据集的复杂性设计使得模型能够处理多步骤推理和规划等高级任务，从而提升了模型的整体性能和应用范围。

衍生相关工作

LLM Datasets 数据集的发布和使用催生了一系列相关研究和工作。例如，基于这些数据集，研究者开发了多种先进的微调策略和模型评估方法，进一步提升了模型的性能。此外，数据集的多语言特性激发了跨语言模型研究的热潮，推动了多语言处理技术的发展。在实际应用中，这些数据集也为开源社区提供了丰富的资源，促进了开源模型和工具的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集