LLM Datasets
收藏github2024-05-15 更新2024-05-31 收录
下载链接:
https://github.com/mlabonne/llm-datasets
下载链接
链接失效反馈官方服务:
资源简介:
高质量数据集、工具和概念,用于LLM微调。
High-quality datasets, tools, and concepts for fine-tuning LLMs (Large Language Models).
创建时间:
2024-04-28
原始信息汇总
数据集概述
通用目的数据集
通用目的数据集旨在通过暴露模型于高质量、多样化的数据,将其从基础模型转变为多功能且能力强大的助手。这些数据集通常包含真实世界和合成数据的混合,常由GPT-4等模型生成。
| 数据集 | 样本数量 | 作者 | 日期 | 备注 |
|---|---|---|---|---|
| Buzz | 31.2M | Alignment Lab AI | May 2024 | 包含435个数据集,应用数据增强、去重等技术。 |
| WebInstructSub | 2.39M | Yue et al. | May 2024 | 从Common Crawl检索文档,提取QA对并精炼。参考MAmmoTH2论文。 |
| Bagel | >2M? | Jon Durbin | Jan 2024 | 使用余弦相似度去污染的数据集集合。 |
| Hercules v4.5 | 1.72M | Sebastian Gabarain | Apr 2024 | 包含数学、代码、RP等的大型通用目的数据集。参考v4。 |
| Dolphin-2.9 | 1.39M | Cognitive Computations | Apr 2023 | 被Dolphin模型使用的大型通用目的数据集。 |
| WildChat-1M | 1.04M | Zhao et al. | May 2023 | 包含人类用户与GPT-3.5/4的真实对话,包括元数据。参考WildChat论文。 |
| OpenHermes-2.5 | 1M | Teknium | Nov 2023 | 被OpenHermes模型使用的大型数据集。 |
| SlimOrca | 518k | Lian et al. | Sep 2023 | 使用GPT-4作为评判,从OpenOrca中精选出的子集,去除错误答案。 |
| Tulu V2 Mix | 326k | Ivison et al. | Nov 2023 | 高质量数据集混合。参考Tulu 2论文。 |
| UltraInteract SFT | 289k | Yuan et al. | Apr 2024 | 专注于数学、编码和逻辑任务,提供逐步答案。参考Eurus论文。 |
| NeurIPS-LLM-data | 204k | Jindal et al. | Nov 2023 | NeurIPS LLM效率挑战赛获胜者,采用有趣的数据准备策略。参考挑战赛网站。 |
| UltraChat 200k | 200k | Tunstall et al., Ding et al. | Oct 2023 | 经过严格过滤的UltraChat数据集版本,包含1.4M对话,由ChatGPT生成。参考UltraChat仓库。 |
| WizardLM_evol_instruct_V2 | 143k | Xu et al. | Jun 2023 | 应用Evol-Instruct到Alpaca和ShareGPT数据上的最新版本。参考WizardLM论文。 |
| sft_datablend_v1 | 128k | NVIDIA | Jan 2024 | 混合公开可用数据集:OASST, CodeContests, FLAN, T0, Open_Platypus, GSM8K等(共45个)。 |
| Synthia-v1.3 | 119k | Migel Tissera | Nov 2023 | 使用GPT-4生成的高质量合成数据。 |
| FuseChat-Mixture | 95k | Wan et al. | Feb 2024 | 从高质量数据集中精选的样本。参考FuseChat论文。 |
| oasst1 | 84.4k | Köpf et al. | Mar 2023 | 人类生成的助手风格对话语料库,支持35种不同语言。参考OASST1论文和oasst2。 |
| WizardLM_evol_instruct_70k | 70k | Xu et al. | Apr 2023 | 应用Evol-Instruct到Alpaca和ShareGPT数据上。参考WizardLM论文。 |
| airoboros-3.2 | 58.7k | Jon Durbin | Dec 2023 | 高质量未审查数据集。 |
| ShareGPT_Vicuna_unfiltered | 53k | anon823 1489123 | Mar 2023 | 经过过滤的ShareGPT数据集版本,包含用户与ChatGPT的真实对话。 |
| lmsys-chat-1m-smortmodelsonly | 45.8k | Nebulous, Zheng et al. | Sep 2023 | 经过过滤的lmsys-chat-1m版本,包含GPT-4, GPT-3.5-turbo, Claude-2, Claude-1, Claude-instant-1的响应。 |
| Open-Platypus | 24.9k | Lee et al. | Sep 2023 | 经过去重处理的数据集,包含NC数据集。参考Platypus论文。 |
| databricks-dolly-15k | 15k | Conover et al. | May 2023 | 由Databricks员工生成的提示/响应对,涵盖八个不同的指令类别,包括InstructGPT论文中概述的七个。 |
数学与逻辑数据集
数学推理和形式逻辑是LLMs常遇到的挑战,因此产生了专门的数据集。这些数据集不仅涵盖纯数学,还包括需要系统思考和逐步推理的广泛问题,最终使LLMs能够处理涉及逻辑演绎和定量分析的复杂现实世界挑战。
| 数据集 | 样本数量 | 作者 | 日期 | 备注 |
|---|---|---|---|---|
| OpenMathInstruct-1 | 5.75M | Toshniwal et al. | Feb 2024 | 来自GSM8K和MATH的问题,解决方案由Mixtral-8x7B生成。 |
| MetaMathQA | 395k | Yu et al. | Dec 2023 | 通过从多角度重写数学问题来引导数学问题。参考MetaMath论文。 |
| MathInstruct | 262k | Yue et al. | Sep 2023 | 从13个数学推理数据集编译,其中六个是新编制的,专注于思维链和思维程序。 |
| Orca-Math | 200k | Mitra et al. | Feb 2024 | 使用GPT4-Turbo生成的学校数学问题。参考Orca-Math论文。 |
代码数据集
代码是LLMs面临的另一个挑战领域,缺乏专门的预训练。包含多种编程语言示例的代码数据集用于微调LLMs,增强其理解和生成代码的能力,使它们能够有效地作为编码助手。
| 数据集 | 样本数量 | 作者 | 日期 | 备注 |
|---|---|---|---|---|
| CodeFeedback-Filtered-Instruction | 157k | Zheng et al. | Feb 2024 | 过滤版Magicoder-OSS-Instruct, ShareGPT (Python), Magicoder-Evol-Instruct, Evol-Instruct-Code。 |
| Tested-143k-Python-Alpaca | 143k | Vezora | Mar 2024 | 通过自动测试确保高质量的生成Python代码集合。 |
| glaive-code-assistant | 136k | Glaive.ai | Sep 2023 | 合成数据的问题和解决方案,约60%为Python样本。也见v2版本。 |
| Magicoder-Evol-Instruct-110K | 110k | Wei et al. | Nov 2023 | 去污染版evol-codealpaca-v1。去污染方式与StarCoder相同。参考Magicoder论文。 |
| dolphin-coder | 109k | Eric Hartford | Nov 2023 | 从leetcode-rosetta转换的数据集。 |
| synthetic_tex_to_sql | 100k | Gretel.ai | Apr 2024 | 覆盖多个领域的合成文本到SQL样本。 |
| sql-create-context | 78.6k | b-mc2 | Apr 2023 | 清洗和增强版WikiSQL和Spider数据集。 |
| Magicoder-OSS-Instruct-75K | 75k | Wei et al. | Nov 2023 | OSS-Instruct数据集由gpt-3.5-turbo-1106生成。参考Magicoder论文。 |
| Code-Feedback | 66.4k | Zheng et al. | Feb 2024 | 多样化的代码解释器类数据集,包含多轮对话和交错的文本和代码响应。参考OpenCodeInterpreter论文。 |
| self-oss-instruct-sc2-exec-filter-50k | 50.7k | Lozhkov et al. | Apr 2024 | 通过StarCoder2自我指导和自我验证创建的数据集。参考博客文章。 |
对话与角色扮演数据集
许多数据集专注于指令和输出的配对,但聊天模型常用于对话设置。对话和角色扮演数据集使LLMs暴露于真实对话的模式、细微差别和上下文依赖性,使它们能够生成更自然、更吸引人的对话。
| 数据集 | 样本数量 | 作者 | 日期 | 备注 |
|---|---|---|---|---|
| Bluemoon | 290k | Squish42 | Jun 2023 | 由第三方清理和抓取的Blue Moon角色扮演论坛帖子。 |
| PIPPA | 16.8k | Gosling et al., kingbri | Aug 2023 | 去重版Pygmalion的PIPPA,转换为ShareGPT格式。 |
| Capybara | 16k | LDJnr | Dec 2023 | 强调跨广泛领域信息多样性的多轮对话。 |
| RPGPT_PublicDomain-alpaca | 4.26k | practical dream |
搜集汇总
数据集介绍

构建方式
LLM Datasets的构建方式主要基于高质量的数据采集与处理,旨在为大语言模型(LLM)的微调提供丰富的训练样本。这些数据集涵盖了多种领域,包括通用任务、数学与逻辑、代码生成、对话与角色扮演以及多语言处理。数据集的构建过程中,注重数据的准确性、多样性和复杂性,确保每条样本在内容上具有代表性,且能够有效提升模型的指令遵循能力。部分数据集通过合成生成,如使用GPT-4等模型生成高质量的指令与响应对,而其他数据集则通过筛选和重构现有开源数据集来确保其质量。
特点
LLM Datasets的特点在于其高度的多样性和专业性。首先,数据集涵盖了广泛的领域,从通用任务到特定领域的数学、代码生成等,确保模型能够应对多种复杂任务。其次,数据集的多样性体现在其涵盖了不同的语言、写作风格、任务类型等,从而增强了模型的泛化能力。此外,部分数据集还通过使用其他LLM作为“裁判”来评估答案的复杂性和准确性,进一步提升了数据集的质量。
使用方法
LLM Datasets的使用方法主要集中在模型的监督微调(SFT)阶段。用户可以根据模型的需求选择合适的子数据集进行训练,例如针对数学推理的MetaMathQA或针对代码生成的CodeFeedback-Filtered-Instruction。数据集通常以指令-响应对的形式提供,用户可以直接将其用于模型的微调,以提升模型在特定任务上的表现。此外,数据集的许可通常较为宽松,允许用户在多种场景下自由使用和修改。
背景与挑战
背景概述
LLM Datasets是由Maxime Labonne主导创建的高质量数据集集合,专注于大语言模型(LLM)的微调。该数据集的创建旨在为LLM的开发提供丰富的训练资源,涵盖了从通用任务到特定领域的多样化数据。其核心研究问题是如何通过高质量的数据集提升LLM的指令遵循能力和回答相关性。LLM Datasets的发布对自然语言处理领域具有重要影响,尤其是在提升模型在复杂任务中的表现方面,为研究人员和开发者提供了宝贵的资源。
当前挑战
LLM Datasets在构建过程中面临多重挑战。首先,确保数据集的准确性是一个关键问题,尤其是在处理开放式、主观性问题时,难以通过自动化工具进行验证。其次,数据集的多样性要求涵盖广泛的主题、上下文和写作风格,这需要复杂的采样和处理技术。此外,数据集的复杂性评估也是一个挑战,需要通过其他LLM进行判断。最后,构建过程中还需考虑数据集的许可问题,确保所有数据集都符合开源许可要求。
常用场景
经典使用场景
LLM Datasets 数据集的经典使用场景主要集中在大型语言模型(LLM)的监督微调(SFT)过程中。这些数据集包含了指令与输出的配对,旨在帮助模型从预训练的通用模型转变为能够执行特定任务的助手。通过使用这些高质量、多样化的数据集,模型能够更好地理解并响应各种复杂的指令,涵盖从数学推理到代码生成、对话模拟等多个领域。
解决学术问题
LLM Datasets 数据集解决了大型语言模型在处理复杂任务时面临的多个学术研究问题。首先,它通过提供高精度的样本,确保模型输出的准确性和相关性。其次,数据集的多样性使得模型能够应对广泛的应用场景,从数学推理到多语言对话。此外,数据集的复杂性设计使得模型能够处理多步骤推理和规划等高级任务,从而提升了模型的整体性能和应用范围。
衍生相关工作
LLM Datasets 数据集的发布和使用催生了一系列相关研究和工作。例如,基于这些数据集,研究者开发了多种先进的微调策略和模型评估方法,进一步提升了模型的性能。此外,数据集的多语言特性激发了跨语言模型研究的热潮,推动了多语言处理技术的发展。在实际应用中,这些数据集也为开源社区提供了丰富的资源,促进了开源模型和工具的快速发展。
以上内容由遇见数据集搜集并总结生成



