LLM Datasets
收藏github2024-05-15 更新2024-05-31 收录
下载链接:
https://github.com/Rafaelmdcarneiro/llm-datasets
下载链接
链接失效反馈官方服务:
资源简介:
高质量的数据集、工具和概念,用于LLM微调。
High-quality datasets, tools, and concepts for LLM fine-tuning.
创建时间:
2024-05-15
原始信息汇总
数据集概述
通用目的数据集
| 数据集 | 数量 | 作者 | 日期 | 备注 |
|---|---|---|---|---|
| Bagel | >2M? | Jon Durbin | Jan 2024 | 使用余弦相似度去污染的数据集集合。 |
| Hercules v4.5 | 1.72M | Sebastian Gabarain | Apr 2024 | 大规模通用目的数据集,包含数学、代码、RP等。参见v4。 |
| Dolphin-2.9 | 1.39M | Cognitive Computations | Apr 2023 | Dolphin模型使用的大规模通用目的数据集。 |
| WildChat-1M | 1.04M | Zhao et al. | May 2023 | 包含人类用户与GPT-3.5/4的真实对话,包括元数据。参见WildChat论文。 |
| OpenHermes-2.5 | 1M | Teknium | Nov 2023 | OpenHermes模型使用的大规模数据集。 |
| SlimOrca | 518k | Lian et al. | Sep 2023 | 使用GPT-4作为评判,从OpenOrca中精选的子集。 |
| Tulu V2 Mix | 326k | Ivison et al. | Nov 2023 | 高质量数据集混合。参见Tulu 2论文。 |
| UltraInteract SFT | 289k | Yuan et al. | Apr 2024 | 专注于数学、编码和逻辑任务,提供逐步解答。参见Eurus论文。 |
| NeurIPS-LLM-data | 204k | Jindal et al. | Nov 2023 | NeurIPS LLM效率挑战的获胜者,采用有趣的数据准备策略。 |
| UltraChat 200k | 200k | Tunstall et al., Ding et al. | Oct 2023 | 经过大量过滤的UltraChat数据集版本,包含1.4M对话,由ChatGPT生成。 |
| WizardLM_evol_instruct_V2 | 143k | Xu et al. | Jun 2023 | 应用Evol-Instruct到Alpaca和ShareGPT数据上的最新版本。参见WizardLM论文。 |
| sft_datablend_v1 | 128k | NVIDIA | Jan 2024 | 公开可用数据集的混合:OASST, CodeContests, FLAN, T0, Open_Platypus, GSM8K等。 |
| Synthia-v1.3 | 119k | Migel Tissera | Nov 2023 | 使用GPT-4生成的高质量合成数据。 |
| FuseChat-Mixture | 95k | Wan et al. | Feb 2024 | 高质量数据集样本的选择。参见FuseChat论文。 |
| oasst1 | 84.4k | Köpf et al. | Mar 2023 | 35种不同语言的人工生成助手风格对话语料库。参见OASST1论文和oasst2。 |
| WizardLM_evol_instruct_70k | 70k | Xu et al. | Apr 2023 | 应用Evol-Instruct到Alpaca和ShareGPT数据。参见WizardLM论文。 |
| airoboros-3.2 | 58.7k | Jon Durbin | Dec 2023 | 高质量未审查数据集。 |
| ShareGPT_Vicuna_unfiltered | 53k | anon823 1489123 | Mar 2023 | 经过过滤的ShareGPT数据集版本,包含用户与ChatGPT的真实对话。 |
| lmsys-chat-1m-smortmodelsonly | 45.8k | Nebulous, Zheng et al. | Sep 2023 | 经过过滤的lmsys-chat-1m版本,包含来自GPT-4, GPT-3.5-turbo, Claude-2, Claude-1, Claude-instant-1的响应。 |
| Open-Platypus | 24.9k | Lee et al. | Sep 2023 | 使用Sentence Transformers去重后的数据集集合。参见Platypus论文。 |
| databricks-dolly-15k | 15k | Conover et al. | May 2023 | 由Databricks员工生成的提示/响应对,涵盖八个不同的指令类别。 |
数学与逻辑数据集
| 数据集 | 数量 | 作者 | 日期 | 备注 |
|---|---|---|---|---|
| OpenMathInstruct-1 | 5.75M | Toshniwal et al. | Feb 2024 | 来自GSM8K和MATH的问题,解决方案由Mixtral-8x7B生成。 |
| MetaMathQA | 395k | Yu et al. | Dec 2023 | 通过多角度重写数学问题进行自举。参见MetaMath论文。 |
| MathInstruct | 262k | Yue et al. | Sep 2023 | 从13个数学推理数据集中编译,专注于思维链和程序思维。 |
| Orca-Math | 200k | Mitra et al. | Feb 2024 | 使用GPT4-Turbo生成的学校数学问题。参见Orca-Math论文。 |
代码数据集
| 数据集 | 数量 | 作者 | 日期 | 备注 |
|---|---|---|---|---|
| CodeFeedback-Filtered-Instruction | 157k | Zheng et al. | Feb 2024 | 过滤版Magicoder-OSS-Instruct, ShareGPT (Python), Magicoder-Evol-Instruct, Evol-Instruct-Code。 |
| Tested-143k-Python-Alpaca | 143k | Vezora | Mar 2024 | 通过自动测试确保高质量的生成Python代码集合。 |
| glaive-code-assistant | 136k | Glaive.ai | Sep 2023 | 合成数据问题和解决方案,约60% Python样本。参见v2。 |
| Magicoder-Evol-Instruct-110K | 110k | Wei et al. | Nov 2023 | 去污染版evol-codealpaca-v1。参见Magicoder论文。 |
| dolphin-coder | 109k | Eric Hartford | Nov 2023 | 从leetcode-rosetta转换的数据集。 |
| synthetic_tex_to_sql | 100k | Gretel.ai | Apr 2024 | 覆盖多个领域的合成文本到SQL样本。 |
| sql-create-context | 78.6k | b-mc2 | Apr 2023 | 清洁和增强版WikiSQL和Spider数据集。 |
| Magicoder-OSS-Instruct-75K | 75k | Wei et al. | Nov 2023 | 由gpt-3.5-turbo-1106生成的OSS-Instruct数据集。参见Magicoder论文。 |
| Code-Feedback | 66.4k | Zheng et al. | Feb 2024 | 多样化的代码解释器类数据集,包含多轮对话和交错文本及代码响应。参见OpenCodeInterpreter论文。 |
| self-oss-instruct-sc2-exec-filter-50k | 50.7k | Lozhkov et al. | Apr 2024 | 通过种子函数、自我指令和自我验证三个步骤创建。参见博客文章。 |
对话与角色扮演数据集
搜集汇总
数据集介绍

构建方式
LLM Datasets 数据集的构建方式主要基于高质量的指令与输出对,旨在通过监督微调将预训练模型转化为能够回答问题和完成任务的助手。这些数据集涵盖了广泛的领域,包括通用任务、数学与逻辑、代码生成以及对话与角色扮演。数据集的构建过程中,注重数据的准确性、多样性和复杂性,确保模型能够处理各种真实世界的语言和任务。部分数据集通过模型生成(如GPT-4),而其他数据集则来源于真实世界的对话、书籍、文章等,以确保数据的广泛性和代表性。
使用方法
LLM Datasets 数据集的使用方法主要集中在监督微调(SFT)阶段,用于将预训练的语言模型转化为能够执行特定任务的助手。用户可以根据需求选择不同的数据集,如通用任务、数学与逻辑、代码生成或对话与角色扮演,以微调模型。使用这些数据集时,建议结合具体的任务需求,选择合适的数据集进行训练,并根据模型的表现进行迭代优化。数据集的多样性和高质量确保了模型在不同任务中的表现更加稳定和可靠。
背景与挑战
背景概述
LLM Datasets数据集由Maxime Labonne等人创建,旨在为大语言模型(LLM)的微调提供高质量的数据资源。该数据集的创建时间跨度从2023年到2024年,涵盖了多个领域的数据,包括通用任务、数学与逻辑、代码生成以及对话与角色扮演等。其核心研究问题是如何通过多样化的、高质量的数据集来提升LLM在不同任务中的表现,使其能够更好地理解和生成自然语言。该数据集的发布对LLM的研究和应用具有重要影响,尤其是在模型微调和指令遵循方面,为研究人员提供了丰富的资源。
当前挑战
LLM Datasets数据集在构建过程中面临多项挑战。首先,确保数据的准确性是一个关键问题,尤其是在处理开放式和主观性问题时,准确性的评估变得极为复杂。其次,数据的多样性要求涵盖广泛的主题、上下文和写作风格,以确保模型能够应对多种任务和场景。此外,数据的复杂性也是一个挑战,需要包含日常语言、真实世界场景以及不同长度的文本,以训练模型处理各种输入。最后,数据集的构建还需要考虑版权和许可问题,确保所有数据集都符合开源许可要求。
常用场景
经典使用场景
LLM Datasets 数据集的经典使用场景主要集中在大型语言模型(LLM)的监督微调(SFT)过程中。这些数据集包含了指令与输出的配对,旨在帮助模型在预训练的基础上进一步提升其指令跟随能力和生成高质量回答的能力。通过使用这些数据集,模型能够更好地适应多样化的任务和场景,从而在问答、对话生成、代码编写等领域展现出更强的实用性。
解决学术问题
LLM Datasets 数据集解决了大型语言模型在处理复杂任务时面临的多个学术研究问题。首先,它通过提供高质量、多样化的数据,帮助模型在指令跟随和回答生成方面达到更高的准确性和相关性。其次,这些数据集涵盖了从日常语言到专业领域的广泛内容,增强了模型在不同场景下的适应能力。此外,通过引入数学和逻辑推理等复杂任务的数据,LLM Datasets 还提升了模型在处理高阶认知任务上的表现。
实际应用
在实际应用中,LLM Datasets 数据集被广泛用于开发和优化各类智能助手、聊天机器人和代码生成工具。例如,在客户服务领域,这些数据集帮助模型生成更自然、更准确的回复,提升用户体验。在编程辅助工具中,数据集的代码相关内容使模型能够更好地理解和生成代码,从而提高开发效率。此外,这些数据集还在教育、医疗等领域中用于开发定制化的智能助手,以满足特定行业的需求。
数据集最近研究
最新研究方向
在大型语言模型(LLM)领域,LLM Datasets数据集的最新研究方向主要集中在提升模型的指令遵循能力和生成质量。研究者们通过构建多样化、高质量的数据集,致力于增强模型的通用性和复杂任务处理能力。这些数据集不仅涵盖了广泛的领域,如数学、代码生成和对话交互,还通过引入合成数据和真实世界数据混合的方式,提升了模型的适应性和鲁棒性。此外,随着GPT-4等前沿模型的应用,数据集的生成和筛选过程也变得更加智能化,进一步推动了LLM在多任务处理和复杂场景中的表现。
以上内容由遇见数据集搜集并总结生成



