LLM Datasets

github2024-10-07 更新2024-10-08 收录

下载链接：

https://github.com/mattdepaolis/llm-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

LLM数据集是用于增强大型语言模型（LLMs）的高质量数据集、工具和创新想法的集合。这些数据集涵盖了从预训练到监督微调的各个阶段，确保模型能够处理各种任务和指令。

LLM datasets are a collection of high-quality datasets, tools, and innovative ideas for enhancing large language models (LLMs). These datasets cover all stages from pre-training to supervised fine-tuning, ensuring that the models can handle diverse tasks and instructions.

创建时间：

2024-10-07

原始信息汇总

LLM Datasets: Unlocking the Potential of Large Language Models

数据集概述

预训练数据集

数据集	大小	作者	日期	描述
fineweb	46B	HuggingFace	July 2024	FineWeb数据集包含超过15T的清理和去重后的英文网页数据，来自CommonCrawl。数据处理管道针对LLM性能进行了优化，并在datatrove库上运行。
fineweb-edu	3B	HuggingFace	August 2024	FineWeb-Edu数据集包含1.3T和5.4T（FineWeb-Edu-score-2）的教育网页数据，从FineWeb数据集中过滤。这是1.3万亿版本的FineWeb-Edu。

监督微调数据集

通用数据集

数据集	大小	作者	日期	描述
Buzz	31.2M	Alignment Lab AI	May 2024	使用数据增强和去重技术的大量收集。
WebInstructSub	2.39M	Yue et al.	May 2024	从Common Crawl文档中提取和精炼的QA对。MAmmoTH2论文（子集）。
The-Tome	1.75M	Arcee AI	Jul 2024	过滤用于指令跟随。100k子集。
Hercules v4.5	1.72M	Sebastian Gabarain	Apr 2024	涵盖数学、代码、角色扮演等。v4了解更多详情。
Dolphin-2.9	1.39M	Cognitive Computations	Apr 2023	用于Dolphin模型的大规模通用数据集。
WildChat-1M	1.04M	Zhao et al.	May 2023	包含GPT-3.5/4的真实对话，包括元数据。WildChat论文。
OpenHermes-2.5	1M	Teknium	Nov 2023	用于OpenHermes模型的大规模数据集。
Infinity-Instruct	660k	BAAI	Jun 2024	基于精选的进化指令集合。
SlimOrca	518k	Lian et al.	Sep 2023	使用GPT-4从OpenOrca中精选的子集，消除不正确答案。
Tulu V2 Mix	326k	Ivison et al.	Nov 2023	高质量数据集的混合。Tulu 2论文。
UltraInteract SFT	289k	Yuan et al.	Apr 2024	专注于数学、编码和逻辑，带有逐步答案。Eurus论文。
NeurIPS-LLM-data	204k	Jindal et al.	Nov 2023	NeurIPS LLM Efficiency Challenge的获胜者。
UltraChat 200k	200k	Tunstall et al., Ding et al.	Oct 2023	UltraChat的过滤版本，包含1.4M ChatGPT生成的对话。
WizardLM_evol_instruct_V2	143k	Xu et al.	Jun 2023	最新的Evol-Instruct版本应用于Alpaca和ShareGPT数据。WizardLM论文。
Synthia-v1.3	119k	Migel Tissera	Nov 2023	使用GPT-4生成的高质量合成数据。
oasst1	84.4k	Köpf et al.	Mar 2023	包含35种语言的人类生成的助手对话。OASST1论文和oasst2。
WizardLM_evol_instruct_70k	70k	Xu et al.	Apr 2023	Evol-Instruct应用于Alpaca和ShareGPT。WizardLM论文。
airoboros-3.2	58.7k	Jon Durbin	Dec 2023	高质量未审查数据集。
ShareGPT_Vicuna_unfiltered	53k	anon8231489123	Mar 2023	包含真实用户与ChatGPT对话的过滤ShareGPT数据集。
lmsys-chat-1m-smortmodelsonly	45.8k	Nebulous, Zheng et al.	Sep 2023	从lmsys-chat-1m过滤，包含多个模型的响应。
Open-Platypus	24.9k	Lee et al.	Sep 2023	使用Sentence Transformers去重的数据集，包含NC数据集。Platypus论文。
databricks-dolly-15k	15k	Conover et al.	May 2023	由Databricks员工创建，包含八个指令类别的提示-响应对。

数学与逻辑

数据集	大小	作者	日期	描述
OpenMathInstruct-1	5.75M	Toshniwal et al.	Feb 2024	包含GSM8K和MATH的数学问题，解决方案来自Mixtral-8x7B。
MetaMathQA	395k	Yu et al.	Dec 2023	数学问题从多个角度重写，以加深理解。MetaMath论文。
MathInstruct	262k	Yue et al.	Sep 2023	从13个数学数据集编译，专注于链式思维和程序思维推理。
Orca-Math	200k	Mitra et al.	Feb 2024	使用GPT-4 Turbo生成的年级数学问题。Orca-Math论文。

代码

数据集	大小	作者	日期	描述
CodeFeedback-Filtered-Instruction	157k	Zheng et al.	Feb 2024	过滤版本，结合Magicoder-OSS-Instruct和其他数据集，确保高质量代码。
Tested-143k-Python-Alpaca	143k	Vezora	Mar 2024	通过自动化测试的Python代码，确保准确性。
glaive-code-assistant	136k	Glaive.ai	Sep 2023	合成问题和解决方案，约60%内容为Python。v2可用。
Magicoder-Evol-Instruct-110K	110k	Wei et al.	Nov 2023	清理版本，遵循StarCoder的去重过程。Magicoder论文。
dolphin-coder	109k	Eric Hartford	Nov 2023	从leetcode-rosetta转换。
synthetic_tex_to_sql	100k	Gretel.ai	Apr 2024	涵盖各种领域的合成文本到SQL样本。
sql-create-context	78.6k	b-mc2	Apr 2023	增强版本，包含WikiSQL和Spider。
Magicoder-OSS-Instruct-75K	75k	Wei et al.	Nov 2023	由`gpt-3.5-turbo-1106`生成。Magicoder论文。
Code-Feedback	66.4k	Zheng et al.	Feb 2024	多样化的代码解释器类数据集，包含多轮对话和混合文本-代码响应。OpenCodeInterpreter论文。
Open-Critic-GPT	55.1k	Vezora	Jul 2024	使用本地模型创建和识别代码中的错误，涵盖多种编程语言。
self-oss-instruct-sc2-exec-filter-50k	50k	BigCode	Nov 2023	从StarCoder过滤，确保高质量代码。BigCode论文。

搜集汇总

数据集介绍

构建方式

LLM Datasets的构建方式体现了对大规模语言模型（LLMs）需求的深刻理解。该数据集通过整合多种来源的高质量数据，包括从CommonCrawl提取的网页数据、教育网页数据以及专门为数学、编程和对话角色扮演设计的专业数据集。这些数据经过严格的去重和清洗流程，确保了数据的准确性和多样性。此外，数据集还采用了先进的生成模型如GPT-4来创建合成数据，以增强模型的复杂任务处理能力。

使用方法

使用LLM Datasets时，用户可以根据模型的训练阶段选择合适的数据集。对于预训练阶段，可以选择包含广泛语言知识和上下文理解的基础数据集；对于监督微调阶段，可以选择专门设计的指令-响应对数据集，以提升模型的特定任务处理能力。此外，数据集还提供了丰富的工具和方法，如数据去重、质量评估和数据可视化，帮助用户更有效地管理和利用数据。通过这些方法，用户可以最大化地发挥LLM Datasets在模型训练中的潜力。

背景与挑战

背景概述

LLM Datasets（大型语言模型数据集）是由Hugging Face主导创建的，旨在为大型语言模型（LLMs）的训练和微调提供高质量的数据资源。该数据集的创建始于2024年，主要研究人员和机构包括Hugging Face及其合作者。核心研究问题是如何通过多样化和复杂的数据集来提升LLMs的性能和应用范围。LLM Datasets的推出对自然语言处理领域产生了深远影响，为研究人员和开发者提供了丰富的数据资源，推动了LLMs在多个应用场景中的实际应用。

当前挑战

LLM Datasets在构建过程中面临多项挑战。首先，确保数据集的准确性和多样性是一个主要难题，尤其是在处理开放式问题时。其次，数据集的复杂性要求包含需要多步骤推理和问题解决的任务，这增加了数据标注和验证的难度。此外，数据集的构建还需要解决数据去重和清洗的问题，以确保数据质量。最后，如何有效地评估和可视化数据集的质量，以便于模型的训练和优化，也是一项重要的挑战。

常用场景

经典使用场景

LLM Datasets数据集的经典使用场景主要集中在大型语言模型（LLMs）的预训练和监督微调阶段。这些数据集提供了丰富的文本数据，帮助模型学习语言的基础结构和上下文理解能力。在预训练阶段，数据集如FineWeb和FineWeb-Edu被广泛用于构建模型的基础语言理解能力。在监督微调阶段，数据集如Buzz和WebInstructSub则用于提升模型在特定任务上的表现，如数学推理、代码生成和对话管理。

解决学术问题

LLM Datasets数据集解决了大型语言模型在多任务处理和复杂问题解决中的关键学术问题。通过提供多样化和高质量的训练数据，这些数据集帮助模型在处理数学问题、逻辑推理和编程任务时表现出更高的准确性和效率。此外，这些数据集还促进了模型在多语言环境下的适应性和表现，为跨文化交流和全球应用提供了技术支持。

实际应用

在实际应用中，LLM Datasets数据集被广泛用于开发智能助手、自动化客服和编程辅助工具。例如，通过使用Math & Logic和Code类数据集，企业可以训练出能够高效解决复杂数学问题和编写高质量代码的AI系统。这些系统在教育、金融和软件开发等领域具有广泛的应用前景，显著提升了工作效率和问题解决能力。

数据集最近研究