LLM Datasets
收藏github2024-10-07 更新2024-10-08 收录
下载链接:
https://github.com/mattdepaolis/llm-datasets
下载链接
链接失效反馈官方服务:
资源简介:
LLM数据集是用于增强大型语言模型(LLMs)的高质量数据集、工具和创新想法的集合。这些数据集涵盖了从预训练到监督微调的各个阶段,确保模型能够处理各种任务和指令。
LLM datasets are a collection of high-quality datasets, tools, and innovative ideas for enhancing large language models (LLMs). These datasets cover all stages from pre-training to supervised fine-tuning, ensuring that the models can handle diverse tasks and instructions.
创建时间:
2024-10-07
原始信息汇总
LLM Datasets: Unlocking the Potential of Large Language Models
数据集概述
预训练数据集
| 数据集 | 大小 | 作者 | 日期 | 描述 |
|---|---|---|---|---|
| fineweb | 46B | HuggingFace | July 2024 | FineWeb数据集包含超过15T的清理和去重后的英文网页数据,来自CommonCrawl。数据处理管道针对LLM性能进行了优化,并在datatrove库上运行。 |
| fineweb-edu | 3B | HuggingFace | August 2024 | FineWeb-Edu数据集包含1.3T和5.4T(FineWeb-Edu-score-2)的教育网页数据,从FineWeb数据集中过滤。这是1.3万亿版本的FineWeb-Edu。 |
监督微调数据集
通用数据集
| 数据集 | 大小 | 作者 | 日期 | 描述 |
|---|---|---|---|---|
| Buzz | 31.2M | Alignment Lab AI | May 2024 | 使用数据增强和去重技术的大量收集。 |
| WebInstructSub | 2.39M | Yue et al. | May 2024 | 从Common Crawl文档中提取和精炼的QA对。MAmmoTH2论文(子集)。 |
| The-Tome | 1.75M | Arcee AI | Jul 2024 | 过滤用于指令跟随。100k子集。 |
| Hercules v4.5 | 1.72M | Sebastian Gabarain | Apr 2024 | 涵盖数学、代码、角色扮演等。v4了解更多详情。 |
| Dolphin-2.9 | 1.39M | Cognitive Computations | Apr 2023 | 用于Dolphin模型的大规模通用数据集。 |
| WildChat-1M | 1.04M | Zhao et al. | May 2023 | 包含GPT-3.5/4的真实对话,包括元数据。WildChat论文。 |
| OpenHermes-2.5 | 1M | Teknium | Nov 2023 | 用于OpenHermes模型的大规模数据集。 |
| Infinity-Instruct | 660k | BAAI | Jun 2024 | 基于精选的进化指令集合。 |
| SlimOrca | 518k | Lian et al. | Sep 2023 | 使用GPT-4从OpenOrca中精选的子集,消除不正确答案。 |
| Tulu V2 Mix | 326k | Ivison et al. | Nov 2023 | 高质量数据集的混合。Tulu 2论文。 |
| UltraInteract SFT | 289k | Yuan et al. | Apr 2024 | 专注于数学、编码和逻辑,带有逐步答案。Eurus论文。 |
| NeurIPS-LLM-data | 204k | Jindal et al. | Nov 2023 | NeurIPS LLM Efficiency Challenge的获胜者。 |
| UltraChat 200k | 200k | Tunstall et al., Ding et al. | Oct 2023 | UltraChat的过滤版本,包含1.4M ChatGPT生成的对话。 |
| WizardLM_evol_instruct_V2 | 143k | Xu et al. | Jun 2023 | 最新的Evol-Instruct版本应用于Alpaca和ShareGPT数据。WizardLM论文。 |
| Synthia-v1.3 | 119k | Migel Tissera | Nov 2023 | 使用GPT-4生成的高质量合成数据。 |
| oasst1 | 84.4k | Köpf et al. | Mar 2023 | 包含35种语言的人类生成的助手对话。OASST1论文和oasst2。 |
| WizardLM_evol_instruct_70k | 70k | Xu et al. | Apr 2023 | Evol-Instruct应用于Alpaca和ShareGPT。WizardLM论文。 |
| airoboros-3.2 | 58.7k | Jon Durbin | Dec 2023 | 高质量未审查数据集。 |
| ShareGPT_Vicuna_unfiltered | 53k | anon8231489123 | Mar 2023 | 包含真实用户与ChatGPT对话的过滤ShareGPT数据集。 |
| lmsys-chat-1m-smortmodelsonly | 45.8k | Nebulous, Zheng et al. | Sep 2023 | 从lmsys-chat-1m过滤,包含多个模型的响应。 |
| Open-Platypus | 24.9k | Lee et al. | Sep 2023 | 使用Sentence Transformers去重的数据集,包含NC数据集。Platypus论文。 |
| databricks-dolly-15k | 15k | Conover et al. | May 2023 | 由Databricks员工创建,包含八个指令类别的提示-响应对。 |
数学与逻辑
| 数据集 | 大小 | 作者 | 日期 | 描述 |
|---|---|---|---|---|
| OpenMathInstruct-1 | 5.75M | Toshniwal et al. | Feb 2024 | 包含GSM8K和MATH的数学问题,解决方案来自Mixtral-8x7B。 |
| MetaMathQA | 395k | Yu et al. | Dec 2023 | 数学问题从多个角度重写,以加深理解。MetaMath论文。 |
| MathInstruct | 262k | Yue et al. | Sep 2023 | 从13个数学数据集编译,专注于链式思维和程序思维推理。 |
| Orca-Math | 200k | Mitra et al. | Feb 2024 | 使用GPT-4 Turbo生成的年级数学问题。Orca-Math论文。 |
代码
| 数据集 | 大小 | 作者 | 日期 | 描述 |
|---|---|---|---|---|
| CodeFeedback-Filtered-Instruction | 157k | Zheng et al. | Feb 2024 | 过滤版本,结合Magicoder-OSS-Instruct和其他数据集,确保高质量代码。 |
| Tested-143k-Python-Alpaca | 143k | Vezora | Mar 2024 | 通过自动化测试的Python代码,确保准确性。 |
| glaive-code-assistant | 136k | Glaive.ai | Sep 2023 | 合成问题和解决方案,约60%内容为Python。v2可用。 |
| Magicoder-Evol-Instruct-110K | 110k | Wei et al. | Nov 2023 | 清理版本,遵循StarCoder的去重过程。Magicoder论文。 |
| dolphin-coder | 109k | Eric Hartford | Nov 2023 | 从leetcode-rosetta转换。 |
| synthetic_tex_to_sql | 100k | Gretel.ai | Apr 2024 | 涵盖各种领域的合成文本到SQL样本。 |
| sql-create-context | 78.6k | b-mc2 | Apr 2023 | 增强版本,包含WikiSQL和Spider。 |
| Magicoder-OSS-Instruct-75K | 75k | Wei et al. | Nov 2023 | 由gpt-3.5-turbo-1106生成。Magicoder论文。 |
| Code-Feedback | 66.4k | Zheng et al. | Feb 2024 | 多样化的代码解释器类数据集,包含多轮对话和混合文本-代码响应。OpenCodeInterpreter论文。 |
| Open-Critic-GPT | 55.1k | Vezora | Jul 2024 | 使用本地模型创建和识别代码中的错误,涵盖多种编程语言。 |
| self-oss-instruct-sc2-exec-filter-50k | 50k | BigCode | Nov 2023 | 从StarCoder过滤,确保高质量代码。BigCode论文。 |
搜集汇总
数据集介绍

构建方式
LLM Datasets的构建方式体现了对大规模语言模型(LLMs)需求的深刻理解。该数据集通过整合多种来源的高质量数据,包括从CommonCrawl提取的网页数据、教育网页数据以及专门为数学、编程和对话角色扮演设计的专业数据集。这些数据经过严格的去重和清洗流程,确保了数据的准确性和多样性。此外,数据集还采用了先进的生成模型如GPT-4来创建合成数据,以增强模型的复杂任务处理能力。
使用方法
使用LLM Datasets时,用户可以根据模型的训练阶段选择合适的数据集。对于预训练阶段,可以选择包含广泛语言知识和上下文理解的基础数据集;对于监督微调阶段,可以选择专门设计的指令-响应对数据集,以提升模型的特定任务处理能力。此外,数据集还提供了丰富的工具和方法,如数据去重、质量评估和数据可视化,帮助用户更有效地管理和利用数据。通过这些方法,用户可以最大化地发挥LLM Datasets在模型训练中的潜力。
背景与挑战
背景概述
LLM Datasets(大型语言模型数据集)是由Hugging Face主导创建的,旨在为大型语言模型(LLMs)的训练和微调提供高质量的数据资源。该数据集的创建始于2024年,主要研究人员和机构包括Hugging Face及其合作者。核心研究问题是如何通过多样化和复杂的数据集来提升LLMs的性能和应用范围。LLM Datasets的推出对自然语言处理领域产生了深远影响,为研究人员和开发者提供了丰富的数据资源,推动了LLMs在多个应用场景中的实际应用。
当前挑战
LLM Datasets在构建过程中面临多项挑战。首先,确保数据集的准确性和多样性是一个主要难题,尤其是在处理开放式问题时。其次,数据集的复杂性要求包含需要多步骤推理和问题解决的任务,这增加了数据标注和验证的难度。此外,数据集的构建还需要解决数据去重和清洗的问题,以确保数据质量。最后,如何有效地评估和可视化数据集的质量,以便于模型的训练和优化,也是一项重要的挑战。
常用场景
经典使用场景
LLM Datasets数据集的经典使用场景主要集中在大型语言模型(LLMs)的预训练和监督微调阶段。这些数据集提供了丰富的文本数据,帮助模型学习语言的基础结构和上下文理解能力。在预训练阶段,数据集如FineWeb和FineWeb-Edu被广泛用于构建模型的基础语言理解能力。在监督微调阶段,数据集如Buzz和WebInstructSub则用于提升模型在特定任务上的表现,如数学推理、代码生成和对话管理。
解决学术问题
LLM Datasets数据集解决了大型语言模型在多任务处理和复杂问题解决中的关键学术问题。通过提供多样化和高质量的训练数据,这些数据集帮助模型在处理数学问题、逻辑推理和编程任务时表现出更高的准确性和效率。此外,这些数据集还促进了模型在多语言环境下的适应性和表现,为跨文化交流和全球应用提供了技术支持。
实际应用
在实际应用中,LLM Datasets数据集被广泛用于开发智能助手、自动化客服和编程辅助工具。例如,通过使用Math & Logic和Code类数据集,企业可以训练出能够高效解决复杂数学问题和编写高质量代码的AI系统。这些系统在教育、金融和软件开发等领域具有广泛的应用前景,显著提升了工作效率和问题解决能力。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)领域,LLM Datasets数据集的最新研究方向主要集中在提升模型的多任务处理能力和复杂问题的解决能力。研究者们通过引入多样化和复杂度更高的数据集,如数学与逻辑、代码编写等专业领域,来增强模型的推理和执行能力。此外,数据集的质量控制和生成工具的优化也是当前研究的热点,旨在通过精确的数据清洗和高效的生成方法,确保训练数据的准确性和多样性,从而推动LLMs在实际应用中的表现。
以上内容由遇见数据集搜集并总结生成



