LLM360/CrystalCoderDatasets|预训练数据集数据集|代码生成数据集

hugging_face2024-04-02 更新2024-03-04 收录

预训练数据集

代码生成

下载链接：

https://hf-mirror.com/datasets/LLM360/CrystalCoderDatasets

下载链接

链接失效反馈

资源简介：

该数据集整合了CrystalCoder训练过程中使用的全部数据序列，涵盖了三个预训练阶段的数据。数据集结合了SlimPajama和StarCoder两个先前工作的数据，总计约1300亿个token。第一阶段使用了SlimPajama数据的一半，约345亿个token；第二阶段使用了剩余的一半SlimPajama数据和两轮StarCoder数据，总计927亿个token；第三阶段重用了StarCoder数据中的Python和Web相关数据（如HTML、CSS、JavaScript），并加入了少量SlimPajama数据，总计110亿个token。此外，第三阶段还包括了约10亿个token的指令调优数据集，用于增强模型在真实聊天场景中的表现。

提供机构：

LLM360

原始信息汇总

数据集描述

该数据集整合了用于CrystalCoder训练的完整数据序列，包括三个预训练阶段的数据，结合了来自两个先前工作的数据：SlimPajama数据集和StarCoder数据集，总计约13000亿个标记。这些标记分布在三个阶段，每个阶段具有不同的权重。

阶段1

在初始阶段，使用了SlimPajama数据集的一半数据，相当于约3450亿个标记。

阶段2

在第二阶段，使用了SlimPajama数据集的另一半数据，以及两个周期的StarCoder数据集。对于StarCoder数据，应用了FIM增强，FIM率为0.9，SPM率为0.5。该阶段的标记总数为9270亿个。

阶段3

第三阶段涉及重新使用StarCoder数据集中的Python和Web相关数据，包括HTML、CSS和JavaScript。这些数据用于三个周期的训练，FIM率为0.3，SPM率为0.5。该阶段的标记总数为1000亿个。此外，还重新使用了SlimPajama数据集的一小部分（不包括Github部分），贡献了约100亿个标记。

指令调优（阶段3a）

为了增强模型在实际聊天场景中的能力，使用了多种指令调优数据集，总计约10亿个标记。具体数据包括OASST1-guanaco、SlimOrca、ShareGPT_V4.3、Evol-ShareGPT、CodeAlpaca、Rosetta Code、Evol-CodeAlpaca 1、Evol-CodeAlpaca 2和一个通过Alpaca管道生成的关于网站创建的自生成数据集。

主要用途

该数据集作为训练CrystalCoder的基础，并支持进一步的复现。对于从头开始的训练，请参考我们的训练代码。对于从中途检查点开始的训练，请加载检查点中的数据加载器状态，并遵循此教程。

许可证

预训练数据主要来自具有各种许可证的数据源集合。任何使用此处全部或部分数据的行为都必须遵守原始许可证的条款，包括在相关情况下遵守署名条款。我们建议用户参考SlimPajama数据集和StarCoder数据集以获取详细的许可证归属信息。

我们根据ODC-BY发布我们的工作，因此授予对数据集的权利，但不授予数据集内容的个别权利。

AI搜集汇总

数据集介绍

构建方式

在构建LLM360/CrystalCoderDatasets数据集时，研究者们采用了多阶段的数据整合策略。首先，数据集从SlimPajama和StarCoder两个主要来源中提取，总计约1300亿个标记。在第一阶段，使用了SlimPajama数据集的一半，约345亿个标记。第二阶段则结合了剩余的SlimPajama数据和两轮StarCoder数据，并通过FIM增强技术进行处理，总计927亿个标记。第三阶段进一步利用StarCoder中的Python和网页相关数据，进行三轮训练，并应用FIM和SPM技术，总计100亿个标记。此外，还包含了少量非Github部分的SlimPajama数据，约10亿个标记。最后，通过指令调优阶段，整合了多种指令数据集，约10亿个标记，以增强模型在实际聊天场景中的表现。

特点

LLM360/CrystalCoderDatasets数据集的显著特点在于其多源数据的综合利用和多阶段的训练策略。数据集不仅涵盖了大量的编程和网页开发相关内容，还通过FIM和SPM技术的应用，增强了数据的有效性和多样性。此外，指令调优阶段的引入，使得数据集在支持模型实际应用场景的能力上有了显著提升。数据集的构建还特别注重了数据的重用和增强，确保了训练数据的广泛覆盖和深度利用。

使用方法

LLM360/CrystalCoderDatasets数据集主要用于支持CrystalCoder模型的训练和再生产。用户可以通过参考提供的训练代码，从头开始进行模型训练。对于希望从中间检查点开始训练的用户，可以通过加载检查点中的数据加载器状态，并遵循相关教程进行操作。数据集的使用需遵守原始数据源的许可条款，特别是当涉及到数据的部分或全部使用时，必须遵守相应的归属条款。

背景与挑战

背景概述

LLM360/CrystalCoderDatasets数据集是由LLM360团队创建，旨在支持CrystalCoder模型的训练。该数据集整合了三个预训练阶段的数据序列，涵盖了来自SlimPajama和StarCoder数据集的约1300亿个token。这些数据分布在三个阶段，每个阶段具有不同的权重和数据处理方法。数据集的构建借鉴了前人的研究成果，如SlimPajama和StarCoder，旨在提升模型在编程和自然语言处理任务中的表现。通过多阶段的训练和数据增强技术，如FIM和SPM，该数据集为CrystalCoder的训练提供了坚实的基础，对推动自然语言处理和编程领域的研究具有重要意义。

当前挑战

LLM360/CrystalCoderDatasets数据集在构建过程中面临多项挑战。首先，数据集的规模庞大，涉及多个数据源的整合，这要求高效的存储和处理技术。其次，不同数据源的许可证和使用条款各异，确保合规使用数据是一个复杂的过程。此外，数据增强技术的应用，如FIM和SPM，虽然提升了模型的性能，但也增加了数据处理的复杂性和计算成本。最后，数据集的多阶段训练策略需要精确的参数调整和验证，以确保每个阶段的训练效果最大化，这对研究人员的专业技能和资源投入提出了高要求。

常用场景

经典使用场景

在自然语言处理领域，LLM360/CrystalCoderDatasets数据集的经典使用场景主要体现在大规模预训练模型的训练过程中。该数据集整合了来自SlimPajama和StarCoder的丰富数据序列，涵盖了从基础语言模型到高级指令调优的多个训练阶段。通过这些数据，研究人员能够构建和优化具有强大语言理解和生成能力的模型，特别适用于代码生成、对话系统和编程辅助工具的开发。

衍生相关工作

LLM360/CrystalCoderDatasets数据集的发布催生了多项相关研究工作。例如，基于该数据集的预训练模型CrystalCoder在多个自然语言处理任务中表现优异，推动了相关算法的进一步优化。此外，该数据集的分阶段训练策略和指令调优方法，为后续研究提供了新的思路和方法论。研究人员还基于该数据集开发了多种应用工具，如代码生成器和智能对话系统，进一步扩展了其应用范围。

数据集最近研究

最新研究方向

在自然语言处理领域，LLM360/CrystalCoderDatasets数据集的最新研究方向主要集中在多阶段预训练策略的优化与应用。该数据集通过整合SlimPajama和StarCoder数据，分三个阶段进行预训练，每个阶段采用不同的数据权重和增强技术，如FIM和SPM，以提升模型在代码生成和指令遵循任务中的表现。特别是第三阶段的指令调优，通过引入多样化的指令数据集，显著增强了模型在实际对话场景中的适应性和准确性。这一研究方向不仅推动了预训练语言模型在代码生成领域的技术进步，也为未来在多模态数据融合和模型微调方面提供了新的思路和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

XJTU-SY Bearing Datasets

XJTU-SY轴承数据集由西安交通大学设计科学与基础部件研究所和浙江长兴Sumyoung科技有限公司提供。数据集包含了15个滚动轴承从运行到故障的完整数据，这些数据是通过进行多次加速退化实验获得的。这些数据集公开可用，任何人都可以使用它们来验证滚动轴承的预测算法。

github 收录