five

LLM360/CrystalCoderDatasets|预训练数据集数据集|代码生成数据集

收藏
hugging_face2024-04-02 更新2024-03-04 收录
预训练数据集
代码生成
下载链接:
https://hf-mirror.com/datasets/LLM360/CrystalCoderDatasets
下载链接
链接失效反馈
资源简介:
该数据集整合了CrystalCoder训练过程中使用的全部数据序列,涵盖了三个预训练阶段的数据。数据集结合了SlimPajama和StarCoder两个先前工作的数据,总计约1300亿个token。第一阶段使用了SlimPajama数据的一半,约345亿个token;第二阶段使用了剩余的一半SlimPajama数据和两轮StarCoder数据,总计927亿个token;第三阶段重用了StarCoder数据中的Python和Web相关数据(如HTML、CSS、JavaScript),并加入了少量SlimPajama数据,总计110亿个token。此外,第三阶段还包括了约10亿个token的指令调优数据集,用于增强模型在真实聊天场景中的表现。
提供机构:
LLM360
原始信息汇总

数据集描述

该数据集整合了用于CrystalCoder训练的完整数据序列,包括三个预训练阶段的数据,结合了来自两个先前工作的数据:SlimPajama数据集StarCoder数据集,总计约13000亿个标记。这些标记分布在三个阶段,每个阶段具有不同的权重。

阶段1

在初始阶段,使用了SlimPajama数据集的一半数据,相当于约3450亿个标记。

阶段2

在第二阶段,使用了SlimPajama数据集的另一半数据,以及两个周期的StarCoder数据集。对于StarCoder数据,应用了FIM增强,FIM率为0.9,SPM率为0.5。该阶段的标记总数为9270亿个。

阶段3

第三阶段涉及重新使用StarCoder数据集中的Python和Web相关数据,包括HTML、CSS和JavaScript。这些数据用于三个周期的训练,FIM率为0.3,SPM率为0.5。该阶段的标记总数为1000亿个。此外,还重新使用了SlimPajama数据集的一小部分(不包括Github部分),贡献了约100亿个标记。

指令调优(阶段3a)

为了增强模型在实际聊天场景中的能力,使用了多种指令调优数据集,总计约10亿个标记。具体数据包括OASST1-guanacoSlimOrcaShareGPT_V4.3Evol-ShareGPTCodeAlpacaRosetta CodeEvol-CodeAlpaca 1Evol-CodeAlpaca 2和一个通过Alpaca管道生成的关于网站创建的自生成数据集。

主要用途

该数据集作为训练CrystalCoder的基础,并支持进一步的复现。对于从头开始的训练,请参考我们的训练代码。对于从中途检查点开始的训练,请加载检查点中的数据加载器状态,并遵循此教程

许可证

预训练数据主要来自具有各种许可证的数据源集合。任何使用此处全部或部分数据的行为都必须遵守原始许可证的条款,包括在相关情况下遵守署名条款。我们建议用户参考SlimPajama数据集StarCoder数据集以获取详细的许可证归属信息。

我们根据ODC-BY发布我们的工作,因此授予对数据集的权利,但不授予数据集内容的个别权利。

AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建LLM360/CrystalCoderDatasets数据集时,研究者们采用了多阶段的数据整合策略。首先,数据集从SlimPajama和StarCoder两个主要来源中提取,总计约1300亿个标记。在第一阶段,使用了SlimPajama数据集的一半,约345亿个标记。第二阶段则结合了剩余的SlimPajama数据和两轮StarCoder数据,并通过FIM增强技术进行处理,总计927亿个标记。第三阶段进一步利用StarCoder中的Python和网页相关数据,进行三轮训练,并应用FIM和SPM技术,总计100亿个标记。此外,还包含了少量非Github部分的SlimPajama数据,约10亿个标记。最后,通过指令调优阶段,整合了多种指令数据集,约10亿个标记,以增强模型在实际聊天场景中的表现。
特点
LLM360/CrystalCoderDatasets数据集的显著特点在于其多源数据的综合利用和多阶段的训练策略。数据集不仅涵盖了大量的编程和网页开发相关内容,还通过FIM和SPM技术的应用,增强了数据的有效性和多样性。此外,指令调优阶段的引入,使得数据集在支持模型实际应用场景的能力上有了显著提升。数据集的构建还特别注重了数据的重用和增强,确保了训练数据的广泛覆盖和深度利用。
使用方法
LLM360/CrystalCoderDatasets数据集主要用于支持CrystalCoder模型的训练和再生产。用户可以通过参考提供的训练代码,从头开始进行模型训练。对于希望从中间检查点开始训练的用户,可以通过加载检查点中的数据加载器状态,并遵循相关教程进行操作。数据集的使用需遵守原始数据源的许可条款,特别是当涉及到数据的部分或全部使用时,必须遵守相应的归属条款。
背景与挑战
背景概述
LLM360/CrystalCoderDatasets数据集是由LLM360团队创建,旨在支持CrystalCoder模型的训练。该数据集整合了三个预训练阶段的数据序列,涵盖了来自SlimPajama和StarCoder数据集的约1300亿个token。这些数据分布在三个阶段,每个阶段具有不同的权重和数据处理方法。数据集的构建借鉴了前人的研究成果,如SlimPajama和StarCoder,旨在提升模型在编程和自然语言处理任务中的表现。通过多阶段的训练和数据增强技术,如FIM和SPM,该数据集为CrystalCoder的训练提供了坚实的基础,对推动自然语言处理和编程领域的研究具有重要意义。
当前挑战
LLM360/CrystalCoderDatasets数据集在构建过程中面临多项挑战。首先,数据集的规模庞大,涉及多个数据源的整合,这要求高效的存储和处理技术。其次,不同数据源的许可证和使用条款各异,确保合规使用数据是一个复杂的过程。此外,数据增强技术的应用,如FIM和SPM,虽然提升了模型的性能,但也增加了数据处理的复杂性和计算成本。最后,数据集的多阶段训练策略需要精确的参数调整和验证,以确保每个阶段的训练效果最大化,这对研究人员的专业技能和资源投入提出了高要求。
常用场景
经典使用场景
在自然语言处理领域,LLM360/CrystalCoderDatasets数据集的经典使用场景主要体现在大规模预训练模型的训练过程中。该数据集整合了来自SlimPajama和StarCoder的丰富数据序列,涵盖了从基础语言模型到高级指令调优的多个训练阶段。通过这些数据,研究人员能够构建和优化具有强大语言理解和生成能力的模型,特别适用于代码生成、对话系统和编程辅助工具的开发。
衍生相关工作
LLM360/CrystalCoderDatasets数据集的发布催生了多项相关研究工作。例如,基于该数据集的预训练模型CrystalCoder在多个自然语言处理任务中表现优异,推动了相关算法的进一步优化。此外,该数据集的分阶段训练策略和指令调优方法,为后续研究提供了新的思路和方法论。研究人员还基于该数据集开发了多种应用工具,如代码生成器和智能对话系统,进一步扩展了其应用范围。
数据集最近研究
最新研究方向
在自然语言处理领域,LLM360/CrystalCoderDatasets数据集的最新研究方向主要集中在多阶段预训练策略的优化与应用。该数据集通过整合SlimPajama和StarCoder数据,分三个阶段进行预训练,每个阶段采用不同的数据权重和增强技术,如FIM和SPM,以提升模型在代码生成和指令遵循任务中的表现。特别是第三阶段的指令调优,通过引入多样化的指令数据集,显著增强了模型在实际对话场景中的适应性和准确性。这一研究方向不仅推动了预训练语言模型在代码生成领域的技术进步,也为未来在多模态数据融合和模型微调方面提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

中文突发事件语料库

中文突发事件语料库是由上海大学(语义智能实验室)所构建,根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。

github 收录

WorldClim

WorldClim是一个全球气候数据集,提供了全球范围内的气候数据,包括温度、降水、生物气候变量等。数据集的分辨率从30秒到10分钟不等,适用于各种尺度的气候分析和建模。

www.worldclim.org 收录