LLM360/CrystalCoderDatasets|预训练数据集数据集|代码生成数据集
收藏数据集描述
该数据集整合了用于CrystalCoder训练的完整数据序列,包括三个预训练阶段的数据,结合了来自两个先前工作的数据:SlimPajama数据集和StarCoder数据集,总计约13000亿个标记。这些标记分布在三个阶段,每个阶段具有不同的权重。
阶段1
在初始阶段,使用了SlimPajama数据集的一半数据,相当于约3450亿个标记。
阶段2
在第二阶段,使用了SlimPajama数据集的另一半数据,以及两个周期的StarCoder数据集。对于StarCoder数据,应用了FIM增强,FIM率为0.9,SPM率为0.5。该阶段的标记总数为9270亿个。
阶段3
第三阶段涉及重新使用StarCoder数据集中的Python和Web相关数据,包括HTML、CSS和JavaScript。这些数据用于三个周期的训练,FIM率为0.3,SPM率为0.5。该阶段的标记总数为1000亿个。此外,还重新使用了SlimPajama数据集的一小部分(不包括Github部分),贡献了约100亿个标记。
指令调优(阶段3a)
为了增强模型在实际聊天场景中的能力,使用了多种指令调优数据集,总计约10亿个标记。具体数据包括OASST1-guanaco、SlimOrca、ShareGPT_V4.3、Evol-ShareGPT、CodeAlpaca、Rosetta Code、Evol-CodeAlpaca 1、Evol-CodeAlpaca 2和一个通过Alpaca管道生成的关于网站创建的自生成数据集。
主要用途
该数据集作为训练CrystalCoder的基础,并支持进一步的复现。对于从头开始的训练,请参考我们的训练代码。对于从中途检查点开始的训练,请加载检查点中的数据加载器状态,并遵循此教程。
许可证
预训练数据主要来自具有各种许可证的数据源集合。任何使用此处全部或部分数据的行为都必须遵守原始许可证的条款,包括在相关情况下遵守署名条款。我们建议用户参考SlimPajama数据集和StarCoder数据集以获取详细的许可证归属信息。
我们根据ODC-BY发布我们的工作,因此授予对数据集的权利,但不授予数据集内容的个别权利。

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
XJTU-SY Bearing Datasets
XJTU-SY轴承数据集由西安交通大学设计科学与基础部件研究所和浙江长兴Sumyoung科技有限公司提供。数据集包含了15个滚动轴承从运行到故障的完整数据,这些数据是通过进行多次加速退化实验获得的。这些数据集公开可用,任何人都可以使用它们来验证滚动轴承的预测算法。
github 收录