LLM360/CrystalCoderDatasets|预训练数据集数据集|代码生成数据集
收藏数据集描述
该数据集整合了用于CrystalCoder训练的完整数据序列,包括三个预训练阶段的数据,结合了来自两个先前工作的数据:SlimPajama数据集和StarCoder数据集,总计约13000亿个标记。这些标记分布在三个阶段,每个阶段具有不同的权重。
阶段1
在初始阶段,使用了SlimPajama数据集的一半数据,相当于约3450亿个标记。
阶段2
在第二阶段,使用了SlimPajama数据集的另一半数据,以及两个周期的StarCoder数据集。对于StarCoder数据,应用了FIM增强,FIM率为0.9,SPM率为0.5。该阶段的标记总数为9270亿个。
阶段3
第三阶段涉及重新使用StarCoder数据集中的Python和Web相关数据,包括HTML、CSS和JavaScript。这些数据用于三个周期的训练,FIM率为0.3,SPM率为0.5。该阶段的标记总数为1000亿个。此外,还重新使用了SlimPajama数据集的一小部分(不包括Github部分),贡献了约100亿个标记。
指令调优(阶段3a)
为了增强模型在实际聊天场景中的能力,使用了多种指令调优数据集,总计约10亿个标记。具体数据包括OASST1-guanaco、SlimOrca、ShareGPT_V4.3、Evol-ShareGPT、CodeAlpaca、Rosetta Code、Evol-CodeAlpaca 1、Evol-CodeAlpaca 2和一个通过Alpaca管道生成的关于网站创建的自生成数据集。
主要用途
该数据集作为训练CrystalCoder的基础,并支持进一步的复现。对于从头开始的训练,请参考我们的训练代码。对于从中途检查点开始的训练,请加载检查点中的数据加载器状态,并遵循此教程。
许可证
预训练数据主要来自具有各种许可证的数据源集合。任何使用此处全部或部分数据的行为都必须遵守原始许可证的条款,包括在相关情况下遵守署名条款。我们建议用户参考SlimPajama数据集和StarCoder数据集以获取详细的许可证归属信息。
我们根据ODC-BY发布我们的工作,因此授予对数据集的权利,但不授予数据集内容的个别权利。

中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
中文突发事件语料库
中文突发事件语料库是由上海大学(语义智能实验室)所构建,根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。
github 收录
WorldClim
WorldClim是一个全球气候数据集,提供了全球范围内的气候数据,包括温度、降水、生物气候变量等。数据集的分辨率从30秒到10分钟不等,适用于各种尺度的气候分析和建模。
www.worldclim.org 收录
