LLM360/K2Datasets

Name: LLM360/K2Datasets
Creator: LLM360
Published: 2024-06-06 17:04:36
License: 暂无描述

Hugging Face2024-06-06 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/LLM360/K2Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

K2数据集是通过两个阶段的训练生成的，第一阶段使用了1.4T的token，第二阶段使用了69.4B的token。数据来源包括多个公开数据集，如dm-math、pubmed-abstracts、uspto、redpajama.arxiv等。每个阶段的数据集都详细列出了起始token数、乘数、总token数及其占总token数的百分比。数据集的训练目标是达到与Llama 2 70B相当的效果。

提供机构：

LLM360

原始信息汇总

K2数据集概述

K2数据集用于训练模型K2，旨在达到与Llama 2 70B相符的结果。该数据集通过两个阶段的训练，共使用了1.4T个令牌。

第一阶段数据集详情

数据集名称	初始令牌数量	乘数	总令牌数量	占总令牌百分比
dm-math	4.33B	3x	13B	1%
pubmed-abstracts	4.77B	3x	14.3B	1.1%
uspto	4.77B	3x	14.3B	1.1%
pubmed-central	26B	1x	26B	2%
redpajama.arxiv	27.3B	1x	27.3B	2.1%
starcoder.spm	67.6B	0.5x	33.8B	2.6%
starcoder.fim	67.6B	0.5x	33.8B	2.6%
redpajama.stackexchange	61.1B	1x	61.1B	4.7%
starcoder	132.6B	0.5x	66.3B	5.1%
pile-of-law	76.7B	1x	76.7B	5.9%
redpajama.book	80.6B	1x	80.6B	6.2%
s2orc	107.9B	1x	107.9B	8.3%
redpajama.wikipedia	22.1B	6x	132.6B	10.2%
refinedweb	612.3B	1x	612.3B	47.1%
总计	-	-	1.3T	100%

第二阶段数据集详情

数据集名称	初始令牌数量	乘数	总令牌数量	占总令牌百分比
open-web-math	14.6B	1x	14.6B	21%
redpajama.arxiv	2B	1x	2B	2.9%
simple-wiki	4.3B	1x	4.3B	6.2%
redpajama.book	2B	1x	2B	2.9%
algebraic-stack	10.9B	1x	10.9B	15.7%
pile-of-law	2B	0.5x	33.8B	2.9%
books	5.8B	1x	5.8B	8.3%
pes20	1.2B	1x	1.2B	1.8%
pubmed-central	2B	1x	2B	2.9%
redpajama.wikipedia	2B	1x	2B	2.9%
python	20.5B	1x	20.5B	29.6%
s2orc	2B	1x	2B	2.9%
总计	-	-	69.4B	100%

数据集许可证

该数据集遵循ODC-BY许可证。

5,000+

优质数据集

54 个

任务类型

进入经典数据集