five

LLM360/K2Datasets

收藏
Hugging Face2024-06-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/LLM360/K2Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
K2数据集是通过两个阶段的训练生成的,第一阶段使用了1.4T的token,第二阶段使用了69.4B的token。数据来源包括多个公开数据集,如dm-math、pubmed-abstracts、uspto、redpajama.arxiv等。每个阶段的数据集都详细列出了起始token数、乘数、总token数及其占总token数的百分比。数据集的训练目标是达到与Llama 2 70B相当的效果。

K2数据集是通过两个阶段的训练生成的,第一阶段使用了1.4T的token,第二阶段使用了69.4B的token。数据来源包括多个公开数据集,如dm-math、pubmed-abstracts、uspto、redpajama.arxiv等。每个阶段的数据集都详细列出了起始token数、乘数、总token数及其占总token数的百分比。数据集的训练目标是达到与Llama 2 70B相当的效果。
提供机构:
LLM360
原始信息汇总

K2数据集概述

K2数据集用于训练模型K2,旨在达到与Llama 2 70B相符的结果。该数据集通过两个阶段的训练,共使用了1.4T个令牌。

第一阶段数据集详情

数据集名称 初始令牌数量 乘数 总令牌数量 占总令牌百分比
dm-math 4.33B 3x 13B 1%
pubmed-abstracts 4.77B 3x 14.3B 1.1%
uspto 4.77B 3x 14.3B 1.1%
pubmed-central 26B 1x 26B 2%
redpajama.arxiv 27.3B 1x 27.3B 2.1%
starcoder.spm 67.6B 0.5x 33.8B 2.6%
starcoder.fim 67.6B 0.5x 33.8B 2.6%
redpajama.stackexchange 61.1B 1x 61.1B 4.7%
starcoder 132.6B 0.5x 66.3B 5.1%
pile-of-law 76.7B 1x 76.7B 5.9%
redpajama.book 80.6B 1x 80.6B 6.2%
s2orc 107.9B 1x 107.9B 8.3%
redpajama.wikipedia 22.1B 6x 132.6B 10.2%
refinedweb 612.3B 1x 612.3B 47.1%
总计 - - 1.3T 100%

第二阶段数据集详情

数据集名称 初始令牌数量 乘数 总令牌数量 占总令牌百分比
open-web-math 14.6B 1x 14.6B 21%
redpajama.arxiv 2B 1x 2B 2.9%
simple-wiki 4.3B 1x 4.3B 6.2%
redpajama.book 2B 1x 2B 2.9%
algebraic-stack 10.9B 1x 10.9B 15.7%
pile-of-law 2B 0.5x 33.8B 2.9%
books 5.8B 1x 5.8B 8.3%
pes20 1.2B 1x 1.2B 1.8%
pubmed-central 2B 1x 2B 2.9%
redpajama.wikipedia 2B 1x 2B 2.9%
python 20.5B 1x 20.5B 29.6%
s2orc 2B 1x 2B 2.9%
总计 - - 69.4B 100%

数据集许可证

该数据集遵循ODC-BY许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作