LLM360/K2Datasets
收藏Hugging Face2024-06-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/LLM360/K2Datasets
下载链接
链接失效反馈官方服务:
资源简介:
K2数据集是通过两个阶段的训练生成的,第一阶段使用了1.4T的token,第二阶段使用了69.4B的token。数据来源包括多个公开数据集,如dm-math、pubmed-abstracts、uspto、redpajama.arxiv等。每个阶段的数据集都详细列出了起始token数、乘数、总token数及其占总token数的百分比。数据集的训练目标是达到与Llama 2 70B相当的效果。
K2数据集是通过两个阶段的训练生成的,第一阶段使用了1.4T的token,第二阶段使用了69.4B的token。数据来源包括多个公开数据集,如dm-math、pubmed-abstracts、uspto、redpajama.arxiv等。每个阶段的数据集都详细列出了起始token数、乘数、总token数及其占总token数的百分比。数据集的训练目标是达到与Llama 2 70B相当的效果。
提供机构:
LLM360
原始信息汇总
K2数据集概述
K2数据集用于训练模型K2,旨在达到与Llama 2 70B相符的结果。该数据集通过两个阶段的训练,共使用了1.4T个令牌。
第一阶段数据集详情
| 数据集名称 | 初始令牌数量 | 乘数 | 总令牌数量 | 占总令牌百分比 |
|---|---|---|---|---|
| dm-math | 4.33B | 3x | 13B | 1% |
| pubmed-abstracts | 4.77B | 3x | 14.3B | 1.1% |
| uspto | 4.77B | 3x | 14.3B | 1.1% |
| pubmed-central | 26B | 1x | 26B | 2% |
| redpajama.arxiv | 27.3B | 1x | 27.3B | 2.1% |
| starcoder.spm | 67.6B | 0.5x | 33.8B | 2.6% |
| starcoder.fim | 67.6B | 0.5x | 33.8B | 2.6% |
| redpajama.stackexchange | 61.1B | 1x | 61.1B | 4.7% |
| starcoder | 132.6B | 0.5x | 66.3B | 5.1% |
| pile-of-law | 76.7B | 1x | 76.7B | 5.9% |
| redpajama.book | 80.6B | 1x | 80.6B | 6.2% |
| s2orc | 107.9B | 1x | 107.9B | 8.3% |
| redpajama.wikipedia | 22.1B | 6x | 132.6B | 10.2% |
| refinedweb | 612.3B | 1x | 612.3B | 47.1% |
| 总计 | - | - | 1.3T | 100% |
第二阶段数据集详情
| 数据集名称 | 初始令牌数量 | 乘数 | 总令牌数量 | 占总令牌百分比 |
|---|---|---|---|---|
| open-web-math | 14.6B | 1x | 14.6B | 21% |
| redpajama.arxiv | 2B | 1x | 2B | 2.9% |
| simple-wiki | 4.3B | 1x | 4.3B | 6.2% |
| redpajama.book | 2B | 1x | 2B | 2.9% |
| algebraic-stack | 10.9B | 1x | 10.9B | 15.7% |
| pile-of-law | 2B | 0.5x | 33.8B | 2.9% |
| books | 5.8B | 1x | 5.8B | 8.3% |
| pes20 | 1.2B | 1x | 1.2B | 1.8% |
| pubmed-central | 2B | 1x | 2B | 2.9% |
| redpajama.wikipedia | 2B | 1x | 2B | 2.9% |
| python | 20.5B | 1x | 20.5B | 29.6% |
| s2orc | 2B | 1x | 2B | 2.9% |
| 总计 | - | - | 69.4B | 100% |
数据集许可证
该数据集遵循ODC-BY许可证。



