terrycraddock/GPT2-PretrainV1-en
收藏Hugging Face2023-12-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/terrycraddock/GPT2-PretrainV1-en
下载链接
链接失效反馈官方服务:
资源简介:
小型数据集,旨在测试从GPT2模型到更小模型的知识蒸馏。该数据集用于预训练一个较小的模型,希望使模型对广泛的信息有一个一般的理解。数据集是多个其他数据集的组合,每个数据集被下载、重命名特征等,以便进行连接和混洗。
小型数据集,旨在测试从GPT2模型到更小模型的知识蒸馏。该数据集用于预训练一个较小的模型,希望使模型对广泛的信息有一个一般的理解。数据集是多个其他数据集的组合,每个数据集被下载、重命名特征等,以便进行连接和混洗。
提供机构:
terrycraddock
原始信息汇总
GPT2-PretrainV1-en
数据集描述
这是一个小型数据集,旨在测试将知识从GPT2模型蒸馏到更小的有用模型中。该数据集用于预训练一个较小的模型,希望使模型对广泛的信息有一个基本的理解。
数据集来源
该数据集是多个其他数据集的组合。每个数据集下载后,其特征被重命名以允许合并和洗牌。
数据集信息
特征
- 名称: text
- 数据类型: large_string
分割
- 训练集:
- 字节数: 10223971287.488651
- 样本数: 32136787
- 测试集:
- 字节数: 1135997092.5113497
- 样本数: 3570755
大小
- 下载大小: 7440940192
- 数据集大小: 11359968380.0
配置
- 配置名称: default
- 数据文件:
- 训练集路径: data/train-*
- 测试集路径: data/test-*



