xz56/openwebtext-tokenized-small
收藏Hugging Face2024-03-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/xz56/openwebtext-tokenized-small
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Openwebtext2的前15%部分,使用LLamaTokenizer进行分词,上下文长度为256,总共有约15亿个tokens。数据集包含训练集和测试集,训练集有5,720,909个样本,测试集有301,101个样本。
该数据集是Openwebtext2的前15%部分,使用LLamaTokenizer进行分词,上下文长度为256,总共有约15亿个tokens。数据集包含训练集和测试集,训练集有5,720,909个样本,测试集有301,101个样本。
提供机构:
xz56
原始信息汇总
数据集概述
数据集特征
- 名称: input_ids
- 序列类型: int32
数据集分割
- 训练集
- 示例数量: 5720909
- 数据大小: 5881094452.0字节
- 测试集
- 示例数量: 301101
- 数据大小: 309531828.0字节
数据集大小
- 下载大小: 3050952379字节
- 总数据大小: 6190626280.0字节
数据文件配置
- 配置名称: default
- 训练数据路径: data/train-*
- 测试数据路径: data/test-*



