manu/tok-corpus-shuffled
收藏Hugging Face2023-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/manu/tok-corpus-shuffled
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练自定义的分词器,特别是针对法语、英语和代码的分词器。数据集被洗牌以便于子采样用于分词器训练。数据集包含法语、代码和英语三个子集,分别有16881941、6338566和8440970行数据,总大小为124.0 GB。
提供机构:
manu
原始信息汇总
数据集概述
数据集信息
- 特征:
id: 字符串类型text: 字符串类型dataset_id: 字符串类型
- 拆分:
train: 包含 31,661,477 个样本,大小为 124.37 GB
- 下载大小: 67.45 GB
- 数据集大小: 124.37 GB
配置
- 默认配置:
- 数据文件路径:
data/train-*
- 数据文件路径:
数据集描述
- 目标: 用于训练自定义分词器,适用于法语、英语和代码。
- 数据集已打乱: 便于子采样用于分词器训练。
数据集详情
- 法语:
- 特征:
id,text,dataset_id - 样本数: 16,881,941
- 大小: 58.0 GB
- 比例: 0.47
- 特征:
- 代码:
- 特征:
id,text,dataset_id - 样本数: 6,338,566
- 大小: 28.0 GB
- 比例: 0.23
- 特征:
- 英语:
- 特征:
text,id,dataset_id - 样本数: 8,440,970
- 大小: 37.0 GB
- 比例: 0.30
- 特征:
- 总大小: 124.0 GB



