manu/tok-corpus-shuffled

Name: manu/tok-corpus-shuffled
Creator: manu
Published: 2023-10-13 22:42:29
License: 暂无描述

Hugging Face2023-10-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/manu/tok-corpus-shuffled

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练自定义的分词器，特别是针对法语、英语和代码的分词器。数据集被洗牌以便于子采样用于分词器训练。数据集包含法语、代码和英语三个子集，分别有16881941、6338566和8440970行数据，总大小为124.0 GB。

提供机构：

manu

原始信息汇总

数据集概述

5,000+

优质数据集

54 个

任务类型

进入经典数据集