u-10bei/enwiki-20240301-tokenizer
收藏Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/u-10bei/enwiki-20240301-tokenizer
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
license: cc-by-sa-4.0
dataset_info:
features:
- name: text
dtype: string
splits:
- name: train
num_bytes: 1412755404
num_examples: 5380083
download_size: 855323958
dataset_size: 1412755404
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
u-10bei
原始信息汇总
数据集概述
语言
- 英语(en)
许可
- CC BY-SA 4.0
数据集信息
-
特征
- 名称: text
- 数据类型: string
-
分割
- 名称: train
- 字节数: 1412755404
- 样本数: 5380083
-
下载大小
- 855323958 字节
-
数据集大小
- 1412755404 字节
配置
-
配置名称
- default
-
数据文件
- 分割: train
- 路径: data/train-*



