livinNector/tawikidump-20230320-tokenizer-clean
收藏Hugging Face2023-04-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/livinNector/tawikidump-20230320-tokenizer-clean
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
splits:
- name: tawikiquote
num_bytes: 6354086
num_examples: 1211
- name: tawikisource
num_bytes: 112492580
num_examples: 5031
- name: tawiki
num_bytes: 725939876
num_examples: 155212
- name: tawikinews
num_bytes: 13922393
num_examples: 3372
- name: tawiktionary
num_bytes: 152591462
num_examples: 406557
- name: tawikibooks
num_bytes: 4553789
num_examples: 1155
download_size: 0
dataset_size: 1015854186
---
# Dataset Card for "tawikidump-20230320-tokenizer-clean"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征:
- 字段名:text,数据类型:字符串(string)
数据集划分:
- 划分名称:泰语维基引语(Wikiquote),字节数:6354086,样本数:1211
- 划分名称:泰语维基资源(Wikisource),字节数:112492580,样本数:5031
- 划分名称:泰语维基百科(Wikipedia),字节数:725939876,样本数:155212
- 划分名称:泰语维基新闻(Wikinews),字节数:13922393,样本数:3372
- 划分名称:泰语维基词典(Wiktionary),字节数:152591462,样本数:406557
- 划分名称:泰语维基教科书(Wikibooks),字节数:4553789,样本数:1155
下载大小:0
数据集总大小:1015854186
---
# 「tawikidump-20230320-tokenizer-clean」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
livinNector
原始信息汇总
数据集概述
数据集名称
- 名称: tawikidump-20230320-tokenizer-clean
数据集特征
- 特征:
- 名称: text
- 数据类型: string
数据集分割
- 分割名称: tawikiquote
- 示例数量: 1211
- 字节数: 6354086
- 分割名称: tawikisource
- 示例数量: 5031
- 字节数: 112492580
- 分割名称: tawiki
- 示例数量: 155212
- 字节数: 725939876
- 分割名称: tawikinews
- 示例数量: 3372
- 字节数: 13922393
- 分割名称: tawiktionary
- 示例数量: 406557
- 字节数: 152591462
- 分割名称: tawikibooks
- 示例数量: 1155
- 字节数: 4553789
数据集大小
- 下载大小: 0
- 数据集总大小: 1015854186



