spsither/tibetan_monolingual_A_filtered_deduped

Name: spsither/tibetan_monolingual_A_filtered_deduped
Creator: spsither
Published: 2024-04-26 16:25:00
License: 暂无描述

Hugging Face2024-04-26 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/spsither/tibetan_monolingual_A_filtered_deduped

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从spsither/tibetan_monolingual_A_meta中筛选出来的，筛选条件包括：句子中最大音节长度大于1且小于9，句子的字符长度大于15且小于1000。筛选后的数据进行了去重处理。数据集包含18GB的文本数据，但并非所有数据都是干净的。数据集分为训练集和测试集，训练集包含93,214,402个样本，测试集包含11,561,844个样本。

提供机构：

spsither

原始信息汇总