yiyic/mt_ms_test
收藏Hugging Face2024-05-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/yiyic/mt_ms_test
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言的文本数据,分为多个语言分片,每个分片对应一种特定的语言和字符编码。数据集的主要特征是text字段,存储字符串类型的文本数据。每个语言分片都有详细的字节数和样本数记录,总共有20个不同的语言分片,涵盖了从德语到日语等多种语言。数据集的下载大小为29451833字节,总大小为60316069字节。
该数据集包含多种语言的文本数据,分为多个语言分片,每个分片对应一种特定的语言和字符编码。数据集的主要特征是text字段,存储字符串类型的文本数据。每个语言分片都有详细的字节数和样本数记录,总共有20个不同的语言分片,涵盖了从德语到日语等多种语言。数据集的下载大小为29451833字节,总大小为60316069字节。
提供机构:
yiyic
原始信息汇总
数据集概述
特征
- 名称: text
- 数据类型: string
数据集分割
- deu_Latn: 1000个示例,总字节数5112674
- ydd_Hebr: 500个示例,总字节数4630510
- heb_Hebr: 500个示例,总字节数2077609
- arb_Arab: 500个示例,总字节数2994262
- amh_Ethi: 500个示例,总字节数4494421
- mlt_Latn: 500个示例,总字节数3115598
- hin_Deva: 500个示例,总字节数3688388
- urd_Arab: 500个示例,总字节数3007232
- guj_Gujr: 500个示例,总字节数3960916
- sin_Sinh: 500个示例,总字节数5517810
- pan_Guru: 500个示例,总字节数3854564
- tur_Latn: 500个示例,总字节数1500166
- kaz_Cyrl: 500个示例,总字节数3671380
- cmn_Hani: 500个示例,总字节数287337
- jpn_Jpan: 500个示例,总字节数1265796
- kor_Hang: 500个示例,总字节数2532280
- mon_Cyrl: 500个示例,总字节数2948731
- hun_Latn: 500个示例,总字节数1819187
- mhr_Cyrl: 500个示例,总字节数2034300
- fin_Latn: 500个示例,总字节数1802908
数据集大小
- 下载大小: 29451833字节
- 数据集总大小: 60316069字节



