five

yiyic/mt_ms_test

收藏
Hugging Face2024-05-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/yiyic/mt_ms_test
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种语言的文本数据,分为多个语言分片,每个分片对应一种特定的语言和字符编码。数据集的主要特征是text字段,存储字符串类型的文本数据。每个语言分片都有详细的字节数和样本数记录,总共有20个不同的语言分片,涵盖了从德语到日语等多种语言。数据集的下载大小为29451833字节,总大小为60316069字节。

该数据集包含多种语言的文本数据,分为多个语言分片,每个分片对应一种特定的语言和字符编码。数据集的主要特征是text字段,存储字符串类型的文本数据。每个语言分片都有详细的字节数和样本数记录,总共有20个不同的语言分片,涵盖了从德语到日语等多种语言。数据集的下载大小为29451833字节,总大小为60316069字节。
提供机构:
yiyic
原始信息汇总

数据集概述

特征

  • 名称: text
  • 数据类型: string

数据集分割

  • deu_Latn: 1000个示例,总字节数5112674
  • ydd_Hebr: 500个示例,总字节数4630510
  • heb_Hebr: 500个示例,总字节数2077609
  • arb_Arab: 500个示例,总字节数2994262
  • amh_Ethi: 500个示例,总字节数4494421
  • mlt_Latn: 500个示例,总字节数3115598
  • hin_Deva: 500个示例,总字节数3688388
  • urd_Arab: 500个示例,总字节数3007232
  • guj_Gujr: 500个示例,总字节数3960916
  • sin_Sinh: 500个示例,总字节数5517810
  • pan_Guru: 500个示例,总字节数3854564
  • tur_Latn: 500个示例,总字节数1500166
  • kaz_Cyrl: 500个示例,总字节数3671380
  • cmn_Hani: 500个示例,总字节数287337
  • jpn_Jpan: 500个示例,总字节数1265796
  • kor_Hang: 500个示例,总字节数2532280
  • mon_Cyrl: 500个示例,总字节数2948731
  • hun_Latn: 500个示例,总字节数1819187
  • mhr_Cyrl: 500个示例,总字节数2034300
  • fin_Latn: 500个示例,总字节数1802908

数据集大小

  • 下载大小: 29451833字节
  • 数据集总大小: 60316069字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作