wecover/OPUS_GlobalVoices
收藏Hugging Face2024-11-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wecover/OPUS_GlobalVoices
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言的数据文件,每种语言的数据文件分为训练集(train)、验证集(valid)和测试集(test)。数据文件以Parquet格式存储,路径中包含了语言代码,表明数据集可能用于多语言文本处理或机器翻译任务。
This dataset contains data files for multiple languages, with each languages data files divided into training (train), validation (valid), and test (test) sets. The data files are stored in Parquet format, and the paths include language codes, suggesting that the dataset may be used for multilingual text processing or machine translation tasks.
提供机构:
wecover
原始信息汇总
数据集配置
该数据集包含多个语言配置,每个配置包含训练集、验证集和测试集的Parquet文件路径。以下是各语言配置及其对应的数据文件路径:
-
默认配置 (
default)- 训练集:
*/*/train.parquet - 验证集:
*/*/valid.parquet - 测试集:
*/*/test.parquet
- 训练集:
-
阿姆哈拉语 (
am)- 训练集:
*/*am*/train.parquet - 验证集:
*/*am*/valid.parquet - 测试集:
*/*am*/test.parquet
- 训练集:
-
阿拉伯语 (
ar)- 训练集:
*/*ar*/train.parquet - 验证集:
*/*ar*/valid.parquet - 测试集:
*/*ar*/test.parquet
- 训练集:
-
孟加拉语 (
bn)- 训练集:
*/*bn*/train.parquet - 验证集:
*/*bn*/valid.parquet - 测试集:
*/*bn*/test.parquet
- 训练集:
-
加泰罗尼亚语 (
ca)- 训练集:
*/*ca*/train.parquet - 验证集:
*/*ca*/valid.parquet - 测试集:
*/*ca*/test.parquet
- 训练集:
-
德语 (
de)- 训练集:
*/*de*/train.parquet - 验证集:
*/*de*/valid.parquet - 测试集:
*/*de*/test.parquet
- 训练集:
-
希腊语 (
el)- 训练集:
*/*el*/train.parquet - 验证集:
*/*el*/valid.parquet - 测试集:
*/*el*/test.parquet
- 训练集:
-
英语 (
en)- 训练集:
*/*en*/train.parquet - 验证集:
*/*en*/valid.parquet - 测试集:
*/*en*/test.parquet
- 训练集:
-
西班牙语 (
es)- 训练集:
*/*es*/train.parquet - 验证集:
*/*es*/valid.parquet - 测试集:
*/*es*/test.parquet
- 训练集:
-
波斯语 (
fa)- 训练集:
*/*fa*/train.parquet - 验证集:
*/*fa*/valid.parquet - 测试集:
*/*fa*/test.parquet
- 训练集:
-
法语 (
fr)- 训练集:
*/*fr*/train.parquet - 验证集:
*/*fr*/valid.parquet - 测试集:
*/*fr*/test.parquet
- 训练集:
-
印地语 (
hi)- 训练集:
*/*hi*/train.parquet - 验证集:
*/*hi*/valid.parquet - 测试集:
*/*hi*/test.parquet
- 训练集:
-
匈牙利语 (
hu)- 训练集:
*/*hu*/train.parquet - 验证集:
*/*hu*/valid.parquet - 测试集:
*/*hu*/test.parquet
- 训练集:
-
印度尼西亚语 (
id)- 训练集:
*/*id*/train.parquet - 验证集:
*/*id*/valid.parquet - 测试集:
*/*id*/test.parquet
- 训练集:
-
意大利语 (
it)- 训练集:
*/*it*/train.parquet - 验证集:
*/*it*/valid.parquet - 测试集:
*/*it*/test.parquet
- 训练集:
-
马尔加什语 (
mg)- 训练集:
*/*mg*/train.parquet - 验证集:
*/*mg*/valid.parquet - 测试集:
*/*mg*/test.parquet
- 训练集:
-
马其顿语 (
mk)- 训练集:
*/*mk*/train.parquet - 验证集:
*/*mk*/valid.parquet - 测试集:
*/*mk*/test.parquet
- 训练集:
-
缅甸语 (
my)- 训练集:
*/*my*/train.parquet - 验证集:
*/*my*/valid.parquet - 测试集:
*/*my*/test.parquet
- 训练集:
-
荷兰语 (
nl)- 训练集:
*/*nl*/train.parquet - 验证集:
*/*nl*/valid.parquet - 测试集:
*/*nl*/test.parquet
- 训练集:
-
波兰语 (
pl)- 训练集:
*/*pl*/train.parquet - 验证集:
*/*pl*/valid.parquet - 测试集:
*/*pl*/test.parquet
- 训练集:
-
葡萄牙语 (
pt)- 训练集:
*/*pt*/train.parquet - 验证集:
*/*pt*/valid.parquet - 测试集:
*/*pt*/test.parquet
- 训练集:
-
俄语 (
ru)- 训练集:
*/*ru*/train.parquet - 验证集:
*/*ru*/valid.parquet - 测试集:
*/*ru*/test.parquet
- 训练集:
-
塞尔维亚语 (
sr)- 训练集:
*/*sr*/train.parquet - 验证集:
*/*sr*/valid.parquet - 测试集:
*/*sr*/test.parquet
- 训练集:
-
斯瓦希里语 (
sw)- 训练集:
*/*sw*/train.parquet - 验证集:
*/*sw*/valid.parquet - 测试集:
*/*sw*/test.parquet
- 训练集:
-
土耳其语 (
tr)- 训练集:
*/*tr*/train.parquet - 验证集:
*/*tr*/valid.parquet - 测试集:
*/*tr*/test.parquet
- 训练集:
-
乌尔都语 (
ur)- 训练集:
*/*ur*/train.parquet - 验证集:
*/*ur*/valid.parquet - 测试集:
*/*ur*/test.parquet
- 训练集:
-
简体中文 (
zhs)- 训练集:
*/*zhs*/train.parquet - 验证集:
*/*zhs*/valid.parquet - 测试集:
*/*zhs*/test.parquet
- 训练集:
-
繁体中文 (
zht)- 训练集:
*/*zht*/train.parquet - 验证集:
*/*zht*/valid.parquet - 测试集:
*/*zht*/test.parquet
- 训练集:
-
保加利亚语 (
bg)- 训练集:
*/*bg*/train.parquet - 验证集:
*/*bg*/valid.parquet - 测试集:
*/*bg*/test.parquet
- 训练集:
-
捷克语 (
cs)- 训练集:
*/*cs*/train.parquet - 验证集:
*/*cs*/valid.parquet - 测试集:
*/*cs*/test.parquet
- 训练集:
-
丹麦语 (
da)- 训练集:
*/*da*/train.parquet - 验证集:
*/*da*/valid.parquet - 测试集:
*/*da*/test.parquet
- 训练集:
-
世界语 (
eo)- 训练集:
*/*eo*/train.parquet - 验证集:
*/*eo*/valid.parquet - 测试集:
*/*eo*/test.parquet
- 训练集:
-
希伯来语 (
he)- 训练集:
*/*he*/train.parquet - 验证集:
*/*he*/valid.parquet - 测试集:
*/*he*/test.parquet
- 训练集:
-
高棉语 (
km)- 训练集:
*/*km*/train.parquet - 验证集:
*/*km*/valid.parquet - 测试集:
*/*km*/test.parquet
- 训练集:
-
韩语 (
ko)- 训练集:
*/*ko*/train.parquet - 验证集:
*/*ko*/valid.parquet - 测试集:
*/*ko*/test.parquet
- 训练集:
-
库尔德语 (
ku)- 训练集:
*/*ku*/train.parquet - 验证集:
*/*ku*/valid.parquet - 测试集:
*/*ku*/test.parquet
- 训练集:
-
尼泊尔语 (
ne)- 训练集:
*/*ne*/train.parquet - 验证集:
*/*ne*/valid.parquet - 测试集:
*/*ne*/test.parquet
- 训练集:
-
奥里亚语 (
or)- 训练集:
*/*or*/train.parquet - 验证集:
*/*or*/valid.parquet - 测试集:
*/*or*/test.parquet
- 训练集:
-
旁遮普语 (
pa)- 训练集:
*/*pa*/train.parquet - 验证集:
*/*pa*/valid.parquet - 测试集:
*/*pa*/test.parquet
- 训练集:
-
罗马尼亚语 (
ro)- 训练集:
*/*ro*/train.parquet - 验证集:
*/*ro*/valid.parquet - 测试集:
*/*ro*/test.parquet
- 训练集:
-
阿尔巴尼亚语 (
sq)- 训练集:
*/*sq*/train.parquet - 验证集:
*/*sq*/valid.parquet - 测试集:
*/*sq*/test.parquet
- 训练集:
-
瑞典语 (
sv)- 训练集:
*/*sv*/train.parquet - 验证集:
*/*sv*/valid.parquet - 测试集:
*/*sv*/test.parquet
- 训练集:



