Multilingual Dataset for Training and Evaluating Diacritics Restoration Systems
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Multilingual_Dataset_for_etc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含 12 种语言的训练和评估数据: - 越南语 - 罗马尼亚语 - 拉脱维亚语 - 捷克语 - 波兰语 - 斯洛伐克语 - 爱尔兰语 - 匈牙利语 - 法语 - 土耳其语 - 西班牙语 - 克罗地亚语 对于每种语言,一个培训、一个开发和一个测试集从提供维基百科文章。此外,每个语言数据集都包含从(一般)Web 文本中收集的(大得多的)训练集。除了可以包含相似句子的维基百科和网络训练集之外,所有集都是不相交的。数据被分割成句子,这些句子被进一步的词标记化。
提供机构:
OpenDataLab
创建时间:
2022-05-23



