MENYO-20k
收藏数据集概述
数据集名称
MENYO-20k
数据集描述
MENYO-20k是首个针对Yorùbá-English(yo-en)语言对的跨领域平行语料库,用于基准测试机器翻译(MT)系统。该数据集包含20,100个平行句子,分为10,070个训练句子、3,397个开发句子和6,633个测试句子。数据来源包括新闻文章、Ted演讲、电影脚本、广播脚本、科技文本及其他网络和专业翻译的短文。
数据集结构
- 训练集:10,070句
- 开发集:3,397句
- 测试集:6,633句(其中3,419句为多领域,1,714句为新闻领域,1,500句为Ted演讲脚本领域)
许可证
非商业用途,部分数据源如Ted演讲和JW新闻要求商业使用需获得许可。
相关模型
- 微调的MT5-base模型:
- EN-YO
- YO-EN
- 监督学习模型:
- EN-YO
- YO-EN
- 半监督学习模型:
- EN-YO
- YO-EN
这些模型包括C4+Transfer和C4+Transfer+BT,使用Fairseq框架训练。
数据预处理
提供Truecase和BPE模型用于预处理源语言文本。
引用信息
@inproceedings{adelani-etal-2021-effect, title = "The Effect of Domain and Diacritics in {Y}oruba{--}{E}nglish Neural Machine Translation", author = "Adelani, David and Ruiter, Dana and Alabi, Jesujoba and Adebonojo, Damilola and Ayeni, Adesina and Adeyemi, Mofe and Awokoya, Ayodele Esther and Espa{~n}a-Bonet, Cristina", booktitle = "Proceedings of the 18th Biennial Machine Translation Summit (Volume 1: Research Track)", month = aug, year = "2021", address = "Virtual", publisher = "Association for Machine Translation in the Americas", url = "https://aclanthology.org/2021.mtsummit-research.6", pages = "61--75", abstract = "...", }




