five

MENYO-20k

收藏
github2023-01-16 更新2024-05-31 收录
下载链接:
https://github.com/uds-lsv/menyo-20k_MT
下载链接
链接失效反馈
官方服务:
资源简介:
MENYO-20k是一个多领域并行数据集,包含从新闻文章、Ted演讲、电影剧本、广播剧本、科技文本以及其他网络和专业翻译人员精选的短文中获取的文本。该数据集包含20,100个并行句子,分为10,070个训练句子、3,397个开发句子和6,633个测试句子。

MENYO-20k is a multi-domain parallel dataset comprising texts sourced from news articles, TED talks, movie scripts, radio scripts, technical documents, and other web and professional translations. The dataset includes 20,100 parallel sentences, divided into 10,070 training sentences, 3,397 development sentences, and 6,633 test sentences.
创建时间:
2021-07-05
原始信息汇总

数据集概述

数据集名称

MENYO-20k

数据集描述

MENYO-20k是首个针对Yorùbá-English(yo-en)语言对的跨领域平行语料库,用于基准测试机器翻译(MT)系统。该数据集包含20,100个平行句子,分为10,070个训练句子、3,397个开发句子和6,633个测试句子。数据来源包括新闻文章、Ted演讲、电影脚本、广播脚本、科技文本及其他网络和专业翻译的短文。

数据集结构

  • 训练集:10,070句
  • 开发集:3,397句
  • 测试集:6,633句(其中3,419句为多领域,1,714句为新闻领域,1,500句为Ted演讲脚本领域)

许可证

非商业用途,部分数据源如Ted演讲和JW新闻要求商业使用需获得许可。

相关模型

  • 微调的MT5-base模型:
    • EN-YO
    • YO-EN
  • 监督学习模型:
    • EN-YO
    • YO-EN
  • 半监督学习模型:
    • EN-YO
    • YO-EN

这些模型包括C4+Transfer和C4+Transfer+BT,使用Fairseq框架训练。

数据预处理

提供Truecase和BPE模型用于预处理源语言文本。

引用信息

@inproceedings{adelani-etal-2021-effect, title = "The Effect of Domain and Diacritics in {Y}oruba{--}{E}nglish Neural Machine Translation", author = "Adelani, David and Ruiter, Dana and Alabi, Jesujoba and Adebonojo, Damilola and Ayeni, Adesina and Adeyemi, Mofe and Awokoya, Ayodele Esther and Espa{~n}a-Bonet, Cristina", booktitle = "Proceedings of the 18th Biennial Machine Translation Summit (Volume 1: Research Track)", month = aug, year = "2021", address = "Virtual", publisher = "Association for Machine Translation in the Americas", url = "https://aclanthology.org/2021.mtsummit-research.6", pages = "61--75", abstract = "...", }

搜集汇总
数据集介绍
main_image_url
构建方式
MENYO-20k数据集的构建过程体现了对多领域文本的精心筛选与整合。该数据集从新闻文章、TED演讲、电影剧本、广播稿、科技文本以及其他网络资源中提取了20,100条平行句子,涵盖了约鲁巴语与英语之间的多领域翻译需求。数据收集过程中,专业翻译人员的参与确保了文本的准确性和多样性。数据集被划分为训练集、开发集和测试集,分别包含10,070、3,397和6,633条句子,其中测试集进一步细分为多领域、新闻领域和TED演讲领域,以支持不同场景下的模型评估。
特点
MENYO-20k作为首个约鲁巴语-英语多领域平行语料库,具有显著的多样性和专业性。其文本来源广泛,涵盖了新闻、科技、娱乐等多个领域,确保了数据集的代表性和实用性。此外,数据集的构建特别关注了约鲁巴语的变音符号问题,为研究语言特性对机器翻译的影响提供了重要支持。数据集的标准化划分和高质量标注为约鲁巴语-英语机器翻译模型的训练与评估提供了坚实的基础。
使用方法
使用MENYO-20k数据集进行机器翻译研究时,研究人员可通过提供的预训练模型(如MT5-base)或基于Fairseq框架的监督与半监督模型进行实验。数据集的输入文件需经过预处理,包括Truecase和BPE处理,以确保与模型兼容。通过Fairseq框架,用户可加载预训练模型并生成翻译结果。此外,数据集的使用需遵循非商业许可,并引用相关论文以支持学术研究的透明性和可追溯性。
背景与挑战
背景概述
MENYO-20k数据集于2021年由David Adelani等研究人员在第十八届机器翻译峰会上首次提出,旨在解决约鲁巴语与英语之间的神经机器翻译问题。该数据集是首个多领域平行语料库,涵盖了新闻、TED演讲、电影剧本、广播稿、科技文本等多个领域,共包含20,100条平行句子。MENYO-20k的创建不仅填补了约鲁巴语-英语翻译领域的数据空白,还为低资源语言对的机器翻译研究提供了标准化评估基准。该数据集的研究成果显著提升了约鲁巴语翻译的质量,并为未来相关研究奠定了坚实基础。
当前挑战
MENYO-20k数据集在构建与应用过程中面临多重挑战。首先,约鲁巴语作为一种低资源语言,其语料稀缺且分布不均,数据收集与标注工作极为复杂。其次,约鲁巴语的变音符号(diacritics)对翻译质量具有重要影响,如何在训练数据中有效处理这一特征成为关键问题。此外,数据集的跨领域特性要求模型具备强大的泛化能力,而现有的大规模多语言模型在低资源语言对上表现不佳,难以直接适用。最后,数据集的非商业使用限制也为其广泛应用带来了一定障碍。这些挑战共同构成了MENYO-20k数据集在推动约鲁巴语-英语机器翻译研究中的核心难题。
常用场景
经典使用场景
MENYO-20k数据集作为首个多领域的约鲁巴语-英语平行语料库,广泛应用于神经机器翻译(NMT)系统的基准测试。其多领域特性使得研究者能够在新闻、TED演讲、电影剧本、广播稿、科技文本等多个领域内评估翻译模型的性能,从而全面了解模型在不同语境下的表现。
实际应用
在实际应用中,MENYO-20k数据集为开发高质量的约鲁巴语-英语翻译工具提供了基础。这些工具可以应用于新闻翻译、教育内容本地化、跨文化交流等多个场景,帮助提升约鲁巴语使用者的信息获取能力和跨语言沟通效率。特别是在非洲地区,该数据集的应用有助于推动本地语言的数字化和信息化进程。
衍生相关工作
MENYO-20k的发布催生了一系列相关研究,特别是在低资源语言机器翻译领域。基于该数据集,研究者开发了多种神经机器翻译模型,如基于MT5的微调模型和半监督学习模型。这些模型不仅在约鲁巴语-英语翻译任务中表现出色,还为其他低资源语言对的翻译研究提供了参考。此外,数据集的使用还促进了跨语言预训练模型在低资源语言中的应用研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作