Aromanian-Romanian MT Corpus
收藏github2024-08-05 更新2024-08-06 收录
下载链接:
https://github.com/lolismek/AroTranslate
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含超过100k句子的Aromanian-Romanian平行语料库,用于支持Aromanian语言及其使用者的机器翻译系统。该数据集通过OCR、网络爬虫和文本挖掘技术收集,旨在提高Aromanian语言在数字内容中的可访问性。
This is an Aromanian-Romanian parallel corpus containing over 100,000 aligned sentence pairs, developed to support machine translation systems for the Aromanian language and its speaker community. This corpus was collected via OCR, web crawling and text mining techniques, with the objective of improving the accessibility of the Aromanian language in digital content.
创建时间:
2024-08-04
原始信息汇总
Aromanian Language Neural Machine Translation System
数据集概述
- 语言: Aromanian 和 Romanian
- 数据集大小: 超过 100,000 句子的 Aromanian-Romanian 语料库
- 数据集状态: 暂时受限(因版权问题),需申请访问
交付物
- 模型:
- NLLB-200-600M 微调模型,用于 Aromanian-Romanian 双向翻译,可在 huggingface 获取。
- 量化版本(int8),使用 ctranslate2,加快推理速度,可在 CPU 上部署。
- 微调 LaBSE 模型,用于在同一嵌入空间中编码 Aromanian 和 Romanian 句子。
数据收集、预处理与训练
- 数据收集: 使用 OCR、网络爬虫和文本挖掘技术收集并对齐 Aromanian 和 Romanian 文本。
- 预处理: 所有 Aromanian 文本转换为 Cunia (1997) 正字法。
- 训练: 微调 NLLB-200-600M 模型,添加
rup_Latn标记用于 Aromanian。
性能指标
- BLEU 分数:
- Romanian 到 Aromanian: 35.31
- Aromanian 到 Romanian: 54.69
- ChrF2++ 分数:
- Romanian 到 Aromanian: 61.27
- Aromanian 到 Romanian: 68.87
许可证
- 许可证类型: Creative Commons Attribution-NonCommercial 4.0 International License
- 使用要求: 使用时需提及项目名称 "AroTranslate" 和作者。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于对Aromanian语言的深入研究,通过OCR技术、网络爬虫以及文本挖掘等手段,从稀疏的数字文档中收集并对齐了大量平行文本。经过预处理和训练,最终形成了包含100,000+句子的Aromanian-Romanian平行语料库。为确保文本的一致性和可处理性,所有Aromanian文本均被转换为Cunia(1997)正字法,这一标准因其广泛接受和便于键盘输入而被选为数据集的标准。
特点
该数据集的主要特点在于其针对濒危语言Aromanian的独特贡献,填补了该语言在机器翻译领域的空白。数据集不仅提供了高质量的平行文本,还通过微调NLLB-200-600M模型,实现了Aromanian与Romanian之间的双向翻译,显著提升了翻译质量。此外,数据集还包括了针对Aromanian和Romanian的LaBSE模型,用于在同一嵌入空间中编码句子,便于未来的文本挖掘。
使用方法
使用该数据集时,用户首先需要克隆项目仓库,并安装所需的依赖包。随后,通过Hugging Face CLI登录并获取量化模型的访问权限。在部署路径中,用户可以运行主脚本以启动本地部署。数据集的使用不仅限于模型训练,还可用于进一步的研究和开发,特别是在自然语言处理和机器翻译领域,为Aromanian语言的保护和推广提供了强有力的支持。
背景与挑战
背景概述
Aromanian-Romanian MT Corpus(阿罗马尼亚-罗马尼亚机器翻译语料库)是首个针对阿罗马尼亚语的神经机器翻译系统的重要组成部分。阿罗马尼亚语是一种濒危的东罗曼语,主要在巴尔干半岛地区使用,与罗马尼亚语相似。该数据集由主要研究人员或机构创建,旨在通过提供100,000多句阿罗马尼亚语与罗马尼亚语的平行语料,支持阿罗马尼亚语及其使用者,并促进其在自然语言处理领域的应用。这一项目不仅填补了阿罗马尼亚语在现代技术中的空白,还为学术界和年轻一代重新连接与学习这一语言提供了工具。
当前挑战
构建Aromanian-Romanian MT Corpus面临的主要挑战包括数据收集的困难,由于阿罗马尼亚语在数字空间中的稀疏文档,获取平行翻译文本的过程极为复杂,涉及大量OCR、网络爬虫和文本挖掘技术。此外,阿罗马尼亚语存在多种方言,且语法和书写系统缺乏标准化,这增加了数据预处理的复杂性。尽管该数据集已显著优于以往尝试,但仍属于低资源语料库,且由于版权问题,部分数据暂时无法完全公开。未来研究需进一步解决这些挑战,以提升翻译质量和数据可用性。
常用场景
经典使用场景
Aromanian-Romanian MT Corpus 数据集的经典使用场景主要集中在神经机器翻译(NMT)领域。该数据集为Aromanian语言与Romanian语言之间的双向翻译提供了丰富的语料支持。通过训练和微调NLLB-200模型,研究者和开发者能够构建高效且准确的翻译系统,从而促进这两种语言之间的交流与理解。此外,数据集还支持多语言翻译,包括Aromanian、Romanian和English之间的互译,极大地扩展了其实际应用范围。
实际应用
在实际应用中,Aromanian-Romanian MT Corpus 数据集被广泛用于构建和部署多语言翻译系统。例如,通过微调NLLB-200模型,可以实现Aromanian与Romanian之间的实时翻译,帮助居住在不同国家的Aromanian社区成员进行无障碍交流。此外,该数据集还支持多语言翻译,包括Aromanian、Romanian和English之间的互译,为跨文化交流提供了便利。
衍生相关工作
Aromanian-Romanian MT Corpus 数据集的发布催生了一系列相关研究和工作。例如,基于该数据集,研究者开发了多种微调模型,如NLLB-200和LaBSE,用于多语言翻译和文本对齐。此外,该数据集还启发了对其他濒危语言的研究,推动了低资源语言在NLP领域的应用和发展。这些衍生工作不仅丰富了学术研究,也为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成



