MLRS/OPUS-MT-EN-Fixed
收藏Hugging Face2024-09-11 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/MLRS/OPUS-MT-EN-Fixed
下载链接
链接失效反馈官方服务:
资源简介:
OPUS-100-Fixed是OPUS-100英语-马耳他语平行数据集的更新版本。此版本使用MLRS分词器解决了马耳他语文本中的分词不一致问题,旨在提高机器翻译的质量。数据集中的`en`列与原始OPUS-100数据相同,而`mt`列则使用MLRS去分词器进行了修正。
OPUS-100-Fixed is an updated version of the OPUS-100 parallel English-Maltese dataset. This version addresses tokenisation inconsistencies in the Maltese text using the MLRS tokeniser, aiming to improve machine translation quality. The `en` column is the same as in the original OPUS-100 data, while the `mt` column has been corrected with the MLRS detokeniser.
提供机构:
MLRS
原始信息汇总
OPUS-100-Fix: Tokenisation-Improved English-Maltese Dataset
概述
OPUS-100-Fix 是 OPUS-100 平行英马数据集的更新版本。该版本通过使用 MLRS 分词器解决了马耳他语文本中的分词不一致问题,旨在提高机器翻译质量。
文件结构
data/train.en: 英语训练数据train.mt: 经过分词修正的马耳他语训练数据dev.en: 英语验证数据dev.mt: 经过分词修正的马耳他语验证数据test.en: 英语测试数据test.mt: 经过分词修正的马耳他语测试数据
README.md: 本文件
引用
如果您在研究中使用此数据集,请引用以下论文:
@inproceedings{tokenisation2024, title={Tokenisation in Machine Translation Matters: The Impact of Different Tokenisation Approaches for Maltese}, author={Kurt Abela and Kurt Micallef and Marc Tanti and Claudia Borg}, booktitle={The Seventh Workshop on Technologies for Machine Translation of Low-Resource Languages (LoResMT 2024)}, year={2024}, }



