five

MLRS/OPUS-MT-EN-Fixed

收藏
Hugging Face2024-09-11 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/MLRS/OPUS-MT-EN-Fixed
下载链接
链接失效反馈
官方服务:
资源简介:
OPUS-100-Fixed是OPUS-100英语-马耳他语平行数据集的更新版本。此版本使用MLRS分词器解决了马耳他语文本中的分词不一致问题,旨在提高机器翻译的质量。数据集中的`en`列与原始OPUS-100数据相同,而`mt`列则使用MLRS去分词器进行了修正。

OPUS-100-Fixed is an updated version of the OPUS-100 parallel English-Maltese dataset. This version addresses tokenisation inconsistencies in the Maltese text using the MLRS tokeniser, aiming to improve machine translation quality. The `en` column is the same as in the original OPUS-100 data, while the `mt` column has been corrected with the MLRS detokeniser.
提供机构:
MLRS
原始信息汇总

OPUS-100-Fix: Tokenisation-Improved English-Maltese Dataset

概述

OPUS-100-Fix 是 OPUS-100 平行英马数据集的更新版本。该版本通过使用 MLRS 分词器解决了马耳他语文本中的分词不一致问题,旨在提高机器翻译质量。

文件结构

  • data/
    • train.en: 英语训练数据
    • train.mt: 经过分词修正的马耳他语训练数据
    • dev.en: 英语验证数据
    • dev.mt: 经过分词修正的马耳他语验证数据
    • test.en: 英语测试数据
    • test.mt: 经过分词修正的马耳他语测试数据
  • README.md: 本文件

引用

如果您在研究中使用此数据集,请引用以下论文:

@inproceedings{tokenisation2024, title={Tokenisation in Machine Translation Matters: The Impact of Different Tokenisation Approaches for Maltese}, author={Kurt Abela and Kurt Micallef and Marc Tanti and Claudia Borg}, booktitle={The Seventh Workshop on Technologies for Machine Translation of Low-Resource Languages (LoResMT 2024)}, year={2024}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作