Helsinki-NLP/tatoeba_mt

Name: Helsinki-NLP/tatoeba_mt
Creator: Helsinki-NLP
Published: 2024-10-08 18:12:10
License: 暂无描述

Hugging Face2024-10-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Helsinki-NLP/tatoeba_mt

下载链接

链接失效反馈

官方服务：

资源简介：

Tatoeba翻译挑战是一个多语言机器翻译基准数据集，数据来源于Tatoeba.org用户贡献的翻译，并通过OPUS平台整理成平行语料库。该数据集包含数百种语言对的测试和开发数据，并持续更新。数据集的结构为TAB分隔的文件，包含源语言和目标语言的ISO-639-3代码、源语言文本和目标语言文本。数据集的目标是提供高语言覆盖率的测试集，适用于低资源语言和多语言机器翻译任务。

Tatoeba Translation Challenge is a multilingual machine translation benchmark dataset. The data is sourced from user-contributed translations on Tatoeba.org, and compiled into parallel corpora via the OPUS platform. This dataset includes test and development data for hundreds of language pairs, and is continuously updated. The dataset is structured as TAB-separated files, containing ISO-639-3 codes for both source and target languages, as well as the source language text and target language text. The goal of this dataset is to provide a test set with high linguistic coverage, suitable for low-resource language and multilingual machine translation tasks.

提供机构：

Helsinki-NLP

原始信息汇总

数据集概述

数据集名称

名称: The Tatoeba Translation Challenge
别名: Tatoeba MT Challenge

数据集内容

类型: 机器翻译基准数据集
来源: 用户贡献的翻译，由Tatoeba.org收集并由OPUS提供为平行语料库
覆盖语言: 数百种语言和语言对，包括但不限于Afrikaans, Arabic, Azerbaijani等

数据集结构

数据实例: 翻译单元，以TAB分隔的文件形式，包含源语言和目标语言ISO-639-3代码、源语言文本和目标语言文本
数据分割: 测试和开发数据集，测试集最多包含10,000个实例

数据集创建

数据收集: 从Tatoeba.org用户贡献的翻译中收集
数据准备: 持续更新，数据准备过程公开并发布在GitHub上
注释过程: 由志愿者进行翻译，注释者包括各种语言技能的贡献者

使用许可

许可类型: CC-BY 2.0

数据集用途

任务类型: 条件文本生成
任务ID: 机器翻译

数据集维护

维护者: 赫尔辛基大学语言技术研究组
维护平台: OPUS生态系统

引用信息

引用文献: The Tatoeba Translation Challenge – Realistic Data Sets for Low Resource and Multilingual MT
引用格式:

@inproceedings{tiedemann-2020-tatoeba, title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}", author = {Tiedemann, J{"o}rg}, booktitle = "Proceedings of the Fifth Conference on Machine Translation", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2020.wmt-1.139", pages = "1174--1182", }

搜集汇总

数据集介绍

构建方式

在机器翻译领域，构建高质量的多语言基准数据集对于评估模型性能至关重要。Tatoeba翻译挑战数据集源自Tatoeba.org用户贡献的翻译，通过OPUS平台整合为平行语料库。其构建过程依赖于众包模式，由全球志愿者自愿提交句子及其翻译，确保了语言的广泛覆盖。数据经过系统化处理，采用标准化的语言标签和TAB分隔格式，以支持数百种语言对的测试与开发。数据集持续更新，版本管理严谨，旨在为低资源语言提供可靠的评估基准。

特点

该数据集以其卓越的多语言覆盖能力脱颖而出，涵盖从阿非利卡语到中文的百余种语言，尤其关注低资源语言对。数据实例以对称形式呈现，不预设翻译方向，支持双向评估。句子通常较为简短，降低了翻译难度，这对于资源匮乏的语言而言，有助于更精准地衡量模型进展。此外，数据集包含同一语言内的句子变体，如拼写差异或重述，丰富了评估维度。语言标签细致区分了书写变体，如塞尔维亚-克罗地亚语的拉丁与西里尔字母，体现了对语言多样性的尊重。

使用方法

使用该数据集时，研究人员可将其作为机器翻译任务的测试基准，尤其适用于多语言和低资源场景。数据以语言对特定的TAB分隔文件提供，包含源语言与目标语言的ISO-639-3代码及对应文本。建议结合Tatoeba挑战仓库发布的训练数据，以确保评估的一致性。开发集与测试集互不重叠，但个别句子可能存在交叉，使用时需遵循数据划分原则，避免开发数据直接用于训练。模型结果可参照公开排行榜进行比较，推动机器翻译技术的公平发展。

背景与挑战

背景概述

Tatoeba机器翻译挑战数据集由赫尔辛基大学语言技术研究组于2020年构建，旨在为低资源与多语言机器翻译提供现实基准。该数据集源自Tatoeba.org用户贡献的翻译语料，并通过OPUS平台整合为平行语料库，覆盖百余种语言对。其核心研究问题聚焦于解决传统机器翻译基准在语言覆盖度上的不足，尤其关注资源稀缺语言的翻译评估。该数据集的发布显著推动了多语言自然语言处理领域的发展，为跨语言模型训练与评估提供了标准化、高覆盖度的测试环境，成为低资源机器翻译研究的重要基础设施。

当前挑战

该数据集致力于解决低资源语言机器翻译的评估难题，其挑战主要体现在语言对覆盖的广泛性与数据质量的均衡性。构建过程中面临用户贡献翻译的异质性挑战，包括译者语言水平差异导致的翻译质量波动，以及短句结构简化对模型评估复杂性的削弱。此外，数据持续更新机制需维持测试集与开发集的无重叠性，同时处理多语言变体与书写系统的标准化标注，例如对塞尔维亚-克罗地亚语等宏观语言的不同变体进行精细区分。这些因素共同构成了数据集在代表性与评估效度上的核心挑战。

常用场景

经典使用场景

在机器翻译研究领域，多语言平行语料库的构建与评估始终是推动技术进步的核心环节。Tatoeba MT数据集以其覆盖数百种语言的广泛性，成为评估多语言及低资源机器翻译模型性能的经典基准。研究者通常利用其精心划分的测试集与开发集，系统性地衡量模型在多样语言对上的翻译质量，特别是在处理资源稀缺语言时，该数据集提供的短句对能够有效反映模型的基础翻译能力。

衍生相关工作

围绕Tatoeba MT数据集，学术界衍生了一系列重要的研究工作。赫尔辛基大学团队基于此数据集持续举办Tatoeba翻译挑战赛，并发布了配套的预训练模型，这些模型已成为多语言NLP研究的重要基线。该数据集也常被用于评估如mBART、M2M-100等大规模多语言模型的翻译能力。此外，其构建方法论和数据标准化流程，也为后续其他多语言评测数据集的创建提供了可借鉴的范本。

数据集最近研究