MQM Dataset

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/AI4Bharat/IndicMT-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

我们贡献了一个多维质量度量（MQM）数据集，用于印度语言，通过采用7个流行的MT系统生成的输出，并让人类标注者使用MQM风格指南来判断翻译质量。利用这组丰富的标注数据，我们展示了16种不同类型的指标在评估5种印度语言的en-xx翻译时的表现。我们提供了一个更新后的指标，称为Indic-COMET，它不仅在与印度语言的人类判断上显示出更强的相关性，而且对扰动也更为稳健。

We have contributed a Multidimensional Quality Metric (MQM) dataset for Indian languages, utilizing outputs generated by seven popular Machine Translation (MT) systems. Human annotators were employed to assess the translation quality following the MQM style guidelines. Leveraging this richly annotated dataset, we demonstrated the performance of 16 different types of metrics in evaluating en-xx translations across five Indian languages. We introduced an updated metric, termed Indic-COMET, which not only exhibits stronger correlation with human judgments on Indian languages but also demonstrates greater robustness to perturbations.

创建时间：

2023-05-24

原始信息汇总

数据集概述

数据集名称

IndicMT-Eval

数据集内容

MQM 数据集：包含由7个流行的机器翻译系统生成的输出，由人工注释者根据MQM风格指南对5种印度语言（印地语、泰米尔语、马拉地语、马拉雅拉姆语、古吉拉特语）的翻译质量进行评估。
Indic Comet：一种更新后的评估指标，显示与印度语言的人类判断更强的相关性，且对扰动更鲁棒。
其他评估指标：包括BLEU、METEOR、ROUGE-L等16种不同类型的评估指标。

数据集用途

用于评估和比较不同机器翻译评估指标在印度语言翻译上的表现。

数据集获取

MQM 数据集：可通过即将提供的链接下载。
Indic Comet 最佳检查点：可通过提供的链接下载。

引用信息

@article{DBLP:journals/corr/abs-2212-10180, author = {Ananya B. Sai and Tanay Dixit and Vignesh Nagarajan and Anoop Kunchukuttan and Pratyush Kumar and Mitesh M. Khapra and Raj Dabre}, title = {IndicMT Eval: {A} Dataset to Meta-Evaluate Machine Translation metrics for Indian Languages}, journal = {CoRR}, volume = {abs/2212.10180}, year = {2022} }

搜集汇总

数据集介绍

构建方式

MQM数据集的构建基于对印度语言的机器翻译输出进行多维度质量评估。研究团队选取了7种流行的机器翻译系统生成的翻译结果，并邀请语言专家根据MQM风格指南对这些翻译进行质量评判。通过这种方式，数据集涵盖了5种印度语言（如印地语、泰米尔语、马拉地语、马拉雅拉姆语和古吉拉特语）的翻译质量标注，为后续的机器翻译评估提供了丰富的标注数据。

特点

MQM数据集的主要特点在于其多维度的质量评估方式，涵盖了翻译的准确性、流畅性等多个方面。此外，该数据集针对印度语言的特殊性进行了优化，提供了详细的错误标注和质量评分，使得研究者能够更精确地评估机器翻译系统的表现。数据集还包含了多种语言的翻译输出，为跨语言研究提供了宝贵的资源。

使用方法

使用MQM数据集时，研究者可以通过提供的链接下载数据，并利用其中的标注信息进行机器翻译系统的评估。数据集支持多种评估指标，包括BLEU、METEOR、ROUGE-L等，研究者可以根据需要选择合适的指标进行分析。此外，数据集还提供了预训练的模型和代码，方便研究者进行进一步的模型训练和评估。

背景与挑战

背景概述

MQM数据集是由AI4Bharat团队在ACL 2023会议上发表的论文《IndicMT Eval: A Dataset to Meta-Evaluate Machine Translation Metrics for Indian Languages》中提出的，旨在通过多维质量度量（MQM）评估印度语言的机器翻译质量。该数据集通过收集7种流行机器翻译系统的输出，并由语言专家进行标注，涵盖了印度5种主要语言（如印地语、泰米尔语、马拉地语、马拉雅拉姆语和古吉拉特语）。MQM数据集的创建不仅为评估机器翻译质量提供了丰富的标注数据，还推动了针对印度语言的翻译评估方法的发展，特别是在多语言和低资源语言领域的应用。

当前挑战

MQM数据集在构建过程中面临多项挑战。首先，印度语言的多样性和复杂性使得翻译质量的评估变得尤为困难，尤其是在低资源语言的背景下。其次，数据集的标注过程需要语言专家的参与，确保标注的准确性和一致性，这对标注者的专业素养提出了较高要求。此外，如何有效地整合和利用多种机器翻译系统的输出，以生成具有代表性的评估数据，也是该数据集构建中的一个重要挑战。最后，针对印度语言的翻译评估方法的开发和验证，尤其是如何在有限的资源下实现高效的模型训练和评估，是该领域面临的关键问题。

常用场景

经典使用场景

MQM数据集主要用于评估印度语言的机器翻译质量，通过收集7种流行机器翻译系统的输出，并由语言专家进行多维度质量指标（MQM）标注。该数据集的经典使用场景包括：比较不同机器翻译系统的性能，验证现有评估指标的有效性，以及开发和测试新的翻译质量评估方法。

实际应用

在实际应用中，MQM数据集被用于优化机器翻译系统，特别是在印度语言的翻译场景中。通过分析数据集中的错误类型和质量评分，开发者可以调整和改进翻译模型，提高翻译的准确性和流畅性，从而提升用户体验。

衍生相关工作

基于MQM数据集，研究者开发了Indic-COMET等新型评估指标，这些指标在印度语言的翻译评估中表现出更高的相关性和鲁棒性。此外，该数据集还促进了多语言翻译评估方法的研究，推动了机器翻译领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集