AfriMTE-WMT2024

Name: AfriMTE-WMT2024
Creator: Masakhane NLP
Published: 2026-01-06 21:03:18
License: 暂无描述

Hugging Face2026-01-06 更新2026-01-07 收录

下载链接：

https://huggingface.co/datasets/masakhane/AfriMTE-WMT2024

下载链接

链接失效反馈

官方服务：

资源简介：

AfriMTE-WMT2024数据集是WMT 2024 Metrics Shared Task中使用的挑战集，用于评估跨13种非洲中心语言对的机器翻译质量。该数据集旨在支持非洲机器翻译评估和质量估计的研究与开发。数据集包含源句子、机器翻译输出、人工参考翻译、质量评分等信息。每个语言对的样本数量不等，总样本量为2,815个。数据集支持的语言包括Darija（摩洛哥阿拉伯语）、埃及阿拉伯语、英语、法语、豪萨语、伊博语、基库尤语、卢奥语、索马里语、斯瓦希里语、特威语、科萨语和约鲁巴语。数据集仅包含测试集，没有训练数据，主要用于评估目的。

提供机构：

Masakhane NLP

创建时间：

2026-01-06

原始信息汇总

AfriMTE-WMT2024 数据集概述

数据集基本信息

数据集名称：AfriMTE WMT2024 Challenge Set
数据集地址：https://huggingface.co/datasets/masakhane/AfriMTE-WMT2024
许可协议：CC-BY-4.0
任务类别：机器翻译
相关标签：机器翻译、机器翻译评估、质量估计、非洲语言、WMT2024、指标共享任务、AfriMTE、AfriCOMET
数据规模：1K<n<10K

语言支持

数据集包含以下语言：

ary (Darija，摩洛哥阿拉伯语)
arz (埃及阿拉伯语)
en (英语)
fr (法语)
ha (豪萨语)
ig (伊博语)
ki (基库尤语)
luo (卢奥语)
so (索马里语)
sw (斯瓦希里语)
tw (契维语)
xh (科萨语)
yo (约鲁巴语)

数据集配置与语言对

数据集提供14种配置，涵盖13个以非洲为中心的语言对。

配置名称	源语言	目标语言	样本数量
`ary-fra`	Darija (摩洛哥阿拉伯语)	法语	187
`eng-arz`	英语	埃及阿拉伯语	250
`eng-fra`	英语	法语	250
`eng-hau`	英语	豪萨语	240
`eng-ibo`	英语	伊博语	120
`eng-kik`	英语	基库尤语	202
`eng-luo`	英语	卢奥语	242
`eng-som`	英语	索马里语	226
`eng-swh`	英语	斯瓦希里语	157
`eng-twi`	英语	契维语	247
`eng-xho`	英语	科萨语	243
`eng-yor`	英语	约鲁巴语	239
`yor-eng`	约鲁巴语	英语	212
`all`	所有语言对	所有语言对	2,815

数据结构

每个数据样本包含以下特征：

source：源语言句子
hypothesis：机器翻译输出
reference：人工参考翻译（真实值）
score：人工质量评分（标准化z分数，通常范围在-3到+2之间）
language_pair：语言对代码（例如："eng-swh"）
source_language：源语言全称
target_language：目标语言全称

数据集用途

用于WMT 2024指标共享任务中评估机器翻译质量
支持非洲机器翻译评估和质量估计的研究与开发
仅包含测试集数据，专为评估目的设计

使用注意事项

数据集仅为测试集，不包含训练数据
部分语言对的样本数量较少
人工评分反映了特定标注者的判断，可能无法推广到所有评估场景

社会影响

该数据集支持开发适用于非洲语言的机器翻译评估指标，这些语言在自然语言处理研究中历来代表性不足。更好的评估指标可以为这些语言带来更好的机器翻译系统，从而增加非洲语言使用者获取信息和技术的机会。

引用信息

使用该数据集时请引用相关论文，具体引用格式见数据集详情。

联系方式

如有关于数据集的问题，请联系：David Adelani (david.adelani@mila.quebec)

搜集汇总

数据集介绍

构建方式

在机器翻译评估领域，非洲语言资源长期匮乏，AfriMTE-WMT2024数据集应运而生，旨在填补这一空白。该数据集作为WMT2024度量共享任务的挑战集，其构建过程严谨而系统：源语句选自多样领域，经由机器翻译系统生成假设译文，并辅以人工参考译文作为基准。核心环节在于邀请专业标注者对机器翻译输出进行质量评分，这些分数经过标准化处理转化为z分数，以消除不同标注者之间的方差，从而确保了评估数据的可靠性与一致性。

特点

本数据集最显著的特点在于其专注于非洲语言，涵盖了从摩洛哥阿拉伯语、埃及阿拉伯语到豪萨语、约鲁巴语等13种语言对，共计2815个样本，体现了对语言多样性的深刻关怀。每个样本不仅包含源句、机器翻译假设和人工参考译文，还提供了经过标准化的人类质量评分，为深入分析翻译质量提供了多维度的数据支撑。数据集结构清晰，支持按特定语言对或整体加载，灵活适配不同的研究需求，为非洲语言的机器翻译评估研究树立了新的基准。

使用方法

研究人员可利用该数据集直接评估机器翻译度量指标的性能。通过加载特定语言对或全部数据，可以便捷地获取源句、假设译文、参考译文及对应的人类评分。典型应用是计算自定义度量指标得分与人类评分之间的相关性，例如皮尔逊或斯皮尔曼相关系数，以此量化度量指标与人类判断的一致性。数据集专为测试设计，不包含训练部分，因此主要服务于模型或指标的最终评估与比较，助力开发更适应非洲语言特点的翻译评估工具。

背景与挑战

背景概述

在机器翻译领域，非洲语言长期面临资源匮乏的困境，严重制约了相关技术发展与评估体系的完善。为应对这一挑战，研究团队于2024年推出了AfriMTE-WMT2024数据集，作为WMT2024度量共享任务的重要组成部分。该数据集由Masakhane等研究机构主导构建，涵盖了包括摩洛哥阿拉伯语、埃及阿拉伯语、豪萨语、约鲁巴语等在内的13种非洲语言与英语或法语之间的翻译对，共计2815个样本。其核心研究问题聚焦于为低资源非洲语言建立可靠的机器翻译自动评估基准，旨在推动公平、包容的自然语言处理技术发展，对缩小数字鸿沟、促进语言技术多样性具有深远影响。

当前挑战

该数据集致力于解决非洲语言机器翻译评估这一特定领域问题，其核心挑战在于如何为形态丰富、语法多样且标注资源稀缺的非洲语言设计出稳健、公正的自动评估指标。传统基于英语等主流语言的评估方法往往难以准确捕捉非洲语言特有的语言现象与翻译质量维度。在数据集构建过程中，研究人员面临多重困难：一是获取高质量、领域平衡的平行语料与人工参考译文；二是协调多语言、多文化背景的标注者，以获取一致可靠的人工质量评分；三是处理不同语言对之间样本量不均衡的问题，确保评估的统计效力。这些挑战共同凸显了在资源受限环境下构建标准化评估资源的复杂性。

常用场景

经典使用场景

在机器翻译评估领域，AfriMTE-WMT2024数据集作为WMT2024度量共享任务的挑战集，其经典使用场景在于为非洲语言对的机器翻译输出提供标准化评估基准。研究者通过加载特定语言对配置，如英语-斯瓦希里语或英语-豪萨语，将自动翻译的假设句子与人工参考译文及质量分数进行对比，从而系统性地衡量不同机器翻译模型在多样语言环境下的性能表现。

解决学术问题

该数据集有效解决了自然语言处理中非洲语言资源匮乏的学术难题，为机器翻译质量评估研究提供了关键数据支撑。它使得研究者能够深入探究跨语言度量方法的泛化能力，特别是在低资源语言场景下，如何设计出更公平、更准确的自动评估指标，从而推动机器翻译评估技术向更具包容性和全球代表性的方向发展。

衍生相关工作

围绕该数据集已衍生出一系列经典研究工作，例如AfriCOMET项目将其扩展为更全面的评估框架，WMT2024度量共享任务的多篇参赛论文也以其为核心评估基准。这些工作不仅深化了对非洲语言机器翻译评估的理解，还促进了如COMET等先进度量模型在低资源语言上的适配与改进，形成了持续性的研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集