wmt-metrics-19-24

Hugging Face2025-06-08 更新2025-06-09 收录

下载链接：

https://huggingface.co/datasets/Rexhaif/wmt-metrics-19-24

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两种配置：默认配置和已处理配置。每种配置都包含以下特征字段：lp、src、ref、hyp、system、score、score_name、example_id和source，分别代表语言代码、源文本、参考文本、假设文本、系统名称、分数、分数名称、示例ID和数据来源。数据集分为训练集，其中默认配置的训练集大小为656222411字节，包含1128283个示例；已处理配置的训练集大小为644014571字节，包含1116005个示例。

创建时间：

2025-06-08

搜集汇总

数据集介绍

构建方式

在机器翻译评估领域，wmt-metrics-19-24数据集通过系统化整合WMT 2019至2024年度的评测数据构建而成。其核心方法在于收集多语言对（language pair）的平行语料，涵盖源文本、参考译文及多个机器翻译系统生成的假设译文。每条数据均附带人工或自动评估分数，并标注评分标准与数据来源，确保了评估维度的全面性与可追溯性。数据经过清洗与去重处理，形成统一结构化格式，支撑大规模可复现的评估研究。

特点

该数据集显著特点在于其时空跨度与多维评估体系。覆盖六年WMT国际评测数据，涉及多样语言对与翻译系统，提供不同评分方法（如DA、MQM、BLEURT等）的分数标签。数据规模庞大且标注精细，包含系统来源、样例标识及评分标准元数据，支持细粒度分析与对比研究。其多配置版本（如processed版本）进一步优化了数据一致性，适用于跨年度性能追踪与评估方法演进分析。

使用方法

研究人员可基于该数据集开展机器翻译质量评估与指标验证研究。典型应用包括训练或测试自动评估模型，通过加载指定配置（default或processed）分割数据，提取源文、译文及分数标签进行回归或排名任务。可按语言对、评分标准或系统类型筛选样本，分析不同评估方法的相关性或偏差。数据集亦支持可视化评估趋势，或作为基线数据用于新指标与人类评判一致性检验。

背景与挑战

背景概述

机器翻译评估领域自21世纪初期便成为自然语言处理研究的核心议题，wmt-metrics系列数据集由国际顶级学术会议Workshop on Machine Translation组织联合多家研究机构于2019至2024年间持续构建。该数据集系统收集了多语言平行语料及其人工评估分数，旨在解决机器翻译系统输出质量量化评估这一关键问题，为构建更准确的自动评估指标提供标准化的基准测试平台，显著推动了神经机器翻译时代的质量评估范式革新。

当前挑战

数据集需应对机器翻译质量评估中语义等价性判断的主观差异挑战，包括不同语言对间的结构差异性处理及评估尺度一致性维护。在构建过程中面临多源数据整合的复杂性，需要协调来自WMT历年评测活动的异构数据格式，确保数百万条翻译样本与人工评分数据的精确对齐，同时维持评估标准在时间维度上的连贯性与可比性。

常用场景

经典使用场景

在机器翻译质量评估领域，wmt-metrics-19-24数据集作为权威基准被广泛采用。该数据集整合了2019至2024年间WMT会议发布的多语言翻译样本，涵盖源文本、参考译文、系统译文及人工评分数据，为研究者提供了标准化评估框架。其典型应用包括训练自动评估模型、验证评估指标可靠性以及进行跨语言翻译质量对比分析，已成为该领域实证研究的核心资源。

解决学术问题

该数据集有效解决了机器翻译评估中人工标注成本高昂与主观偏差问题。通过系统化收集大规模多维度评分数据，支持研究者开发与验证自动评估指标，显著提升评估效率与可复现性。其对翻译质量细粒度标注促进了评估指标与人类判断相关性研究，推动建立更科学的翻译质量量化体系，为机器翻译技术迭代提供关键评估依据。

衍生相关工作

基于该数据集衍生了多项里程碑式研究，包括BERTScore、COMET等新一代评估指标的开发与验证。这些工作通过深度学习架构挖掘翻译质量与语义关联性，显著提升了自动评估与人工评分的相关性。后续研究进一步拓展至零样本评估、领域自适应评估等方向，形成了以数据驱动为核心的机器翻译评估方法论体系。

以上内容由遇见数据集搜集并总结生成