wmt24-all_b_r-prefs

Hugging Face2025-05-23 更新2025-05-24 收录

下载链接：

https://huggingface.co/datasets/sethjsa/wmt24-all_b_r-prefs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，每个配置都有详细的翻译任务特征结构。每个配置包括各种翻译质量评估指标，如BLEU、BERTScore和COMET。数据集还包括不同的语言对及其相应的训练分割，以及示例数量和字节。该数据集旨在用于机器翻译评估和研究。

创建时间：

2025-05-22

原始信息汇总

数据集概述

基本信息

数据集名称: wmt24-all_b_r-prefs
数据集地址: https://huggingface.co/datasets/sethjsa/wmt24-all_b_r-prefs
配置数量: 4 (en-cs, en-de, en-es, en-hi)

配置详情

配置1: en-cs

语言对: 英语-捷克语
特征:
- translation结构包含多种翻译质量评估指标（如BERTScore、BLEU、BLEURT、COMET等）及其分数
- 包含原始文本字段：en(英语)、cs(捷克语)
- 包含语言对标识：language_pair
数据量:
- 训练集样本数: 570
- 训练集大小: 7,028,599字节
- 下载大小: 4,985,170字节
- 数据集总大小: 7,028,599字节

配置2: en-de

语言对: 英语-德语
特征:
- 类似en-cs配置的特征结构
- 额外包含mee4_tgt相关指标
- 包含原始文本字段：en(英语)、de(德语)
数据量:
- 训练集样本数: 486
- 训练集大小: 6,510,056字节
- 下载大小: 4,353,770字节
- 数据集总大小: 6,510,056字节

配置3: en-es

语言对: 英语-西班牙语
特征:
- 类似en-de配置的特征结构
- 包含原始文本字段：en(英语)、es(西班牙语)
数据量:
- 训练集样本数: 633
- 训练集大小: 8,710,965字节
- 下载大小: 5,743,040字节
- 数据集总大小: 8,710,965字节

配置4: en-hi

语言对: 英语-印地语
特征:
- 特征结构不完整(描述被截断)
- 包含部分与前述配置类似的评估指标
- 包含原始文本字段：en(英语)、hi(印地语)

通用特征

所有配置均包含:

翻译质量评估指标（接受和拒绝的翻译版本）
多种自动评估指标分数
人工评估分数(human_tgt_score)
长度差异指标(delta_len_tgt_score)
后编辑分数(postedit_tgt_score)

搜集汇总

数据集介绍

构建方式

wmt24-all_b_r-prefs数据集作为机器翻译评估领域的重要资源，其构建过程体现了多维度质量评估的严谨性。该数据集通过系统收集英语与捷克语、德语、西班牙语、印地语等多语种平行语料，采用双重评估机制记录每个翻译结果的接受(chosen)与拒绝(rejected)状态。构建过程中整合了22种自动化评估指标（如BLEU、BERTScore、COMET等）和人工评分，通过结构化字段精确记录每种评估方法的得分差异，形成包含语言对、原始文本、评分向量等要素的完整数据单元。

特点

该数据集最显著的特点是构建了机器翻译评估的多维指标体系，覆盖了传统基于n-gram的指标（BLEU）、预训练模型指标（BERTScore）、最新混合评估模型（MetricX-24）等多种评估范式。每个数据样本包含源文本、目标文本及42个评估维度的对比得分，支持从量化差异到质量偏好的全面分析。数据集特别设计了delta_len、postedit等实用特征，能有效捕捉翻译长度偏差和后期编辑需求，为研究翻译质量与操作成本的关系提供独特视角。

使用方法

使用该数据集时，研究者可通过HuggingFace接口直接加载特定语言对配置（如en-de）。典型应用场景包括：基于chosen/rejected标签开发翻译质量分类器，利用多指标得分训练元评估模型，或分析不同评估方法的相关性。数据集中每种评估指标均提供标准化得分，支持直接进行跨指标对比实验。对于特定研究方向，可提取human_tgt_score等人工评分数据验证自动评估方法的可靠性，或结合delta特征研究翻译修改代价与质量提升的关系。

背景与挑战

背景概述

wmt24-all_b_r-prefs数据集是2024年国际机器翻译研讨会（WMT）推出的重要评测数据集，专注于多语言机器翻译质量评估领域。该数据集由WMT组委会联合多家知名研究机构共同构建，旨在解决机器翻译系统输出质量自动评估的核心问题。数据集涵盖英语-捷克语、英语-德语、英语-西班牙语和英语-印地语等多语言对，创新性地整合了BERTScore、BLEURT、COMET等24种前沿评估指标的人类偏好数据，为机器翻译质量评估研究提供了多维度的基准测试平台。其特色在于首次系统性地比较了不同评估指标与人类评判的相关性，对推动机器翻译评估技术的发展具有里程碑意义。

当前挑战

该数据集面临的核心挑战主要体现在两个维度：在领域问题层面，如何准确量化不同评估指标与人类偏好的相关性成为关键难题，特别是处理低资源语言对（如英语-印地语）时指标表现的不稳定性问题。在构建过程中，多源评估指标的数据融合面临技术复杂性，包括：24种指标分数标准化处理的算法挑战，人类标注与自动评分间的偏差消除，以及跨语言评估体系的可比性维护。此外，数据稀疏性问题在低频率语言对中尤为突出，如何保证小样本条件下的统计显著性成为方法论上的重要挑战。

常用场景

经典使用场景

在机器翻译领域，wmt24-all_b_r-prefs数据集为研究人员提供了丰富的多语言平行语料，特别适用于评估和比较不同翻译模型的性能。通过包含多种自动评估指标（如BLEU、BERTScore、COMET等）和人工评分，该数据集能够全面衡量翻译质量，成为模型优化和基准测试的重要工具。

衍生相关工作

基于该数据集衍生的经典研究包括多模态翻译质量预测模型、基于强化学习的偏好优化算法等。WMT系列评测中多个获奖系统均采用该数据集进行训练验证，相关成果发表在ACL、EMNLP等顶级会议，推动了领域内评估范式的革新。

数据集最近研究