wmt24-all_b_nb-prefs
收藏Hugging Face2025-05-23 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/sethjsa/wmt24-all_b_nb-prefs
下载链接
链接失效反馈官方服务:
资源简介:
这是一个多语言翻译数据集,包含多种语言对和多种翻译质量指标。数据集结构详细,包括多种数据类型和翻译质量评分标准。
创建时间:
2025-05-22
原始信息汇总
数据集概述
基本信息
- 数据集名称: wmt24-all_b_nb-prefs
- 数据集地址: https://huggingface.co/datasets/sethjsa/wmt24-all_b_nb-prefs
数据集配置
数据集包含以下语言对的配置:
1. en-cs (英语-捷克语)
- 特征:
translation: 包含多个子特征,如Delta、chosen_bertscore_tgt、chosen_bleu_tgt等,涵盖多种翻译评估指标和分数。cs: 捷克语文本。en: 英语文本。language_pair: 语言对标识。
- 数据量:
train: 570个示例,7,049,420字节。
- 下载大小: 4,991,412字节。
- 数据集大小: 7,049,420字节。
2. en-de (英语-德语)
- 特征:
translation: 包含多个子特征,如Delta、chosen_bertscore_tgt、chosen_bleu_tgt等,涵盖多种翻译评估指标和分数。de: 德语文本。en: 英语文本。language_pair: 语言对标识。
- 数据量:
train: 486个示例,6,527,853字节。
- 下载大小: 4,360,138字节。
- 数据集大小: 6,527,853字节。
3. en-es (英语-西班牙语)
- 特征:
translation: 包含多个子特征,如Delta、chosen_bertscore_tgt、chosen_bleu_tgt等,涵盖多种翻译评估指标和分数。es: 西班牙语文本。en: 英语文本。language_pair: 语言对标识。
- 数据量:
train: 633个示例,8,723,218字节。
- 下载大小: 5,741,582字节。
- 数据集大小: 8,723,218字节。
4. en-hi (英语-印地语)
- 特征:
translation: 包含多个子特征,如Delta、chosen_bertscore_tgt、chosen_bleu_tgt等,涵盖多种翻译评估指标和分数。hi: 印地语文本。en: 英语文本。language_pair: 语言对标识。
- 数据量: 未完全提供。
- 下载大小: 未完全提供。
- 数据集大小: 未完全提供。
通用特征说明
所有配置的translation特征均包含以下类型的子特征:
- 评估指标: 如
bertscore、bleu、chrf、comet22等。 - 分数: 对应评估指标的分数,数据类型为
float64或int64。 - 文本: 源语言和目标语言的文本,数据类型为
string。 - 语言对标识: 标识翻译的语言对,数据类型为
string。
搜集汇总
数据集介绍

构建方式
在机器翻译评估领域,wmt24-all_b_nb-prefs数据集通过系统化对比实验构建而成。该数据集收录了英语与捷克语、德语、西班牙语、印地语等多语种平行语料,采用双盲评估机制收集专业译员对翻译结果的质量评分。每个样本包含源文本、候选译文及对应的28种自动化评估指标得分,涵盖BERTScore、BLEU、COMET等主流评价体系,并通过Delta字段标识人工评估与自动评分的差异程度。
特点
该数据集最显著的特点是构建了多维度的翻译质量评价体系。不仅包含传统基于n-gram的BLEU、CHRF指标,还整合了基于预训练模型的BERTScore、MetricX等前沿评估方法,同时保留人工评分作为黄金标准。每个语言对样本均标注了接受(chosen)和拒绝(rejected)两类译文及其详细评分,为研究自动评估指标与人工评价的相关性提供了丰富数据支撑。数据字段采用结构化设计,确保各类评分结果可直接用于机器学习建模。
使用方法
研究者可通过HuggingFace平台直接加载该数据集,按语言对配置(en-cs/en-de等)选择特定子集。典型应用场景包括:训练翻译质量预估模型时,可将28种自动评分作为特征输入,人工评分作为监督信号;分析评估指标时,通过对比chosen/rejected样本的指标分布验证其判别能力。数据已预分割为训练集,可直接用于监督学习或作为测试基准评估新提出的翻译评估算法。
背景与挑战
背景概述
wmt24-all_b_nb-prefs数据集是机器翻译领域的重要资源,专注于多语言翻译质量评估与偏好学习。该数据集由国际机器翻译领域的研究团队构建,旨在解决翻译模型输出质量评估中的复杂性问题。通过整合多种自动评估指标(如BLEU、BERTScore、COMET等)与人工评估数据,为翻译模型的优化提供了多维度的参考标准。其创新性在于将传统定量指标与人类偏好数据相结合,推动了机器翻译评估从单一分数向多维度综合判断的范式转变。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,机器翻译质量评估存在指标间不一致性,不同评估方法对同一翻译结果的评分可能呈现显著差异;同时,人类偏好数据与自动评分结果的校准需要复杂的权衡机制。在构建过程中,多语言平行语料的质量控制、评估指标计算的资源消耗,以及大规模人工标注的成本效益平衡,都构成了数据采集与标注的重要技术壁垒。此外,低资源语言对(如英语-印地语)的评估数据稀疏性也限制了模型的泛化能力评估。
常用场景
经典使用场景
在机器翻译领域,wmt24-all_b_nb-prefs数据集被广泛用于评估和比较不同翻译模型的性能。该数据集通过提供多种语言对的翻译候选及其对应的自动评估分数,为研究人员提供了一个标准化的测试平台。特别是在多语言翻译模型的训练和优化过程中,该数据集能够帮助识别模型在不同语言对上的表现差异,从而指导模型的改进方向。
实际应用
在实际应用中,该数据集被全球主要机器翻译服务提供商用于系统性能监控和质量控制。基于数据集构建的基准测试能够快速检测翻译系统的质量波动,为在线翻译服务的持续优化提供数据支持。同时,语言服务企业利用该数据集进行译员招聘考核和翻译质量认证,显著提升了行业人才评估的客观性。
衍生相关工作
该数据集催生了多项重要研究,包括MetricX-24等新一代评估指标的开发。基于数据集构建的跨语言评估基准推动了多语言翻译质量估计技术的发展。在WMT国际评测中,该数据集支撑了超过30篇顶会论文的发表,成为机器翻译领域最具影响力的基准数据之一,持续推动着评估方法学的创新。
以上内容由遇见数据集搜集并总结生成



