wmt24-all_r_r-prefs

Hugging Face2025-05-23 更新2025-05-24 收录

下载链接：

https://huggingface.co/datasets/sethjsa/wmt24-all_r_r-prefs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多种语言对的翻译质量评估数据，每个语言对都有自己的配置和特征。特征包括各种指标，如BERTScore、BLEU、BLEURT20、CHRF、CHRFS、COMET22、COMETKiwi、Delta Length、GEMBA ESA、Human、METAMetrics MT、MEE4、MetricX-24、Post-edit、PPL、Sentinel、SPBLEU、XCOMET及其各自的分数。数据集还包括源语言和目标语言文本、语言对和所需方向。每个配置都有一个训练分割，包含字节数和示例数量。

创建时间：

2025-05-22

原始信息汇总

数据集概述

基本信息

数据集名称: wmt24-all_r_r-prefs
数据集地址: https://huggingface.co/datasets/sethjsa/wmt24-all_r_r-prefs
配置数量: 4 (en-cs, en-de, en-es, en-hi)

配置详情

配置1: en-cs

语言对: 英语-捷克语
特征:
- translation结构包含多种翻译评估指标及其得分
- 主要字段: Delta, chosen_*, rejected_*, cs, en, language_pair
数据量:
- 训练集: 570个样本，6,986,209字节
下载大小: 4,970,753字节
数据集大小: 6,986,209字节

配置2: en-de

语言对: 英语-德语
特征:
- translation结构包含多种翻译评估指标及其得分
- 主要字段: Delta, chosen_*, rejected_*, de, en, language_pair
数据量:
- 训练集: 486个样本，6,479,333字节
下载大小: 4,342,604字节
数据集大小: 6,479,333字节

配置3: en-es

语言对: 英语-西班牙语
特征:
- translation结构包含多种翻译评估指标及其得分
- 主要字段: Delta, chosen_*, rejected_*, es, en, language_pair
数据量:
- 训练集: 633个样本，8,649,614字节
下载大小: 5,699,233字节
数据集大小: 8,649,614字节

配置4: en-hi

语言对: 英语-印地语
特征:
- translation结构包含多种翻译评估指标及其得分
- 主要字段: Delta, chosen_*, rejected_*, hi, en, language_pair
数据量:
- 训练集: 数据量未完整显示
下载大小: 未完整显示
数据集大小: 未完整显示

通用特征

所有配置均包含chosen_*和rejected_*字段，用于表示优选和拒绝的翻译及其评估得分
评估指标包括但不限于: BERTScore, BLEU, BLEURT, ChrF, COMET, MetricX等
包含人工评估得分(human_tgt_score)和多种自动评估指标得分

搜集汇总

数据集介绍

构建方式

在机器翻译领域，wmt24-all_r_r-prefs数据集通过系统化采集多语言平行语料构建而成。该数据集采用严谨的对比评估框架，针对英语与捷克语、德语、西班牙语、印地语等语言对，收集了候选翻译及其对应的接受/拒绝标记。每个翻译样本均通过自动化指标（如BLEU、BERTScore）和人工评估进行双重标注，形成包含570至633个样本的训练集，确保数据质量与多样性。

特点

该数据集最显著的特点是采用多维评估体系，每个翻译样本附带24种自动化指标评分和人工评分。数据结构上采用嵌套特征设计，包含原始文本、语言对标识及Delta长度差异等元信息。针对不同语言对的特性，数据集还集成了COMET-Kiwi、MetricX等前沿评估模型的预测结果，为研究多维度翻译质量评估提供丰富特征。

使用方法

该数据集适用于机器翻译模型的对比训练与评估研究。使用者可通过HuggingFace平台加载指定语言对配置（如en-de），访问translation结构中的chosen/rejected字段进行偏好学习。数据中的多维评分支持定制化损失函数设计，而human_tgt_score字段可用于验证模型输出与人类偏好的对齐程度。建议结合PyTorch或TensorFlow框架，利用其结构化特征进行端到端训练。

背景与挑战

背景概述

wmt24-all_r_r-prefs数据集是机器翻译领域的重要资源，专注于多语言翻译任务中的偏好评估。该数据集由国际知名的机器翻译研究团队在2024年构建，旨在解决翻译质量评估中的偏好排序问题。数据集涵盖了英语与捷克语、德语、西班牙语、印地语等多种语言对的翻译实例，并整合了包括BLEU、BERTScore、COMET等在内的多种自动评估指标以及人工评分数据。其核心研究问题在于如何通过多维度的评估指标，更准确地反映人类对翻译质量的偏好，从而推动机器翻译模型的优化与发展。该数据集的发布为机器翻译领域的研究者提供了丰富的实验数据，显著促进了翻译质量评估方法的创新与进步。

当前挑战

wmt24-all_r_r-prefs数据集面临的主要挑战包括两方面：领域问题的挑战与构建过程的挑战。在领域问题方面，机器翻译的偏好评估具有高度主观性，如何设计统一的评估标准以平衡不同语言对的特性，并确保评估结果的可靠性与一致性，是该数据集需要解决的核心难题。构建过程中的挑战则体现在数据收集与标注的复杂性上，尤其是多语言环境下人工评分的成本高昂，且不同评估指标之间可能存在冲突，需通过精细的数据清洗与融合策略来保证数据质量。此外，数据集中涵盖的多种评估指标如何有效整合，以提供全面而准确的翻译质量评估，也是构建过程中需要克服的技术难点。

常用场景

经典使用场景

在机器翻译领域，wmt24-all_r_r-prefs数据集被广泛用于评估和比较不同翻译模型的性能。该数据集通过包含多种语言对（如英-德、英-西等）以及丰富的评估指标（如BLEU、BERTScore、COMET等），为研究人员提供了一个全面的基准测试平台。其经典使用场景包括模型训练、性能评估以及翻译质量自动度量方法的验证。

实际应用

在实际应用中，该数据集被大型科技公司和翻译服务提供商用于优化其机器翻译系统。基于数据集中的对比评估结果，企业能够快速识别系统弱点并针对性改进。同时，数据集支持的多语言特性使其在跨国业务、多语言内容生成等场景中发挥重要作用，显著提升了商业翻译系统的实用性和可靠性。

衍生相关工作

围绕该数据集已衍生出多项重要研究，包括MetricX-24等新型评估指标的提出。许多研究利用其丰富的对比数据开发了更精准的质量估计模型，如COMET-Kiwi系列。这些工作不仅推动了评估方法的发展，还为构建端到端的翻译质量预测系统提供了重要基础，形成了完整的评估方法研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集