wmt24-all_b_r-prefs
收藏Hugging Face2025-05-23 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/sethjsa/wmt24-all_b_r-prefs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置,每个配置都有详细的翻译任务特征结构。每个配置包括各种翻译质量评估指标,如BLEU、BERTScore和COMET。数据集还包括不同的语言对及其相应的训练分割,以及示例数量和字节。该数据集旨在用于机器翻译评估和研究。
创建时间:
2025-05-22
原始信息汇总
数据集概述
基本信息
- 数据集名称: wmt24-all_b_r-prefs
- 数据集地址: https://huggingface.co/datasets/sethjsa/wmt24-all_b_r-prefs
- 配置数量: 4 (en-cs, en-de, en-es, en-hi)
配置详情
配置1: en-cs
- 语言对: 英语-捷克语
- 特征:
translation结构包含多种翻译质量评估指标(如BERTScore、BLEU、BLEURT、COMET等)及其分数- 包含原始文本字段:
en(英语)、cs(捷克语) - 包含语言对标识:
language_pair
- 数据量:
- 训练集样本数: 570
- 训练集大小: 7,028,599字节
- 下载大小: 4,985,170字节
- 数据集总大小: 7,028,599字节
配置2: en-de
- 语言对: 英语-德语
- 特征:
- 类似en-cs配置的特征结构
- 额外包含
mee4_tgt相关指标 - 包含原始文本字段:
en(英语)、de(德语)
- 数据量:
- 训练集样本数: 486
- 训练集大小: 6,510,056字节
- 下载大小: 4,353,770字节
- 数据集总大小: 6,510,056字节
配置3: en-es
- 语言对: 英语-西班牙语
- 特征:
- 类似en-de配置的特征结构
- 包含原始文本字段:
en(英语)、es(西班牙语)
- 数据量:
- 训练集样本数: 633
- 训练集大小: 8,710,965字节
- 下载大小: 5,743,040字节
- 数据集总大小: 8,710,965字节
配置4: en-hi
- 语言对: 英语-印地语
- 特征:
- 特征结构不完整(描述被截断)
- 包含部分与前述配置类似的评估指标
- 包含原始文本字段:
en(英语)、hi(印地语)
通用特征
所有配置均包含:
- 翻译质量评估指标(接受和拒绝的翻译版本)
- 多种自动评估指标分数
- 人工评估分数(
human_tgt_score) - 长度差异指标(
delta_len_tgt_score) - 后编辑分数(
postedit_tgt_score)
搜集汇总
数据集介绍

构建方式
wmt24-all_b_r-prefs数据集作为机器翻译评估领域的重要资源,其构建过程体现了多维度质量评估的严谨性。该数据集通过系统收集英语与捷克语、德语、西班牙语、印地语等多语种平行语料,采用双重评估机制记录每个翻译结果的接受(chosen)与拒绝(rejected)状态。构建过程中整合了22种自动化评估指标(如BLEU、BERTScore、COMET等)和人工评分,通过结构化字段精确记录每种评估方法的得分差异,形成包含语言对、原始文本、评分向量等要素的完整数据单元。
特点
该数据集最显著的特点是构建了机器翻译评估的多维指标体系,覆盖了传统基于n-gram的指标(BLEU)、预训练模型指标(BERTScore)、最新混合评估模型(MetricX-24)等多种评估范式。每个数据样本包含源文本、目标文本及42个评估维度的对比得分,支持从量化差异到质量偏好的全面分析。数据集特别设计了delta_len、postedit等实用特征,能有效捕捉翻译长度偏差和后期编辑需求,为研究翻译质量与操作成本的关系提供独特视角。
使用方法
使用该数据集时,研究者可通过HuggingFace接口直接加载特定语言对配置(如en-de)。典型应用场景包括:基于chosen/rejected标签开发翻译质量分类器,利用多指标得分训练元评估模型,或分析不同评估方法的相关性。数据集中每种评估指标均提供标准化得分,支持直接进行跨指标对比实验。对于特定研究方向,可提取human_tgt_score等人工评分数据验证自动评估方法的可靠性,或结合delta特征研究翻译修改代价与质量提升的关系。
背景与挑战
背景概述
wmt24-all_b_r-prefs数据集是2024年国际机器翻译研讨会(WMT)推出的重要评测数据集,专注于多语言机器翻译质量评估领域。该数据集由WMT组委会联合多家知名研究机构共同构建,旨在解决机器翻译系统输出质量自动评估的核心问题。数据集涵盖英语-捷克语、英语-德语、英语-西班牙语和英语-印地语等多语言对,创新性地整合了BERTScore、BLEURT、COMET等24种前沿评估指标的人类偏好数据,为机器翻译质量评估研究提供了多维度的基准测试平台。其特色在于首次系统性地比较了不同评估指标与人类评判的相关性,对推动机器翻译评估技术的发展具有里程碑意义。
当前挑战
该数据集面临的核心挑战主要体现在两个维度:在领域问题层面,如何准确量化不同评估指标与人类偏好的相关性成为关键难题,特别是处理低资源语言对(如英语-印地语)时指标表现的不稳定性问题。在构建过程中,多源评估指标的数据融合面临技术复杂性,包括:24种指标分数标准化处理的算法挑战,人类标注与自动评分间的偏差消除,以及跨语言评估体系的可比性维护。此外,数据稀疏性问题在低频率语言对中尤为突出,如何保证小样本条件下的统计显著性成为方法论上的重要挑战。
常用场景
经典使用场景
在机器翻译领域,wmt24-all_b_r-prefs数据集为研究人员提供了丰富的多语言平行语料,特别适用于评估和比较不同翻译模型的性能。通过包含多种自动评估指标(如BLEU、BERTScore、COMET等)和人工评分,该数据集能够全面衡量翻译质量,成为模型优化和基准测试的重要工具。
衍生相关工作
基于该数据集衍生的经典研究包括多模态翻译质量预测模型、基于强化学习的偏好优化算法等。WMT系列评测中多个获奖系统均采用该数据集进行训练验证,相关成果发表在ACL、EMNLP等顶级会议,推动了领域内评估范式的革新。
数据集最近研究
最新研究方向
在机器翻译领域,wmt24-all_b_r-prefs数据集凭借其丰富的多语言对和多样化的评估指标,成为研究热点。该数据集整合了包括BERTScore、BLEU、BLEURT、COMET等在内的二十余种自动评估指标,并涵盖人工评分数据,为机器翻译质量评估提供了多维度的基准。当前研究聚焦于如何利用该数据集构建更鲁棒的评估体系,特别是在低资源语言对上探索评估指标的泛化能力。随着大语言模型在机器翻译中的应用日益广泛,该数据集在验证模型输出质量、优化偏好学习算法方面展现出独特价值,为WMT国际评测提供了重要的数据支撑。
以上内容由遇见数据集搜集并总结生成



