wmt24-all_b_m-prefs

Hugging Face2025-05-22 更新2025-05-23 收录

下载链接：

https://huggingface.co/datasets/sethjsa/wmt24-all_b_m-prefs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多种语言对的翻译数据，包括英语到捷克语、英语到德语、英语到西班牙语、英语到印地语、英语到冰岛语、英语到日语和英语到俄语。每个语言对都有自己的配置和特征，包括各种翻译目标和分数以及语言对信息。数据集还包括训练集，其中包含示例数量、字节数、下载大小和数据集大小。

创建时间：

2025-05-21

原始信息汇总

数据集概述

基本信息

数据集名称: wmt24-all_b_m-prefs
数据集地址: https://huggingface.co/datasets/sethjsa/wmt24-all_b_m-prefs
配置数量: 4 (en-cs, en-de, en-es, en-hi)

配置详情

配置1: en-cs

语言对: 英语-捷克语
特征:
- translation结构包含:
  - 多种翻译质量评估指标（如BLEU、BERTScore、COMET等）的得分
  - 原文（en）和译文（cs）文本
  - 语言对标识（language_pair）
数据量:
- 训练集: 570个样本，7,014,336字节
下载大小: 4,967,909字节
数据集大小: 7,014,336字节

配置2: en-de

语言对: 英语-德语
特征:
- translation结构包含:
  - 多种翻译质量评估指标（如BLEU、BERTScore、COMET等）的得分
  - 原文（en）和译文（de）文本
  - 语言对标识（language_pair）
数据量:
- 训练集: 486个样本，6,518,608字节
下载大小: 4,355,784字节
数据集大小: 6,518,608字节

配置3: en-es

语言对: 英语-西班牙语
特征:
- translation结构包含:
  - 多种翻译质量评估指标（如BLEU、BERTScore、COMET等）的得分
  - 原文（en）和译文（es）文本
  - 语言对标识（language_pair）
数据量:
- 训练集: 633个样本，8,677,370字节
下载大小: 5,722,813字节
数据集大小: 8,677,370字节

配置4: en-hi

语言对: 英语-印地语
特征:
- translation结构包含:
  - 多种翻译质量评估指标（如BLEU、BERTScore、COMET等）的得分
  - 原文（en）和译文（hi）文本
  - 语言对标识（language_pair）
数据量:
- 训练集: 数据量未完整显示
下载大小: 未完整显示
数据集大小: 未完整显示

通用特征

所有配置均包含chosen和rejected两种翻译结果的评估指标
评估指标涵盖自动评估（如BLEU、BERTScore）和人工评估（如human_tgt_score）
所有配置均为单训练集分割

搜集汇总

数据集介绍

构建方式

wmt24-all_b_m-prefs数据集作为机器翻译领域的重要资源，其构建过程体现了严谨的多维度评估策略。该数据集通过系统收集英语与捷克语、德语、西班牙语、印地语等多语种平行语料，采用双重评估机制——既包含自动化指标（如BLEU、BERTScore、COMET等22种量化指标），又整合人工评分数据。每个翻译样本均经过‘接受-拒绝’二元标注，并记录各评估维度的详细得分差异，形成结构化对比数据。数据清洗阶段通过Delta值校验确保样本对质量，最终构建出涵盖570至633个样本对的四个语言对子集。

使用方法

使用该数据集时，研究者可通过HuggingFace平台直接加载特定语言对配置（如en-de）。数据加载后呈现为结构化字段，包含源文本、目标文本及所有评分指标。典型应用包括：基于‘chosen/rejected’标签训练翻译质量判别模型，或利用多维评分研究指标相关性。处理时建议先解析translation字段中的嵌套结构，注意数值型评分与文本型结果的对应关系。对于跨语言分析，可利用language_pair字段进行样本筛选。数据集已预分割为训练集，可直接用于模型训练，但需注意不同语言对的样本量差异可能影响跨语言泛化效果。

背景与挑战

背景概述

wmt24-all_b_m-prefs数据集是机器翻译领域的重要资源，专注于多语言翻译质量评估与偏好学习。该数据集由国际顶级机器翻译评测会议WMT（Workshop on Machine Translation）在2024年推出，整合了英语与捷克语、德语、西班牙语、印地语等多语种平行语料。其核心价值在于系统性地收录了包括BERTScore、BLEU、COMET等20余种自动评估指标的详细评分，以及人工评价结果，为研究机器翻译质量评估与模型优化提供了多维度的基准数据。

当前挑战

该数据集面临的核心挑战体现在两方面：在领域问题层面，如何有效整合多种评估指标间的矛盾性结果，建立统一的翻译质量评价体系仍待突破；在构建过程中，多语言语料的质量控制与标注一致性维护消耗了大量资源，特别是低资源语言对（如英语-印地语）的专家标注成本高昂。此外，动态更新的评估指标（如MetricX-24）与静态数据集之间的版本兼容性问题，也给研究者带来了数据对齐的额外负担。

常用场景

经典使用场景

在机器翻译领域，wmt24-all_b_m-prefs数据集被广泛用于评估和比较不同翻译模型的性能。通过提供多种语言对（如英-德、英-西等）的翻译候选及其对应的多种自动评估指标得分，该数据集为研究人员提供了一个标准化的测试平台。经典使用场景包括模型间的横向对比、新提出的评估指标的验证以及翻译质量的人机协同分析。

解决学术问题

该数据集有效解决了机器翻译研究中评估指标单一化的问题。通过整合BERTScore、BLEU、COMET等20余种自动评估指标及人工评分数据，为学术界提供了多维度的质量评估体系。其核心价值在于揭示了不同指标间的相关性差异，促进了评估方法从表面匹配向语义保真度的范式转变，对构建更可靠的翻译质量评估框架具有里程碑意义。

实际应用

在实际应用中，该数据集被全球主流机器翻译服务商用于系统优化。基于其提供的海量评估数据，企业能够精准定位翻译模型的薄弱环节，特别是在处理低资源语言对时。数据集中包含的译后编辑评分更为专业翻译工作流程的自动化改进提供了直接依据，显著提升了本地化服务的效率和质量。

数据集最近研究