wmt24-all_nb_b-prefs

Hugging Face2025-05-23 更新2025-05-24 收录

下载链接：

https://huggingface.co/datasets/sethjsa/wmt24-all_nb_b-prefs

下载链接

链接失效反馈

官方服务：

资源简介：

数据集包含多个语言对的翻译文本及其评分标准，如BertScore、BLEU、BLEURT20等。每个语言对都包含训练集，并提供了数据集大小和下载大小。

创建时间：

2025-05-22

原始信息汇总

数据集概述

基本信息

数据集名称: wmt24-all_nb_b-prefs
数据集地址: https://huggingface.co/datasets/sethjsa/wmt24-all_nb_b-prefs
配置数量: 4 (en-cs, en-de, en-es, en-hi)

配置详情

配置1: en-cs

语言对: 英语-捷克语
特征:
- translation结构包含:
  - 多种翻译质量评估指标（如BLEU、BERTScore、COMET等）的得分和结果
  - 原始文本（en, cs）
  - 语言对标识（language_pair）
  - 其他元数据（如Delta, required_directions等）
数据量:
- 训练集: 570个样本，7,038,248字节
下载大小: 4,983,101字节
数据集大小: 7,038,248字节

配置2: en-de

语言对: 英语-德语
特征:
- 类似en-cs配置的特征结构
- 额外包含mee4评估指标
数据量:
- 训练集: 486个样本，6,521,844字节
下载大小: 4,356,413字节
数据集大小: 6,521,844字节

配置3: en-es

语言对: 英语-西班牙语
特征:
- 类似en-de配置的特征结构
数据量:
- 训练集: 633个样本，8,709,254字节
下载大小: 5,732,853字节
数据集大小: 8,709,254字节

配置4: en-hi

语言对: 英语-印地语
特征:
- 类似其他配置的特征结构
- 不包含mee4评估指标
数据量: README中未完整显示

通用特征

所有配置共享以下特点:

包含"chosen"和"rejected"两种翻译结果的详细评估数据
评估指标涵盖:
- 传统指标（BLEU, chrF）
- 基于神经网络的指标（BERTScore, COMET等）
- 人工评估分数（human_tgt_score）
- 其他专业指标（MetricX, XCOMET等）
每个配置仅包含训练集

搜集汇总

数据集介绍

构建方式

在机器翻译领域，wmt24-all_nb_b-prefs数据集的构建采用了多语言平行语料库的精选策略。通过系统化地收集英语与捷克语、德语、西班牙语、印地语等多种语言对的翻译实例，该数据集不仅包含原始文本和对应翻译，还整合了丰富的自动评估指标和人工评分数据。构建过程中特别注重翻译质量的多维度量化，采用Delta值、BERTScore、BLEU等22种评估指标对候选翻译进行全方位标注，确保数据覆盖机器翻译研究中的各类质量评估需求。

特点

该数据集最显著的特征在于其全面的评估指标体系，囊括了从传统BLEU到前沿的MetricX-24等22种自动评估指标，同时包含人工评分和后期编辑数据。每个翻译实例都配有详细的元数据标注，包括语言对标识、原始文本、候选翻译及对应的多维评分。数据集按语言对划分配置，包含en-cs、en-de、en-es、en-hi等多种语言组合，每个配置均保持独立的结构化特征，为跨语言机器翻译研究提供标准化数据支持。

使用方法

使用该数据集时，研究者可通过HuggingFace平台直接加载特定语言对配置，如'wmt24-all_nb_b-prefs/en-de'。数据以结构化字段存储，可通过translation字段访问原始文本和翻译结果，各类评分指标则以标准化字段名存储。建议先分析Delta值筛选优质样本，再结合特定评估指标（如chosen_metricx_24_tgt_score）进行模型训练或评估。该数据集特别适合用于开发翻译质量预测模型、多指标融合算法研究，以及机器翻译系统的对比分析。

背景与挑战

背景概述

wmt24-all_nb_b-prefs数据集是机器翻译领域的重要资源，专注于多语言翻译质量评估与偏好学习。该数据集由国际机器翻译领域的研究团队构建，旨在解决翻译模型输出质量评估的复杂性问题。通过整合多种自动评估指标（如BLEU、BERTScore、COMET等）与人工评估数据，该数据集为翻译模型的精细调优提供了多维度的参考标准。其构建反映了当前机器翻译研究从单一指标向多模态评估的发展趋势，对提升翻译模型的实用性和可靠性具有显著意义。

当前挑战

该数据集面临的核心挑战在于如何有效整合多样化的评估指标以准确反映翻译质量。不同指标间可能存在冲突，例如基于词汇重叠的BLEU与基于语义嵌入的BERTScore可能给出相反评价。构建过程中需要解决标注一致性问题，尤其是跨语言人工评估的主观偏差。同时，数据集需平衡评估指标的覆盖广度与计算效率，这对大规模多语言翻译系统的实时评估提出了严峻考验。

常用场景

经典使用场景

在机器翻译领域，wmt24-all_nb_b-prefs数据集被广泛用于评估和比较不同翻译模型的性能。通过提供多种语言对的翻译候选及其对应的质量评分，该数据集为研究人员提供了一个标准化的测试平台。特别是在多语言翻译任务中，数据集中的en-cs、en-de、en-es和en-hi等语言对能够帮助验证模型在跨语言场景下的泛化能力。

解决学术问题

该数据集有效解决了机器翻译研究中翻译质量评估的难题。通过整合多种自动评估指标（如BLEU、BERTScore、COMET等）以及人工评分，数据集为研究者提供了全面的质量参考。这不仅有助于分析不同评估指标之间的相关性，还能揭示自动评估与人工评价之间的差距，推动更可靠的翻译质量评估方法的发展。

衍生相关工作

基于该数据集，许多经典研究工作得以展开。例如，有研究利用其多指标评分数据训练融合模型，以提升翻译质量预测的准确性。此外，数据集中的人工评分部分被用于验证新型评估指标的有效性，如MetricX和COMET-KIWI等。这些工作进一步推动了机器翻译领域评估方法的技术革新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集