hgissbkh/WMT22-23-Test-Metrics

Name: hgissbkh/WMT22-23-Test-Metrics
Creator: hgissbkh
Published: 2024-07-21 10:15:13
License: 暂无描述

Hugging Face2024-07-21 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/hgissbkh/WMT22-23-Test-Metrics

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个语言对的机器翻译数据，每个样本包括源语言、目标语言、源文本、参考文本以及多个基于不同模型和指标的评分。这些评分可能用于评估机器翻译的质量。数据集包含一个训练集，共有38098个样本。

This dataset contains machine translation data for multiple language pairs. Each sample includes the source language, target language, source text, reference text, and multiple scores based on different models and metrics. These scores may be used to evaluate the quality of machine translation. The dataset includes a training set with a total of 38098 samples.

提供机构：

hgissbkh

原始信息汇总

数据集概述

数据集特征

lp: 字符串类型
src_lang: 字符串类型
tgt_lang: 字符串类型
src: 字符串类型
ref: 字符串类型
base_xcomet: 浮点数类型
sft_xcomet_multi_xcomet: 浮点数类型
sft_kiwi_multi_xcomet: 浮点数类型
sft_chrf_multi_xcomet: 浮点数类型
cpo_xcomet_multi_xcomet: 浮点数类型
cpo_xcomet_multi_cb_xcomet: 浮点数类型
cpo_kiwi_multi_xcomet: 浮点数类型
cpo_chrf_multi_xcomet: 浮点数类型
cpo_xcomet_mono_xcomet: 浮点数类型
cpo_xcomet_mono_cl_rl_xcomet: 浮点数类型
cpo_xcomet_mono_cl_rm_xcomet: 浮点数类型
cpo_xcomet_mono_cl_rh_xcomet: 浮点数类型
cpo_xcomet_mono_cm_rl_xcomet: 浮点数类型
cpo_xcomet_mono_cm_rm_xcomet: 浮点数类型
cpo_xcomet_mono_cm_rh_xcomet: 浮点数类型
cpo_xcomet_mono_ch_rl_xcomet: 浮点数类型
cpo_xcomet_mono_ch_rm_xcomet: 浮点数类型
cpo_xcomet_mono_ch_rh_xcomet: 浮点数类型
base_kiwi: 浮点数类型
sft_xcomet_multi_kiwi: 浮点数类型
sft_kiwi_multi_kiwi: 浮点数类型
sft_chrf_multi_kiwi: 浮点数类型
cpo_xcomet_multi_kiwi: 浮点数类型
cpo_xcomet_multi_cb_kiwi: 浮点数类型
cpo_kiwi_multi_kiwi: 浮点数类型
cpo_chrf_multi_kiwi: 浮点数类型
cpo_xcomet_mono_kiwi: 浮点数类型
cpo_xcomet_mono_cl_rl_kiwi: 浮点数类型
cpo_xcomet_mono_cl_rm_kiwi: 浮点数类型
cpo_xcomet_mono_cl_rh_kiwi: 浮点数类型
cpo_xcomet_mono_cm_rl_kiwi: 浮点数类型
cpo_xcomet_mono_cm_rm_kiwi: 浮点数类型
cpo_xcomet_mono_cm_rh_kiwi: 浮点数类型
cpo_xcomet_mono_ch_rl_kiwi: 浮点数类型
cpo_xcomet_mono_ch_rm_kiwi: 浮点数类型
cpo_xcomet_mono_ch_rh_kiwi: 浮点数类型
base_chrf: 浮点数类型
sft_xcomet_multi_chrf: 浮点数类型
sft_kiwi_multi_chrf: 浮点数类型
sft_chrf_multi_chrf: 浮点数类型
cpo_xcomet_multi_chrf: 浮点数类型
cpo_xcomet_multi_cb_chrf: 浮点数类型
cpo_kiwi_multi_chrf: 浮点数类型
cpo_chrf_multi_chrf: 浮点数类型
cpo_xcomet_mono_chrf: 浮点数类型
cpo_xcomet_mono_cl_rl_chrf: 浮点数类型
cpo_xcomet_mono_cl_rm_chrf: 浮点数类型
cpo_xcomet_mono_cl_rh_chrf: 浮点数类型
cpo_xcomet_mono_cm_rl_chrf: 浮点数类型
cpo_xcomet_mono_cm_rm_chrf: 浮点数类型
cpo_xcomet_mono_cm_rh_chrf: 浮点数类型
cpo_xcomet_mono_ch_rl_chrf: 浮点数类型
cpo_xcomet_mono_ch_rm_chrf: 浮点数类型
cpo_xcomet_mono_ch_rh_chrf: 浮点数类型
base_comet: 浮点数类型
sft_xcomet_multi_comet: 浮点数类型
sft_kiwi_multi_comet: 浮点数类型
sft_chrf_multi_comet: 浮点数类型
cpo_xcomet_multi_comet: 浮点数类型
cpo_xcomet_multi_cb_comet: 浮点数类型
cpo_kiwi_multi_comet: 浮点数类型
cpo_chrf_multi_comet: 浮点数类型
cpo_xcomet_mono_comet: 浮点数类型
cpo_xcomet_mono_ch_rm_comet: 浮点数类型
base_metricx: 浮点数类型
sft_xcomet_multi_metricx: 浮点数类型
sft_kiwi_multi_metricx: 浮点数类型
sft_chrf_multi_metricx: 浮点数类型
cpo_xcomet_multi_metricx: 浮点数类型
cpo_xcomet_multi_cb_metricx: 浮点数类型
cpo_kiwi_multi_metricx: 浮点数类型
cpo_chrf_multi_metricx: 浮点数类型
cpo_xcomet_mono_metricx: 浮点数类型
cpo_xcomet_mono_ch_rm_metricx: 浮点数类型
base_bleu: 浮点数类型
sft_xcomet_multi_bleu: 浮点数类型
sft_kiwi_multi_bleu: 浮点数类型
sft_chrf_multi_bleu: 浮点数类型
cpo_xcomet_multi_bleu: 浮点数类型
cpo_xcomet_multi_cb_bleu: 浮点数类型
cpo_kiwi_multi_bleu: 浮点数类型
cpo_chrf_multi_bleu: 浮点数类型
cpo_xcomet_mono_bleu: 浮点数类型
cpo_xcomet_mono_cl_rl_bleu: 浮点数类型
cpo_xcomet_mono_cl_rm_bleu: 浮点数类型
cpo_xcomet_mono_cl_rh_bleu: 浮点数类型
cpo_xcomet_mono_cm_rl_bleu: 浮点数类型
cpo_xcomet_mono_cm_rm_bleu: 浮点数类型
cpo_xcomet_mono_cm_rh_bleu: 浮点数类型
cpo_xcomet_mono_ch_rl_bleu: 浮点数类型
cpo_xcomet_mono_ch_rm_bleu: 浮点数类型
cpo_xcomet_mono_ch_rh_bleu: 浮点数类型

数据集分割

train:
- 字节数: 39283416
- 样本数: 38098

数据集大小

下载大小: 28404497 字节
数据集大小: 39283416 字节

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

搜集汇总

数据集介绍

构建方式

在机器翻译评估领域，数据集的质量直接影响模型性能的客观衡量。本数据集基于WMT 2022与2023年评测任务的测试集构建，旨在系统分析大型语言模型在翻译任务中偏好对齐策略的有效性。其构建过程整合了多语言平行语料，涵盖源语言文本、参考译文及多种基线模型输出，并通过精细的标注流程，引入了监督微调与对比偏好优化等不同训练范式下的模型生成结果，确保了评估数据的全面性与可比性。

特点

该数据集的核心特点在于其多维度的评估体系，不仅包含传统的翻译质量自动度量分数，如BLEU、COMET和chrF，还融入了基于大型语言模型的新型评估指标，如XCOMET和KIWI。数据集结构设计精良，字段丰富，能够细致反映不同训练配置、有无参考译文及不同选择策略对翻译性能的影响。这种设计使得研究者能够深入探究偏好对齐技术在多样化场景下的实际效用，为机器翻译模型的优化提供了宝贵的实证依据。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，利用其结构化的测试分割进行深入分析。典型应用包括对比不同训练策略下模型在各项自动度量指标上的表现，或探究特定语言对在有无参考译文条件下的性能差异。数据集中的丰富字段支持灵活的筛选与聚合操作，便于开展控制变量研究，从而为机器翻译模型的训练策略选择提供数据驱动的决策支持。

背景与挑战

背景概述

在机器翻译领域，评估大型语言模型（LLM）的翻译性能一直是核心研究议题。hgissbkh/WMT22-23-Test-Metrics数据集由Hippolyte Gisserot-Boukhlef等研究人员于2024年构建，旨在系统探究偏好对齐（Preference Alignment）技术在提升LLM翻译能力方面的实际效果与局限性。该数据集基于WMT 2022和2023的测试集，整合了多种评估指标（如COMET、BLEU、chrF等），并对比了监督微调（SFT）与对比偏好优化（CPO）等不同训练策略下的模型输出。其核心研究问题聚焦于揭示偏好对齐方法在跨语言翻译任务中的普适性与边界条件，为优化LLM的翻译质量提供了实证基础，对自然语言处理领域的模型优化与评估范式产生了重要影响。

当前挑战

该数据集致力于解决机器翻译中LLM性能评估的复杂挑战，即如何在不同训练策略（如SFT与CPO）和多样化评估指标下，准确量化模型翻译质量的细微差异。构建过程中的挑战包括：多维度评估指标的集成与对齐，需协调COMET、BLEU、chrF等多种指标以覆盖翻译质量的不同层面；数据标注与处理的复杂性，涉及多语言对、参考译文及模型输出的标准化整理；以及实验设计的严谨性，需控制变量以区分不同训练策略（如带/不带参考译文、基础模型或GPT-4辅助）对结果的影响，确保评估结果的可靠性与可复现性。

常用场景

经典使用场景

在机器翻译评估领域，hgissbkh/WMT22-23-Test-Metrics数据集为研究者提供了一个系统性的基准测试平台。该数据集整合了WMT 2022与2023年评测任务的翻译样本，并涵盖了多种前沿评估指标的计算结果，如COMET、BLEU、chrF等。其经典使用场景在于对比分析不同大型语言模型在监督微调与偏好对齐策略下的翻译性能差异，为模型优化路径的选择提供实证依据。

衍生相关工作

围绕该数据集衍生的经典工作主要聚焦于翻译评估方法的创新与模型训练策略的深入探索。例如，基于其提供的多指标对比，研究者进一步提出了融合神经评估器与传统指标的混合评估框架。同时，该数据集也催生了针对低资源语言对翻译优化的专项研究，以及关于无参考评估与有参考评估间关联性的理论分析，持续推动机器翻译评估领域向更精细、更鲁棒的方向演进。

数据集最近研究