RicardoRei/wmt-mqm-human-evaluation
收藏Hugging Face2023-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RicardoRei/wmt-mqm-human-evaluation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了之前WMT Metrics共享任务中的所有MQM人工注释,以及来自Experts, Errors, and Context研究的MQM注释。数据被组织成8列,包括语言对、输入文本、翻译、参考翻译、MQM评分、产生翻译的机器翻译引擎、注释者数量和输入文本的领域(如新闻)以及收集年份。
该数据集包含了之前WMT Metrics共享任务中的所有MQM人工注释,以及来自Experts, Errors, and Context研究的MQM注释。数据被组织成8列,包括语言对、输入文本、翻译、参考翻译、MQM评分、产生翻译的机器翻译引擎、注释者数量和输入文本的领域(如新闻)以及收集年份。
提供机构:
RicardoRei
原始信息汇总
数据集概述
数据集名称
wmt-mqm-human-evaluation
数据集来源
包含来自WMT Metrics shared tasks的MQM人类注释和Experts, Errors, and Context研究的MQM注释。
数据集内容
数据集包含以下8个列:
- lp: 语言对
- src: 输入文本
- mt: 翻译文本
- ref: 参考翻译
- score: MQM评分
- system: 产生翻译的MT引擎
- annotators: 注释者数量
- domain: 输入文本的领域(例如新闻)
- year: 收集年份
数据集规模
100K<n<1M
数据集语言
- 英语
- 德语
- 俄语
- 中文
数据集标签
- mt-evaluation
- WMT
许可证
Apache-2.0
使用示例
数据集可通过Python的datasets库加载,并可根据年份、语言对或领域进行自定义分割。
引用信息
使用此数据集时,应引用以下文献:
- Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation
- Results of the WMT21 Metrics Shared Task: Evaluating Metrics with Expert-based Human Evaluations on TED and News Domain
- Results of WMT22 Metrics Shared Task: Stop Using BLEU – Neural Metrics Are Better and More Robust
搜集汇总
数据集介绍

构建方式
RicardoRei/wmt-mqm-human-evaluation数据集的构建,汇集了历届WMT Metrics共享任务中的人类MQM标注数据,以及来自《Experts, Errors, and Context》研究论文的MQM标注。数据集以语言对、源文本、机器翻译文本、参考翻译、MQM评分、翻译引擎、标注者数量、文本领域和采集年份等8列信息组织而成,为机器翻译质量评估领域的研究提供了丰富的基础数据。
特点
该数据集的特点在于其多元化和细致性。涵盖了多种语言对,包括英语、德语、俄语和中文等,且数据量介于10万至100万之间。它不仅提供了最终的MQM评分,而且记录了详细的标注信息,有助于深入分析机器翻译的错误类型和领域相关性。此外,数据集的时间跨度揭示了翻译评估标准的演变和趋势。
使用方法
使用RicardoRei/wmt-mqm-human-evaluation数据集时,可以直接通过HuggingFace的datasets库加载。数据集没有标准的训练/测试分割,但用户可以根据年份、语言对或领域轻松分割数据。例如,可以筛选出特定年份、语言对或领域的子集,以适应不同的研究需求或模型训练目标。引用此数据集的研究应参考相关的研究论文和WMT指标共享任务的结果。
背景与挑战
背景概述
RicardoRei/wmt-mqm-human-evaluation数据集汇集了历届WMT Metrics共享任务中的人类MQM标注,以及《Experts, Errors, and Context》研究中的标注数据,旨在为机器翻译评价提供详实的人类评估基准。该数据集自构建以来,便成为评估机器翻译质量的重要资源,由多个语言对构成,涵盖英语、德语、俄语和中文等,跨越不同领域,如新闻、科技等,记录了不同年份的评估数据。其创建依托于WMT Metrics共享任务,汇集了国际机器翻译领域的研究力量,对于推动翻译质量评估技术的发展产生了深远影响。
当前挑战
在构建该数据集的过程中,研究者面临了多方面的挑战。首先,如何确保人类评估的客观性和一致性是关键问题,这要求评估者具备高度的专业素养和统一的评价标准。其次,数据集的多样性和广泛性带来了整合与处理的难题,包括不同语言对、不同领域以及不同年份的数据融合。此外,构建过程中还需解决标注数据的质量控制问题,确保数据的准确性和可靠性。在研究领域问题方面,该数据集旨在解决机器翻译评价中自动评价指标与人类评价之间的差距,以及如何更准确地反映翻译质量的问题。
常用场景
经典使用场景
在自然语言处理领域,RicardoRei/wmt-mqm-human-evaluation数据集被广泛应用于机器翻译质量的评估研究。该数据集整合了历届WMT Metrics共享任务的MQM人工注释,以及来自不同领域的专家评估数据,为研究者提供了一个全面的质量评估基准。其经典使用场景在于,通过分析人工标注的MQM得分,研究人员能够深入理解机器翻译输出的质量特征,从而指导模型的改进与优化。
解决学术问题
该数据集解决了机器翻译质量评估中的一个关键问题,即如何客观、准确地量化翻译质量。通过提供丰富的人工评估数据,该数据集使得研究者能够对比不同翻译系统的性能,评估现有评价指标的有效性,进而推动评价指标的改进和翻译系统的优化。这对于提高机器翻译的整体水平,促进自然语言处理领域的发展具有重要意义。
衍生相关工作
基于该数据集,学术界已经衍生出一系列相关工作,包括对现有评估指标的改进、新评估指标的开发,以及机器翻译模型的优化策略研究。这些工作进一步推动了机器翻译质量评估方法的进步,为自然语言处理领域的发展贡献了新的理论和方法。
以上内容由遇见数据集搜集并总结生成



