five

MQM Ratings

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/SU-JIAYUAN/M-MAD
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了来自2023年WMT评测共享任务中的MQM评分,覆盖了总共45个系统,并包含了68,130个跨四种语言的片段:英语、德语、中文和希伯来语。此外,该数据集的人类MQM评分作为评估自动评价指标性能的基准。规模上,数据集涉及45个系统,包含68,130个片段,其任务聚焦于机器翻译评估。

This dataset contains MQM scores from the 2023 WMT Evaluation Shared Task, covering a total of 45 translation systems and including 68,130 segments across four languages: English, German, Chinese, and Hebrew. Additionally, the human MQM scores in this dataset serve as a benchmark for evaluating the performance of automatic evaluation metrics for machine translation. In terms of scale, the dataset involves 45 systems and 68,130 segments, with its task focusing on machine translation evaluation.
提供机构:
WMT 2023 Metrics Shared Task
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
M-MAD是一个基于大型语言模型(LLM)的多代理框架,用于高级机器翻译评估。它通过维度划分、多代理辩论和最终判断三个阶段,系统地评估机器翻译的质量。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作