MEET-MR

Hugging Face2026-01-11 更新2026-01-12 收录

下载链接：

https://huggingface.co/datasets/MEET-MR/MEET-MR

下载链接

链接失效反馈

官方服务：

资源简介：

MEET-MR是一个全面的人工标注英语-泰语机器翻译基准数据集，旨在解决远距离相关语言对缺乏高质量评估资源的问题。该数据集包含20,646个翻译片段，提供细粒度的MQM错误标签和整体10级人类偏好排名。数据集覆盖多个领域（教育、医疗、条约、图像描述、技术等），并采用分层80:10:10的比例划分为训练集、验证集和测试集，以保持各领域在分割中的一致性。数据集还提供了详细的统计信息和性能基准，显示其在翻译质量估计（QE）和模型与人类判断对齐方面的有效性。数据格式为JSON，包含源文本（src）、机器翻译文本（mt）、参考文本（ref）、分数（score）、排名（ranking）和领域（domain）等信息。

创建时间：

2026-01-10

原始信息汇总

MEET-MR: English-Thai MQM Ranking Dataset 数据集概述

数据集基本信息

数据集名称: MEET-MR: English-Thai MQM Ranking Dataset
许可协议: Creative Commons Attribution 4.0 International License (CC-BY-4.0)
任务类别: 翻译
涉及语言: 英语 (en)、泰语 (th)
标签: mqm、human-evaluation、quality-estimation、ranking、eacl-2026
数据规模: 10K<n<100K
总样本数: 20,646 个片段

数据内容与结构

数据字段:
- _id: 样本标识符 (int64)
- src: 源文本 (英语) (string)
- mt: 机器翻译文本 (泰语) (string)
- ref: 参考译文 (泰语) (string)
- score: 分数 (float64)
- mqm: MQM分数 (float64)
- ranking: 排名 (int64)
- domain: 领域 (string)
数据划分:
- 训练集 (train): 16,447 个样本
- 验证集 (validation): 2,050 个样本
- 测试集 (test): 2,149 个样本

数据集特点与目标

领域: 多样化，涵盖教育、医疗、条约、图像描述、技术等。
评估方式: 提供细粒度MQM错误标签（轻微、重大、严重）和整体10向人工偏好排名。
MQM分数范围: 0.0（不可用）至 1.0（完美）。
目标: 实现精确的翻译质量估计以及模型与人类判断的对齐。

数据构成与统计

划分策略: 采用分层80:10:10比例划分，以保持各划分间的领域一致性。
领域分布:
- 教育 (Education): 2,897
- 对话 (Conversation): 2,840
- 社交 (Social): 2,730
- 新闻 (News): 2,460
- 医疗 (Medical): 2,043
- 条约 (Treaty): 1,901
- 电子商务 (E-commerce): 1,780
- COCO (图像描述): 1,337
- 手册 (Manuals): 1,065
- Bunny (预训练/微调): 1,503
- 智慧城市 (Smart City): 90
文本特征:
- 平均机器翻译文本长度: 98.56 字符
- 平均参考译文长度: 96.00 字符

性能基准

在MEET-MR上微调评估模型，相比标准预训练检查点，能显著提升其与人类判断的相关性。

评估指标: 肯德尔τ系数（与人类评估的一致性）
关键结果:
- 微调后的COMET-kiwi模型在MQM和排名任务上分别达到0.402和0.415的τ分数。
- LLM零样本评估中，Gemini-2.5-Pro表现最佳，τ分数分别为0.463（MQM）和0.455（排名）。

数据格式示例

数据以JSON格式存储，示例如下： json { "_id": 291, "src": "Better jobs lead to better pay, better pay to better possessions...", "mt": "งานที่ดีกว่านำไปสู่เงินเดือนที่ดีขึ้น...", "ref": "งานที่ดีกว่านำไปสู่ค่าแรงที่ดีขึ้น...", "score": 1.0, "ranking": 0, "domain": "education" }

注：排名0表示在候选集中为顶级偏好（最佳）。

引用信息

如需引用，请使用以下BibTeX条目： bibtex @inproceedings{phuangrot2026meetmr, title={Machine Translation Evaluation English-Thai MQM Ranking Dataset}, author={Phuangrot, Phichet and Trintawat, Natdanai and Vilasri, Kanawat and Patcharawiwatpong, Yanapat and Boonsarngsuk, Pachara and Pavasant, Nat and Chuangsuwanich, Ekapol}, booktitle={Proceedings of the 19th Conference of the European Chapter of the Association for Computational Linguistics (EACL)}, year={2026}, url={https://openreview.net/forum?id=0IbK0VeN8y} }

搜集汇总

数据集介绍

构建方式

在机器翻译评估领域，针对远距离语言对的高质量资源稀缺，MEET-MR数据集通过系统化流程构建而成。其源文本涵盖教育、医疗、条约、图像描述及技术等多元领域，确保了内容的广泛代表性。数据采集涉及十个不同的机器翻译系统，生成了20,646个翻译片段。采用分层抽样策略，以80:10:10的比例划分训练、验证和测试集，保持了各领域在分割中的分布一致性。每个片段均由人工标注员进行精细的多维度质量度量评估，并辅以十级偏好排序，从而形成了兼具细粒度错误标签与整体质量排名的双语语料。

使用方法

该数据集主要应用于机器翻译质量估计与系统排名任务。研究人员可直接加载标准化的JSON格式数据，其中包含源句、机器翻译、参考译文、MQM分数、排名及领域标签。在模型训练阶段，可利用训练集微调现有的质量估计模型，如COMET，以提升其与人类评判的相关性。验证集可用于超参数调优，而测试集则用于最终性能评估，常用指标包括肯德尔τ系数。此外，数据集支持零样本评估，允许直接使用大型语言模型进行质量预测，为比较不同评估范式提供了统一平台。

背景与挑战

背景概述

在机器翻译评估领域，针对远距离语言对的高质量评测资源长期匮乏，制约了相关技术的精准发展。MEET-MR数据集由泰国研究团队于2026年构建，旨在为英语-泰语翻译提供细粒度的人工标注基准。该数据集涵盖了教育、医疗、条约、技术说明及图像描述等多个领域，共包含两万余个翻译片段，每个片段均标注了多维质量指标（MQM）错误标签以及十级人工偏好排序。其核心研究问题聚焦于如何建立可靠的人类评判标准，以推动翻译质量估计模型的优化，并促进机器翻译系统与人类偏好的对齐。这一资源的发布显著提升了低资源语言对的评估信度，为后续研究奠定了实证基础。

当前挑战

MEET-MR数据集致力于解决英语-泰语机器翻译的评估难题，其首要挑战在于如何设计一套能够准确捕捉翻译错误细微差别并反映人类偏好的综合评价体系。远距离语言对在语法结构、文化表达上存在显著差异，使得自动评估指标往往与人工判断相关性较低。在构建过程中，研究团队面临标注一致性与规模化的双重挑战：细粒度的MQM错误分类要求标注者具备深厚的双语语言能力与领域知识，而大规模十级排序标注则需克服主观偏差，确保跨领域、跨片段评判标准的一致性。此外，数据集的领域多样性虽提升了泛化能力，但也为保持各领域样本平衡与数据分割的合理性带来了复杂性。

常用场景

经典使用场景

在机器翻译质量评估领域，MEET-MR数据集为英语-泰语这一远距离语言对提供了精细的评估基准。其经典应用场景在于训练和验证翻译质量估计模型，通过结合细粒度的MQM错误标注和十级人工偏好排序，研究人员能够系统性地分析不同机器翻译系统在多样领域文本上的表现差异，从而推动评估方法向更贴近人类判断的方向演进。

解决学术问题

该数据集有效解决了远距离语言对缺乏高质量人工评估资源的学术困境。通过提供涵盖教育、医疗、条约等十个领域的超过两万条标注数据，它使得翻译质量估计研究能够超越传统自动指标的限制，直接对齐人类对翻译准确性与流畅度的综合评判。这一资源为构建更稳健的跨语言评估模型奠定了实证基础，显著提升了评估结果与人工排序的一致性。

实际应用

在实际应用中，MEET-MR数据集能够指导机器翻译系统的优化与部署。企业可利用其标注信息对特定领域（如电子商务、新闻）的翻译模型进行针对性调优，以提升终端产品的语言服务质量。同时，该数据集支持开发自动质量监控工具，帮助内容平台实时检测并过滤低质量翻译，保障跨语言信息传播的准确性与可靠性。

数据集最近研究