five

MENT

收藏
github2026-01-26 更新2026-02-07 收录
下载链接:
https://github.com/BITHLP/RATE
下载链接
链接失效反馈
官方服务:
资源简介:
MENT(非直译翻译的元评估数据集)是一个人工标注的元评估数据集,用于系统评估机器翻译评估指标。

MENT (meta-evaluation dataset for non-literal translation) is a manually annotated meta-evaluation dataset designed for the systematic evaluation of machine translation evaluation metrics.
创建时间:
2026-01-12
原始信息汇总

数据集概述

数据集基本信息

数据集简介

MENT 是一个人工标注的元评估数据集,旨在系统性地评估机器翻译(MT)评估指标的性能。

数据集核心用途

该数据集主要用于对机器翻译评估指标进行元评估,特别是在非直译翻译内容上,系统性地揭示现有评估指标的局限性。

相关评估框架

  • 框架名称: RATE (Reflective Agentic Translation Evaluation)
  • 框架描述: 一个基于智能体的机器翻译评估框架,围绕一个核心智能体进行架构,并协调三个功能子智能体:用于逐点评估的评估智能体、用于在线知识检索的搜索智能体以及用于通过成对评估进行校准的比较智能体。
  • 实现代码位置: 官方仓库中的 agentic/ 目录。

元评估脚本

搜集汇总
数据集介绍
main_image_url
构建方式
在机器翻译评估领域,非字面翻译内容的准确评价长期面临挑战。MENT数据集的构建旨在系统化评估现有机器翻译评价指标在此类内容上的可靠性。该数据集通过人工标注方式精心构建,专门针对非字面翻译场景,涵盖了丰富的语义转换实例。其构建过程严格遵循元评估范式,旨在为衡量各类自动评估指标与人类判断的一致性提供坚实基准。
特点
MENT数据集的核心特征在于其专注于非字面翻译的元评估性质。它揭示了传统基于字符串匹配的评估指标在深层语义理解上的根本局限,同时也指出了大语言模型作为评判者范式所面临的静态知识截止与评分不一致性问题。该数据集为深入剖析评估指标在隐喻、习语等复杂语言现象上的表现提供了结构化、高质量的标注数据,填补了该细分领域的空白。
使用方法
该数据集主要用于系统化地评估和比较不同机器翻译评价指标的性能。研究人员可通过计算各指标在MENT数据集上的得分与人工标注之间的相关性,来客观衡量其评估非字面翻译质量的可靠性。数据集配套提供了基于MT-Metrics-Eval的元评估脚本,便于复现实验。同时,其也为验证如RATE等新型智能体评估框架的有效性提供了关键测试平台。
背景与挑战
背景概述
在机器翻译评估领域,传统度量标准长期依赖于字面映射的精确匹配,难以应对非字面翻译内容的语义深度与灵活性。MENT(Meta-Evaluation dataset of Non-Literal Translation)数据集应运而生,由Yanzhi Tian等研究人员于2026年提出,旨在系统性地评估机器翻译评价指标在非字面翻译任务上的表现。该数据集通过人工标注构建,核心研究问题聚焦于揭示现有评估方法在捕捉隐喻、文化特定表达等非字面内容时的局限性,推动了机器翻译评估向更深层语义理解的方向演进,对自然语言处理领域的评估范式产生了重要影响。
当前挑战
MENT数据集所针对的领域挑战在于,传统机器翻译评估指标如BLEU或METEOR往往基于表面词汇重叠,缺乏对非字面翻译中隐含语义、文化适配性及创造性表达的准确度量,导致评估结果与人类判断存在显著偏差。在构建过程中,挑战主要源于非字面翻译实例的收集与标注,需要确保数据涵盖多样化的语言现象如习语、诗歌翻译等,同时维持标注者间的一致性以保障数据质量,这些因素使得数据集的创建成为一项复杂且资源密集的任务。
常用场景
经典使用场景
在机器翻译评估领域,MENT数据集为系统性地检验评估指标的可靠性提供了关键基准。该数据集专注于非直译内容,涵盖隐喻、习语和文化特定表达等复杂语言现象,研究者通过对比人工标注与自动评分,能够深入分析不同评估方法在捕捉深层语义时的表现差异,从而推动评估技术向更精准、更人性化的方向发展。
实际应用
在实际应用中,MENT数据集为开发更可靠的机器翻译系统评估工具提供了验证平台。翻译服务提供商和研究人员可利用该数据集校准其自动评估指标,确保其对文学翻译、本地化内容或创意文本等非直译场景的评分与人类判断保持一致,从而提升翻译质量监控的准确性和在实际产品中的可信度。
衍生相关工作
基于MENT数据集的洞见,研究者提出了反思性智能体翻译评估框架RATE。该框架通过核心智能体协调评估、搜索和比较子智能体,实现了动态知识检索与校准评估,显著提升了非直译内容评估的稳健性。这一工作引领了机器翻译评估向智能体驱动、语义感知的新范式演进,并激发了后续关于评估指标可解释性与自适应性的系列研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作