five

MMTE

收藏
arXiv2024-06-20 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2406.13698v1
下载链接
链接失效反馈
官方服务:
资源简介:
MMTE数据集是由谢菲尔德大学计算机科学系等机构合作创建,专注于评估机器翻译中比喻语言的质量。该数据集包含647条英汉和英意翻译样本,通过人工标注和后编辑生成。数据集的创建过程涉及使用多种机器翻译模型进行初步翻译,随后由语言学专家进行标注和后编辑,确保翻译的比喻表达准确性和文化适宜性。MMTE数据集的应用领域主要集中在机器翻译质量评估,特别是比喻语言的翻译质量,旨在解决跨语言比喻表达的准确传达问题。

The MMTE dataset was co-created by the Department of Computer Science at the University of Sheffield and other institutions, focusing on evaluating the quality of figurative language in machine translation. This dataset contains 647 Chinese-English and English-Italian translation samples, which were generated through manual annotation and post-editing. The construction process of the MMTE dataset involved utilizing multiple machine translation models to produce preliminary translations, followed by annotation and post-editing from linguistic experts to ensure the accuracy of figurative expressions and cultural appropriateness of the translations. The main application scenarios of the MMTE dataset lie in machine translation quality assessment, particularly for the translation quality of figurative language, aiming to address the issue of accurate cross-linguistic communication of figurative expressions.
提供机构:
谢菲尔德大学计算机科学系
创建时间:
2024-06-20
搜集汇总
数据集介绍
main_image_url
构建方式
MMTE数据集的构建基于多语言平行隐喻语料库的生成与后编辑。首先,研究人员从WordNet中选取了315个隐喻句子和332个非隐喻句子作为源数据,随后使用Google Cloud Translation API、Youdao Cloud Translation API、Helsinki-NLP/opus-mt模型以及GPT-4o等四种机器翻译模型将英语源数据翻译为中文和意大利语。接着,18名语言学专业的母语者对这些翻译进行了标注和后编辑,每个样本由3名标注者独立完成,并由专业翻译人员进行最终审核。通过这一过程,生成了包含315个隐喻和332个非隐喻实例的多语言平行语料库。
特点
MMTE数据集的特点在于其专注于隐喻翻译的评估,提供了首个系统化的人工评估框架。该数据集不仅包含隐喻和非隐喻的平行翻译数据,还引入了四个评估维度:隐喻等价性、情感、真实性和翻译质量。通过这些维度,研究人员能够深入分析机器翻译在处理隐喻表达时的表现,尤其是隐喻与字面翻译之间的差异。此外,数据集还提供了自动评估指标(如BLEU、ROUGE和BERTScore),以支持更全面的翻译质量评估。
使用方法
MMTE数据集的使用方法主要包括机器翻译模型的性能评估和隐喻翻译质量的深入分析。研究人员可以通过该数据集评估不同翻译模型在处理隐喻表达时的表现,尤其是在跨语言和文化差异下的隐喻翻译效果。数据集中的标注数据可用于训练和验证自动翻译质量评估模型,特别是针对隐喻翻译的评估。此外,MMTE还支持对翻译中的情感传递和隐喻等价性进行细粒度分析,帮助研究人员理解隐喻翻译的复杂性,并为改进机器翻译模型提供数据支持。
背景与挑战
背景概述
MMTE(Metaphorical Machine Translation Evaluation)数据集由谢菲尔德大学、滑铁卢大学、对外经济贸易大学、01.AI和曼彻斯特大学的研究团队于2024年创建,旨在解决机器翻译中隐喻语言翻译质量的评估问题。隐喻在日常语言中占据重要地位,约5%至20%的日常表达涉及隐喻,然而现有的机器翻译评估方法主要关注流畅性和事实可靠性,忽视了隐喻的修辞质量。MMTE通过构建一个多语言平行隐喻语料库,并提出了基于人工评估的隐喻翻译质量评估框架,填补了这一领域的空白。该数据集的核心研究问题在于如何准确评估隐喻翻译的等效性、情感传递、真实性和整体质量,为自然语言处理领域的隐喻翻译研究提供了重要的数据支持。
当前挑战
MMTE数据集面临的挑战主要体现在两个方面。首先,隐喻翻译本身具有高度复杂性,隐喻的表达往往依赖于文化和语言的特定背景,直接翻译难以在目标语言中找到等效的表达。例如,英语中的隐喻“seeing pink elephants”与中文的“烂醉如泥”在表达醉酒状态时存在显著差异,这种文化差异增加了翻译的难度。其次,数据集的构建过程中也面临诸多挑战,包括缺乏现成的多语言平行隐喻数据,以及如何确保人工标注的一致性和准确性。为了解决这些问题,研究团队采用了多轮人工标注和后编辑的方法,确保数据的高质量。此外,现有的自动评估指标如BLEU和ROUGE在处理隐喻翻译时表现不佳,难以捕捉隐喻的细微语义差异,因此需要开发新的评估方法。
常用场景
经典使用场景
MMTE数据集主要用于评估机器翻译在处理隐喻语言时的表现。通过提供多语言平行隐喻语料库,研究者可以系统地分析不同翻译模型在翻译隐喻表达时的准确性和流畅性。该数据集特别适用于研究隐喻翻译中的等效性、情感传递和真实性等问题,帮助提升机器翻译在复杂语言现象中的表现。
实际应用
MMTE数据集在实际应用中具有广泛的价值。它不仅可用于改进商业翻译系统(如Google翻译、Youdao翻译等)的隐喻处理能力,还可用于教育领域,帮助语言学习者更好地理解和使用隐喻表达。此外,该数据集还可用于跨文化交流研究,帮助不同语言背景的人们更好地理解彼此的文化隐喻。
衍生相关工作
MMTE数据集推动了多项相关研究的发展。基于该数据集,研究者提出了多种隐喻翻译评估框架,如基于BERTScore的跨语言隐喻翻译评估方法。此外,MMTE还启发了隐喻生成、隐喻检测等领域的研究,促进了自然语言处理技术在隐喻处理方面的进步。这些衍生工作进一步扩展了MMTE的应用范围,推动了隐喻翻译研究的多样化和深入化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作