five

Human Annotated Dataset for Quality Assessment of Emotion Translation (HADQAET)

收藏
arXiv2025-03-20 更新2025-03-22 收录
下载链接:
https://github.com/surrey-nlp/HADQAET
下载链接
链接失效反馈
官方服务:
资源简介:
HADQAET数据集是由英国萨里大学的研究团队创建的,用于评估情感翻译质量的标注数据集。该数据集来源于微博情感分类技术评测数据集,包含34768条中文推文样本文本,每条文本都被标注了六种情绪之一。数据集经过筛选,保留了5538条包含网络俚语的文本,并使用谷歌翻译进行了英译。此外,数据集还包含了质量评估数据、错误单词和相关参考翻译。

The HADQAET dataset is an annotated dataset created by a research team at the University of Surrey, United Kingdom, for evaluating the quality of sentiment translation. Derived from a Chinese microblog sentiment classification technology evaluation dataset, it contains 34,768 Chinese tweet sample texts, each annotated with one of six emotions. After screening, 5,538 texts containing internet slang were retained, and their English translations were generated using Google Translate. Additionally, the dataset includes quality assessment data, erroneous words, and relevant reference translations.
提供机构:
英国萨里大学
创建时间:
2025-03-20
搜集汇总
数据集介绍
main_image_url
构建方式
HADQAET数据集的构建基于中文社交媒体中的用户生成内容(UGC),特别是包含情感负载的文本。研究者从SMP2020-EWECT数据集中选取了5,538条中文微博文本,并通过Google Translate将其翻译为英文。为了评估翻译质量,特别是情感保留的准确性,研究者提出了一个基于情感的多维度质量评估框架(MQM),并聘请了专业翻译人员对翻译结果进行标注。标注内容包括错误类型及其严重程度,并对源文本和目标文本中导致错误的词汇进行了高亮标注。此外,研究者还通过翻译公司对机器翻译输出进行了后编辑,生成了参考翻译。
使用方法
HADQAET数据集的使用方法主要包括两个方面:首先,研究者可以利用该数据集中的同音词俚语生成新的同音词,以测试现有质量评估模型的鲁棒性。其次,数据集中的参考翻译和后编辑翻译可以用于评估机器翻译系统的改进效果。通过替换源文本中的同音词或改进机器翻译输出,研究者可以测试质量评估模型在面对新同音词或改进翻译时的表现。此外,数据集还可用于训练和评估基于多任务学习和大型语言模型的质量评估系统。
背景与挑战
背景概述
Human Annotated Dataset for Quality Assessment of Emotion Translation (HADQAET) 是由英国萨里大学的研究团队于2023年创建的一个数据集,旨在评估机器翻译(MT)在用户生成内容(UGC)中情感保留的质量。该数据集的核心研究问题是如何在缺乏参考翻译的情况下,自动评估中文UGC的情感翻译质量。HADQAET的创建基于SMP2020-EWECT数据集,包含5,538条中文微博文本,并通过Google Translate翻译为英文。研究人员通过专业翻译人员的标注,构建了一个情感相关的多维质量评估框架(MQM),用于分析翻译中的错误及其严重性。该数据集在机器翻译领域,尤其是情感翻译质量评估方面,具有重要的影响力,推动了相关模型和框架的发展。
当前挑战
HADQAET数据集面临的挑战主要集中在两个方面。首先,情感翻译的复杂性使得机器翻译系统在处理情感负载的UGC时,难以准确捕捉和保留源文本中的情感细微差别。特别是在中文语境下,同音词的使用频繁,容易导致翻译错误。其次,数据集的构建过程中,研究人员需要克服标注的复杂性,尤其是在情感保留方面的错误分析和严重性评估。此外,生成同音词以测试翻译系统的鲁棒性也是一个技术挑战,研究人员提出了一种基于信息论的自信息方法,生成具有挑战性的中文同音词,并通过人工评估验证其有效性。这些挑战不仅推动了情感翻译质量评估技术的发展,也为未来的研究提供了新的方向。
常用场景
经典使用场景
HADQAET数据集在机器翻译质量评估领域具有重要应用,特别是在处理用户生成内容(UGC)的情感翻译时。该数据集通过提供包含情感负载的中文微博文本及其对应的机器翻译输出,帮助研究者评估翻译系统在情感保留方面的表现。其经典使用场景包括测试翻译系统在处理中文同音词时的鲁棒性,以及评估翻译质量估计(QE)模型在面对情感负载文本时的表现。
解决学术问题
HADQAET数据集解决了机器翻译领域中的情感保留问题,尤其是在处理中文同音词时。通过提供包含情感负载的文本及其翻译,该数据集帮助研究者识别翻译系统在情感传递中的常见错误,并开发更鲁棒的翻译质量评估模型。此外,该数据集还推动了基于信息论的同音词生成方法的研究,为自动生成具有挑战性的同音词提供了新的思路,从而进一步测试翻译系统的鲁棒性。
实际应用
HADQAET数据集在实际应用中主要用于改进机器翻译系统,特别是在处理社交媒体内容时。通过分析翻译系统在处理情感负载文本时的表现,开发者可以优化翻译算法,使其更好地保留原文的情感色彩。此外,该数据集还可用于训练和测试翻译质量估计模型,帮助自动评估翻译输出的情感保留程度,从而提升翻译系统的整体质量。
数据集最近研究
最新研究方向
近年来,情感翻译质量评估领域的研究逐渐聚焦于用户生成内容(UGC)的机器翻译(MT)质量评估,尤其是情感保留的挑战。HADQAET数据集作为该领域的重要资源,提供了包含中文同音词的情感负载文本及其翻译质量评估数据。最新研究通过引入信息论中的自信息概念,生成具有挑战性的中文同音词,以测试现有质量评估模型的鲁棒性。研究表明,大型语言模型(LLMs)在面对这些同音词扰动时表现出更高的稳定性和鲁棒性,尤其是在情感保留方面。这一发现不仅揭示了现有质量评估模型的局限性,还为未来开发更具鲁棒性的翻译质量评估工具提供了新的方向。
相关研究论文
  • 1
    Automatically Generating Chinese Homophone Words to Probe Machine Translation Estimation Systems英国萨里大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作