five

Do Not Change Me

收藏
arXiv2025-05-09 更新2025-05-13 收录
下载链接:
https://github.com/laniqo-public/do-not-change-me
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由作者创建,旨在评估NMT模型在翻译过程中保留实体(如URL、IBAN号码或电子邮件)的能力。数据集包含四个语言(英语、德语、波兰语、乌克兰语)的36,000个句子,以及来自九个类别的实体。数据集使用Gemma 2指令遵循模型生成,然后经过筛选以确保高质量和相关性。

This dataset was created by the authors to evaluate the ability of NMT models to preserve entities such as URLs, IBAN numbers, or email addresses during translation. It contains 36,000 sentences across four languages (English, German, Polish, and Ukrainian), along with entities from nine categories. The dataset was generated using the Gemma 2 instruction-tuned model, and then filtered to ensure high quality and relevance.
提供机构:
Poznan University of Technology, Poland
创建时间:
2025-05-09
原始信息汇总

数据集概述:Do not translate me

数据集简介

  • 数据集名称:Do not translate me
  • 用途:用于研究机器翻译系统在处理不可翻译实体时的表现
  • 相关论文:Do Not Change Me: On Transferring Entities Without Modification in Neural Machine Translation -- a Multilingual Perspective (MTSummit 2025)

数据集内容

  • 数据量:36,000个句子
  • 实体类型:9种(包括电子邮件、电话号码、URL、表情符号等)
  • 语言数量:4种(具体语言未说明)
  • 数据类型:合成多语言数据集

研究背景

  • 研究问题:现代机器翻译系统如何处理不可翻译实体
  • 研究发现:即使最先进的系统也经常难以正确处理这些实体

基准测试

  • 测试模型数量:8个(包括Google Translate)
  • 测试结果:提供了有洞察力的结果(具体结果未说明)

论文信息

  • 论文标题:Do Not Change Me: On Transferring Entities Without Modification in Neural Machine Translation -- a Multilingual Perspective
  • 作者:Dawid Wisniewski, Mikolaj Pokrywka, Zofia Rostek
  • 年份:2025
  • 论文链接:https://www.arxiv.org/abs/2505.06010

引用格式

bibtex @misc{wisniewski2025changemetransferringentities, title={Do Not Change Me: On Transferring Entities Without Modification in Neural Machine Translation -- a Multilingual Perspective}, author={Dawid Wisniewski and Mikolaj Pokrywka and Zofia Rostek}, year={2025}, eprint={2505.06010}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.06010}, }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过多阶段流程构建,首先利用Gemma 2 9B指令跟随模型生成72万句包含9类不可翻译实体(如URL、IBAN等)的原始语句,覆盖英语、德语、波兰语和乌克兰语四种语言。随后采用分层抽样策略,通过语言检测、语法校验和正则匹配筛选,最终形成包含3.6万句的高质量语料库,确保每语言-类别组合包含1000个长度分布均衡且语法正确的样本。
特点
数据集聚焦机器翻译中实体保留的评估需求,具有三大核心特征:一是涵盖电子邮件、表情符号等9类高频但易被错误处理的实体类型;二是通过严格的质量控制流程,保证样本在实体唯一性、语法正确性和语言纯净度方面的可靠性;三是实现四语言间的全互译方向覆盖,包含英语-乌克兰语等高低资源语言组合,为模型跨语言迁移能力评估提供多维视角。
使用方法
研究者可通过三种方式利用该数据集:首先,使用配套正则表达式提取源文本与译文中的实体进行字符级比对(如Levenshtein距离计算),量化模型保留能力;其次,结合COMETKiwi等评估指标分析整体翻译质量与实体保留的关联性;最后,通过控制句子长度、实体类别等变量,探究不同语境下模型的错误模式。数据集特别适用于诊断NMT模型在实体转换时的系统性缺陷。
背景与挑战
背景概述
Do Not Change Me数据集由Laniqo.com、波兹南理工大学和亚当密茨凯维奇大学的研究团队于2025年创建,旨在解决神经机器翻译(NMT)中实体保留的关键问题。该数据集聚焦于九类不应被翻译的实体(如URL、IBAN、表情符号等),覆盖英语、德语、波兰语和乌克兰语四种语言,包含36,000条人工筛选的句子。其创新性在于首次系统评估了主流NMT模型(包括OPUS、Google Translate、MADLAD等)在跨语言实体保留任务上的表现,填补了ACES、DEMETR等现有数据集在实体保留专项评估上的空白。该研究揭示了Transformer架构模型在细粒度语义理解上的局限性,为改进机器翻译的鲁棒性提供了重要基准。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决NMT模型对上下文无关实体(如编码类字符串)的误翻译问题,尤其是表情符号类别的平均准确率低至13.06%,而IP地址等数字序列则高达91.79%,暴露出模型对非语义化文本的处理缺陷;在构建层面,需克服多语言句子的生成质量控制难题,包括LLM生成内容的去噪(移除附加翻译注释)、语言验证(langdetect库过滤)、实体精确匹配(正则表达式校验)以及语法纠错(language-tool校验),最终通过分层抽样确保每类别-语言组合1000条高质量样本。此外,不同语言间句子长度差异(英语平均23.99词vs其他语言约17词)和实体字符长度变异(URL超100字符vs表情符号1字符)进一步增加了数据标准化的复杂度。
常用场景
经典使用场景
在机器翻译领域,'Do Not Change Me'数据集被广泛用于评估神经机器翻译模型在跨语言转换过程中保留特定实体(如URL、IBAN号码、电子邮件等)的能力。该数据集通过提供包含多种实体类型的多语言句子,帮助研究者测试模型在翻译过程中是否能够准确识别并保留这些不应被修改的实体。
实际应用
在实际应用中,'Do Not Change Me'数据集被用于优化商业翻译工具(如Google Translate)和开源翻译模型(如OPUS、EuroLLM)。通过评估这些工具在实体保留方面的表现,开发者可以针对性地调整模型,提升其在处理金融信息、联系方式等关键实体时的准确性,从而满足用户在高精度翻译场景下的需求。
衍生相关工作
该数据集衍生了一系列相关研究,包括对特定实体类别(如表情符号)的深入分析、多语言翻译模型的性能比较,以及针对实体保留的提示工程优化。此外,一些研究还利用该数据集探讨了模型大小与实体保留能力之间的关系,为未来模型设计提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作