TRENCARD Corpus
收藏arXiv2024-09-04 更新2024-09-06 收录
下载链接:
https://github.com/gokhandogru/trencard
下载链接
链接失效反馈官方服务:
资源简介:
TRENCARD Corpus是由巴塞罗那自治大学的Gokhan Dogru创建的一个心脏病学领域的双语语料库,专门用于机器翻译的微调。该数据集包含约800,000个源词和50,000个句子,来源于土耳其心脏病学期刊的双语摘要。数据集的创建过程采用了半自动化的方法,利用翻译工具进行数据质量控制和句子对齐。该数据集主要应用于机器翻译的训练和微调,旨在提高特定领域翻译的准确性和效率。
提供机构:
巴塞罗那自治大学
创建时间:
2024-09-04
搜集汇总
数据集介绍

构建方式
TRENCARD Corpus 是通过一种半自动化的方法构建的,该方法主要利用了翻译工具,这些工具是翻译人员在保证数据质量和控制方面所使用的。这种方法论首先用于从土耳其心脏病学期刊的双语摘要中构建一个基于心脏病学的土耳其语到英语语料库。这个名为 TRENCARD Corpus 的语料库大约包含 800,000 个源词和 50,000 个句子。使用这种方法,翻译人员可以在合理的时间内构建自己的定制翻译记忆库,并在需要双语数据的工作中使用它们。
特点
TRENCARD Corpus 的特点在于其领域特定性和高质量的数据。这个语料库专门针对心脏病学领域,包含了来自土耳其心脏病学期刊的双语摘要。这意味着它包含了该领域的专业术语和表述,对于需要进行心脏病学领域翻译或机器翻译微调的研究人员和翻译人员来说非常有价值。此外,这个语料库的构建过程注重数据质量和翻译人员的控制,确保了语料库的质量和可靠性。
使用方法
TRENCARD Corpus 可以通过以下方式进行使用:1. 下载语料库:研究人员可以从 Google Drive 或 GitHub 下载 TRENCARD Corpus,用于翻译或机器翻译微调研究。2. 导入翻译记忆库:翻译人员可以将 TRENCARD Corpus 导入到他们的翻译辅助工具中,例如 OPUS-CAT 或其他支持 TMX 格式的工具,以便在翻译过程中使用。3. 机器翻译微调:研究人员可以使用 TRENCARD Corpus 来微调现有的神经机器翻译模型,以提高特定于心脏病学领域的翻译质量。
背景与挑战
背景概述
在机器翻译和本地化技术的快速发展背景下,专业翻译人员面临着技术使用上的困境。一方面,技术整合的趋势使得翻译平台集成了项目管理、计算机辅助翻译(CAT)工具和机器翻译(MT)等功能,为翻译人员提供了便利。另一方面,技术多样化的趋势为翻译人员提供了更多的技术选择和可能性。本研究聚焦于特定领域的翻译记忆(TM)创建,以用于机器翻译的微调。通过半自动化的方法,翻译人员可以创建自己的定制TM,并使用它们来完成需要双语数据的任务。本研究介绍了一种半自动化的TM准备方法,主要利用翻译人员熟悉的翻译工具,以数据质量和控制为目标。该方法被用于构建基于土耳其心脏病学期刊双语摘要的土耳其→英语语料库。该语料库称为TRENCARD语料库,包含约80万个源词和5万个句子。使用这种方法,翻译人员可以在合理的时间内构建自己的定制TM,并在他们的双语数据任务中使用它们。
当前挑战
构建特定领域的TM面临一些挑战。首先,翻译数据的所有权问题是一个重要挑战,翻译人员需要确保他们有权使用和使用翻译数据。其次,从网络获取数据时,需要考虑版权和使用权问题,以确保不侵犯版权。此外,特定领域的TM可能不足以影响微调后的NMT引擎的输出质量,因此可能需要进一步的数据编译。最后,翻译人员需要掌握使用不同工具进行数据编译的技能,这可能需要一定的时间和精力。
常用场景
经典使用场景
TRENCARD Corpus 是一个土耳其语到英语的双语心内科摘要平行语料库,主要应用于机器翻译的训练和微调。该数据集的创建方法是一种半自动化的翻译记忆库准备流程,主要利用翻译人员常用的翻译工具,以提高数据质量和翻译人员对翻译记忆库的控制。通过这种方法,翻译人员可以在合理的时间内构建自己的自定义翻译记忆库,并将其用于需要双语数据的任务。
解决学术问题
TRENCARD Corpus 解决了翻译领域中一个常见的问题,即翻译记忆库的创建。翻译记忆库对于机器翻译训练和微调至关重要,但是高质量的翻译记忆库的创建通常需要大量的时间和专业知识。TRENCARD Corpus 的创建提供了一种半自动化的方法,使翻译人员能够更容易地创建自己的翻译记忆库,从而提高了翻译的效率和准确性。
衍生相关工作
TRENCARD Corpus 衍生了许多相关的研究工作,例如 Dogru & Moorkens (2024) 使用 TRENCARD Corpus 对桌面机器翻译进行微调的研究。此外,TRENCARD Corpus 的创建方法也为其他领域的翻译记忆库创建提供了参考和启示。
以上内容由遇见数据集搜集并总结生成



