terminology_dataset

github2023-05-04 更新2024-05-31 收录

下载链接：

https://github.com/mtresearcher/terminology_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集用于ACL论文《Training Neural Machine Translation To Apply Terminology Constraints》，包含来自IATE和Wiktionary的数据，以tsv格式存储，用于支持机器翻译中的术语约束研究。数据集包含多个文件，每个文件对应不同的术语匹配类型，如完美匹配和近似匹配。

This dataset is utilized for the ACL paper titled 'Training Neural Machine Translation To Apply Terminology Constraints'. It comprises data sourced from IATE and Wiktionary, stored in TSV format, to facilitate research on terminology constraints in machine translation. The dataset includes multiple files, each corresponding to different types of term matching, such as exact matches and approximate matches.

创建时间：

2019-10-17

原始信息汇总

数据集概述

数据集名称

TERMINOLGOY DATA SET

数据集来源

该数据集用于ACL 2019论文《Training Neural Machine Translation To Apply Terminology Constraints》。

数据集内容

包含4个文件，分布在两个文件夹中，以及一个README文件。
术语文件来自IATE和Wiktionary，格式为{wikt,iate}.{NUM}.terminology.tsv，其中NUM代表句子数量。

文件详情

完美匹配文件：包含414和727行的文件，对应论文中的Table 2。
近似匹配文件：包含581和975行的文件，对应论文中的Table 4。

文件结构

每个术语文件包含2N+2列，其中N是句子中术语匹配的数量。
示例文件iate.414.terminology.tsv的列包括：句子ID、源术语、目标术语和目标术语（BPE）。

数据集使用

为了获取包含术语的2017年新闻测试集，需要运行提供的脚本。

许可证信息

Wiktionary数据：CC-BY-SA 3.0 License。
IATE术语：无版权。
脚本：Apache 2.0 License。

搜集汇总

数据集介绍

构建方式

术语数据集（terminology_dataset）的构建基于IATE和Wiktionary两大权威术语资源，旨在支持神经机器翻译中的术语约束应用。数据集以TSV格式存储，每个文件包含特定数量的句子，其中术语匹配以源语言、目标语言和目标语言（BPE）三列表示。数据集的构建过程严格遵循WMT 2017测试集的句子ID，确保术语与原始语料的高度一致性。

使用方法

使用该数据集时，用户需首先下载WMT 2017测试集，并通过提供的脚本提取与术语匹配的句子。数据集的使用流程包括术语文件的解析、术语匹配句子的提取以及术语约束的集成。用户可根据需求选择完全匹配或近似匹配文件，并通过脚本生成包含术语的测试集。数据集的使用不仅限于机器翻译研究，还可扩展至术语管理、多语言信息检索等领域。

背景与挑战

背景概述

术语数据集（terminology_dataset）由Georgiana Dinu、Prashant Mathur、Marcello Federico和Yaser Al-Onaizan等研究人员于2019年发布，旨在支持神经机器翻译（NMT）领域的研究。该数据集的核心研究问题是如何在神经机器翻译中有效应用术语约束，以确保翻译结果在特定领域或上下文中保持术语的一致性。数据集基于IATE和Wiktionary的术语数据构建，并结合了WMT 2017测试集的句子，为术语匹配提供了丰富的实验基础。该研究在ACL 2019会议上发表，推动了术语约束在机器翻译中的应用，对提升翻译质量具有重要意义。

当前挑战

术语数据集在解决神经机器翻译中的术语约束问题时面临多重挑战。首先，术语的精确匹配与近似匹配之间的平衡是一个关键问题，数据集通过提供不同匹配程度的文件（如414行和727行的精确匹配文件，以及581行和975行的近似匹配文件）来应对这一挑战。其次，数据集的构建过程中需要处理大量异构数据源（如IATE和Wiktionary），并确保术语与句子之间的正确对齐。此外，术语的多义性和上下文依赖性增加了数据标注和模型训练的复杂性，要求研究人员在构建和使用数据集时具备高度的精确性和灵活性。

常用场景

经典使用场景

在神经机器翻译（NMT）领域，terminology_dataset被广泛用于训练模型以应用术语约束。该数据集通过提供来自IATE和Wiktionary的术语对，帮助研究者在翻译过程中精确控制特定术语的使用，从而提升翻译的准确性和专业性。

解决学术问题

该数据集解决了神经机器翻译中术语一致性的关键问题。通过提供精确和近似的术语匹配，研究者能够评估和改进模型在翻译过程中对特定术语的处理能力，从而推动NMT技术在专业领域（如法律、医学）的应用。

实际应用

terminology_dataset在实际应用中，特别是在多语言翻译系统中，能够显著提升术语翻译的准确性。例如，在欧盟的多语言文档翻译中，该数据集帮助确保法律术语的一致性，从而减少误解和法律风险。

数据集最近研究