名古屋市翻译资源

github2024-03-21 更新2024-05-31 收录

下载链接：

https://github.com/tr4lg/nagoya-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

名古屋市利用机器翻译等技术进行行政文档翻译，并构建了翻译资源（对译文档集、对译文集、对译用语集）。本仓库提供这些翻译资源，供全国自治体灵活使用。

The city of Nagoya utilizes machine translation and other technologies to translate administrative documents, and has constructed translation resources (parallel document sets, parallel text sets, and parallel terminology sets). This repository provides these translation resources for flexible use by local governments nationwide.

创建时间：

2023-03-09

原始信息汇总

数据集概述

数据集名称

名古屋市翻訳資源

数据集内容

自治体対訳文書集
- 公開日期：2024年3月21日
- 内容：包含名古屋市的行政文書翻訳。
自治体対訳文集
- 公開日期：2023年8月29日
- 内容：包含名古屋市的行政文書翻訳的句子级对译。
自治体対訳用語集
- 公開日期：2023年3月9日
- 最終更新：2023年8月29日
- 内容：包含名古屋市的行政文書翻訳的术语对译，分为六个部分：名古屋市組織名、名古屋市職名、名古屋市パンフレット、名古屋市ガイドブック、名古屋市国際交流、複合分野。

利用注意事项

公開者及び名古屋市は、本翻訳資源の内容もしくは利用に関わるいかなる損害の責任を負いません。
翻訳資源の情報源となる行政文書は作成当時の法令に準拠したものであり、現在の法令に準拠しているとは限りません。
翻訳資源は、特定の自治体による文書から抽出したものであり、他の自治体の文書にそのまま適合するとは限りません。

许可证

本翻訳資源は、クリエイティブ・コモンズ表示4.0 国際 (CC BY 4.0) にしたがってご利用いただけます。

出典表記

名古屋市, 宮田玲（2023）「名古屋市翻訳資源」https://github.com/tr4lg/nagoya-dataset/

搜集汇总

数据集介绍

构建方式

名古屋市翻译资源数据集由名古屋市在行政文书的翻译过程中构建，旨在通过技术手段提升翻译效率。该数据集包括对译文档集、对译句子集和对译术语集三部分，分别于不同时间点公开。其中，对译术语集基于2018年Miyata和Kageura的研究成果，扩展了多语言支持，涵盖了名古屋市组织名、职名、宣传册、指南书、国际交流及复合领域等多个类别。

使用方法

使用名古屋市翻译资源数据集时，用户需注意其内容可能不完全符合当前法律法规，且可能存在误植或不完全的法律描述。数据集采用Creative Commons Attribution 4.0 International (CC BY 4.0)许可，用户在使用时应注明出处。数据集适用于需要多语言翻译支持的自治体，可用于提升翻译质量和效率，但建议在使用前进行充分的内容验证。

背景与挑战

背景概述

名古屋市翻译资源数据集由名古屋市与东京大学合作构建，旨在通过机器翻译等技术提升行政文档的翻译效率。该数据集自2023年起逐步公开，包含对译文档集、对译句子集和对译术语集，涵盖了名古屋市组织名、职名、宣传册、指南及国际交流等多个领域的双语对照资源。其核心研究问题在于如何构建高质量的跨语言翻译资源，以支持地方政府在多语言信息发布中的需求。该数据集的发布不仅为地方政府提供了实用的翻译工具，也为机器翻译和术语学研究提供了重要的数据支持。

当前挑战

名古屋市翻译资源数据集在构建与应用中面临多重挑战。首先，行政文档的翻译需要高度准确性和专业性，尤其是在法律和术语层面，任何误差都可能导致严重的误解或法律问题。其次，由于行政文档的内容随时间变化，数据集需要不断更新以反映最新的法规和政策，这对数据维护提出了较高要求。此外，数据集虽然基于名古屋市的文档构建，但其通用性有限，其他地方政府在使用时需根据自身情况进行调整，增加了应用的复杂性。最后，数据集的构建依赖于人工校对和术语标准化，这一过程耗时且需要领域专家的深度参与，进一步提高了数据集的开发难度。

常用场景

经典使用场景

名古屋市翻译资源数据集在机器翻译和自然语言处理领域具有广泛的应用。该数据集包含了大量的行政文档、句子和术语的对照翻译，为研究人员提供了丰富的语料库，用于训练和评估机器翻译模型。特别是在多语言翻译和跨语言信息检索任务中，该数据集能够显著提升模型的翻译质量和准确性。

解决学术问题

该数据集有效解决了行政文档翻译中的术语一致性和语言规范性问题。通过提供高质量的对照翻译资源，研究人员可以构建更加精确的翻译模型，减少翻译中的歧义和错误。此外，该数据集还为跨语言信息检索和多语言文本生成等研究提供了重要的数据支持，推动了相关领域的技术进步。

实际应用

在实际应用中，名古屋市翻译资源数据集被广泛应用于政府机构的文档翻译和多语言信息发布。通过利用该数据集，政府机构能够快速、准确地翻译各类行政文档，提升信息传播的效率和准确性。此外，该数据集还被用于开发多语言公共服务平台，帮助非母语人士更好地理解和获取政府信息。

数据集最近研究