JaParaPat
收藏arXiv2025-08-22 更新2025-08-26 收录
下载链接:
https://www.jpo.go.jp/saizai/data/download.html
下载链接
链接失效反馈官方服务:
资源简介:
JaParaPat是由NTT Corporation创建的一个大规模的日英平行专利申请语料库,包含超过3000万日英句对,数据来自2000年至2021年间在日本和美国发布的专利申请。数据集内容涵盖了专利申请的标题、摘要、描述和权利要求等部分,通过基于翻译的句子对齐方法进行提取,数据集的创建过程包括从日本专利局(JPO)和美国专利商标局(USPTO)获取未审查的专利申请,以及从欧洲专利局(EPO)的DOCDB数据库获取专利家族信息。JaParaPat旨在解决专利翻译中的质量问题,并用于研究和开发机器翻译技术。
JaParaPat is a large-scale Japanese-English parallel patent application corpus developed by NTT Corporation. It contains over 30 million Japanese-English sentence pairs, with data sourced from patent applications published in Japan and the United States between 2000 and 2021. The corpus covers core sections of patent applications including titles, abstracts, detailed descriptions and claims. It was extracted via translation-based sentence alignment methods. The construction of JaParaPat involves acquiring unexamined patent applications from the Japan Patent Office (JPO) and the United States Patent and Trademark Office (USPTO), as well as patent family information from the DOCDB database of the European Patent Office (EPO). JaParaPat aims to address quality issues in patent translation, and is intended for research and development of machine translation technologies.
提供机构:
NTT Corporation
创建时间:
2025-08-22
搜集汇总
数据集介绍
构建方式
在专利机器翻译领域,构建高质量双语语料库对提升翻译精度至关重要。JaParaPat的构建基于日本专利局(JPO)和美国专利商标局(USPTO)2000至2021年间公布的未审查专利申请文件,通过欧洲专利局(EPO)的DOCDB数据库获取专利族信息以确定互译文档对。采用基于翻译的句子对齐方法,初始翻译模型通过词典对齐方式引导,最终从约140万文档对中提取出3.5亿句对,涵盖标题、摘要、描述和权利要求等完整专利结构。
特点
该数据集的核心特点在于其规模与质量的双重优势。作为目前最大的日英专利平行语料库之一,其句子对数量超过3亿,时间跨度达21年,确保了技术术语的时效性和领域覆盖的全面性。数据严格遵循专利族关联性,保证了原文与译文的对应可靠性;同时采用机器翻译驱动的对齐技术,显著提升了句子对齐精度,相比传统词典对齐方法具有更优的语义一致性。
使用方法
JaParaPat适用于训练和评估专利领域的机器翻译模型。研究者可通过文档ID结构按需提取特定部件(如权利要求或摘要)的句对,构建领域专用翻译系统。数据集提供国际专利分类(IPC)元数据,支持按技术领域划分训练数据。实验表明,结合该语料与网络爬取数据训练,能将专利翻译的BLEU值提升20点,显著增强模型对科技术语和复杂句式的处理能力。
背景与挑战
背景概述
JaParaPat是由日本NTT通信科学实验室于2025年构建的大规模日英平行专利语料库,涵盖2000年至2021年间日本与美国专利局公布的专利申请文件。该语料库包含超过3.5亿句对,通过专利家族关联和基于机器翻译的句子对齐方法构建,显著提升了专利机器翻译的准确性。作为专利机器翻译领域的重要资源,它延续了自2007年NTCIR专利语料库以来的研究传统,并为跨语言专利信息检索与翻译技术提供了数据支撑。
当前挑战
专利翻译面临专业术语一致性、长句结构复杂性等语言学挑战,同时需处理巴黎公约与PCT两种专利申请路径的文档差异。构建过程中需克服多源数据整合难题,包括日本专利厅SGML/XML格式转换、美日专利发布时间差协调,以及基于DOCDB专利家族的跨语言文档对齐。传统词典对齐方法精度不足,需采用翻译模型引导的句子对齐技术提升质量,且需处理数百TB原始数据的高效计算与存储问题。
常用场景
经典使用场景
在专利机器翻译领域,JaParaPat数据集作为大规模日英平行专利语料库,被广泛用于训练和评估神经机器翻译模型。其覆盖2000年至2021年的专利文献,包含标题、摘要、说明书和权利要求书等结构化文本,为跨语言专利信息处理提供了高质量的双语对齐资源。研究者常利用该数据集构建专利专用翻译系统,显著提升技术术语翻译的准确性和一致性。
解决学术问题
JaParaPat有效解决了专利机器翻译中训练数据稀缺和质量不均的学术难题。通过整合巴黎公约和PCT途径的专利文献,并采用基于机器翻译的句子对齐方法,该数据集将专利翻译的BLEU分数提升了20点。其贡献在于证明了大规模领域专用语料对低资源语言对翻译性能的显著增益,推动了跨语言专利检索和知识挖掘研究的发展。
衍生相关工作
JaParaPat衍生了多项专利计算语言学经典研究,例如基于该数据训练的Transformer大模型在WAT研讨会专利翻译任务中取得突破性表现。其对齐方法论被EuroPat等后续语料库采纳,推动了跨语言专利家族关联分析技术的发展。相关研究还拓展至专利质量自动评估、技术趋势预测等领域,形成专利计算研究的完整生态链。
以上内容由遇见数据集搜集并总结生成



