JParaCrawl Chinese v2.0
收藏arXiv2024-05-15 更新2024-06-21 收录
下载链接:
https://www.kecl.ntt.co.jp/icl/lirg/jparacrawl/
下载链接
链接失效反馈官方服务:
资源简介:
JParaCrawl Chinese v2.0是由NTT通信科学实验室和NTT公司创建的中日平行语料库,包含4.6M句对。该数据集通过众包方式从双语网站中收集URL,并利用中日双语词典进行文档和句子对齐。数据集内容丰富,涵盖多个领域,适用于机器翻译和语言模型训练。创建过程中,采用了统计语言模型和词翻译概率进行平行语料过滤,确保数据质量。该数据集主要用于解决中日语言间的翻译问题,提高机器翻译的准确性和效率。
JParaCrawl Chinese v2.0 is a Sino-Japanese parallel corpus created by NTT Communication Science Laboratories and NTT Corporation, containing 4.6 million sentence pairs. This dataset collects URLs from bilingual websites via crowdsourcing, and performs document and sentence alignment using Chinese-Japanese bilingual dictionaries. It features rich content covering multiple domains, and is suitable for machine translation and language model training. During its creation, statistical language models and word translation probabilities were used to filter the parallel corpus to ensure data quality. This dataset is mainly intended to resolve translation issues between Chinese and Japanese, and improve the accuracy and efficiency of machine translation.
提供机构:
NTT通信科学实验室,NTT公司
创建时间:
2024-05-15
搜集汇总
数据集介绍

构建方式
在日汉平行语料库构建领域,JParaCrawl Chinese v2.0采用了众包与层级化网络挖掘相结合的创新方法。研究团队通过众包平台收集了超过一万个包含平行文档的双语网站URL对,随后利用Heritrix工具对这些网站进行深度爬取,获取原始网页与文档数据。在文档与句子对齐阶段,该数据集摒弃了传统的机器翻译方法,转而依赖一个包含约16万词对的日汉双语词典,结合HTML结构特征计算文档相似度,并运用Hunalign工具进行句子级对齐。最后,基于统计语言模型与词翻译概率训练的Bicleaner过滤器对初步对齐结果进行净化,筛选出质量较高的平行句对,最终形成了包含460万句对的精炼语料库。
特点
该数据集在日汉平行语料资源中展现出显著的高质量与高效性特征。相较于通过Common Crawl进行全局网络挖掘获取的语料,众包收集的网站其平行句对提取成功率高达74.5%,远超后者的27.2%。尽管其规模仅为同类大型语料库CCMatrix的三分之一,但在机器翻译实验中,基于该数据集训练的模型在翻译准确度上与之表现相当,尤其在日译中任务上更具优势。这揭示了众包来源的语料在内容质量与对齐精度上的优越性,同时其构建过程最大限度地减少了对额外语言资源的依赖,体现了资源利用的高效性。
使用方法
JParaCrawl Chinese v2.0作为研究用途的开放资源,主要服务于机器翻译模型的训练与评估。研究者可直接下载该平行句对集合,用于训练神经机器翻译系统,如基于Transformer架构的模型,以提升日汉互译的性能。在具体应用中,该语料可作为训练数据的一部分,与其他公开语料如CCMatrix、WikiMatrix等进行结合,以增加数据的多样性与覆盖面。此外,其高质量的对齐结果也可用于评估其他对齐算法的性能,或作为双语词典扩展、跨语言预训练等任务的基准数据。在使用时,需遵循其研究用途的许可协议,并注意结合具体任务的需求进行适当的数据清洗与划分。
背景与挑战
背景概述
在机器翻译领域,日汉双语平行语料库的构建对于提升翻译模型的性能至关重要。JParaCrawl Chinese v2.0由日本NTT通信科学实验室的研究团队于2024年发布,旨在通过众包方式从互联网挖掘高质量的日汉平行句对。该数据集包含约460万句对,其核心研究问题聚焦于利用众包策略高效收集网络中的平行文档,以弥补传统自动挖掘方法在质量和效率上的不足。相较于CCMatrix等大规模语料库,JParaCrawl Chinese v2.0以更小的数据规模实现了可比的翻译精度,为资源受限语言对的机器翻译研究提供了新的数据支持,推动了跨语言自然语言处理技术的发展。
当前挑战
构建JParaCrawl Chinese v2.0面临的主要挑战包括两方面:在领域问题层面,日汉机器翻译长期受限于高质量平行数据的稀缺性,现有语料库如ASPEC和JPO-NICT虽具规模,但领域特定性强,难以覆盖通用翻译场景,导致模型泛化能力不足;在构建过程层面,众包收集需克服网络文档的噪声干扰、语言对齐的复杂性以及计算资源的高消耗,例如文档与句子对齐依赖双语词典,而过滤低质量句对则需设计高效的统计模型,这些步骤均对数据纯净度与处理效率提出了严峻考验。
常用场景
经典使用场景
在机器翻译领域,尤其是针对日语和汉语这一重要语言对的研究中,JParaCrawl Chinese v2.0数据集常被用于训练和评估神经机器翻译模型。该数据集通过众包方式从网页中挖掘出460万句对,其高质量平行文本为翻译系统提供了丰富的训练素材,有效支撑了从传统编码器-解码器架构到基于大语言模型的翻译方法的发展。
实际应用
在实际应用中,JParaCrawl Chinese v2.0被广泛集成于商业翻译系统、跨语言信息检索平台以及多语言内容生成工具中。其高质量的句对支持了日语和汉语之间的实时翻译服务,尤其在电子商务、文化交流和学术出版等领域发挥了关键作用,助力打破语言障碍,提升信息传播效率。
衍生相关工作
该数据集的发布催生了一系列经典研究工作,例如基于该语料训练的ALMA模型,通过精细调优实现了与小参数大语言模型媲美的翻译性能。同时,它也为CCMatrix等全球网页挖掘项目提供了对比基准,推动了Bicleaner等平行语料过滤工具的优化,并在多语言嵌入模型如LaBSE的评估中扮演重要角色。
以上内容由遇见数据集搜集并总结生成



