UPRPRC: UNIFIED PIPELINE FOR REPRODUCING PARALLEL RESOURCES -CORPUS FROM THE UNITED NATIONS
收藏arXiv2025-09-19 更新2025-09-23 收录
下载链接:
https://github.com/mnbvc-parallel-corpus-team/UPRPRC/
下载链接
链接失效反馈官方服务:
资源简介:
UPRPRC是一个全新的、大规模的联合国平行语料库,由中山大学的研究团队创建,旨在解决多语言数据集质量和可访问性问题。该语料库包含超过7.13亿个英文词汇,是目前为止最大的公开可用平行语料库,完全由人工翻译,非AI生成。该语料库是通过一个完全透明的可扩展工作流程构建的,包括数据抓取、文档转换、高性能文本对齐等步骤。该语料库采用了一种灵活的M-N对齐方法,在段落级别上进行任意多对多合并和分割。该语料库旨在支持机器翻译系统的研究和评估,促进多语言信息交流。
UPRPRC is a novel, large-scale United Nations parallel corpus created by the research team from Sun Yat-sen University, aiming to address the issues of multilingual dataset quality and accessibility. This corpus contains over 713 million English words, making it the largest publicly available parallel corpus to date, with all translations completed entirely manually rather than AI-generated. It is constructed through a fully transparent and scalable workflow, including steps such as data scraping, document conversion, high-performance text alignment, etc. This corpus adopts a flexible M-N alignment method, enabling arbitrary many-to-many merging and segmentation at the paragraph level. It is designed to support research and evaluation of machine translation systems, and promote multilingual information exchange.
提供机构:
中山大学(Sun Yat-sen University)
创建时间:
2025-09-19
搜集汇总
数据集介绍

构建方式
在机器翻译研究领域,高质量多语言数据集的构建对技术发展具有关键意义。UPRPRC数据集通过系统化流程从联合国数字图书馆采集原始文档,采用网络爬虫技术获取官方文件系统中的多语言文本资源。数据处理阶段运用文档格式转换工具将原始DOC文件统一转为DOCX格式,并通过Pandoc工具提取纯文本内容。针对表格结构的复杂性,开发了专门的规范化处理流程,通过模式识别和字符宽度计算实现表格内容的扁平化转换。核心对齐环节创新性地提出图辅助段落对齐算法,基于最长公共子序列检测和二分图连通子图识别,实现跨语言段落的灵活多对多映射。
特点
该数据集最显著的特征在于其规模与质量的双重优势。作为目前公开的最大规模人工翻译平行语料库,涵盖联合国六种官方语言的71.3亿英语词符,时间跨度覆盖2000至2023年最新文档。其创新性体现在段落级对齐粒度,突破传统句子对齐的局限,支持任意多对多的段落映射关系。数据结构设计具有多层次特性,提供文件级、双语段落级和全语言段落块级三种粒度,分别采用JSONL格式和文本格式存储。独特的LCS命中率指标为对齐质量提供量化依据,通过阈值控制实现噪声过滤与内容完整性的平衡。所有数据均经过严格验证确保不含AI生成内容,为机器翻译模型训练提供纯净数据源。
使用方法
研究者可通过Hugging Face平台直接获取预处理完成的多粒度语料数据。文件级数据适用于文档级机器翻译任务,JSONL格式便于流式读取与分布式处理。双语段落级语料支持基于段落上下文的翻译模型训练,每个语言对独立发布并附带对齐质量评分。全语言段落块级数据为多语言联合训练提供支持,通过最大连通分量算法确保多语言对齐一致性。使用过程中可依据LCS命中率阈值筛选高质量对齐片段,结合提供的分布式计算脚本实现大规模数据处理。该数据集特别适合用于训练需要长上下文依赖的神经机器翻译模型,以及进行多语言语言模型的跨语言迁移研究。开源工具链支持用户复现完整处理流程,并可扩展至其他国际组织文档的自动化处理。
背景与挑战
背景概述
联合国作为全球多边外交的核心平台,其官方文件以六种工作语言同步发布,为构建高质量平行语料库提供了独特资源。UPRPRC语料库由MNBVC团队于2025年提出,旨在突破传统联合国文档语料在规模、可复现性和对齐粒度上的局限。该数据集覆盖2000至2023年间16万余份文档,英语词符规模达7.13亿,成为目前已知规模最大且经人工翻译验证的非AI生成平行语料。其创新性地采用段落级对齐架构,为机器翻译模型训练提供了更贴近真实语境的语料支持。
当前挑战
在解决多语言对齐问题时,传统句子对齐方法难以处理段落间非对称映射关系,例如源语言单个段落对应目标语言多个段落的分裂现象。构建过程中面临文档格式异构性挑战,需应对DOC/PDF混合存储、表格结构解析以及动态API接口变更等问题。此外,基于最长公共子序列的图对齐算法需克服高频词噪声干扰,通过设定LCS命中率阈值平衡对齐精度与语料完整性,而大规模语料处理还需优化分布式计算框架以提升效率。
常用场景
经典使用场景
在机器翻译研究领域,UPRPRC数据集作为联合国多语言文档构建的大规模平行语料库,其最经典的应用场景在于为神经机器翻译模型提供高质量的训练与评估基准。该数据集通过段落级别的图辅助对齐算法,有效解决了传统句子对齐在长文档翻译中的信息割裂问题,使研究人员能够构建更连贯的多语言表示系统。其覆盖六种官方语言的特性,为跨语言语义对齐研究提供了天然实验平台。
解决学术问题
该数据集显著缓解了多语言自然语言处理中的核心挑战:其一,通过全人工翻译内容避免了AI生成数据的循环依赖问题,为翻译质量评估提供了纯净基准;其二,段落级M-N对齐机制突破了传统4-4句子对齐的局限性,支持任意多对多映射,有效建模了语言间非对称的语义单元对应关系;其三,开源管道设计解决了以往联合国语料重建困难的问题,推动了可复现性研究。
衍生相关工作
基于该数据集衍生的经典工作包括多语言大语言模型的预训练优化,如Shen等人提出的多向平行语料对齐框架显著提升了跨语言表示学习效果。在算法层面,GAPA启发了后续基于图神经网络的段落对齐研究,如Imani团队将二分图匹配扩展至多语言场景。此外,该数据集还催生了联合国文档结构化解析的新范式,推动了如表格语义重建等细分领域的技术突破。
以上内容由遇见数据集搜集并总结生成



