DocHPLT

Name: DocHPLT
Creator: 爱丁堡大学，赫尔辛基大学
Published: 2025-08-19 00:52:18
License: 暂无描述

arXiv2025-08-19 更新2025-08-22 收录

下载链接：

https://opus.nlp.mats.nim

下载链接

链接失效反馈

官方服务：

资源简介：

DocHPLT是一个大规模的多语言文档级翻译数据集，包含50种语言与英语的124百万对齐文档，共计42.6亿句子。该数据集注重包括中低资源语言，为全球社区提供了文档级翻译和长上下文建模的必要资源。DocHPLT采用了文档优先的方法，保留了文档的完整结构和未对齐部分，为研究文档级翻译提供了丰富且真实的数据环境。

DocHPLT is a large-scale multilingual document-level translation dataset, which contains 124 million aligned document pairs between 50 languages and English, totaling 4.26 billion sentences. This dataset prioritizes low- and mid-resource languages, providing the global community with essential resources for document-level translation and long-context modeling. DocHPLT adopts a document-first approach, preserving the complete structure and unaligned segments of documents, thus creating a rich and realistic data environment for document-level translation research.

提供机构：

爱丁堡大学，赫尔辛基大学

创建时间：

2025-08-19

搜集汇总

数据集介绍

构建方式

在文档级机器翻译资源稀缺的背景下，DocHPLT通过创新性地改造ParaCrawl平行句对提取流程，采用文档优先策略构建。该方法基于HPLT语料库的15TB多语言网络文档，修改原有流水线以在文档对齐阶段保留完整文档结构，而非事后重组句对。通过XML结构化表示保留段落与句子层级标识，并实施内容去重策略，确保每个URL仅保留唯一文档版本，同时维护非对齐文本以提供丰富上下文。

使用方法

该数据集适用于文档级机器翻译模型训练与评估，尤其适合长上下文大语言模型的微调。使用者可依据句子级BLEUalign、Bicleaner评分及对齐密度指标过滤数据，确保训练质量。实验表明采用10句块训练策略能优化模型性能，完整文档到文档的翻译需结合上下文窗口调整。数据集支持单语与多语微调场景，并为跨语言迁移研究提供基础，可通过标准化cesAlign XML格式集成至现有处理流程。

背景与挑战

背景概述

DocHPLT数据集由爱丁堡大学和赫尔辛基大学的研究团队于2025年创建，旨在解决文档级机器翻译领域长期存在的数据稀缺问题。该数据集包含50种语言与英语配对的1.24亿个对齐文档对，总规模达42.6亿句子，显著扩展了传统句级翻译资源的覆盖范围。其创新性在于采用文档优先的构建方法，直接从网络爬虫中保留完整文档结构，包括未对齐文本段落，为长上下文建模和多语言文档翻译研究提供了关键基础设施。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，需解决文档级翻译中的指代消解、语篇连贯性和跨句语境依赖等复杂语言现象，这些现象在句级翻译中常被忽略；在构建技术层面，需克服网络源数据中完整文档对齐稀缺的问题，避免传统重构方法导致的文档碎片化，同时处理多语言文档长度差异、对齐密度波动以及低资源语言数据质量不均等工程难题。

常用场景

经典使用场景

在机器翻译研究领域，DocHPLT数据集被广泛应用于文档级神经机器翻译模型的训练与评估。该数据集通过保留完整的文档结构与未对齐文本，为模型提供了丰富的上下文信息，使其能够有效处理指代消解、省略恢复等语篇现象。研究者通常利用其大规模多语言特性，在不同语言对上微调大语言模型，以提升长文本翻译的连贯性与准确性。

解决学术问题

DocHPLT解决了文档级机器翻译研究中长期存在的数据稀缺问题，特别是中低资源语言的语篇对齐资源匮乏。该数据集通过提供1.24亿个跨50种语言的文档对齐对，支持了对长上下文建模、跨语言语篇一致性等核心问题的探索。其创新的文档优先构建方法避免了传统重构策略的信息丢失，为评估模型在真实场景中的上下文利用能力提供了标准化基础。

实际应用

该数据集的实际价值体现在多语言全球化内容本地化场景中，例如技术文档、新闻文章和网页内容的跨语言翻译。企业可利用其训练定制化翻译系统，确保长文档的术语一致性和风格统一性。对于资源稀缺语言（如冰岛语、马拉雅拉姆语），DocHPLT显著提升了商用翻译系统的可用性，支持跨文化信息传播与数字包容性建设。

数据集最近研究