DocHPLTv2

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/bhaddow/DocHPLTv2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多语言平行文档对齐语料库，包含三个语言对配置：英语-冰岛语（en-is）、英语-挪威博克马尔语（en-nb）和英语-塞尔维亚语（en-sr）。每个样本代表一对对齐的源文档和目标文档，文档内容以句子序列形式存储。数据集核心特征在于提供句子级别的跨语言对齐信息，每个对齐关系包含源语言句子ID列表、目标语言句子ID列表以及三个对齐质量评分（aligner-score、bicleaner-score、bifixer-score）。数据规模方面，en-is包含1,158,678个样本（约12.9GB），en-nb包含5,912,194个样本（约60.1GB），en-sr包含1,183,856个样本（约22.8GB）。该数据集适用于机器翻译训练、跨语言信息检索、双语词典构建等自然语言处理任务，特别适合需要文档级对齐和句子级对齐质量评估的研究与应用。

创建时间：

2026-05-15

原始信息汇总

基于您提供的数据集详情页面README文件内容，以下是该数据集的概述：

数据集名称

DocHPLTv2

数据集简介

DocHPLTv2是一个多语言文档级平行语料数据集，包含从英语到四种目标语言（冰岛语、书面挪威语、阿尔巴尼亚语、塞尔维亚语）的文档对齐数据。数据集仅提供训练集，每个语言对都包含文档级别的句子对齐及多种对齐质量分数。

数据集配置与规模

该数据集包含四个配置（config），每个配置针对一个语言对，具体信息如下：

配置名称	语言对	训练集样本数	训练集大小	下载大小
en-is	英语-冰岛语	1,158,678	12,913,926,682 字节	4,635,402,415 字节
en-nb	英语-书面挪威语	5,912,194	60,122,677,822 字节	22,943,999,955 字节
en-sq	英语-阿尔巴尼亚语	1,199,258	11,797,629,239 字节	4,948,702,354 字节
en-sr	英语-塞尔维亚语	1,183,856	22,767,545,023 字节	9,083,878,827 字节

数据特征

每个配置的数据集包含以下字段：

src_doc_id (string): 源文档的唯一标识符
tgt_doc_id (string): 目标文档的唯一标识符
lang_pair (string): 语言对标识
src_doc (struct): 源文档内容，包含：
- ids (sequence of string): 句子ID序列
- sentences (sequence of string): 句子文本序列
tgt_doc (struct): 目标文档内容，包含：
- ids (sequence of string): 句子ID序列
- sentences (sequence of string): 句子文本序列
alignment (list): 句子级对齐信息，每条对齐记录包含：
- src (list of string): 源句子列表
- tgt (list of string): 目标句子列表
- aligner-score (float32): 对齐器分数
- bicleaner-score (float32): Bicleaner分数
- bifixer-score (float32): Bifixer分数

数据文件

所有数据文件以Parquet格式存储，每个配置的训练集数据文件路径为：{语言对}/train-*。例如，英语-冰岛语的数据文件路径为en-is/train-*。

搜集汇总

数据集介绍

构建方式

DocHPLTv2数据集源于大规模网络爬取语料的深度加工，旨在为低资源语言对提供高质量的平行文档级语料。该数据集覆盖英语与冰岛语、挪威语、阿尔巴尼亚语及塞尔维亚语四种语言对，其构建过程依托先进的文档对齐技术。原始网页文本经过语种识别、文档分割后，利用跨语言文档嵌入模型实现源语言与目标语言文档的匹配，再经由HPLT管道进行句子级对齐与清洗。每一对平行文档均附带了由aligner、bicleaner及bifixer等工具生成的置信度评分，以量化对齐质量，确保语料的纯净度和可用性。

特点

DocHPLTv2最具特色的价值在于其文档粒度的对齐结构以及多维度的质量评估机制。不同于传统的句子级平行语料，该数据集保留了完整的文档上下文，每条记录包含源语言与目标语言文档中所有句子的ID和文本序列，以及深入的句子对齐信息。每个对齐单元不仅标注了源句与目标句的对应关系，还整合了aligner-score、bicleaner-score与bifixer-score三重评分指标，为用户提供了从不同算法视角评估对齐可靠性的丰富依据。数据覆盖四种语言对，训练集规模从百万级到近六百万句对不等，为机器翻译模型的鲁棒训练奠定了坚实基础。

使用方法

使用DocHPLTv2时，研究者可依据具体研究需求灵活选择语言配置与数据分割。数据集在HuggingFace上以config_name（如'en-is'）区分不同语言对，每个配置下仅提供'train'划分，适合直接加载用于模型训练或作为预训练语料的微调基础。用户可依赖内嵌的alignment字段提取句子级平行片段，或直接利用src_doc与tgt_doc中的完整文档序列进行文档级翻译建模。根据bicleaner-score等质量指标设置阈值进行数据过滤，能够有效剔除低质量对齐，从而定制出符合特定精度要求的高质量子集。

背景与挑战

背景概述

DocHPLTv2数据集诞生于机器翻译与跨语言自然语言处理领域对高质量、大规模文档级平行语料库的迫切需求之中。该数据集由HPLT（High Performance Language Technologies）项目团队构建，旨在为低资源及中资源语言对提供丰富的文档对齐训练资源。其发布集中在2023年至2024年间，核心研究问题在于如何通过大规模文档级别的平行数据，提升神经机器翻译模型在长文本、篇章连贯性以及跨语言语义保留方面的表现。数据集目前囊括了英语与冰岛语、挪威语、阿尔巴尼亚语、塞尔维亚语等多组语言对，每条数据不仅包含句子级别的对齐，还保留了文档结构、对齐分数及多种质量评分信息，为学术界和工业界在文档翻译、多语言信息检索以及跨语言自然语言理解等任务上奠定了坚实的数据基础，显著推动了低资源语言翻译技术的发展。

当前挑战

该数据集所应对的首要挑战是领域内低资源语言对（如冰岛语、阿尔巴尼亚语）机器翻译质量提升的难题，这些语言因公开可用的平行语料稀缺，传统模型常面临数据稀疏与过拟合问题，DocHPLTv2通过提供大规模文档级对齐数据，为缓解这一瓶颈提供了新的解决路径。构建过程中的挑战同样艰巨：首先，从异构网络来源抓取并筛选出高质量、语义一致的文档对需要克服噪声数据与领域偏差；其次，设计多层级对齐方案（句子级、文档级）并融合aligner-score、bicleaner-score、bifixer-score等多种自动质量评分以过滤低质量匹配，要求精细的算法调优；此外，确保不同语言对间数据规模与质量的一致性，避免训练偏差，亦是数据构建时必须平衡的关键难点。

常用场景

经典使用场景

在机器翻译与跨语言自然语言处理领域，DocHPLTv2数据集以其大规模的文档级平行语料库著称，覆盖英语与冰岛语、书面挪威语、阿尔巴尼亚语、塞尔维亚语等低资源语言。该数据集的核心价值在于提供经过多重质量评分（如对齐分数、Bicleaner与Bifixer评分）的句子级与文档级对齐数据，使其成为训练鲁棒性强、上下文敏感的神经机器翻译模型的首选资源。研究者可基于其丰富的对齐信息，微调预训练语言模型，尤其在文档级翻译任务中捕捉跨句一致性。此外，其结构化特征支持跨句子上下文建模，助力探索篇章翻译中的代词指代、词汇连贯性等复杂现象。

实际应用

在实际部署中，DocHPLTv2广泛应用于多语言翻译系统的构建与优化，特别服务于政府部门、国际组织及文化传播机构对北欧、巴尔干地区语言的精准翻译需求。通过利用该数据集的文档级对齐特性，可以开发出既能保持术语一致性又能理解语境的专业翻译工具，例如在挪威语法律文件或冰岛语文学作品的自动翻译中显著提升可读性。此外，其结构化的句子索引与评分信息便于集成到企业级工作流中，用于数据清洗、平行语料库建设，以及辅助人工翻译进行语篇校对。在跨语言信息检索任务中，如阿尔巴尼亚语新闻的英文摘要生成，该数据集也彰显了提升内容对齐准确度的实用价值。

衍生相关工作

DocHPLTv2的出现衍生了一系列聚焦于低资源语言文档翻译与对齐算法改进的经典工作。研究者基于其提供的对齐分数，开发了新型混合式数据过滤流程，显著降低了噪声平行句对的比例。部分工作利用该数据集的文档结构，提出了面向篇章的Transformer变体架构，通过改进注意力机制捕获跨句单元间的交互依赖。此外，以该数据集为基准，学术界建立了一套文档级翻译评估协议，催生了如Doc-MT相关的评测任务，并推动了跨句子一致性增强的对比学习方法。这些衍生研究不仅提升了翻译系统的语篇连贯性，也为低资源语料库建设领域引入了可复现的标准化范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集