MT-HPLT2c

Hugging Face2025-11-23 更新2025-11-24 收录

下载链接：

https://huggingface.co/datasets/MultiSynt/MT-HPLT2c

下载链接

链接失效反馈

官方服务：

资源简介：

MT-HPLT2c是一个大规模的机器翻译文本数据集，它是HPLT2-clean的机器翻译版本，用于跨语言大型语言模型的预训练实验。该数据集包括从英语翻译成德语、芬兰语、西班牙语和瑞典语四种语言的翻译文本，每种语言都分为全部数据、对齐文档的子集和额外文档三个部分。

创建时间：

2025-11-22

原始信息汇总

MT-HPLT2c 数据集概述

数据集基本信息

数据集名称：MT-HPLT2c: Machine-Translated HPLT2-clean - 4 languages, 100B tokens each
任务类别：文本生成
支持语言：英语(en)、德语(de)、芬兰语(fi)、西班牙语(es)、瑞典语(sv)
许可证：CC0-1.0
数据规模：100M<n<1B
标签：翻译、翻译数据、通用、爬取、hplt、平行语料、对齐、多语言

数据集描述

MT-HPLT2c是一个大规模机器翻译版本的HPLT-2 clean数据集，用于研究基于翻译数据的LLM训练。从英语源文本提供了4种目标语言的翻译：德语(deu_Latn)、芬兰语(fin_Latn)、西班牙语(spa_Latn)、瑞典语(swe_Latn)。

数据配置

默认配置 (all)

tower9b分割：包含所有4种语言的平行数据和附加数据

语言特定配置

eng_Latn：英语源数据
- all：全部数据
- parallel：平行数据
- additional：附加数据
deu_Latn/fin_Latn/spa_Latn/swe_Latn：各目标语言
- tower9b_all：全部数据
- tower9b_parallel：平行数据
- tower9b_additional：附加数据

数据统计

全部数据

语言	文档数	磁盘大小	词元数
eng_Latn	137,136,172	202G	N/A
deu_Latn	127,524,851	158G	102B
fin_Latn	121,517,689	142G	120B
spa_Latn	127,673,177	152G	98B
swe_Latn	124,483,030	139G	104B

平行数据

语言	文档数	磁盘大小	词元数
eng_Latn	115,082,738	132G	N/A
deu_Latn	115,082,738	142G	92B
fin_Latn	115,082,738	134G	114B
spa_Latn	115,082,738	137G	88B
swe_Latn	115,082,738	131G	96B

附加数据

语言	文档数	磁盘大小	词元数
eng_Latn	22,053,434	70G	N/A
deu_Latn	12,442,113	16G	10B
fin_Latn	6,434,951	8G	6B
spa_Latn	12,590,439	15G	10B
swe_Latn	9,400,292	11G	8B

数据字段

id (字符串)：来自HPLT-2的文档标识符
text (字符串)：文档文本（英语为原始文本，其他语言为翻译文本）
tokens (int64)：翻译数据的完成词元计数（英语源数据缺失此字段）

翻译模型

使用Unbabel/Tower-Plus-9B模型生成翻译，在翻译质量和吞吐量之间提供了良好的平衡。

许可证

本数据集继承HPLT-2数据集的许可证，采用CC0-1.0许可证。

引用

如需使用本数据集，请引用上游HPLT-2数据集、Tower+系列模型和本数据集仓库。

搜集汇总

数据集介绍

构建方式

在跨语言自然语言处理研究领域，MT-HPLT2c数据集通过系统性机器翻译流程构建而成。该数据集以HPLT-2清洗版英文语料为源数据，采用Tower-Plus-9B多语言翻译模型进行规模化转换，在保证译文质量与处理效率间取得平衡。构建过程中通过哈希分桶技术对原始文档进行抽样，形成包含1.15亿对齐文档的平行语料库，并保留约2200万补充文档以增强语言覆盖度。

特点

该数据集最显著的特征在于其多维度语言资源架构，涵盖德语、芬兰语、西班牙语和瑞典语四种目标语言，每种语言均提供超过百亿标记规模的文本数据。数据组织采用三层分级结构：完整集包含全部翻译文档，平行集确保跨语言文档索引严格对齐，补充集则收录非对称分布的语言材料。这种设计既保持了跨语言一致性，又通过差异化内容丰富了语言表征的多样性。

使用方法

研究者可通过HuggingFace数据集的标准化接口加载该资源，按语言配置和分割类型灵活提取所需语料。平行集适用于需要严格对齐数据的跨语言模型训练，完整集支持单语言大规模预训练任务，补充集则可用于数据增强研究。数据集采用Parquet格式存储并配备完整元数据，支持直接接入主流深度学习框架进行端到端的多语言自然语言处理实验。

背景与挑战

背景概述

随着多语言自然语言处理技术的迅猛发展，大规模跨语言数据资源成为推动大语言模型泛化能力的关键要素。MT-HPLT2c数据集由MultiSynt团队于2025年基于HPLT-2清洗版语料构建，通过Tower-Plus-9B模型对英语源文本进行机器翻译，覆盖德语、芬兰语、西班牙语和瑞典语四种目标语言。该数据集通过提供超百亿词符规模的平行语料与补充语料，致力于解决低资源语言在预训练数据稀缺性方面的核心问题，为跨语言语义表示研究与多语言大模型训练奠定了重要基础。

当前挑战

构建多语言机器翻译数据集面临双重挑战：在领域问题层面，需克服低资源语言因训练样本不足导致的语义偏移与语法结构失配问题，同时保证翻译文本在文化语境与术语一致性上的可靠性；在技术实现层面，数据清洗过程中需处理网络原始语料的噪声干扰与格式异构性，而大规模语料的高质量对齐要求复杂的文档标识匹配机制与分布式计算架构支持，此外还需平衡翻译模型的生成效率与语义保真度之间的张力。

常用场景

经典使用场景

在跨语言自然语言处理研究中，MT-HPLT2c数据集为多语言大语言模型预训练提供了关键支撑。该数据集通过Tower-Plus-9B模型将英语原文精准转化为德语、芬兰语、西班牙语和瑞典语平行语料，其文档对齐特性使得研究者能够构建包含1.15亿对齐文档的多语言训练集。这种大规模机器翻译数据特别适用于探索低资源语言场景下的模型泛化能力，为跨语言语义表示学习奠定了坚实基础。

衍生相关工作

该数据集已催生系列重要研究成果，特别是在跨语言预训练架构创新方面。基于其平行语料特性，研究者开发出新型多语言注意力机制，显著提升低资源语言理解性能。在机器翻译领域，该数据集支撑了多语言解码器的优化研究，衍生出兼顾通用性与专业性的混合训练范式。相关工作还推动了翻译质量自动评估指标的发展，为大规模翻译数据应用建立了标准化评估体系。

数据集最近研究