five

MT-HPLT2c

收藏
Hugging Face2025-11-23 更新2025-11-24 收录
下载链接:
https://huggingface.co/datasets/MultiSynt/MT-HPLT2c
下载链接
链接失效反馈
官方服务:
资源简介:
MT-HPLT2c是一个大规模的机器翻译文本数据集,它是HPLT2-clean的机器翻译版本,用于跨语言大型语言模型的预训练实验。该数据集包括从英语翻译成德语、芬兰语、西班牙语和瑞典语四种语言的翻译文本,每种语言都分为全部数据、对齐文档的子集和额外文档三个部分。
创建时间:
2025-11-22
原始信息汇总

MT-HPLT2c 数据集概述

数据集基本信息

  • 数据集名称:MT-HPLT2c: Machine-Translated HPLT2-clean - 4 languages, 100B tokens each
  • 任务类别:文本生成
  • 支持语言:英语(en)、德语(de)、芬兰语(fi)、西班牙语(es)、瑞典语(sv)
  • 许可证:CC0-1.0
  • 数据规模:100M<n<1B
  • 标签:翻译、翻译数据、通用、爬取、hplt、平行语料、对齐、多语言

数据集描述

MT-HPLT2c是一个大规模机器翻译版本的HPLT-2 clean数据集,用于研究基于翻译数据的LLM训练。从英语源文本提供了4种目标语言的翻译:德语(deu_Latn)、芬兰语(fin_Latn)、西班牙语(spa_Latn)、瑞典语(swe_Latn)。

数据配置

默认配置 (all)

  • tower9b分割:包含所有4种语言的平行数据和附加数据

语言特定配置

  • eng_Latn:英语源数据

    • all:全部数据
    • parallel:平行数据
    • additional:附加数据
  • deu_Latn/fin_Latn/spa_Latn/swe_Latn:各目标语言

    • tower9b_all:全部数据
    • tower9b_parallel:平行数据
    • tower9b_additional:附加数据

数据统计

全部数据

语言 文档数 磁盘大小 词元数
eng_Latn 137,136,172 202G N/A
deu_Latn 127,524,851 158G 102B
fin_Latn 121,517,689 142G 120B
spa_Latn 127,673,177 152G 98B
swe_Latn 124,483,030 139G 104B

平行数据

语言 文档数 磁盘大小 词元数
eng_Latn 115,082,738 132G N/A
deu_Latn 115,082,738 142G 92B
fin_Latn 115,082,738 134G 114B
spa_Latn 115,082,738 137G 88B
swe_Latn 115,082,738 131G 96B

附加数据

语言 文档数 磁盘大小 词元数
eng_Latn 22,053,434 70G N/A
deu_Latn 12,442,113 16G 10B
fin_Latn 6,434,951 8G 6B
spa_Latn 12,590,439 15G 10B
swe_Latn 9,400,292 11G 8B

数据字段

  • id (字符串):来自HPLT-2的文档标识符
  • text (字符串):文档文本(英语为原始文本,其他语言为翻译文本)
  • tokens (int64):翻译数据的完成词元计数(英语源数据缺失此字段)

翻译模型

使用Unbabel/Tower-Plus-9B模型生成翻译,在翻译质量和吞吐量之间提供了良好的平衡。

许可证

本数据集继承HPLT-2数据集的许可证,采用CC0-1.0许可证。

引用

如需使用本数据集,请引用上游HPLT-2数据集、Tower+系列模型和本数据集仓库。

搜集汇总
数据集介绍
main_image_url
构建方式
在跨语言自然语言处理研究领域,MT-HPLT2c数据集通过系统性机器翻译流程构建而成。该数据集以HPLT-2清洗版英文语料为源数据,采用Tower-Plus-9B多语言翻译模型进行规模化转换,在保证译文质量与处理效率间取得平衡。构建过程中通过哈希分桶技术对原始文档进行抽样,形成包含1.15亿对齐文档的平行语料库,并保留约2200万补充文档以增强语言覆盖度。
特点
该数据集最显著的特征在于其多维度语言资源架构,涵盖德语、芬兰语、西班牙语和瑞典语四种目标语言,每种语言均提供超过百亿标记规模的文本数据。数据组织采用三层分级结构:完整集包含全部翻译文档,平行集确保跨语言文档索引严格对齐,补充集则收录非对称分布的语言材料。这种设计既保持了跨语言一致性,又通过差异化内容丰富了语言表征的多样性。
使用方法
研究者可通过HuggingFace数据集的标准化接口加载该资源,按语言配置和分割类型灵活提取所需语料。平行集适用于需要严格对齐数据的跨语言模型训练,完整集支持单语言大规模预训练任务,补充集则可用于数据增强研究。数据集采用Parquet格式存储并配备完整元数据,支持直接接入主流深度学习框架进行端到端的多语言自然语言处理实验。
背景与挑战
背景概述
随着多语言自然语言处理技术的迅猛发展,大规模跨语言数据资源成为推动大语言模型泛化能力的关键要素。MT-HPLT2c数据集由MultiSynt团队于2025年基于HPLT-2清洗版语料构建,通过Tower-Plus-9B模型对英语源文本进行机器翻译,覆盖德语、芬兰语、西班牙语和瑞典语四种目标语言。该数据集通过提供超百亿词符规模的平行语料与补充语料,致力于解决低资源语言在预训练数据稀缺性方面的核心问题,为跨语言语义表示研究与多语言大模型训练奠定了重要基础。
当前挑战
构建多语言机器翻译数据集面临双重挑战:在领域问题层面,需克服低资源语言因训练样本不足导致的语义偏移与语法结构失配问题,同时保证翻译文本在文化语境与术语一致性上的可靠性;在技术实现层面,数据清洗过程中需处理网络原始语料的噪声干扰与格式异构性,而大规模语料的高质量对齐要求复杂的文档标识匹配机制与分布式计算架构支持,此外还需平衡翻译模型的生成效率与语义保真度之间的张力。
常用场景
经典使用场景
在跨语言自然语言处理研究中,MT-HPLT2c数据集为多语言大语言模型预训练提供了关键支撑。该数据集通过Tower-Plus-9B模型将英语原文精准转化为德语、芬兰语、西班牙语和瑞典语平行语料,其文档对齐特性使得研究者能够构建包含1.15亿对齐文档的多语言训练集。这种大规模机器翻译数据特别适用于探索低资源语言场景下的模型泛化能力,为跨语言语义表示学习奠定了坚实基础。
衍生相关工作
该数据集已催生系列重要研究成果,特别是在跨语言预训练架构创新方面。基于其平行语料特性,研究者开发出新型多语言注意力机制,显著提升低资源语言理解性能。在机器翻译领域,该数据集支撑了多语言解码器的优化研究,衍生出兼顾通用性与专业性的混合训练范式。相关工作还推动了翻译质量自动评估指标的发展,为大规模翻译数据应用建立了标准化评估体系。
数据集最近研究
最新研究方向
在跨语言自然语言处理领域,MT-HPLT2c数据集正推动机器翻译与大规模语言模型预训练的深度融合。其基于Tower-Plus-9B模型生成的百亿级多语言平行语料,为探索翻译数据对模型泛化能力的影响提供了关键实验基础。当前研究聚焦于低资源语言的知识迁移机制,通过对比分析德语、芬兰语等语言的语义对齐效果,揭示多语言表示学习的潜在规律。该数据集支撑的跨语言语义理解研究,正逐步突破传统单语模型的局限性,为构建真正通用的多模态智能系统奠定数据基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作