HPLT v2
收藏arXiv2025-03-14 更新2025-03-15 收录
下载链接:
https://hplt-project.org
下载链接
链接失效反馈官方服务:
资源简介:
HPLT v2是由多个研究机构共同创建的高质量多语言单语和并行语料库集合。该数据集的单语部分包含193种语言,约8万亿tokens;并行数据部分包含超过3800万句对,覆盖51种语言与英语的对照。数据集通过改进的提取管道构建而成,旨在为高性能语言技术训练提供大量、干净的多样化文本数据。
HPLT v2 is a high-quality multilingual monolingual and parallel corpus collection jointly created by multiple research institutions. Its monolingual component covers 193 languages, totaling approximately 8 trillion tokens; the parallel data subset contains over 38 million sentence pairs, covering parallel pairs between 51 languages and English. Constructed via an improved extraction pipeline, this dataset aims to provide large-scale, clean and diverse textual data for the training of high-performance language technologies.
提供机构:
爱丁堡大学,赫尔辛基大学,奥斯陆大学,语言工程Prompsit,查尔斯大学,图尔库大学
创建时间:
2025-03-13
搜集汇总
数据集介绍

构建方式
HPLT v2数据集的构建涉及从互联网档案和Common Crawl中提取大量文本数据,经过清洗、去重和语言识别等步骤后,形成了包含193种语言的8万亿token的单语语料库,以及包含51种语言与英语配对的3800万句子对的双语语料库。该数据集的构建流程详细记录并公开发布了代码,以供其他研究人员复现。
使用方法
HPLT v2数据集的使用方法包括将其作为训练数据集用于各种自然语言处理(NLP)模型,如掩码语言模型(MLM)、自然语言理解(NLU)任务和机器翻译(MT)模型。此外,数据集还提供了自动注册分类器,方便用户根据不同任务的需要进行数据采样和清洗。在使用HPLT v2数据集时,建议使用清洗过的版本,以确保数据的质量和一致性。
背景与挑战
背景概述
在自然语言处理(NLP)领域,构建高性能的语言技术模型需要大量的文本数据。然而,构建适合的多语言数据集仍然是一项挑战。HPLT v2 数据集的创建旨在解决这个问题,它是一个高质量的、多语言的、单语和并行语料库集合。HPLT v2 数据集由来自多个机构的团队创建,包括爱丁堡大学、赫尔辛基大学、奥斯陆大学、普罗姆普斯语言工程、查尔斯大学和图尔库大学。该数据集包含了 193 种语言的 8T 个标记的单语数据,以及覆盖 51 种语言的 3.8 亿句对并行数据。HPLT v2 数据集的创建时间是在 2024 年,由上述研究人员共同完成。该数据集的创建对于 NLP 领域具有重大意义,因为它提供了大规模的多语言数据,可以用于训练高性能的语言技术模型,包括语言模型和机器翻译系统。HPLT v2 数据集的发布为 NLP 研究人员提供了宝贵的资源,促进了多语言 NLP 的发展。
当前挑战
HPLT v2 数据集的创建和构建过程中遇到了一些挑战。首先,从网络爬取的数据中提取高质量的文本数据是一个挑战。为了解决这个问题,研究人员使用了一系列的工具和技术,如 Trafilatura 和 Web Docs Scorer,来去除网页中的 boilerplate 内容和低质量文档。其次,构建并行数据集也面临着挑战。为了解决这个问题,研究人员使用了一种称为 Bitextor 的工具来提取和清洗并行数据。此外,HPLT v2 数据集的创建还面临着一些领域问题,如跨语言和机器翻译的性能提升。为了解决这个问题,研究人员使用 HPLT v2 数据集训练了多种语言模型和机器翻译系统,并评估了它们的性能。结果表明,HPLT v2 数据集对于提升跨语言和机器翻译的性能具有重要意义。
常用场景
经典使用场景
HPLT v2数据集作为高质量的多语言数据集,在训练高性能语言模型和机器翻译系统中具有广泛应用。该数据集提供了193种语言的8万亿个标记,以及涵盖51种语言的3800万句对平行语料库,为语言模型和机器翻译系统的训练提供了丰富的数据资源。通过对数据集进行深入分析,研究人员可以评估不同语言模型和机器翻译系统的性能,为语言技术的进一步发展提供参考。
解决学术问题
HPLT v2数据集的发布解决了多语言数据集构建的挑战。传统的多语言数据集往往覆盖的语言数量有限,而HPLT v2数据集涵盖了193种语言,为语言模型和机器翻译系统的训练提供了更广泛的语言资源。此外,HPLT v2数据集通过改进的数据提取流程和严格的数据质量评估,确保了数据的高质量,为语言技术的学术研究提供了可靠的数据支持。
实际应用
HPLT v2数据集在实际应用中具有广泛的应用前景。例如,在机器翻译领域,HPLT v2数据集可以用于训练高质量的翻译模型,提高翻译的准确性和流畅性。在自然语言处理领域,HPLT v2数据集可以用于训练语言模型,提高语言模型的性能,从而推动文本生成、情感分析、信息提取等自然语言处理任务的发展。此外,HPLT v2数据集还可以用于构建多语言问答系统、多语言语音识别系统等,为多语言信息处理提供支持。
数据集最近研究
最新研究方向
HPLT v2数据集的最新研究方向主要集中在提高大规模多语言语言模型训练数据的质量和多样性上。该数据集包含了193种语言的8万亿个标记,以及3800万对英文平行语料,为自然语言处理(NLP)和机器翻译(MT)等任务提供了丰富的训练资源。HPLT v2的构建过程中采用了改进的数据提取流程,并通过深度学习技术实现了自动化的语料清洗和过滤,从而提高了数据的质量。此外,HPLT v2还提供了详细的语料分析和评估,包括对数据集的描述性统计、手动检查和注册标签,为研究人员提供了深入理解数据集特性的工具。在下游任务评估中,HPLT v2表现出色,训练出的语言模型在多项NLP任务中取得了显著提升。未来,HPLT v2计划进一步扩大语言覆盖范围,提高数据质量,特别是为资源匮乏的语言提供支持,并计划发布文档级对齐的平行语料库。
相关研究论文
- 1An Expanded Massive Multilingual Dataset for High-Performance Language Technologies爱丁堡大学,赫尔辛基大学,奥斯陆大学,普姆西特语言工程,查尔斯大学,图尔库大学 · 2025年
以上内容由遇见数据集搜集并总结生成



