HPLT v2

Name: HPLT v2
Creator: 爱丁堡大学,赫尔辛基大学,奥斯陆大学,语言工程Prompsit,查尔斯大学,图尔库大学
Published: 2025-03-14 20:48:23
License: 暂无描述

arXiv2025-03-14 更新2025-03-15 收录

下载链接：

https://hplt-project.org

下载链接

链接失效反馈

官方服务：

资源简介：

HPLT v2是由多个研究机构共同创建的高质量多语言单语和并行语料库集合。该数据集的单语部分包含193种语言，约8万亿tokens；并行数据部分包含超过3800万句对，覆盖51种语言与英语的对照。数据集通过改进的提取管道构建而成，旨在为高性能语言技术训练提供大量、干净的多样化文本数据。

HPLT v2 is a high-quality multilingual monolingual and parallel corpus collection jointly created by multiple research institutions. Its monolingual component covers 193 languages, totaling approximately 8 trillion tokens; the parallel data subset contains over 38 million sentence pairs, covering parallel pairs between 51 languages and English. Constructed via an improved extraction pipeline, this dataset aims to provide large-scale, clean and diverse textual data for the training of high-performance language technologies.

提供机构：

爱丁堡大学,赫尔辛基大学,奥斯陆大学,语言工程Prompsit,查尔斯大学,图尔库大学

创建时间：

2025-03-13

搜集汇总

数据集介绍

构建方式

HPLT v2数据集的构建涉及从互联网档案和Common Crawl中提取大量文本数据，经过清洗、去重和语言识别等步骤后，形成了包含193种语言的8万亿token的单语语料库，以及包含51种语言与英语配对的3800万句子对的双语语料库。该数据集的构建流程详细记录并公开发布了代码，以供其他研究人员复现。

使用方法

HPLT v2数据集的使用方法包括将其作为训练数据集用于各种自然语言处理（NLP）模型，如掩码语言模型（MLM）、自然语言理解（NLU）任务和机器翻译（MT）模型。此外，数据集还提供了自动注册分类器，方便用户根据不同任务的需要进行数据采样和清洗。在使用HPLT v2数据集时，建议使用清洗过的版本，以确保数据的质量和一致性。

背景与挑战

背景概述

在自然语言处理（NLP）领域，构建高性能的语言技术模型需要大量的文本数据。然而，构建适合的多语言数据集仍然是一项挑战。HPLT v2 数据集的创建旨在解决这个问题，它是一个高质量的、多语言的、单语和并行语料库集合。HPLT v2 数据集由来自多个机构的团队创建，包括爱丁堡大学、赫尔辛基大学、奥斯陆大学、普罗姆普斯语言工程、查尔斯大学和图尔库大学。该数据集包含了 193 种语言的 8T 个标记的单语数据，以及覆盖 51 种语言的 3.8 亿句对并行数据。HPLT v2 数据集的创建时间是在 2024 年，由上述研究人员共同完成。该数据集的创建对于 NLP 领域具有重大意义，因为它提供了大规模的多语言数据，可以用于训练高性能的语言技术模型，包括语言模型和机器翻译系统。HPLT v2 数据集的发布为 NLP 研究人员提供了宝贵的资源，促进了多语言 NLP 的发展。

当前挑战

HPLT v2 数据集的创建和构建过程中遇到了一些挑战。首先，从网络爬取的数据中提取高质量的文本数据是一个挑战。为了解决这个问题，研究人员使用了一系列的工具和技术，如 Trafilatura 和 Web Docs Scorer，来去除网页中的 boilerplate 内容和低质量文档。其次，构建并行数据集也面临着挑战。为了解决这个问题，研究人员使用了一种称为 Bitextor 的工具来提取和清洗并行数据。此外，HPLT v2 数据集的创建还面临着一些领域问题，如跨语言和机器翻译的性能提升。为了解决这个问题，研究人员使用 HPLT v2 数据集训练了多种语言模型和机器翻译系统，并评估了它们的性能。结果表明，HPLT v2 数据集对于提升跨语言和机器翻译的性能具有重要意义。

常用场景

经典使用场景

HPLT v2数据集作为高质量的多语言数据集，在训练高性能语言模型和机器翻译系统中具有广泛应用。该数据集提供了193种语言的8万亿个标记，以及涵盖51种语言的3800万句对平行语料库，为语言模型和机器翻译系统的训练提供了丰富的数据资源。通过对数据集进行深入分析，研究人员可以评估不同语言模型和机器翻译系统的性能，为语言技术的进一步发展提供参考。

解决学术问题

HPLT v2数据集的发布解决了多语言数据集构建的挑战。传统的多语言数据集往往覆盖的语言数量有限，而HPLT v2数据集涵盖了193种语言，为语言模型和机器翻译系统的训练提供了更广泛的语言资源。此外，HPLT v2数据集通过改进的数据提取流程和严格的数据质量评估，确保了数据的高质量，为语言技术的学术研究提供了可靠的数据支持。

实际应用

HPLT v2数据集在实际应用中具有广泛的应用前景。例如，在机器翻译领域，HPLT v2数据集可以用于训练高质量的翻译模型，提高翻译的准确性和流畅性。在自然语言处理领域，HPLT v2数据集可以用于训练语言模型，提高语言模型的性能，从而推动文本生成、情感分析、信息提取等自然语言处理任务的发展。此外，HPLT v2数据集还可以用于构建多语言问答系统、多语言语音识别系统等，为多语言信息处理提供支持。

数据集最近研究