HPLT3.0

Name: HPLT3.0
Creator: HPLT
Published: 2025-10-28 03:17:14
License: 暂无描述

Hugging Face2025-10-28 更新2025-10-29 收录

下载链接：

https://huggingface.co/datasets/HPLT/HPLT3.0

下载链接

链接失效反馈

官方服务：

资源简介：

HPLT项目发布的大型多语言网络爬取文档数据集，包含198种语言，总数据量约50TB，经过去重、注释和过滤处理，提供丰富的元数据。

提供机构：

HPLT

创建时间：

2025-10-28

原始信息汇总

HPLT3.0 数据集概述

数据集基本信息

许可证：CC0-1.0
数据规模：大于1TB
多语言性：多语言
任务类别：掩码填充、文本生成
任务ID：语言建模
数据来源：网络爬取

语言覆盖

包含198种世界语言，主要包括：

欧洲语言：英语、德语、法语、西班牙语、俄语等
亚洲语言：中文、日语、韩语、印地语、阿拉伯语等
非洲语言：斯瓦希里语、约鲁巴语、祖鲁语等
其他地区语言

数据详情

版本特征

发布版本：HPLT v3.0
发布时间：2025年7月
数据量：约50TB压缩数据
文档数量：115亿文档（不含英语部分）
字符数量：40万亿Unicode字符
标记数量：13.5万亿标记（使用Gemma 3词汇表）

数据来源与处理

原始数据源：Internet Archive和Common Crawl
数据时间跨度：2012年至2024年
文本提取工具：Trafilatura库
语言识别工具：OpenLID 2.0
数据处理管道：Monotextor流水线

数据质量特性

按语言无关的文档质量估计（WDS）排序
丰富的注释和元数据
104种语言包含网络注册标签
文档和片段级语言识别
个人可识别信息标注
原始爬取来源信息

数据下载

下载方式

按语言分片组织，按WDS质量分箱排序
支持使用wget命令下载特定语言数据
提供多语言映射文件和英语专用映射文件

文件结构

数据格式：JSONL压缩文件（.jsonl.zst）
质量分箱：WDS评分10-5分
验证文件：提供MD5校验和文件

版本改进

数据量大幅增加
额外元数据和爬取信息
Trafilatura 2.0升级
改进的语言识别
全局去重（中文、英语、俄语除外）
网络注册标签标注
改进的文档质量评分
增强的过滤和去重流水线

统计与验证

提供按语言统计的manifest.json文件
包含唯一域名、完整URL和文档签名列表
提供MD5校验文件用于数据验证

许可证与使用

数据打包使用CC0许可证
提供通知和下架政策
联系方式：hplt-datasets@ufal.mff.cuni.cz

技术支持

数据处理基础设施：CESNET、Sigma2 NRIS、LUMI超级计算机系统
数据托管：Sigma2 NIRD数据湖
资助机构：欧盟Horizon Europe计划和英国研究创新局

搜集汇总

数据集介绍

构建方式

作为多语言文本处理领域的重要资源，HPLT3.0数据集通过系统化的构建流程实现了大规模语料采集。该数据集源自互联网档案馆和Common Crawl平台2012至2024年间的原始网络爬取数据，总量达7.2PB。采用Trafilatura库进行HTML文档文本提取，运用OpenLID 2.0工具完成语言识别，并通过Monotextor流水线实现去重、标注与过滤处理。除中文、英文和俄文外，其余语言数据均经过全局去重处理，确保语料独特性。数据处理工作依托捷克和挪威国家级高性能计算基础设施以及欧洲LUMI超算系统完成，体现了严谨的工程实施标准。

特点

在语料库语言学视角下，HPLT3.0展现出显著的多维度特征。该数据集覆盖198种世界语言，压缩数据规模约50TB，其中英文数据占比过半，非英文部分包含115亿文档、40万亿Unicode字符。采用语言无关的文档质量评估体系进行分级排序，为104种语言提供网络语域标注，包含文档级与段落级语言识别、个人可识别信息标注及原始爬取来源信息。相比前代版本，本版在中文数据处理上修正了全角标点符号过度规范化问题，并通过MinHash聚类规模元数据增强去重透明度，构建起当前规模最大的公开多语言数据集体系。

使用方法

针对研究者的实际应用需求，该数据集采用分语言分片存储架构，按文档质量分数进行分档管理。用户可通过语言专属映射文件配合wget命令实现定向下载，例如使用`wget -O - https://data.hplt-project.org/three/sorted/crh_Latn.map | wget -x -nH --cut-dirs=2 -i -`指令下载克里米亚鞑靼语数据。多语言整体数据集约20TB，英文单独数据集达30TB，分别对应multilingual.map与eng_Latn.map映射文件。建议采用16-32线程并行下载以优化传输效率，同时提供结构化manifest.json统计文件及MD5校验机制，确保数据完整性与可验证性。

背景与挑战

背景概述

大规模多语言文本数据集HPLT 3.0由欧洲HPLT联盟于2025年7月正式发布，标志着多语言自然语言处理领域的重要突破。该项目依托捷克CESNET、挪威Sigma2 NRIS等国家级高性能计算基础设施，对互联网档案馆和Common Crawl平台2012至2024年间7.2PB原始网络数据进行系统化处理。该数据集涵盖198种语言，包含约11.5亿文档与40万亿Unicode字符，采用Gemma 3词表量化后达13.5万亿词汇单元，其规模较前一版本扩大三倍，是目前全球最大的可公开获取多语言语料库。通过Trafilatura文本提取与OpenLID 2.0语言识别技术，该资源为跨语言预训练模型提供了关键基础支撑。

当前挑战

在构建过程中面临多维度技术挑战：原始网络数据蕴含的HTML结构复杂性要求开发专用文本提取管道，Trafilatura库需针对不同语种网页结构进行参数优化。语言识别环节需应对198种语言的方言变体与混合文本场景，OpenLID 2.0系统需在保持高准确率前提下处理字符编码差异。数据去重环节采用全局MinHash聚类技术，但中文双宽度标点规范化问题在版本迭代中仍需专项修复。领域层面，该数据集致力于解决低资源语言建模的样本稀缺问题，通过引入网络文本类型标注与文档质量评分机制，为构建均衡的多语言表示学习模型提供结构化解决方案。

常用场景

经典使用场景

在自然语言处理领域，HPLT3.0数据集凭借其覆盖198种语言的庞大规模，成为训练多语言语言模型的核心资源。该数据集通过互联网档案和通用爬虫获取原始文本，经过严格的质量筛选与去重处理，为研究者提供了跨语言文本生成的基准数据。其按文档质量分数分层的结构设计，使得模型训练能够优先采用高质量语料，显著提升了低资源语言任务的性能表现。

衍生相关工作

该数据集的发布催生了多项重要研究，包括基于质量分层的多语言模型预训练方法、跨语言迁移学习框架的优化等创新工作。欧洲多所研究机构利用其构建的语料库开展了低资源语言理解系列实验，衍生出针对特定语系的专用语言模型。这些成果不仅丰富了计算语言学的理论体系，也为后续大规模多模态数据集的建设提供了重要参考。

数据集最近研究