wikipedia-pt-br-extract

Hugging Face2026-02-06 更新2026-02-07 收录

下载链接：

https://huggingface.co/datasets/costadev00/wikipedia-pt-br-extract

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从最新葡萄牙语维基百科转储中提取的清理后文本。数据采用 cc-by-sa-3.0 许可协议，语言为葡萄牙语。每条记录包含以下字段：清理后的纯文本（'text'）、页面标题（'title'）、XML转储中的页面ID（'page_id'）、页面命名空间ID（'ns'）以及清理后的章节文本列表（'section_texts'）。预处理过程中已跳过空文本页面、重定向页面（取决于提取标志）、非主命名空间页面和消歧页面，并默认移除了列表项（可通过'--keep-lists'参数保留）。数据集提供JSONL和Parquet两种格式。数据来源为维基媒体基金会的最新葡萄牙语维基百科转储（ptwiki-latest-pages-articles.xml.bz2）。

创建时间：

2026-02-06

搜集汇总

数据集介绍

构建方式

该数据集的构建源于对葡萄牙语维基百科最新全量数据的系统化处理。原始数据取自维基媒体基金会定期发布的XML格式转储文件，通过专门的文本提取工具去除页面中的模板、标签等非文本元素，并依据预设规则进行清洗。构建过程中默认跳过了重定向页面、非主命名空间条目以及消歧义页面，同时移除了列表项，最终生成结构化的纯文本数据，并以JSONL和Parquet格式存储，确保了数据的整洁性与可用性。

特点

本数据集的核心特点在于其高度的纯净性与结构化设计。每条记录不仅包含清洗后的完整页面文本，还保留了标题、页面ID、命名空间ID等元信息，并额外提供了按章节划分的文本列表，便于细粒度分析。数据覆盖葡萄牙语维基百科的全部主体内容，语言统一且规模庞大，为自然语言处理任务提供了丰富的语料基础。其默认过滤机制有效排除了低信息量的条目，进一步提升了数据质量与研究适用性。

使用方法

在应用层面，该数据集可直接用于训练葡萄牙语语言模型、进行文本挖掘或构建知识图谱。研究者可通过加载JSONL或Parquet文件快速访问结构化文本，利用`section_texts`字段实现章节级的内容分析，或结合`title`与`page_id`进行跨文档关联。由于数据已预先清洗，使用者可专注于下游任务，无需处理原始维基文本的复杂标记，显著降低了预处理负担，适用于机器翻译、信息检索及语义分析等多种场景。

背景与挑战

背景概述

随着自然语言处理技术的蓬勃发展，大规模、高质量的语料库成为训练先进模型的基础。葡萄牙语作为全球使用广泛的罗曼语族语言之一，其数字资源的系统化整理对推动多语言人工智能研究具有重要意义。Wikipedia-pt-br-extract数据集应运而生，它基于维基媒体基金会提供的葡萄牙语维基百科最新转储文件构建，由开源社区通过系统化文本提取与清洗流程创建，核心目标是为葡萄牙语自然语言处理任务提供纯净、结构化的文本数据。该数据集通过移除模板、标签等非文本元素，并过滤重定向页、消歧页等低质量内容，确保了语料的实用性与一致性，为机器翻译、文本生成、语言模型预训练等任务提供了关键资源，显著促进了葡萄牙语信息处理技术的发展。

当前挑战

在葡萄牙语维基百科文本提取任务中，首要挑战在于如何从复杂的半结构化维基文本中高效剥离出纯净的连续文本，同时保留语义完整性，这涉及对模板、引用、表格等非标准格式的精准处理。构建过程中的技术挑战包括设计鲁棒的解析算法以应对维基标记语言的多样性，以及制定合理的过滤策略以排除重定向、消歧页及非主要命名空间内容，确保数据质量。此外，平衡文本清洗的深度与信息保留程度，例如列表项的去留选择，亦需细致考量，以适配下游任务的不同需求。这些挑战共同指向了多语言语料库构建中普遍存在的标准化与可扩展性问题。

常用场景

经典使用场景

在自然语言处理领域，葡萄牙语维基百科提取数据集为语言模型预训练提供了关键资源。该数据集经过清洗处理，移除了模板、标签和歧义页面，保留了纯净的文本内容，使得研究人员能够高效地构建大规模语料库。通过利用这些结构化数据，学者们可以训练出更精准的葡萄牙语词嵌入和上下文表示模型，从而推动语言理解技术的发展。

衍生相关工作

基于该数据集，学术界衍生出了一系列经典研究工作，例如葡萄牙语BERT模型的预训练和微调实验。这些工作不仅优化了语言表示的性能，还推动了跨语言模型的比较分析。同时，该数据集促进了多语言知识图谱的构建，支持了语义相似度计算和实体链接任务，为葡萄牙语自然语言处理社区的持续创新提供了重要动力。

数据集最近研究