pt-BR Corpus

github2023-11-14 更新2024-05-31 收录

下载链接：

https://github.com/eberlitz/pt-br-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过处理葡萄牙语巴西维基百科的文章生成的，包含了9896520个句子，251193592个词条，以及3137040个唯一词条，总大小为1.6GB。数据集经过预处理，包括分句、保留特定格式、替换特定类型的数据等步骤，以适应特定的语言处理需求。

This dataset is generated by processing articles from the Brazilian Portuguese Wikipedia, containing 9,896,520 sentences, 251,193,592 entries, and 3,137,040 unique entries, with a total size of 1.6GB. The dataset has undergone preprocessing steps including sentence segmentation, retention of specific formats, and replacement of certain types of data to meet specific language processing requirements.

创建时间：

2018-07-30

原始信息汇总

数据集概述

数据来源

数据集来源于Wikipedia的葡萄牙语（pt-br）文章。

数据处理步骤

下载Wikipedia数据：
- 使用命令行工具下载Wikipedia的最新葡萄牙语文章转储。
数据转换：
- 使用wikiextractor工具将XML格式的Wikipedia数据转换为文本格式。
- 生成的文本文件为压缩格式，每文件约10MB。
预处理：
- 使用自定义脚本preprocess.py对文本数据进行进一步处理。
- 处理包括：
  - 将文本分割成句子。
  - 保留原字母大小写。
  - 移除少于4个单词的句子。
  - 允许缩写词。
  - 保留带有连字符的单词。
  - 将电子邮件、数字和URL分别替换为特定标记。
  - 标准化引号和连字符。
  - 移除HTML字符串和括号内的文本。

数据集统计信息

大小：1.6GB
包含：9896520个句子
包含：251193592个标记
包含：3137040个唯一标记

搜集汇总

数据集介绍

构建方式

pt-BR Corpus的构建过程始于从维基百科下载葡萄牙语（巴西）的文章数据转储文件。这些文件以维基文本格式存储，包含大量标记和特殊符号。为了提取纯文本，首先使用`wikiextractor`工具将XML格式的数据转换为文本文件，随后通过自定义脚本进行清理和预处理。预处理步骤包括句子分割、去除短句、标准化标点符号、替换特定文本（如电子邮件、URL和数字）为统一标记，并删除HTML标签和括号内的内容。最终生成了一个包含约990万句子、2.51亿个词汇的葡萄牙语语料库。

使用方法

pt-BR Corpus适用于多种自然语言处理任务，如语言模型训练、机器翻译、文本分类和词性标注等。使用该数据集时，用户可以直接加载预处理后的文本文件，并根据具体任务需求进行进一步处理。例如，在训练语言模型时，可以利用其丰富的句子和词汇资源；在机器翻译任务中，可以结合其他语言的数据集进行双语对齐训练。此外，由于数据集已经过标准化处理，用户无需额外清理即可直接使用，极大地提高了研究效率。

背景与挑战

背景概述

pt-BR Corpus数据集是一个专注于巴西葡萄牙语文本处理的研究资源，旨在为自然语言处理（NLP）任务提供高质量的语料库。该数据集由研究人员通过从葡萄牙语维基百科（ptwiki）中提取和清理文本构建而成，涵盖了广泛的领域和主题。其创建时间可追溯至维基百科数据转储的发布时间，主要研究人员通过使用开源工具如`wikiextractor`和自定义脚本对原始数据进行处理，最终生成了包含近990万句子和超过2.5亿个标记的语料库。这一数据集为巴西葡萄牙语的文本分析、机器翻译、语言模型训练等任务提供了重要的基础支持，显著推动了该语言在NLP领域的研究进展。

当前挑战

pt-BR Corpus的构建过程中面临多重挑战。首先，葡萄牙语作为一种形态丰富的语言，其分词和句法分析相较于英语等语言更为复杂，这对文本预处理工具的选择和优化提出了较高要求。其次，维基百科的原始数据包含大量非结构化信息，如模板、引用和HTML标签，清理这些噪声数据需要复杂的规则和脚本支持。此外，数据集中包含的缩写、复合词和特殊符号（如连字符和引号）的处理也增加了预处理的难度。最后，确保语料库的多样性和覆盖范围，同时避免数据冗余和偏差，是构建过程中需要持续平衡的关键问题。这些挑战不仅影响了数据集的构建效率，也对后续的NLP任务提出了更高的技术要求。

常用场景

经典使用场景

pt-BR Corpus数据集在自然语言处理领域中被广泛用于葡萄牙语文本的机器学习和深度学习模型的训练与评估。该数据集通过提供大量的葡萄牙语维基百科文章，为研究者提供了一个丰富的语言资源，用于训练语言模型、文本分类、情感分析等任务。其多样化的文本内容和广泛的词汇覆盖使得该数据集成为葡萄牙语NLP研究的基石。

解决学术问题

pt-BR Corpus数据集解决了葡萄牙语自然语言处理研究中数据稀缺的问题。通过提供高质量的葡萄牙语文本，研究者能够更有效地训练和评估语言模型，从而推动葡萄牙语NLP技术的发展。该数据集的存在填补了葡萄牙语与其他主流语言在NLP研究资源上的差距，促进了跨语言研究的进展。

实际应用

在实际应用中，pt-BR Corpus数据集被广泛用于开发葡萄牙语的智能助手、机器翻译系统和文本分析工具。例如，基于该数据集训练的模型可以用于自动翻译葡萄牙语文档，或为葡萄牙语用户提供个性化的内容推荐。此外，该数据集还被用于教育领域，帮助开发语言学习应用和自动化评估工具。

数据集最近研究