Corpus do Português/BR

github2023-02-02 更新2024-05-31 收录

下载链接：

https://github.com/fabiocmazzo/corpusportugues

下载链接

链接失效反馈

官方服务：

资源简介：

该项目旨在方便访问一个包含大量词汇和句子的葡萄牙语语料库。首先将通过维基百科的dump创建一个巴西葡萄牙语语料库。

This project aims to facilitate access to a comprehensive corpus of Portuguese vocabulary and sentences. Initially, a Brazilian Portuguese corpus will be created using a dump from Wikipedia.

创建时间：

2017-04-11

原始信息汇总

数据集概述

数据集名称

Corpus do Português e Modelos Diversos

数据集来源

数据集主要来源于葡萄牙语维基百科的转储数据，通过特定工具转换为文本格式。

数据集内容

文本数据：包括维基百科文章的文本，以及可选的讨论页内容，用于获取更非正式的语言样本。
模型：使用MITIE库中的wordrep工具生成的语言模型。

数据集版本与下载

文本数据

数据集名称	单词数量	下载链接	版本
Artigos Wikipedia + Corpus Laps UFPA	270,139,795	下载链接	1.0.1
Artigos Wikipedia	244,188,490	下载链接	1.0

模型

模型名称	类型	下载链接
Mitie NLP	total_word_feature_extractor	下载链接
Mitie NLP	top_words	下载链接
Mitie NLP	word_vects	下载链接

数据集处理

预处理工具：使用wiki2text工具将维基百科的XML转储文件转换为纯文本。
文本清洗：通过命令行工具去除文本中的标题行，以获得更干净的文本数据。

许可证

数据集遵循维基百科的许可证，详情见维基百科许可证。

搜集汇总

数据集介绍

构建方式

BR数据集的构建基于维基百科的葡萄牙语文章，通过维基百科的dump文件进行数据提取。使用wiki2text工具将维基百科的XML格式文件转换为纯文本，并通过grep命令去除标题等非文本内容，生成干净的语料库。此外，为了丰富语料库的多样性，数据集还包含了来自Laps UFPA的语料，进一步扩展了数据的覆盖范围。

特点

BR数据集的特点在于其规模庞大且多样化，包含了超过2.7亿个单词的葡萄牙语文本。数据集不仅涵盖了维基百科的正式文章，还通过引入讨论页面的内容，增加了非正式语言的样本。这种设计使得数据集能够更好地支持自然语言处理任务，尤其是需要处理正式与非正式语言混合场景的应用。

使用方法

BR数据集的使用方法灵活多样，用户可以直接下载预处理的语料库文件，或根据需求进一步清理数据，例如去除标点符号。数据集还提供了基于MITIE库生成的多种语言模型，包括词向量和特征提取器，用户可以直接加载这些模型进行文本分析、词嵌入或自然语言理解任务。此外，数据集的开源性质允许用户根据具体需求进行二次开发和扩展。

背景与挑战

背景概述

BR数据集是一个专注于葡萄牙语（巴西变体）的语料库项目，旨在为研究者和开发者提供一个易于访问且规模庞大的文本资源。该项目由多个研究机构和开源社区共同推动，主要基于维基百科的文本数据构建。通过使用MITIE库中的wordrep工具，BR数据集不仅提供了原始文本，还生成了多种语言模型，如词向量和特征提取器。该数据集自创建以来，已成为葡萄牙语自然语言处理领域的重要资源，广泛应用于文本分类、机器翻译和情感分析等任务。其开放性和易用性显著降低了相关研究的门槛，推动了葡萄牙语NLP技术的发展。

当前挑战

BR数据集在构建过程中面临多重挑战。首先，维基百科的文本数据虽然丰富，但其结构复杂，包含大量非正式语言和讨论内容，这对语料库的清洗和标准化提出了较高要求。其次，生成高质量的语言模型需要大量的计算资源和内存，这对研究者的硬件条件提出了挑战。此外，尽管数据集提供了多种预处理工具，但如何有效去除标点符号、处理非标准文本格式等问题仍需进一步优化。最后，数据集的持续更新和维护也是一个重要挑战，尤其是在确保数据质量和一致性方面，需要不断投入人力和技术资源。

常用场景

经典使用场景

BR数据集在自然语言处理（NLP）领域中被广泛用于葡萄牙语的语言模型训练和评估。通过从维基百科提取的大量文本数据，该数据集为研究人员提供了一个丰富的语料库，用于训练词向量模型、语言模型以及其他NLP任务。其经典使用场景包括词性标注、命名实体识别和文本分类等任务，尤其是在处理葡萄牙语文本时，BR数据集因其规模和质量而备受青睐。

实际应用

在实际应用中，BR数据集被广泛用于开发葡萄牙语的聊天机器人、机器翻译系统和语音识别工具。例如，基于该数据集训练的MITIE模型可以用于提取文本特征，进而支持智能客服系统的开发。此外，该数据集还被用于构建葡萄牙语的搜索引擎优化工具，帮助提升葡萄牙语网页的检索效果。

衍生相关工作

BR数据集衍生了许多经典的NLP研究工作，尤其是在葡萄牙语的语言模型和词向量表示方面。基于该数据集，研究人员开发了多种预训练模型，如MITIE的total_word_feature_extractor和word_vects模型。这些模型在葡萄牙语的文本分类、情感分析和信息抽取任务中表现出色，进一步推动了葡萄牙语NLP技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集