five

Corpus do Português/BR

收藏
github2023-02-02 更新2024-05-31 收录
下载链接:
https://github.com/fabiocmazzo/corpusportugues
下载链接
链接失效反馈
官方服务:
资源简介:
该项目旨在方便访问一个包含大量词汇和句子的葡萄牙语语料库。首先将通过维基百科的dump创建一个巴西葡萄牙语语料库。

This project aims to facilitate access to a comprehensive corpus of Portuguese vocabulary and sentences. Initially, a Brazilian Portuguese corpus will be created using a dump from Wikipedia.
创建时间:
2017-04-11
原始信息汇总

数据集概述

数据集名称

Corpus do Português e Modelos Diversos

数据集来源

数据集主要来源于葡萄牙语维基百科的转储数据,通过特定工具转换为文本格式。

数据集内容

  1. 文本数据:包括维基百科文章的文本,以及可选的讨论页内容,用于获取更非正式的语言样本。
  2. 模型:使用MITIE库中的wordrep工具生成的语言模型。

数据集版本与下载

文本数据
数据集名称 单词数量 下载链接 版本
Artigos Wikipedia + Corpus Laps UFPA 270,139,795 下载链接 1.0.1
Artigos Wikipedia 244,188,490 下载链接 1.0
模型
模型名称 类型 下载链接
Mitie NLP total_word_feature_extractor 下载链接
Mitie NLP top_words 下载链接
Mitie NLP word_vects 下载链接

数据集处理

  • 预处理工具:使用wiki2text工具将维基百科的XML转储文件转换为纯文本。
  • 文本清洗:通过命令行工具去除文本中的标题行,以获得更干净的文本数据。

许可证

数据集遵循维基百科的许可证,详情见维基百科许可证

搜集汇总
数据集介绍
main_image_url
构建方式
BR数据集的构建基于维基百科的葡萄牙语文章,通过维基百科的dump文件进行数据提取。使用wiki2text工具将维基百科的XML格式文件转换为纯文本,并通过grep命令去除标题等非文本内容,生成干净的语料库。此外,为了丰富语料库的多样性,数据集还包含了来自Laps UFPA的语料,进一步扩展了数据的覆盖范围。
特点
BR数据集的特点在于其规模庞大且多样化,包含了超过2.7亿个单词的葡萄牙语文本。数据集不仅涵盖了维基百科的正式文章,还通过引入讨论页面的内容,增加了非正式语言的样本。这种设计使得数据集能够更好地支持自然语言处理任务,尤其是需要处理正式与非正式语言混合场景的应用。
使用方法
BR数据集的使用方法灵活多样,用户可以直接下载预处理的语料库文件,或根据需求进一步清理数据,例如去除标点符号。数据集还提供了基于MITIE库生成的多种语言模型,包括词向量和特征提取器,用户可以直接加载这些模型进行文本分析、词嵌入或自然语言理解任务。此外,数据集的开源性质允许用户根据具体需求进行二次开发和扩展。
背景与挑战
背景概述
BR数据集是一个专注于葡萄牙语(巴西变体)的语料库项目,旨在为研究者和开发者提供一个易于访问且规模庞大的文本资源。该项目由多个研究机构和开源社区共同推动,主要基于维基百科的文本数据构建。通过使用MITIE库中的wordrep工具,BR数据集不仅提供了原始文本,还生成了多种语言模型,如词向量和特征提取器。该数据集自创建以来,已成为葡萄牙语自然语言处理领域的重要资源,广泛应用于文本分类、机器翻译和情感分析等任务。其开放性和易用性显著降低了相关研究的门槛,推动了葡萄牙语NLP技术的发展。
当前挑战
BR数据集在构建过程中面临多重挑战。首先,维基百科的文本数据虽然丰富,但其结构复杂,包含大量非正式语言和讨论内容,这对语料库的清洗和标准化提出了较高要求。其次,生成高质量的语言模型需要大量的计算资源和内存,这对研究者的硬件条件提出了挑战。此外,尽管数据集提供了多种预处理工具,但如何有效去除标点符号、处理非标准文本格式等问题仍需进一步优化。最后,数据集的持续更新和维护也是一个重要挑战,尤其是在确保数据质量和一致性方面,需要不断投入人力和技术资源。
常用场景
经典使用场景
BR数据集在自然语言处理(NLP)领域中被广泛用于葡萄牙语的语言模型训练和评估。通过从维基百科提取的大量文本数据,该数据集为研究人员提供了一个丰富的语料库,用于训练词向量模型、语言模型以及其他NLP任务。其经典使用场景包括词性标注、命名实体识别和文本分类等任务,尤其是在处理葡萄牙语文本时,BR数据集因其规模和质量而备受青睐。
实际应用
在实际应用中,BR数据集被广泛用于开发葡萄牙语的聊天机器人、机器翻译系统和语音识别工具。例如,基于该数据集训练的MITIE模型可以用于提取文本特征,进而支持智能客服系统的开发。此外,该数据集还被用于构建葡萄牙语的搜索引擎优化工具,帮助提升葡萄牙语网页的检索效果。
衍生相关工作
BR数据集衍生了许多经典的NLP研究工作,尤其是在葡萄牙语的语言模型和词向量表示方面。基于该数据集,研究人员开发了多种预训练模型,如MITIE的total_word_feature_extractor和word_vects模型。这些模型在葡萄牙语的文本分类、情感分析和信息抽取任务中表现出色,进一步推动了葡萄牙语NLP技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作