Datasets de NLP em Português Brasileiro

github2025-10-10 更新2025-10-14 收录

下载链接：

https://github.com/beatrizalmeidaf/datasets-br-nlp

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个精选的巴西葡萄牙语自然语言处理数据集集合，专注于为巴西葡萄牙语的少样本场景提供训练和评估资源。包含产品评论数据集（如B2W评论语料库、品牌语料库等），格式为少样本处理的JSON文件，适用于情感分析和意图分类等NLP任务。

This is a curated collection of Brazilian Portuguese natural language processing (NLP) datasets, specially developed to provide training and evaluation resources for few-shot scenarios in Brazilian Portuguese NLP. It includes product review datasets such as the B2W review corpus and brand corpus, formatted as few-shot-processed JSON files, and is suitable for NLP tasks including sentiment analysis and intent classification.

创建时间：

2025-10-07

原始信息汇总

巴西葡萄牙语自然语言处理数据集概述

数据集简介

这是一个专门针对巴西葡萄牙语自然语言处理任务的精选数据集集合，旨在集中和简化巴西葡萄牙语NLP模型的训练和评估资源访问，特别关注小样本学习场景。

数据集结构

数据集按NLP任务类别组织在以下目录结构中：

产品与服务评价数据集

包含用户对产品和服务的评价文本，通常附带评分（如1-5星），适用于基于评分的回归或情感分类任务。

B2W Reviews Corpus

描述：从巴西电商B2W公开数据集中提取的大型产品评价集合，包含评价文本、标题和1-5星评分
格式：小样本格式处理版本，包含5折交叉验证
位置：https://github.com/beatrizalmeidaf/datasets-br-nlp/reviews/B2WReviewsCorpus/

Brands Corpus

描述：专注于特定品牌产品评价的数据集，包含评价文本、标题和1-5星评分
格式：小样本格式处理版本，包含5折交叉验证
位置：https://github.com/beatrizalmeidaf/datasets-br-nlp/reviews/BrandsCorpus/

RePro Corpus

描述：专注于提及购物体验中特定问题或赞美的产品评价数据集
格式：小样本格式处理版本，包含5折交叉验证
位置：https://github.com/beatrizalmeidaf/datasets-br-nlp/reviews/ReProCorpus/

数据格式

小样本文件夹中的数据集采用JSON格式，可直接加载到机器学习框架中进行训练和评估。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量数据集是推动模型性能提升的关键环节。该数据集通过系统化采集巴西葡萄牙语用户评论数据，整合了来自电商平台的实际文本资源，包括产品评价内容、标题信息及星级评分。采用结构化处理流程，将原始语料转化为适用于小样本学习的标准化格式，并构建了包含五个交叉验证折分的评估框架，确保数据分布的多样性和模型训练的稳定性。

特点

作为专注于巴西葡萄牙语的专项语料库，该数据集展现出鲜明的领域特性。其核心价值在于覆盖多维度商业场景，既包含通用商品评价的B2W语料，也聚焦特定品牌反馈的Brands语料，以及侧重消费问题描述的RePro语料。所有数据均经过严格的预处理，以统一的小样本格式呈现，支持情感分析与意图识别等典型NLP任务，为葡萄牙语自然语言理解研究提供了重要基础资源。

使用方法

针对实际研究需求，该数据集设计了便捷的应用路径。研究者可直接加载预处理的JSON格式文件，利用内置的交叉验证折分开展模型训练与评估。数据文件按任务类别分层存储，用户可根据具体实验目标选择相应子集，快速构建小样本学习环境。这种即用型设计显著降低了数据预处理成本，使研究人员能专注于算法优化与模型性能提升。

背景与挑战

背景概述

随着自然语言处理技术在全球化进程中的深入应用，巴西葡萄牙语作为南美洲最重要的语言之一，其数字资源匮乏问题逐渐凸显。Datasets de NLP em Português Brasileiro应运而生，由巴西本土研究团队构建，旨在通过系统化收集电商评论、情感分析等语料，解决该语言在少样本学习场景下的模型训练难题。该资源库通过结构化分类体系整合了B2W Reviews Corpus等权威数据集，为拉美地区语言智能技术的发展提供了关键基础设施。

当前挑战

在领域问题层面，巴西葡萄牙语特有的语法变体与地域文化表达给情感分类任务带来语义消歧挑战，例如口语化评价中隐含的讽刺意图识别。数据构建过程中，电商评论文本存在标注粒度不一致问题，如五星评分体系与情感极性的非对称映射，同时面临用户隐私信息脱敏与数据版权合规的双重约束。

常用场景

经典使用场景

在巴西葡萄牙语自然语言处理研究领域，该数据集最经典的使用场景聚焦于小样本学习环境下的情感分析任务。通过B2W Reviews Corpus、BrandsCorpus和ReProCorpus等精心标注的评论文本，研究人员能够有效训练和评估模型在数据稀缺条件下的性能表现。这些数据集特别适用于探索跨领域迁移学习和领域自适应等前沿研究方向，为资源受限语言环境下的NLP技术发展提供了重要支撑。

解决学术问题

该数据集系统性地解决了巴西葡萄牙语NLP研究中面临的核心挑战，包括低资源语言环境下模型泛化能力不足、领域特定知识获取困难等问题。通过提供标准化的few-shot学习框架和交叉验证数据划分，显著提升了情感分类模型在真实商业场景中的鲁棒性。其意义在于构建了首个专门针对巴西葡萄牙语的综合性NLP基准测试平台，为后续研究奠定了坚实的实验基础。

衍生相关工作

围绕该数据集已衍生出多个具有影响力的研究工作，包括基于元学习的跨领域情感分类框架、结合预训练语言模型的少样本学习方法，以及针对巴西葡萄牙语的多任务学习体系。这些工作不仅在ACL、EMNLP等顶级会议上发表，还推动了Pt-BERT、BERTimbau等葡萄牙语预训练模型的发展，形成了完整的巴西葡萄牙语NLP技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集