lm4pt/bpsad
收藏Hugging Face2022-11-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lm4pt/bpsad
下载链接
链接失效反馈官方服务:
资源简介:
巴西葡萄牙语情感分析数据集(BPSAD)由五个不同来源(Olist, B2W Digital, Buscapé, UTLC-Apps和UTLC-Movies)的评论句子组成,这些句子根据极性(0:负面;1:正面)和评分(1到5星)进行分类。数据集的语言为巴西葡萄牙语,适用于文本分类任务,特别是情感分类和评分预测。数据集的规模在1M到10M之间,属于单语种数据集。数据集的创建者未提供详细的数据集卡片,因此该卡片由贡献者编写。
Brazilian Portuguese Sentiment Analysis Dataset (BPSAD) comprises annotated review sentences from five distinct sources: Olist, B2W Digital, Buscapé, UTLC-Apps, and UTLC-Movies. All sentences are categorized based on two criteria: polarity (0 for negative, 1 for positive) and star ratings ranging from 1 to 5. The dataset is written in Brazilian Portuguese, and is suitable for text classification tasks, especially sentiment classification and rating prediction. With a scale between 1 million and 10 million samples, it is a monolingual dataset. No detailed dataset card was provided by the original creators, so this card was compiled by the contributor.
提供机构:
lm4pt
原始信息汇总
数据集概述
数据集名称
- 名称: Brazilian Portuguese Sentiment Analysis Dataset (BPSAD)
数据集摘要
- 摘要: BPSAD由5个不同来源的数据集拼接而成,每个来源包含根据极性(0: 负面;1: 正面)和评分(1至5星)分类的评价句子。
支持的任务和排行榜
- 任务:
- 极性分类:二分类问题,句子需被分类为正面(1)或负面(0)。
- 评分预测:多分类问题,评分范围从1至5星。
语言
- 语言: 巴西葡萄牙语
数据集结构
数据实例
-
极性:
{ "review_text": "Bem macio e felpudo...recomendo. Preço imbatível e entrega rápida. Compraria outro quando precisar", "polarity": 1 }
-
评分:
{ "review_text": "Bem macio e felpudo...recomendo. Preço imbatível e entrega rápida. Compraria outro quando precisar", "rating": 4 }
数据字段
- 极性:
review_text: 字符串,产品或电影评论。polarity: 整数,表示正面(1)或负面(0)评论。
- 评分:
review_text: 字符串,产品或电影评论。rating: 整数,表示评分者给出的星星数量,可能值为1, 2, 3, 4, 5。
数据分割
- 分割:
- 训练: 折叠1至8
- 验证: 折叠9
- 测试: 折叠10
| train | validation | test | |
|---|---|---|---|
| polarity | 1908937 | 238614 | 238613 |
| rating | 2228877 | 278608 | 278607 |
数据集创建
- 许可证: 未知
- 多语言性: 单语种
- 大小类别: 1M<n<10M
使用数据的考虑
- 许可证信息: 未知
- 贡献者: 感谢@guilhermelmello和@DominguesPH添加此数据集。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



