lpsc-fiuba/melisa
收藏Hugging Face2022-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lpsc-fiuba/melisa
下载链接
链接失效反馈官方服务:
资源简介:
MeLiSA数据集是一个用于西班牙语和葡萄牙语情感分析和文本分类的产品评论数据集。该数据集包含2020年8月至2021年1月期间收集的西班牙语和葡萄牙语评论。每条记录包含评论内容、标题、星级评分、发布国家和产品类别。数据集在每种语言中的星级评分分布大致平衡,每个星级评分约占评论的20%。数据集的结构包括训练、验证和测试分割,每个评论包含国家、类别、评论内容、评论标题和评分等信息。西班牙语评论来自8个不同的拉丁美洲国家,葡萄牙语评论来自巴西。数据集通过语言检测算法确保评论语言的准确性,并优先选择具有丰富语义内容的评论。
The MeLiSA Dataset is a product review dataset designed for Spanish and Portuguese sentiment analysis and text classification. It consists of reviews collected between August 2020 and January 2021. Each record contains the review content, title, star rating, publishing country, and product category. The star rating distribution is roughly balanced for each language, with each star rating accounting for approximately 20% of the total reviews. The dataset is partitioned into training, validation, and test splits, where each review includes information such as country, category, review content, review title, and rating. Spanish reviews originate from 8 distinct Latin American countries, while Portuguese reviews are sourced exclusively from Brazil. To ensure the accuracy of the review languages, the dataset employs language detection algorithms, and prioritizes reviews with rich semantic content.
提供机构:
lpsc-fiuba
原始信息汇总
数据集概述
数据集名称
MeLiSA (Mercado Libre for Sentiment Analysis)
语言
- 西班牙语 (es)
- 葡萄牙语 (pt)
许可
- 其他 (other)
多语言性
- 多语言 (multilingual)
- 西班牙语单语 (monolingual)
- 葡萄牙语单语 (monolingual)
大小分类
- 100K<n<1M (西班牙语和葡萄牙语)
源数据集
- 原始数据
任务类别
- 条件文本生成
- 序列建模
- 文本分类
- 文本评分
任务ID
- 语言建模
- 情感分类
- 情感评分
- 摘要生成
- 主题分类
数据集描述
数据集摘要
提供了一个针对西班牙语和葡萄牙语的产品评论数据集,用于文本分类。该数据集包含2020年8月至2021年1月期间收集的评论。每个记录包含评论内容、标题、星级评分、发布国家及产品类别(艺术、技术等)。每种语言的星级评分大致平衡,每种星级评分约占20%。
支持的任务和排行榜
- 情感分析
- 文本分类
数据集结构
数据实例
每个数据实例对应一条评论。每种语言的训练、验证和测试数据分别存储在不同的.csv文件中。
数据字段
country: 国家标识符category: 产品类别review_content: 评论内容review_title: 评论标题review_rate: 星级评分(1-5)
数据分割
每种语言都有独立的训练、验证和测试集。all_languages集是所有语言相应分割的合并。
数据集创建
数据收集和规范化
作者从阿根廷、哥伦比亚、秘鲁、乌拉圭、智利、委内瑞拉和墨西哥的市场收集西班牙语评论,从巴西收集葡萄牙语评论。通过排名过滤器优先选择包含丰富语义内容的评论,并使用半自动语言检测算法确保语言正确性。
源语言生产者
原始文本来自Mercado Libre的客户,他们在市场上对各种产品类别的产品进行评论。
个人和敏感信息
评论由用户提交,知道其为公开。评论者ID已匿名化,但自由形式的文本回复可能容易被去匿名化。



