universityofbucharest/laroseda

Name: universityofbucharest/laroseda
Creator: universityofbucharest
Published: 2024-01-18 11:07:55
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/universityofbucharest/laroseda

下载链接

链接失效反馈

官方服务：

资源简介：

LaRoSeDa是一个大型罗马尼亚语情感数据集，包含15,000条罗马尼亚语的产品评论，其中7,500条为正面评论，7,500条为负面评论。每条评论的星级评分为1或2（负面）和4或5（正面）。数据集分为训练集和测试集，分别包含12,000和3,000条样本。数据集的创建目的是为了促进罗马尼亚语的自然语言处理研究，特别是情感分析。

提供机构：

universityofbucharest

原始信息汇总

数据集概述

数据集名称: LaRoSeDa

语言: 罗马尼亚语 (ro)

许可: CC-BY-4.0

多语言性: 单语种

大小类别: 10K<n<100K

源数据集: 原始数据

任务类别: 文本分类

任务ID: 情感分类

数据集结构

特征:

index: 字符串, 样本的唯一标识符。
title: 字符串, 评论标题。
content: 字符串, 评论内容。
starRating: 整数, 值为 {1, 2, 4, 5} 中的一个。

数据分割:

train: 12,000 样本
test: 3,000 样本

下载大小: 5,257,183 字节

数据集大小: 3,633,653 字节

数据集创建

数据收集: 从罗马尼亚最大的电子商务平台收集，包括文本内容和用户分配的星级评价。

标注过程: 样本根据用户分配的星级自动标记。

个人和敏感信息: 数据集中的文本数据为公开的互联网产品评论，作者认为不包含需要特别考虑的个人或敏感信息。

使用数据集的考虑

社会影响: 该数据集旨在促进非英语语言的文本分类研究，增强自然语言技术对更多地区和文化的可及性。

偏见讨论: 数据集中的负面评论大多为1星，正面评论大多为5星，显示出高度极化。

其他已知限制: 星级评价可能不完全反映文本的极性，自动标记过程可能存在噪声。

5,000+

优质数据集

54 个

任务类型

进入经典数据集