five

universityofbucharest/laroseda

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/universityofbucharest/laroseda
下载链接
链接失效反馈
官方服务:
资源简介:
LaRoSeDa是一个大型罗马尼亚语情感数据集,包含15,000条罗马尼亚语的产品评论,其中7,500条为正面评论,7,500条为负面评论。每条评论的星级评分为1或2(负面)和4或5(正面)。数据集分为训练集和测试集,分别包含12,000和3,000条样本。数据集的创建目的是为了促进罗马尼亚语的自然语言处理研究,特别是情感分析。

LaRoSeDa是一个大型罗马尼亚语情感数据集,包含15,000条罗马尼亚语的产品评论,其中7,500条为正面评论,7,500条为负面评论。每条评论的星级评分为1或2(负面)和4或5(正面)。数据集分为训练集和测试集,分别包含12,000和3,000条样本。数据集的创建目的是为了促进罗马尼亚语的自然语言处理研究,特别是情感分析。
提供机构:
universityofbucharest
原始信息汇总

数据集概述

数据集名称: LaRoSeDa

语言: 罗马尼亚语 (ro)

许可: CC-BY-4.0

多语言性: 单语种

大小类别: 10K<n<100K

源数据集: 原始数据

任务类别: 文本分类

任务ID: 情感分类

数据集结构

特征:

  • index: 字符串, 样本的唯一标识符。
  • title: 字符串, 评论标题。
  • content: 字符串, 评论内容。
  • starRating: 整数, 值为 {1, 2, 4, 5} 中的一个。

数据分割:

  • train: 12,000 样本
  • test: 3,000 样本

下载大小: 5,257,183 字节

数据集大小: 3,633,653 字节

数据集创建

数据收集: 从罗马尼亚最大的电子商务平台收集,包括文本内容和用户分配的星级评价。

标注过程: 样本根据用户分配的星级自动标记。

个人和敏感信息: 数据集中的文本数据为公开的互联网产品评论,作者认为不包含需要特别考虑的个人或敏感信息。

使用数据集的考虑

社会影响: 该数据集旨在促进非英语语言的文本分类研究,增强自然语言技术对更多地区和文化的可及性。

偏见讨论: 数据集中的负面评论大多为1星,正面评论大多为5星,显示出高度极化。

其他已知限制: 星级评价可能不完全反映文本的极性,自动标记过程可能存在噪声。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作