universityofbucharest/laroseda
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/universityofbucharest/laroseda
下载链接
链接失效反馈官方服务:
资源简介:
LaRoSeDa是一个大型罗马尼亚语情感数据集,包含15,000条罗马尼亚语的产品评论,其中7,500条为正面评论,7,500条为负面评论。每条评论的星级评分为1或2(负面)和4或5(正面)。数据集分为训练集和测试集,分别包含12,000和3,000条样本。数据集的创建目的是为了促进罗马尼亚语的自然语言处理研究,特别是情感分析。
LaRoSeDa是一个大型罗马尼亚语情感数据集,包含15,000条罗马尼亚语的产品评论,其中7,500条为正面评论,7,500条为负面评论。每条评论的星级评分为1或2(负面)和4或5(正面)。数据集分为训练集和测试集,分别包含12,000和3,000条样本。数据集的创建目的是为了促进罗马尼亚语的自然语言处理研究,特别是情感分析。
提供机构:
universityofbucharest
原始信息汇总
数据集概述
数据集名称: LaRoSeDa
语言: 罗马尼亚语 (ro)
许可: CC-BY-4.0
多语言性: 单语种
大小类别: 10K<n<100K
源数据集: 原始数据
任务类别: 文本分类
任务ID: 情感分类
数据集结构
特征:
index: 字符串, 样本的唯一标识符。title: 字符串, 评论标题。content: 字符串, 评论内容。starRating: 整数, 值为 {1, 2, 4, 5} 中的一个。
数据分割:
train: 12,000 样本test: 3,000 样本
下载大小: 5,257,183 字节
数据集大小: 3,633,653 字节
数据集创建
数据收集: 从罗马尼亚最大的电子商务平台收集,包括文本内容和用户分配的星级评价。
标注过程: 样本根据用户分配的星级自动标记。
个人和敏感信息: 数据集中的文本数据为公开的互联网产品评论,作者认为不包含需要特别考虑的个人或敏感信息。
使用数据集的考虑
社会影响: 该数据集旨在促进非英语语言的文本分类研究,增强自然语言技术对更多地区和文化的可及性。
偏见讨论: 数据集中的负面评论大多为1星,正面评论大多为5星,显示出高度极化。
其他已知限制: 星级评价可能不完全反映文本的极性,自动标记过程可能存在噪声。



