community-datasets/oclar
收藏Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/oclar
下载链接
链接失效反馈官方服务:
资源简介:
OCLAR数据集由Marwan等人(2019年)收集,包含了阿拉伯语客户对广泛领域的评论,包括餐厅、酒店、医院、本地商店等。该语料库最终包含3916条5星评级的评论。为了研究目的,正面类别包括5至3星的3465条评论,负面类别包括1至2星的451条文本。数据集主要用于阿拉伯语情感分类,特别是针对黎巴嫩的服务评论。数据集的文本主要是黎巴嫩阿拉伯语。
The OCLAR dataset, collected by Marwan et al. (2019), includes Arabic customer reviews across a wide range of domains, including restaurants, hotels, hospitals, local shops, etc. The corpus finally contains 3916 reviews on a 5-star rating scale. For research purposes, the positive class includes 3465 reviews with ratings from 5 to 3, and the negative class includes 451 texts with ratings of 1 or 2. The dataset is primarily used for Arabic sentiment classification, particularly for service reviews in Lebanon. The text in the dataset is mainly in Lebanese Arabic.
提供机构:
community-datasets
原始信息汇总
数据集概述
数据集描述
数据集摘要
OCLAR数据集包含3916条阿拉伯语客户评论,来自Zomato网站,涵盖餐厅、酒店、医院、本地商店等多个领域。评论采用5级评分系统,其中3465条评论被视为正面(评分3至5),451条评论被视为负面(评分1或2)。
支持的任务和排行榜
OCLAR数据集适用于阿拉伯语情感分类任务,特别是针对服务评论,如酒店、餐厅、商店等。
语言
数据集中的文本主要为阿拉伯语,特别是黎巴嫩阿拉伯语(ar-LB)。
数据集结构
数据实例
每个数据点包含以下字段:
pagename:被评论的服务或地点的名称review:用户/客户的评论rating:评论者给出的星级评分,范围从1到5
数据字段
pagename:字符串,被评论的服务或地点的名称review:字符串,用户/客户的评论rating:整数,评论者给出的星级评分,范围从1到5
数据分割
数据集包含一个CSV文件,总计3916条评论:
- 3465条被视为正面评论(评分3至5)
- 451条被视为负面评论(评分1或2)
数据集创建
策划理由
该数据集旨在用于黎巴嫩服务评论的阿拉伯语情感分类。评论涉及公共服务,包括酒店、餐厅、商店等。
源数据
初始数据收集和规范化
数据从Google评论和Zomato网站收集。
源语言生产者
源语言生产者主要是发布评论的阿拉伯语黎巴嫩人。
注释
注释过程
数据集不包含任何额外注释。
注释者
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据的注意事项
数据集的社会影响
研究者针对阿拉伯语在黎巴嫩情境下的情感分析任务,从Google和Zomato收集了3916条服务评论。实验显示以下主要发现:
- 分类器在预测正面评论时表现自信,
- 而在预测负面情感评论时存在偏差,
- 数据集中负面评论的低比例导致逻辑回归的不确定性。
偏见讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
该数据集由以下人员策展:
- Marwan Al Omari, Lebanese University, Beirut, Lebanon
- Moustafa Al-Hajj, Lebanese University, Beirut, Lebanon
- Nacereddine Hammami, Jouf University, Aljouf, KSA
- Amani Sabra, Lebanese University, Beirut, Lebanon
许可信息
[更多信息需要]
引用信息
@InProceedings{AlOmari2019oclar, title = {Sentiment Classifier: Logistic Regression for Arabic Services Reviews in Lebanon}, authors={Al Omari, M., Al-Hajj, M., Hammami, N., & Sabra, A.}, year={2019} }
贡献
感谢@alaameloh添加此数据集。



