HARD: Hotel Arabic-Reviews Dataset

github2020-02-26 更新2024-05-31 收录

下载链接：

https://github.com/abedkhooli/HARD-Arabic-Dataset-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含93700条阿拉伯语酒店评论，这些评论收集自2016年6月至7月的Booking.com网站。评论使用现代标准阿拉伯语和方言阿拉伯语表达。数据集详细统计了评论数量、酒店数量、用户数量等，并提供了平衡和不平衡两种数据集格式，用于正负情感分析。

This dataset comprises 93,700 hotel reviews in Arabic, collected from the Booking.com website between June and July 2016. The reviews are expressed in both Modern Standard Arabic and dialectal Arabic. The dataset provides detailed statistics on the number of reviews, hotels, and users, and offers both balanced and unbalanced dataset formats for positive and negative sentiment analysis.

创建时间：

2018-12-18

原始信息汇总

HARD: Hotel Arabic-Reviews Dataset 概述

数据集描述

语言：阿拉伯语
来源：Booking.com
采集时间：2016年6月至7月
内容：包含93,700条酒店评论，涵盖现代标准阿拉伯语及方言阿拉伯语。

数据集统计

属性	数量
评论总数	373,750
酒店数量	1,858
平均每酒店评论数	264
最大每酒店评论数	5,793
用户数量	30,889
平均每用户评论数	15.8
令牌总数	8,520,886

数据集内容

平衡数据集

文件：balanced-reviews.tsv, balanced-reviews.csv
格式：TSV 和 CSV
内容：包含93,700条评论，分为正面（评分4-5）和负面（评分1-2）两类，每类46,850条。
记录格式：评分<TAB>情感<TAB>评论ID<TAB>酒店ID<TAB>用户ID<TAB>夜数<TAB>评论文本

非平衡数据集

文件：unbalanced-reviews.tsv.rar, unbalanced-reviews.csv.rar
格式：TSV 和 CSV
内容：包含373,750条评论，包括所有评论。
记录格式：评分<TAB>评论ID<TAB>酒店ID<TAB>用户ID<TAB>夜数<TAB>评论文本

引用信息

若使用此数据集，请引用以下论文：

Elnagar A., Khalifa Y.S., Einea A. (2018) Hotel Arabic-Reviews Dataset Construction for Sentiment Analysis Applications. In: Shaalan K., Hassanien A., Tolba F. (eds) Intelligent Natural Language Processing: Trends and Applications. Studies in Computational Intelligence, vol 740, pp: 35-52. Springer International Publishing. doi="10.1007/978-3-319-67056-0_3. url="https://doi.org/10.1007/978-3-319-67056-0_3"

搜集汇总

数据集介绍

构建方式

HARD数据集的构建采取了对Booking.com网站在2016年6月至7月期间收集的阿拉伯语酒店评论进行整合的方式。该数据集涵盖了现代标准阿拉伯语以及方言阿拉伯语表达的评论，总计包含93700条评论，涉及1858家酒店和30889名用户。

特点

HARD数据集的主要特点在于其语言多样性，包含现代标准阿拉伯语及方言，且数据分布均衡。数据集分为平衡数据集和不平衡数据集两种，平衡数据集包含等量的正面和负面评论，而不平衡数据集则包含了所有的评论。此外，数据集的标注质量高，为情感分析提供了良好的基础。

使用方法

使用HARD数据集时，用户可以根据需求选择平衡或不平衡的数据集版本。数据集以tab-separated和CSV格式提供，其中每条记录包含用户评分、情感标签、评论ID、酒店ID、用户ID、住宿晚数和评论文本。用户可直接加载这些数据，进行情感分析等相关任务的研究和开发。

背景与挑战

背景概述

HARD数据集，全称为Hotel Arabic-Reviews Dataset，是一个包含阿拉伯语酒店评论的集合，收集于2016年6月至7月间，源自Booking.com网站。该数据集由Elnagar A.、Khalifa Y.S.和Einea A.等研究人员构建，旨在为情感分析应用提供基础资源。数据集涵盖了93700条评论，其中既包括现代标准阿拉伯语在内的方言阿拉伯语在内的表达能力，对酒店服务业的认识和评价能力。HARD数据集在酒店服务业领域的相关技能，对于理解和服务评价具有显著影响力。数据集的构建不仅对研究领域具有推动作用，也提供了评价酒店服务质量的标准方法。

当前挑战

HARD数据集在构建过程中，面临诸多挑战。首先，数据集在领域问题解决能力，如情感分析和酒店服务评价等方面。其次，数据集构建过程中的挑战包括但不限于数据的平衡性、评论的多样性和评价标准的一致性。具体而言，数据集需解决如何处理不平衡数据、如何兼顾评论的正负两面以及如何在评价中保持中立和客观等问题。同时，数据集的构建还需克服困难，如数据清洗、分析和评价酒店服务质量的标准化、规范化的能力。

常用场景

经典使用场景

在自然语言处理领域，特别是情感分析研究中，HARD数据集以其丰富的阿拉伯语酒店评论内容，成为检验算法性能的重要基准。该数据集常被用于构建和评估情感分类模型，以实现对酒店评论正面或负面情感的自动识别。

衍生相关工作

基于HARD数据集，研究者们衍生出了多项相关工作，包括但不限于跨语言情感分析算法的开发、情感分析模型的优化，以及结合多模态信息（如用户评分、入住时间等）的情感预测研究，进一步推动了该领域的发展。

数据集最近研究