AFRD: Arabic Fake Reviews Detection dataset

github2024-02-10 更新2024-05-31 收录

下载链接：

https://github.com/NoorAmer0/AFRD-arabic-fake-reviews-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

阿拉伯假评论检测(AFRD)是首个黄金标准数据集，包含酒店、餐厅和产品三个域。每个域都有一组属性，包括评论者的年龄、性别、服务名称、评论文本、评分、文本极性和评论类别。该平衡数据集总共包含1728条评论，每个域的类别都是平衡的。

The Arabic Fake Review Detection (AFRD) dataset represents the inaugural gold standard collection, encompassing three domains: hotels, restaurants, and products. Each domain is characterized by a set of attributes, including the reviewer's age, gender, service name, review text, rating, text polarity, and review category. This balanced dataset comprises a total of 1,728 reviews, with categories evenly distributed across each domain.

创建时间：

2024-02-08

原始信息汇总

AFRD: Arabic Fake Reviews Detection dataset

数据集概述

领域: 酒店、餐厅、产品
属性: 评论者年龄、评论者性别、服务名称、评论文本、评分、文本极性、评论类别
数据量:
- 平衡版本: 总计1728条评论
  - 酒店: 310条
  - 餐厅: 714条
  - 产品: 704条
- 不平衡版本: 总计1958条评论
类别平衡: 每个领域的两个类别（假评论和真实评论）数量相等

评论情感平衡

每个类别内的负面和正面评论数量平衡，具体分布可参考提供的图表。

引用信息

论文: Qandos, N., Hamad, G., Alharbi, M., Alturki, S., Alharbi, W., & Albelaihi, A. A. (2024). Multiscale cascaded domain-based approach for Arabic fake reviews detection in e-commerce platforms. Journal of King Saud University-Computer and Information Sciences, 101926.

搜集汇总

数据集介绍

构建方式

AFRD数据集作为首个阿拉伯语虚假评论检测的黄金标准数据集，涵盖了酒店、餐厅和产品三个领域。每个领域均包含评论者的年龄、性别、服务名称、评论文本、评分、文本情感极性以及评论类别等属性。数据集共包含1728条评论，其中酒店领域310条，餐厅领域714条，产品领域704条，每个领域的两类评论数量均保持平衡。此外，还提供了一个包含1958条评论的不平衡版本。数据集的构建通过多领域平衡设计，确保了评论情感在各类别中的均衡分布。

特点

AFRD数据集的特点在于其多领域覆盖与平衡设计。数据集不仅涵盖了酒店、餐厅和产品三个主要领域，还在每个领域内实现了虚假评论与真实评论的数量平衡。此外，评论的情感极性也在各类别中保持均衡，确保了数据集的多样性与代表性。这种设计使得AFRD能够为阿拉伯语虚假评论检测研究提供全面且可靠的数据支持，尤其适用于多领域跨领域的模型训练与评估。

使用方法

AFRD数据集的使用方法主要围绕阿拉伯语虚假评论检测任务展开。研究者可以通过加载数据集，利用其多领域平衡特性进行模型训练与验证。数据集中的评论文本、评分、情感极性等属性为特征工程提供了丰富的信息源。此外，研究者还可以通过对比平衡与不平衡版本的数据集，探讨数据分布对模型性能的影响。使用该数据集时，建议引用相关论文，以确保学术研究的规范性与透明性。

背景与挑战

背景概述

阿拉伯语虚假评论检测数据集（AFRD）是首个针对酒店、餐厅和产品三个领域的黄金标准数据集，由Noor Amer等人于2024年创建。该数据集旨在解决电子商务平台中阿拉伯语虚假评论的检测问题，涵盖了评论者的年龄、性别、服务名称、评论文本、评分、文本情感极性及评论类别等多维度属性。AFRD包含1728条平衡评论，分别来自酒店、餐厅和产品领域，且每个领域的虚假与真实评论数量均等。该数据集的发布为阿拉伯语自然语言处理领域提供了重要的研究资源，推动了虚假评论检测技术的发展，并在电子商务平台的内容审核中具有广泛的应用潜力。

当前挑战

AFRD数据集在解决阿拉伯语虚假评论检测问题时面临多重挑战。首先，虚假评论的生成方式日益复杂，评论者可能通过模仿真实用户的写作风格或使用情感化语言来掩盖其虚假性，这增加了检测的难度。其次，阿拉伯语作为一种形态丰富的语言，其语法结构和词汇多样性使得文本分析更具挑战性。在数据集的构建过程中，研究人员需确保评论的多样性和代表性，同时平衡不同领域和情感极性的样本分布。此外，数据标注的准确性也至关重要，错误的标注可能导致模型训练偏差，影响检测效果。这些挑战共同构成了AFRD数据集在虚假评论检测领域的研究难点。

常用场景

经典使用场景

AFRD数据集在阿拉伯语虚假评论检测领域具有重要应用价值，尤其在酒店、餐厅和产品三个领域的评论分析中表现突出。研究者通过该数据集能够深入探讨虚假评论的特征，并开发出高效的检测模型。数据集中的平衡设计使得模型训练更加公正，避免了因数据不平衡导致的偏差。

解决学术问题

AFRD数据集解决了阿拉伯语虚假评论检测领域的数据稀缺问题，为研究者提供了高质量的标准数据集。通过该数据集，研究者能够验证和改进现有的虚假评论检测算法，提升检测的准确性和鲁棒性。此外，数据集的多领域设计为跨领域虚假评论检测研究提供了新的视角和可能性。

衍生相关工作

AFRD数据集衍生了一系列关于阿拉伯语虚假评论检测的研究工作。例如，基于该数据集的多尺度级联域检测方法在虚假评论检测中取得了显著效果。此外，研究者还利用该数据集开发了多种机器学习和深度学习模型，进一步推动了虚假评论检测技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集