Noor0/AFRD_Arabic-Fake-Reviews-Detection
收藏Hugging Face2024-02-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Noor0/AFRD_Arabic-Fake-Reviews-Detection
下载链接
链接失效反馈官方服务:
资源简介:
阿拉伯语虚假评论检测(AFRD)是第一个包含三个领域(酒店、餐厅、产品)的黄金标准数据集。每个领域都有一组属性,包括评论者的年龄、性别、服务名称、评论文本、评分、文本极性和评论类别。整体平衡数据集由1728条评论组成,其中酒店领域有310条评论,餐厅领域有714条评论,产品领域有704条评论,每个领域的两类评论数量是平衡的。此外,还有一个非平衡版本,包含1958条评论。评论的情感在每类中也是平衡的。
阿拉伯语虚假评论检测(AFRD)是第一个包含三个领域(酒店、餐厅、产品)的黄金标准数据集。每个领域都有一组属性,包括评论者的年龄、性别、服务名称、评论文本、评分、文本极性和评论类别。整体平衡数据集由1728条评论组成,其中酒店领域有310条评论,餐厅领域有714条评论,产品领域有704条评论,每个领域的两类评论数量是平衡的。此外,还有一个非平衡版本,包含1958条评论。评论的情感在每类中也是平衡的。
提供机构:
Noor0
原始信息汇总
AFRD: Arabic Fake Reviews Detection dataset
描述
Arabic Fake Reviews Detection (AFRD) 是首个黄金标准数据集,包含三个领域:酒店、餐厅和产品领域。每个领域包含一组属性,如评论者的年龄、性别、服务名称、评论文本、评分、文本极性和评论类别。总体平衡的数据集包含 1728 条评论,其中酒店领域 310 条,餐厅领域 714 条,产品领域 704 条,每个领域的两个类别都是平衡的。此外,还有一个包含 1958 条评论的不平衡版本。以下表格展示了平衡数据集中每个类别的评论数量:
| 领域 | 假类别 | 真实类别 | 总计 |
|---|---|---|---|
| 酒店 | 155 | 155 | 310 |
| 餐厅 | 357 | 357 | 714 |
| 产品 | 352 | 352 | 704 |
| 多领域 | 864 | 864 | 1728 |
此外,每个类别的评论情感是平衡的。下图展示了负面和正面评论的平衡情况:

引用
如果您使用了该数据集,请引用以下论文:
Qandos, N., Hamad, G., Alharbi, M., Alturki, S., Alharbi, W., & Albelaihi, A. A. (2024). Multiscale cascaded domain-based approach for Arabic fake reviews detection in e-commerce platforms. Journal of King Saud University-Computer and Information Sciences, 101926.
搜集汇总
数据集介绍

构建方式
在电子商务平台日益依赖用户评价的背景下,AFRD数据集作为首个阿拉伯语虚假评论检测的黄金标准资源,其构建过程体现了严谨的学术设计。该数据集覆盖酒店、餐厅和产品三个关键领域,通过精心收集与标注,形成了包含1728条评论的平衡版本,每个领域内虚假与真实评论数量均等。数据采集注重多维度属性,如评论者年龄、性别、服务名称、评论文本、评分、文本情感极性和评论类别,确保了信息的丰富性与结构性。此外,数据集中评论情感在各类别间亦保持平衡,为后续分析提供了稳定基础。
特点
AFRD数据集在自然语言处理领域展现出独特优势,其核心特点在于多领域覆盖与精细平衡设计。数据集涵盖酒店、餐厅和产品三大电子商务常见场景,每个领域均提供平衡的虚假与真实评论样本,总计1728条,且包含不平衡版本以增加灵活性。每条评论附有七项结构化属性,包括评论者人口统计信息、服务细节及情感极性,为模型训练提供了多维特征。情感分布上,负面与正面评论在各类别中均衡呈现,增强了数据集的代表性与泛化能力,适用于跨领域虚假评论检测研究。
使用方法
针对阿拉伯语虚假评论检测的研究需求,AFRD数据集提供了便捷的应用路径。研究者可直接从HuggingFace平台获取数据集,利用其结构化格式进行模型训练与评估,支持分类任务如虚假评论识别。数据集的多领域设计允许进行领域内或跨领域实验,以验证模型泛化性能。使用时应遵循CC-BY-4.0许可,并在相关工作中引用原始论文,确保学术规范性。通过整合评论文本与附加属性,用户可开发基于深度学习的检测系统,推动电子商务信任机制的优化。
背景与挑战
背景概述
在电子商务蓬勃发展的时代,阿拉伯语在线评论作为消费者决策的重要依据,其真实性日益受到关注。由Noor Amer等研究人员于2024年创建的阿拉伯语虚假评论检测数据集(AFRD),作为该领域首个黄金标准数据集,旨在应对电子商务平台中虚假评论泛滥的严峻挑战。该数据集覆盖酒店、餐厅和产品三大领域,共计1728条平衡评论,每条评论均标注了评论文本、评分、情感极性及虚假性标签等多维属性。其构建不仅为阿拉伯语自然语言处理研究填补了关键空白,也为开发跨领域的虚假信息检测模型提供了坚实的实证基础,对提升中东地区数字市场的信任与透明度具有深远影响。
当前挑战
AFRD数据集所针对的核心领域挑战在于阿拉伯语虚假评论的精准识别,这涉及对复杂语言特征、文化语境及跨领域泛化能力的深入理解。具体而言,阿拉伯语丰富的形态变化、方言变体及情感表达的微妙性,使得传统文本分类方法难以有效捕捉虚假评论的隐蔽模式。在数据集构建过程中,研究人员面临多重困难:首先,获取高质量、领域平衡且标注一致的阿拉伯语评论数据本身稀缺;其次,确保虚假与真实评论在情感分布上的平衡,以避免模型偏见;此外,跨酒店、餐厅和产品等多领域的泛化性验证,要求数据集具备足够的多样性和代表性,这些挑战共同推动了更鲁棒检测框架的探索。
常用场景
经典使用场景
在阿拉伯语自然语言处理领域,虚假评论检测是保障电子商务平台信息真实性的关键任务。AFRD数据集作为首个涵盖酒店、餐厅和产品三个领域的黄金标准数据集,其经典使用场景在于为研究者提供多领域平衡的阿拉伯语评论样本,用于训练和评估虚假评论检测模型。通过整合评论文本、评分、情感极性及用户人口统计学特征等多维度属性,该数据集能够支持跨领域的迁移学习研究,帮助模型在复杂多变的商业环境中准确识别虚假信息。
实际应用
在实际应用中,AFRD数据集可直接服务于阿拉伯语地区的电子商务平台、在线旅游服务商及社交媒体监管机构。基于该数据集训练的检测模型能够实时监控用户生成内容,自动过滤虚假或误导性评论,从而提升平台信誉、保护消费者权益。此外,在舆情分析与品牌管理领域,该数据集有助于企业识别恶意竞争行为,优化客户反馈机制,促进健康的市场生态系统建设。
衍生相关工作
AFRD数据集自发布以来,已衍生出多项经典研究工作。例如,原论文提出的多尺度级联领域检测框架,为跨领域虚假评论识别提供了方法论基础。后续研究在此基础上探索了融合深度学习和传统特征工程的混合模型,以及针对阿拉伯语形态复杂性的预训练语言模型适配方案。这些工作不仅拓展了虚假检测的技术边界,也推动了阿拉伯语自然语言处理资源体系的完善。
以上内容由遇见数据集搜集并总结生成



