Bengali Fake Review Detection (BFRD) dataset

arXiv2024-05-04 更新2024-06-24 收录

下载链接：

https://github.com/shahariar-shibli/Bengali-Fake-Reviews-A-Benchmark-Dataset-and-Detection-System

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含7710条非虚假和1339条虚假的与食物相关的评论，这些评论是从社交媒体帖子中收集的。数据集旨在识别孟加拉语的虚假评论，并提供了一个独特的管道来转换评论中的非孟加拉语单词。

This dataset contains 7,710 genuine and 1,339 fake food-related reviews collected from social media posts. It aims to identify fake reviews in Bengali and provides a unique pipeline for converting non-Bengali words within these reviews.

创建时间：

2023-08-04

原始信息汇总

Bengali Fake Reviews: A Benchmark Dataset and Detection System

数据集概述

名称：Bengali Fake Review Detection (BFRD) 数据集
描述：这是首个公开可用的用于识别孟加拉语虚假评论的数据集，包含7710条非虚假和1339条虚假的与食品相关的评论，收集自社交媒体帖子。
数据处理：提出了一种独特的管道，将英语单词翻译成相应的孟加拉语含义，并将罗马化的孟加拉语回译为孟加拉语。
模型开发：使用多种深度学习和预训练的转换器语言模型进行了严格的实验，最终提出了一种结合四个预训练转换器的加权集成模型：BanglaBERT, BanglaBERT Base, BanglaBERT Large 和 BanglaBERT Generator。

数据集结构

代码：包含深度学习模型、转换器、集成模型和文本转换管道的所有代码。
数据集：包含两个Excel文件，分别是 fake.xlsx 和 non-fake.xlsx，每个文件包含两列：Review（收集的原始评论）和 Label（标注）。

数据集统计

标注：由4位母语为孟加拉语的说话者标注，信任度得分超过90%。
Fleiss Kappa 得分：0.83
数据量：
- 虚假评论：1339条
- 非虚假评论：7710条
类别统计：

统计指标	虚假评论	非虚假评论
总词数	155,789	927,902
总唯一词数	17,739	51,200
最大评论长度	693	1,614
平均词数	116.35	120.35
平均唯一词数	84.99	88.42

引用

如果使用该数据集，请引用以下论文：

@article{SHAHARIAR2024127732, title = {Bengali fake reviews: A benchmark dataset and detection system}, journal = {Neurocomputing}, pages = {127732}, year = {2024}, issn = {0925-2312}, doi = {https://doi.org/10.1016/j.neucom.2024.127732}, url = {https://www.sciencedirect.com/science/article/pii/S0925231224005034}, author = {G.M. Shahariar and Md. Tanvir Rouf Shawon and Faisal Muhammad Shah and Mohammad Shafiul Alam and Md. Shahriar Mahbub}, keywords = {Bengali fake reviews detection, Ensemble learning, Transformers, Deep learning, Augmentation, Transliteration}, abstract = {The proliferation of fake reviews on various online platforms has created a major concern for both consumers and businesses. Such reviews can deceive customers and cause damage to the reputation of products or services, making it crucial to identify them. Although the detection of fake reviews has been extensively studied in English language, detecting fake reviews in non-English languages such as Bengali is still a relatively unexplored research area. The novelty of the study unfolds on three fronts: (i) a new publicly available dataset called Bengali Fake Review Detection (BFRD) dataset is introduced, (ii) a unique pipeline has been proposed that translates English words to their corresponding Bengali meaning and also back transliterates Romanized Bengali to Bengali, (iii) a weighted ensemble model that combines four pre-trained transformers model is proposed. The developed dataset consists of 7710 non-fake and 1339 fake food-related reviews collected from social media posts. Rigorous experiments have been conducted to compare multiple deep learning and pre-trained transformer language models and our proposed model to identify the best-performing model. According to the experimental results, the proposed ensemble model attained a weighted F1-score of 0.9843 on a dataset of 13,390 reviews, comprising 1339 actual fake reviews, 5,356 augmented fake reviews, and 6695 reviews randomly selected from the 7710 non-fake instances.} }

搜集汇总

数据集介绍

构建方式

在孟加拉语虚假评论检测领域，数据资源的稀缺性长期制约着相关研究的发展。BFRD数据集的构建过程体现了严谨的学术规范与创新性方法。研究团队从Facebook和YouTube等社交媒体平台手动收集了总计12,000条孟加拉语食品评论，通过预设的收集标准（如帖子互动量超过200次）初步筛选数据。随后，采用多步骤预处理流程，包括去除重复标点、过滤少于三个词汇的文本以及消除重复内容，最终获得11,039条待标注文本。标注工作由四位具备自然语言处理背景的专家进行，他们依据六项具体准则（如极端情感表达、过度幽默、不合理评分等）对每条评论进行独立标注，并通过Fleiss' kappa系数（平均0.81）确保标注一致性。最终数据集包含9,049条标注评论，其中1,339条被标记为虚假评论，7,710条为非虚假评论，并创新性地引入了文本转换流程，将英语词汇翻译为孟加拉语，并将罗马化孟加拉语回译为标准孟加拉语，以处理语料中的代码混合现象。

特点

BFRD数据集作为首个公开可用的孟加拉语虚假评论检测基准，展现出多维度独特性。其核心特征在于聚焦食品领域评论，涵盖了社交媒体环境中真实且多样的语言表达，包括大量代码混合文本（英语、罗马化孟加拉语与标准孟加拉语交织）。数据集具有显著的类别不平衡性，虚假评论仅占14.8%，这反映了在线平台中虚假评论的实际分布状况，也为研究类别不平衡问题提供了真实场景。此外，数据集中评论长度分布广泛，虚假评论平均词汇量为116.35，非虚假评论为120.35，两者在词汇丰富度上相近，表明虚假评论可能采用更具吸引力的词汇策略以迷惑读者。数据集还附带了详细的元数据，包括每条评论的收集来源、标注过程中的分歧记录以及经过严格质量控制的标注结果，为后续模型的训练与评估提供了高可靠性的基础。

使用方法

BFRD数据集为孟加拉语虚假评论检测研究提供了系统化的实验框架。研究者首先需对原始评论应用内置的文本转换管道，统一处理其中的英语翻译与罗马化孟加拉语回译问题，确保文本语言的纯净性。针对数据集的类别不平衡，建议采用文本增强技术（如nlpaug和bnaug库）对虚假评论实例进行扩充，具体可通过随机掩码、词向量替换、回译与释义等方法生成增强样本，以构建平衡的训练集。在模型开发阶段，数据集支持传统深度学习模型（如CNN、BiLSTM及其混合架构）、预训练Transformer模型（如BanglaBERT、ELECTRA变体）以及集成学习方法的训练与评估。研究论文中提出的加权集成模型（融合四种预训练Transformer）可作为性能基准。数据集已按8:1:1的比例划分为训练集、验证集和测试集，并提供了不同增强级别下的数据分割方案，便于进行消融实验与模型泛化能力评估。最终，可通过加权F1分数、ROC-AUC及马修斯相关系数等指标全面评估模型性能。

背景与挑战

背景概述

随着在线评论对消费者决策和企业声誉影响的日益加深，虚假评论的泛滥已成为数字平台治理的核心议题。尽管英语领域的虚假评论检测研究已较为成熟，但针对孟加拉语等低资源语言的探索仍处于起步阶段。在此背景下，孟加拉国阿赫萨努拉科学技术大学的研究团队于2023年推出了孟加拉语虚假评论检测数据集（BFRD），这是首个公开的孟加拉语食品评论数据集，包含9049条经过专家标注的评论，其中虚假评论1339条，非虚假评论7710条。该数据集的构建旨在填补孟加拉语自然语言处理在虚假评论检测领域的空白，通过融合翻译与回译转写技术处理混合语言文本，并采用加权集成模型提升检测性能，为低资源语言的网络内容治理提供了重要的基准资源。

当前挑战

BFRD数据集面临的挑战主要体现在领域问题与构建过程两个维度。在领域问题层面，孟加拉语虚假评论检测需克服语言资源匮乏、方言变体多样、语法非标准化等固有障碍，同时需应对虚假评论撰写者日益精妙的伪装策略，以及真实评论与虚假评论在表达上的高度相似性，这导致传统语言学特征的有效性受限。在构建过程中，挑战包括从社交媒体平台采集数据时面临代码混合现象严重，需设计专用管道处理罗马化孟加拉语与英语词汇的转换；数据标注依赖人工判别，需通过多轮专家协商与Fleiss' Kappa一致性检验确保标注质量；此外，类别不平衡问题突出，虚假评论样本量不足，需借助文本增强技术扩充数据，但增强过程中需保持语义连贯性以避免引入噪声。

常用场景

经典使用场景

在孟加拉语自然语言处理领域，BFRD数据集为虚假评论检测任务提供了首个公开可用的基准资源。该数据集主要应用于监督式二元分类场景，研究者通过构建深度学习模型或预训练Transformer架构，对孟加拉语食品评论进行真实性判别。其经典使用方式包括利用卷积神经网络、双向长短期记忆网络及其混合模型提取文本特征，同时结合多种预训练的孟加拉语BERT变体进行迁移学习，以捕捉评论中的语义模式与欺骗性语言特征。

衍生相关工作

基于BFRD数据集的研究催生了多个方向的相关工作。在模型架构方面，研究者扩展了加权集成方法，结合BanglaBERT、ELECTRA和ALBERT等多种预训练模型提升检测精度。在数据增强领域，学者们进一步探索了基于回译、释义生成和词嵌入替换的混合增强策略。该数据集还促进了跨语言虚假评论检测研究，部分工作尝试通过多语言预训练模型实现知识迁移。此外，围绕可解释性分析的研究利用LIME框架揭示模型决策依据，为虚假评论的语言学特征研究提供了新的视角。

数据集最近研究