fake-reviews-data

github2025-07-12 更新2025-07-13 收录

下载链接：

https://github.com/bretthollenbeck/fake-reviews-data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据包含2019-2020年收集的大量亚马逊产品评论。通过直接证据和分类的结合，个别评论被标记为“虚假”或非虚假，这里的虚假意味着评论者被卖家招募并支付费用以购买产品并撰写正面评论。

This dataset contains a large collection of Amazon product reviews collected between 2019 and 2020. Individual reviews are labeled as either "deceptive" or "non-deceptive" through a combination of direct evidence and classification. Specifically, "deceptive" refers to reviews written by reviewers who were recruited and compensated by sellers to purchase the product and leave positive feedback.

创建时间：

2025-07-12

原始信息汇总

数据集概述：Amazon虚假评论数据

数据集基本信息

数据内容：2019-2020年期间收集的大量Amazon产品评论
核心标签：每条评论被标记为"虚假"或"真实"
虚假评论定义：指评论者被卖家招募并付费购买产品后撰写的正面评价

数据文件与格式

文件格式：提供CSV和JSON两种格式
下载链接：
- CSV格式：https://bretthollenbeckcom.wordpress.com/wp-content/uploads/2025/07/public_reviews_dataset.csv_.zip
- JSON格式：https://bretthollenbeckcom.wordpress.com/wp-content/uploads/2025/07/public_reviews_dataset.json_.zip

数据变量说明

fake_review_campaign_start_date：虚假评论活动的开始日期
Fake_review_product：产品是否使用虚假评论的分类结果
reviewer_classified_fake：评论者被分类为虚假的结果
reviewer_classified_real：评论者被分类为真实的结果
Reviewer_label：基于预设规则的评论者标签（真实/虚假）
Deleted_by_amazon：评论是否被Amazon删除的标记

数据应用

可用于研究虚假与真实评论的特征（包括语言学特征等）
可用于评估提出的虚假评论检测方法
可用于构建真实/虚假评论的基准标签

相关文献引用

He et al (2022a)："Detecting Fake Review Buyers Using Network Structure: Direct Evidence from Amazon"
Feldman et al (2025)："Addressing Large-scale Reviewer Recruitment on Amazon: A Reviewer-centric Approach to the Fake Review Problem"
He et al (2022b)："The Market for Fake Reviews"
Hou et al (2024)："Bridging Language and Items for Retrieval and Recommendation"

搜集汇总

数据集介绍

构建方式

在电子商务领域，虚假评论的识别一直是研究热点。fake-reviews-data数据集通过多源数据融合的方式构建，整合了2019-2020年间亚马逊平台的产品评论数据。研究者采用直接证据与分类算法相结合的方法，基于He等人(2022a)提供的虚假评论活动起始日期、Feldman等人(2025)开发的评论者行为模式分类系统，以及Hou等人(2024)记录的亚马逊删除评论数据，构建了多维度的真实性标注体系。

使用方法

研究者可通过组合不同变量构建自定义的真实性判定标准，例如将五星评价、虚假评论产品、被标记评论者三个条件叠加作为严格判定标准。数据集支持多种研究场景：既可用于训练监督学习模型，也能服务于虚假评论的语言特征分析。使用时需注意不同变量间可能存在的不一致，建议根据研究目的建立适当的变量加权或筛选机制。相关文献提供了详细的变量解释和使用范例。

背景与挑战

背景概述

fake-reviews-data数据集由Sherry He、Brett Hollenbeck等学者于2019-2020年间构建，旨在揭示亚马逊平台上的虚假评论现象。该数据集通过整合He等人在2022年提出的虚假评论交易直接证据与Feldman等人2025年开发的分类模型，对海量产品评论进行"真实/虚假"标注，其中虚假评论特指商家有偿雇佣写手发布的五星好评。作为首份结合网络结构分析与行为模式识别的虚假评论数据集，其不仅为计算语言学中的文本真实性检测提供了基准数据，更推动了《Marketing Science》等期刊关于虚假评论经济学的实证研究。

当前挑战

该数据集面临双重挑战：在领域问题层面，虚假评论检测需克服语义模糊性难题，即有偿评论往往模仿真实用户语言风格，传统NLP特征难以有效区分；同时需解决数据不平衡问题，因虚假评论仅占平台内容的微小比例。在构建过程中，研究者需处理多源异构数据的融合问题，如将Facebook招募帖时间戳、亚马逊删除记录等间接证据转化为可靠标签，这种基于弱监督学习的标注方法可能引入噪声。此外，平台动态删除机制导致2019-2023年间部分关键数据缺失，为时间序列分析带来挑战。

常用场景

经典使用场景

在电子商务与自然语言处理交叉领域，fake-reviews-data数据集为研究者提供了分析虚假评论与真实评论差异的宝贵资源。该数据集通过标注虚假评论的特征，成为验证评论真实性检测算法的黄金标准，尤其在机器学习模型训练与评估中展现出重要价值。研究者可基于语言学特征、时间序列模式及网络行为等多维度数据，深入探索虚假评论的生成机制与传播规律。

解决学术问题

该数据集有效解决了虚假评论识别领域的关键学术挑战，包括虚假评论的量化定义难题与标注标准不统一问题。通过融合Facebook招募时间戳、亚马逊删除记录等多源证据链，构建了高可靠性的标注体系，为虚假评论检测模型提供了坚实的训练基础。其创新性的数据标注方法显著提升了相关研究的可重复性与横向比较价值，推动了信息可信度评估领域的方法论进步。

实际应用

在商业实践层面，该数据集支撑了电商平台构建自动化虚假评论过滤系统，通过分析标注数据中的行为特征模式，平台可实时识别并拦截有偿虚假评论。消费者保护机构借助该数据集开发的检测工具，能够评估商品评论的可信度分布，为消费者提供购买决策支持。市场营销监管部门则利用数据集揭示的虚假评论传播规律，制定更精准的在线广告监管政策。

数据集最近研究