astrosbd/fake-review

Name: astrosbd/fake-review
Creator: astrosbd
Published: 2023-11-25 12:45:47
License: 暂无描述

Hugging Face2023-11-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/astrosbd/fake-review

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: cat dtype: string - name: note dtype: float64 - name: label dtype: string - name: text dtype: string - name: instruction dtype: string - name: full_instruction dtype: string splits: - name: train num_bytes: 49524950 num_examples: 40432 download_size: 19234619 dataset_size: 49524950 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

astrosbd

原始信息汇总

数据集概述

数据特征

cat: 类型为字符串（string）
note: 类型为浮点数（float64）
label: 类型为字符串（string）
text: 类型为字符串（string）
instruction: 类型为字符串（string）
full_instruction: 类型为字符串（string）

数据分割

train: 包含40432个样本，占用49524950字节

数据集大小

下载大小: 19234619字节
数据集大小: 49524950字节

配置

default: 包含训练数据文件，路径为data/train-*

搜集汇总

数据集介绍

构建方式

在互联网信息爆炸的时代，虚假评论的泛滥严重干扰了消费者决策与市场秩序。astrosbd/fake-review数据集应运而生，旨在为虚假评论检测研究提供标准化训练资源。该数据集通过系统化采集与人工标注构建而成，包含cat、note、label、text、instruction及full_instruction六个字段，其中text字段存储评论文本，label字段标注评论真伪，instruction与full_instruction字段则提供了针对每条评论的检测指令，为模型训练提供了结构化输入。数据集共包含40,432条训练样本，以单一训练集划分形式呈现，数据文件采用分片存储方式，便于分布式加载与处理。

特点

该数据集的核心特色在于其多维度的信息标注与任务适配性。不同于仅包含文本与标签的简单数据集，astrosbd/fake-review额外提供了cat类别字段与note数值评分，能够支持细粒度的虚假评论分类与回归分析。尤为突出的是instruction与full_instruction字段的设计，使得该数据集天然适配指令微调范式，可无缝用于训练大型语言模型执行虚假评论识别任务。此外，数据集规模适中且标注质量可靠，为研究者提供了兼顾效率与效果的实验基准。

使用方法

使用者可通过HuggingFace Datasets库便捷加载该数据。采用load_dataset('astrosbd/fake-review')命令即可获取训练数据，数据以字典形式返回，每个样本包含完整字段。建议将text字段作为模型输入，label字段作为监督信号，instruction字段作为任务提示，构建端到端的虚假评论分类流水线。对于需要处理长文本的场景，可结合tokenizer对text进行编码；若进行指令微调，则可将instruction与text拼接作为模型输入序列。数据分片存储的特性要求加载时指定所有分片文件，确保完整读取40,432条样本。

背景与挑战

背景概述

在电子商务与社交媒体迅猛发展的当下，虚假评论已成为困扰在线信誉系统的顽疾，严重侵蚀消费者信任并扭曲市场信息。为应对这一挑战，astrosbd/fake-review数据集应运而生，其创建依托于对自然语言处理与对抗性检测的深刻理解，旨在为虚假评论识别提供标准化训练与评估基准。该数据集由astrosbd团队于近期发布，核心研究问题聚焦于如何通过细粒度特征（如评论情感倾向、文本风格及元数据）构建鲁棒的分类模型。其影响力在于填补了中文环境下高质量虚假评论标注数据的空白，为后续研究提供了可复现的对比框架，推动了该领域从规则匹配向深度学习方法的转变。

当前挑战

当前虚假评论检测面临的核心挑战在于对抗性样本的涌现——恶意用户通过模仿真实评论的语义分布、刻意保持情感一致性等手段规避传统检测算法。astrosbd/fake-review数据集在构建过程中需解决标注歧义性难题，即同一评论在不同评判标准下可能被归为真假两类，需设计多轮人工与机器协同的标注策略以降低噪声。此外，领域漂移问题亦不容忽视，不同商品类别（如电子产品与餐饮服务）的评论语言模式差异显著，单一模型难以泛化，而数据集的类别平衡性与代表性需在有限样本中实现最优折中，这对数据采集的覆盖广度提出了严苛要求。

常用场景

经典使用场景

在电子商务与在线评论系统蓬勃发展的背景下，虚假评论的泛滥严重侵蚀了消费者信任与平台生态的公正性。astrosbd/fake-review数据集以结构化的文本与标签形式，提供了包含评论文本、类别、评分及指令信息的训练样本，成为构建虚假评论检测模型的经典基石。研究者通常利用其标注的‘label’字段，结合‘text’特征，训练二分类或多分类模型，以识别评论的真伪，这一场景在自然语言处理与计算广告学中具有广泛代表性。

解决学术问题

该数据集直击学术领域中一个核心难题：如何从海量非结构化文本中自动甄别出具有欺骗性的评论。它解决了传统方法中数据稀疏与标注不一致的困境，为对比学习、对抗训练及预训练语言模型（如BERT、RoBERTa）的微调提供了可靠的基准。其意义在于推动了虚假信息检测理论的系统性演进，使研究者能够量化不同特征（如情感极性、语义连贯性）对检测性能的影响，进而深化对语言欺骗模式的理解。

衍生相关工作

围绕此数据集，学术界衍生了一系列经典工作，例如基于注意力机制的虚假评论检测框架、融合用户行为特征的图神经网络模型，以及利用元学习进行少样本场景下的欺骗识别。同时，该数据集常与‘Deceptive Opinion Spam Corpus’等资源进行交叉验证，催生了诸如多模态虚假检测、跨领域迁移学习等前沿方向，进一步拓展了其作为基准在鲁棒性与泛化性研究中的价值。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集