astrosbd/fake-review
收藏Hugging Face2023-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/astrosbd/fake-review
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: cat
dtype: string
- name: note
dtype: float64
- name: label
dtype: string
- name: text
dtype: string
- name: instruction
dtype: string
- name: full_instruction
dtype: string
splits:
- name: train
num_bytes: 49524950
num_examples: 40432
download_size: 19234619
dataset_size: 49524950
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
astrosbd
原始信息汇总
数据集概述
数据特征
- cat: 类型为字符串(string)
- note: 类型为浮点数(float64)
- label: 类型为字符串(string)
- text: 类型为字符串(string)
- instruction: 类型为字符串(string)
- full_instruction: 类型为字符串(string)
数据分割
- train: 包含40432个样本,占用49524950字节
数据集大小
- 下载大小: 19234619字节
- 数据集大小: 49524950字节
配置
- default: 包含训练数据文件,路径为
data/train-*
搜集汇总
数据集介绍

构建方式
在互联网信息爆炸的时代,虚假评论的泛滥严重干扰了消费者决策与市场秩序。astrosbd/fake-review数据集应运而生,旨在为虚假评论检测研究提供标准化训练资源。该数据集通过系统化采集与人工标注构建而成,包含cat、note、label、text、instruction及full_instruction六个字段,其中text字段存储评论文本,label字段标注评论真伪,instruction与full_instruction字段则提供了针对每条评论的检测指令,为模型训练提供了结构化输入。数据集共包含40,432条训练样本,以单一训练集划分形式呈现,数据文件采用分片存储方式,便于分布式加载与处理。
特点
该数据集的核心特色在于其多维度的信息标注与任务适配性。不同于仅包含文本与标签的简单数据集,astrosbd/fake-review额外提供了cat类别字段与note数值评分,能够支持细粒度的虚假评论分类与回归分析。尤为突出的是instruction与full_instruction字段的设计,使得该数据集天然适配指令微调范式,可无缝用于训练大型语言模型执行虚假评论识别任务。此外,数据集规模适中且标注质量可靠,为研究者提供了兼顾效率与效果的实验基准。
使用方法
使用者可通过HuggingFace Datasets库便捷加载该数据。采用load_dataset('astrosbd/fake-review')命令即可获取训练数据,数据以字典形式返回,每个样本包含完整字段。建议将text字段作为模型输入,label字段作为监督信号,instruction字段作为任务提示,构建端到端的虚假评论分类流水线。对于需要处理长文本的场景,可结合tokenizer对text进行编码;若进行指令微调,则可将instruction与text拼接作为模型输入序列。数据分片存储的特性要求加载时指定所有分片文件,确保完整读取40,432条样本。
背景与挑战
背景概述
在电子商务与社交媒体迅猛发展的当下,虚假评论已成为困扰在线信誉系统的顽疾,严重侵蚀消费者信任并扭曲市场信息。为应对这一挑战,astrosbd/fake-review数据集应运而生,其创建依托于对自然语言处理与对抗性检测的深刻理解,旨在为虚假评论识别提供标准化训练与评估基准。该数据集由astrosbd团队于近期发布,核心研究问题聚焦于如何通过细粒度特征(如评论情感倾向、文本风格及元数据)构建鲁棒的分类模型。其影响力在于填补了中文环境下高质量虚假评论标注数据的空白,为后续研究提供了可复现的对比框架,推动了该领域从规则匹配向深度学习方法的转变。
当前挑战
当前虚假评论检测面临的核心挑战在于对抗性样本的涌现——恶意用户通过模仿真实评论的语义分布、刻意保持情感一致性等手段规避传统检测算法。astrosbd/fake-review数据集在构建过程中需解决标注歧义性难题,即同一评论在不同评判标准下可能被归为真假两类,需设计多轮人工与机器协同的标注策略以降低噪声。此外,领域漂移问题亦不容忽视,不同商品类别(如电子产品与餐饮服务)的评论语言模式差异显著,单一模型难以泛化,而数据集的类别平衡性与代表性需在有限样本中实现最优折中,这对数据采集的覆盖广度提出了严苛要求。
常用场景
经典使用场景
在电子商务与在线评论系统蓬勃发展的背景下,虚假评论的泛滥严重侵蚀了消费者信任与平台生态的公正性。astrosbd/fake-review数据集以结构化的文本与标签形式,提供了包含评论文本、类别、评分及指令信息的训练样本,成为构建虚假评论检测模型的经典基石。研究者通常利用其标注的‘label’字段,结合‘text’特征,训练二分类或多分类模型,以识别评论的真伪,这一场景在自然语言处理与计算广告学中具有广泛代表性。
解决学术问题
该数据集直击学术领域中一个核心难题:如何从海量非结构化文本中自动甄别出具有欺骗性的评论。它解决了传统方法中数据稀疏与标注不一致的困境,为对比学习、对抗训练及预训练语言模型(如BERT、RoBERTa)的微调提供了可靠的基准。其意义在于推动了虚假信息检测理论的系统性演进,使研究者能够量化不同特征(如情感极性、语义连贯性)对检测性能的影响,进而深化对语言欺骗模式的理解。
衍生相关工作
围绕此数据集,学术界衍生了一系列经典工作,例如基于注意力机制的虚假评论检测框架、融合用户行为特征的图神经网络模型,以及利用元学习进行少样本场景下的欺骗识别。同时,该数据集常与‘Deceptive Opinion Spam Corpus’等资源进行交叉验证,催生了诸如多模态虚假检测、跨领域迁移学习等前沿方向,进一步拓展了其作为基准在鲁棒性与泛化性研究中的价值。
以上内容由遇见数据集搜集并总结生成



