five

astrosbd/fake-review

收藏
Hugging Face2023-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/astrosbd/fake-review
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: cat dtype: string - name: note dtype: float64 - name: label dtype: string - name: text dtype: string - name: instruction dtype: string - name: full_instruction dtype: string splits: - name: train num_bytes: 49524950 num_examples: 40432 download_size: 19234619 dataset_size: 49524950 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
astrosbd
原始信息汇总

数据集概述

数据特征

  • cat: 类型为字符串(string)
  • note: 类型为浮点数(float64)
  • label: 类型为字符串(string)
  • text: 类型为字符串(string)
  • instruction: 类型为字符串(string)
  • full_instruction: 类型为字符串(string)

数据分割

  • train: 包含40432个样本,占用49524950字节

数据集大小

  • 下载大小: 19234619字节
  • 数据集大小: 49524950字节

配置

  • default: 包含训练数据文件,路径为data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在互联网信息爆炸的时代,虚假评论的泛滥严重干扰了消费者决策与市场秩序。astrosbd/fake-review数据集应运而生,旨在为虚假评论检测研究提供标准化训练资源。该数据集通过系统化采集与人工标注构建而成,包含cat、note、label、text、instruction及full_instruction六个字段,其中text字段存储评论文本,label字段标注评论真伪,instruction与full_instruction字段则提供了针对每条评论的检测指令,为模型训练提供了结构化输入。数据集共包含40,432条训练样本,以单一训练集划分形式呈现,数据文件采用分片存储方式,便于分布式加载与处理。
特点
该数据集的核心特色在于其多维度的信息标注与任务适配性。不同于仅包含文本与标签的简单数据集,astrosbd/fake-review额外提供了cat类别字段与note数值评分,能够支持细粒度的虚假评论分类与回归分析。尤为突出的是instruction与full_instruction字段的设计,使得该数据集天然适配指令微调范式,可无缝用于训练大型语言模型执行虚假评论识别任务。此外,数据集规模适中且标注质量可靠,为研究者提供了兼顾效率与效果的实验基准。
使用方法
使用者可通过HuggingFace Datasets库便捷加载该数据。采用load_dataset('astrosbd/fake-review')命令即可获取训练数据,数据以字典形式返回,每个样本包含完整字段。建议将text字段作为模型输入,label字段作为监督信号,instruction字段作为任务提示,构建端到端的虚假评论分类流水线。对于需要处理长文本的场景,可结合tokenizer对text进行编码;若进行指令微调,则可将instruction与text拼接作为模型输入序列。数据分片存储的特性要求加载时指定所有分片文件,确保完整读取40,432条样本。
背景与挑战
背景概述
在电子商务与社交媒体迅猛发展的当下,虚假评论已成为困扰在线信誉系统的顽疾,严重侵蚀消费者信任并扭曲市场信息。为应对这一挑战,astrosbd/fake-review数据集应运而生,其创建依托于对自然语言处理与对抗性检测的深刻理解,旨在为虚假评论识别提供标准化训练与评估基准。该数据集由astrosbd团队于近期发布,核心研究问题聚焦于如何通过细粒度特征(如评论情感倾向、文本风格及元数据)构建鲁棒的分类模型。其影响力在于填补了中文环境下高质量虚假评论标注数据的空白,为后续研究提供了可复现的对比框架,推动了该领域从规则匹配向深度学习方法的转变。
当前挑战
当前虚假评论检测面临的核心挑战在于对抗性样本的涌现——恶意用户通过模仿真实评论的语义分布、刻意保持情感一致性等手段规避传统检测算法。astrosbd/fake-review数据集在构建过程中需解决标注歧义性难题,即同一评论在不同评判标准下可能被归为真假两类,需设计多轮人工与机器协同的标注策略以降低噪声。此外,领域漂移问题亦不容忽视,不同商品类别(如电子产品与餐饮服务)的评论语言模式差异显著,单一模型难以泛化,而数据集的类别平衡性与代表性需在有限样本中实现最优折中,这对数据采集的覆盖广度提出了严苛要求。
常用场景
经典使用场景
在电子商务与在线评论系统蓬勃发展的背景下,虚假评论的泛滥严重侵蚀了消费者信任与平台生态的公正性。astrosbd/fake-review数据集以结构化的文本与标签形式,提供了包含评论文本、类别、评分及指令信息的训练样本,成为构建虚假评论检测模型的经典基石。研究者通常利用其标注的‘label’字段,结合‘text’特征,训练二分类或多分类模型,以识别评论的真伪,这一场景在自然语言处理与计算广告学中具有广泛代表性。
解决学术问题
该数据集直击学术领域中一个核心难题:如何从海量非结构化文本中自动甄别出具有欺骗性的评论。它解决了传统方法中数据稀疏与标注不一致的困境,为对比学习、对抗训练及预训练语言模型(如BERT、RoBERTa)的微调提供了可靠的基准。其意义在于推动了虚假信息检测理论的系统性演进,使研究者能够量化不同特征(如情感极性、语义连贯性)对检测性能的影响,进而深化对语言欺骗模式的理解。
衍生相关工作
围绕此数据集,学术界衍生了一系列经典工作,例如基于注意力机制的虚假评论检测框架、融合用户行为特征的图神经网络模型,以及利用元学习进行少样本场景下的欺骗识别。同时,该数据集常与‘Deceptive Opinion Spam Corpus’等资源进行交叉验证,催生了诸如多模态虚假检测、跨领域迁移学习等前沿方向,进一步拓展了其作为基准在鲁棒性与泛化性研究中的价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作