yelp-frauddetection|欺诈检测数据集|图神经网络数据集

github2022-12-16 更新2024-05-31 收录

欺诈检测

图神经网络

下载链接：

https://github.com/wey-gu/nebulagraph-yelp-frauddetection

下载链接

链接失效反馈

资源简介：

该数据集由Dou等人引入，用于增强基于图神经网络的欺诈检测器，以识别伪装欺诈者。数据集包含Yelp评论，具有标签（是否欺诈）和32个归一化特征作为属性，以及评论之间的关系，如共享用户、共享餐厅评级和共享同一月份的餐厅。

This dataset was introduced by Dou et al. to enhance graph neural network-based fraud detectors for identifying camouflaged fraudsters. The dataset comprises Yelp reviews, featuring labels (indicating whether they are fraudulent) and 32 normalized features as attributes, along with relationships between reviews, such as shared users, shared restaurant ratings, and restaurants reviewed in the same month.

创建时间：

2022-07-20

原始信息汇总

数据集概述

数据集来源

数据集由Dou et al.在论文《Enhancing Graph Neural Network-based Fraud Detectors against Camouflaged Fraudsters》中引入。

数据集内容

顶点（Vertices）: 包含Yelp评论，每个评论有标签（is_fraud）和32个归一化特征。
边（Edges）: 描述评论间的关系，无附加属性。
- R-U-R: shares_user_with
- R-S-R: shares_restaurant_rating_with
- R-T-R: shares_restaurant_in_one_month_with

数据集文件

net_rsr.csv
net_rtr.csv
net_rur.csv
vertices.csv

数据集统计信息

顶点数量: 45954
边数量:
- shares_restaurant_in_one_month_with: 1147232
- shares_restaurant_rating_with: 6805486
- shares_user_with: 98630

数据集使用

数据集用于展示如何将NebulaGraph与DGL集成，尽管DGL已有相关数据集。

AI搜集汇总

数据集介绍

构建方式

yelp-frauddetection数据集由Dou等人提出，旨在通过图神经网络增强欺诈检测能力。该数据集构建于Yelp评论数据之上，通过提取评论之间的关系构建图结构。具体而言，数据集中的节点代表Yelp评论，每条评论包含32个归一化特征和一个欺诈标签（is_fraud）。边则代表评论之间的三种关系：共享用户（R-U-R）、共享餐厅评分（R-S-R）以及在同一月内共享餐厅（R-T-R）。数据预处理过程中，利用dgl库将邻接矩阵转换为边列表，并生成带有特征和标签的节点数据。

特点

yelp-frauddetection数据集的特点在于其丰富的图结构信息和高维特征表示。数据集包含45,954个节点和8,051,348条边，其中节点特征经过归一化处理，便于模型训练。边的类型多样，涵盖了用户、餐厅评分和时间维度的关系，为欺诈检测提供了多维度的上下文信息。此外，数据集的欺诈标签为二分类任务提供了明确的监督信号，使其成为研究图神经网络在欺诈检测领域应用的理想选择。

使用方法

使用yelp-frauddetection数据集时，首先需通过提供的脚本下载并转换为CSV格式。随后，可将数据导入NebulaGraph图数据库，利用其强大的图计算能力进行查询和分析。对于图神经网络的研究，数据集已集成至DGL库，用户可通过NebulaLoader加载数据并构建图结构。加载后的图可直接用于模型训练，支持多种图神经网络算法的实现。此外，数据集还提供了详细的导入和查询示例，便于用户快速上手。

背景与挑战

背景概述

yelp-frauddetection数据集由Dou等人于2020年提出，旨在通过图神经网络（GNN）技术提升欺诈检测的准确性，特别是在面对伪装欺诈者时。该数据集的核心研究问题是如何利用用户评论之间的复杂关系网络来识别潜在的欺诈行为。数据集包含了Yelp平台上的用户评论数据，每条评论被标记为欺诈或非欺诈，并附带了32个归一化的特征。评论之间的关系通过三种类型的边表示：共享用户、共享餐厅评分以及在同一月内共享餐厅。该数据集的发布推动了图神经网络在欺诈检测领域的应用，并为相关研究提供了重要的基准数据。

当前挑战

yelp-frauddetection数据集在解决欺诈检测问题时面临多重挑战。首先，欺诈者通常会通过伪装行为来规避检测，这使得传统的基于特征的检测方法难以奏效。其次，数据集中评论之间的关系网络非常复杂，如何有效建模这些关系并从中提取有用的信息是一个关键难题。此外，数据集的构建过程中也面临技术挑战，例如如何将原始的邻接矩阵转换为适合图神经网络处理的边列表格式，以及如何在保持数据完整性的同时进行高效的特征提取和标签分配。这些挑战不仅考验了数据处理的技术能力，也对模型的鲁棒性和泛化能力提出了更高的要求。

常用场景

经典使用场景

在电子商务和在线评论平台中，yelp-frauddetection数据集被广泛应用于检测虚假评论。通过分析用户评论之间的关系，如共享用户、共享餐厅评分或共享同一餐厅在一个月内的评论，该数据集能够有效识别潜在的欺诈行为。这种基于图神经网络的方法不仅提高了检测的准确性，还增强了系统对伪装欺诈者的识别能力。

实际应用

yelp-frauddetection数据集在实际应用中，主要用于提升在线评论平台的信誉管理。通过实时监控和分析用户评论之间的关系，平台能够迅速识别并处理虚假评论，从而维护平台的公正性和用户的信任度。此外，该数据集还可用于优化推荐系统，确保用户获得真实可靠的推荐内容。

衍生相关工作

基于yelp-frauddetection数据集，许多经典研究工作得以展开。例如，Dou等人提出的CARE-GNN模型，通过增强图神经网络的欺诈检测能力，显著提升了检测效果。此外，该数据集还促进了图神经网络与其他机器学习技术的结合，推动了欺诈检测领域的多学科交叉研究。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

5,000+

优质数据集

54 个

任务类型

进入经典数据集