bsajja7/travel-fraud-graphs

Name: bsajja7/travel-fraud-graphs
Creator: bsajja7
Published: 2026-05-08 01:00:49
License: 暂无描述

Hugging Face2026-05-08 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/bsajja7/travel-fraud-graphs

下载链接

链接失效反馈

官方服务：

资源简介：

TravelFraudBench (TFG)是首个公开可用的标记异构图基准数据集，专为基于图神经网络（GNN）的旅游网络欺诈环检测而设计。数据集包含多种节点和边缘类型，每种类型都有小、中、大三种规模的分割。具体包括9种节点类型和12种边缘关系类型，支持多种图神经网络框架如PyG、DGL和NetworkX。数据集还详细描述了三种欺诈环类型（票务欺诈、幽灵酒店和账户接管）的拓扑结构和关键信号，并提供了基线模型在中等规模上的性能比较。此外，数据集提供了快速开始的代码示例和引用信息，采用MIT许可证，允许研究和商业用途。

TravelFraudBench (TFG) is the first publicly available labeled heterogeneous graph benchmark for GNN-based fraud ring detection in travel networks. The dataset contains heterogeneous graph data split into 20 named configurations — one per node type and one per edge type — each with small, medium, and large splits. It includes 9 node types and 12 edge relation types, supporting various graph neural network frameworks like PyG, DGL, and NetworkX. The dataset details three fraud ring types (ticketing, ghost_hotel, account_takeover) with their topologies and key structural signals, and provides baseline model performance comparisons on the medium scale. It also includes quick start code examples and citation information, licensed under MIT for both research and commercial use.

提供机构：

bsajja7

搜集汇总

数据集介绍

构建方式

TravelFraudBench（TFG）是一个面向旅行网络欺诈环检测的异构图表征学习基准数据集。该数据集通过开源生成器合成构建，模拟了真实旅行场景中用户、设备、IP地址、预订、航班、酒店、评论、支付卡和忠诚度账户九类实体节点，以及用户与预订、设备、IP、忠诚账户、支付卡之间的多类交互关系。数据生成过程嵌入了三种典型的欺诈环结构——票务欺诈、幽灵酒店欺诈和账户接管欺诈，每个节点均携带二元欺诈标签、所属环标识及环类型信息。数据集提供小（约1.7万节点）、中（约10.3万节点）、大（约40万节点）三种规模，并以CSV格式按节点类型和边类型分拆为20个配置，方便灵活加载。

使用方法

用户可通过HuggingFace Datasets库按配置名称加载特定节点或边表格，例如'load_dataset("bsajja7/travel-fraud-graphs", "nodes_user", split="medium")'获取中等规模用户节点。该数据集已集成至开源Python包'travel-fraud-graphs'，支持一键生成并导出为PyTorch Geometric HeteroData、DGL及NetworkX格式。具体而言，调用generate(scale="medium", seed=42)生成图数据后，利用export_pyg()可得到异构图对象，其中user节点的10维特征向量及欺诈标签分别存于hetero["user"].x和hetero["user"].y。数据采用MIT许可协议，允许自由用于研究和商业目的。

背景与挑战

背景概述

TravelFraudBench (TFG) 是一个专为旅行网络中的欺诈团伙检测而设计的异构图表征学习基准数据集，由 Bhavana Sajja 于2026年创建并发布。该数据集以 MIT 许可协议开源，核心研究问题聚焦于利用图神经网络（GNN）识别旅行生态系统中由协作性欺诈节点构成的复杂团伙模式，涵盖票务欺诈、幽灵酒店和账户劫持三类典型欺诈类型。TFG 通过合成多类型节点（用户、设备、IP、预订、航班、酒店、评论、支付卡、忠诚度账户）及12种关系边，构建了包含小（~1.7万节点）、中（~10.3万节点）、大（~40万节点）三种规模的异构图，为欺诈检测领域提供了首个公开标注的异构图基准，推动了图神经网络在结构化欺诈分析中的系统化评估。

当前挑战

TFG 所解决的领域问题核心在于旅行网络中欺诈团伙检测的独特挑战：传统基于表格数据的欺诈检测难以捕捉节点间隐含的拓扑协作信号，而真实世界中的欺诈团伙常通过共享设备、IP或忠诚度转移等形成隐蔽的环状或星状结构，需要图模型从异构关联中恢复团伙完整拓扑。数据构建过程中面临若干挑战：模拟欺诈行为需平衡真实性与隐私性，通过设计三种植入式欺诈模式（如幽灵酒店团伙中评论节点对酒店的二分团边）确保标注可追溯；同时需调整尺度以覆盖从稀疏到密集的团伙分布，并在中大规模下维持标注平衡。此外，链接预测时的团伙拆分（如环恢复评估）要求模型不仅能判别单节点异常，还需识别团伙成员间的完整关联路径，这对现有 GNN 的拉普拉斯平滑能力构成严峻考验。

常用场景

经典使用场景

TravelFraudBench（TFG）是首个面向旅行网络欺诈团检测的公开异构图基准数据集，专为图神经网络（GNN）的节点分类任务设计。该数据集模拟了票务欺诈、幽灵酒店诈骗和账户接管三种典型欺诈团拓扑结构，包含用户、设备、IP地址、预订、航班、酒店、评论、支付卡和忠诚度账户九类节点，以及十二种边关系类型。其经典使用场景在于利用异构图中的结构信号（如共享设备、IP簇、忠诚度转账链）进行欺诈节点的二分类标注，模型需区分正常用户与参与欺诈团的恶意节点。数据提供小、中、大三种规模，支持PyG、DGL、NetworkX等框架，便于研究者直接开展GNN模型的训练与评估。

解决学术问题

该数据集解决了旅行领域欺诈团检测中缺乏标准化、公开可用标注异构图的学术困境。传统欺诈检测多聚焦于单一实体或同质图结构，忽略了涉及多类实体（如用户、设备、预订、支付卡）间复杂交互的欺诈团模式。TFG通过精确模拟三种欺诈团的拓扑关系（如星型共享设备簇、二部团状幽灵酒店评论、链式账户接管），为研究者提供了可控的评估基准。其意义在于推动了GNN在异构图欺诈检测领域的可重复性研究，揭示了图结构特征（如RGCN、GraphSAGE）相比纯表格模型（MLP）在宏F1与AUC上提升约5-6个百分点的显著优势，为设计更鲁棒的欺诈检测算法奠定了实验基础。

实际应用

在实际旅行服务平台中，该数据集可直接赋能风控系统对异常预订行为的实时识别。例如，当多个用户账户共享同一设备或IP地址时，模型可标记潜在的票务欺诈团；若一批新注册账号集中对同几家酒店发布满星好评，且使用相同设备，则可能触发幽灵酒店预警。此外，忠诚度账户间的异常转账链有助于检测账户接管攻击。数据集提供的基准结果（如图SAGE在三条数据规模上均达100%的团恢复率）证明了GNN模型在实际部署中的可用性，尤其适用于在线旅行社和酒店聚合平台，辅助安全团队自动化筛查可疑交易，降低经济损失。

数据集最近研究