five

Tmall, Retailrocket, IJCAI, DBLP, AMiner, Industry

收藏
github2024-12-31 更新2025-01-06 收录
下载链接:
https://github.com/HKUDS/DiffGraph
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库使用了多个公开数据集进行评估,包括Tmall、Retailrocket、IJCAI、DBLP、AMiner以及一个工业数据集。Tmall数据集包含用户、商品和交互类型(如查看、收藏、购物车、购买);Retail Rocket数据集包含用户、商品和交互类型(如查看、购物车、交易);IJCAI数据集包含用户、商品和交互类型(如查看、收藏、购物车、购买);DBLP和AMiner数据集用于节点分类任务,包含作者、论文、会议等节点和元路径信息;工业数据集用于用户分类,包含用户、商品和交互类型(如购买、好友、完成任务)。

This repository uses multiple public datasets for evaluation, including Tmall, Retailrocket, IJCAI, DBLP, AMiner, and one industrial dataset. Specifically, the Tmall dataset contains users, items, and interaction types such as view, favorite, cart, and purchase. The Retail Rocket dataset covers users, items, and interaction types including view, cart, and transaction. The IJCAI dataset includes users, items, and interaction types like view, favorite, cart, and purchase. The DBLP and AMiner datasets are applied to node classification tasks, featuring nodes such as authors, papers, conferences, and meta-path information. The industrial dataset is designed for user classification, containing users, items, and interaction types such as purchase, friend interaction, and task completion.
创建时间:
2024-12-19
原始信息汇总

数据集概述

数据集名称

DiffGraph: Heterogeneous Graph Diffusion Model

数据集简介

DiffGraph 是一个异构图扩散模型,旨在解决传统图神经网络(GNNs)在处理复杂异构图结构时的挑战。该模型通过引入跨视图去噪策略,将辅助异构图数据转换为目标语义空间,从而提取任务相关信息。DiffGraph 采用了一种潜在的异构图扩散机制,通过创新的前向和后向扩散过程来管理噪声,同时实现异构图去噪和跨类型转换。

数据集任务

  • 链接预测(Link Prediction)
  • 节点分类(Node Classification)

数据集内容

链接预测任务数据集

  • Tmall
    • 用户数:31,882
    • 商品数:31,232
    • 链接数:1,451,29
    • 交互类型:查看、收藏、购物车、购买
  • Retail Rocket
    • 用户数:2,174
    • 商品数:30,113
    • 链接数:97,381
    • 交互类型:查看、购物车、交易
  • IJCAI
    • 用户数:17,435
    • 商品数:35,920
    • 链接数:799,368
    • 交互类型:查看、收藏、购物车、购买
  • Industry
    • 用户数:1M
    • 商品数:361
    • 链接数:23,890,445
    • 交互类型:购买、好友、完成任务

节点分类任务数据集

  • DBLP
    • 节点类型:作者、论文、会议、术语
    • 元路径:APA、APCPA、APTPA
  • AMiner
    • 节点类型:论文、作者、参考文献
    • 元路径:PAP、PRP、POS

代码结构

  • DiffGraph-Rec
    • 包含链接预测任务的代码和数据集
    • 主要文件:DataHandler.py、main.py、param.py、Model.py
    • 工具文件夹:Utils(包含TimeLogger.py、Utils.py)
  • DiffGraph_NC
    • 包含节点分类任务的代码和数据集
    • 主要文件:DataHandler.py、main.py、param.py、Model.py
    • 工具文件夹:Utils(包含TimeLogger.py、Utils.py)

环境要求

  • Python 3.8
  • torch 1.12.1
  • numpy 1.23.1
  • scipy 1.9.1
  • dgl 1.0.2+cu113
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于多个公开的商业和学术平台,涵盖了丰富的异构图结构数据。具体而言,Tmall、Retailrocket和IJCAI数据集分别从电商平台和学术会议中提取,记录了用户与商品之间的多种交互行为,如浏览、收藏、加购和购买等。DBLP和AMiner数据集则聚焦于学术领域,捕捉了作者、论文、会议和术语之间的复杂关系。此外,Industry数据集来自一个流行的游戏平台,记录了用户的购买、好友关系和任务完成情况。这些数据通过多源异构信息的整合,形成了一个具有广泛代表性的实验数据集。
特点
该数据集的特点在于其异构性和多样性。Tmall、Retailrocket和IJCAI数据集提供了丰富的用户-商品交互类型,能够有效支持推荐系统中的链接预测任务。DBLP和AMiner数据集则通过多层次的元路径(如APA、APCPA等)刻画了学术网络中的复杂语义关系,适用于节点分类任务。Industry数据集则以其大规模的用户行为数据为特色,为用户分类任务提供了坚实的基础。这些数据集不仅覆盖了多种应用场景,还通过异构图的构建方式,充分体现了真实世界数据的复杂性和多样性。
使用方法
该数据集的使用方法主要分为链接预测和节点分类两类任务。对于链接预测任务,用户可以通过加载Tmall、Retailrocket和IJCAI数据集,利用DiffGraph框架中的跨视图去噪策略,提取任务相关的语义信息,从而优化推荐系统的性能。对于节点分类任务,DBLP和AMiner数据集可通过元路径的构建,捕捉学术网络中的语义过渡,进而提升分类精度。Industry数据集则适用于大规模用户行为分析,用户可通过DiffGraph的潜在异构图扩散机制,实现噪声管理和复杂语义关系的建模。代码结构清晰,用户可根据任务需求选择相应的模块进行实验。
背景与挑战
背景概述
随着图神经网络(GNNs)的快速发展,图结构数据的建模能力得到了显著提升。然而,传统GNN在处理现实世界中常见的复杂异构图结构时仍面临诸多挑战。为了应对这些挑战,研究人员提出了异构图扩散模型(DiffGraph),该模型通过跨视图去噪策略,将辅助异构数据转化为目标语义空间,从而提取任务相关信息。DiffGraph的提出不仅解决了异构图中的噪声问题,还通过创新的前向和后向扩散过程实现了异构图去噪和跨类型转换。该模型在多个公开和工业数据集上进行了验证,结果表明其在链接预测和节点分类任务中均优于现有方法。
当前挑战
DiffGraph数据集的研究面临两大主要挑战。首先,异构图结构中的噪声数据会严重影响嵌入学习和图学习任务的表现,如何有效去噪成为关键问题。其次,现有方法难以捕捉异构关系之间的复杂语义转换,这直接影响了下游预测任务的准确性。此外,在构建数据集的过程中,如何从真实商业平台和学术社交网络中提取高质量的数据,并确保数据的多样性和代表性,也是一个重要的挑战。这些挑战不仅要求模型具备强大的去噪能力,还需要在数据处理和模型设计上进行创新。
常用场景
经典使用场景
在推荐系统和学术社交网络分析领域,Tmall、Retailrocket、IJCAI、DBLP、AMiner和Industry数据集被广泛应用于链接预测和节点分类任务。这些数据集通过捕捉用户与商品之间的交互行为或学者与出版物之间的关联关系,为复杂异构图结构的学习提供了丰富的数据支持。特别是在电子商务平台中,Tmall和Retailrocket数据集被用于优化推荐算法,提升用户购物体验;而在学术领域,DBLP和AMiner数据集则被用于分析学者合作网络和学术影响力。
实际应用
在实际应用中,Tmall和Retailrocket数据集被广泛应用于电子商务平台的个性化推荐系统,通过分析用户的浏览、收藏、购物车和购买行为,优化商品推荐策略。IJCAI数据集则被用于学术会议推荐系统,帮助学者发现相关研究领域和合作机会。DBLP和AMiner数据集在学术社交网络中用于分析学者合作模式和学术影响力,而Industry数据集则被用于游戏平台的用户分类和行为预测。
衍生相关工作
基于这些数据集,许多经典研究工作得以展开。例如,DiffGraph框架通过引入跨视图去噪策略和潜在异构图扩散机制,显著提升了异构图数据的学习效果。此外,基于Tmall和Retailrocket数据集的推荐算法研究,推动了电子商务平台个性化推荐系统的发展。DBLP和AMiner数据集则催生了大量关于学术社交网络分析和学者影响力评估的研究,为学术界提供了重要的数据支持和分析工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作