Beibei, Tmall, IJCAI
收藏github2024-12-19 更新2024-12-23 收录
下载链接:
https://github.com/HKUDS/MixRec
下载链接
链接失效反馈资源简介:
我们使用三个数据集来评估MixRec:Beibei、Tmall和IJCAI。我们采用两个代表性指标来评估top-N物品推荐的准确性:命中率(HR@N)和归一化折现累积增益(NDCG@N)。所有负样本都用于构建测试集,其中包含用户在目标行为类型下的所有正向交互。
We utilized three datasets to evaluate MixRec: Beibei, Tmall, and IJCAI. We employed two representative metrics to assess the accuracy of top-N item recommendation: Hit Rate (HR@N) and Normalized Discounted Cumulative Gain (NDCG@N). All negative samples are used to construct the test set, which contains all positive interactions of users under the target behavior type.
创建时间:
2024-12-18
原始信息汇总
MixRec: 异构图协同过滤
数据集
MixRec使用了三个数据集进行评估:Beibei、Tmall和IJCAI。评估指标包括Hit Ratio (HR@N)和Normalized Discounted Cumulative Gain (NDCG@N)。采用leave-one-out评估策略,所有负样本用于构建测试集,包含用户的所有正向交互。
| 数据集 | 用户数 | 物品数 | 交互数 | 交互密度 |
|---|---|---|---|---|
| Beibei | 21716 | 7977 | 282860 | 0.1633% |
| Tmall | 114503 | 66706 | 491870 | 0.0064% |
| IJCAI | 423423 | 874328 | 2926616 | 0.0008% |
使用方法
需要先解压Tmall和IJCAI数据集,并创建History/和Models/目录。切换工作目录到MixRec/。训练命令如下:
- Beibei
python mixrec_bei.py --data beibei --reg 1 --batch 32
- Tmall
python mixrec.py --data tmall --ssl_reg 1e-6 --reg 5e-5 --keepRate 0.4 --graphSampleN 20000 --testgraphSampleN 40000
- IJCAI
python mixrec.py --data ijcai --lr 1e-4 --graphSampleN 20000 --testgraphSampleN 40000
重要参数
reg:权重衰减正则化的权重,从集合{1e-2, 1e-3, 1e-4, 1e-5}中调整。ssl_reg和sslGlobal_reg:节点级和图级对比目标的权重衰减正则化的权重,从集合{1e-4, 1e-5, 1e-6, 1e-7}中调整。graphSampleN:训练期间子图节点数,推荐值为{10000, 15000, 20000, 25000, 30000}。testgraphSampleN:测试期间子图节点数,推荐值为{30000, 35000, 40000, 45000, 50000}。
搜集汇总
数据集介绍

构建方式
在构建该数据集时,研究者采用了三种不同的数据源:Beibei、Tmall和IJCAI。这些数据集通过收集用户与商品的交互行为来形成,涵盖了用户、商品及其交互的详细信息。为了评估推荐系统的准确性,采用了留一法评估策略,将用户的所有正向交互作为测试集,而负样本则用于构建测试集。
特点
该数据集的显著特点在于其异质性,涵盖了不同规模和密度的用户与商品交互数据。Beibei数据集具有较高的交互密度,而Tmall和IJCAI数据集则表现出较低的交互密度,这为研究不同密度下的推荐算法性能提供了丰富的实验环境。此外,数据集的构建方式确保了测试集的多样性和代表性,从而提高了评估结果的可靠性。
使用方法
使用该数据集时,首先需解压Tmall和IJCAI数据集,并创建History/和Models/目录。随后,切换到MixRec/目录下,通过指定的命令行参数进行模型训练。对于不同的数据集,提供了特定的训练命令,用户可以根据需要调整超参数,如正则化权重、子图节点数量等,以优化模型性能。
背景与挑战
背景概述
在推荐系统领域,协同过滤技术一直是核心研究方向之一。MixRec数据集的创建旨在通过异构图协同过滤方法,提升推荐系统的准确性和效率。该数据集由Beibei、Tmall和IJCAI三个子数据集组成,分别涵盖了不同规模的用户、商品和交互数据。这些数据集的构建时间虽未明确提及,但其主要研究人员或机构通过采用先进的评估指标如Hit Ratio (HR@N)和Normalized Discounted Cumulative Gain (NDCG@N),显著推动了推荐系统领域的研究进展。MixRec数据集的发布,不仅为研究人员提供了一个标准化的评估平台,还为探索更复杂的推荐算法提供了丰富的数据支持。
当前挑战
MixRec数据集在构建和应用过程中面临多项挑战。首先,数据集的异构性使得模型需要处理不同类型的交互信息,这对算法的泛化能力提出了高要求。其次,数据集的稀疏性问题尤为突出,尤其是IJCAI数据集的交互密度仅为0.0008%,这使得传统的协同过滤方法难以有效捕捉用户与商品之间的潜在关系。此外,数据集的规模庞大,如IJCAI数据集包含超过42万用户和87万商品,这对计算资源和模型训练时间提出了严峻的挑战。最后,如何在高维数据中有效提取特征并进行准确的推荐,也是该数据集应用中的一个重要难题。
常用场景
经典使用场景
在推荐系统领域,Beibei、Tmall和IJCAI数据集被广泛用于评估协同过滤算法的效果。这些数据集通过记录用户与商品的交互行为,为研究者提供了一个丰富的实验平台,以验证推荐算法在不同场景下的表现。特别是,这些数据集常用于评估推荐系统在Top-N商品推荐任务中的准确性,通过Hit Ratio (HR@N)和Normalized Discounted Cumulative Gain (NDCG@N)等指标来衡量推荐结果的质量。
实际应用
在实际应用中,Beibei、Tmall和IJCAI数据集为电商平台提供了强大的推荐算法支持。例如,电商平台可以利用这些数据集训练模型,以提高用户对商品的点击率和购买率,从而提升用户体验和平台的商业价值。此外,这些数据集还可用于个性化推荐系统的开发,帮助企业更好地理解用户需求,优化商品推荐策略。
衍生相关工作
基于Beibei、Tmall和IJCAI数据集,研究者们开发了多种经典的推荐算法和模型。例如,MixRec算法通过异构图协同过滤技术,在这些数据集上取得了显著的推荐效果。此外,这些数据集还激发了大量关于图神经网络、对比学习等新兴技术的研究,推动了推荐系统领域的技术革新和应用拓展。
以上内容由遇见数据集搜集并总结生成



