ml1m, gowalla
收藏github2023-04-23 更新2024-05-31 收录
下载链接:
https://github.com/limhao/cosrec-
下载链接
链接失效反馈官方服务:
资源简介:
数据集分为两个文件:**_train.txt_** 和 **_test.txt_**,每个文件包含一系列按时间顺序排列的三元组:用户、物品、评分。在序列推荐问题中,评分不重要,因此所有评分被转换为1。
The dataset is divided into two files: **_train.txt_** and **_test.txt_**. Each file contains a series of chronologically ordered triplets: user, item, and rating. In the context of sequential recommendation problems, the rating is not significant, hence all ratings are converted to 1.
创建时间:
2023-04-23
原始信息汇总
数据集概述
数据集名称
- CosRec: 2D Convolutional Neural Networks for Sequential Recommendation
数据集格式
- 包含两个文件:train.txt 和 test.txt
- 每个文件包含一系列按时间顺序排列的三元组:
user item rating
- 所有评分均转换为1,因为问题关注的是序列推荐,评分不重要。
数据集使用
- 用于训练的命令示例:
-
对于
ml1m数据集:python train.py --dataset=ml1m
-
对于
gowalla数据集:python train.py --dataset=gowalla --d=100 --fc_dim=50 --l2=1e-6
-
预期性能
- 在ML-1M数据集上,MAP约为0.188。
- 在Gowalla数据集上,MAP约为0.098。
引用信息
-
如需引用,请使用以下格式:
@inproceedings{yan2019cosrec, title={CosRec: 2D Convolutional Neural Networks for Sequential Recommendation}, author={Yan, An and Cheng, Shuo and Kang, Wang-Cheng and Wan, Mengting and McAuley, Julian}, booktitle={Proceedings of the 28th ACM International Conference on Information and Knowledge Management}, pages={2173--2176}, year={2019}, organization={ACM} }
搜集汇总
数据集介绍

构建方式
ml1m和gowalla数据集的构建基于用户与物品的交互序列,数据被组织成两个独立的文件:_train.txt_和_test.txt_。每个文件包含一系列按时间顺序排列的三元组,格式为`用户 物品 评分`。由于该数据集用于序列推荐任务,评分信息被统一转换为1,以简化模型的学习过程。这种构建方式确保了数据的时间顺序性,为序列推荐模型提供了基础。
使用方法
使用ml1m和gowalla数据集时,可通过PyTorch框架加载并训练模型。用户可以通过命令行参数指定数据集名称(如`ml1m`或`gowalla`)以及相关超参数(如维度`d`和正则化参数`l2`)。训练脚本会自动读取_train.txt_和_test.txt_文件,并按时间顺序处理用户与物品的交互序列。训练完成后,模型可输出推荐结果,并通过评估指标(如MAP)衡量性能。这种使用方法简单高效,适合研究人员快速验证序列推荐算法的效果。
背景与挑战
背景概述
ml1m和gowalla数据集是用于序列推荐系统研究的重要资源,由An Yan等研究人员在2019年提出,并在CIKM会议上发表。这些数据集主要用于探索基于时间顺序的用户行为模式,旨在通过2D卷积神经网络(CosRec模型)提升推荐系统的性能。ml1m数据集源自MovieLens项目,gowalla则基于地理位置社交网络数据,两者均被广泛应用于推荐算法的验证与优化,推动了序列推荐领域的发展。
当前挑战
ml1m和gowalla数据集在解决序列推荐问题时面临多重挑战。首先,序列推荐的核心在于捕捉用户行为的时间依赖性,而数据稀疏性和长尾分布问题使得模型难以准确预测用户偏好。其次,构建过程中需处理大规模用户-项目交互数据,数据清洗和格式转换的复杂性增加了预处理难度。此外,如何在保持时间顺序的同时高效提取特征,也是模型训练中的关键挑战。这些问题的解决对提升推荐系统的准确性和实用性具有重要意义。
常用场景
经典使用场景
在推荐系统领域,ml1m和gowalla数据集被广泛应用于序列推荐任务中。这些数据集通过捕捉用户与物品之间的交互序列,帮助模型理解用户行为的时间依赖性。通过使用2D卷积神经网络(CNN),模型能够从这些序列中提取出复杂的模式,从而预测用户未来的行为。这种基于时间顺序的推荐方法在电子商务、社交媒体和在线广告等场景中具有重要的应用价值。
解决学术问题
ml1m和gowalla数据集解决了推荐系统中序列推荐的挑战,尤其是在捕捉用户行为的时间动态性方面。传统的推荐系统往往忽略了用户行为的时间顺序,而这些数据集通过提供按时间排序的用户-物品交互序列,使得模型能够更好地理解用户偏好的演变过程。这种时间序列的建模方法显著提高了推荐的准确性和个性化程度,为学术界提供了新的研究方向。
实际应用
在实际应用中,ml1m和gowalla数据集被用于优化电子商务平台的推荐系统。通过分析用户的购买历史和行为序列,平台能够更精准地推荐相关产品,提升用户满意度和购买转化率。此外,这些数据集还被应用于社交媒体平台,帮助推荐系统根据用户的历史互动行为,推送更符合其兴趣的内容,从而增强用户粘性和平台活跃度。
数据集最近研究
最新研究方向
在推荐系统领域,序列推荐(Sequential Recommendation)已成为研究热点之一,旨在捕捉用户行为序列中的时间依赖性,以提升个性化推荐的准确性。基于ml1m和gowalla数据集的研究,尤其是CosRec模型的提出,展示了二维卷积神经网络(2D CNN)在序列推荐中的潜力。该模型通过捕捉用户与物品交互的二维时空特征,显著提升了推荐效果。近年来,随着深度学习技术的快速发展,研究者们进一步探索了基于图神经网络(GNN)和自注意力机制(Self-Attention)的序列推荐方法,以更好地建模复杂的用户行为模式。这些研究不仅推动了推荐系统的理论进展,也为实际应用场景如电商、社交媒体等提供了更精准的推荐服务。
以上内容由遇见数据集搜集并总结生成



