ml1m, gowalla

github2023-04-23 更新2024-05-31 收录

下载链接：

https://github.com/limhao/cosrec-

下载链接

链接失效反馈

官方服务：

资源简介：

数据集分为两个文件：**_train.txt_** 和 **_test.txt_**，每个文件包含一系列按时间顺序排列的三元组：用户、物品、评分。在序列推荐问题中，评分不重要，因此所有评分被转换为1。

The dataset is divided into two files: **_train.txt_** and **_test.txt_**. Each file contains a series of chronologically ordered triplets: user, item, and rating. In the context of sequential recommendation problems, the rating is not significant, hence all ratings are converted to 1.

创建时间：

2023-04-23

原始信息汇总

数据集概述

数据集名称

CosRec: 2D Convolutional Neural Networks for Sequential Recommendation

数据集格式

包含两个文件：train.txt 和 test.txt
每个文件包含一系列按时间顺序排列的三元组：

user item rating
所有评分均转换为1，因为问题关注的是序列推荐，评分不重要。

数据集使用

用于训练的命令示例：
- 对于ml1m数据集：
  
  python train.py --dataset=ml1m
- 对于gowalla数据集：
  
  python train.py --dataset=gowalla --d=100 --fc_dim=50 --l2=1e-6

预期性能

在ML-1M数据集上，MAP约为0.188。
在Gowalla数据集上，MAP约为0.098。

引用信息

如需引用，请使用以下格式：

@inproceedings{yan2019cosrec, title={CosRec: 2D Convolutional Neural Networks for Sequential Recommendation}, author={Yan, An and Cheng, Shuo and Kang, Wang-Cheng and Wan, Mengting and McAuley, Julian}, booktitle={Proceedings of the 28th ACM International Conference on Information and Knowledge Management}, pages={2173--2176}, year={2019}, organization={ACM} }

搜集汇总

数据集介绍

构建方式

ml1m和gowalla数据集的构建基于用户与物品的交互序列，数据被组织成两个独立的文件：_train.txt_和_test.txt_。每个文件包含一系列按时间顺序排列的三元组，格式为`用户物品评分`。由于该数据集用于序列推荐任务，评分信息被统一转换为1，以简化模型的学习过程。这种构建方式确保了数据的时间顺序性，为序列推荐模型提供了基础。

使用方法

使用ml1m和gowalla数据集时，可通过PyTorch框架加载并训练模型。用户可以通过命令行参数指定数据集名称（如`ml1m`或`gowalla`）以及相关超参数（如维度`d`和正则化参数`l2`）。训练脚本会自动读取_train.txt_和_test.txt_文件，并按时间顺序处理用户与物品的交互序列。训练完成后，模型可输出推荐结果，并通过评估指标（如MAP）衡量性能。这种使用方法简单高效，适合研究人员快速验证序列推荐算法的效果。

背景与挑战

背景概述

ml1m和gowalla数据集是用于序列推荐系统研究的重要资源，由An Yan等研究人员在2019年提出，并在CIKM会议上发表。这些数据集主要用于探索基于时间顺序的用户行为模式，旨在通过2D卷积神经网络（CosRec模型）提升推荐系统的性能。ml1m数据集源自MovieLens项目，gowalla则基于地理位置社交网络数据，两者均被广泛应用于推荐算法的验证与优化，推动了序列推荐领域的发展。

当前挑战

ml1m和gowalla数据集在解决序列推荐问题时面临多重挑战。首先，序列推荐的核心在于捕捉用户行为的时间依赖性，而数据稀疏性和长尾分布问题使得模型难以准确预测用户偏好。其次，构建过程中需处理大规模用户-项目交互数据，数据清洗和格式转换的复杂性增加了预处理难度。此外，如何在保持时间顺序的同时高效提取特征，也是模型训练中的关键挑战。这些问题的解决对提升推荐系统的准确性和实用性具有重要意义。

常用场景

经典使用场景

在推荐系统领域，ml1m和gowalla数据集被广泛应用于序列推荐任务中。这些数据集通过捕捉用户与物品之间的交互序列，帮助模型理解用户行为的时间依赖性。通过使用2D卷积神经网络（CNN），模型能够从这些序列中提取出复杂的模式，从而预测用户未来的行为。这种基于时间顺序的推荐方法在电子商务、社交媒体和在线广告等场景中具有重要的应用价值。

解决学术问题

ml1m和gowalla数据集解决了推荐系统中序列推荐的挑战，尤其是在捕捉用户行为的时间动态性方面。传统的推荐系统往往忽略了用户行为的时间顺序，而这些数据集通过提供按时间排序的用户-物品交互序列，使得模型能够更好地理解用户偏好的演变过程。这种时间序列的建模方法显著提高了推荐的准确性和个性化程度，为学术界提供了新的研究方向。

实际应用

在实际应用中，ml1m和gowalla数据集被用于优化电子商务平台的推荐系统。通过分析用户的购买历史和行为序列，平台能够更精准地推荐相关产品，提升用户满意度和购买转化率。此外，这些数据集还被应用于社交媒体平台，帮助推荐系统根据用户的历史互动行为，推送更符合其兴趣的内容，从而增强用户粘性和平台活跃度。

数据集最近研究