Sequential Recommendation Datasets

github2024-04-23 更新2024-05-31 收录

下载链接：

https://github.com/guocheng2018/sequential-recommendation-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库收集了近年来研究论文中常用的序列推荐数据集，并提供了一个工具用于下载、预处理和批量加载这些数据集。预处理方法可以根据任务定制，例如短期推荐（包括基于会话的推荐）和长期短期推荐。加载过程有更快的版本，集成了PyTorch的DataLoader。

This repository compiles a collection of sequence recommendation datasets commonly used in recent research papers, and provides a tool for downloading, preprocessing, and batch loading these datasets. The preprocessing methods can be customized according to the task, such as short-term recommendation (including session-based recommendation) and long-term short-term recommendation. The loading process has a faster version, integrated with PyTorch's DataLoader.

创建时间：

2019-08-07

原始信息汇总

数据集概述

数据集名称

Sequential Recommendation Datasets

数据集描述

该数据集收集了近期研究论文中常用的序列推荐数据集，并提供了一个工具用于下载、预处理和批量加载这些数据集。预处理方法可以根据任务进行定制，例如：短期推荐（包括基于会话的推荐）和长短期推荐。加载过程有更快的版本，集成了PyTorch的DataLoader。

包含的数据集

Amazon-Books
Amazon-Electronics
Amazon-Movies
Amazon-CDs
Amazon-Clothing
Amazon-Home
Amazon-Kindle
Amazon-Sports
Amazon-Phones
Amazon-Health
Amazon-Toys
Amazon-VideoGames
Amazon-Tools
Amazon-Beauty
Amazon-Apps
Amazon-Office
Amazon-Pet
Amazon-Automotive
Amazon-Grocery
Amazon-Patio
Amazon-Baby
Amazon-Music
Amazon-MusicalInstruments
Amazon-InstantVideo
CiteULike
FourSquare-NYC
FourSquare-Tokyo
Gowalla
Lastfm1K
MovieLens20M
Retailrocket
TaFeng
Taobao
Tmall
Yelp

数据集下载与处理

使用命令srdatasets download --dataset=[dataset_name]下载数据集。
使用命令srdatasets process --dataset=[dataset_name] [--options]处理数据集。

数据集预处理选项

支持用户基于和时间基于两种数据集分割方法。
提供短期和长短期两种推荐任务相关的预处理选项。
包含通用选项和特定于数据集的选项，如最小频率项、最小频率用户等。

数据加载器（DataLoader）

DataLoader是一个内置类，用于简化处理后数据集的加载。
支持批量加载、负采样和时间戳包含等功能。

免责声明

本仓库不托管或分发任何数据集，用户需自行确定是否有权根据数据集的许可证使用数据集。

搜集汇总

数据集介绍

构建方式

该数据集的构建方式主要通过收集和整合多个常用的顺序推荐数据集，涵盖了从电子商务到社交媒体等多个领域。数据集的预处理步骤包括下载、清洗、分割和批量加载，用户可以根据任务需求自定义预处理方法，如短期推荐和长短期推荐。数据集的分割方法支持基于用户行为序列的用户级分割和基于时间的分割，确保数据集在不同任务中的适用性。

特点

该数据集的特点在于其多样性和灵活性。它包含了多个领域的数据集，如亚马逊的多个产品类别、电影评分、音乐推荐等，覆盖了广泛的应用场景。此外，数据集提供了多种预处理选项，用户可以根据具体任务需求进行定制，如数据增强、去重、时间戳包含等，极大地提升了数据集的适用性和研究价值。

使用方法

使用该数据集时，用户可以通过命令行工具下载和处理数据集，并通过内置的DataLoader类进行数据加载。DataLoader支持PyTorch的集成，提供了高效的批量数据加载和负采样功能。用户可以根据任务需求选择不同的数据加载配置，如批次大小、负样本数量、时间戳包含等，确保数据加载的灵活性和高效性。

背景与挑战

背景概述

顺序推荐数据集（Sequential Recommendation Datasets）是由研究人员Guocheng等人创建并维护的开源项目，旨在为顺序推荐系统研究提供一系列常用的数据集。这些数据集涵盖了多个领域，包括电子商务、社交网络、音乐推荐等，主要用于短期和长期推荐任务的研究。通过提供统一的下载、预处理和批量加载工具，该数据集极大地简化了研究人员在实验中的数据准备工作，推动了顺序推荐系统领域的发展。

当前挑战

顺序推荐数据集面临的挑战主要集中在数据预处理和任务多样性上。首先，数据集的多样性要求预处理方法能够灵活适应不同的任务需求，如短期推荐和长短期推荐。其次，数据集的规模和复杂性使得数据分割和特征提取变得复杂，尤其是在时间序列数据的处理上。此外，数据集的多样性也带来了数据质量和一致性的挑战，确保数据集在不同任务中的适用性和可靠性是当前研究的重点。

常用场景

经典使用场景

Sequential Recommendation Datasets 数据集在推荐系统领域中广泛应用于序列推荐任务。其经典使用场景包括短期推荐和长短期推荐。短期推荐任务中，模型利用用户的历史行为序列预测下一个或多个目标项目，而长短期推荐则结合用户的历史会话和当前会话来预测目标项目。这些任务的核心在于捕捉用户行为的动态变化和兴趣转移，从而提高推荐的准确性和个性化程度。

衍生相关工作

基于 Sequential Recommendation Datasets 数据集，研究者们开发了多种经典的推荐算法和模型。例如，基于会话的推荐模型（Session-based Recommendation Models）通过分析用户在短期内的行为序列，预测用户的下一步行为。此外，长短期记忆网络（LSTM）和注意力机制（Attention Mechanism）等深度学习技术也被广泛应用于该数据集，以捕捉用户行为的复杂模式和动态变化，进一步提升了推荐系统的性能和效果。

数据集最近研究