Sequential Recommendation Datasets

github2024-04-23 更新2024-05-31 收录

下载链接：

https://github.com/guocheng2018/Sequential-Recommendation-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库收集了近期研究论文中常用的序列推荐数据集，并提供了一个工具用于下载、预处理和批量加载这些数据集。预处理方法可以根据任务定制，例如短期推荐（包括基于会话的推荐）和长期短期推荐。加载过程有更快的版本，集成了PyTorch的DataLoader。

This repository compiles a collection of sequence recommendation datasets commonly used in recent research papers, and provides a tool for downloading, preprocessing, and batch loading these datasets. The preprocessing methods can be customized according to the task, such as short-term recommendation (including session-based recommendation) and long-term short-term recommendation. The loading process has a faster version, integrated with PyTorch's DataLoader.

创建时间：

2019-08-07

原始信息汇总

数据集概述

数据集名称

Sequential Recommendation Datasets

数据集描述

该数据集收集了近期研究论文中常用的顺序推荐数据集，并提供了一个工具用于下载、预处理和批量加载这些数据集。预处理方法可以根据任务进行定制，例如短期推荐（包括基于会话的推荐）和长期短期推荐。加载过程有更快的版本，集成了PyTorch的DataLoader。

包含的数据集

Amazon系列：包括书籍、电子产品、电影、CD、服装、家居、Kindle、体育、手机、健康、玩具、视频游戏、工具、美容、应用、办公、宠物、汽车、杂货、庭院、婴儿、音乐、乐器、即时视频等。
CiteULike
FourSquare-NYC
FourSquare-Tokyo
Gowalla
Lastfm1K
MovieLens20M
Retailrocket
TaFeng
Taobao
Tmall
Yelp

数据集下载与处理

下载命令：srdatasets download --dataset=[dataset_name]
处理命令：srdatasets process --dataset=[dataset_name] [--options]

数据集预处理选项

分割方法：用户基于和时间基于（默认：用户）
测试集比例：测试集对全数据集的比例（默认：0.2）
验证集比例：验证集对全训练集的比例（默认：0.1）
任务类型：短期或长期短期（默认：短期）
输入项数：前项数（默认：5）
目标项数：目标项数（默认：1）
前会话数：前会话数（默认：10）
目标选择：随机或最后选择（默认：随机）
会话间隔：会话分割间隔（分钟）（默认：0）
最小会话长度：小于此长度的会话将被丢弃（默认：2）
最大会话长度：大于此长度的会话将被截断（默认：20）
最小频率项：频率小于此的项将被丢弃（默认：5）
最小频率用户：频率小于此的用户将被丢弃（默认：5）
数据增强：不使用数据增强（默认：False）
移除重复项：移除用户序列或用户会话中的重复项（默认：False）
评分阈值：评分低于此的交互将被丢弃（Amazon, Movielens, Yelp）（默认：4）
项目类型：推荐艺术家或歌曲（Lastfm）（默认：song）

数据加载器（DataLoader）

用于加载预处理数据集的类，支持批量数据加载和负采样。
参数包括数据集名称、配置ID、批量大小、训练数据加载标志、负样本数、是否包含时间戳等。
属性包括训练数据集中的用户总数和项目总数。

免责声明

本仓库不托管或分发任何数据集，使用数据集前需确认是否具有使用许可。

搜集汇总

数据集介绍

构建方式

Sequential Recommendation Datasets 数据集的构建方式主要通过收集和整合多个常用的序列推荐数据集，涵盖了从电子商务到社交网络等多个领域。这些数据集经过预处理，支持用户自定义的任务类型，如短期推荐和长短期推荐。预处理步骤包括数据分割、任务相关选项配置以及常见的数据清洗操作，如去除低频项和用户、数据增强等。通过这些步骤，数据集被转化为适合模型训练的格式，确保了数据的质量和适用性。

特点

该数据集的特点在于其多样性和灵活性。首先，数据集涵盖了多个领域的真实世界数据，如亚马逊的多个产品类别、电影评分、音乐推荐等，为研究者提供了丰富的实验场景。其次，数据集支持多种预处理选项，用户可以根据具体任务需求进行定制，如数据分割方式、任务类型、会话长度等。此外，数据集还集成了PyTorch的DataLoader，支持高效的批量数据加载和负采样，极大地提升了模型训练的效率。

使用方法

使用该数据集时，用户可以通过命令行工具下载和预处理数据，支持多种数据集的自动下载和手动下载。预处理后的数据可以通过内置的DataLoader类进行加载，支持PyTorch的快速数据加载。用户可以根据任务需求设置不同的参数，如批量大小、负采样数量、是否包含时间戳等。对于短期推荐任务，用户可以加载输入项和目标项，而对于长短期推荐任务，还可以加载之前的会话信息。通过这些灵活的配置，用户可以轻松地进行模型训练和评估。

背景与挑战

背景概述

顺序推荐数据集（Sequential Recommendation Datasets）是由研究人员收集并整理的一系列常用顺序推荐数据集，旨在支持近年来相关研究论文中的实验需求。该数据集涵盖了多个领域的用户行为数据，包括亚马逊的多个产品类别、CiteULike、FourSquare、Gowalla、Lastfm、MovieLens、Retailrocket、TaFeng、Taobao、Tmall和Yelp等。这些数据集的创建和发布为顺序推荐系统的研究提供了丰富的资源，特别是在短期推荐（如基于会话的推荐）和长短期推荐任务中。通过提供下载、预处理和批量加载工具，该数据集极大地简化了研究人员在实验中的数据处理流程，推动了推荐系统领域的进一步发展。

当前挑战

顺序推荐数据集在构建和应用过程中面临多项挑战。首先，数据集的多样性和规模使得预处理过程复杂，尤其是在处理不同来源和格式的数据时，需要定制化的预处理方法。其次，顺序推荐任务本身具有挑战性，如短期推荐中如何捕捉用户的即时兴趣，以及在长短期推荐中如何平衡历史行为与当前会话的权重。此外，数据集的分割方法（基于用户或时间）和任务相关的选项（如输入长度、目标长度等）需要根据具体任务进行调整，增加了实验设计的复杂性。最后，数据集的负采样和时间戳的引入也为模型的训练和评估带来了额外的挑战。

常用场景

经典使用场景

Sequential Recommendation Datasets 数据集在推荐系统领域中广泛应用于序列推荐任务。其经典使用场景包括短期推荐（如基于会话的推荐）和长短期推荐。短期推荐任务中，模型利用用户历史行为序列中的前几个项目来预测下一个项目，而长短期推荐则结合用户的历史会话和当前会话来预测目标项目。这些任务的核心在于捕捉用户行为的动态变化和兴趣转移，从而提高推荐的准确性和个性化程度。

实际应用

在实际应用中，Sequential Recommendation Datasets 数据集被广泛用于电子商务、社交媒体和流媒体服务等领域。例如，电商平台可以利用该数据集优化用户的购物路径推荐，社交媒体平台则可以通过分析用户的行为序列来提升内容推荐的精准度。此外，流媒体服务如音乐和视频平台也能通过该数据集实现更智能的播放列表推荐，提升用户体验。

衍生相关工作

基于 Sequential Recommendation Datasets 数据集，研究者们开发了多种经典的序列推荐模型和算法。例如，基于会话的推荐模型（Session-based Recommendation Models）通过捕捉短期用户行为模式来提升推荐效果。此外，结合长短期记忆网络（LSTM）和注意力机制的模型也取得了显著的进展，这些模型能够更好地捕捉用户行为的长期依赖性和短期兴趣变化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集