Sequential Recommendation Datasets|序列推荐数据集|机器学习数据集

github2024-04-23 更新2024-05-31 收录

序列推荐

机器学习

下载链接：

https://github.com/guocheng2018/Sequential-Recommendation-Datasets

下载链接

链接失效反馈

资源简介：

该仓库收集了近期研究论文中常用的序列推荐数据集，并提供了一个工具用于下载、预处理和批量加载这些数据集。预处理方法可以根据任务定制，例如短期推荐（包括基于会话的推荐）和长期短期推荐。加载过程有更快的版本，集成了PyTorch的DataLoader。

This repository compiles a collection of sequence recommendation datasets commonly used in recent research papers, and provides a tool for downloading, preprocessing, and batch loading these datasets. The preprocessing methods can be customized according to the task, such as short-term recommendation (including session-based recommendation) and long-term short-term recommendation. The loading process has a faster version, integrated with PyTorch's DataLoader.

创建时间：

2019-08-07

原始信息汇总

数据集概述

数据集名称

Sequential Recommendation Datasets

数据集描述

该数据集收集了近期研究论文中常用的顺序推荐数据集，并提供了一个工具用于下载、预处理和批量加载这些数据集。预处理方法可以根据任务进行定制，例如短期推荐（包括基于会话的推荐）和长期短期推荐。加载过程有更快的版本，集成了PyTorch的DataLoader。

包含的数据集

Amazon系列：包括书籍、电子产品、电影、CD、服装、家居、Kindle、体育、手机、健康、玩具、视频游戏、工具、美容、应用、办公、宠物、汽车、杂货、庭院、婴儿、音乐、乐器、即时视频等。
CiteULike
FourSquare-NYC
FourSquare-Tokyo
Gowalla
Lastfm1K
MovieLens20M
Retailrocket
TaFeng
Taobao
Tmall
Yelp

数据集下载与处理

下载命令：srdatasets download --dataset=[dataset_name]
处理命令：srdatasets process --dataset=[dataset_name] [--options]

数据集预处理选项

分割方法：用户基于和时间基于（默认：用户）
测试集比例：测试集对全数据集的比例（默认：0.2）
验证集比例：验证集对全训练集的比例（默认：0.1）
任务类型：短期或长期短期（默认：短期）
输入项数：前项数（默认：5）
目标项数：目标项数（默认：1）
前会话数：前会话数（默认：10）
目标选择：随机或最后选择（默认：随机）
会话间隔：会话分割间隔（分钟）（默认：0）
最小会话长度：小于此长度的会话将被丢弃（默认：2）
最大会话长度：大于此长度的会话将被截断（默认：20）
最小频率项：频率小于此的项将被丢弃（默认：5）
最小频率用户：频率小于此的用户将被丢弃（默认：5）
数据增强：不使用数据增强（默认：False）
移除重复项：移除用户序列或用户会话中的重复项（默认：False）
评分阈值：评分低于此的交互将被丢弃（Amazon, Movielens, Yelp）（默认：4）
项目类型：推荐艺术家或歌曲（Lastfm）（默认：song）

数据加载器（DataLoader）

用于加载预处理数据集的类，支持批量数据加载和负采样。
参数包括数据集名称、配置ID、批量大小、训练数据加载标志、负样本数、是否包含时间戳等。
属性包括训练数据集中的用户总数和项目总数。

免责声明

本仓库不托管或分发任何数据集，使用数据集前需确认是否具有使用许可。

AI搜集汇总

数据集介绍

构建方式

Sequential Recommendation Datasets 数据集的构建方式主要通过收集和整合多个常用的序列推荐数据集，涵盖了从电子商务到社交网络等多个领域。这些数据集经过预处理，支持用户自定义的任务类型，如短期推荐和长短期推荐。预处理步骤包括数据分割、任务相关选项配置以及常见的数据清洗操作，如去除低频项和用户、数据增强等。通过这些步骤，数据集被转化为适合模型训练的格式，确保了数据的质量和适用性。

特点

该数据集的特点在于其多样性和灵活性。首先，数据集涵盖了多个领域的真实世界数据，如亚马逊的多个产品类别、电影评分、音乐推荐等，为研究者提供了丰富的实验场景。其次，数据集支持多种预处理选项，用户可以根据具体任务需求进行定制，如数据分割方式、任务类型、会话长度等。此外，数据集还集成了PyTorch的DataLoader，支持高效的批量数据加载和负采样，极大地提升了模型训练的效率。

使用方法

使用该数据集时，用户可以通过命令行工具下载和预处理数据，支持多种数据集的自动下载和手动下载。预处理后的数据可以通过内置的DataLoader类进行加载，支持PyTorch的快速数据加载。用户可以根据任务需求设置不同的参数，如批量大小、负采样数量、是否包含时间戳等。对于短期推荐任务，用户可以加载输入项和目标项，而对于长短期推荐任务，还可以加载之前的会话信息。通过这些灵活的配置，用户可以轻松地进行模型训练和评估。

背景与挑战

背景概述

顺序推荐数据集（Sequential Recommendation Datasets）是由研究人员收集并整理的一系列常用顺序推荐数据集，旨在支持近年来相关研究论文中的实验需求。该数据集涵盖了多个领域的用户行为数据，包括亚马逊的多个产品类别、CiteULike、FourSquare、Gowalla、Lastfm、MovieLens、Retailrocket、TaFeng、Taobao、Tmall和Yelp等。这些数据集的创建和发布为顺序推荐系统的研究提供了丰富的资源，特别是在短期推荐（如基于会话的推荐）和长短期推荐任务中。通过提供下载、预处理和批量加载工具，该数据集极大地简化了研究人员在实验中的数据处理流程，推动了推荐系统领域的进一步发展。

当前挑战

顺序推荐数据集在构建和应用过程中面临多项挑战。首先，数据集的多样性和规模使得预处理过程复杂，尤其是在处理不同来源和格式的数据时，需要定制化的预处理方法。其次，顺序推荐任务本身具有挑战性，如短期推荐中如何捕捉用户的即时兴趣，以及在长短期推荐中如何平衡历史行为与当前会话的权重。此外，数据集的分割方法（基于用户或时间）和任务相关的选项（如输入长度、目标长度等）需要根据具体任务进行调整，增加了实验设计的复杂性。最后，数据集的负采样和时间戳的引入也为模型的训练和评估带来了额外的挑战。

常用场景

经典使用场景

Sequential Recommendation Datasets 数据集在推荐系统领域中广泛应用于序列推荐任务。其经典使用场景包括短期推荐（如基于会话的推荐）和长短期推荐。短期推荐任务中，模型利用用户历史行为序列中的前几个项目来预测下一个项目，而长短期推荐则结合用户的历史会话和当前会话来预测目标项目。这些任务的核心在于捕捉用户行为的动态变化和兴趣转移，从而提高推荐的准确性和个性化程度。

实际应用

在实际应用中，Sequential Recommendation Datasets 数据集被广泛用于电子商务、社交媒体和流媒体服务等领域。例如，电商平台可以利用该数据集优化用户的购物路径推荐，社交媒体平台则可以通过分析用户的行为序列来提升内容推荐的精准度。此外，流媒体服务如音乐和视频平台也能通过该数据集实现更智能的播放列表推荐，提升用户体验。

衍生相关工作

基于 Sequential Recommendation Datasets 数据集，研究者们开发了多种经典的序列推荐模型和算法。例如，基于会话的推荐模型（Session-based Recommendation Models）通过捕捉短期用户行为模式来提升推荐效果。此外，结合长短期记忆网络（LSTM）和注意力机制的模型也取得了显著的进展，这些模型能够更好地捕捉用户行为的长期依赖性和短期兴趣变化。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站，旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书，如判决书、裁定书、调解书等，涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录