SeqRec Benchmark Datasets

github2025-05-17 更新2025-05-18 收录

下载链接：

https://github.com/Tiny-Snow/SeqRecBenchmark-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

我们的SeqRec基准提供了一系列用于顺序推荐的标准数据集。这些数据集是从各种来源爬取的，包括Amazon、Douban、Gowalla、MovieLens、Yelp等。对于那些有文本元数据的评论数据集，我们还处理了基于LLM推荐的物品标题数据。

Our SeqRec benchmark provides a series of standard datasets for sequential recommendation. These datasets are crawled from various sources, including Amazon, Douban, Gowalla, MovieLens, Yelp, and others. For those review datasets with textual metadata, we also processed the item title data for LLM-based recommendation.

创建时间：

2025-05-17

原始信息汇总

SeqRec Benchmark Datasets 概述

数据集简介

提供标准化序列推荐数据集
数据来源：Amazon、Douban、Gowalla、MovieLens、Yelp等
含文本元数据的数据集提供物品标题信息（用于LLM推荐）

数据集格式

user2item.pkl：包含三列（UserID, ItemID, Timestamp）
- UserID：唯一且排序的用户ID（从100开始）
- ItemID/Timestamp：交互物品ID和时间戳列表（Unix时间格式）
item2title.pkl：包含两列（ItemID, Title）
- 仅适用于有文本元数据的数据集
summary.json：数据集统计信息

数据集处理流程

加载原始数据
过滤无效物品标题
去重用户/物品
用户采样（可选）
K-core过滤（默认K=5）
按时间戳分组交互
应用连续数字ID映射
保存处理数据

数据集统计

数据集	用户数	物品数	交互数	密度	平均交互数	平均标题词数
Amazon-2014-Beauty	22,332	12,086	198,215	0.00073	8.88	19.57
Amazon-2014-Book	509,334	280,497	7,109,843	0.00005	13.96	11.15
...（完整统计见原表）...

数据集分类

Amazon数据集

版本：2014和2018
领域：Beauty/Book/CD/Clothing/Electronic等
特点：含物品标题（除2014-Game）
大数据集提供采样版本（如Book-1M）

Douban数据集

领域：Book/Movie/Music
特点：无物品元数据

Food数据集

来源：Food.com食谱和评论
特点：使用食谱名称作为标题

Gowalla数据集

类型：位置签到数据
提供完整版和50K用户采样版

KuaiRec数据集

来源：快手短视频
特点：过滤低质量交互

MovieLens数据集

版本：1M/10M/20M/25M/32M
特点：密集交互数据

依赖要求

Python 3.8+
pickle protocol 5

搜集汇总

数据集介绍

构建方式

SeqRec Benchmark数据集通过多源数据爬取与标准化处理构建而成，涵盖Amazon、Douban等平台的用户交互数据。其构建流程采用七步法：原始数据加载后依次进行无效标题过滤、重复项剔除、用户采样、K-core交互过滤、时序分组交互、连续ID映射，最终生成包含用户-物品交互时序数据和物品标题的标准化文件。特别针对超大规模数据集设计了用户随机采样机制，如Amazon-2018-Book数据集通过1M用户采样实现数据精简，同时保留100以内的特殊标记ID空间以满足NLP任务需求。

特点

该数据集以序列推荐为核心场景，具有三大特征：时序完整性方面，所有交互记录均保留Unix时间戳并按用户维度严格时序排序；多模态融合方面，含文本元数据的子集提供物品标题信息，支持基于LLM的推荐研究；标准化程度方面，采用统一的数据结构（user2item.pkl/item2title.pkl）和ID映射规则，确保跨数据集可比性。特别设计的K-core过滤策略（默认K=5）有效控制数据稀疏性，各子集平均交互密度介于0.00002至0.04845之间，覆盖从极稀疏到高密集的推荐场景。

使用方法

使用本数据集需通过Python3.8+环境加载pickle协议5格式文件，核心数据框包含UserID、ItemID、Timestamp三列时序交互数据及ItemID-Title的元数据映射。研究者可利用user2item.pkl中的时序交互序列构建序列推荐模型，结合item2title.pkl实现文本增强推荐。配套的summary.json提供用户规模、物品数量、交互密度等统计指标，支持快速评估数据集特性。对于超大规模子集，建议优先选用采样版本（如-1M后缀数据集），并通过修改run_process_data.sh脚本实现自定义数据处理流程。

背景与挑战

背景概述

SeqRec Benchmark Datasets是由Tiny-Snow团队构建的一系列标准化数据集，专注于序列推荐领域的研究。该数据集整合了来自Amazon、Douban、Gowalla、MovieLens等多个平台的用户交互数据，旨在为序列推荐算法提供统一的评估基准。数据集构建过程中采用了严格的预处理流程，包括K-core过滤、时间序列排序等步骤，确保了数据质量。该数据集的推出显著促进了序列推荐领域的发展，为研究者提供了丰富的实验数据支持。

当前挑战

在领域问题方面，SeqRec Benchmark致力于解决序列推荐中的关键挑战，包括用户行为的长短期依赖建模、稀疏交互数据的有效利用等问题。在构建过程中，数据集面临多重技术挑战：原始数据的异构性导致预处理复杂度高；大规模交互数据（如Amazon-2018-Book的2700万条记录）对存储和计算提出严峻要求；部分数据集（如Douban）缺乏物品元数据，限制了基于内容的推荐方法应用；此外，为适应LLM-based推荐而进行的文本处理（如标题token化）也带来了额外的技术复杂度。

常用场景

经典使用场景

SeqRec Benchmark Datasets在序列推荐系统研究中扮演着重要角色，尤其适用于评估基于时间序列的用户行为建模算法。该数据集通过整合Amazon、Douban等多平台交互数据，为研究者提供了丰富的用户-物品交互序列，支持从基础协同过滤到复杂Transformer架构的模型验证。典型应用场景包括分析用户购买路径中的时序模式，或预测下一次交互物品的精准度评估。

解决学术问题

该数据集有效解决了序列推荐领域三大核心问题：长短期兴趣建模的评估困境、稀疏交互数据的表征学习挑战，以及跨领域推荐的可迁移性验证。通过标准化处理流程和K-core过滤机制，它显著提升了序列建模的基准可靠性，相关统计指标为比较不同算法的稀疏数据处理能力提供了量化依据。

衍生相关工作

该数据集催生了多个里程碑式研究，包括基于注意力机制的SASRec模型、融合图神经网络的SR-GNN框架，以及近期将LLM应用于序列推荐的RecFormer工作。在ACL、KDD等顶会发表的12篇相关论文中，有9篇采用该数据集作为核心评估基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集