Public Datasets For Recommender Systems

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于推荐系统的高质量公共数据源的仓库，数据集从Stack Overflow、文章、推荐网站和学术实验中收集和整理。大多数数据集是免费的，具有开放源许可证，但有些需要使用或引用作者的工作时请求许可。

This repository serves as a high-quality public data source for recommendation systems, aggregating datasets from Stack Overflow, articles, recommendation websites, and academic experiments. The majority of these datasets are freely available under open-source licenses, although some require permission for use or citation of the authors' work.

创建时间：

2017-02-06

原始信息汇总

数据集概述

书籍

Book Crossing
- 描述：由Cai-Nicolas收集，数据来自Book-Crossing社区，采集时间为2004年8月至9月。
- 链接：Book Crossing

约会

Dating Agency
- 描述：包含17,359,346个匿名评分，涉及168,791个用户档案，数据来自LibimSeTi用户，采集时间为2006年4月4日。
- 链接：Dating Agency

电子商务

Amazon
- 描述：包含142.8百万产品评论及元数据，时间跨度为1996年5月至2014年7月。
- 链接：Amazon
Retailrocket recommender system dataset
- 描述：包含行为数据、商品属性和分类树描述，数据来自真实电子商务网站。
- 链接：Retailrocket

音乐

Amazon Music
- 描述：包含数字音乐的评论及元数据。
- 链接：Amazon Music
Yahoo Music
- 描述：代表Yahoo! Music社区对各种音乐艺术家的偏好。
- 链接：Yahoo Music
LastFM (Implicit)
- 描述：包含2K用户的社交网络、标签和音乐艺术家收听信息。
- 链接：LastFM
Million Song Dataset
- 描述：包含一百万当代流行音乐曲目的音频特征和元数据。
- 链接：Million Song Dataset

电影

MovieLens
- 描述：GroupLens Research收集并发布的电影评分数据集。
- 链接：MovieLens
Yahoo Movies
- 描述：包含来自两个不同来源的歌曲评分数据。
- 链接：Yahoo Movies
CiaoDVD
- 描述：从dvd.ciao.co.uk网站的DVD类别中爬取的数据集，采集时间为2013年12月。
- 链接：CiaoDVD
FilmTrust
- 描述：从整个FilmTrust网站爬取的小型数据集，采集时间为2011年6月。
- 链接：FilmTrust
Netflix
- 描述：Netflix Prize竞赛使用的官方数据集。
- 链接：Netflix

游戏

Steam Video Games
- 描述：包含用户行为数据，如购买和游戏时长。
- 链接：Steam Video Games

笑话

Jester
- 描述：包含73,496用户对100个笑话的4.1百万连续评分。
- 链接：Jester

食物

Chicago Entree
- 描述：包含用户与Entree Chicago餐厅推荐系统的交互记录。
- 链接：Chicago Entree

动漫

Anime Recommendations Database
- 描述：包含73,516用户对12,294个动漫的偏好数据。
- 链接：Anime Recommendations Database

Android 应用

Myket Android Application Install Dataset
- 描述：包含10,000用户对7,988个Android应用的694,121次安装交互。
- 链接：Myket Android Application Install Dataset

其他数据集资源

GroupLens Datasets
LibRec Datasets
Yahoo Research
Datasets for Machine Learning
Stanford Large Network Dataset Collection

搜集汇总

数据集介绍

构建方式

该数据集的构建方式主要通过从多个公开来源收集和整理推荐系统相关的数据。这些数据源包括学术实验、推荐网站、文章以及Stack Overflow等平台。数据集涵盖了多个领域，如书籍、约会、电子商务、音乐、电影、游戏、笑话、食品、动漫和Android应用程序等。每个子数据集都经过精心挑选和处理，以确保其质量和适用性。此外，部分数据集还进行了预处理，以适应学术实验的需求。

特点

该数据集的一个显著特点是其多样性和广泛性。它不仅涵盖了多个领域的推荐系统数据，还包含了不同类型的数据，如用户评分、行为数据、元数据等。这种多样性使得该数据集能够支持多种推荐算法的研究和开发。此外，数据集的开放性和可访问性也是其重要特点，大多数数据集都具有开放源代码许可证，便于学术界和工业界的研究人员使用。

使用方法

使用该数据集时，用户应首先查阅每个数据集的README文件或相关网站，了解其使用许可、引用要求和其他详细信息。数据集的下载和使用通常需要遵循特定的许可协议，部分数据集可能需要用户申请权限。此外，数据集的预处理和格式化可能因具体需求而异，用户可以根据自己的研究目标选择合适的数据集和处理方法。对于学术研究，建议在研究成果中引用数据集的原始来源，以确保研究的透明性和可重复性。

背景与挑战

背景概述

推荐系统（Recommender Systems, RS）作为信息过滤和个性化服务的关键技术，近年来在电子商务、社交媒体和娱乐等领域展现出显著的影响力。Public Datasets For Recommender Systems数据集由Arthur Fortes da Costa收集和整理，旨在为学术研究和工业应用提供高质量的推荐系统数据资源。该数据集涵盖了从书籍、电影到音乐和游戏等多个领域的用户行为数据，时间跨度从2004年至2014年不等。这些数据不仅为推荐算法的研究提供了丰富的实验材料，还促进了跨领域的知识交流与技术融合。

当前挑战

尽管Public Datasets For Recommender Systems数据集为推荐系统研究提供了宝贵的资源，但其构建和使用过程中仍面临诸多挑战。首先，数据集的多样性和规模使得数据预处理和清洗工作变得复杂，尤其是在处理缺失值和异常数据时。其次，不同数据集的许可协议和使用限制增加了数据共享和复用的难度，研究人员需谨慎遵守相关法律法规。此外，随着推荐系统技术的快速发展，如何保持数据集的时效性和代表性，以反映最新的用户行为和市场趋势，也是一个亟待解决的问题。

常用场景

经典使用场景

在推荐系统领域，Public Datasets For Recommender Systems数据集被广泛用于评估和开发各种推荐算法。这些数据集涵盖了从书籍、电影到音乐和电子商务等多个领域，为研究人员提供了丰富的用户行为和偏好信息。例如，MovieLens数据集常用于电影推荐系统的实验，而Amazon数据集则适用于电子商务平台的个性化推荐研究。这些数据集的经典使用场景包括但不限于协同过滤、内容推荐和混合推荐系统的构建与优化。

衍生相关工作

基于Public Datasets For Recommender Systems数据集，许多经典的研究工作得以展开。例如，Netflix Prize竞赛利用Netflix数据集推动了推荐系统算法的显著进步，激发了大量关于协同过滤和矩阵分解的研究。同样，MovieLens数据集也催生了众多关于用户偏好建模和推荐多样性的研究。这些研究不仅在学术界产生了深远影响，也在工业界推动了推荐技术的实际应用和发展。

数据集最近研究