Public Datasets For Recommender Systems

github2020-03-15 更新2024-05-31 收录

下载链接：

https://github.com/lijunweiyhn/Datasets-for-Recommneder-Systems

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于推荐系统的高质量公共数据源的仓库，数据集来自Stack Overflow、文章、推荐站点和学术实验，大部分数据集免费且开放源代码，但部分数据集使用需获得许可。

This repository serves as a high-quality public data source for recommendation systems. The datasets are sourced from Stack Overflow, articles, recommendation sites, and academic experiments. Most of the datasets are freely available and open-source, although some require permission for use.

创建时间：

2019-10-18

原始信息汇总

数据集概述

本数据集集合了多个领域的公共数据源，主要用于推荐系统研究。数据集涵盖书籍、约会、电子商务、音乐、电影、游戏、笑话、食物和动漫等多个类别。以下是各分类下的具体数据集描述：

书籍

Book Crossing: 由Cai-Nicolas收集，包含2004年8月至9月从Book-Crossing社区获取的数据。

约会

Dating Agency: 包含17,359,346次匿名评级，涉及168,791个用户档案，由LibimSeTi用户在2006年4月4日提供。

电子商务

Amazon: 包含142.8百万条产品评论和元数据，覆盖1996年5月至2014年7月。
Retailrocket recommender system dataset: 包含行为数据、商品属性和类别树描述，数据来自真实电子商务网站。

音乐

Amazon Music: 包含数字音乐的评论和元数据。
Yahoo Music: 代表Yahoo! Music社区对各种音乐艺术家的偏好。
LastFM (Implicit): 包含2000名Last.fm用户的社交网络、标记和音乐艺术家听信息。
Million Song Dataset: 包含一百万当代流行音乐曲目的音频特征和元数据。

电影

MovieLens: GroupLens Research收集并提供的电影评分数据集。
Yahoo Movies: 包含来自Yahoo! Music服务的歌曲评分。
CiaoDVD: 2013年12月从dvd.ciao.co.uk网站爬取的DVD类别数据。
FilmTrust: 2011年6月从FilmTrust网站爬取的数据。
Netflix: 用于Netflix Prize竞赛的官方数据集。

游戏

Steam Video Games: 包含用户行为数据，如购买和游戏时长。

笑话

Jester: 包含73,496名用户对100个笑话的4.1百万次连续评级。

食物

Chicago Entree: 包含用户与Entree Chicago餐厅推荐系统的交互记录。

动漫

Anime Recommendations Database: 包含73,516名用户对12,294部动漫的偏好数据。

其他资源

GroupLens Datasets: 提供更多数据集。
LibRec Datasets: 提供更多数据集。
Yahoo Research: 提供更多数据集。
Datasets for Machine Learning: 提供更多数据集。
Stanford Large Network Dataset Collection: 提供更多数据集。

使用和许可

在使用这些数据集前，请查阅各自的README文件或网站以获取使用许可、致谢和其他详细信息。

搜集汇总

数据集介绍

构建方式

该数据集是一个专注于推荐系统领域的公共数据源仓库，其数据主要来源于Stack Overflow、相关文章、推荐网站和学术实验。数据集的构建过程包括对原始数据的收集、整理和预处理，以确保适用于学术研究的需求。

特点

数据集的特点在于其高质量、专题性，涵盖了书籍、约会、电子商务、音乐、电影、游戏、笑话、美食和动漫等多个领域的推荐系统数据。大部分数据集都是免费且开源的，但部分数据集在使用时需要获取作者的许可。此外，仓库中还包含了针对学术实验预处理的的数据集。

使用方法

在使用这些数据集之前，用户需仔细阅读各自README文件或相关网站上的使用许可、致谢等信息。数据集可通过提供的链接下载，并在遵守相应许可协议的前提下进行使用。若在下载过程中遇到困难，可联系数据集维护者寻求帮助。

背景与挑战

背景概述

推荐系统是信息检索和机器学习领域的一个重要分支，旨在向用户提供个性化内容推荐。'Public Datasets For Recommender Systems' 是一个集成了多个领域高质量公开数据源的仓库，由Arthur Fortes da Costa等人收集整理，旨在为推荐系统的研究和开发提供数据支持。这些数据源涵盖了书籍、约会服务、电子商务、音乐、电影、游戏等多个领域，最早的数据集可追溯至2004年。该数据集的创建不仅丰富了推荐系统领域的数据资源，也为相关算法的验证和比较提供了标准平台，对学术界和工业界产生了深远影响。

当前挑战

尽管该数据集为推荐系统研究提供了丰富的资源，但在使用过程中仍面临诸多挑战。首先，不同数据集的规模、质量和分布存在差异，这给数据预处理和模型泛化能力带来了考验。其次，部分数据集的获取和使用可能涉及版权和隐私问题，需要在使用前获得相应的许可。此外，随着推荐系统领域的不断发展，如何利用这些数据集进行创新算法的研究和开发，以满足用户个性化需求的同时保证推荐质量，也是当前面临的挑战之一。

常用场景

经典使用场景

在推荐系统研究领域，Public Datasets For Recommender Systems数据集被广泛用于模型的训练与验证。该数据集涵盖了书籍、电影、音乐、电子商务等多个领域的用户评分和交互数据，为研究人员提供了丰富的研究资源。经典的使用场景包括利用MovieLens数据集进行电影推荐算法的开发，以及使用Amazon数据集进行商品推荐模型的训练。

衍生相关工作

基于这些数据集，学术界和工业界衍生出了众多经典工作。例如，MovieLens数据集催生了众多关于用户行为分析、推荐算法评估的研究；而Amazon数据集则激发了关于商品推荐、用户偏好挖掘方面的深入研究。

数据集最近研究