Public Datasets For Recommender Systems

github2018-07-25 更新2024-05-31 收录

下载链接：

https://github.com/fengshow12345/Datasets-for-Recommneder-Systems

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于推荐系统的高质量公共数据源的仓库，数据集来自Stack Overflow、文章、推荐网站和学术实验，大多数数据集免费且具有开源许可证，但部分数据集使用前需获得许可。

This repository serves as a high-quality public data source for recommendation systems. The datasets are sourced from Stack Overflow, articles, recommendation websites, and academic experiments. Most of the datasets are freely available under open-source licenses, although some require permission for use.

创建时间：

2018-07-25

原始信息汇总

数据集概述

本数据集集合了多个领域的公共数据源，主要用于推荐系统（Recommender Systems, RS）的研究和实验。数据集来源于Stack Overflow、文章、推荐网站及学术实验，大部分数据集遵循开源许可，部分数据集使用前需获取作者许可。

数据集分类及描述

书籍

Book Crossing: 由Cai-Nicolas收集，包含2004年8月至9月期间从Book-Crossing社区爬取的数据。

电子商务

Amazon: 包含1996年5月至2014年7月的产品评论和元数据，共计142.8万条评论。
Retailrocket recommender system dataset: 包含行为数据、商品属性和类别树描述，数据来自真实的电子商务网站。

音乐

Amazon Music: 包含数字音乐的评论和元数据。
Yahoo Music: 反映Yahoo! Music社区对不同音乐艺术家的偏好。
LastFM (Implicit): 包含2000名Last.fm用户的社交网络、标签和音乐艺术家听歌信息。
Million Song Dataset: 包含一百万首流行音乐的音频特征和元数据。

电影

MovieLens: GroupLens Research收集并发布的电影评分数据集。
Yahoo Movies: 包含来自Yahoo! Music服务的歌曲评分。
CiaoDVD: 2013年12月从dvd.ciao.co.uk网站爬取的DVD类别数据。
FilmTrust: 2011年6月从FilmTrust网站爬取的数据。
Netflix: 用于Netflix Prize竞赛的官方数据集。

游戏

Steam Video Games: 包含用户行为数据，如购买和游戏时长。

笑话

Jester: 包含73,496名用户对100个笑话的410万条连续评分。

食品

Chicago Entree: 包含用户与Entree Chicago餐厅推荐系统的交互记录。

动漫

Anime Recommendations Database: 包含73,516名用户对12,294部动漫的偏好数据。

其他资源

更多数据集可参考GroupLens、LibRec、Yahoo Research等资源库。

使用许可

使用前请查阅各数据集的README文件或网站，了解使用许可、致谢及其他详细信息。

搜集汇总

数据集介绍

构建方式

本数据集是针对推荐系统领域精心收集与整理的专题公共数据源。数据主要来源于Stack Overflow、相关文章、推荐网站以及学术实验，其中大部分数据集是免费的，并采用开源许可证，但也有部分数据集需征得原作者的许可方可使用或引用。

使用方法

在使用这些数据集前，用户需仔细阅读各自README文件或相关网站，了解使用许可证、致谢信息以及其他细节。若在下载过程中遇到困难，可联系数据集维护者获取帮助。

背景与挑战

背景概述

公共推荐系统数据集（Public Datasets For Recommender Systems）是一个集成了高质量、以主题为中心的数据源的存储库，这些数据源主要从Stack Overflow、相关文章、推荐网站和学术实验中收集和整理而来。该数据集大多免费且开放源代码许可，但部分数据集使用时需征得原作者的许可。该数据集自创建以来，对推荐系统领域的研究起到了推动作用，提供了丰富的实验数据资源，为学术研究、算法开发和模型评估等提供了基础。

当前挑战

推荐系统数据集的构建面临着多方面的挑战。首先，数据集的多样性和规模性对于模型训练至关重要，如何在保证数据质量的同时扩大数据集规模是一个挑战。其次，用户隐私保护和数据安全性问题在数据收集和使用过程中尤为重要，需要确保在合法合规的前提下进行数据收集和发布。此外，不同领域和场景下的推荐系统需要特定的数据特征和格式，数据预处理和转换过程中的挑战也不容忽视。

常用场景

经典使用场景

在推荐系统领域，Public Datasets For Recommender Systems数据集被广泛用于模型训练与验证。该数据集包含了多个领域的高质量公开数据源，如书籍、电子商务、音乐、电影等，为研究者提供了丰富的实验材料，使其能够针对不同场景设计并优化推荐算法，进而提升推荐系统的准确性和用户体验。

解决学术问题

该数据集解决了推荐系统研究中数据获取与处理的难题，提供了多样化的数据来源，有助于学者们探索和解决冷启动问题、稀疏性、可扩展性以及推荐算法的多样性和解释性等关键学术问题，对推荐系统的理论研究与实际应用发展具有重要意义。

实际应用

在实际应用中，这些数据集可用于构建和优化电子商务平台的个性化推荐系统、社交媒体的内容推荐、音乐和视频流的推荐服务等领域，以提高用户满意度和参与度，从而促进商业价值的提升。

数据集最近研究