Public Datasets For Recommender Systems

github2020-07-16 更新2024-05-31 收录

下载链接：

https://github.com/hyunsuk123/Datasets-for-Recommender-Systems

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于推荐系统的高质量公共数据源的仓库，数据集从Stack Overflow、文章、推荐网站和学术实验中收集和整理而来。大多数数据集是免费的，具有开放源许可证，但有些需要使用或引用作者的工作时请求许可。

This repository serves as a high-quality public data source for recommendation systems, comprising datasets meticulously collected and curated from Stack Overflow, articles, recommendation websites, and academic experiments. The majority of these datasets are freely available under open-source licenses, although some require permission for use or citation of the authors' work.

创建时间：

2020-07-16

原始信息汇总

数据集概述

书籍

Book Crossing
- 来源：Book Crossing
- 描述：由Cai-Nicolas收集，于2004年8月至9月从Book-Crossing社区爬取的数据集。

约会

Dating Agency
- 来源：Dating Agency
- 描述：包含17,359,346次匿名评分，涉及168,791个用户档案，由135,359名LibimSeTi用户在2006年4月4日提供。

电子商务

Amazon
- 来源：Amazon
- 描述：包含142.8百万条产品评论和元数据，涵盖1996年5月至2014年7月。
Retailrocket recommender system dataset
- 来源：Retailrocket
- 描述：包含行为数据、商品属性和类别树描述，数据来自真实电子商务网站。

音乐

Amazon Music
- 来源：Amazon Music
- 描述：包含数字音乐的评论和元数据。
Yahoo Music
- 来源：Yahoo Music
- 描述：代表Yahoo! Music社区对各种音乐艺术家的偏好。
LastFM (Implicit)
- 来源：LastFM
- 描述：包含2000名Last.fm在线音乐系统用户的社交网络、标签和音乐艺术家听信息。
Million Song Dataset
- 来源：Million Song Dataset
- 描述：包含一百万当代流行音乐曲目的音频特征和元数据。

电影

MovieLens
- 来源：MovieLens
- 描述：GroupLens Research收集并提供的电影评分数据集。
Yahoo Movies
- 来源：Yahoo Movies
- 描述：包含来自Yahoo! Music服务的歌曲评分。
CiaoDVD
- 来源：CiaoDVD
- 描述：2013年12月从dvd.ciao.co.uk网站爬取的DVD全类别数据集。
FilmTrust
- 来源：FilmTrust
- 描述：2011年6月从整个FilmTrust网站爬取的小型数据集。
Netflix
- 来源：Netflix
- 描述：Netflix Prize竞赛使用的官方数据集。

游戏

Steam Video Games
- 来源：Steam Video Games
- 描述：包含用户行为列表，包括购买和游玩行为及其相关数据。

笑话

Jester
- 来源：Jester
- 描述：包含73,496名用户对100个笑话的4.1百万次连续评分（-10.00至+10.00）。

食物

Chicago Entree
- 来源：Chicago Entree
- 描述：包含用户与Entree Chicago餐厅推荐系统的交互记录。

动漫

Anime Recommendations Database
- 来源：Anime Recommendations Database
- 描述：包含73,516名用户对12,294部动漫的偏好数据，包括完成列表和评分。

其他数据集

更多数据集可从以下链接获取：

搜集汇总

数据集介绍

构建方式

该数据集通过整合来自Stack Overflow、学术文章、推荐系统网站及学术实验的公开数据源构建而成，涵盖了多个领域的推荐系统数据。数据集不仅包含原始数据，还提供了经过预处理的版本，便于学术研究使用。数据来源多样，确保了数据集的广泛性和代表性。

特点

该数据集的特点在于其多样性和高质量，涵盖了书籍、约会、电子商务、音乐、电影、游戏、笑话、食品和动漫等多个领域。每个子数据集均经过精心整理，部分数据还进行了预处理，以适应不同的研究需求。数据集中的大部分数据为开源许可，但部分数据需获得授权或引用原作者的工作。

使用方法

使用该数据集时，用户需首先查阅各子数据集的README文件或相关网站，了解其使用许可和引用要求。数据集可直接用于推荐系统的算法开发与评估，也可作为基准数据集进行对比实验。对于下载困难的数据集，用户可联系数据集维护者获取备份。

背景与挑战

背景概述

推荐系统作为信息过滤的重要工具，近年来在电子商务、社交媒体和在线娱乐等领域得到了广泛应用。Public Datasets For Recommender Systems数据集由Arthur Fortes da Costa等人整理，汇集了多个高质量、公开的推荐系统数据源，涵盖了书籍、电影、音乐、游戏等多个领域。这些数据集主要来源于Stack Overflow、学术实验和推荐系统网站，部分数据经过预处理以支持学术研究。该数据集的创建旨在为推荐系统研究提供丰富的数据支持，推动算法优化和模型创新，对推荐系统领域的研究和实践产生了深远影响。

当前挑战

推荐系统领域的核心挑战在于如何从海量用户行为数据中提取有效信息，以提供个性化推荐。Public Datasets For Recommender Systems数据集在构建过程中面临数据异构性、数据稀疏性和隐私保护等问题。不同领域的数据格式和规模差异较大，增加了数据整合的难度；同时，用户行为数据的稀疏性导致推荐模型的训练效果受限。此外，部分数据集涉及用户隐私，需在数据使用和共享中严格遵守相关法律法规。这些挑战不仅影响了数据集的构建，也对推荐算法的设计和优化提出了更高要求。

常用场景

经典使用场景

在推荐系统领域，Public Datasets For Recommender Systems数据集被广泛应用于算法开发和性能评估。研究者利用这些数据集进行协同过滤、内容推荐和混合推荐算法的实验，以优化推荐效果。例如，MovieLens数据集常被用于电影推荐系统的研究中，而Amazon数据集则用于电商平台的商品推荐。

衍生相关工作

基于该数据集，许多经典的推荐系统研究工作得以展开。例如，Netflix Prize竞赛推动了协同过滤算法的创新；MovieLens数据集催生了基于矩阵分解的推荐算法研究；而Amazon数据集则促进了深度学习在推荐系统中的应用。这些工作不仅推动了推荐系统领域的发展，也为其他相关领域提供了借鉴。

数据集最近研究