Public Datasets For Recommender Systems
收藏github2018-07-25 更新2024-05-31 收录
下载链接:
https://github.com/fengshow12345/Datasets-for-Recommneder-Systems
下载链接
链接失效反馈官方服务:
资源简介:
这是一个关于推荐系统的高质量公共数据源的仓库,数据集来自Stack Overflow、文章、推荐网站和学术实验,大多数数据集免费且具有开源许可证,但部分数据集使用前需获得许可。
This repository serves as a high-quality public data source for recommendation systems. The datasets are sourced from Stack Overflow, articles, recommendation websites, and academic experiments. Most of the datasets are freely available under open-source licenses, although some require permission for use.
创建时间:
2018-07-25
原始信息汇总
数据集概述
本数据集集合了多个领域的公共数据源,主要用于推荐系统(Recommender Systems, RS)的研究和实验。数据集来源于Stack Overflow、文章、推荐网站及学术实验,大部分数据集遵循开源许可,部分数据集使用前需获取作者许可。
数据集分类及描述
书籍
- Book Crossing: 由Cai-Nicolas收集,包含2004年8月至9月期间从Book-Crossing社区爬取的数据。
电子商务
- Amazon: 包含1996年5月至2014年7月的产品评论和元数据,共计142.8万条评论。
- Retailrocket recommender system dataset: 包含行为数据、商品属性和类别树描述,数据来自真实的电子商务网站。
音乐
- Amazon Music: 包含数字音乐的评论和元数据。
- Yahoo Music: 反映Yahoo! Music社区对不同音乐艺术家的偏好。
- LastFM (Implicit): 包含2000名Last.fm用户的社交网络、标签和音乐艺术家听歌信息。
- Million Song Dataset: 包含一百万首流行音乐的音频特征和元数据。
电影
- MovieLens: GroupLens Research收集并发布的电影评分数据集。
- Yahoo Movies: 包含来自Yahoo! Music服务的歌曲评分。
- CiaoDVD: 2013年12月从dvd.ciao.co.uk网站爬取的DVD类别数据。
- FilmTrust: 2011年6月从FilmTrust网站爬取的数据。
- Netflix: 用于Netflix Prize竞赛的官方数据集。
游戏
- Steam Video Games: 包含用户行为数据,如购买和游戏时长。
笑话
- Jester: 包含73,496名用户对100个笑话的410万条连续评分。
食品
- Chicago Entree: 包含用户与Entree Chicago餐厅推荐系统的交互记录。
动漫
- Anime Recommendations Database: 包含73,516名用户对12,294部动漫的偏好数据。
其他资源
- 更多数据集可参考GroupLens、LibRec、Yahoo Research等资源库。
使用许可
使用前请查阅各数据集的README文件或网站,了解使用许可、致谢及其他详细信息。
搜集汇总
数据集介绍

构建方式
本数据集是针对推荐系统领域精心收集与整理的专题公共数据源。数据主要来源于Stack Overflow、相关文章、推荐网站以及学术实验,其中大部分数据集是免费的,并采用开源许可证,但也有部分数据集需征得原作者的许可方可使用或引用。
使用方法
在使用这些数据集前,用户需仔细阅读各自README文件或相关网站,了解使用许可证、致谢信息以及其他细节。若在下载过程中遇到困难,可联系数据集维护者获取帮助。
背景与挑战
背景概述
公共推荐系统数据集(Public Datasets For Recommender Systems)是一个集成了高质量、以主题为中心的数据源的存储库,这些数据源主要从Stack Overflow、相关文章、推荐网站和学术实验中收集和整理而来。该数据集大多免费且开放源代码许可,但部分数据集使用时需征得原作者的许可。该数据集自创建以来,对推荐系统领域的研究起到了推动作用,提供了丰富的实验数据资源,为学术研究、算法开发和模型评估等提供了基础。
当前挑战
推荐系统数据集的构建面临着多方面的挑战。首先,数据集的多样性和规模性对于模型训练至关重要,如何在保证数据质量的同时扩大数据集规模是一个挑战。其次,用户隐私保护和数据安全性问题在数据收集和使用过程中尤为重要,需要确保在合法合规的前提下进行数据收集和发布。此外,不同领域和场景下的推荐系统需要特定的数据特征和格式,数据预处理和转换过程中的挑战也不容忽视。
常用场景
经典使用场景
在推荐系统领域,Public Datasets For Recommender Systems数据集被广泛用于模型训练与验证。该数据集包含了多个领域的高质量公开数据源,如书籍、电子商务、音乐、电影等,为研究者提供了丰富的实验材料,使其能够针对不同场景设计并优化推荐算法,进而提升推荐系统的准确性和用户体验。
解决学术问题
该数据集解决了推荐系统研究中数据获取与处理的难题,提供了多样化的数据来源,有助于学者们探索和解决冷启动问题、稀疏性、可扩展性以及推荐算法的多样性和解释性等关键学术问题,对推荐系统的理论研究与实际应用发展具有重要意义。
实际应用
在实际应用中,这些数据集可用于构建和优化电子商务平台的个性化推荐系统、社交媒体的内容推荐、音乐和视频流的推荐服务等领域,以提高用户满意度和参与度,从而促进商业价值的提升。
数据集最近研究
最新研究方向
在推荐系统领域,Public Datasets For Recommender Systems数据集的构建与维护为研究者提供了高质量的数据源。近期研究聚焦于利用这些数据集进行算法优化、模型评估以及个性化推荐策略的探索。特别是针对Book Crossing、Amazon、MovieLens等数据集,学者们致力于挖掘用户行为模式,提高推荐准确性和用户满意度。此外,对于新兴的领域如音乐和游戏推荐,研究者通过Yahoo Music、LastFM、Steam Video Games等数据集,探索用户偏好与行为之间的关系,以期在理论与实践层面推动推荐系统技术的发展。这些研究不仅为电子商务、在线娱乐等行业的个性化服务提供了支持,也对提升用户体验和满意度具有重要意义。
以上内容由遇见数据集搜集并总结生成



