Public Datasets For Recommender Systems
收藏github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/caserec/Datasets-for-Recommneder-Systems
下载链接
链接失效反馈官方服务:
资源简介:
这是一个关于推荐系统的高质量公共数据源的仓库,数据集从Stack Overflow、文章、推荐站点和学术实验中收集和整理而来。大多数数据集是免费的,具有开源许可证,但有些需要使用前获取许可或引用作者的工作。此外,仓库中还包含了一些为学术实验预处理的数据集。
This repository serves as a high-quality public data source for recommendation systems, comprising datasets meticulously collected and curated from Stack Overflow, articles, recommendation sites, and academic experiments. The majority of these datasets are freely available under open-source licenses, although some require obtaining permission or citing the authors' work prior to use. Additionally, the repository includes several datasets that have been preprocessed specifically for academic experimentation.
创建时间:
2017-02-06
原始信息汇总
数据集概述
书籍
- Book Crossing
- 描述:由Cai-Nicolas收集,来自Book-Crossing社区的数据集,涵盖4周时间(2004年8月至9月)。
- 链接:Book Crossing
约会
- Dating Agency
- 描述:包含17,359,346个匿名评分,涉及168,791个用户档案,由135,359名LibimSeTi用户在2006年4月4日提供。
- 链接:Dating Agency
电子商务
-
Amazon
- 描述:包含142.8百万条产品评论和元数据,时间跨度为1996年5月至2014年7月。
- 链接:Amazon
-
Retailrocket recommender system dataset
- 描述:包括行为数据、商品属性和类别树描述,数据来自真实电子商务网站。
- 链接:Retailrocket
音乐
-
Amazon Music
- 描述:包含数字音乐的评论和元数据。
- 链接:Amazon Music
-
Yahoo Music
- 描述:代表Yahoo! Music社区对各种音乐艺术家的偏好。
- 链接:Yahoo Music
-
LastFM (Implicit)
- 描述:包含2000名Last.fm用户的社交网络、标签和音乐艺术家收听信息。
- 链接:LastFM
-
Million Song Dataset
- 描述:包含一百万当代流行音乐曲目的音频特征和元数据。
- 链接:Million Song Dataset
电影
-
MovieLens
- 描述:GroupLens Research收集并提供的电影评分数据集。
- 链接:MovieLens
-
Yahoo Movies
- 描述:包含来自Yahoo! Music服务的歌曲评分。
- 链接:Yahoo Movies
-
CiaoDVD
- 描述:2013年12月从dvd.ciao.co.uk网站爬取的DVD全类别数据集。
- 链接:CiaoDVD
-
FilmTrust
- 描述:2011年6月从FilmTrust网站爬取的小型数据集。
- 链接:FilmTrust
-
Netflix
- 描述:Netflix Prize竞赛使用的官方数据集。
- 链接:Netflix
游戏
- Steam Video Games
- 描述:包含用户行为数据,如购买和游戏时长。
- 链接:Steam Video Games
笑话
- Jester
- 描述:包含73,496名用户对100个笑话的410万次连续评分(-10.00至+10.00)。
- 链接:Jester
食品
- Chicago Entree
- 描述:记录用户与Entree Chicago餐厅推荐系统的交互。
- 链接:Chicago Entree
动漫
- Anime Recommendations Database
- 描述:包含73,516名用户对12,294个动漫的偏好数据。
- 链接:Anime Recommendations Database
Android应用程序
- Myket Android Application Install Dataset
- 描述:包含694,121次应用安装交互,涉及10,000名匿名用户和7,988个Android应用。
- 链接:Myket Android Application Install Dataset
其他数据集
搜集汇总
数据集介绍

构建方式
该数据集的构建方式主要通过从多个公开来源收集和整理推荐系统相关的数据。这些来源包括Stack Overflow、学术文章、推荐网站以及学术实验。数据集涵盖了多个领域,如书籍、约会、电子商务、音乐、电影、游戏、笑话、食品、动漫和Android应用程序等。每个子数据集都经过精心挑选和处理,以确保其质量和适用性。此外,部分数据集还进行了预处理,以便于学术实验的使用。
特点
该数据集的特点在于其多样性和广泛性。它不仅包含了多个领域的数据,还涵盖了不同类型的推荐系统应用场景。例如,书籍推荐、电影评分、音乐偏好、电子商务行为等。此外,数据集中的部分数据已经过预处理,便于直接用于学术研究和实验。数据集的开放性和高质量使其成为推荐系统研究的重要资源。
使用方法
使用该数据集时,用户应首先查阅每个数据集的README文件或相关网站,了解其使用许可、引用要求和其他详细信息。数据集的下载和使用需遵循相应的许可协议。对于学术研究,可以直接使用预处理后的数据集进行实验和分析。对于工业应用,可以根据具体需求选择合适的子数据集进行模型训练和评估。此外,数据集还提供了一些推荐系统工具的链接,方便用户进行进一步的开发和研究。
背景与挑战
背景概述
推荐系统(Recommender Systems, RS)作为信息过滤和个性化服务的关键技术,近年来在电子商务、社交媒体和娱乐等领域展现出巨大的应用潜力。Public Datasets For Recommender Systems数据集由Arthur Fortes da Costa收集整理,旨在为推荐系统研究提供高质量的公共数据源。该数据集涵盖了从书籍、电影到音乐、游戏等多个领域的推荐数据,时间跨度从2004年至2014年,涉及多个知名研究机构和社区的数据。这些数据不仅为学术研究提供了丰富的资源,也为工业界开发和优化推荐算法提供了宝贵的参考。
当前挑战
尽管Public Datasets For Recommender Systems数据集为推荐系统研究提供了丰富的数据资源,但其构建和使用过程中仍面临诸多挑战。首先,数据集的多样性和复杂性使得数据预处理和特征提取成为一项艰巨任务。其次,部分数据集的版权和使用许可限制增加了数据获取和使用的难度。此外,随着推荐系统技术的不断发展,现有数据集可能无法完全满足新兴研究需求,如实时推荐和跨领域推荐等。因此,如何持续更新和扩展数据集,以适应不断变化的研究和应用需求,是当前面临的重要挑战。
常用场景
经典使用场景
在推荐系统领域,Public Datasets For Recommender Systems数据集被广泛应用于算法评估和模型训练。该数据集涵盖了从书籍、电影到音乐等多个领域的用户评分和行为数据,为研究人员提供了一个全面且多样化的实验平台。例如,MovieLens数据集常用于电影推荐系统的开发与测试,而Amazon数据集则支持电子商务领域的个性化推荐研究。这些数据集不仅帮助研究人员验证推荐算法的有效性,还促进了跨领域的推荐系统技术交流与创新。
衍生相关工作
Public Datasets For Recommender Systems数据集催生了众多经典研究工作。例如,基于MovieLens数据集的研究推动了协同过滤算法的改进,使其在实际应用中表现更为出色。Amazon数据集则促进了深度学习在推荐系统中的应用,提升了推荐的准确性和个性化程度。此外,这些数据集还激发了跨领域的研究,如将社交网络数据与推荐系统结合,探索新的推荐模式和算法。这些衍生工作不仅丰富了推荐系统的理论基础,也推动了其在实际应用中的广泛部署。
数据集最近研究
最新研究方向
在推荐系统领域,Public Datasets For Recommender Systems数据集的最新研究方向主要集中在多模态数据融合与个性化推荐算法的优化。随着用户生成内容的多样化,研究者们正致力于整合文本、图像、音频等多种数据源,以提升推荐系统的准确性和用户满意度。此外,跨领域推荐系统的研究也逐渐受到关注,通过借鉴其他领域的数据和算法,进一步增强推荐系统的泛化能力和应用场景。这些研究不仅推动了推荐系统技术的进步,也为电子商务、社交媒体等行业的用户体验优化提供了有力支持。
以上内容由遇见数据集搜集并总结生成



