five

Public Datasets For Recommender Systems

收藏
github2020-03-15 更新2024-05-31 收录
下载链接:
https://github.com/lijunweiyhn/Datasets-for-Recommneder-Systems
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个关于推荐系统的高质量公共数据源的仓库,数据集来自Stack Overflow、文章、推荐站点和学术实验,大部分数据集免费且开放源代码,但部分数据集使用需获得许可。

This repository serves as a high-quality public data source for recommendation systems. The datasets are sourced from Stack Overflow, articles, recommendation sites, and academic experiments. Most of the datasets are freely available and open-source, although some require permission for use.
创建时间:
2019-10-18
原始信息汇总

数据集概述

本数据集集合了多个领域的公共数据源,主要用于推荐系统研究。数据集涵盖书籍、约会、电子商务、音乐、电影、游戏、笑话、食物和动漫等多个类别。以下是各分类下的具体数据集描述:

书籍

  • Book Crossing: 由Cai-Nicolas收集,包含2004年8月至9月从Book-Crossing社区获取的数据。

约会

  • Dating Agency: 包含17,359,346次匿名评级,涉及168,791个用户档案,由LibimSeTi用户在2006年4月4日提供。

电子商务

  • Amazon: 包含142.8百万条产品评论和元数据,覆盖1996年5月至2014年7月。
  • Retailrocket recommender system dataset: 包含行为数据、商品属性和类别树描述,数据来自真实电子商务网站。

音乐

  • Amazon Music: 包含数字音乐的评论和元数据。
  • Yahoo Music: 代表Yahoo! Music社区对各种音乐艺术家的偏好。
  • LastFM (Implicit): 包含2000名Last.fm用户的社交网络、标记和音乐艺术家听信息。
  • Million Song Dataset: 包含一百万当代流行音乐曲目的音频特征和元数据。

电影

  • MovieLens: GroupLens Research收集并提供的电影评分数据集。
  • Yahoo Movies: 包含来自Yahoo! Music服务的歌曲评分。
  • CiaoDVD: 2013年12月从dvd.ciao.co.uk网站爬取的DVD类别数据。
  • FilmTrust: 2011年6月从FilmTrust网站爬取的数据。
  • Netflix: 用于Netflix Prize竞赛的官方数据集。

游戏

  • Steam Video Games: 包含用户行为数据,如购买和游戏时长。

笑话

  • Jester: 包含73,496名用户对100个笑话的4.1百万次连续评级。

食物

  • Chicago Entree: 包含用户与Entree Chicago餐厅推荐系统的交互记录。

动漫

  • Anime Recommendations Database: 包含73,516名用户对12,294部动漫的偏好数据。

其他资源

  • GroupLens Datasets: 提供更多数据集。
  • LibRec Datasets: 提供更多数据集。
  • Yahoo Research: 提供更多数据集。
  • Datasets for Machine Learning: 提供更多数据集。
  • Stanford Large Network Dataset Collection: 提供更多数据集。

使用和许可

在使用这些数据集前,请查阅各自的README文件或网站以获取使用许可、致谢和其他详细信息。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是一个专注于推荐系统领域的公共数据源仓库,其数据主要来源于Stack Overflow、相关文章、推荐网站和学术实验。数据集的构建过程包括对原始数据的收集、整理和预处理,以确保适用于学术研究的需求。
特点
数据集的特点在于其高质量、专题性,涵盖了书籍、约会、电子商务、音乐、电影、游戏、笑话、美食和动漫等多个领域的推荐系统数据。大部分数据集都是免费且开源的,但部分数据集在使用时需要获取作者的许可。此外,仓库中还包含了针对学术实验预处理的的数据集。
使用方法
在使用这些数据集之前,用户需仔细阅读各自README文件或相关网站上的使用许可、致谢等信息。数据集可通过提供的链接下载,并在遵守相应许可协议的前提下进行使用。若在下载过程中遇到困难,可联系数据集维护者寻求帮助。
背景与挑战
背景概述
推荐系统是信息检索和机器学习领域的一个重要分支,旨在向用户提供个性化内容推荐。'Public Datasets For Recommender Systems' 是一个集成了多个领域高质量公开数据源的仓库,由Arthur Fortes da Costa等人收集整理,旨在为推荐系统的研究和开发提供数据支持。这些数据源涵盖了书籍、约会服务、电子商务、音乐、电影、游戏等多个领域,最早的数据集可追溯至2004年。该数据集的创建不仅丰富了推荐系统领域的数据资源,也为相关算法的验证和比较提供了标准平台,对学术界和工业界产生了深远影响。
当前挑战
尽管该数据集为推荐系统研究提供了丰富的资源,但在使用过程中仍面临诸多挑战。首先,不同数据集的规模、质量和分布存在差异,这给数据预处理和模型泛化能力带来了考验。其次,部分数据集的获取和使用可能涉及版权和隐私问题,需要在使用前获得相应的许可。此外,随着推荐系统领域的不断发展,如何利用这些数据集进行创新算法的研究和开发,以满足用户个性化需求的同时保证推荐质量,也是当前面临的挑战之一。
常用场景
经典使用场景
在推荐系统研究领域,Public Datasets For Recommender Systems数据集被广泛用于模型的训练与验证。该数据集涵盖了书籍、电影、音乐、电子商务等多个领域的用户评分和交互数据,为研究人员提供了丰富的研究资源。经典的使用场景包括利用MovieLens数据集进行电影推荐算法的开发,以及使用Amazon数据集进行商品推荐模型的训练。
衍生相关工作
基于这些数据集,学术界和工业界衍生出了众多经典工作。例如,MovieLens数据集催生了众多关于用户行为分析、推荐算法评估的研究;而Amazon数据集则激发了关于商品推荐、用户偏好挖掘方面的深入研究。
数据集最近研究
最新研究方向
在推荐系统领域,Public Datasets For Recommender Systems数据集的近期研究方向主要集中在提高推荐算法的准确性和个性化水平。该数据集涵盖了书籍、音乐、电影等多个领域,研究者通过这些高质量的数据源,探索深度学习、矩阵分解、协同过滤等技术在推荐系统中的应用。此外,也有研究致力于挖掘用户行为数据中的隐式反馈,以增强推荐系统的用户体验。这些研究对于提升推荐系统的性能,促进信息检索和用户满意度的提升具有重要的理论和实际意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作