Recommender-System-Datasets

github2022-05-10 更新2024-05-31 收录

下载链接：

https://github.com/DSE-MSU/Recommender-System-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含一系列公共和兼容的数据集，这些数据集主要用于学术研究，如大学研究人员和科学家等非商业用途。数据集免费提供，但可能需要引用。此外，还提供了一些样本代码和数据集的使用许可证、致谢和其他详细信息。

This repository contains a series of public and compatible datasets primarily intended for academic research, such as for university researchers and scientists for non-commercial purposes. The datasets are provided free of charge but may require citation. Additionally, sample codes, usage licenses, acknowledgments, and other detailed information are also provided.

创建时间：

2019-09-21

原始信息汇总

数据集概述

数据集描述

本数据集包含多个公共且兼容的推荐系统相关数据集，主要供学术界非商业用途使用，如大学研究人员、教职员工和其他科学家。数据集免费提供，但部分数据集可能要求引用。

数据集来源

Arizona State University: Social Computing Data Repository
- 包含多个网络数据集。
UC Irvine Machine Learning Repository
Stanford Large Network Dataset Collection
Yahoo Research Webscope Datasets
- 包含音乐、电影、标签、点击、图像和视频等多种数据集。
Kaggle Datasets
GroupLens Datasets
Recommnder Systems Datasets

数据集分类及描述

E-commerce

Amazon
- 包含评论、产品元数据和链接，覆盖1996年至2014年。
Amazon - Ratings (Beauty Products)
- 包含超过200万条美容产品评论和评分。
Toy Products on Amazon
- 包含从Amazon.com提取的玩具产品数据。
Slashdot
- 包含2009年2月的用户间朋友/敌人关系。
Taobao
- 包含用户购物记录和重复购买标签。
Microsoft Web Data
- 包含www.microsoft.com的匿名用户访问日志。
Retailrocket recommender system dataset
- 包含行为数据、商品属性和类别树。
Wikipedia
- 提供英文维基百科的免费内容副本。
Airbnb Collection
- 包含巴塞罗那市的Airbnb数据。

Social

Yelp
- 包含业务、评论和用户数据，供教育和个人使用。
Facebook
- 包含用户数据分析，用于识别关键用户。
Twitter
- 包含用户圈子和自我网络数据。
Pinterest
- 包含时尚和家居的场景-产品对。

Stock

Spanish Stocks Historical Data from 2000 to 2019
- 包含西班牙股票市场的历史数据。
Stock Exchange
- 包含2012至2014年美国股票的机器学习推荐数据。

Job

Job Recommendation
- 包含个人推荐的工作列表。
Job Recommendation Analysis
- 使用NLTK构建的推荐引擎数据集。

Item reviews

Item Learning
- 用于推荐系统中从项目集合学习的2019年数据集。
eCommerce Item Dataset
- 包含户外服装品牌的500个实际SKU。
Epinions
- 包含用户对产品的评论。

Book

Good Reads
- 包含书籍数据，用于数据分析和学习。
Book Crossing
- 包含2004年收集的书籍评分和标签。

Map

Open OSM
- 提供OpenStreetMap的完整历史数据。

Dating

Dating Agency
- 包含LibimSeTi用户的匿名评分和信任关系。

Personality

Personality 2018
- 用于研究用户个性和推荐系统满意度的数据集。
DEAPdataset
- 用于情绪分析的EEG和生理信号数据集。
MyPersonalityDataset
- 包含Facebook应用程序的用户心理测试结果和配置文件。

Music

Million Song Dataset
- 包含一百万首流行音乐的音频特征和元数据。
LastFM (Implicit)
- 包含Last.fm用户的艺术家收听记录。

Movies

Netflix
- 包含Netflix Prize竞赛的官方数据集。
MovieLens
- 包含2000万条评分和27,000部电影的标签应用。
Flixster
- 包含用户对电影的评分和社交互动数据。
IMDB
- 包含Internet Movie Database的数据集。

Trust

CiaoDVD & Epinions
- 包含DVD和Epinions网站的用户评分和信任关系。

Anime

Anime Recommendations Database
- 包含73,516名用户对12,294部动漫的偏好数据。
Anime Data
- 包含来自Anime News Network的动漫数据。

Food

Resturant and Constumer
- 包含根据消费者偏好生成的餐厅推荐列表。
Chicago Entree
- 包含用户与Entree Chicago餐厅推荐系统的交互记录。

Games

Steam Video Games
- 包含Steam平台上视频游戏的行为数据。
Steam Reviews Dataset
- 包含Steam平台上最佳销售游戏的评论数据。

Jokes

Jester
- 包含73,496名用户对100个笑话的连续评分。

Other

Citation Network
- 包含从DBLP、ACM等来源提取的论文和引用数据。
YAGO
- 包含超过1000万实体和1.2亿事实的语义知识库。
Complete Collection of Kaggle Datasets
- 包含Kaggle平台上的完整数据集列表。

数据集使用注意事项

在使用这些数据集之前，请查看其网站和/或README文件，了解各自的使用许可、致谢和其他详细信息。部分数据集可能有额外的引用请求，这些请求通常位于数据集网页的底部。

搜集汇总

数据集介绍

构建方式

Recommender-System-Datasets 数据集通过整合多个公开且兼容的数据集资源构建而成，涵盖了电子商务、社交网络、电影、音乐等多个领域。这些数据集主要来源于知名学术机构和企业，如亚利桑那州立大学、斯坦福大学、雅虎研究等。数据集的选择和整理遵循了学术研究的需求，确保其适用于推荐系统的实验和模型验证。每个数据集的使用许可和引用要求均在其原始页面中详细说明，用户在使用前需仔细阅读相关文档。

特点

该数据集的特点在于其多样性和广泛性，涵盖了推荐系统研究中的多个关键领域。数据集不仅包含用户评分、评论等传统数据，还提供了产品元数据、社交网络关系、行为日志等丰富信息。此外，数据集的时间跨度较大，能够支持长期趋势分析和模型验证。每个数据集均经过预处理，确保数据的完整性和一致性，便于研究人员直接使用。

使用方法

使用 Recommender-System-Datasets 数据集时，用户首先需访问 GitHub 页面，获取数据集的链接和详细描述。根据研究需求，选择合适的数据集并下载。在使用前，务必阅读每个数据集的许可协议和引用要求，确保合规使用。数据集通常以 CSV、JSON 或 SQL 格式提供，用户可通过 Python、R 等编程语言进行数据加载和分析。此外，GitHub 页面还提供了部分推荐算法的示例代码，用户可参考这些代码进行模型构建和实验验证。

背景与挑战

背景概述

Recommender-System-Datasets是由密歇根州立大学的Jamell Dacon等人创建的一个公开数据集集合，旨在为推荐系统领域的研究人员提供丰富的实验数据资源。该数据集涵盖了电子商务、社交媒体、电影、音乐等多个领域的用户行为数据，广泛应用于推荐算法的开发与验证。其创建时间可追溯至2010年代初期，随着推荐系统研究的深入，该数据集逐渐成为学术界和工业界的重要参考资源。通过整合来自亚马逊、Yelp、Netflix等平台的真实数据，该数据集为推荐系统的个性化、冷启动、矩阵分解等核心问题提供了强有力的支持，推动了推荐系统技术的进步。

当前挑战

推荐系统数据集面临的主要挑战包括数据稀疏性、冷启动问题以及数据隐私保护。首先，用户行为数据通常具有高度稀疏性，导致推荐算法的准确性和覆盖率受限。其次，冷启动问题在新用户或新物品的推荐中尤为突出，缺乏足够的历史数据使得个性化推荐难以实现。此外，数据隐私问题在推荐系统中日益凸显，如何在保护用户隐私的同时提供高质量的推荐服务成为一大难题。在数据集构建过程中，数据采集的完整性和一致性也面临挑战，尤其是在跨平台数据整合时，数据格式和语义的差异增加了数据清洗和预处理的难度。

常用场景

经典使用场景

在推荐系统领域，Recommender-System-Datasets 数据集被广泛应用于个性化推荐算法的研究与开发。该数据集涵盖了多个领域的用户行为数据，如电子商务、社交媒体、电影、音乐等，为研究者提供了丰富的实验素材。通过分析用户的历史行为数据，研究者可以构建基于协同过滤、矩阵分解、深度学习等技术的推荐模型，从而为用户提供个性化的推荐服务。

衍生相关工作

基于 Recommender-System-Datasets 数据集，研究者们提出了许多经典的推荐算法和模型。例如，矩阵分解技术（如 SVD 和 SVD++）和深度学习模型（如神经协同过滤和基于图的推荐模型）都在该数据集上得到了验证和改进。此外，该数据集还催生了许多跨领域推荐系统的研究，如基于知识图谱的推荐系统和基于序列的推荐系统，进一步推动了推荐系统领域的理论创新和技术进步。

数据集最近研究