five

Recommender-System-Datasets

收藏
github2022-05-10 更新2024-05-31 收录
下载链接:
https://github.com/DSE-MSU/Recommender-System-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含一系列公共和兼容的数据集,这些数据集主要用于学术研究,如大学研究人员和科学家等非商业用途。数据集免费提供,但可能需要引用。此外,还提供了一些样本代码和数据集的使用许可证、致谢和其他详细信息。

This repository contains a series of public and compatible datasets primarily intended for academic research, such as for university researchers and scientists for non-commercial purposes. The datasets are provided free of charge but may require citation. Additionally, sample codes, usage licenses, acknowledgments, and other detailed information are also provided.
创建时间:
2019-09-21
原始信息汇总

数据集概述

数据集描述

本数据集包含多个公共且兼容的推荐系统相关数据集,主要供学术界非商业用途使用,如大学研究人员、教职员工和其他科学家。数据集免费提供,但部分数据集可能要求引用。

数据集来源

  • Arizona State University: Social Computing Data Repository
    • 包含多个网络数据集。
  • UC Irvine Machine Learning Repository
  • Stanford Large Network Dataset Collection
  • Yahoo Research Webscope Datasets
    • 包含音乐、电影、标签、点击、图像和视频等多种数据集。
  • Kaggle Datasets
  • GroupLens Datasets
  • Recommnder Systems Datasets

数据集分类及描述

E-commerce

  • Amazon
    • 包含评论、产品元数据和链接,覆盖1996年至2014年。
  • Amazon - Ratings (Beauty Products)
    • 包含超过200万条美容产品评论和评分。
  • Toy Products on Amazon
    • 包含从Amazon.com提取的玩具产品数据。
  • Slashdot
    • 包含2009年2月的用户间朋友/敌人关系。
  • Taobao
    • 包含用户购物记录和重复购买标签。
  • Microsoft Web Data
    • 包含www.microsoft.com的匿名用户访问日志。
  • Retailrocket recommender system dataset
    • 包含行为数据、商品属性和类别树。
  • Wikipedia
    • 提供英文维基百科的免费内容副本。
  • Airbnb Collection
    • 包含巴塞罗那市的Airbnb数据。

Social

  • Yelp
    • 包含业务、评论和用户数据,供教育和个人使用。
  • Facebook
    • 包含用户数据分析,用于识别关键用户。
  • Twitter
    • 包含用户圈子和自我网络数据。
  • Pinterest
    • 包含时尚和家居的场景-产品对。

Stock

  • Spanish Stocks Historical Data from 2000 to 2019
    • 包含西班牙股票市场的历史数据。
  • Stock Exchange
    • 包含2012至2014年美国股票的机器学习推荐数据。

Job

  • Job Recommendation
    • 包含个人推荐的工作列表。
  • Job Recommendation Analysis
    • 使用NLTK构建的推荐引擎数据集。

Item reviews

  • Item Learning
    • 用于推荐系统中从项目集合学习的2019年数据集。
  • eCommerce Item Dataset
    • 包含户外服装品牌的500个实际SKU。
  • Epinions
    • 包含用户对产品的评论。

Book

  • Good Reads
    • 包含书籍数据,用于数据分析和学习。
  • Book Crossing
    • 包含2004年收集的书籍评分和标签。

Map

  • Open OSM
    • 提供OpenStreetMap的完整历史数据。

Dating

  • Dating Agency
    • 包含LibimSeTi用户的匿名评分和信任关系。

Personality

  • Personality 2018
    • 用于研究用户个性和推荐系统满意度的数据集。
  • DEAPdataset
    • 用于情绪分析的EEG和生理信号数据集。
  • MyPersonalityDataset
    • 包含Facebook应用程序的用户心理测试结果和配置文件。

Music

  • Million Song Dataset
    • 包含一百万首流行音乐的音频特征和元数据。
  • LastFM (Implicit)
    • 包含Last.fm用户的艺术家收听记录。

Movies

  • Netflix
    • 包含Netflix Prize竞赛的官方数据集。
  • MovieLens
    • 包含2000万条评分和27,000部电影的标签应用。
  • Flixster
    • 包含用户对电影的评分和社交互动数据。
  • IMDB
    • 包含Internet Movie Database的数据集。

Trust

  • CiaoDVD & Epinions
    • 包含DVD和Epinions网站的用户评分和信任关系。

Anime

  • Anime Recommendations Database
    • 包含73,516名用户对12,294部动漫的偏好数据。
  • Anime Data
    • 包含来自Anime News Network的动漫数据。

Food

  • Resturant and Constumer
    • 包含根据消费者偏好生成的餐厅推荐列表。
  • Chicago Entree
    • 包含用户与Entree Chicago餐厅推荐系统的交互记录。

Games

  • Steam Video Games
    • 包含Steam平台上视频游戏的行为数据。
  • Steam Reviews Dataset
    • 包含Steam平台上最佳销售游戏的评论数据。

Jokes

  • Jester
    • 包含73,496名用户对100个笑话的连续评分。

Other

  • Citation Network
    • 包含从DBLP、ACM等来源提取的论文和引用数据。
  • YAGO
    • 包含超过1000万实体和1.2亿事实的语义知识库。
  • Complete Collection of Kaggle Datasets
    • 包含Kaggle平台上的完整数据集列表。

数据集使用注意事项

在使用这些数据集之前,请查看其网站和/或README文件,了解各自的使用许可、致谢和其他详细信息。部分数据集可能有额外的引用请求,这些请求通常位于数据集网页的底部。

搜集汇总
数据集介绍
main_image_url
构建方式
Recommender-System-Datasets 数据集通过整合多个公开且兼容的数据集资源构建而成,涵盖了电子商务、社交网络、电影、音乐等多个领域。这些数据集主要来源于知名学术机构和企业,如亚利桑那州立大学、斯坦福大学、雅虎研究等。数据集的选择和整理遵循了学术研究的需求,确保其适用于推荐系统的实验和模型验证。每个数据集的使用许可和引用要求均在其原始页面中详细说明,用户在使用前需仔细阅读相关文档。
特点
该数据集的特点在于其多样性和广泛性,涵盖了推荐系统研究中的多个关键领域。数据集不仅包含用户评分、评论等传统数据,还提供了产品元数据、社交网络关系、行为日志等丰富信息。此外,数据集的时间跨度较大,能够支持长期趋势分析和模型验证。每个数据集均经过预处理,确保数据的完整性和一致性,便于研究人员直接使用。
使用方法
使用 Recommender-System-Datasets 数据集时,用户首先需访问 GitHub 页面,获取数据集的链接和详细描述。根据研究需求,选择合适的数据集并下载。在使用前,务必阅读每个数据集的许可协议和引用要求,确保合规使用。数据集通常以 CSV、JSON 或 SQL 格式提供,用户可通过 Python、R 等编程语言进行数据加载和分析。此外,GitHub 页面还提供了部分推荐算法的示例代码,用户可参考这些代码进行模型构建和实验验证。
背景与挑战
背景概述
Recommender-System-Datasets是由密歇根州立大学的Jamell Dacon等人创建的一个公开数据集集合,旨在为推荐系统领域的研究人员提供丰富的实验数据资源。该数据集涵盖了电子商务、社交媒体、电影、音乐等多个领域的用户行为数据,广泛应用于推荐算法的开发与验证。其创建时间可追溯至2010年代初期,随着推荐系统研究的深入,该数据集逐渐成为学术界和工业界的重要参考资源。通过整合来自亚马逊、Yelp、Netflix等平台的真实数据,该数据集为推荐系统的个性化、冷启动、矩阵分解等核心问题提供了强有力的支持,推动了推荐系统技术的进步。
当前挑战
推荐系统数据集面临的主要挑战包括数据稀疏性、冷启动问题以及数据隐私保护。首先,用户行为数据通常具有高度稀疏性,导致推荐算法的准确性和覆盖率受限。其次,冷启动问题在新用户或新物品的推荐中尤为突出,缺乏足够的历史数据使得个性化推荐难以实现。此外,数据隐私问题在推荐系统中日益凸显,如何在保护用户隐私的同时提供高质量的推荐服务成为一大难题。在数据集构建过程中,数据采集的完整性和一致性也面临挑战,尤其是在跨平台数据整合时,数据格式和语义的差异增加了数据清洗和预处理的难度。
常用场景
经典使用场景
在推荐系统领域,Recommender-System-Datasets 数据集被广泛应用于个性化推荐算法的研究与开发。该数据集涵盖了多个领域的用户行为数据,如电子商务、社交媒体、电影、音乐等,为研究者提供了丰富的实验素材。通过分析用户的历史行为数据,研究者可以构建基于协同过滤、矩阵分解、深度学习等技术的推荐模型,从而为用户提供个性化的推荐服务。
衍生相关工作
基于 Recommender-System-Datasets 数据集,研究者们提出了许多经典的推荐算法和模型。例如,矩阵分解技术(如 SVD 和 SVD++)和深度学习模型(如神经协同过滤和基于图的推荐模型)都在该数据集上得到了验证和改进。此外,该数据集还催生了许多跨领域推荐系统的研究,如基于知识图谱的推荐系统和基于序列的推荐系统,进一步推动了推荐系统领域的理论创新和技术进步。
数据集最近研究
最新研究方向
近年来,推荐系统领域的研究逐渐从传统的协同过滤和矩阵分解方法转向更为复杂的深度学习模型和知识图谱应用。随着用户行为数据的多样性和复杂性增加,研究者们开始探索基于图卷积网络(GCN)和知识图谱的推荐方法,以更好地捕捉用户与物品之间的高阶关系。此外,冷启动问题和序列推荐也成为研究热点,特别是在电商和社交媒体平台中,如何利用有限的用户历史数据生成个性化推荐成为关键挑战。推荐系统的可解释性和公平性也逐渐受到关注,研究者们致力于开发既能提升推荐效果又能保证透明度和公正性的算法。这些前沿研究方向不仅推动了推荐系统技术的进步,也为实际应用场景中的用户体验优化提供了新的思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作