five

Recommender System Datasets

收藏
github2020-11-04 更新2024-05-31 收录
下载链接:
https://github.com/GL123456/Recommender-System-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含一系列公开且兼容的数据集,记录了包含新近和流行真实世界数据集的其他主要仓库,以及针对各种推荐任务的示例代码参考。大多数数据集供学术界非商业用途,如大学研究人员和科学家使用。数据集免费,但可能要求引用。

This repository encompasses a collection of publicly available and compatible datasets, documenting other major repositories that include recent and popular real-world datasets, along with example code references for various recommendation tasks. The majority of these datasets are intended for non-commercial academic use, such as by university researchers and scientists. While the datasets are provided free of charge, citation may be required.
创建时间:
2020-09-08
原始信息汇总

数据集概述

本数据集仓库包含了一系列公开且兼容的推荐系统相关数据集,涵盖了多个主要的数据集仓库,这些仓库提供了最新的、流行的真实世界数据集,以及相应的推荐任务示例代码。大多数数据集供学术界非商业使用,如大学研究人员、教职员工和其他科学家。数据集免费提供,但部分数据集可能要求引用。

主要数据集仓库

  • Arizona State University: Social Computing Data Repository
    • 包含多个网络数据集。
  • UC Irvine Machine Learning Repository
  • Stanford Large Network Dataset Collection
  • Yahoo Research Webscope Datasets
    • 包含音乐评级、电影评级、流行URL和标签、点击日志数据集、名人面部图像和22K视频。
  • Kaggle Datasets
  • GroupLens Datasets
  • Recommnder Systems Datasets

按类别划分的数据集链接

E-commerce

  • Amazon
    • 包含评论(评级、文本、有用投票)、产品元数据(描述、类别信息、价格、品牌和图像特征)和链接(也查看/也购买图表)。
  • Amazon - Ratings (Beauty Products)
  • Toy Products on Amazon
  • Slashdot
  • Taobao
  • Microsoft Web Data
  • Retailrocket recommender system dataset
  • Wikipedia
  • Airbnb Collection

Social

  • Yelp
  • Facebook
  • Twitter
  • Pinterest

Stock

  • Spanish Stocks Historical Data from 2000 to 2019
  • Stock Exchange

Job

  • Job Recommendation
  • Job Recommendation Analysis

Item reviews

  • Item Learning
  • eCommerce Item Dataset
  • Epinions

Book

  • Good Reads
  • Book Crossing

Map

  • Open OSM

Dating

  • Dating Agency

Personality

  • Personality 2018
  • DEAPdataset
  • MyPersonalityDataset

Music

  • Million Song Dataset
  • LastFM (Implicit)

Movies

  • Netflix
  • MovieLens
  • Flixster
  • IMDB

Trust

  • CiaoDVD & Epinions

Anime

  • Anime Recommendations Database
  • Anime Data

Food

  • Resturant and Constumer
  • Chicago Entree

Games

  • Steam Video Games
  • Steam Reviews Dataset

Jokes

  • Jester

Other

  • Citation Network
  • YAGO
  • Complete Collection of Kaggle Datasets

贡献者

  • 姓名: Jamell Dacon
  • 邮箱: daconjam@msu.edu
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合多个公开且兼容的推荐系统数据集构建而成,涵盖了电子商务、社交网络、股票、工作推荐等多个领域。数据集主要来源于知名学术机构和在线平台,如亚利桑那州立大学、加州大学欧文分校、斯坦福大学等。每个数据集均附有详细的元数据和使用许可信息,确保用户能够合法合规地使用。此外,数据集还提供了相关领域的示例代码,便于研究人员快速上手。
特点
该数据集的特点在于其多样性和广泛性,涵盖了从电子商务到社交网络、从电影到音乐等多个领域的推荐系统数据。数据集不仅包含用户评分、评论等传统推荐系统所需的数据,还提供了产品元数据、社交网络关系、用户行为日志等丰富信息。这些数据为推荐系统的研究提供了多维度的支持,能够满足不同研究需求。此外,数据集还特别标注了每个数据集的引用要求,确保学术研究的规范性。
使用方法
使用该数据集时,用户首先需要访问GitHub页面,查看每个数据集的详细描述和使用许可。数据集通常以CSV、JSON或SQL格式提供,用户可以根据需求选择合适的数据格式进行下载。对于每个数据集,建议用户仔细阅读其附带的README文件,了解数据的具体结构和使用限制。此外,数据集还提供了示例代码,用户可以参考这些代码进行数据处理和模型构建。在使用过程中,若涉及学术发表,用户需按照数据集的要求进行引用,以确保研究的合规性。
背景与挑战
背景概述
Recommender System Datasets 是一个专注于推荐系统领域的数据集集合,由密歇根州立大学的 Jamell Dacon 等人创建并维护。该数据集旨在为学术界提供丰富的公开数据集资源,涵盖电子商务、社交媒体、电影、音乐等多个领域。这些数据集主要用于推荐系统的研究,帮助研究人员开发和验证推荐算法。该数据集的创建时间可追溯至近年,其影响力在推荐系统领域逐渐扩大,成为许多学术研究和实验的重要数据来源。通过整合多个知名数据源,如亚马逊、Yelp、Netflix 等,该数据集为推荐系统的跨领域研究提供了坚实的基础。
当前挑战
推荐系统数据集面临的主要挑战包括数据稀疏性、冷启动问题以及数据隐私保护。数据稀疏性源于用户与物品交互数据的不足,导致推荐算法难以准确捕捉用户偏好。冷启动问题则体现在新用户或新物品缺乏历史数据,难以生成有效的推荐。此外,数据隐私保护是构建数据集时的重要考量,尤其是在涉及用户行为数据的场景中,如何在数据开放与隐私保护之间取得平衡成为一大难题。构建过程中,数据采集、清洗和标注的复杂性也增加了数据集创建的难度,尤其是在跨领域数据整合时,数据格式和标准的统一性成为关键挑战。
常用场景
经典使用场景
在推荐系统领域,该数据集广泛应用于个性化推荐算法的开发与验证。研究人员利用这些数据集中的用户行为数据、评分记录和产品信息,构建和优化协同过滤、基于内容的推荐以及混合推荐模型。这些数据集为学术界提供了一个标准化的实验平台,使得不同算法的性能可以在相同的基准下进行比较和评估。
衍生相关工作
该数据集衍生了许多经典的推荐系统研究工作。例如,基于亚马逊数据集的协同过滤算法研究、基于Yelp数据集的社交推荐系统开发,以及基于Netflix数据集的矩阵分解算法优化。这些研究不仅推动了推荐系统领域的技术进步,还为其他相关领域(如自然语言处理和信息检索)提供了重要的数据和方法支持。
数据集最近研究
最新研究方向
在推荐系统领域,数据集的最新研究方向主要集中在跨领域推荐系统的开发与优化。随着用户行为数据的多样化和复杂化,研究者们正致力于整合来自不同领域的数据,如电子商务、社交媒体和娱乐等,以提高推荐的准确性和用户满意度。此外,隐私保护和数据安全也成为研究热点,特别是在处理包含敏感信息的用户数据时。这些研究不仅推动了推荐算法的发展,也为用户提供了更加个性化和安全的推荐体验。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作