five

Douban, Epinions, Flixster, CiaoDVD, MACLab, DEAPdataset, MyPersonalityDataset, Bibsonomy, Delicious, Movielens, Jester, BookCrossing, LastFM, Wikipedia, OpenStreetMap, PythonGitCode, Gist, Yelp, AmazonReviews

收藏
github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/daicoolb/RecommenderSystem-DataSet
下载链接
链接失效反馈
官方服务:
资源简介:
这些数据集在推荐系统领域非常流行,可用作基准。例如,Douban数据集包含129,490个独特用户和58,541个独特电影项目;Epinions是一个允许人们评论产品的网站;Flixster是一个社交电影网站,允许用户分享电影评级,发现新电影,并与其他具有相似电影品味的人会面;CiaoDVD是一个从dvd.ciao.co.uk网站的整个DVD类别中爬取的数据集;MACLab项目旨在研究用户的心情和音乐情感;DEAPdataset用于情感分析,使用EEG、生理和视频信号;MyPersonalityDataset包含超过6,000,000个测试结果和超过4,000,000个个人Facebook档案;Bibsonomy用于社交书签系统中的标签推荐;Delicious包含plista新闻推荐数据集和Delicious;Movielens是一个稳定的基准数据集,包含2000万评级和465,000个标签应用,适用于27,000部电影,由138,000名用户应用;Jester数据集包含Jester在线笑话推荐系统的匿名评级;BookCrossing数据集;LastFM包含92,800个艺术家收听记录,来自1892名用户;Wikipedia提供所有可用内容的免费副本;OpenStreetMap提供OpenStreetMap.org数据库的完整历史副本;PythonGitCode中的Hermes探索如何为新应用选择推荐系统;Gist提供推荐和评级公共数据集供机器学习使用;Yelp数据集是用于个人、教育和学术目的的业务、评论和用户数据的子集;AmazonReviews包含从1996年5月到2014年7月的142.8万个产品评论和元数据。

These datasets are highly popular in the field of recommendation systems and can be used as benchmarks. For instance, the Douban dataset includes 129,490 unique users and 58,541 unique movie items; Epinions is a website that allows people to review products; Flixster is a social movie site that enables users to share movie ratings, discover new films, and meet others with similar movie tastes; CiaoDVD is a dataset crawled from the entire DVD category of the dvd.ciao.co.uk website; the MACLab project aims to study user moods and music emotions; the DEAP dataset is used for emotion analysis using EEG, physiological, and video signals; the MyPersonality Dataset contains over 6,000,000 test results and more than 4,000,000 individual Facebook profiles; Bibsonomy is used for tag recommendations in social bookmarking systems; Delicious includes the plista news recommendation dataset and Delicious; Movielens is a stable benchmark dataset containing 20 million ratings and 465,000 tag applications, applicable to 27,000 movies, applied by 138,000 users; the Jester dataset contains anonymous ratings from the Jester online joke recommendation system; the BookCrossing dataset; LastFM contains 92,800 artist listening records from 1,892 users; Wikipedia provides free copies of all available content; OpenStreetMap offers a complete historical copy of the OpenStreetMap.org database; Hermes in PythonGitCode explores how to select recommendation systems for new applications; Gist provides recommendation and rating public datasets for machine learning use; the Yelp dataset is a subset of business, review, and user data for personal, educational, and academic purposes; Amazon Reviews contains 1.428 million product reviews and metadata from May 1996 to July 2014.
创建时间:
2017-03-11
原始信息汇总

数据集概述

本数据集包含多个在推荐系统领域广泛使用的基准数据集,具体信息如下:

1. Douban

  • 用户数: 129,490
  • 物品数: 58,541
  • 评分数量: 16,830,839
  • 评分范围: [1, 5]
  • 密度: 0.222%
  • 链接类型: 1,692,952--Friendship

2. Epinions

  • 用户数: 40,163 (665K), 71,002 (510K), 120,492 (Extended)
  • 物品数: 139,738 (665K), 104,356 (510K), 755,760 (Extended)
  • 评分数量: 664,824 (665K), 508,960 (510K), 13,668,320 (Extended)
  • 评分范围: [1, 5]
  • 密度: 0.0118% (665K), 0.00687% (510K), 0.015% (Extended)
  • 链接类型: 487,183--Trust (665K), Trust Distrust (Extended)

3. Flixster

  • 用户数: 147,612
  • 物品数: 48,794
  • 评分数量: 8,196,077
  • 评分范围: [0.5, 5.0]
  • 密度: 0.1138%
  • 链接类型: 11,794,648--Friendship

4. Ciao

  • 用户数: 7,375
  • 物品数: 99,746
  • 评分数量: 278,483
  • 评分范围: [1, 5]
  • 密度: 0.0379%
  • 链接类型: 111,781--Trust

5. Jester

  • 用户数: 59,132
  • 物品数: 140
  • 评分数量: 1,761,439
  • 评分范围: Explicit
  • 密度: 21.28%

6. MovieLens

  • MovieLens 100K
    • 用户数: 943
    • 物品数: 1,682
    • 评分数量: 100,000
    • 评分范围: [1, 5]
    • 密度: 6.30%
  • MovieLens 1M
    • 用户数: 6,040
    • 物品数: 3,706
    • 评分数量: 1,000,209
    • 评分范围: [1, 5]
    • 密度: 4.47%
  • MovieLens 10M
    • 用户数: 71,567
    • 物品数: 10,681
    • 评分数量: 10,000,054
    • 评分范围: [1, 5]
    • 密度: 1.308%

以上数据集均为推荐系统研究提供了丰富的用户行为和评分数据,适用于算法开发和性能评估。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集集合了多个在推荐系统领域中广泛使用的基准数据集。这些数据集的构建方式各异,涵盖了从社交网络、电子商务到电影推荐等多个领域。例如,Douban数据集通过匿名化处理,收集了129,490名用户和58,541部电影的评分数据;Epinions数据集则从用户对产品的评论中提取信息。这些数据集的构建通常涉及数据爬取、匿名化处理以及数据清洗等步骤,以确保数据的完整性和可用性。
特点
这些数据集的主要特点在于其多样性和广泛的应用领域。它们不仅包含了用户对物品的评分数据,还涉及用户间的社交关系、信任网络等复杂信息。例如,Flixster数据集不仅记录了用户的电影评分,还包含了用户间的社交关系,这对于研究社交推荐系统具有重要价值。此外,这些数据集的规模各异,从数千到数百万不等,能够满足不同研究需求。
使用方法
使用这些数据集时,研究者可以根据具体需求选择合适的数据集进行实验。首先,需要根据数据集的格式进行数据加载和预处理,确保数据的一致性和可用性。随后,可以利用这些数据集进行推荐算法的研究和评估,如协同过滤、基于内容的推荐等。此外,这些数据集还可以用于社交网络分析、用户行为建模等多个研究方向。在使用过程中,应注意数据集的许可协议,确保合法合规。
背景与挑战
背景概述
推荐系统数据集在现代信息检索和个性化服务领域中占据重要地位。这些数据集,如Douban、Epinions和Movielens,由不同机构和研究人员创建,旨在为推荐系统的研究和开发提供基准。例如,Douban数据集由匿名化的豆瓣用户和电影项目组成,包含129,490个独特用户和58,541个独特电影项目,为电影推荐系统提供了丰富的数据资源。这些数据集的创建不仅推动了推荐系统算法的发展,也为学术界和工业界提供了宝贵的实验平台。
当前挑战
尽管这些推荐系统数据集在学术和工业应用中具有重要价值,但它们也面临诸多挑战。首先,数据集的稀疏性问题普遍存在,如Epinions数据集的评分密度仅为0.0118%,这使得推荐算法的准确性和效率受到限制。其次,数据集的隐私和匿名化处理也是一个重要挑战,如何在保护用户隐私的同时,确保数据的可用性和真实性,是当前研究的热点。此外,数据集的多样性和代表性问题也不容忽视,如何构建能够全面反映用户行为和偏好的数据集,是提升推荐系统性能的关键。
常用场景
经典使用场景
在推荐系统领域,Douban、Epinions和Movielens等数据集被广泛用于构建和评估推荐算法。例如,Douban数据集通过包含129,490名用户和58,541部电影的评分数据,为研究个性化推荐提供了丰富的资源。Epinions数据集则通过用户对产品的评论,帮助研究者理解用户偏好和信任网络的影响。Movielens数据集以其稳定的基准特性,成为推荐系统算法开发的经典数据集,涵盖了2000万条评分和465,000条标签应用。
实际应用
在实际应用中,这些数据集被用于开发和优化各种推荐系统,如电子商务平台、社交媒体和在线内容服务。例如,AmazonReviews数据集通过提供丰富的产品评论和用户评分,帮助电商平台改进其推荐算法,提升用户体验。Yelp数据集则被用于开发本地商业推荐系统,帮助用户发现高质量的本地服务。这些数据集的应用不仅提升了推荐系统的准确性和用户满意度,还促进了相关技术的商业化应用。
衍生相关工作
基于这些数据集,研究者们开展了大量相关工作,推动了推荐系统领域的发展。例如,基于Movielens数据集的研究工作,如协同过滤算法的改进和混合推荐系统的开发,已成为推荐系统领域的经典研究。Douban数据集则催生了关于社交网络和推荐系统结合的研究,如社交推荐算法的提出和优化。Epinions数据集的相关研究则集中在信任网络的建模和其在推荐系统中的应用,为理解和利用用户间的信任关系提供了理论基础。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务