MovieLens, Douban Movie, Douban Book, Amazon, LastFM, Yelp
收藏github2024-05-04 更新2024-05-31 收录
下载链接:
https://github.com/librahu/Dataset-In-Papers
下载链接
链接失效反馈官方服务:
资源简介:
包含多个数据集,如MovieLens、Douban Movie、Douban Book、Amazon、LastFM和Yelp,这些数据集用于推荐系统和网络嵌入研究,包含用户、物品、评分等详细信息。
This collection includes multiple datasets such as MovieLens, Douban Movie, Douban Book, Amazon, LastFM, and Yelp. These datasets are utilized for research in recommendation systems and network embeddings, containing detailed information on users, items, and ratings.
创建时间:
2018-11-12
原始信息汇总
MovieLens 数据集
-
实体统计
- 用户: 943
- 年龄: 8
- 职业: 21
- 电影: 1,682
- 类型: 18
-
关系统计
- 用户 - 电影: 100,000
- 用户 - 用户 (KNN): 47,150
- 用户 - 年龄: 943
- 用户 - 职业: 943
- 电影 - 电影 (KNN): 82,798
- 电影 - 类型: 2,861
Douban Movie 数据集
-
实体统计
- 用户: 13,367
- 电影: 12,677
- 组: 2,753
- 演员: 6,311
- 导演: 2,449
- 类型: 38
-
关系统计
- 用户 - 电影: 1,068,278
- 用户 - 组: 570,047
- 用户 - 用户: 4,085
- 电影 - 演员: 33,587
- 电影 - 导演: 11,276
- 电影 - 类型: 27,668
Douban Book 数据集
-
实体统计
- 用户: 13,024
- 书籍: 22,347
- 组: 2,936
- 地点: 38
- 作者: 10,805
- 出版社: 1,815
- 年份: 64
-
关系统计
- 用户 - 书籍: 792,062
- 用户 - 组: 1,189,271
- 用户 - 用户: 169,150
- 用户 - 地点: 10,592
- 书籍 - 作者: 21,907
- 书籍 - 出版社: 21,773
- 书籍 - 年份: 21,192
Amazon 数据集
-
实体统计
- 用户: 6,170
- 商品: 2,753
- 浏览: 3,857
- 类别: 22
- 品牌: 334
-
关系统计
- 用户 - 商品: 195,791
- 商品 - 浏览: 5,694
- 商品 - 类别: 5,508
- 商品 - 品牌: 2,753
LastFM 数据集
-
实体统计
- 用户: 1,892
- 艺术家: 17,632
- 标签: 11,945
-
关系统计
- 用户 - 艺术家: 92834
- 用户 - 用户 (Original): 25,434
- 用户 - 用户 (KNN): 18,802
- 艺术家 - 艺术家 (KNN): 153,399
- 艺术家 - 标签: 184,941
Yelp 数据集
-
实体统计
- 用户: 16,239
- 商家: 14,284
- 赞: 11
- 类别: 511
- 城市: 47
-
关系统计
- 用户 - 商家: 198,397
- 用户 - 用户: 158,590
- 用户 - 赞: 76,875
- 商家 - 城市: 14,267
- 商家 - 类别: 40,009
Yelp-2 数据集
-
实体统计
- 用户: 1,286
- 商家: 2,614
- 服务: 2
- 星级: 9
- 预订: 2
- 类别: 3
-
关系统计
- 用户 - 商家: 30,838
- 商家 - 服务: 2,614
- 商家 - 星级: 2,614
- 商家 - 预订: 2,614
- 商家 - 类别: 2,614
DBLP 数据集
-
实体统计
- 作者: 14,475
- 论文: 14,376
- 作者标签: 4
- 会议: 20
- 类型: 8,920
-
关系统计
- 作者 - 标签: 4,057
- 论文 - 作者: 41,794
- 论文 - 会议: 14,376
- 论文 - 类型: 114,624
Aminer 数据集
-
实体统计
- 作者: 164,472
- 论文: 127,623
- 论文标签: 10
- 会议: 101
- 引用: 147,251
-
关系统计
- 论文 - 标签: 127,623
- 论文 - 作者: 355,072
- 论文 - 会议: 127,632
- 论文 - 引用: 392,519
搜集汇总
数据集介绍

构建方式
该数据集通过整合多个领域的用户行为数据构建而成,涵盖了电影、书籍、音乐、电商、社交平台等多个领域。数据集的构建方式主要包括从不同平台收集用户与物品的交互信息,如评分、时间戳、用户属性等,并通过KNN算法计算用户与物品之间的相似度。此外,数据集还包含了用户与用户、物品与物品之间的关系统计,如用户间的社交关系、物品的类别归属等,以全面反映用户行为和物品特征。
使用方法
该数据集可广泛应用于推荐系统、用户行为分析、社交网络分析等领域。使用者可以通过分析用户与物品的交互数据,构建个性化的推荐模型,提升推荐系统的准确性和用户满意度。同时,数据集中包含的用户与用户、物品与物品之间的关系信息,也为研究用户社交行为和物品分类提供了有力支持。此外,数据集还提供了时间戳信息,使得研究者能够进一步分析用户行为的时间特征,为时间序列分析和预测提供数据基础。
背景与挑战
背景概述
MovieLens、Douban Movie、Douban Book、Amazon、LastFM、Yelp等数据集是推荐系统领域的重要资源,由GroupLens、豆瓣、亚马逊等机构提供。这些数据集涵盖了用户与电影、书籍、商品、音乐、商家等多类实体的交互信息,包括评分、时间戳等。MovieLens由GroupLens研究组创建,主要用于研究用户与电影的交互模式;Douban Movie和Douban Book则由豆瓣提供,聚焦于中文用户对电影和书籍的评价;Amazon数据集来源于亚马逊,记录了用户与商品的交互;LastFM和Yelp则分别关注音乐和本地商家的用户行为。这些数据集为推荐系统、社交网络分析等领域的研究提供了丰富的数据支持,推动了个性化推荐、协同过滤等技术的进步。
当前挑战
这些数据集在构建和应用过程中面临多重挑战。首先,数据集的稀疏性问题显著,尤其是在用户与物品交互较少的情况下,如何准确预测用户偏好成为一大难题。其次,数据集的多样性和规模差异较大,导致模型在不同数据集上的泛化能力受限。此外,数据集中的噪声和异常值处理也是一个重要挑战,可能影响推荐结果的准确性。最后,隐私保护和数据安全问题在处理用户交互数据时尤为突出,如何在保证数据利用的同时保护用户隐私,是当前研究的热点问题。
常用场景
经典使用场景
在推荐系统领域,MovieLens、Douban Movie、Douban Book、Amazon、LastFM和Yelp等数据集被广泛应用于个性化推荐算法的开发与评估。这些数据集通过丰富的用户-物品交互数据,如评分、时间戳等,为研究者提供了构建和测试协同过滤、矩阵分解等经典推荐算法的基础。例如,MovieLens数据集常用于电影推荐系统的研究,而Douban Movie和Douban Book则分别聚焦于电影和书籍的推荐场景,Amazon数据集则适用于电商平台的商品推荐。
解决学术问题
这些数据集在学术研究中解决了推荐系统中的多个关键问题,如冷启动问题、数据稀疏性问题以及用户兴趣建模问题。通过分析用户与物品的交互行为,研究者能够设计出更精准的推荐算法,提升推荐的准确性和用户满意度。此外,这些数据集还为推荐系统的多样性、公平性和可解释性研究提供了丰富的实验平台,推动了推荐系统领域的理论与实践发展。
实际应用
在实际应用中,这些数据集为电商平台、社交媒体、音乐和视频流媒体等领域的推荐系统提供了宝贵的数据支持。例如,Amazon数据集的应用帮助电商平台优化商品推荐,提升用户购物体验;LastFM数据集则支持音乐推荐系统,帮助用户发现个性化音乐;Yelp数据集的应用则提升了餐饮和本地服务的推荐效果。这些数据集的应用不仅提升了用户体验,还显著提高了平台的用户粘性和商业价值。
数据集最近研究
最新研究方向
在推荐系统领域,MovieLens、Douban Movie、Douban Book、Amazon、LastFM和Yelp等数据集的研究正朝着个性化推荐、社交网络分析以及跨领域推荐等方向深入发展。这些数据集不仅为研究者提供了丰富的用户行为数据,还为探索用户与物品、用户与用户之间的复杂关系提供了基础。近年来,基于这些数据集的研究热点集中在利用深度学习技术提升推荐系统的准确性和个性化程度,同时结合社交网络分析,探索用户间的隐性关联,以增强推荐的社交属性。此外,跨领域推荐系统的研究也逐渐兴起,旨在通过整合不同领域的数据,提供更为全面和精准的推荐服务。这些研究不仅推动了推荐系统技术的进步,也为电子商务、社交平台等领域的应用提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



