HIN-Datasets-for-Recommendation-and-Network-Embedding
收藏github2024-05-04 更新2024-05-31 收录
下载链接:
https://github.com/librahu/HIN-Datasets-for-Recommendation-and-Network-Embedding
下载链接
链接失效反馈官方服务:
资源简介:
包含多个数据集,用于推荐系统和网络嵌入研究,涵盖电影、书籍、商品等多个领域的用户和物品关系数据。
This collection includes multiple datasets designed for research in recommendation systems and network embedding. It encompasses user-item relationship data across various domains such as movies, books, and merchandise.
创建时间:
2018-11-12
原始信息汇总
MovieLens 数据集
- 实体统计:
- 用户数:943
- 年龄类别数:8
- 职业类别数:21
- 电影数:1,682
- 电影类别数:18
- 关系统计:
- 用户-电影关系数:100,000
- 用户-用户(KNN)关系数:47,150
- 用户-年龄关系数:943
- 用户-职业关系数:943
- 电影-电影(KNN)关系数:82,798
- 电影-电影类别关系数:2,861
Douban Movie 数据集
- 实体统计:
- 用户数:13,367
- 电影数:12,677
- 小组数:2,753
- 演员数:6,311
- 导演数:2,449
- 类型数:38
- 关系统计:
- 用户-电影关系数:1,068,278
- 用户-小组关系数:570,047
- 用户-用户关系数:4,085
- 电影-演员关系数:33,587
- 电影-导演关系数:11,276
- 电影-类型关系数:27,668
Douban Book 数据集
- 实体统计:
- 用户数:13,024
- 书籍数:22,347
- 小组数:2,936
- 地点数:38
- 作者数:10,805
- 出版社数:1,815
- 年份数:64
- 关系统计:
- 用户-书籍关系数:792,062
- 用户-小组关系数:1,189,271
- 用户-用户关系数:169,150
- 用户-地点关系数:10,592
- 书籍-作者关系数:21,907
- 书籍-出版社关系数:21,773
- 书籍-年份关系数:21,192
Amazon 数据集
- 实体统计:
- 用户数:6,170
- 商品数:2,753
- 浏览数:3,857
- 类别数:22
- 品牌数:334
- 关系统计:
- 用户-商品关系数:195,791
- 商品-浏览关系数:5,694
- 商品-类别关系数:5,508
- 商品-品牌关系数:2,753
LastFM 数据集
- 实体统计:
- 用户数:1,892
- 艺术家数:17,632
- 标签数:11,945
- 关系统计:
- 用户-艺术家关系数:92,834
- 用户-用户(原始)关系数:25,434
- 用户-用户(KNN)关系数:18,802
- 艺术家-艺术家(KNN)关系数:153,399
- 艺术家-标签关系数:184,941
Yelp 数据集
- 实体统计:
- 用户数:16,239
- 商家数:14,284
- 赞关系数:11
- 类别数:511
- 城市数:47
- 关系统计:
- 用户-商家关系数:198,397
- 用户-用户关系数:158,590
- 用户-赞关系数:76,875
- 商家-城市关系数:14,267
- 商家-类别关系数:40,009
Yelp-2 数据集
- 实体统计:
- 用户数:1,286
- 商家数:2,614
- 服务数:2
- 星级数:9
- 预订数:2
- 类别数:3
- 关系统计:
- 用户-商家关系数:30,838
- 商家-服务关系数:2,614
- 商家-星级关系数:2,614
- 商家-预订关系数:2,614
- 商家-类别关系数:2,614
DBLP 数据集
- 实体统计:
- 作者数:14,475
- 论文数:14,376
- 作者标签数:4
- 会议数:20
- 类型数:8,920
- 关系统计:
- 作者-标签关系数:4,057
- 论文-作者关系数:41,794
- 论文-会议关系数:14,376
- 论文-类型关系数:114,624
Aminer 数据集
- 实体统计:
- 作者数:164,472
- 论文数:127,623
- 论文标签数:10
- 会议数:101
- 引用数:147,251
- 关系统计:
- 论文-标签关系数:127,623
- 论文-作者关系数:355,072
- 论文-会议关系数:127,632
- 论文-引用关系数:392,519
搜集汇总
数据集介绍

构建方式
HIN-Datasets-for-Recommendation-and-Network-Embedding数据集的构建基于多个领域的公开数据源,包括MovieLens、Douban、Amazon、LastFM、Yelp、DBLP和Aminer等。这些数据集涵盖了用户、物品、评分、时间戳、标签等多种实体和关系。通过整合这些数据源,数据集构建者详细记录了每个实体的统计信息及其相互之间的关系,如用户与电影的评分关系、用户与用户的相似度关系等。特别地,数据集在构建过程中采用了KNN算法,利用Pearson相关系数来衡量实体间的相似性,从而生成用户与用户、电影与电影等实体间的相似关系数据。
特点
该数据集的显著特点在于其多源异构数据的整合能力,涵盖了电影、书籍、音乐、商业评论等多个领域,提供了丰富的实体和关系信息。每个子数据集都详细记录了实体的数量及其相互关系的统计信息,如用户与电影的评分关系、用户与用户的相似度关系等。此外,数据集通过KNN算法和Pearson相关系数来衡量实体间的相似性,增强了数据集在推荐系统和网络嵌入领域的应用潜力。
使用方法
HIN-Datasets-for-Recommendation-and-Network-Embedding数据集适用于多种机器学习任务,特别是在推荐系统和网络嵌入领域。用户可以通过加载数据集中的实体和关系数据,进行用户行为分析、物品推荐、社交网络分析等任务。具体使用时,可以利用数据集中的用户-物品评分信息进行协同过滤推荐,或利用用户-用户、物品-物品的相似度关系进行网络嵌入学习。此外,数据集还提供了丰富的元数据信息,如用户年龄、职业、电影类型等,可用于构建更加复杂的推荐模型和网络分析。
背景与挑战
背景概述
HIN-Datasets-for-Recommendation-and-Network-Embedding数据集由多个子数据集组成,涵盖了电影、书籍、音乐、餐饮等多个领域的用户行为数据。这些数据集主要用于推荐系统和网络嵌入的研究,旨在通过分析用户与物品之间的关系,提升个性化推荐的准确性和效率。数据集的创建时间未明确提及,但其来源包括GroupLens、Amazon、Yelp等知名机构,这些机构在数据科学领域具有较高的权威性。核心研究问题围绕如何利用异构信息网络(HIN)进行有效的推荐和网络嵌入,这一研究对提升用户体验和商业价值具有重要意义。
当前挑战
该数据集面临的挑战主要包括数据异构性和稀疏性。首先,不同领域的数据结构和属性差异较大,如何有效整合和利用这些异构数据是一个重要挑战。其次,用户与物品之间的交互数据往往稀疏,尤其是在冷启动情况下,如何填补这些数据空白并进行准确推荐是一大难题。此外,数据集的构建过程中还需考虑隐私保护和数据安全问题,确保用户信息不被滥用。这些挑战不仅影响数据集的实际应用效果,也对相关算法的设计和优化提出了更高要求。
常用场景
经典使用场景
HIN-Datasets-for-Recommendation-and-Network-Embedding数据集在推荐系统和网络嵌入领域具有广泛的应用。其经典使用场景之一是基于异构信息网络(HIN)的推荐系统构建。通过整合用户、物品、标签等多源数据,该数据集支持研究者开发高效的推荐算法,以预测用户对未评分物品的偏好。此外,该数据集还可用于网络嵌入任务,通过学习节点和边的低维表示,捕捉网络中的复杂关系,从而提升推荐系统的准确性和鲁棒性。
衍生相关工作
HIN-Datasets-for-Recommendation-and-Network-Embedding数据集的发布催生了一系列相关研究工作。首先,基于该数据集的推荐算法研究取得了显著进展,如基于图神经网络的推荐模型和基于元路径的推荐方法。其次,网络嵌入技术的研究也得到了推动,研究者提出了多种高效的嵌入算法,如基于随机游走的嵌入方法和基于深度学习的嵌入模型。此外,该数据集还激发了关于异构信息网络分析的广泛研究,包括网络结构分析、社区发现和影响力传播等方向。
数据集最近研究
最新研究方向
在推荐系统和网络嵌入领域,HIN-Datasets-for-Recommendation-and-Network-Embedding数据集的研究方向主要集中在异构信息网络(HIN)的建模与应用。近年来,随着深度学习和图神经网络的快速发展,研究人员致力于通过这些先进技术提升推荐系统的准确性和个性化程度。具体而言,基于该数据集的研究热点包括:利用图嵌入技术对用户与物品的复杂关系进行建模,探索多模态数据的融合方法以增强推荐效果,以及通过异构网络的结构特性提升网络嵌入的表达能力。这些研究不仅推动了推荐系统在实际应用中的性能提升,也为跨领域的网络分析提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



