Heterogeneous-Information-Network-Datasets-for-Recommendation
收藏github2024-05-04 更新2024-05-31 收录
下载链接:
https://github.com/librahu/Heterogeneous-Information-Network-Datasets-for-Recommendation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个子数据集,如MovieLens、Douban Movie、Douban Book、Amazon、LastFM和Yelp,用于推荐系统和网络嵌入研究。每个子数据集都提供了详细的实体和关系统计信息。
This dataset comprises multiple sub-datasets, including MovieLens, Douban Movie, Douban Book, Amazon, LastFM, and Yelp, which are utilized for research in recommendation systems and network embedding. Each sub-dataset provides detailed statistics on entities and relationships.
创建时间:
2018-11-12
原始信息汇总
MovieLens 数据集
-
实体统计
- 用户: 943
- 年龄: 8
- 职业: 21
- 电影: 1,682
- 类别: 18
-
关系统计
- 用户 - 电影: 100,000
- 用户 - 用户 (KNN): 47,150
- 用户 - 年龄: 943
- 用户 - 职业: 943
- 电影 - 电影 (KNN): 82,798
- 电影 - 类别: 2,861
Douban Movie 数据集
-
实体统计
- 用户: 13,367
- 电影: 12,677
- 组: 2,753
- 演员: 6,311
- 导演: 2,449
- 类型: 38
-
关系统计
- 用户 - 电影: 1,068,278
- 用户 - 组: 570,047
- 用户 - 用户: 4,085
- 电影 - 演员: 33,587
- 电影 - 导演: 11,276
- 电影 - 类型: 27,668
Douban Book 数据集
-
实体统计
- 用户: 13,024
- 书籍: 22,347
- 组: 2,936
- 地点: 38
- 作者: 10,805
- 出版商: 1,815
- 年份: 64
-
关系统计
- 用户 - 书籍: 792,062
- 用户 - 组: 1,189,271
- 用户 - 用户: 169,150
- 用户 - 地点: 10,592
- 书籍 - 作者: 21,907
- 书籍 - 出版商: 21,773
- 书籍 - 年份: 21,192
Amazon 数据集
-
实体统计
- 用户: 6,170
- 商品: 2,753
- 浏览: 3,857
- 类别: 22
- 品牌: 334
-
关系统计
- 用户 - 商品: 195,791
- 商品 - 浏览: 5,694
- 商品 - 类别: 5,508
- 商品 - 品牌: 2,753
LastFM 数据集
-
实体统计
- 用户: 1,892
- 艺术家: 17,632
- 标签: 11,945
-
关系统计
- 用户 - 艺术家: 92834
- 用户 - 用户 (Original): 25,434
- 用户 - 用户 (KNN): 18,802
- 艺术家 - 艺术家 (KNN): 153,399
- 艺术家 - 标签: 184,941
Yelp 数据集
-
实体统计
- 用户: 16,239
- 商家: 14,284
- 称赞: 11
- 类别: 511
- 城市: 47
-
关系统计
- 用户 - 商家: 198,397
- 用户 - 用户: 158,590
- 用户 - 称赞: 76,875
- 商家 - 城市: 14,267
- 商家 - 类别: 40,009
Yelp-2 数据集
-
实体统计
- 用户: 1,286
- 商家: 2,614
- 服务: 2
- 星级: 9
- 预订: 2
- 类别: 3
-
关系统计
- 用户 - 商家: 30,838
- 商家 - 服务: 2,614
- 商家 - 星级: 2,614
- 商家 - 预订: 2,614
- 商家 - 类别: 2,614
DBLP 数据集
-
实体统计
- 作者: 14,475
- 论文: 14,376
- 作者标签: 4
- 会议: 20
- 类型: 8,920
-
关系统计
- 作者 - 标签: 4,057
- 论文 - 作者: 41,794
- 论文 - 会议: 14,376
- 论文 - 类型: 114,624
Aminer 数据集
-
实体统计
- 作者: 164,472
- 论文: 127,623
- 论文标签: 10
- 会议: 101
- 引用: 147,251
-
关系统计
- 论文 - 标签: 127,623
- 论文 - 作者: 355,072
- 论文 - 会议: 127,632
- 论文 - 引用: 392,519
搜集汇总
数据集介绍

构建方式
该数据集通过整合多个领域的异构信息网络,构建了一个多源、多维度的推荐系统数据集。具体而言,数据集从MovieLens、Douban Movie、Douban Book、Amazon、LastFM、Yelp、DBLP和Aminer等多个平台收集了用户、物品、标签、类别等实体及其相互关系。通过KNN算法和Pearson相关系数计算实体间的相似性,进一步丰富了数据集的关联信息。每个子数据集均包含详细的实体统计和关系统计,确保了数据集的多样性和完整性。
特点
该数据集的显著特点在于其异构性,涵盖了从电影、书籍到音乐、商业等多个领域的数据,且每个领域内的实体和关系均具有高度的多样性。此外,数据集通过KNN算法和Pearson相关系数构建了实体间的相似性网络,使得推荐系统能够更好地捕捉用户与物品之间的复杂关系。数据集的规模和多样性为推荐系统的研究提供了丰富的实验场景和数据支持。
使用方法
该数据集适用于推荐系统、社交网络分析、信息检索等多个领域的研究。用户可以通过加载各个子数据集的实体和关系数据,进行基于内容的推荐、协同过滤、社交网络分析等任务。具体使用时,可根据研究需求选择特定的子数据集,并结合KNN算法或Pearson相关系数进行相似性计算,从而构建推荐模型或分析网络结构。数据集的详细统计信息和多样性为研究者提供了灵活的实验设计空间。
背景与挑战
背景概述
异构信息网络(Heterogeneous Information Network, HIN)在推荐系统领域的应用近年来备受关注。Heterogeneous-Information-Network-Datasets-for-Recommendation数据集由多个子数据集组成,涵盖了电影、书籍、音乐、餐饮等多个领域,旨在为推荐系统研究提供丰富的异构信息网络数据支持。该数据集的创建时间未明确提及,但其主要研究人员或机构通过整合多个公开数据集,如MovieLens、Douban、Amazon等,构建了一个多领域、多维度的异构信息网络。其核心研究问题在于如何利用异构信息网络中的多类型实体和关系,提升推荐系统的准确性和个性化程度。该数据集对推荐系统领域的影响力显著,为研究人员提供了丰富的实验数据,推动了基于异构信息网络的推荐算法的发展。
当前挑战
该数据集在构建和应用过程中面临多项挑战。首先,异构信息网络的复杂性使得数据预处理和特征提取变得尤为困难,尤其是不同领域数据之间的异构性需要有效的整合策略。其次,如何在推荐系统中有效利用多类型实体和关系,以提升推荐效果,是该数据集面临的核心挑战。此外,数据集的规模和多样性也带来了计算资源和算法效率上的挑战,尤其是在处理大规模异构数据时,如何保持算法的实时性和准确性是一个重要问题。最后,数据隐私和安全问题也是该数据集在实际应用中需要考虑的重要挑战,尤其是在涉及用户隐私信息时,如何确保数据的安全性和合规性至关重要。
常用场景
经典使用场景
在推荐系统领域,Heterogeneous-Information-Network-Datasets-for-Recommendation数据集被广泛应用于个性化推荐任务。该数据集通过整合多源异构信息,如用户、电影、书籍、音乐等实体及其交互关系,为推荐算法提供了丰富的上下文信息。经典的使用场景包括基于协同过滤的推荐算法,通过分析用户与物品的交互历史,预测用户对未交互物品的偏好,从而实现精准推荐。此外,该数据集还支持基于图神经网络的推荐模型,通过捕捉实体间的复杂关系,提升推荐的准确性和多样性。
解决学术问题
该数据集解决了推荐系统中常见的冷启动问题和数据稀疏性问题。通过引入异构信息网络,数据集能够有效利用不同类型的实体及其关系,为新用户或新物品提供初始推荐。此外,数据集的多源信息整合能力为研究者提供了丰富的实验场景,推动了推荐算法在多维度信息融合、跨领域推荐等方面的学术研究。其意义在于为推荐系统领域的研究提供了标准化的数据支持,促进了相关算法的创新与发展。
衍生相关工作
基于该数据集,研究者们提出了多种推荐算法和模型。例如,基于图神经网络的推荐模型通过捕捉实体间的复杂关系,提升了推荐的准确性。此外,基于异构信息网络的协同过滤算法通过整合多源信息,解决了传统协同过滤中的冷启动问题。相关工作还包括基于深度学习的推荐模型,通过学习用户和物品的深层表示,进一步提升了推荐的个性化水平。这些衍生工作不仅丰富了推荐系统的理论研究,也为实际应用提供了有力的技术支持。
以上内容由遇见数据集搜集并总结生成



