Heterogeneous-Information-Network-Datasets-for-Recommendation-and-Network-Embedding
收藏github2024-05-04 更新2024-05-31 收录
下载链接:
https://github.com/librahu/Heterogeneous-Information-Network-Datasets-for-Recommendation-and-Network-Embedding
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个子数据集,如MovieLens、Douban Movie、Douban Book、Amazon、LastFM和Yelp,用于推荐系统和网络嵌入研究。每个子数据集都提供了详细的实体和关系统计信息。
This dataset comprises multiple sub-datasets, including MovieLens, Douban Movie, Douban Book, Amazon, LastFM, and Yelp, designed for research in recommendation systems and network embedding. Each sub-dataset provides detailed statistics on entities and relationships.
创建时间:
2018-11-12
原始信息汇总
MovieLens 数据集
-
实体统计:
- 用户: 943
- 年龄: 8
- 职业: 21
- 电影: 1,682
- 类型: 18
-
关系统计:
- 用户 - 电影: 100,000
- 用户 - 用户 (KNN): 47,150
- 用户 - 年龄: 943
- 用户 - 职业: 943
- 电影 - 电影 (KNN): 82,798
- 电影 - 类型: 2,861
Douban Movie 数据集
-
实体统计:
- 用户: 13,367
- 电影: 12,677
- 群组: 2,753
- 演员: 6,311
- 导演: 2,449
- 类型: 38
-
关系统计:
- 用户 - 电影: 1,068,278
- 用户 - 群组: 570,047
- 用户 - 用户: 4,085
- 电影 - 演员: 33,587
- 电影 - 导演: 11,276
- 电影 - 类型: 27,668
Douban Book 数据集
-
实体统计:
- 用户: 13,024
- 书籍: 22,347
- 群组: 2,936
- 地点: 38
- 作者: 10,805
- 出版商: 1,815
- 年份: 64
-
关系统计:
- 用户 - 书籍: 792,062
- 用户 - 群组: 1,189,271
- 用户 - 用户: 169,150
- 用户 - 地点: 10,592
- 书籍 - 作者: 21,907
- 书籍 - 出版商: 21,773
- 书籍 - 年份: 21,192
Amazon 数据集
-
实体统计:
- 用户: 6,170
- 商品: 2,753
- 浏览: 3,857
- 类别: 22
- 品牌: 334
-
关系统计:
- 用户 - 商品: 195,791
- 商品 - 浏览: 5,694
- 商品 - 类别: 5,508
- 商品 - 品牌: 2,753
LastFM 数据集
-
实体统计:
- 用户: 1,892
- 艺术家: 17,632
- 标签: 11,945
-
关系统计:
- 用户 - 艺术家: 92834
- 用户 - 用户 (Original): 25,434
- 用户 - 用户 (KNN): 18,802
- 艺术家 - 艺术家 (KNN): 153,399
- 艺术家 - 标签: 184,941
Yelp 数据集
-
实体统计:
- 用户: 16,239
- 商家: 14,284
- 赞: 11
- 类别: 511
- 城市: 47
-
关系统计:
- 用户 - 商家: 198,397
- 用户 - 用户: 158,590
- 用户 - 赞: 76,875
- 商家 - 城市: 14,267
- 商家 - 类别: 40,009
Yelp-2 数据集
-
实体统计:
- 用户: 1,286
- 商家: 2,614
- 服务: 2
- 星级: 9
- 预订: 2
- 类别: 3
-
关系统计:
- 用户 - 商家: 30,838
- 商家 - 服务: 2,614
- 商家 - 星级: 2,614
- 商家 - 预订: 2,614
- 商家 - 类别: 2,614
DBLP 数据集
-
实体统计:
- 作者: 14,475
- 论文: 14,376
- 作者标签: 4
- 会议: 20
- 类型: 8,920
-
关系统计:
- 作者 - 标签: 4,057
- 论文 - 作者: 41,794
- 论文 - 会议: 14,376
- 论文 - 类型: 114,624
Aminer 数据集
-
实体统计:
- 作者: 164,472
- 论文: 127,623
- 论文标签: 10
- 会议: 101
- 引用: 147,251
-
关系统计:
- 论文 - 标签: 127,623
- 论文 - 作者: 355,072
- 论文 - 会议: 127,632
- 论文 - 引用: 392,519
搜集汇总
数据集介绍

构建方式
该数据集通过整合多个领域的异构信息网络,构建了一个多源、多维度的推荐系统和网络嵌入研究平台。具体而言,数据集从MovieLens、Douban、Amazon、LastFM、Yelp、DBLP和Aminer等多个公开数据源中提取了丰富的实体和关系信息。每个数据源都包含了用户、物品、标签、类别等多种实体,并通过用户与物品的交互、用户之间的相似性、物品与标签的关联等多种关系进行连接。数据集的构建过程中,采用了Pearson相关系数来衡量实体间的相似性,并通过KNN算法进一步扩展了用户与用户、物品与物品之间的关系网络。
特点
该数据集的显著特点在于其异构性和多源性。首先,数据集涵盖了多个领域的数据,包括电影、书籍、音乐、餐饮等,使得研究者能够在不同场景下进行推荐系统和网络嵌入的实验。其次,数据集中的实体和关系类型多样,不仅包括用户与物品的交互,还涉及用户之间的社交关系、物品的属性标签等,为复杂网络分析提供了丰富的数据基础。此外,数据集通过KNN算法扩展了实体间的相似性关系,增强了网络的连通性和表达能力。
使用方法
该数据集适用于多种推荐系统和网络嵌入的研究任务。研究者可以利用数据集中的用户与物品交互信息,构建基于协同过滤、内容推荐或混合推荐算法的推荐系统。同时,数据集中的多维关系网络为网络嵌入提供了丰富的输入,研究者可以通过图嵌入、节点嵌入等技术,学习实体的低维表示,进而应用于节点分类、链接预测等任务。此外,数据集的多源特性使得跨领域推荐和多模态学习成为可能,研究者可以探索不同领域间的知识迁移和协同学习方法。
背景与挑战
背景概述
在推荐系统和网络嵌入领域,异构信息网络(Heterogeneous Information Networks, HIN)的研究日益受到关注。Heterogeneous-Information-Network-Datasets-for-Recommendation-and-Network-Embedding数据集由多个子数据集组成,涵盖了电影、书籍、音乐、餐饮等多个领域,旨在为推荐系统和网络嵌入算法提供丰富的异构数据支持。该数据集的创建时间未明确提及,但其主要研究人员或机构可能涉及多个领域的研究团队,如GroupLens和UCSD等。核心研究问题集中在如何利用异构信息网络中的多类型实体和关系,提升推荐系统的准确性和网络嵌入的表达能力。该数据集对相关领域的影响力在于其为算法研究和模型评估提供了标准化的数据基础,推动了异构信息网络在实际应用中的发展。
当前挑战
该数据集面临的挑战主要集中在数据异构性和复杂性上。首先,不同领域的数据结构和关系类型各异,如何统一处理和建模这些异构数据是一个重要挑战。其次,数据集的构建过程中,如何确保数据质量和一致性,尤其是在处理大规模、多来源的数据时,是一个技术难点。此外,推荐系统和网络嵌入算法在处理高维、稀疏的异构数据时,往往面临计算复杂度和模型泛化能力的双重挑战。最后,如何在实际应用中有效利用这些数据集,提升推荐系统的实时性和用户体验,也是当前研究的重点和难点。
常用场景
经典使用场景
在推荐系统和网络嵌入领域,Heterogeneous-Information-Network-Datasets-for-Recommendation-and-Network-Embedding数据集展现了其经典的使用场景。该数据集通过整合多个领域的异构信息网络,如电影、书籍、音乐和学术论文等,为研究人员提供了丰富的实体和关系数据。这些数据不仅支持基于协同过滤的推荐算法,还为网络嵌入技术提供了理想的实验平台。通过分析用户与物品之间的交互关系,以及物品之间的相似性,该数据集能够有效提升推荐系统的准确性和个性化程度。
实际应用
在实际应用中,该数据集广泛应用于个性化推荐系统和社交网络分析。例如,在电影推荐系统中,通过分析用户的历史评分和电影的属性信息,系统能够为用户提供更加精准的推荐。在社交网络分析中,该数据集帮助研究人员理解用户间的社交关系,从而优化社交网络的结构和功能。此外,该数据集还被用于学术领域的研究,如学术论文推荐和学术网络分析,为科研人员提供了有价值的工具和资源。
衍生相关工作
基于该数据集,许多经典工作得以展开。例如,研究人员提出了多种基于异构信息网络的推荐算法,如基于元路径的推荐模型和基于图神经网络的推荐系统。此外,该数据集还促进了网络嵌入技术的发展,如基于随机游走的网络嵌入方法和基于深度学习的网络表示学习。这些工作不仅在学术界产生了广泛的影响,还在工业界得到了实际应用,推动了推荐系统和网络分析技术的进步。
以上内容由遇见数据集搜集并总结生成



