five

HIN-Datasets-for-Recommendation-and-Network-Embedding

收藏
github2020-05-05 更新2024-05-31 收录
下载链接:
https://github.com/lx-777/HIN-Datasets-for-Recommendation-and-Network-Embedding
下载链接
链接失效反馈
官方服务:
资源简介:
异构信息网络数据集,用于推荐系统和网络嵌入,包含多个领域的数据集,如电影、书籍、亚马逊产品等,每个数据集都详细列出了实体和关系的统计信息。

A heterogeneous information network dataset designed for recommendation systems and network embedding, encompassing multiple domains such as movies, books, and Amazon products. Each dataset meticulously details the statistical information of entities and relationships.
创建时间:
2020-05-05
原始信息汇总

MovieLens 数据集

  • 实体统计
    • 用户数:943
    • 年龄类别数:8
    • 职业类别数:21
    • 电影数:1,682
    • 电影类别数:18
  • 关系统计
    • 用户-电影关系数:100,000
    • 用户-用户(KNN)关系数:47,150
    • 用户-年龄关系数:943
    • 用户-职业关系数:943
    • 电影-电影(KNN)关系数:82,798
    • 电影-电影类别关系数:2,861

Douban Movie 数据集

  • 实体统计
    • 用户数:13,367
    • 电影数:12,677
    • 小组数:2,753
    • 演员数:6,311
    • 导演数:2,449
    • 类型数:38
  • 关系统计
    • 用户-电影关系数:1,068,278
    • 用户-小组关系数:570,047
    • 用户-用户关系数:4,085
    • 电影-演员关系数:33,587
    • 电影-导演关系数:11,276
    • 电影-类型关系数:27,668

Douban Book 数据集

  • 实体统计
    • 用户数:13,024
    • 书籍数:22,347
    • 小组数:2,936
    • 地点数:38
    • 作者数:10,805
    • 出版社数:1,815
    • 年份数:64
  • 关系统计
    • 用户-书籍关系数:792,062
    • 用户-小组关系数:1,189,271
    • 用户-用户关系数:169,150
    • 用户-地点关系数:10,592
    • 书籍-作者关系数:21,907
    • 书籍-出版社关系数:21,773
    • 书籍-年份关系数:21,192

Amazon 数据集

  • 实体统计
    • 用户数:6,170
    • 商品数:2,753
    • 浏览数:3,857
    • 类别数:22
    • 品牌数:334
  • 关系统计
    • 用户-商品关系数:195,791
    • 商品-浏览关系数:5,694
    • 商品-类别关系数:5,508
    • 商品-品牌关系数:2,753

LastFM 数据集

  • 实体统计
    • 用户数:1,892
    • 艺术家数:17,632
    • 标签数:11,945
  • 关系统计
    • 用户-艺术家关系数:92,834
    • 用户-用户(原始)关系数:25,434
    • 用户-用户(KNN)关系数:18,802
    • 艺术家-艺术家(KNN)关系数:153,399
    • 艺术家-标签关系数:184,941

Yelp 数据集

  • 实体统计
    • 用户数:16,239
    • 商家数:14,284
    • 称赞类别数:11
    • 类别数:511
    • 城市数:47
  • 关系统计
    • 用户-商家关系数:198,397
    • 用户-用户关系数:158,590
    • 用户-称赞关系数:76,875
    • 商家-城市关系数:14,267
    • 商家-类别关系数:40,009

Yelp-2 数据集

  • 实体统计
    • 用户数:1,286
    • 商家数:2,614
    • 服务数:2
    • 星级数:9
    • 预订数:2
    • 类别数:3
  • 关系统计
    • 用户-商家关系数:30,838
    • 商家-服务关系数:2,614
    • 商家-星级关系数:2,614
    • 商家-预订关系数:2,614
    • 商家-类别关系数:2,614

DBLP 数据集

  • 实体统计
    • 作者数:14,475
    • 论文数:14,376
    • 作者标签数:4
    • 会议数:20
    • 类型数:8,920
  • 关系统计
    • 作者-标签关系数:4,057
    • 论文-作者关系数:41,794
    • 论文-会议关系数:14,376
    • 论文-类型关系数:114,624

Aminer 数据集

  • 实体统计
    • 作者数:164,472
    • 论文数:127,623
    • 论文标签数:10
    • 会议数:101
    • 引用数:147,251
  • 关系统计
    • 论文-标签关系数:127,623
    • 论文-作者关系数:355,072
    • 论文-会议关系数:127,632
    • 论文-引用关系数:392,519
搜集汇总
数据集介绍
main_image_url
构建方式
HIN-Datasets-for-Recommendation-and-Network-Embedding数据集通过整合多个领域的数据,构建了一个异构信息网络。该数据集涵盖了电影、书籍、音乐、商业等多个领域,通过收集用户与物品间的互动信息,以及用户与用户、物品与物品之间的关联,形成了包含丰富关系信息的网络结构。
特点
该数据集的特点在于其异构性,包含了多种类型的实体和关系,能够支持推荐系统和网络嵌入等多种任务。数据集统计详细,提供了不同实体和关系的数量,为研究提供了坚实的基础。此外,数据集还包含了时间戳和评分信息,有助于分析用户行为随时间的演变。
使用方法
使用该数据集时,研究者可以根据具体的任务需求,选择相应的实体和关系进行建模。数据集的使用涉及数据预处理、模型训练和评估等多个步骤。数据预处理包括数据清洗、实体关系映射等;模型训练时,可以利用数据集中的用户行为和物品属性进行特征学习;评估时,则可通过预留的测试集来检验模型的性能。
背景与挑战
背景概述
HIN-Datasets-for-Recommendation-and-Network-Embedding是一系列用于推荐系统和网络嵌入研究的数据集,涵盖了电影、书籍、商品、音乐、商业评论以及学术文献等多个领域。这些数据集由多个研究团队在不同时间创建,提供了丰富的实体和关系数据,用于研究用户行为、内容推荐、社交网络分析等。它们的出现为推荐系统领域带来了新的研究视角,推动了复杂网络结构下的推荐算法发展,对相关领域的研究产生了深远影响。
当前挑战
这些数据集在构建过程中遇到了诸多挑战,如数据隐私保护、数据清洗和预处理、实体关系的准确标注等。在研究领域中,使用这些数据集面临的挑战包括如何处理稀疏性、如何提高推荐算法的准确性和解释性、如何在保持用户体验的同时处理大规模数据集,以及如何结合异构信息进行更有效的推荐和嵌入。
常用场景
经典使用场景
HIN-Datasets-for-Recommendation-and-Network-Embedding数据集,作为异构信息网络的集合,广泛应用于推荐系统和网络嵌入领域。其经典使用场景包括对用户与物品之间的复杂交互关系进行建模,以及利用用户和物品的多种属性信息来提高推荐的准确性和解释性。
解决学术问题
该数据集解决了传统推荐系统无法充分考虑用户和物品异构信息的问题,通过引入多种类型的实体和关系,为学术研究提供了深入理解用户行为和偏好的可能。它使得研究者能够探究异构网络中的复杂模式,从而提高推荐系统的性能和鲁棒性。
衍生相关工作
基于该数据集,研究者衍生出了一系列相关工作,包括但不限于异构网络嵌入算法的开发、推荐系统的优化方法,以及网络表示学习中的新模型结构。这些工作进一步拓宽了异构信息网络在学术研究和实际应用中的影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作