HIN-Datasets-for-Recommendation-and-Network-Embedding|推荐系统数据集|网络嵌入数据集

github2024-05-04 更新2024-05-31 收录

推荐系统

网络嵌入

下载链接：

https://github.com/librahu/HIN-Datasets-for-Recommendation-and-Network-Embedding

下载链接

链接失效反馈

资源简介：

包含多个数据集，用于推荐系统和网络嵌入研究，涵盖电影、书籍、商品等多个领域的用户和物品关系数据。

This collection includes multiple datasets designed for research in recommendation systems and network embedding. It encompasses user-item relationship data across various domains such as movies, books, and merchandise.

创建时间：

2018-11-12

原始信息汇总

MovieLens 数据集

实体统计：
- 用户数：943
- 年龄类别数：8
- 职业类别数：21
- 电影数：1,682
- 电影类别数：18
关系统计：
- 用户-电影关系数：100,000
- 用户-用户（KNN）关系数：47,150
- 用户-年龄关系数：943
- 用户-职业关系数：943
- 电影-电影（KNN）关系数：82,798
- 电影-电影类别关系数：2,861

Douban Movie 数据集

实体统计：
- 用户数：13,367
- 电影数：12,677
- 小组数：2,753
- 演员数：6,311
- 导演数：2,449
- 类型数：38
关系统计：
- 用户-电影关系数：1,068,278
- 用户-小组关系数：570,047
- 用户-用户关系数：4,085
- 电影-演员关系数：33,587
- 电影-导演关系数：11,276
- 电影-类型关系数：27,668

Douban Book 数据集

实体统计：
- 用户数：13,024
- 书籍数：22,347
- 小组数：2,936
- 地点数：38
- 作者数：10,805
- 出版社数：1,815
- 年份数：64
关系统计：
- 用户-书籍关系数：792,062
- 用户-小组关系数：1,189,271
- 用户-用户关系数：169,150
- 用户-地点关系数：10,592
- 书籍-作者关系数：21,907
- 书籍-出版社关系数：21,773
- 书籍-年份关系数：21,192

Amazon 数据集

实体统计：
- 用户数：6,170
- 商品数：2,753
- 浏览数：3,857
- 类别数：22
- 品牌数：334
关系统计：
- 用户-商品关系数：195,791
- 商品-浏览关系数：5,694
- 商品-类别关系数：5,508
- 商品-品牌关系数：2,753

LastFM 数据集

实体统计：
- 用户数：1,892
- 艺术家数：17,632
- 标签数：11,945
关系统计：
- 用户-艺术家关系数：92,834
- 用户-用户（原始）关系数：25,434
- 用户-用户（KNN）关系数：18,802
- 艺术家-艺术家（KNN）关系数：153,399
- 艺术家-标签关系数：184,941

Yelp 数据集

实体统计：
- 用户数：16,239
- 商家数：14,284
- 赞关系数：11
- 类别数：511
- 城市数：47
关系统计：
- 用户-商家关系数：198,397
- 用户-用户关系数：158,590
- 用户-赞关系数：76,875
- 商家-城市关系数：14,267
- 商家-类别关系数：40,009

Yelp-2 数据集

实体统计：
- 用户数：1,286
- 商家数：2,614
- 服务数：2
- 星级数：9
- 预订数：2
- 类别数：3
关系统计：
- 用户-商家关系数：30,838
- 商家-服务关系数：2,614
- 商家-星级关系数：2,614
- 商家-预订关系数：2,614
- 商家-类别关系数：2,614

DBLP 数据集

实体统计：
- 作者数：14,475
- 论文数：14,376
- 作者标签数：4
- 会议数：20
- 类型数：8,920
关系统计：
- 作者-标签关系数：4,057
- 论文-作者关系数：41,794
- 论文-会议关系数：14,376
- 论文-类型关系数：114,624

Aminer 数据集

实体统计：
- 作者数：164,472
- 论文数：127,623
- 论文标签数：10
- 会议数：101
- 引用数：147,251
关系统计：
- 论文-标签关系数：127,623
- 论文-作者关系数：355,072
- 论文-会议关系数：127,632
- 论文-引用关系数：392,519

AI搜集汇总

数据集介绍

构建方式

HIN-Datasets-for-Recommendation-and-Network-Embedding数据集的构建基于多个领域的公开数据源，包括MovieLens、Douban、Amazon、LastFM、Yelp、DBLP和Aminer等。这些数据集涵盖了用户、物品、评分、时间戳、标签等多种实体和关系。通过整合这些数据源，数据集构建者详细记录了每个实体的统计信息及其相互之间的关系，如用户与电影的评分关系、用户与用户的相似度关系等。特别地，数据集在构建过程中采用了KNN算法，利用Pearson相关系数来衡量实体间的相似性，从而生成用户与用户、电影与电影等实体间的相似关系数据。

特点

该数据集的显著特点在于其多源异构数据的整合能力，涵盖了电影、书籍、音乐、商业评论等多个领域，提供了丰富的实体和关系信息。每个子数据集都详细记录了实体的数量及其相互关系的统计信息，如用户与电影的评分关系、用户与用户的相似度关系等。此外，数据集通过KNN算法和Pearson相关系数来衡量实体间的相似性，增强了数据集在推荐系统和网络嵌入领域的应用潜力。

使用方法

HIN-Datasets-for-Recommendation-and-Network-Embedding数据集适用于多种机器学习任务，特别是在推荐系统和网络嵌入领域。用户可以通过加载数据集中的实体和关系数据，进行用户行为分析、物品推荐、社交网络分析等任务。具体使用时，可以利用数据集中的用户-物品评分信息进行协同过滤推荐，或利用用户-用户、物品-物品的相似度关系进行网络嵌入学习。此外，数据集还提供了丰富的元数据信息，如用户年龄、职业、电影类型等，可用于构建更加复杂的推荐模型和网络分析。

背景与挑战

背景概述

HIN-Datasets-for-Recommendation-and-Network-Embedding数据集由多个子数据集组成，涵盖了电影、书籍、音乐、餐饮等多个领域的用户行为数据。这些数据集主要用于推荐系统和网络嵌入的研究，旨在通过分析用户与物品之间的关系，提升个性化推荐的准确性和效率。数据集的创建时间未明确提及，但其来源包括GroupLens、Amazon、Yelp等知名机构，这些机构在数据科学领域具有较高的权威性。核心研究问题围绕如何利用异构信息网络（HIN）进行有效的推荐和网络嵌入，这一研究对提升用户体验和商业价值具有重要意义。

当前挑战

该数据集面临的挑战主要包括数据异构性和稀疏性。首先，不同领域的数据结构和属性差异较大，如何有效整合和利用这些异构数据是一个重要挑战。其次，用户与物品之间的交互数据往往稀疏，尤其是在冷启动情况下，如何填补这些数据空白并进行准确推荐是一大难题。此外，数据集的构建过程中还需考虑隐私保护和数据安全问题，确保用户信息不被滥用。这些挑战不仅影响数据集的实际应用效果，也对相关算法的设计和优化提出了更高要求。

常用场景

经典使用场景

HIN-Datasets-for-Recommendation-and-Network-Embedding数据集在推荐系统和网络嵌入领域具有广泛的应用。其经典使用场景之一是基于异构信息网络（HIN）的推荐系统构建。通过整合用户、物品、标签等多源数据，该数据集支持研究者开发高效的推荐算法，以预测用户对未评分物品的偏好。此外，该数据集还可用于网络嵌入任务，通过学习节点和边的低维表示，捕捉网络中的复杂关系，从而提升推荐系统的准确性和鲁棒性。

衍生相关工作

HIN-Datasets-for-Recommendation-and-Network-Embedding数据集的发布催生了一系列相关研究工作。首先，基于该数据集的推荐算法研究取得了显著进展，如基于图神经网络的推荐模型和基于元路径的推荐方法。其次，网络嵌入技术的研究也得到了推动，研究者提出了多种高效的嵌入算法，如基于随机游走的嵌入方法和基于深度学习的嵌入模型。此外，该数据集还激发了关于异构信息网络分析的广泛研究，包括网络结构分析、社区发现和影响力传播等方向。

数据集最近研究

最新研究方向

在推荐系统和网络嵌入领域，HIN-Datasets-for-Recommendation-and-Network-Embedding数据集的研究方向主要集中在异构信息网络（HIN）的建模与应用。近年来，随着深度学习和图神经网络的快速发展，研究人员致力于通过这些先进技术提升推荐系统的准确性和个性化程度。具体而言，基于该数据集的研究热点包括：利用图嵌入技术对用户与物品的复杂关系进行建模，探索多模态数据的融合方法以增强推荐效果，以及通过异构网络的结构特性提升网络嵌入的表达能力。这些研究不仅推动了推荐系统在实际应用中的性能提升，也为跨领域的网络分析提供了新的视角和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录

CHFS中国家庭金融调查数据

中国家庭金融调查（China Household Finance Survey, CHFS）是中国家庭金融调查与研究中心（以下简称“中心”）在全国范围内开展的抽样调查项目，旨在收集有关家庭金融微观层次的相关信息，主要内容包括：人口特征与就业、资产与负债、收入与消费、社会保障与保险以及主观态度等相关信息，对家庭经济、金融行为进行了全面细致刻画。 CHFS基线调查始于2011年，目前已分别在2011、2013、2015、2017和2019年成功实施五轮全国范围内的抽样调查项目，2021年第六轮调查还在进行中。CHFS最新公开的2019年第五轮调查数据，样本覆盖全国29个省（自治区、直辖市），343个区县，1360个村（居）委会，样本规模达34643户，数据具有全国及省级代表性。

CnOpenData 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

Fruits-360

一个高质量的水果图像数据集，包含多种水果的图像，如苹果、香蕉、樱桃等，总计42345张图片，分为训练集和验证集，共有64个水果类别。

github 收录