five

DatasetInPaper

收藏
github2024-05-04 更新2024-05-31 收录
下载链接:
https://github.com/librahu/DatasetInPaper
下载链接
链接失效反馈
官方服务:
资源简介:
包含多个数据集,如MovieLens、Douban Movie、Douban Book、Amazon、LastFM和Yelp,每个数据集都提供了详细的实体和关系统计信息,用于推荐系统和网络嵌入研究。

This collection encompasses multiple datasets, including MovieLens, Douban Movie, Douban Book, Amazon, LastFM, and Yelp. Each dataset provides detailed statistics on entities and relationships, which are instrumental for research in recommendation systems and network embeddings.
创建时间:
2018-11-12
原始信息汇总

MovieLens 数据集

  • 实体统计

    • 用户: 943
    • 年龄: 8
    • 职业: 21
    • 电影: 1,682
    • 类型: 18
  • 关系统计

    • 用户 - 电影: 100,000
    • 用户 - 用户 (KNN): 47,150
    • 用户 - 年龄: 943
    • 用户 - 职业: 943
    • 电影 - 电影 (KNN): 82,798
    • 电影 - 类型: 2,861

Douban Movie 数据集

  • 实体统计

    • 用户: 13,367
    • 电影: 12,677
    • 组: 2,753
    • 演员: 6,311
    • 导演: 2,449
    • 类型: 38
  • 关系统计

    • 用户 - 电影: 1,068,278
    • 用户 - 组: 570,047
    • 用户 - 用户: 4,085
    • 电影 - 演员: 33,587
    • 电影 - 导演: 11,276
    • 电影 - 类型: 27,668

Douban Book 数据集

  • 实体统计

    • 用户: 13,024
    • 书: 22,347
    • 组: 2,936
    • 地点: 38
    • 作者: 10,805
    • 出版社: 1,815
    • 年份: 64
  • 关系统计

    • 用户 - 书: 792,062
    • 用户 - 组: 1,189,271
    • 用户 - 用户: 169,150
    • 用户 - 地点: 10,592
    • 书 - 作者: 21,907
    • 书 - 出版社: 21,773
    • 书 - 年份: 21,192

Amazon 数据集

  • 实体统计

    • 用户: 6,170
    • 商品: 2,753
    • 浏览: 3,857
    • 类别: 22
    • 品牌: 334
  • 关系统计

    • 用户 - 商品: 195,791
    • 商品 - 浏览: 5,694
    • 商品 - 类别: 5,508
    • 商品 - 品牌: 2,753

LastFM 数据集

  • 实体统计

    • 用户: 1,892
    • 艺术家: 17,632
    • 标签: 11,945
  • 关系统计

    • 用户 - 艺术家: 92,834
    • 用户 - 用户 (Original): 25,434
    • 用户 - 用户 (KNN): 18,802
    • 艺术家 - 艺术家 (KNN): 153,399
    • 艺术家 - 标签: 184,941

Yelp 数据集

  • 实体统计

    • 用户: 16,239
    • 商家: 14,284
    • 称赞: 11
    • 类别: 511
    • 城市: 47
  • 关系统计

    • 用户 - 商家: 198,397
    • 用户 - 用户: 158,590
    • 用户 - 称赞: 76,875
    • 商家 - 城市: 14,267
    • 商家 - 类别: 40,009

Yelp-2 数据集

  • 实体统计

    • 用户: 1,286
    • 商家: 2,614
    • 服务: 2
    • 星级: 9
    • 预订: 2
    • 类别: 3
  • 关系统计

    • 用户 - 商家: 30,838
    • 商家 - 服务: 2,614
    • 商家 - 星级: 2,614
    • 商家 - 预订: 2,614
    • 商家 - 类别: 2,614

DBLP 数据集

  • 实体统计

    • 作者: 14,475
    • 论文: 14,376
    • 作者标签: 4
    • 会议: 20
    • 类型: 8,920
  • 关系统计

    • 作者 - 标签: 4,057
    • 论文 - 作者: 41,794
    • 论文 - 会议: 14,376
    • 论文 - 类型: 114,624

Aminer 数据集

  • 实体统计

    • 作者: 164,472
    • 论文: 127,623
    • 论文标签: 10
    • 会议: 101
    • 引用: 147,251
  • 关系统计

    • 论文 - 标签: 127,623
    • 论文 - 作者: 355,072
    • 论文 - 会议: 127,632
    • 论文 - 引用: 392,519
搜集汇总
数据集介绍
main_image_url
构建方式
DatasetInPaper数据集的构建基于多个公开数据源,涵盖了电影、书籍、音乐、餐饮等多个领域。数据集通过整合来自MovieLens、Douban、Amazon、LastFM、Yelp、DBLP和Aminer等平台的数据,构建了丰富的实体和关系网络。每个子数据集均包含用户、物品及其相关属性,并通过KNN算法计算用户与物品之间的相似度,利用Pearson相关系数进行度量。此外,数据集还记录了用户与物品之间的交互关系,如评分、时间戳等,为研究用户行为和推荐系统提供了全面的数据支持。
特点
DatasetInPaper数据集的显著特点在于其跨领域的多样性和丰富的关系网络。数据集不仅包含了用户与物品之间的直接交互,还通过KNN算法构建了用户与用户、物品与物品之间的相似关系,增强了数据的关联性。此外,数据集涵盖了多个领域的实体和属性,如电影的导演、演员,书籍的作者、出版年份等,为多维度分析提供了可能。数据集的规模和多样性使其适用于多种推荐系统和用户行为分析的研究。
使用方法
DatasetInPaper数据集可广泛应用于推荐系统、用户行为分析、社交网络研究等领域。研究者可以通过加载数据集中的实体和关系数据,进行用户与物品的相似度计算、推荐算法测试等。数据集提供了详细的统计信息和关系网络,便于研究者进行数据清洗和预处理。此外,数据集的多领域特性使其适用于跨领域的推荐算法研究,研究者可以根据需求选择特定领域的子数据集进行深入分析。
背景与挑战
背景概述
DatasetInPaper数据集由多个子数据集组成,涵盖了电影、书籍、音乐、商业评论等多个领域,旨在为推荐系统、社交网络分析等研究提供丰富的数据支持。该数据集的创建时间未明确提及,但其主要研究人员或机构可能与GroupLens、UCSD等知名研究机构相关。核心研究问题集中在用户与物品之间的交互关系,以及如何通过这些关系构建高效的推荐算法。该数据集对推荐系统领域的影响力显著,为研究人员提供了多样化的数据资源,促进了相关算法的创新与发展。
当前挑战
DatasetInPaper数据集在构建过程中面临多项挑战。首先,数据集的多样性带来了数据整合与清洗的复杂性,不同子数据集的格式和内容差异较大,增加了数据预处理的难度。其次,用户与物品之间的交互数据量大且复杂,如何从中提取有用的特征并构建高效的推荐模型是一个重要挑战。此外,数据集中涉及的隐私和安全问题也需要严格考虑,确保用户信息的合理使用和保护。最后,数据集的更新和维护也是一个持续的挑战,确保数据的时效性和准确性对于研究的有效性至关重要。
常用场景
经典使用场景
DatasetInPaper 数据集在推荐系统领域展现了其经典应用价值。通过整合多个平台(如MovieLens、Douban、Amazon等)的用户评分数据,该数据集为研究者提供了丰富的用户-物品交互信息。特别地,数据集中的用户-电影、用户-书籍等关系数据,为协同过滤、矩阵分解等推荐算法的研究提供了坚实的基础。此外,数据集还包含了用户的社会关系和物品的属性信息,进一步支持了基于社交网络和内容特征的推荐模型研究。
衍生相关工作
基于 DatasetInPaper 数据集,研究者们提出了多种创新的推荐算法和模型。例如,有学者利用数据集中的用户社交关系,提出了基于社交网络的推荐模型,显著提升了推荐的准确性。此外,数据集的多源数据特性还激发了跨平台推荐系统的研究,推动了跨领域推荐技术的融合与发展。同时,数据集中的时间戳信息也被广泛用于研究时序推荐模型,进一步丰富了推荐系统的理论与实践。
数据集最近研究
最新研究方向
在推荐系统领域,DatasetInPaper数据集因其丰富的用户-物品交互信息和多样的实体关系而备受关注。最新的研究方向主要集中在利用图神经网络(GNN)和深度学习技术,通过建模用户与物品之间的复杂关系来提升推荐系统的准确性和个性化程度。例如,研究人员正在探索如何将KNN算法与GNN结合,以捕捉用户和物品之间的潜在相似性,从而实现更精准的推荐。此外,随着隐私保护和数据安全问题的日益突出,如何在保证用户隐私的前提下,有效利用这些数据进行推荐系统的优化,也成为了一个重要的研究热点。这些研究不仅推动了推荐系统技术的发展,也为相关领域的应用提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作