five

DatasetInPaper

收藏
github2019-05-27 更新2024-05-31 收录
下载链接:
https://github.com/ConanCui/Heterogeneous-Information-Network-Datasets-for-Recommendation-and-Network-Embedding
下载链接
链接失效反馈
官方服务:
资源简介:
包含多个数据集,如MovieLens、Douban Movie、Douban Book、Amazon、LastFM和Yelp,每个数据集都详细描述了实体和关系的统计信息,用于推荐系统和网络嵌入研究。

This collection encompasses multiple datasets, including MovieLens, Douban Movie, Douban Book, Amazon, LastFM, and Yelp. Each dataset provides detailed statistical information on entities and relationships, tailored for research in recommendation systems and network embeddings.
创建时间:
2018-12-28
原始信息汇总

MovieLens

  • 实体统计

    • 用户: 943
    • 年龄: 8
    • 职业: 21
    • 电影: 1,682
    • 类型: 18
  • 关系统计

    • 用户 - 电影: 100,000
    • 用户 - 用户 (KNN): 47,150
    • 用户 - 年龄: 943
    • 用户 - 职业: 943
    • 电影 - 电影 (KNN): 82,798
    • 电影 - 类型: 2,861

Douban Movie

  • 实体统计

    • 用户: 13,367
    • 电影: 12,677
    • 组: 2,753
    • 演员: 6,311
    • 导演: 2,449
    • 类型: 38
  • 关系统计

    • 用户 - 电影: 1,068,278
    • 用户 - 组: 570,047
    • 用户 - 用户: 4,085
    • 电影 - 演员: 33,587
    • 电影 - 导演: 11,276
    • 电影 - 类型: 27,668

Douban Book

  • 实体统计

    • 用户: 13,024
    • 书籍: 22,347
    • 组: 2,936
    • 地点: 38
    • 作者: 10,805
    • 出版社: 1,815
    • 年份: 64
  • 关系统计

    • 用户 - 书籍: 792,062
    • 用户 - 组: 1,189,271
    • 用户 - 用户: 169,150
    • 用户 - 地点: 10,592
    • 书籍 - 作者: 21,907
    • 书籍 - 出版社: 21,773
    • 书籍 - 年份: 21,192

Amazon

  • 实体统计

    • 用户: 6,170
    • 商品: 2,753
    • 浏览: 3,857
    • 类别: 22
    • 品牌: 334
  • 关系统计

    • 用户 - 商品: 195,791
    • 商品 - 浏览: 5,694
    • 商品 - 类别: 5,508
    • 商品 - 品牌: 2,753

LastFM

  • 实体统计

    • 用户: 1,892
    • 艺术家: 17,632
    • 标签: 11,945
  • 关系统计

    • 用户 - 艺术家: 92834
    • 用户 - 用户 (Original): 25,434
    • 用户 - 用户 (KNN): 18,802
    • 艺术家 - 艺术家 (KNN): 153,399
    • 艺术家 - 标签: 184,941

Yelp

  • 实体统计

    • 用户: 16,239
    • 商家: 14,284
    • 称赞: 11
    • 类别: 47
    • 城市: 511
  • 关系统计

    • 用户 - 商家: 198,397
    • 用户 - 用户: 158,590
    • 用户 - 称赞: 76,875
    • 商家 - 城市: 14,267
    • 商家 - 类别: 40,009

DBLP

  • 实体统计

    • 作者: 14,475
    • 论文: 14,376
    • 作者标签: 4
    • 会议: 20
    • 类型: 8,920
  • 关系统计

    • 作者 - 标签: 4,057
    • 论文 - 作者: 41,794
    • 论文 - 会议: 14,376
    • 论文 - 类型: 114,624
搜集汇总
数据集介绍
main_image_url
构建方式
DatasetInPaper数据集的构建主要基于多个来源的异构数据,包括MovieLens、Douban Movie、Douban Book、Amazon、LastFM、Yelp以及DBLP等。各个数据源中包含了用户、物品(如电影、书籍等)、属性(如年龄、职业等)及其之间的关系(如评分、时间戳、分类等)。通过整合这些数据源,构建了一个涵盖多种实体和关系的复杂网络,为研究推荐系统和社交网络分析提供了丰富的资源。
使用方法
使用DatasetInPaper数据集时,研究者可以根据具体的研究目标和需求,选择相应的数据源和实体关系。数据集提供了详细的统计信息,包括各个实体和关系的数量,这有助于用户理解数据集的结构和内容。用户可以通过数据集中的关系来构建推荐模型,分析用户行为,或探索实体间的关联性。同时,数据集的时间戳信息可以用于研究用户行为的时间演变特征。
背景与挑战
背景概述
DatasetInPaper是一个综合性的数据集,涵盖了多个领域,包括电影、书籍、商品、音乐和学术文献。该数据集的创建目的是为了提供丰富的数据资源,以促进推荐系统、社会网络分析以及知识图谱等领域的研究。它整合了来自MovieLens、Douban Movie、Douban Book、Amazon、LastFM、Yelp和DBLP等多个来源的数据,最早由相关研究人员于2010年代初期创建。该数据集以其全面性和多样性,对相关领域产生了深远影响,被广泛用于学术研究和工业应用中。
当前挑战
尽管DatasetInPaper提供了丰富的数据资源,但在使用过程中也面临诸多挑战。首先,数据集的多样性和大规模特性使得数据清洗和预处理工作变得复杂。其次,不同来源的数据在质量、格式和一致性上存在差异,这对数据集成和融合提出了挑战。此外,数据集在保护用户隐私和遵循数据合规性方面也存在一定的挑战。在研究领域问题上,推荐系统的准确性和可扩展性、社会网络分析的复杂性以及知识图谱的构建和推理等,都是当前研究需要克服的重要挑战。
常用场景
经典使用场景
DatasetInPaper数据集在推荐系统领域内,被广泛用于构建和评估协同过滤模型。其经典使用场景在于,通过分析用户对电影、书籍等项目的评分数据,以及用户间的相似度,运用KNN算法进行用户或物品的推荐,从而提高推荐系统的准确性和用户满意度。
解决学术问题
该数据集解决了推荐系统中如何准确计算用户间或物品间相似度的问题。通过采用Pearson相关系数等相似度计算方法,为学术研究提供了有效的相似度评估手段,进而优化推荐算法,提高推荐质量。
实际应用
在实际应用中,DatasetInPaper数据集的应用场景广泛,如电子商务平台中的商品推荐、视频网站的影片推荐、音乐平台的歌曲推荐等,均利用该数据集进行模型训练,以实现个性化推荐,提升用户体验。
数据集最近研究
最新研究方向
DatasetInPaper数据集整合了多个领域的数据资源,其最新研究方向主要集中于多模态数据挖掘和跨领域推荐系统。该数据集涵盖了电影、书籍、音乐、商品等多个领域的用户行为和内容信息,为研究人员提供了丰富的数据支持。当前研究重点在于探索用户在不同领域间的兴趣迁移模式,以及如何利用这些模式提升推荐系统的准确性和个性化程度。此外,研究者们还在尝试结合社会网络分析,挖掘用户间的隐含关系,以增强推荐系统的社交属性。这些研究对于提高在线推荐系统的用户体验,促进内容分发和知识传播具有重要的理论和实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作