five

movie Knowledge Graph Dataset|电影推荐数据集|知识图谱数据集

收藏
github2024-04-29 更新2024-05-31 收录
电影推荐
知识图谱
下载链接:
https://github.com/wey-gu/movie-recommendation-dataset
下载链接
链接失效反馈
资源简介:
这是一个为NebulaGraph准备的电影知识图谱数据集,数据来源于OMDB和MovieLens,用于电影推荐系统。

This is a movie knowledge graph dataset prepared for NebulaGraph, with data sourced from OMDB and MovieLens, intended for use in movie recommendation systems.
创建时间:
2022-11-06
原始信息汇总

数据集概述

数据来源

  • 演员和电影类型数据:来源于OMDB
  • 用户-电影交互记录:来源于MovieLens

数据集结构

  • 标签类型

    • 用户(user_id)
    • 电影(name)
    • 人物(name, birthdate)
    • 类型(name)
  • 边类型

    • 观看(rate(double))
    • 属于类型
    • 导演
    • 演员

数据处理流程

  1. 原始数据整理
  2. 数据加载至数据仓库(Postgress)
  3. 数据转换为适合属性图模型的格式(dbt),导出为CSV
  4. 将CSV文件加载至NebulaGraph(Nebula-Importer)

数据集使用

  • 数据集用于构建电影知识图谱,支持图数据库NebulaGraph。
  • 数据集的具体使用方法参考此链接

数据集架构映射

  • 数据集架构映射详细描述了如何将两个表格数据源映射到NebulaGraph的属性图模型。

数据集验证

  • 数据导入NebulaGraph后,通过执行SHOW STATS;命令验证数据状态,确保数据正确加载。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该电影知识图谱数据集的构建融合了OMDB和MovieLens两大来源的数据,通过ETL(Extract, Transform, Load)流程实现。首先,从OMDB获取电影演员和电影类型的数据,而MovieLens则提供了用户与电影的真实交互记录。数据经过清洗和整理后,被加载到数据仓库(Postgres)中。随后,通过dbt工具对数据进行转换,使其符合属性图模型,并导出为CSV格式。最终,这些CSV文件通过NebulaGraph Importer工具被导入到NebulaGraph中,形成一个完整的知识图谱。
特点
该数据集的显著特点在于其多源数据的融合与图谱化表达。通过整合OMDB和MovieLens的数据,数据集不仅涵盖了电影的基本信息,还包含了用户与电影的交互行为,形成了丰富的节点和边类型。节点包括用户、电影、人物和类型,而边类型则涵盖了观看、导演、演员和类型关联等多种关系。这种结构化的图谱形式为电影推荐、社交网络分析等应用提供了强大的数据支持。
使用方法
使用该数据集时,用户可以参考提供的文档和代码示例,了解如何通过NebulaGraph进行数据查询和分析。首先,用户需要安装并配置NebulaGraph环境,然后通过NebulaGraph的查询语言(ngql)对图谱进行操作。数据集的结构化设计使得用户可以轻松地进行电影推荐、用户行为分析等任务。此外,数据集还提供了详细的ETL流程和导入工具配置,方便用户进行二次开发和定制化分析。
背景与挑战
背景概述
电影知识图谱数据集(Movie Knowledge Graph Dataset)是一个专为NebulaGraph设计的知识图谱数据集,整合了OMDB和MovieLens的数据资源。OMDB提供了电影的演员和类型信息,而MovieLens则提供了用户与电影的真实互动记录。该数据集的核心研究问题在于如何通过知识图谱的形式,整合多源异构数据,以支持电影推荐系统等应用。其创建旨在为电影领域的研究提供一个结构化的数据基础,推动知识图谱在电影推荐、用户行为分析等领域的应用。
当前挑战
该数据集在构建过程中面临多重挑战。首先,数据来源多样且异构,如何有效整合OMDB和MovieLens的数据是一个技术难题。其次,数据清洗和转换过程中,需处理大量的噪声和缺失值,确保数据质量。此外,将表格数据映射到图模型,并实现高效的导入和查询,也是一项复杂的工程任务。最后,如何在知识图谱中有效表示用户、电影、演员及类型之间的关系,并支持复杂的查询和分析,是该数据集在实际应用中的主要挑战。
常用场景
经典使用场景
电影知识图谱数据集的经典使用场景主要集中在推荐系统和电影分析领域。通过整合OMDB和MovieLens的数据,该数据集构建了一个包含用户、电影、演员、导演和电影类型的知识图谱。这一图谱能够支持基于用户历史行为的电影推荐,例如通过分析用户观看记录和评分,预测用户可能喜欢的电影类型或演员。此外,该数据集还可用于电影内容的深度分析,如探索电影类型与票房表现之间的关系,或分析导演与演员的合作模式。
衍生相关工作
电影知识图谱数据集的发布催生了一系列相关研究和工作。首先,基于该数据集的推荐系统研究成为热点,许多研究者提出了新的推荐算法,如结合图神经网络和深度学习的推荐模型。其次,该数据集为电影产业分析提供了新的工具,如通过图分析技术探索电影类型与票房的关系,或分析导演与演员的合作模式。此外,该数据集还激发了社会网络分析领域的研究,通过构建和分析电影产业的社会网络,揭示行业内的影响力分布和合作模式。
数据集最近研究
最新研究方向
在电影知识图谱领域,最新的研究方向主要集中在利用图数据库技术进行电影推荐系统的优化与个性化服务。通过整合OMDB和MovieLens的数据,研究者们构建了一个包含用户、电影、演员、导演和电影类型等实体及其关系的知识图谱。这一图谱不仅支持基于用户行为的推荐,还能通过图算法挖掘潜在的电影关联和用户兴趣模式。此外,该数据集的应用还涉及电影产业的决策支持系统,如票房预测和市场分析,进一步推动了电影行业的智能化发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Pubmed

Pubmed 数据集包含来自 PubMed 数据库的 19717 篇与糖尿病相关的科学出版物,分为三类之一。引文网络由 44338 个链接组成。数据集中的每个出版物都由字典中的 TF/IDF 加权词向量描述,该字典由 500 个唯一词组成。

OpenDataLab 收录

BBGRE

The Brain & Body Genetic Resource Exchange (BBGRE) provides a resource for investigating the genetic basis of neurodisability. It combines phenotype information from patients with neurodevelopmental and behavioural problems with clinical genetic data, and displays this information on the human genome map.

国家生物信息中心 收录