movie Knowledge Graph Dataset

github2024-04-29 更新2024-05-31 收录

下载链接：

https://github.com/wey-gu/movie-recommendation-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个为NebulaGraph准备的电影知识图谱数据集，数据来源于OMDB和MovieLens，用于电影推荐系统。

This is a movie knowledge graph dataset prepared for NebulaGraph, with data sourced from OMDB and MovieLens, intended for use in movie recommendation systems.

创建时间：

2022-11-06

原始信息汇总

数据集概述

数据来源

演员和电影类型数据：来源于OMDB。
用户-电影交互记录：来源于MovieLens。

数据集结构

标签类型：
- 用户(user_id)
- 电影(name)
- 人物(name, birthdate)
- 类型(name)
边类型：
- 观看(rate(double))
- 属于类型
- 导演
- 演员

数据处理流程

原始数据整理
数据加载至数据仓库(Postgress)
数据转换为适合属性图模型的格式(dbt)，导出为CSV
将CSV文件加载至NebulaGraph(Nebula-Importer)

数据集使用

数据集用于构建电影知识图谱，支持图数据库NebulaGraph。
数据集的具体使用方法参考此链接。

数据集架构映射

数据集架构映射详细描述了如何将两个表格数据源映射到NebulaGraph的属性图模型。

数据集验证

数据导入NebulaGraph后，通过执行SHOW STATS;命令验证数据状态，确保数据正确加载。

搜集汇总

数据集介绍

构建方式

该电影知识图谱数据集的构建融合了OMDB和MovieLens两大来源的数据，通过ETL（Extract, Transform, Load）流程实现。首先，从OMDB获取电影演员和电影类型的数据，而MovieLens则提供了用户与电影的真实交互记录。数据经过清洗和整理后，被加载到数据仓库（Postgres）中。随后，通过dbt工具对数据进行转换，使其符合属性图模型，并导出为CSV格式。最终，这些CSV文件通过NebulaGraph Importer工具被导入到NebulaGraph中，形成一个完整的知识图谱。

特点

该数据集的显著特点在于其多源数据的融合与图谱化表达。通过整合OMDB和MovieLens的数据，数据集不仅涵盖了电影的基本信息，还包含了用户与电影的交互行为，形成了丰富的节点和边类型。节点包括用户、电影、人物和类型，而边类型则涵盖了观看、导演、演员和类型关联等多种关系。这种结构化的图谱形式为电影推荐、社交网络分析等应用提供了强大的数据支持。

使用方法

使用该数据集时，用户可以参考提供的文档和代码示例，了解如何通过NebulaGraph进行数据查询和分析。首先，用户需要安装并配置NebulaGraph环境，然后通过NebulaGraph的查询语言（ngql）对图谱进行操作。数据集的结构化设计使得用户可以轻松地进行电影推荐、用户行为分析等任务。此外，数据集还提供了详细的ETL流程和导入工具配置，方便用户进行二次开发和定制化分析。

背景与挑战

背景概述

电影知识图谱数据集（Movie Knowledge Graph Dataset）是一个专为NebulaGraph设计的知识图谱数据集，整合了OMDB和MovieLens的数据资源。OMDB提供了电影的演员和类型信息，而MovieLens则提供了用户与电影的真实互动记录。该数据集的核心研究问题在于如何通过知识图谱的形式，整合多源异构数据，以支持电影推荐系统等应用。其创建旨在为电影领域的研究提供一个结构化的数据基础，推动知识图谱在电影推荐、用户行为分析等领域的应用。

当前挑战

该数据集在构建过程中面临多重挑战。首先，数据来源多样且异构，如何有效整合OMDB和MovieLens的数据是一个技术难题。其次，数据清洗和转换过程中，需处理大量的噪声和缺失值，确保数据质量。此外，将表格数据映射到图模型，并实现高效的导入和查询，也是一项复杂的工程任务。最后，如何在知识图谱中有效表示用户、电影、演员及类型之间的关系，并支持复杂的查询和分析，是该数据集在实际应用中的主要挑战。

常用场景

经典使用场景

电影知识图谱数据集的经典使用场景主要集中在推荐系统和电影分析领域。通过整合OMDB和MovieLens的数据，该数据集构建了一个包含用户、电影、演员、导演和电影类型的知识图谱。这一图谱能够支持基于用户历史行为的电影推荐，例如通过分析用户观看记录和评分，预测用户可能喜欢的电影类型或演员。此外，该数据集还可用于电影内容的深度分析，如探索电影类型与票房表现之间的关系，或分析导演与演员的合作模式。

衍生相关工作

电影知识图谱数据集的发布催生了一系列相关研究和工作。首先，基于该数据集的推荐系统研究成为热点，许多研究者提出了新的推荐算法，如结合图神经网络和深度学习的推荐模型。其次，该数据集为电影产业分析提供了新的工具，如通过图分析技术探索电影类型与票房的关系，或分析导演与演员的合作模式。此外，该数据集还激发了社会网络分析领域的研究，通过构建和分析电影产业的社会网络，揭示行业内的影响力分布和合作模式。

数据集最近研究