movie Knowledge Graph Dataset|电影推荐数据集|知识图谱数据集

github2024-04-29 更新2024-05-31 收录

电影推荐

知识图谱

下载链接：

https://github.com/wey-gu/movie-recommendation-dataset

下载链接

链接失效反馈

资源简介：

这是一个为NebulaGraph准备的电影知识图谱数据集，数据来源于OMDB和MovieLens，用于电影推荐系统。

This is a movie knowledge graph dataset prepared for NebulaGraph, with data sourced from OMDB and MovieLens, intended for use in movie recommendation systems.

创建时间：

2022-11-06

原始信息汇总

数据集概述

数据来源

演员和电影类型数据：来源于OMDB。
用户-电影交互记录：来源于MovieLens。

数据集结构

标签类型：
- 用户(user_id)
- 电影(name)
- 人物(name, birthdate)
- 类型(name)
边类型：
- 观看(rate(double))
- 属于类型
- 导演
- 演员

数据处理流程

原始数据整理
数据加载至数据仓库(Postgress)
数据转换为适合属性图模型的格式(dbt)，导出为CSV
将CSV文件加载至NebulaGraph(Nebula-Importer)

数据集使用

数据集用于构建电影知识图谱，支持图数据库NebulaGraph。
数据集的具体使用方法参考此链接。

数据集架构映射

数据集架构映射详细描述了如何将两个表格数据源映射到NebulaGraph的属性图模型。

数据集验证

数据导入NebulaGraph后，通过执行SHOW STATS;命令验证数据状态，确保数据正确加载。

AI搜集汇总

数据集介绍

构建方式

该电影知识图谱数据集的构建融合了OMDB和MovieLens两大来源的数据，通过ETL（Extract, Transform, Load）流程实现。首先，从OMDB获取电影演员和电影类型的数据，而MovieLens则提供了用户与电影的真实交互记录。数据经过清洗和整理后，被加载到数据仓库（Postgres）中。随后，通过dbt工具对数据进行转换，使其符合属性图模型，并导出为CSV格式。最终，这些CSV文件通过NebulaGraph Importer工具被导入到NebulaGraph中，形成一个完整的知识图谱。

特点

该数据集的显著特点在于其多源数据的融合与图谱化表达。通过整合OMDB和MovieLens的数据，数据集不仅涵盖了电影的基本信息，还包含了用户与电影的交互行为，形成了丰富的节点和边类型。节点包括用户、电影、人物和类型，而边类型则涵盖了观看、导演、演员和类型关联等多种关系。这种结构化的图谱形式为电影推荐、社交网络分析等应用提供了强大的数据支持。

使用方法

使用该数据集时，用户可以参考提供的文档和代码示例，了解如何通过NebulaGraph进行数据查询和分析。首先，用户需要安装并配置NebulaGraph环境，然后通过NebulaGraph的查询语言（ngql）对图谱进行操作。数据集的结构化设计使得用户可以轻松地进行电影推荐、用户行为分析等任务。此外，数据集还提供了详细的ETL流程和导入工具配置，方便用户进行二次开发和定制化分析。

背景与挑战

背景概述

电影知识图谱数据集（Movie Knowledge Graph Dataset）是一个专为NebulaGraph设计的知识图谱数据集，整合了OMDB和MovieLens的数据资源。OMDB提供了电影的演员和类型信息，而MovieLens则提供了用户与电影的真实互动记录。该数据集的核心研究问题在于如何通过知识图谱的形式，整合多源异构数据，以支持电影推荐系统等应用。其创建旨在为电影领域的研究提供一个结构化的数据基础，推动知识图谱在电影推荐、用户行为分析等领域的应用。

当前挑战

该数据集在构建过程中面临多重挑战。首先，数据来源多样且异构，如何有效整合OMDB和MovieLens的数据是一个技术难题。其次，数据清洗和转换过程中，需处理大量的噪声和缺失值，确保数据质量。此外，将表格数据映射到图模型，并实现高效的导入和查询，也是一项复杂的工程任务。最后，如何在知识图谱中有效表示用户、电影、演员及类型之间的关系，并支持复杂的查询和分析，是该数据集在实际应用中的主要挑战。

常用场景

经典使用场景

电影知识图谱数据集的经典使用场景主要集中在推荐系统和电影分析领域。通过整合OMDB和MovieLens的数据，该数据集构建了一个包含用户、电影、演员、导演和电影类型的知识图谱。这一图谱能够支持基于用户历史行为的电影推荐，例如通过分析用户观看记录和评分，预测用户可能喜欢的电影类型或演员。此外，该数据集还可用于电影内容的深度分析，如探索电影类型与票房表现之间的关系，或分析导演与演员的合作模式。

衍生相关工作

电影知识图谱数据集的发布催生了一系列相关研究和工作。首先，基于该数据集的推荐系统研究成为热点，许多研究者提出了新的推荐算法，如结合图神经网络和深度学习的推荐模型。其次，该数据集为电影产业分析提供了新的工具，如通过图分析技术探索电影类型与票房的关系，或分析导演与演员的合作模式。此外，该数据集还激发了社会网络分析领域的研究，通过构建和分析电影产业的社会网络，揭示行业内的影响力分布和合作模式。

数据集最近研究

最新研究方向

在电影知识图谱领域，最新的研究方向主要集中在利用图数据库技术进行电影推荐系统的优化与个性化服务。通过整合OMDB和MovieLens的数据，研究者们构建了一个包含用户、电影、演员、导演和电影类型等实体及其关系的知识图谱。这一图谱不仅支持基于用户行为的推荐，还能通过图算法挖掘潜在的电影关联和用户兴趣模式。此外，该数据集的应用还涉及电影产业的决策支持系统，如票房预测和市场分析，进一步推动了电影行业的智能化发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

NIST Thermochemical Database

NIST Thermochemical Database（NIST热化学数据库）是一个包含大量热化学数据的数据集，涵盖了各种化学物质的热力学性质，如焓、熵、自由能等。该数据库由美国国家标准与技术研究院（NIST）维护，旨在为科学研究和工业应用提供准确的热化学数据。

webbook.nist.gov 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

Amazon电影评论数据集

该数据集包含从1997年8月至2012年10月期间，Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签，这些标签是通过爬取/抓取Amazon.com获得的，用于分类产品。

github 收录