MongoDB/embedded_movies
收藏Hugging Face2024-06-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MongoDB/embedded_movies
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含关于西部片、动作片和奇幻片的详细信息。每个文档代表一部电影,包含标题、上映年份、演员等信息,并且包含使用OpenAI的text-embedding-ada-002模型生成的plot_embedding字段。数据集适用于电影推荐系统、电影分析和电影研究教育。
This dataset contains detailed information about Western films, action films, and fantasy films. Each entry represents a single film, including its title, release year, cast, and other relevant details, alongside a plot_embedding field generated using OpenAI's text-embedding-ada-002 model. This dataset is suitable for applications such as movie recommendation systems, film analysis, and educational film research.
提供机构:
MongoDB
原始信息汇总
数据集概述
数据集名称
- sample_mflix.embedded_movies
数据集内容
- 包含西部、动作、奇幻三种类型的电影详细信息。
- 每条记录包含电影的标题、发行年份、演员阵容等信息。
- 包含一个
plot_embedding字段,使用OpenAI的text-embedding-ada-002模型创建,适用于Atlas Search向量搜索功能。
数据集结构
- 字段列表
_id: 电影的唯一标识符。plot: 电影剧情简介。genres: 电影所属的类型列表。runtime: 电影的播放时长(分钟)。rated: 电影的MPAA评级。cast: 主要演员列表。num_mflix_comments: mflix平台上的评论数量。poster: 电影海报图片的URL。title: 电影标题。lastupdated: 电影信息最后更新日期和时间。languages: 电影支持的语言列表。directors: 导演列表。writers: 编剧列表。awards: 获奖和提名信息。imdb: IMDb评分、投票数和ID。countries: 电影制作国家列表。type: 记录类型,此处为movie。tomatoes: 来自Rotten Tomatoes的评分和评论。plot_embedding: 电影剧情向量表示,用于机器学习应用。
数据集用途
- 分析电影类型和评级的趋势。
- 构建基于剧情嵌入和类型的电影推荐引擎。
- 研究演员/导演与电影成功之间的关联。
- 用于电影研究和数据分析课程的教育目的。
注意事项
- 数据按原样提供,主要用于信息和教育目的。
- 用户应验证信息的准确性,特别是对于关键用途。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含约1,500部电影的详细信息,特别关注动作、西部和奇幻类型,每部电影都有剧情摘要、类型、演员、导演等信息,并包含由OpenAI模型生成的剧情嵌入向量,适合用于电影推荐和内容分析。
以上内容由遇见数据集搜集并总结生成



