five

denismagda/movies

收藏
Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/denismagda/movies
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含超过45,000部电影和26百万条评分的数据集,这些评分来自超过270,000名用户。数据集最初来源于Kaggle,并进行了更新,包括生成了一个SQL模式的`movie_shema.sql`文件,添加了一个`overview_vector`列来存储电影概述的向量化表示,以及创建了包含OpenAI的`text-embedding-ada-002`模型生成的向量的SQL文件。此外,还提供了数据集的截断版本,分别包含超过20,000部和3,000部电影。
提供机构:
denismagda
原始信息汇总

The Movies Dataset With Embeddings

数据集概述

  • 包含超过45,000部电影和2600万条来自超过270,000名用户的评分。

数据处理

  • 原始数据来源于Kaggle
  • 生成了movie_shema.sql文件,包含SQL模式。
  • 添加了overview_vector列,类型为vector(1536),用于存储电影概述的向量化表示。
  • 创建了movie_data_with_openai_embeddings.sql文件,其中overview_vector列包含使用OpenAI的text-embedding-ada-002模型生成的向量。
  • 提供了数据集的截断版本:
    • movie_data_with_openai_embeddings_20K_records.sql:包含超过20,000部电影。
    • movie_data_with_openai_embeddings_3K_records.sql:包含超过3,000部电影。

使用说明

  • 如果需要使用不同的嵌入模型,可以加载movie_data.sql数据集,然后为overview或其他列生成嵌入。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作