denismagda/movies
收藏Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/denismagda/movies
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含超过45,000部电影和26百万条评分的数据集,这些评分来自超过270,000名用户。数据集最初来源于Kaggle,并进行了更新,包括生成了一个SQL模式的`movie_shema.sql`文件,添加了一个`overview_vector`列来存储电影概述的向量化表示,以及创建了包含OpenAI的`text-embedding-ada-002`模型生成的向量的SQL文件。此外,还提供了数据集的截断版本,分别包含超过20,000部和3,000部电影。
提供机构:
denismagda
原始信息汇总
The Movies Dataset With Embeddings
数据集概述
- 包含超过45,000部电影和2600万条来自超过270,000名用户的评分。
数据处理
- 原始数据来源于Kaggle。
- 生成了
movie_shema.sql文件,包含SQL模式。 - 添加了
overview_vector列,类型为vector(1536),用于存储电影概述的向量化表示。 - 创建了
movie_data_with_openai_embeddings.sql文件,其中overview_vector列包含使用OpenAI的text-embedding-ada-002模型生成的向量。 - 提供了数据集的截断版本:
movie_data_with_openai_embeddings_20K_records.sql:包含超过20,000部电影。movie_data_with_openai_embeddings_3K_records.sql:包含超过3,000部电影。
使用说明
- 如果需要使用不同的嵌入模型,可以加载
movie_data.sql数据集,然后为overview或其他列生成嵌入。



