five

christophsonntag/gte_embedded_movies

收藏
Hugging Face2024-04-04 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/christophsonntag/gte_embedded_movies
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来源于MongoDB的embedded_movies数据集,包含不同流派电影的详细信息。每行代表一部电影,包含详细的信息。与原始数据集不同,该数据集使用了开源General Text Embeddings模型对fullplot列进行嵌入,而不是MongoDB Atlas中使用的OpenAI的text-embedding-ada-002嵌入模型。这些开源嵌入也被用于Hermes项目。

该数据集来源于MongoDB的embedded_movies数据集,包含不同流派电影的详细信息。每行代表一部电影,包含详细的信息。与原始数据集不同,该数据集使用了开源General Text Embeddings模型对fullplot列进行嵌入,而不是MongoDB Atlas中使用的OpenAI的text-embedding-ada-002嵌入模型。这些开源嵌入也被用于Hermes项目。
提供机构:
christophsonntag
原始信息汇总

数据集概述

数据集特征

  • runtime: 电影运行时间,数据类型为float64
  • languages: 电影使用的语言,数据类型为sequence: string
  • metacritic: 电影在Metacritic上的评分,数据类型为float64
  • type: 电影类型,数据类型为string
  • imdb: IMDb信息,包含id(数据类型int64)、rating(数据类型float64)和votes(数据类型int64)。
  • genres: 电影的类型,数据类型为sequence: string
  • awards: 电影获得的奖项信息,包含nominations(数据类型int64)、text(数据类型string)和wins(数据类型int64)。
  • rated: 电影评级,数据类型为string
  • cast: 电影演员列表,数据类型为sequence: string
  • directors: 电影导演列表,数据类型为sequence: string
  • fullplot: 电影完整剧情描述,数据类型为string
  • title: 电影标题,数据类型为string
  • num_mflix_comments: Mflix评论数量,数据类型为int64
  • countries: 电影发行国家,数据类型为sequence: string
  • plot: 电影剧情概要,数据类型为string
  • poster: 电影海报链接,数据类型为string
  • writers: 电影编剧列表,数据类型为sequence: string
  • plot_embedding: 电影剧情嵌入向量,数据类型为sequence: float64

数据集拆分

  • train: 训练集,包含1452个样本,数据大小为13657438字节。

数据集大小

  • 下载大小: 10625884字节。
  • 数据集大小: 13657438字节。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作