christophsonntag/gte_embedded_movies
收藏Hugging Face2024-04-04 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/christophsonntag/gte_embedded_movies
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于MongoDB的embedded_movies数据集,包含不同流派电影的详细信息。每行代表一部电影,包含详细的信息。与原始数据集不同,该数据集使用了开源General Text Embeddings模型对fullplot列进行嵌入,而不是MongoDB Atlas中使用的OpenAI的text-embedding-ada-002嵌入模型。这些开源嵌入也被用于Hermes项目。
该数据集来源于MongoDB的embedded_movies数据集,包含不同流派电影的详细信息。每行代表一部电影,包含详细的信息。与原始数据集不同,该数据集使用了开源General Text Embeddings模型对fullplot列进行嵌入,而不是MongoDB Atlas中使用的OpenAI的text-embedding-ada-002嵌入模型。这些开源嵌入也被用于Hermes项目。
提供机构:
christophsonntag
原始信息汇总
数据集概述
数据集特征
- runtime: 电影运行时间,数据类型为
float64。 - languages: 电影使用的语言,数据类型为
sequence: string。 - metacritic: 电影在Metacritic上的评分,数据类型为
float64。 - type: 电影类型,数据类型为
string。 - imdb: IMDb信息,包含
id(数据类型int64)、rating(数据类型float64)和votes(数据类型int64)。 - genres: 电影的类型,数据类型为
sequence: string。 - awards: 电影获得的奖项信息,包含
nominations(数据类型int64)、text(数据类型string)和wins(数据类型int64)。 - rated: 电影评级,数据类型为
string。 - cast: 电影演员列表,数据类型为
sequence: string。 - directors: 电影导演列表,数据类型为
sequence: string。 - fullplot: 电影完整剧情描述,数据类型为
string。 - title: 电影标题,数据类型为
string。 - num_mflix_comments: Mflix评论数量,数据类型为
int64。 - countries: 电影发行国家,数据类型为
sequence: string。 - plot: 电影剧情概要,数据类型为
string。 - poster: 电影海报链接,数据类型为
string。 - writers: 电影编剧列表,数据类型为
sequence: string。 - plot_embedding: 电影剧情嵌入向量,数据类型为
sequence: float64。
数据集拆分
- train: 训练集,包含1452个样本,数据大小为13657438字节。
数据集大小
- 下载大小: 10625884字节。
- 数据集大小: 13657438字节。



