five

jquigl/imdb-genres

收藏
Hugging Face2023-04-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jquigl/imdb-genres
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是IMDb电影数据集的改编版本,主要包含电影标题、年份、类型、扩展类型、评分和描述等信息。数据集中的电影标题和年份列被合并,类型从单独的CSV文件中提取,原有的类型列被重命名为扩展类型,缺少描述的电影被删除,评分列保持不变,其余列被删除。数据集的语言为英语,分为训练集、测试集和验证集。

该数据集是IMDb电影数据集的改编版本,主要包含电影标题、年份、类型、扩展类型、评分和描述等信息。数据集中的电影标题和年份列被合并,类型从单独的CSV文件中提取,原有的类型列被重命名为扩展类型,缺少描述的电影被删除,评分列保持不变,其余列被删除。数据集的语言为英语,分为训练集、测试集和验证集。
提供机构:
jquigl
原始信息汇总

IMDb Movie Dataset: All Movies by Genre 数据集概述

数据集描述

  • 数据集名称: IMDb Movie Dataset: All Movies by Genre
  • 数据集来源: https://www.kaggle.com/datasets/rajugc/imdb-movies-dataset-based-on-genre?select=history.csv
  • 数据集修改: 本数据集是对原始数据集的改编,包括合并电影标题和年份列,提取并重命名类型列,删除描述缺失的电影,保留评分列,并删除其余列。

数据集内容

  • 数据列:
    • "movie title - year": 字符串类型。
    • "genre": 字符串分类标签,可能值包括:Adventure, Action, Thriller, Romance, Crime, Fantasy, Mystery, Horror, War, Family, Animation, Scifi, Sports, History, Biography, Film-noir。
    • "expanded-genres": 字符串类型。
    • "rating": 浮点数值,范围从0.0到10.0。
    • "description": 字符串类型。

数据集结构

数据实例

  • 训练集: 238256条记录,占用54.3 MB。
  • 测试集: 29756条记录,占用6.77 MB。
  • 验证集: 29809条记录,占用6.78 MB。

数据字段

所有数据分割中的字段相同,包括:

  • "movie title - year"
  • "genre"
  • "expanded-genres"
  • "rating"
  • "description"
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作