IMDb电影数据集

Name: IMDb电影数据集
Creator: 计算机科学与工程系，沙贾拉尔科技大学
Published: 2021-12-07 18:31:52
License: 暂无描述

arXiv2021-12-07 更新2024-06-21 收录

下载链接：

https://github.com/arnab-api/IMDb-Scraper

下载链接

链接失效反馈

官方服务：

资源简介：

本研究介绍了由沙贾拉尔科技大学计算机科学与工程系团队创建的IMDb电影数据集，该数据集通过爬取IMDb网站信息，包含了7.5百万条电影摘要数据和超过20万条详细电影信息。数据集内容丰富，涵盖了电影的预算、运行时间、发布月份、内容评级、类型等多种属性。创建过程中，研究团队开发了两个爬虫机器人，分别用于收集摘要数据和详细信息。该数据集主要应用于电影票房预测研究，旨在通过分析电影的预发布属性，帮助投资者和制片方做出更明智的投资决策。

This study introduces the IMDb movie dataset created by the team from the Department of Computer Science and Engineering, Shahjalal University of Science and Technology. Crawled from the official IMDb website, this dataset contains 7.5 million movie summary entries and over 200,000 detailed movie records. It covers rich attributes including movie budget, runtime, release month, content rating, genre and more. During the dataset curation process, the research team developed two specialized crawlers: one for collecting summary data and the other for detailed movie information. This dataset is primarily utilized for movie box office prediction research, with the goal of assisting investors and film producers in making more informed investment decisions by analyzing pre-release attributes of movies.

提供机构：

计算机科学与工程系，沙贾拉尔科技大学

创建时间：

2021-10-14

搜集汇总

数据集介绍

构建方式

在电影产业数据分析领域，构建一个全面且时效性强的数据集对研究至关重要。IMDb电影数据集通过设计两个独立的网络爬虫机器人系统化采集数据：第一个机器人从IMDb按流行度排序的页面中抓取超过750万条目的摘要信息，包括标题、发行年份、评分、元评分、证书、时长、类型、导演和主演等核心属性；第二个机器人则利用摘要数据中的链接深入每个电影专属页面，提取预算、全球票房、完整演职员表等详细数据，最终形成包含超过20万部电影详细信息的JSON格式数据集。数据采集后经过严格清洗，剔除关键属性缺失的记录，并对所有货币值进行通货膨胀调整，确保跨时间数据的可比性。

特点

该数据集在电影产业预测研究中展现出显著优势。其规模远超同类数据集，涵盖超过20万部电影的详细属性和750万条目的摘要信息，数据维度极为丰富，不仅包含传统字段如预算、票房、类型，还完整收录了所有列出的演职员信息，突破了以往数据集仅记录前三位主演的限制。数据集具有高度时效性，反映了截至采集日的最新行业动态，且所有财务数据均经过CPI调整，消除了通货膨胀对纵向分析的干扰。其结构化存储格式便于直接导入数据库系统，为大规模机器学习分析提供了坚实基础。

使用方法

该数据集为电影产业的多维度研究提供了强大支持。研究者可将其用于票房预测模型的构建，通过集成预算、发行月份、内容分级、类型以及创新的明星影响力量化指标等180维特征，训练序数分类模型预测电影收入等级。在学术分析层面，数据集支持深入的统计检验，如通过KS检验分析内容分级与票房分布的关系，或运用斯皮尔曼相关分析探究预算与收入的关联强度。产业实践者则可利用其进行市场趋势分析，例如研究不同类型电影五年滚动平均收入的变化，或评估特定发行窗口的票房表现，从而为投资决策和营销策略提供数据驱动的见解。

背景与挑战

背景概述

在电影产业作为娱乐业核心分支的背景下，预测影片票房成功已成为学术界与业界共同关注的焦点。由沙贾拉尔科技大学计算机科学与工程系的研究团队于2021年构建的IMDb电影数据集，旨在通过整合超过750万条影片摘要及20余万部电影的详细数据，为电影票房预测研究提供大规模、时效性强的数据基础。该数据集聚焦于探索影片上映前属性（如预算、时长、发行月份、内容分级、类型及明星影响力）与全球票房收入之间的关联，其构建不仅填补了该领域缺乏更新、丰富数据资源的空白，更通过统计分析与机器学习方法，为电影投资决策提供了实证依据，显著推动了电影商业智能分析的发展。

当前挑战

该数据集致力于解决电影票房预测这一复杂领域问题，其核心挑战在于电影市场收入分布呈现莱维分布特征，少数票房巨作主导整体分布，导致预测模型极易受极端值干扰。同时，明星影响力、导演声誉等因素与票房收入间的关联性在学术界存在争议，需设计新颖指标（如基于历史作品数量、平均评分及评分人数综合计算明星影响力）以量化这些主观因素。在数据构建过程中，挑战主要体现在从IMDb平台爬取海量数据时需处理动态页面结构与反爬机制，并需针对跨越数十年的影片数据统一进行通货膨胀调整以消除时间偏差，而影片属性缺失值因分布偏态难以采用常规插补方法，进一步增加了数据清洗与预处理的复杂度。

常用场景

经典使用场景

在电影产业分析领域，IMDb电影数据集为票房收入预测研究提供了关键的数据基础。该数据集通过整合影片预算、上映月份、内容分级、类型及演职员信息等多维度属性，构建了机器学习模型训练所需的特征向量。研究者通常运用逻辑回归、支持向量机、随机森林等算法，对影片进行十级分类预测，探索上映前可获取的要素与最终票房表现之间的复杂关联。

衍生相关工作

该数据集的发布催生了一系列围绕电影成功预测的延伸研究。后续工作多在特征工程与模型架构上进行深化，例如引入社交媒体情绪分析、预告片观众反馈等动态数据源以增强预测时效性。同时，研究范畴也从整体票房预测扩展至开画周表现、长尾收益及跨文化市场差异分析，形成了以数据为核心的电影产业研究生态。

数据集最近研究