five

Movie_Profitability_Analysis

收藏
Hugging Face2025-11-17 更新2025-11-18 收录
下载链接:
https://huggingface.co/datasets/Leelu1002/Movie_Profitability_Analysis
下载链接
链接失效反馈
官方服务:
资源简介:
“电影指标、特征和统计数据”数据集,包含了6569部电影的32个特征,如制作预算、全球及国内票房、时长、类型、创作类型、制作方法、评分和发行日期等,旨在分析哪些预发布因素能够影响电影的盈利性。
创建时间:
2025-11-17
原始信息汇总

数据集概述

基本信息

  • 数据集名称:Movie Profitability Analysis
  • 数据来源:Kaggle的"Movies Metrics, Features and Statistics"数据集
  • 数据规模:6,569部电影,32个特征
  • 主要目标:预测电影是否能够产生正利润

数据特征

核心特征

  • 制作预算
  • 全球票房和国内票房
  • 片长
  • 类型
  • 创作类型
  • 制作方法
  • 评分和上映日期

目标变量

  • is_profitable:二元分类变量
  • 定义:全球票房 > 制作预算时为1,否则为0

关键发现

强预测因子

  • 制作预算
  • 电影类型
  • 创作类型
  • 制作方法

中等预测因子

  • 片长

具体分析结果

制作预算与盈利能力

  • 预算与利润呈正相关关系
  • 高预算电影倾向于获得更高利润,但方差较大

类型与盈利能力

  • 最盈利类型:冒险、恐怖、浪漫喜剧、动作
  • 较低盈利类型:剧情、纪录片

片长与盈利能力

  • 盈利电影片长略长(约105-120分钟)
  • 极长电影较少但仍可能盈利

制作方法与盈利能力

  • 高利润方法:动画+真人、数字动画、手绘动画
  • 较低利润方法:定格动画、真人、多种方法、转描机技术

项目文件

数据文件

  • movies_dataset.csv:原始数据集
  • movies_cleaned.csv:清洗后数据集

分析文件

  • Leelu_EDA_&_Dataset.ipynb:主要分析笔记本

可视化文件

  • https://huggingface.co/datasets/Leelu1002/Movie_Profitability_Analysis/resolve/main/Profit%20X%20Budget.png
  • https://huggingface.co/datasets/Leelu1002/Movie_Profitability_Analysis/resolve/main/Profit%20X%20Running%20Time%20.png
  • https://huggingface.co/datasets/Leelu1002/Movie_Profitability_Analysis/resolve/main/Profit%20X%20Genre.png
  • https://huggingface.co/datasets/Leelu1002/Movie_Profitability_Analysis/resolve/main/Profit%20X%20Production%20Method.png

文档资料

  • README.md:项目总结文档
  • https://www.youtube.com/watch?v=9TbwMmHUUXw:演示视频
搜集汇总
数据集介绍
main_image_url
构建方式
在电影产业数据分析领域,该数据集源自Kaggle平台的原始电影指标数据,经过系统性的数据清洗流程构建而成。原始数据集包含6,569部电影作品的32项特征维度,通过严谨的数据预处理流程,清除了缺失值与重复记录,并基于全球票房与制作成本的量化关系,创新性地构建了二分类目标变量——盈利性标识,为电影投资决策提供了可靠的数据基础。
使用方法
在实证研究应用中,该数据集主要服务于电影盈利预测模型的开发与验证。研究者可基于预发布特征构建分类算法,通过预算控制、类型筛选等特征工程手段优化预测性能。数据集附带的可视化分析模块与清洗后的标准格式,支持从探索性分析到机器学习建模的全流程研究,为电影投资风险评估和市场化策略制定提供数据驱动的决策支持。
背景与挑战
背景概述
电影产业作为文化创意领域的重要组成部分,其商业价值评估始终是学术界与业界关注的焦点。Movie_Profitability_Analysis数据集由Reichman大学数据科学方向研究者Leelu Alfi于2025年创建,该数据集整合了来自Kaggle平台的6,569部电影作品的32项特征指标。其核心研究目标在于探索电影上映前的预算规模、类型划分、制作方式等固有特征与最终盈利能力的关联机制,为电影投资决策提供数据驱动的理论支撑。该研究通过构建二分类预测模型,填补了传统电影评估中定量分析与商业价值预测之间的方法论空白。
当前挑战
在电影盈利能力预测领域,主要挑战在于多维特征与非线性关系的建模难度。制作预算与盈利水平虽存在正相关性,但高预算影片的收益波动性显著,需解决过拟合风险。类型特征中的冒险类与恐怖片虽具高盈利性,但类别间的交互效应尚未明确量化。构建过程中面临数据质量挑战,原始数据集需经过缺失值填补与重复条目清洗,且运行时间等连续变量的预测效力存在边界效应。制作方法中动画与实景结合的盈利优势虽显著,但样本量分布不均导致统计显著性验证困难。
常用场景
经典使用场景
在电影产业分析领域,该数据集常被用于构建基于预发布特征的盈利能力预测模型。研究者通过整合制作预算、影片类型、放映时长及制作方式等关键变量,建立二分类机器学习框架,旨在影片上映前精准识别其商业成功潜力。此类分析不仅揭示了高预算冒险类影片与数字动画制作间的正向关联,更为制片决策提供了量化依据。
解决学术问题
该数据集有效解决了电影经济学中关于先验特征与商业价值关联性的研究难题。通过构建“是否盈利”的二元目标变量,学术界得以验证制作预算与利润率的强相关性,辨析类型片种的盈利差异,并量化不同制作方法的经济效益。这些发现填补了电影投资决策理论中的实证空白,推动了文化产品价值评估方法的科学化进程。
实际应用
电影制片厂与投资机构可将该数据集应用于项目风险评估体系。通过导入新项目的预发布参数,能够预测其全球票房超越制作成本的概率,从而优化投资组合配置。流媒体平台亦可借鉴其类型片盈利规律,指导原创内容的战略布局。这种数据驱动的决策模式正逐渐重塑好莱坞与传统电影产业的运作逻辑。
数据集最近研究
最新研究方向
在电影产业数据分析领域,基于预发布特征预测盈利能力的范式正成为研究焦点。当前前沿探索聚焦于多模态特征融合与动态预算优化策略,通过整合创意类型与制作方法的协同效应构建预测模型。随着流媒体平台对内容投资效率需求的提升,基于生成式人工智能的剧本元素与盈利关联性分析逐渐兴起,同时时间序列分析被应用于上映窗口期与跨文化市场接受度的关联研究。这类研究不仅推动电影投资决策从经验驱动向数据驱动转型,更通过可解释人工智能技术揭示艺术创作与商业价值间的深层规律,为文化产业数字化变革提供理论支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作