Video-Games-Sales-EDA

Hugging Face2026-03-31 更新2026-04-01 收录

下载链接：

https://huggingface.co/datasets/itaimorag/Video-Games-Sales-EDA

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1980年至2016年间发布的电子游戏的历史销售数据，旨在分析影响商业成功的关键因素。数据集涵盖以下关键特征类别：游戏标识符（名称、平台、发行年份、出版商）、分类分组（如动作、体育、角色扮演等）、财务指标（北美、欧洲、日本及全球销售额，以百万单位计）以及接受度指标（专业评论家评分和用户评分）。数据集规模介于10,000到100,000条记录之间，适用于表格分类和回归任务。通过探索性数据分析（EDA），发现动作和体育类游戏在历史销售额上占据主导地位，但市场波动性大且依赖时代背景。此外，高评论分数虽能提升销售潜力，但并不能单独保证商业成功。数据集适用于游戏出版商、独立开发者及营销团队进行市场分析和预测建模。

创建时间：

2026-03-30

原始信息汇总

🎮 Video Game Sales History (1980-2016) 数据集概述

数据集基本信息

数据集名称: 🎮 Video Game Sales History (1980-2016)
发布者: Itay Morag
许可证: MIT
任务类别: 表格分类、表格回归
语言: 英语
标签: 电子游戏、销售、EDA、探索性数据分析、游戏
数据规模: 10K < n < 100K

数据集内容

该数据集包含1980年至2016年间的历史电子游戏销售数据，以及专业评论家和汇总用户评分。每个观测代表一款电子游戏的发布记录。

关键特征类别

游戏标识符: 名称、平台、发布年份、发行商。
分类分组: 游戏类型（例如：动作、体育、角色扮演）。
财务指标: 北美、欧洲、日本及全球销售额（以百万份为单位）。
评价指标:
- Critic_Score: 由专业工作人员汇总的评分（满分100分）。
- User_Score: 来自普通游戏公众的汇总评分（满分10分）。

数据预处理与完整性

数据清理: 移除了发布日期晚于2016年的记录，以确保历史准确性并防止预测偏差。
缺失值处理: 评分列中的缺失值保留为NaN，以避免引入人为偏差。
异常值处理: 保留了极端的财务异常值（例如《Wii Sports》），以保持电子游戏市场“热门驱动”的真实世界特性。

关键分析发现

特征相关性

专业评论分数（Critic_Score）与销售指标（尤其是Global_Sales）之间存在明显的正相关关系，但相关性并非绝对，表明高分有助于但并非销售的唯一驱动力。

历史类型盈利性

动作和体育类型在1980年至2016年的总全球销售额中占据绝对主导地位，产生的收入显著高于策略或益智类游戏。

类型流行度随时间变化

动作和体育类型虽然历史盈利性高，但其受欢迎程度会波动。特定类型在特定时间段会出现巨大峰值（例如射击游戏在2000年代末期的兴起）。

类型主导地位的演变

早期几十年，平台游戏和益智游戏等经典类型占据主导地位。进入2000年代和2010年代，动作、体育和射击类型迅速加速并超越经典类型。

异常值现象与销售分布

几乎所有类型的四分位距都非常紧密且接近零，但异常值点却大幅向上延伸。最高的点代表《Wii Sports》。这表明“平均”电子游戏赚钱很少，整个行业完全由“超级热门”游戏支撑。

评论分数与商业成功

随着评论分数的提高，较高全球销售额的密度也随之增加。然而，在所有分数段，Y轴底部都存在大量聚集。高评论分数通常是实现巨额销售的必要条件，但并不能保证销售。

专业评论分布

评论分数并非均匀分布，倾向于遵循略微左偏的正态分布，大部分游戏的评分集中在65到85分之间。

机器学习准备

在将此数据集用于预测建模（例如基于分数预测Global_Sales）之前，必须进行特征缩放。数值特征存在于完全不同的尺度上：

Global_Sales（以百万计）
Critic_Score（1-100分制）
User_Score（1-10分制）建议应用StandardScaler或MinMaxScaler，以防止具有较大数值幅度的特征不适当地主导基于距离的机器学习算法。

数据集局限性

时间范围: 数据集的有效跟踪截止于2016年底。未考虑向纯数字分销的巨大转变或现代实时服务游戏的兴起。
缺失历史数据: 许多复古游戏（2000年以前）的评论分数为NaN，因为现代评论聚合网站当时不存在。
因果关系: 分析基于观察数据，并未在高分和高销售额之间建立纯粹的因果关系。

相关资源

完整的数据预处理和交互式Python代码可在随附的Jupyter笔记本（Assignment_1_EDA_&_Dataset_new.ipynb）中找到。

搜集汇总

数据集介绍

构建方式

该数据集通过系统化采集1980年至2016年间发布的电子游戏商业数据构建而成，涵盖了游戏名称、发行平台、发行年份、发行商、游戏类型以及全球各主要市场的销售数据。在数据清洗过程中，研究人员剔除了超出时间范围的异常记录，并保留了缺失的评分数据以避免引入偏差，同时维持了如《Wii Sports》等极端销售异常值，以真实反映游戏市场高度依赖爆款产品的行业特性。

特点

本数据集的核心特征在于其多维度的结构化信息，不仅包含游戏的基本标识与分类，还整合了专业评论评分与用户评分，以及分区域的销售业绩。数据揭示了电子游戏市场的显著规律，例如动作与体育类游戏在历史总销售额中占据主导，但各类型的流行度随时间呈现动态演变。此外，数据分布呈现出强烈的右偏特征，即少数爆款游戏贡献了绝大部分销售额，而多数游戏销量平平，这凸显了行业的高度不确定性与长尾效应。

使用方法

该数据集适用于探索性数据分析与预测建模任务。使用者可首先进行数据清洗与特征缩放，以解决销售数据与评分数据量纲差异的问题。在分析层面，可借助相关性热图、时间序列图与散点图等可视化工具，探究类型、评分与销售额之间的复杂关系。对于机器学习应用，建议将全球销售额作为回归目标，或将游戏类型作为分类标签，并注意引入时间衰减因子以校正历史数据的时效性，从而构建更具现实预测能力的模型。

背景与挑战

背景概述

视频游戏产业作为全球娱乐经济的重要支柱，其市场动态深受技术演进与消费者偏好变迁的影响。Video-Games-Sales-EDA数据集由研究人员Itay Morag于2016年构建，聚焦于1980年至2016年间全球视频游戏的历史销售数据。该数据集旨在通过整合游戏标识、分类特征、财务指标及评价分数，揭示商业成功背后的潜在机制，为游戏发行商、投资者及开发者提供基于数据的决策支持。其核心研究问题在于解析游戏类型、发布平台、评价分数与全球销售额之间的复杂关联，从而探索市场波动性与时代依赖性规律。该数据集不仅为产业分析提供了实证基础，也为机器学习模型在销售预测与风险评估领域的应用奠定了数据准备。

当前挑战

该数据集所应对的领域挑战在于视频游戏市场的极端不可预测性，即少数“超级热门”游戏主导大部分收入，而多数作品收益微薄，这使得传统均值预测模型失效，需转向基于中位数与异常值分析的建模方法。构建过程中的挑战包括数据完整性问题，例如早期游戏因缺乏现代评分平台而存在大量缺失值，若进行插补可能引入偏差；同时，数据集中包含未来日期记录与极端财务异常值，需通过清洗保留真实市场特征。此外，数字特征尺度差异显著，如全球销售额以百万计，而评分范围限于百分制或十分制，这要求机器学习应用前必须进行特征标准化处理。

常用场景

经典使用场景

在游戏产业分析领域，Video-Games-Sales-EDA数据集常被用于探索性数据分析，以揭示历史销售模式与市场动态。研究者通过可视化技术，如热力图与散点图，深入剖析游戏类型、发行年代与专业评分之间的复杂关联，从而识别出影响商业成功的关键因素。该数据集尤其适用于追踪游戏类型随时间的演变趋势，例如动作与体育类游戏在特定时期的销售峰值，为理解消费者偏好变迁提供了实证基础。

解决学术问题

该数据集有效解决了游戏产业研究中关于商业成功预测的若干核心问题。通过整合销售数据与评分指标，它量化了专业评价与财务表现之间的相关性，揭示了高评分虽能提升销售上限却非唯一驱动力的现象。此外，数据集帮助学者分析市场集中度与异常值效应，如“超级爆款”游戏对整体行业收入的支配作用，从而挑战了传统正态分布假设，推动了基于中位数而非均值的风险建模方法的发展。

衍生相关工作

围绕该数据集，衍生出多项经典研究工作，主要集中在预测建模与市场分析方向。学者利用机器学习算法，如回归模型与分类器，预测全球销售额并评估特征重要性；部分研究聚焦于时间序列分析，探讨游戏类型主导地位的周期性波动。此外，结合异常检测技术，相关工作深入解析“爆款”游戏的成因，推动了产业经济学中关于创新与风险管理的理论进展，为数字娱乐领域的实证研究奠定了数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集