Steam and Steam Spy raw datasets

github2024-04-05 更新2024-05-31 收录

下载链接：

https://github.com/myas-nik-off/Steam-dataset-clustering

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从Steam Store API和Steam Spy API提取的原始游戏数据，包括两个文件：steam_app_data.csv和steamspy_data.csv。数据集提供了丰富的信息，如应用类型、名称、年龄限制、免费特性、DLC可用性、应用描述、支持语言、PC要求、开发者与出版商名称、演示可用性、平台、评论、类别和流派、发布日期、用户拥有应用数量、当前和初始价格、折扣、CCU等。

This dataset comprises raw game data extracted from the Steam Store API and Steam Spy API, including two files: steam_app_data.csv and steamspy_data.csv. The dataset offers a wealth of information such as application type, name, age restrictions, free features, DLC availability, application descriptions, supported languages, PC requirements, developer and publisher names, demo availability, platforms, reviews, categories and genres, release dates, number of user-owned applications, current and initial prices, discounts, CCU, and more.

创建时间：

2024-04-04

原始信息汇总

数据集概述

数据集来源

来源: Kaggle网站
发布者: Vicente Arce
发布日期: 2022年2月

数据集内容

文件: 包含两个CSV文件，"steam_app_data.csv"和"steamspy_data.csv"
大小: 总计124 MB
特征:
- "steam_app_data.csv"包含39个特征，66,414个唯一值
- "steamspy_data.csv"包含20个特征，63,504个唯一值
信息类型: 包括应用类型、名称、唯一ID、年龄限制、免费特性、DLC可用性、应用描述、支持语言、PC要求、开发者及出版商名称、Demo可用性、平台、评论、类别和类型、发布日期、用户拥有应用数量、当前和初始价格、折扣、CCU等

数据集目的

主要目标: 应用大数据分析技术如聚类分析，探索游戏类型/类别与价格、初始价格、折扣、游戏时间、评分、用户拥有数字副本数量及CCU等参数之间的关系
次要目标: 发现分析过程中的有趣发现

分析方法

初始分析: 合并两个原始数据文件，清理重复列和值，形成包含52个特征和66,902个应用的新数据集
无监督分析: 使用K-Means聚类分析，处理包括Steam应用ID、类型、价格、游戏时间、评分等在内的数据
监督分析: 使用Naive Bayes聚类进行监督分析，评估聚类效果

分析结果

聚类效果: 聚类结果不理想，需要进一步测试和调整数据集值以达到满意结果

数据集应用

该数据集适用于对游戏行业进行深入分析，包括市场趋势、游戏类型偏好、价格策略等研究。

搜集汇总

数据集介绍

构建方式

该数据集由Vicente Arce于2022年2月从Kaggle网站发布，包含了从Steam Store API和Steam Spy API提取的原始游戏数据。数据集由两个文件组成，分别是'steam_app_data.csv'和'steamspy_data.csv'，总计124 MB。'steam_app_data.csv'包含39个特征和66,414个唯一值，而'steamspy_data.csv'包含20个特征和63,504个唯一值。这些特征涵盖了从应用类型、名称、Steam ID、年龄限制、免费游戏特性、DLC可用性、应用描述、支持语言、PC要求、开发者与发行商名称、Demo可用性、平台、评论、类别与流派、发布日期、用户拥有数量、当前与初始价格、折扣、CCU数量等多个方面。

特点

该数据集的显著特点在于其广泛且详细的数据覆盖范围，涵盖了从游戏的基本信息到市场表现的多维度数据。数据集不仅包括游戏的基本属性，如名称、类型和发布日期，还涵盖了用户和评论数据，如用户评分和评论数量，以及市场相关的数据，如价格和折扣信息。此外，数据集还包含了开发者与发行商的详细信息，这对于分析游戏行业的市场动态和趋势具有重要价值。

使用方法

该数据集适用于多种数据分析任务，特别是大数据分析技术如聚类分析。用户可以通过Python编程语言在ANACONDA.NAVIGATOR的jupyter Notebook环境中进行数据处理和分析。数据集的特征丰富，适合用于探索游戏类型与各种参数（如价格、折扣、游戏时间、评分等）之间的关系。此外，数据集还可用于比较不同游戏标签的流行度、开发者与发行商的市场表现、免费与付费游戏的分布等。通过这些分析，用户可以深入理解当前游戏市场的趋势和动态。

背景与挑战

背景概述

Steam与Steam Spy原始数据集是由Vicente Arce于2022年2月在Kaggle平台上发布的，该数据集包含了从Steam商店API和Steam Spy API中提取的原始游戏数据。Steam平台由Valve公司于2003年创建，现已成为全球最大的数字游戏分发平台之一，并发展成为一个围绕游戏的社交网络。该数据集包含两个主要文件：'steam_app_data.csv'和'steamspy_data.csv'，分别包含39个和20个特征，涵盖了从游戏类型、名称、年龄限制到开发者、发布者、用户评价等多方面的信息。这些数据为研究游戏行业的趋势、用户行为以及市场动态提供了丰富的资源，尤其在游戏分类、价格、用户拥有量等方面具有重要的研究价值。

当前挑战

该数据集在构建和分析过程中面临多项挑战。首先，数据集的规模庞大，包含66,414个唯一值和39个特征，处理如此大规模的数据需要高效的计算资源和数据清洗技术。其次，数据中存在大量缺失值和异常值，如游戏发布日期中的错误年份（如1895年和3021年），这增加了数据预处理的复杂性。此外，数据集中的特征多样且复杂，如多语言支持、平台兼容性等，这些特征的多样性使得特征选择和模型训练变得更具挑战性。最后，尽管数据集提供了丰富的信息，但在实际分析中，如K-Means聚类和Naive Bayes分类的结果并不理想，表明在数据处理和模型选择上仍需进一步优化和探索。

常用场景

经典使用场景

Steam and Steam Spy raw datasets 的经典使用场景主要集中在游戏行业的数据分析与市场趋势预测。通过分析游戏类型、价格、折扣、用户评分、游戏时长等参数，研究者可以深入了解不同游戏类别的受欢迎程度及其市场表现。此外，该数据集还可用于探索开发者与发行商的市场策略，如免费游戏与付费游戏的分布比例，以及DLC（下载内容）的普及情况。

实际应用

在实际应用中，Steam and Steam Spy raw datasets 被广泛用于游戏开发者的市场策略制定与优化。例如，开发者可以通过分析用户对不同游戏类型的偏好，调整新游戏的开发方向；发行商则可以通过分析价格与折扣策略的效果，优化定价模型。此外，该数据集还可用于游戏平台的运营优化，如通过分析用户游戏时长与活跃度，提升用户体验与平台粘性。

衍生相关工作

基于Steam and Steam Spy raw datasets，衍生了许多经典的研究工作。例如，有研究通过聚类分析探讨了不同游戏类型的市场表现，揭示了某些类型游戏的持续受欢迎程度；还有研究通过时间序列分析，预测了游戏市场的未来趋势。此外，该数据集还激发了关于用户行为模式的研究，如用户对免费游戏与付费游戏的偏好分析，以及用户对DLC的接受度研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集