Steam and Steam Spy raw datasets|游戏数据分析数据集|游戏市场研究数据集

github2024-04-05 更新2024-05-31 收录

游戏数据分析

游戏市场研究

下载链接：

https://github.com/myas-nik-off/Steam-dataset-clustering

下载链接

链接失效反馈

资源简介：

该数据集包含从Steam Store API和Steam Spy API提取的原始游戏数据，包括两个文件：steam_app_data.csv和steamspy_data.csv。数据集提供了丰富的信息，如应用类型、名称、年龄限制、免费特性、DLC可用性、应用描述、支持语言、PC要求、开发者与出版商名称、演示可用性、平台、评论、类别和流派、发布日期、用户拥有应用数量、当前和初始价格、折扣、CCU等。

This dataset comprises raw game data extracted from the Steam Store API and Steam Spy API, including two files: steam_app_data.csv and steamspy_data.csv. The dataset offers a wealth of information such as application type, name, age restrictions, free features, DLC availability, application descriptions, supported languages, PC requirements, developer and publisher names, demo availability, platforms, reviews, categories and genres, release dates, number of user-owned applications, current and initial prices, discounts, CCU, and more.

创建时间：

2024-04-04

原始信息汇总

数据集概述

数据集来源

来源: Kaggle网站
发布者: Vicente Arce
发布日期: 2022年2月

数据集内容

文件: 包含两个CSV文件，"steam_app_data.csv"和"steamspy_data.csv"
大小: 总计124 MB
特征:
- "steam_app_data.csv"包含39个特征，66,414个唯一值
- "steamspy_data.csv"包含20个特征，63,504个唯一值
信息类型: 包括应用类型、名称、唯一ID、年龄限制、免费特性、DLC可用性、应用描述、支持语言、PC要求、开发者及出版商名称、Demo可用性、平台、评论、类别和类型、发布日期、用户拥有应用数量、当前和初始价格、折扣、CCU等

数据集目的

主要目标: 应用大数据分析技术如聚类分析，探索游戏类型/类别与价格、初始价格、折扣、游戏时间、评分、用户拥有数字副本数量及CCU等参数之间的关系
次要目标: 发现分析过程中的有趣发现

分析方法

初始分析: 合并两个原始数据文件，清理重复列和值，形成包含52个特征和66,902个应用的新数据集
无监督分析: 使用K-Means聚类分析，处理包括Steam应用ID、类型、价格、游戏时间、评分等在内的数据
监督分析: 使用Naive Bayes聚类进行监督分析，评估聚类效果

分析结果

聚类效果: 聚类结果不理想，需要进一步测试和调整数据集值以达到满意结果

数据集应用

该数据集适用于对游戏行业进行深入分析，包括市场趋势、游戏类型偏好、价格策略等研究。

AI搜集汇总

数据集介绍

构建方式

该数据集由Vicente Arce于2022年2月从Kaggle网站发布，包含了从Steam Store API和Steam Spy API提取的原始游戏数据。数据集由两个文件组成，分别是'steam_app_data.csv'和'steamspy_data.csv'，总计124 MB。'steam_app_data.csv'包含39个特征和66,414个唯一值，而'steamspy_data.csv'包含20个特征和63,504个唯一值。这些特征涵盖了从应用类型、名称、Steam ID、年龄限制、免费游戏特性、DLC可用性、应用描述、支持语言、PC要求、开发者与发行商名称、Demo可用性、平台、评论、类别与流派、发布日期、用户拥有数量、当前与初始价格、折扣、CCU数量等多个方面。

特点

该数据集的显著特点在于其广泛且详细的数据覆盖范围，涵盖了从游戏的基本信息到市场表现的多维度数据。数据集不仅包括游戏的基本属性，如名称、类型和发布日期，还涵盖了用户和评论数据，如用户评分和评论数量，以及市场相关的数据，如价格和折扣信息。此外，数据集还包含了开发者与发行商的详细信息，这对于分析游戏行业的市场动态和趋势具有重要价值。

使用方法

该数据集适用于多种数据分析任务，特别是大数据分析技术如聚类分析。用户可以通过Python编程语言在ANACONDA.NAVIGATOR的jupyter Notebook环境中进行数据处理和分析。数据集的特征丰富，适合用于探索游戏类型与各种参数（如价格、折扣、游戏时间、评分等）之间的关系。此外，数据集还可用于比较不同游戏标签的流行度、开发者与发行商的市场表现、免费与付费游戏的分布等。通过这些分析，用户可以深入理解当前游戏市场的趋势和动态。

背景与挑战

背景概述

Steam与Steam Spy原始数据集是由Vicente Arce于2022年2月在Kaggle平台上发布的，该数据集包含了从Steam商店API和Steam Spy API中提取的原始游戏数据。Steam平台由Valve公司于2003年创建，现已成为全球最大的数字游戏分发平台之一，并发展成为一个围绕游戏的社交网络。该数据集包含两个主要文件：'steam_app_data.csv'和'steamspy_data.csv'，分别包含39个和20个特征，涵盖了从游戏类型、名称、年龄限制到开发者、发布者、用户评价等多方面的信息。这些数据为研究游戏行业的趋势、用户行为以及市场动态提供了丰富的资源，尤其在游戏分类、价格、用户拥有量等方面具有重要的研究价值。

当前挑战

该数据集在构建和分析过程中面临多项挑战。首先，数据集的规模庞大，包含66,414个唯一值和39个特征，处理如此大规模的数据需要高效的计算资源和数据清洗技术。其次，数据中存在大量缺失值和异常值，如游戏发布日期中的错误年份（如1895年和3021年），这增加了数据预处理的复杂性。此外，数据集中的特征多样且复杂，如多语言支持、平台兼容性等，这些特征的多样性使得特征选择和模型训练变得更具挑战性。最后，尽管数据集提供了丰富的信息，但在实际分析中，如K-Means聚类和Naive Bayes分类的结果并不理想，表明在数据处理和模型选择上仍需进一步优化和探索。

常用场景

经典使用场景

Steam and Steam Spy raw datasets 的经典使用场景主要集中在游戏行业的数据分析与市场趋势预测。通过分析游戏类型、价格、折扣、用户评分、游戏时长等参数，研究者可以深入了解不同游戏类别的受欢迎程度及其市场表现。此外，该数据集还可用于探索开发者与发行商的市场策略，如免费游戏与付费游戏的分布比例，以及DLC（下载内容）的普及情况。

实际应用

在实际应用中，Steam and Steam Spy raw datasets 被广泛用于游戏开发者的市场策略制定与优化。例如，开发者可以通过分析用户对不同游戏类型的偏好，调整新游戏的开发方向；发行商则可以通过分析价格与折扣策略的效果，优化定价模型。此外，该数据集还可用于游戏平台的运营优化，如通过分析用户游戏时长与活跃度，提升用户体验与平台粘性。

衍生相关工作

基于Steam and Steam Spy raw datasets，衍生了许多经典的研究工作。例如，有研究通过聚类分析探讨了不同游戏类型的市场表现，揭示了某些类型游戏的持续受欢迎程度；还有研究通过时间序列分析，预测了游戏市场的未来趋势。此外，该数据集还激发了关于用户行为模式的研究，如用户对免费游戏与付费游戏的偏好分析，以及用户对DLC的接受度研究。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

Tropicos

Tropicos是一个全球植物名称数据库，包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护，旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

Autism-Datasets

收集了一些关于自闭症的数据集。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集，包含超过530万张图像-文本对，涵盖六种不同的医学成像模态：X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型（LLMs）将特定模态的分类数据集转换为图像-文本格式，并结合现有的医学领域的图像-文本数据，以促进可扩展的视觉语言模型（VLM）预训练。

github 收录