five

Steam and Steam Spy raw datasets|游戏数据分析数据集|游戏市场研究数据集

收藏
github2024-04-05 更新2024-05-31 收录
游戏数据分析
游戏市场研究
下载链接:
https://github.com/myas-nik-off/Steam-dataset-clustering
下载链接
链接失效反馈
资源简介:
该数据集包含从Steam Store API和Steam Spy API提取的原始游戏数据,包括两个文件:steam_app_data.csv和steamspy_data.csv。数据集提供了丰富的信息,如应用类型、名称、年龄限制、免费特性、DLC可用性、应用描述、支持语言、PC要求、开发者与出版商名称、演示可用性、平台、评论、类别和流派、发布日期、用户拥有应用数量、当前和初始价格、折扣、CCU等。

This dataset comprises raw game data extracted from the Steam Store API and Steam Spy API, including two files: steam_app_data.csv and steamspy_data.csv. The dataset offers a wealth of information such as application type, name, age restrictions, free features, DLC availability, application descriptions, supported languages, PC requirements, developer and publisher names, demo availability, platforms, reviews, categories and genres, release dates, number of user-owned applications, current and initial prices, discounts, CCU, and more.
创建时间:
2024-04-04
原始信息汇总

数据集概述

数据集来源

  • 来源: Kaggle网站
  • 发布者: Vicente Arce
  • 发布日期: 2022年2月

数据集内容

  • 文件: 包含两个CSV文件,"steam_app_data.csv"和"steamspy_data.csv"
  • 大小: 总计124 MB
  • 特征:
    • "steam_app_data.csv"包含39个特征,66,414个唯一值
    • "steamspy_data.csv"包含20个特征,63,504个唯一值
  • 信息类型: 包括应用类型、名称、唯一ID、年龄限制、免费特性、DLC可用性、应用描述、支持语言、PC要求、开发者及出版商名称、Demo可用性、平台、评论、类别和类型、发布日期、用户拥有应用数量、当前和初始价格、折扣、CCU等

数据集目的

  • 主要目标: 应用大数据分析技术如聚类分析,探索游戏类型/类别与价格、初始价格、折扣、游戏时间、评分、用户拥有数字副本数量及CCU等参数之间的关系
  • 次要目标: 发现分析过程中的有趣发现

分析方法

  • 初始分析: 合并两个原始数据文件,清理重复列和值,形成包含52个特征和66,902个应用的新数据集
  • 无监督分析: 使用K-Means聚类分析,处理包括Steam应用ID、类型、价格、游戏时间、评分等在内的数据
  • 监督分析: 使用Naive Bayes聚类进行监督分析,评估聚类效果

分析结果

  • 聚类效果: 聚类结果不理想,需要进一步测试和调整数据集值以达到满意结果

数据集应用

  • 该数据集适用于对游戏行业进行深入分析,包括市场趋势、游戏类型偏好、价格策略等研究。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由Vicente Arce于2022年2月从Kaggle网站发布,包含了从Steam Store API和Steam Spy API提取的原始游戏数据。数据集由两个文件组成,分别是'steam_app_data.csv'和'steamspy_data.csv',总计124 MB。'steam_app_data.csv'包含39个特征和66,414个唯一值,而'steamspy_data.csv'包含20个特征和63,504个唯一值。这些特征涵盖了从应用类型、名称、Steam ID、年龄限制、免费游戏特性、DLC可用性、应用描述、支持语言、PC要求、开发者与发行商名称、Demo可用性、平台、评论、类别与流派、发布日期、用户拥有数量、当前与初始价格、折扣、CCU数量等多个方面。
特点
该数据集的显著特点在于其广泛且详细的数据覆盖范围,涵盖了从游戏的基本信息到市场表现的多维度数据。数据集不仅包括游戏的基本属性,如名称、类型和发布日期,还涵盖了用户和评论数据,如用户评分和评论数量,以及市场相关的数据,如价格和折扣信息。此外,数据集还包含了开发者与发行商的详细信息,这对于分析游戏行业的市场动态和趋势具有重要价值。
使用方法
该数据集适用于多种数据分析任务,特别是大数据分析技术如聚类分析。用户可以通过Python编程语言在ANACONDA.NAVIGATOR的jupyter Notebook环境中进行数据处理和分析。数据集的特征丰富,适合用于探索游戏类型与各种参数(如价格、折扣、游戏时间、评分等)之间的关系。此外,数据集还可用于比较不同游戏标签的流行度、开发者与发行商的市场表现、免费与付费游戏的分布等。通过这些分析,用户可以深入理解当前游戏市场的趋势和动态。
背景与挑战
背景概述
Steam与Steam Spy原始数据集是由Vicente Arce于2022年2月在Kaggle平台上发布的,该数据集包含了从Steam商店API和Steam Spy API中提取的原始游戏数据。Steam平台由Valve公司于2003年创建,现已成为全球最大的数字游戏分发平台之一,并发展成为一个围绕游戏的社交网络。该数据集包含两个主要文件:'steam_app_data.csv'和'steamspy_data.csv',分别包含39个和20个特征,涵盖了从游戏类型、名称、年龄限制到开发者、发布者、用户评价等多方面的信息。这些数据为研究游戏行业的趋势、用户行为以及市场动态提供了丰富的资源,尤其在游戏分类、价格、用户拥有量等方面具有重要的研究价值。
当前挑战
该数据集在构建和分析过程中面临多项挑战。首先,数据集的规模庞大,包含66,414个唯一值和39个特征,处理如此大规模的数据需要高效的计算资源和数据清洗技术。其次,数据中存在大量缺失值和异常值,如游戏发布日期中的错误年份(如1895年和3021年),这增加了数据预处理的复杂性。此外,数据集中的特征多样且复杂,如多语言支持、平台兼容性等,这些特征的多样性使得特征选择和模型训练变得更具挑战性。最后,尽管数据集提供了丰富的信息,但在实际分析中,如K-Means聚类和Naive Bayes分类的结果并不理想,表明在数据处理和模型选择上仍需进一步优化和探索。
常用场景
经典使用场景
Steam and Steam Spy raw datasets 的经典使用场景主要集中在游戏行业的数据分析与市场趋势预测。通过分析游戏类型、价格、折扣、用户评分、游戏时长等参数,研究者可以深入了解不同游戏类别的受欢迎程度及其市场表现。此外,该数据集还可用于探索开发者与发行商的市场策略,如免费游戏与付费游戏的分布比例,以及DLC(下载内容)的普及情况。
实际应用
在实际应用中,Steam and Steam Spy raw datasets 被广泛用于游戏开发者的市场策略制定与优化。例如,开发者可以通过分析用户对不同游戏类型的偏好,调整新游戏的开发方向;发行商则可以通过分析价格与折扣策略的效果,优化定价模型。此外,该数据集还可用于游戏平台的运营优化,如通过分析用户游戏时长与活跃度,提升用户体验与平台粘性。
衍生相关工作
基于Steam and Steam Spy raw datasets,衍生了许多经典的研究工作。例如,有研究通过聚类分析探讨了不同游戏类型的市场表现,揭示了某些类型游戏的持续受欢迎程度;还有研究通过时间序列分析,预测了游戏市场的未来趋势。此外,该数据集还激发了关于用户行为模式的研究,如用户对免费游戏与付费游戏的偏好分析,以及用户对DLC的接受度研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录