Steam and Steam Spy raw datasets|游戏数据分析数据集|游戏市场研究数据集
收藏数据集概述
数据集来源
- 来源: Kaggle网站
- 发布者: Vicente Arce
- 发布日期: 2022年2月
数据集内容
- 文件: 包含两个CSV文件,"steam_app_data.csv"和"steamspy_data.csv"
- 大小: 总计124 MB
- 特征:
- "steam_app_data.csv"包含39个特征,66,414个唯一值
- "steamspy_data.csv"包含20个特征,63,504个唯一值
- 信息类型: 包括应用类型、名称、唯一ID、年龄限制、免费特性、DLC可用性、应用描述、支持语言、PC要求、开发者及出版商名称、Demo可用性、平台、评论、类别和类型、发布日期、用户拥有应用数量、当前和初始价格、折扣、CCU等
数据集目的
- 主要目标: 应用大数据分析技术如聚类分析,探索游戏类型/类别与价格、初始价格、折扣、游戏时间、评分、用户拥有数字副本数量及CCU等参数之间的关系
- 次要目标: 发现分析过程中的有趣发现
分析方法
- 初始分析: 合并两个原始数据文件,清理重复列和值,形成包含52个特征和66,902个应用的新数据集
- 无监督分析: 使用K-Means聚类分析,处理包括Steam应用ID、类型、价格、游戏时间、评分等在内的数据
- 监督分析: 使用Naive Bayes聚类进行监督分析,评估聚类效果
分析结果
- 聚类效果: 聚类结果不理想,需要进一步测试和调整数据集值以达到满意结果
数据集应用
- 该数据集适用于对游戏行业进行深入分析,包括市场趋势、游戏类型偏好、价格策略等研究。

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
Titanic Dataset
Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics
kaggle 收录