Steam and Steam Spy raw datasets|游戏数据分析数据集|游戏市场研究数据集
收藏数据集概述
数据集来源
- 来源: Kaggle网站
- 发布者: Vicente Arce
- 发布日期: 2022年2月
数据集内容
- 文件: 包含两个CSV文件,"steam_app_data.csv"和"steamspy_data.csv"
- 大小: 总计124 MB
- 特征:
- "steam_app_data.csv"包含39个特征,66,414个唯一值
- "steamspy_data.csv"包含20个特征,63,504个唯一值
- 信息类型: 包括应用类型、名称、唯一ID、年龄限制、免费特性、DLC可用性、应用描述、支持语言、PC要求、开发者及出版商名称、Demo可用性、平台、评论、类别和类型、发布日期、用户拥有应用数量、当前和初始价格、折扣、CCU等
数据集目的
- 主要目标: 应用大数据分析技术如聚类分析,探索游戏类型/类别与价格、初始价格、折扣、游戏时间、评分、用户拥有数字副本数量及CCU等参数之间的关系
- 次要目标: 发现分析过程中的有趣发现
分析方法
- 初始分析: 合并两个原始数据文件,清理重复列和值,形成包含52个特征和66,902个应用的新数据集
- 无监督分析: 使用K-Means聚类分析,处理包括Steam应用ID、类型、价格、游戏时间、评分等在内的数据
- 监督分析: 使用Naive Bayes聚类进行监督分析,评估聚类效果
分析结果
- 聚类效果: 聚类结果不理想,需要进一步测试和调整数据集值以达到满意结果
数据集应用
- 该数据集适用于对游戏行业进行深入分析,包括市场趋势、游戏类型偏好、价格策略等研究。

UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
Autism-Datasets
收集了一些关于自闭症的数据集。
github 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录