Steam游戏数据集|游戏推荐系统数据集|用户行为分析数据集

github2023-12-18 更新2024-05-31 收录

游戏推荐系统

用户行为分析

下载链接：

https://github.com/MarceloOrtizz/Proyecto_MLOps_Steam

下载链接

链接失效反馈

资源简介：

该数据集包含来自Steam平台的多格式游戏数据，用于构建游戏推荐系统。数据集经过ETL处理，用于支持API的多种查询功能，如游戏推荐、用户行为分析等。

This dataset comprises multi-format game data sourced from the Steam platform, designed for the construction of game recommendation systems. The dataset has undergone ETL (Extract, Transform, Load) processing to support various API query functionalities, such as game recommendations and user behavior analysis.

创建时间：

2023-11-29

原始信息汇总

数据集概述

数据来源

数据集源自3个压缩文件，位于data/original目录下，包含不同格式的数据，存在读取复杂性。

数据处理

通过ETL过程（位于etl_eda目录），原始数据被清洗并组织成3个有序文件，存储于data/limpio/目录。

数据应用

数据用于支持多个功能，这些功能通过API提供服务，主要功能包括：
- PlayTimeGenre: 返回指定游戏类型中游玩时间最长的年份。
- UserForGenre: 返回指定游戏类型中累计游玩时间最长的用户及按年份统计的游玩时间。
- UsersRecommend: 根据指定年份，返回用户最推荐的前3款游戏。
- UsersNotRecommend: 根据指定年份，返回用户最不推荐的前3款游戏。
- sentiment_analysis: 根据游戏发布年份，返回用户评论的情感分析结果。

数据结构

数据集的结构如下：
- /data: 包含项目中使用的数据，包括原始数据、清洗后的数据及为API端点优化的数据。
- /etl_eda: 包含进行ETL和EDA的Jupyter Notebook文件。
- /images: 包含README文件中使用的图片。
- main.py: 使用FastAPI框架创建API的主要代码文件。
- requirements.txt: 项目依赖文件。

数据分析

进行了数据探索分析（EDA）以调查变量间的关系、寻找异常值和发现有趣的变量模式。

机器学习模型

实施了一个基于物品的推荐系统，使用余弦相似度算法进行游戏推荐。
- recomendacion_juego: 根据输入的游戏ID，返回5个相似推荐游戏。

AI搜集汇总

数据集介绍

构建方式

Steam游戏数据集的构建始于对原始数据的处理，这些数据来源于三个压缩文件，格式各异且读取复杂。通过执行数据清洗与转换（ETL）流程，原始数据被整理为三个有序的干净数据文件。随后，基于这些清洗后的数据，进一步筛选和排序，以满足特定端点的需求，确保数据集的结构化和实用性。

特点

该数据集的显著特点在于其多维度的数据结构，涵盖了游戏时长、用户推荐、情感分析等多个方面。通过精细的ETL处理，数据集不仅保留了原始信息的完整性，还通过情感分析和推荐系统模型的应用，增强了其在游戏推荐和用户行为分析领域的应用价值。

使用方法

使用该数据集时，用户可以通过克隆GitHub仓库并安装相关依赖，启动FastAPI服务以访问预定义的端点。这些端点包括根据游戏类型返回最受欢迎的年份、特定类型下累积游戏时长最多的用户、以及基于年份的推荐与非推荐游戏列表等。此外，数据集还支持通过游戏ID获取相似推荐游戏的功能，极大地提升了数据集的交互性和实用性。

背景与挑战

背景概述

Steam游戏数据集是由一群研究人员和开发者创建的，旨在解决基于真实数据的Steam游戏推荐系统问题。该数据集的构建始于对原始数据的处理，涉及多个压缩文件，格式各异且读取复杂。通过执行ETL（Extract, Transform, Load）过程，数据被清洗并整理为有序的文件，为后续的分析和模型构建奠定了基础。该数据集的核心研究问题是如何基于用户行为和游戏属性，构建一个高效的游戏推荐系统。这一研究不仅对游戏行业具有重要意义，也为推荐系统领域的研究提供了宝贵的实践案例。

当前挑战

Steam游戏数据集在构建过程中面临多项挑战。首先，原始数据的多样性和复杂性使得数据清洗和整理成为一项艰巨任务。其次，如何在海量数据中提取有价值的信息，并将其转化为可用于推荐系统的格式，是另一个关键挑战。此外，构建推荐系统时，如何平衡推荐准确性与计算效率，以及如何处理用户反馈中的情感分析，都是需要克服的技术难题。最后，将这些功能集成到API中，并确保其稳定性和可扩展性，也是项目实施中的重要挑战。

常用场景

经典使用场景

Steam游戏数据集的经典使用场景主要集中在游戏推荐系统的构建与优化。通过分析用户行为数据，如游戏时长、用户评价和游戏类型偏好，该数据集能够支持开发个性化的游戏推荐算法。例如，基于用户对特定游戏类型的偏好，系统可以推荐具有相似特征的游戏，从而提升用户体验和游戏平台的用户粘性。

解决学术问题

Steam游戏数据集在学术研究中解决了多个关键问题，特别是在推荐系统、用户行为分析和情感分析领域。通过该数据集，研究者可以深入探讨用户对不同类型游戏的偏好，分析游戏评价中的情感倾向，并构建高效的推荐模型。这些研究不仅推动了推荐系统算法的发展，还为理解用户行为提供了宝贵的数据支持。

衍生相关工作

Steam游戏数据集的广泛应用催生了一系列相关研究和工作。例如，基于该数据集的推荐系统研究推动了协同过滤、内容推荐和混合推荐等技术的进步。此外，数据集还被用于情感分析和用户行为建模，为心理学和行为经济学等领域的研究提供了数据支持。这些衍生工作不仅丰富了数据科学的研究内容，还为实际应用提供了技术基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国近海台风路径集合数据集(1945-2024)

1945-2024年度，中国近海台风路径数据集，包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据，经过处理整合后形成文件，如使用csv文件需使用文本编辑器打开浏览，否则会出现乱码，如要使用excel查看数据，请使用xlsx的格式。

国家海洋科学数据中心收录

中国行政区划shp数据

中国行政区划数据是重要的基础地理信息数据，目前不同来源的全国行政区划数据非常多，但能够开放获取的高质量行政区域数据少之又少。基于此，锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础，辅以高德行政区划数据、天地图行政区划数据，参考历年来民政部公布的行政区划为属性基础，具有时间跨度长、属性丰富、国界准确、更新持续等特性。中国行政区划数据统计截止时间是2023年2月12日，包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图，按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日，我国共有34个省级单位，分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日，我国共有333个地级单位，分别是293个地级市、7个地区、30个自治州和3个盟，其中38个矢量要素未纳入统计（比如直辖市北京等、特别行政区澳门等、省直辖县定安县等）。截止2023年1月1日，我国共有2843个县级单位，分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区，其中9个矢量要素未纳入县级类别统计范畴（比如特别行政区香港、无县级单位的地级市中山市东莞市等）。

CnOpenData 收录

Breast Ultrasound Images (BUSI)

小型（约500×500像素）超声图像，适用于良性和恶性病变的分类和分割任务。

github 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算，为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果，以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性，还涵盖了电子结构和热力学性质等详尽信息，为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经收录

LUNA16

LUNA16（肺结节分析）数据集是用于肺分割的数据集。它由 1,186 个肺结节组成，在 888 次 CT 扫描中进行了注释。

OpenDataLab 收录