five

Steam游戏数据集|游戏推荐系统数据集|用户行为分析数据集

收藏
github2023-12-18 更新2024-05-31 收录
游戏推荐系统
用户行为分析
下载链接:
https://github.com/MarceloOrtizz/Proyecto_MLOps_Steam
下载链接
链接失效反馈
资源简介:
该数据集包含来自Steam平台的多格式游戏数据,用于构建游戏推荐系统。数据集经过ETL处理,用于支持API的多种查询功能,如游戏推荐、用户行为分析等。

This dataset comprises multi-format game data sourced from the Steam platform, designed for the construction of game recommendation systems. The dataset has undergone ETL (Extract, Transform, Load) processing to support various API query functionalities, such as game recommendations and user behavior analysis.
创建时间:
2023-11-29
原始信息汇总

数据集概述

数据来源

  • 数据集源自3个压缩文件,位于data/original目录下,包含不同格式的数据,存在读取复杂性。

数据处理

  • 通过ETL过程(位于etl_eda目录),原始数据被清洗并组织成3个有序文件,存储于data/limpio/目录。

数据应用

  • 数据用于支持多个功能,这些功能通过API提供服务,主要功能包括:
    • PlayTimeGenre: 返回指定游戏类型中游玩时间最长的年份。
    • UserForGenre: 返回指定游戏类型中累计游玩时间最长的用户及按年份统计的游玩时间。
    • UsersRecommend: 根据指定年份,返回用户最推荐的前3款游戏。
    • UsersNotRecommend: 根据指定年份,返回用户最不推荐的前3款游戏。
    • sentiment_analysis: 根据游戏发布年份,返回用户评论的情感分析结果。

数据结构

  • 数据集的结构如下:
    • /data: 包含项目中使用的数据,包括原始数据、清洗后的数据及为API端点优化的数据。
    • /etl_eda: 包含进行ETL和EDA的Jupyter Notebook文件。
    • /images: 包含README文件中使用的图片。
    • main.py: 使用FastAPI框架创建API的主要代码文件。
    • requirements.txt: 项目依赖文件。

数据分析

  • 进行了数据探索分析(EDA)以调查变量间的关系、寻找异常值和发现有趣的变量模式。

机器学习模型

  • 实施了一个基于物品的推荐系统,使用余弦相似度算法进行游戏推荐。
    • recomendacion_juego: 根据输入的游戏ID,返回5个相似推荐游戏。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Steam游戏数据集的构建始于对原始数据的处理,这些数据来源于三个压缩文件,格式各异且读取复杂。通过执行数据清洗与转换(ETL)流程,原始数据被整理为三个有序的干净数据文件。随后,基于这些清洗后的数据,进一步筛选和排序,以满足特定端点的需求,确保数据集的结构化和实用性。
特点
该数据集的显著特点在于其多维度的数据结构,涵盖了游戏时长、用户推荐、情感分析等多个方面。通过精细的ETL处理,数据集不仅保留了原始信息的完整性,还通过情感分析和推荐系统模型的应用,增强了其在游戏推荐和用户行为分析领域的应用价值。
使用方法
使用该数据集时,用户可以通过克隆GitHub仓库并安装相关依赖,启动FastAPI服务以访问预定义的端点。这些端点包括根据游戏类型返回最受欢迎的年份、特定类型下累积游戏时长最多的用户、以及基于年份的推荐与非推荐游戏列表等。此外,数据集还支持通过游戏ID获取相似推荐游戏的功能,极大地提升了数据集的交互性和实用性。
背景与挑战
背景概述
Steam游戏数据集是由一群研究人员和开发者创建的,旨在解决基于真实数据的Steam游戏推荐系统问题。该数据集的构建始于对原始数据的处理,涉及多个压缩文件,格式各异且读取复杂。通过执行ETL(Extract, Transform, Load)过程,数据被清洗并整理为有序的文件,为后续的分析和模型构建奠定了基础。该数据集的核心研究问题是如何基于用户行为和游戏属性,构建一个高效的游戏推荐系统。这一研究不仅对游戏行业具有重要意义,也为推荐系统领域的研究提供了宝贵的实践案例。
当前挑战
Steam游戏数据集在构建过程中面临多项挑战。首先,原始数据的多样性和复杂性使得数据清洗和整理成为一项艰巨任务。其次,如何在海量数据中提取有价值的信息,并将其转化为可用于推荐系统的格式,是另一个关键挑战。此外,构建推荐系统时,如何平衡推荐准确性与计算效率,以及如何处理用户反馈中的情感分析,都是需要克服的技术难题。最后,将这些功能集成到API中,并确保其稳定性和可扩展性,也是项目实施中的重要挑战。
常用场景
经典使用场景
Steam游戏数据集的经典使用场景主要集中在游戏推荐系统的构建与优化。通过分析用户行为数据,如游戏时长、用户评价和游戏类型偏好,该数据集能够支持开发个性化的游戏推荐算法。例如,基于用户对特定游戏类型的偏好,系统可以推荐具有相似特征的游戏,从而提升用户体验和游戏平台的用户粘性。
解决学术问题
Steam游戏数据集在学术研究中解决了多个关键问题,特别是在推荐系统、用户行为分析和情感分析领域。通过该数据集,研究者可以深入探讨用户对不同类型游戏的偏好,分析游戏评价中的情感倾向,并构建高效的推荐模型。这些研究不仅推动了推荐系统算法的发展,还为理解用户行为提供了宝贵的数据支持。
衍生相关工作
Steam游戏数据集的广泛应用催生了一系列相关研究和工作。例如,基于该数据集的推荐系统研究推动了协同过滤、内容推荐和混合推荐等技术的进步。此外,数据集还被用于情感分析和用户行为建模,为心理学和行为经济学等领域的研究提供了数据支持。这些衍生工作不仅丰富了数据科学的研究内容,还为实际应用提供了技术基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录

Eurovision Song Contest Dataset

Eurovision Song Contest数据集是一个免费提供的数据集,包含1735首参赛歌曲的音频特征、元数据、比赛排名和投票数据,这些歌曲参与了从1956年到2023年的Eurovision Song Contest。

github 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录