Steam游戏数据集|游戏推荐系统数据集|用户行为分析数据集
收藏数据集概述
数据来源
- 数据集源自3个压缩文件,位于
data/original
目录下,包含不同格式的数据,存在读取复杂性。
数据处理
- 通过ETL过程(位于
etl_eda
目录),原始数据被清洗并组织成3个有序文件,存储于data/limpio/
目录。
数据应用
- 数据用于支持多个功能,这些功能通过API提供服务,主要功能包括:
- PlayTimeGenre: 返回指定游戏类型中游玩时间最长的年份。
- UserForGenre: 返回指定游戏类型中累计游玩时间最长的用户及按年份统计的游玩时间。
- UsersRecommend: 根据指定年份,返回用户最推荐的前3款游戏。
- UsersNotRecommend: 根据指定年份,返回用户最不推荐的前3款游戏。
- sentiment_analysis: 根据游戏发布年份,返回用户评论的情感分析结果。
数据结构
- 数据集的结构如下:
/data
: 包含项目中使用的数据,包括原始数据、清洗后的数据及为API端点优化的数据。/etl_eda
: 包含进行ETL和EDA的Jupyter Notebook文件。/images
: 包含README文件中使用的图片。main.py
: 使用FastAPI框架创建API的主要代码文件。requirements.txt
: 项目依赖文件。
数据分析
- 进行了数据探索分析(EDA)以调查变量间的关系、寻找异常值和发现有趣的变量模式。
机器学习模型
- 实施了一个基于物品的推荐系统,使用余弦相似度算法进行游戏推荐。
- recomendacion_juego: 根据输入的游戏ID,返回5个相似推荐游戏。

中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
中国行政区划shp数据
中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。 中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。
CnOpenData 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
LUNA16
LUNA16(肺结节分析)数据集是用于肺分割的数据集。它由 1,186 个肺结节组成,在 888 次 CT 扫描中进行了注释。
OpenDataLab 收录