steamgamerecommender/data_files_public|游戏推荐数据集|社交网络分析数据集

hugging_face2024-04-04 更新2024-06-11 收录

游戏推荐

社交网络分析

下载链接：

https://hf-mirror.com/datasets/steamgamerecommender/data_files_public

下载链接

链接失效反馈

资源简介：

这是一个用于构建个性化Steam游戏推荐系统的数据集，包含了从Steam游戏平台通过其开放API抓取的游戏所有权和用户友谊数据。数据集包含80,000个用户、34,000个游戏、24,000,000个游戏所有权和10,000,000个友谊关系。用户ID通过分配顺序ID进行了匿名化处理。数据集的结构包括用户、友谊、游戏所有权和游戏信息的CSV文件，每个雪球采样（BFS）的结果都存储在以根用户命名的文件夹中。数据集是开源的，用于个性化Steam游戏推荐系统的开发。

提供机构：

steamgamerecommender

原始信息汇总

数据集概述

名称: Steam Game Ownership and User Friendships Dataset

目的: 用于构建个性化Steam游戏推荐系统。

规模: 包含80,000用户，34,000游戏，24,000,000游戏所有权记录，10,000,000用户友谊关系。

数据来源: 通过Steam的Web API抓取，采用雪球抽样（BFS）技术。

数据集结构

用户信息: 存储在users.csv中，记录参与雪球抽样的用户ID及其顺序。
友谊关系: 存储在friends.csv中，记录用户间的友谊关系。
游戏所有权: 存储在users_games.csv中，记录用户与游戏的对应关系及游戏时间。
游戏信息: 存储在games.csv中，记录新遇到的游戏及其相关信息如价格、标签、描述等。

注意事项

若用户或游戏在不同雪球中重复出现，其ID仍会被记录，但相关数据不会重复添加。

许可证

GNU General Public License v3.0

AI搜集汇总

数据集介绍

构建方式

该数据集通过利用Steam的开放API，采用雪球采样（BFS）技术构建而成。初始阶段，随机选取公开的Steam用户ID，获取其拥有的游戏及好友列表，并将新发现的好友加入BFS队列。随后，依次从队列中取出用户，继续进行数据抓取，直至达到预设的用户数量阈值。此过程确保了数据的广泛性和代表性，同时通过匿名化处理保护用户隐私。

特点

该数据集具有显著的规模和多样性，涵盖了80,000名用户、34,000款游戏、2400万条游戏拥有记录及1000万条好友关系。其独特之处在于，每个雪球采样过程均独立存储，形成以初始用户命名的文件夹，包含用户、好友及游戏拥有情况等详细信息。此外，数据集通过避免重复记录，确保了数据的一致性和高效性。

使用方法

该数据集适用于构建个性化游戏推荐系统，尤其适合于Steam平台的游戏推荐研究。用户可通过解析users.csv、friends.csv及users_games.csv等文件，获取用户关系和游戏拥有情况，进而进行推荐算法的训练与验证。此外，games.csv文件提供了游戏的基本信息，可用于丰富推荐系统的特征集。数据集的开放源代码和相关项目可在GitHub上获取，便于研究者进行深入分析和应用开发。

背景与挑战

背景概述

在数字娱乐领域，个性化推荐系统已成为提升用户体验的关键技术。Steam Game Ownership and User Friendships Dataset由Vanderbilt大学的研究人员创建，旨在为构建个性化Steam游戏推荐系统提供数据支持。该数据集通过Steam的开放API采集，涵盖了80,000名用户、34,000款游戏、2400万条游戏所有权记录及1000万条用户友谊关系。这是迄今为止首个且规模最大的公开访问Steam数据集，其创建时间为2023年，主要研究人员包括Jackson P. Rusch、Akash Munagala、Jeffrey W. Pan和Arjun Batra。该数据集的核心研究问题是如何有效利用用户游戏所有权和社交网络信息，提升游戏推荐系统的精准度和用户满意度，对个性化推荐系统研究具有重要推动作用。

当前挑战

该数据集在构建过程中面临多重挑战。首先，数据采集需通过Steam的API进行，涉及大量用户和游戏信息的抓取，如何高效且合规地完成数据收集是一大挑战。其次，数据集采用雪球采样（BFS）技术，确保数据的广泛性和代表性，但这也增加了数据处理的复杂性。此外，数据集需处理用户和游戏信息的重复问题，确保数据的唯一性和准确性。在应用层面，如何利用庞大的用户游戏所有权和社交网络数据，构建高效且精准的推荐模型，是该数据集面临的主要挑战。

常用场景

经典使用场景

在游戏推荐系统的构建中，steamgamerecommender/data_files_public数据集展现了其独特的价值。通过整合80,000名用户、34,000款游戏、2400万游戏拥有记录以及1000万用户友谊关系，该数据集为个性化游戏推荐提供了丰富的数据基础。研究者可以利用这些数据，通过分析用户间的游戏拥有情况和社交网络，构建基于协同过滤或内容过滤的推荐算法，从而实现精准的游戏推荐。

衍生相关工作

基于steamgamerecommender/data_files_public数据集，研究者们已开展了一系列相关工作。例如，有研究利用该数据集进行社交网络分析，探讨用户间的游戏推荐传播机制。此外，还有研究通过该数据集验证了不同推荐算法的性能，如协同过滤和基于内容的推荐算法。这些研究不仅丰富了推荐系统的理论基础，也为实际应用提供了有力的技术支持。

数据集最近研究

最新研究方向

在游戏推荐系统领域，基于Steam游戏平台的数据集steamgamerecommender/data_files_public正引领着个性化推荐算法的前沿研究。该数据集通过整合80,000名用户、34,000款游戏、2400万游戏拥有记录和1000万用户友谊关系，为研究人员提供了丰富的数据资源。当前的研究趋势集中在利用这些数据构建更精准的推荐模型，特别是在考虑用户社交网络和游戏历史的基础上，提升推荐的个性化和准确性。此外，该数据集的开放性也促进了跨学科的合作，如结合心理学和行为经济学理论，探索用户游戏选择的深层动机，从而为游戏产业提供更科学的决策支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域教育数据库

该数据集包含了中国各区域的教育统计数据，涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。

www.moe.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

MinneApple 苹果检测数据集

MinneApple 是一个用于苹果检测和分割的基准数据集。该数据集使用多边形掩码为每个对象实例进行标注，以帮助进行精确的对象检测、定位、和分割。此外，该数据集提供了基于补丁的聚类水果计数数据。该数据集在 1000 张图像中包含超过 41,0000 个带标注的对象实例。

超神经收录

长江干流实时水位观测数据集（2024年）

该数据集为长江干流主要水文站实时水位观测数据集，包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。该数据集包含3个excel表格文件，长江干流站点.xls，逐日水位.xlsx，逐小时水位.xlsx。

国家地球系统科学数据中心收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录