steamgamerecommender/data_files_public

Name: steamgamerecommender/data_files_public
Creator: steamgamerecommender
Published: 2024-04-04 05:08:26
License: 暂无描述

Hugging Face2024-04-04 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/steamgamerecommender/data_files_public

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于构建个性化Steam游戏推荐系统的数据集，包含了从Steam游戏平台通过其开放API抓取的游戏所有权和用户友谊数据。数据集包含80,000个用户、34,000个游戏、24,000,000个游戏所有权和10,000,000个友谊关系。用户ID通过分配顺序ID进行了匿名化处理。数据集的结构包括用户、友谊、游戏所有权和游戏信息的CSV文件，每个雪球采样（BFS）的结果都存储在以根用户命名的文件夹中。数据集是开源的，用于个性化Steam游戏推荐系统的开发。

提供机构：

steamgamerecommender

原始信息汇总

数据集概述

名称: Steam Game Ownership and User Friendships Dataset

目的: 用于构建个性化Steam游戏推荐系统。

规模: 包含80,000用户，34,000游戏，24,000,000游戏所有权记录，10,000,000用户友谊关系。

数据来源: 通过Steam的Web API抓取，采用雪球抽样（BFS）技术。

数据集结构

用户信息: 存储在users.csv中，记录参与雪球抽样的用户ID及其顺序。
友谊关系: 存储在friends.csv中，记录用户间的友谊关系。
游戏所有权: 存储在users_games.csv中，记录用户与游戏的对应关系及游戏时间。
游戏信息: 存储在games.csv中，记录新遇到的游戏及其相关信息如价格、标签、描述等。

注意事项

若用户或游戏在不同雪球中重复出现，其ID仍会被记录，但相关数据不会重复添加。

许可证

GNU General Public License v3.0

搜集汇总

数据集介绍

构建方式

该数据集通过利用Steam的开放API，采用雪球采样（BFS）技术构建而成。初始阶段，随机选取公开的Steam用户ID，获取其拥有的游戏及好友列表，并将新发现的好友加入BFS队列。随后，依次从队列中取出用户，继续进行数据抓取，直至达到预设的用户数量阈值。此过程确保了数据的广泛性和代表性，同时通过匿名化处理保护用户隐私。

特点

该数据集具有显著的规模和多样性，涵盖了80,000名用户、34,000款游戏、2400万条游戏拥有记录及1000万条好友关系。其独特之处在于，每个雪球采样过程均独立存储，形成以初始用户命名的文件夹，包含用户、好友及游戏拥有情况等详细信息。此外，数据集通过避免重复记录，确保了数据的一致性和高效性。

使用方法

该数据集适用于构建个性化游戏推荐系统，尤其适合于Steam平台的游戏推荐研究。用户可通过解析users.csv、friends.csv及users_games.csv等文件，获取用户关系和游戏拥有情况，进而进行推荐算法的训练与验证。此外，games.csv文件提供了游戏的基本信息，可用于丰富推荐系统的特征集。数据集的开放源代码和相关项目可在GitHub上获取，便于研究者进行深入分析和应用开发。

背景与挑战

背景概述

在数字娱乐领域，个性化推荐系统已成为提升用户体验的关键技术。Steam Game Ownership and User Friendships Dataset由Vanderbilt大学的研究人员创建，旨在为构建个性化Steam游戏推荐系统提供数据支持。该数据集通过Steam的开放API采集，涵盖了80,000名用户、34,000款游戏、2400万条游戏所有权记录及1000万条用户友谊关系。这是迄今为止首个且规模最大的公开访问Steam数据集，其创建时间为2023年，主要研究人员包括Jackson P. Rusch、Akash Munagala、Jeffrey W. Pan和Arjun Batra。该数据集的核心研究问题是如何有效利用用户游戏所有权和社交网络信息，提升游戏推荐系统的精准度和用户满意度，对个性化推荐系统研究具有重要推动作用。

当前挑战

该数据集在构建过程中面临多重挑战。首先，数据采集需通过Steam的API进行，涉及大量用户和游戏信息的抓取，如何高效且合规地完成数据收集是一大挑战。其次，数据集采用雪球采样（BFS）技术，确保数据的广泛性和代表性，但这也增加了数据处理的复杂性。此外，数据集需处理用户和游戏信息的重复问题，确保数据的唯一性和准确性。在应用层面，如何利用庞大的用户游戏所有权和社交网络数据，构建高效且精准的推荐模型，是该数据集面临的主要挑战。

常用场景

经典使用场景

在游戏推荐系统的构建中，steamgamerecommender/data_files_public数据集展现了其独特的价值。通过整合80,000名用户、34,000款游戏、2400万游戏拥有记录以及1000万用户友谊关系，该数据集为个性化游戏推荐提供了丰富的数据基础。研究者可以利用这些数据，通过分析用户间的游戏拥有情况和社交网络，构建基于协同过滤或内容过滤的推荐算法，从而实现精准的游戏推荐。

衍生相关工作

基于steamgamerecommender/data_files_public数据集，研究者们已开展了一系列相关工作。例如，有研究利用该数据集进行社交网络分析，探讨用户间的游戏推荐传播机制。此外，还有研究通过该数据集验证了不同推荐算法的性能，如协同过滤和基于内容的推荐算法。这些研究不仅丰富了推荐系统的理论基础，也为实际应用提供了有力的技术支持。

数据集最近研究