PlayMyData
收藏arXiv2024-01-19 更新2024-06-21 收录
下载链接:
https://zenodo.org/records/10262075
下载链接
链接失效反馈官方服务:
资源简介:
PlayMyData是由意大利阿奎拉大学和蒙特利尔大学合作创建的多平台游戏数据集,包含99,864款游戏数据,涵盖PlayStation、Xbox、Nintendo和PC等主流游戏平台。数据集通过IGDB网站的API收集,包括游戏描述、类型、评分等元数据,以及43,812个游戏视频URL和443,630张截图。此外,还通过HLTB网站获取了游戏完成时间数据。该数据集旨在支持软件工程领域的自动化任务和跨领域研究,如游戏分类、推荐系统和用户行为分析。
PlayMyData is a multi-platform game dataset co-developed by the University of L'Aquila (Italy) and the University of Montreal. It contains data for 99,864 games across major gaming platforms including PlayStation, Xbox, Nintendo, and PC. The dataset was collected via the API of the IGDB website, encompassing metadata such as game descriptions, genres, and ratings, alongside 43,812 game video URLs and 443,630 screenshots. Additionally, game completion time data was acquired from the HLTB website. This dataset aims to support automated tasks and cross-disciplinary research in the field of software engineering, such as game classification, recommendation systems, and user behavior analysis.
提供机构:
意大利阿奎拉大学
创建时间:
2024-01-17
搜集汇总
数据集介绍

构建方式
在电子游戏作为软件工程研究对象的背景下,PlayMyData数据集通过系统化流程构建而成。研究团队首先利用IGDB网站提供的专用API,采集了1993年至2023年间在PlayStation、Xbox、Nintendo和PC四大主流平台发布的99,864款游戏的核心元数据,包括游戏描述、类型、评分、截图及玩法视频链接。随后,通过定制化查询HLTB社区网站,获取了每款游戏的完成时间数据。为确保数据源的准确匹配,团队采用莱文斯坦距离算法对两个平台的游戏标题进行相似度计算,设定阈值为3,成功整合了35,815款游戏的完成时间信息,最终形成结构化的多平台游戏数据集。
特点
PlayMyData数据集展现出多维度、跨平台的显著特点。其覆盖范围广泛,不仅囊括近十万款游戏,还包含443,630张统一尺寸的截图与43,812条玩法视频链接,为多媒体分析提供了丰富素材。数据集突破了以往以PC游戏为主的局限,均衡收录了四大主流平台的游戏信息,并创新性地整合了社区驱动的游戏完成时间数据,包括主线、支线及全成就完成时长。这种元数据、视觉内容与时间维度相结合的结构,使得该数据集能够同时支持文本分类、图像识别及跨领域行为分析等多种研究任务。
使用方法
该数据集为软件工程与娱乐计算领域的交叉研究提供了实用基础。研究者可直接访问公开存储库获取结构化数据,利用CSV格式的元数据进行游戏分类、推荐系统开发或情感分析等文本挖掘任务。对于计算机视觉应用,标准化的截图资源可用于训练图像分类模型,以识别游戏类型或视觉特征。数据集提供的视频URL配合附带的下载工具,能便捷地获取玩法视频,支持视频内容分析与用户行为研究。此外,整合的完成时间数据可用于探索游戏设计复杂度与玩家参与度的关联,推动跨学科实证研究的开展。
背景与挑战
背景概述
在数字娱乐产业蓬勃发展的背景下,电子游戏作为复杂的软件制品,近年来逐渐受到软件工程学界的重视。PlayMyData数据集由意大利拉奎拉大学与加拿大蒙特利尔大学的研究团队于2024年联合创建,旨在填补多平台游戏结构化数据的空白。该数据集从IGDB网站采集了涵盖PlayStation、Xbox、Nintendo及PC四大平台的99,864款游戏元数据,并整合了HLTB网站的游戏通关时长信息。其核心研究问题聚焦于为软件工程领域的自动化任务提供高质量、跨平台的多媒体数据支持,推动从文本分类到计算机视觉等跨学科研究的发展,对游戏产业分析、机器学习模型训练及软件工程实证研究具有重要价值。
当前挑战
PlayMyData数据集致力于解决电子游戏领域多维度分析的挑战,尤其在自动化分类、推荐系统构建及跨平台比较研究中,需克服游戏元数据稀疏性、多媒体内容异构性及用户行为建模复杂性等问题。在构建过程中,研究团队面临多重技术障碍:首先,原始数据源如IGDB与HLTB的API存在结构化差异与访问限制,需设计专用查询策略以协调数据格式;其次,游戏标题在不同平台间的命名不一致性导致数据匹配困难,团队采用莱文斯坦距离算法进行相似度匹配,但阈值设定需平衡精度与召回率;此外,数据集涵盖的43,812条游戏视频仅提供URL而非实体文件,需依赖外部工具链实现多媒体内容获取,增加了数据完整性与可复现性的维护难度。
常用场景
经典使用场景
在软件工程与数字娱乐交叉领域,PlayMyData数据集为多平台视频游戏的自动化分析提供了坚实基础。该数据集整合了来自IGDB的99,864款游戏元数据,涵盖描述、类型、评分及多媒体资源,并融合了HLTB的游戏完成时间信息。其经典应用场景在于支持机器学习模型进行文本与图像分类任务,例如基于游戏描述和截图自动识别游戏类型,或利用完成时间数据优化推荐系统。这些应用不仅推动了游戏内容的智能组织,也为跨平台游戏研究提供了标准化数据源。
衍生相关工作
围绕PlayMyData衍生的经典工作主要集中在多模态分析与跨领域研究。例如,Jiang与Zheng曾基于IGDB数据构建多模态分类器,利用封面图像与文本对游戏类型进行预测;Politowski等人则通过游戏开发后剖析数据集,揭示了软件工程中的常见问题。相较之下,PlayMyData通过纳入多平台数据与完成时间,进一步扩展了游戏数据集的维度。后续研究可基于其多媒体资源开发视频行为分析模型,或结合完成时间探究玩家参与度模式,为游戏推荐系统与用户心理研究提供新的方法论支撑。
数据集最近研究
最新研究方向
在软件工程与数字娱乐交叉领域,PlayMyData数据集为多平台视频游戏研究开辟了前沿方向。该数据集整合了IGDB的丰富元数据与HLTB的游戏完成时间,推动了基于文本与图像的自动化分类任务,如利用预训练模型进行游戏类型识别或构建个性化推荐系统。同时,其包含的大量游戏截图与视频链接为计算机视觉任务提供了资源,支持从游戏画面中提取特征以分析用户行为或检测设计异常。这些多媒体数据还促进了跨学科探索,例如结合社交科学分析游戏时长演变趋势,为理解游戏产业动态与玩家互动模式提供了实证基础。
相关研究论文
- 1PlayMyData: a curated dataset of multi-platform video games意大利阿奎拉大学 · 2024年
以上内容由遇见数据集搜集并总结生成



