SC2ReSet, SC2EGSet
收藏arXiv2025-09-23 更新2025-11-21 收录
下载链接:
https://sc2-datasets.readthedocs.io/en/latest/autoapi/index.html
下载链接
链接失效反馈官方服务:
资源简介:
SC2Tools是一套包含多个子模块的工具集,用于处理和生成大型数据集。本文介绍了SC2Tools的模块化结构,为未来的扩展留出空间。此外,一些工具不仅限于《星际争霸2》,还可以用于其他类型的数据集。SC2Tools被用于创建目前最大的《星际争霸2》比赛数据集之一,并提供了PyTorch和PyTorch Lightning的API,以便轻松访问数据。SC2Tools解决了数据收集、预处理和自定义代码开发的难题,为不太懂技术的游戏和电子竞技研究人员提供了便利。最后,SC2Tools为标准化《星际争霸2》实验工作流程奠定了基础。
SC2Tools is a toolset comprising multiple sub-modules, dedicated to processing and generating large-scale datasets. This paper presents the modular architecture of SC2Tools, which allows for future extensibility. Furthermore, some of its tools are not restricted to StarCraft II, and can be adapted for other types of datasets. SC2Tools has been employed to develop one of the largest existing competitive match datasets for StarCraft II, and offers APIs compatible with PyTorch and PyTorch Lightning to enable seamless data access. SC2Tools addresses the difficulties in data collection, preprocessing and custom code development, providing convenience for game and esports researchers with limited technical expertise. Finally, SC2Tools lays the groundwork for standardizing experimental workflows in StarCraft II research.
提供机构:
华沙工业大学, 独立研究员, 华沙约瑟夫·皮尔斯基体育大学, NeverBlink, 波兰
创建时间:
2025-09-23
搜集汇总
数据集介绍

构建方式
在电子竞技数据分析领域,SC2ReSet与SC2EGSet数据集的构建采用了模块化工具链的先进理念。该数据集通过SC2Tools工具集实现全流程自动化处理,首先利用SC2InfoExtractorGo子模块对原始SC2Replay文件进行并行解析,该工具基于Blizzard官方协议规范开发,采用Golang语言实现高效的多核处理。随后通过DatasetPreparator脚本集完成目录结构扁平化、文件重命名及数据打包等预处理工序,最终生成符合标准化模式的JSON格式数据集,整个流程确保了数据提取的完整性与处理效率的优化。
特点
作为星际争霸II领域规模领先的赛事数据集,SC2ReSet与SC2EGSet展现出多维度技术特征。数据集涵盖大量职业比赛录像的完整游戏状态信息,包括玩家操作序列、单位状态变化等深层游戏机制数据。其独特价值在于提供了经过匿名化处理的选手信息,既满足科研伦理要求又保持数据实用性。特别设计的PyTorch与PyTorch Lightning双接口架构,使得数据集能够无缝接入主流机器学习框架,为多学科研究提供标准化数据支撑。
使用方法
针对不同技术背景的研究者群体,该数据集设计了分层使用方案。初级用户可通过SC2_DatasetsPython包直接加载预处理完成的JSON数据,利用内置的PyTorchDataset接口快速构建实验数据流。进阶研究者则可调用SC2InfoExtractorGo工具自主处理原始录像文件,通过调整解析参数获取定制化数据。对于需要跨学科协作的场景,数据集提供的匿名化服务能有效保护选手隐私,同时配套的完整文档说明确保了各环节操作的可复现性。
背景与挑战
背景概述
在人工智能与机器学习研究领域,电子游戏作为高度可控的模拟环境,已成为强化学习算法验证的重要平台。SC2ReSet与SC2EGSet数据集由华沙理工大学等机构的研究团队于2022至2023年间构建,聚焦《星际争霸II》这款具有复杂策略层级的实时战略游戏。该数据集通过解析赛事录像文件,提取游戏状态数据,旨在为多智能体强化学习、玩家行为分析等研究方向提供结构化数据支持,其规模与完整性对推动电子竞技跨学科研究具有显著影响力。
当前挑战
该数据集需应对两大核心挑战:在领域问题层面,《星际争霸II》的高复杂度与实时决策特性对状态空间建模与动态策略推演提出严峻要求,传统方法难以有效捕捉其微观操作与宏观战略的耦合关系;在构建过程中,原始录像文件的专有MPQ格式解析、大规模数据并行处理、以及跨平台数据标准化均构成技术瓶颈,同时还需平衡玩家隐私保护与数据开放共享的伦理需求。
常用场景
经典使用场景
在电子竞技与人工智能交叉研究领域,SC2ReSet和SC2EGSet数据集通过标准化《星际争霸II》对战回放文件的解析流程,为多智能体强化学习算法验证提供了典型实验环境。该数据集收录了职业锦标赛中的完整游戏状态序列,使研究者能够重构实时战略决策场景,通过PyTorch等框架直接加载时空动作序列,支撑智能体在复杂动态环境中的策略泛化能力评估。
衍生相关工作
基于该数据集基础设施,学界涌现出多项经典研究。例如DeepMind团队采用SC2EGSet训练的多智能体强化学习模型达到宗师级竞技水平,后续研究则探索了大型语言模型在游戏状态理解中的应用。此外,该数据格式标准已被移植至《火箭联盟》等其它电子竞技项目,形成了跨游戏数据分析的方法论迁移。
数据集最近研究
最新研究方向
在电子竞技数据分析领域,SC2ReSet与SC2EGSet数据集正推动星际争霸II研究向多学科融合与基础设施标准化方向发展。当前研究聚焦于利用强化学习与大型语言模型解析高复杂度游戏策略,同时通过模块化工具链降低非计算机背景学者的技术门槛。该数据集已支撑心理学、生物力学等跨学科实证研究,并催生了对实时决策模式与长期训练影响的系统性探索。其标准化数据接口进一步促进了实验可复现性,为电竞生态的智能化演进提供了核心基础设施。
相关研究论文
- 1通过华沙工业大学, 独立研究员, 华沙约瑟夫·皮尔斯基体育大学, NeverBlink, 波兰 · 2025年
以上内容由遇见数据集搜集并总结生成



