STARDATA

Name: STARDATA
Creator: Facebook
Published: 2017-08-07 22:47:47
License: 暂无描述

arXiv2017-08-07 更新2024-06-21 收录

下载链接：

https://github.com/TorchCraft/StarData

下载链接

链接失效反馈

官方服务：

资源简介：

STARDATA是由Facebook创建的一个大型星际争霸AI研究数据集，包含65646个游戏回放，总计1535亿帧和496亿玩家动作。数据集通过TorchCraft记录，每3帧记录一次完整游戏状态，适用于多种机器学习任务。该数据集旨在通过提供大量高质量的游戏数据，加速深度学习方法在实时战略游戏控制中的应用，特别是在星际争霸游戏中。

STARDATA is a large-scale StarCraft AI research dataset developed by Facebook. It contains 65,646 game replays, totaling 153.5 billion frames and 49.6 billion player actions. Recorded via TorchCraft, the dataset captures full game states every 3 frames and supports a wide range of machine learning tasks. This dataset aims to accelerate the application of deep learning methods in real-time strategy game control, particularly for StarCraft, by providing large volumes of high-quality game data.

提供机构：

Facebook

创建时间：

2017-08-07

搜集汇总

数据集介绍

构建方式

STARDATA数据集的构建基于从人类玩家之间的游戏中收集的65646场《星际争霸》回放，这些回放包含了1.535亿帧和4.96亿个玩家操作。游戏状态数据每3帧记录一次，确保了数据集对于各种机器学习任务的适用性，如策略分类、逆强化学习、模仿学习、前向建模、部分信息提取等。数据提取和存储使用TorchCraft库进行，该库既可用于从回放中读取数据，也可直接从游戏中读取数据，并统一了数据格式。数据集经过了一系列启发式规则验证，以确保其有效性和多样性，并排除了无效或损坏的回放。

使用方法

使用STARDATA数据集的方法如下：1. 数据下载：从TorchCraft的GitHub仓库下载数据集。2. 数据读取：使用TorchCraft库读取数据集，该库提供了C++、Lua和Python客户端，可轻松编译在任何操作系统上。3. 数据分析：利用数据集进行策略分类、逆强化学习、模仿学习、前向建模、部分信息处理等机器学习任务。4. 任务示例：数据集可用于单位微管理任务，例如检测游戏中的战斗，并提供了相关元数据，如战斗位置和持续时间。

背景与挑战

背景概述

在实时策略游戏领域，星际争霸因其复杂的游戏动态、部分可观测性和现成的专家游戏（即人类回放）而备受关注。由于深度学习的最新进展，我们观察到随着数据集规模的增加，模型性能的趋势有所改善。随着这些模型的学习能力不断提高，对于数据的需求也越来越大，特别是在将深度学习方法应用于实时策略游戏（RTS）控制方面。尽管可以通过游戏来学习星际争霸，但由于游戏的动态非常复杂，使用现有游戏来加快学习速度是非常有益的。因此，渴望获得经验丰富的玩家之间的录制的游戏数据集变得非常受欢迎。星际争霸允许记录包含玩家发出所有命令的游戏回放。一些在线资源包含了各种锦标赛的回放集合。尽管可以从回放文件中直接推断出一些信息，但重建完整的游戏状态需要在星际争霸中进行播放。然而，有几个方面使得直接使用回放进行机器学习变得困难。首先，星际争霸的重建速度有限，会对训练速度造成上限。其次，不同星际争霸版本生成的回放之间不兼容，使得无法使用相同的游戏引擎进行所有回放，或者可能导致数据损坏。最后，重建过程只能在Windows上可靠地运行，这增加了额外的、不必要的限制。因此，通过提取游戏状态、验证它们并将它们作为单独的文件存储，可以提高回放数据集的实用性。为了使数据集成为学习模型的良好基础，它应满足以下要求：通用性、多样性、有效性、接口和可移植性。带着这些要求，我们构建了一个由人类游戏组成的星际争霸回放数据集，可用于星际争霸AI研究。我们提供了大量星际争霸人类回放，大约是目前可用的任何可比数据集的10倍大。该数据集包括各种场景，从而确保了多样性要求。我们还详细介绍了我们的新数据集，它是如何构建和验证的。我们还提供了一些与该数据集相关的统计数据，并提供了该数据集有用的示例场景。

当前挑战

现有的星际争霸数据集可以根据提取的数据类型分为两组。第一组的星际争霸数据集，例如（Hsieh和Sun 2008；Weber和Mateas 2009；Cho、Kim和Cho 2013），专注于游戏的具体方面，并包含只能用于特定上下文的数据。第二组的星际争霸数据集，例如（Synnaeve和Bessi`ere 2012）和（Robertson和Watson 2014），包含通用的完整状态数据，并且不受任何特定上下文的限制。虽然可以从这些数据集中推断出一些信息，但重建完整的游戏状态需要在星际争霸中进行播放。然而，有几个方面使得直接使用回放进行机器学习变得困难。首先，星际争霸的重建速度有限，会对训练速度造成上限。其次，不同星际争霸版本生成的回放之间不兼容，使得无法使用相同的游戏引擎进行所有回放，或者可能导致数据损坏。最后，重建过程只能在Windows上可靠地运行，这增加了额外的、不必要的限制。因此，通过提取游戏状态、验证它们并将它们作为单独的文件存储，可以提高回放数据集的实用性。

常用场景

经典使用场景

STARDATA数据集在人工智能研究中，尤其是在实时战略游戏（RTS）的领域，扮演着举足轻重的角色。它被广泛用于训练和评估深度学习模型，以解决游戏中的策略分类、逆强化学习、模仿学习、前向建模、部分信息提取等问题。由于STARDATA数据集包含了丰富的游戏状态数据，以及高达65646个游戏回放，因此它成为了研究StarCraft等RTS游戏AI的重要资源。

解决学术问题

STARDATA数据集的发布解决了现有数据集规模小、数据质量不高、不适用于深度学习方法等问题。它提供了大量高质量的StarCraft游戏回放，完整地记录了游戏状态，使得研究人员可以在此基础上进行更深入的AI研究。此外，STARDATA数据集的发布也促进了深度强化学习在RTS游戏中的应用，为解决部分观测和复杂动作空间等问题提供了新的思路。

实际应用

STARDATA数据集的实际应用场景十分广泛。例如，它可以用于开发智能游戏AI，通过模仿学习来预测对手的下一步行动，从而制定更有效的策略。此外，它还可以用于游戏开发中，通过前向建模来预测游戏未来的状态，从而优化游戏平衡性。此外，STARDATA数据集还可以用于教育和培训，帮助学生和游戏爱好者更好地理解RTS游戏。

数据集最近研究