Generated Game Level Corpus (GGLC)
收藏arXiv2025-04-05 更新2025-04-09 收录
下载链接:
https://github.com/TheGGLC
下载链接
链接失效反馈官方服务:
资源简介:
本研究构建了一个名为Generated Game Level Corpus (GGLC)的大型数据集,该数据集由四款受经典瓦片游戏启发的游戏组成,旨在展示游戏关卡数据的鲁棒性特征,并解决PCGML中数据稀疏性的挑战。数据集包含不同大小、美学和难度等级的游戏关卡,并满足不同的局部和全局约束条件。
This study constructs a large-scale dataset named Generated Game Level Corpus (GGLC), which comprises four games inspired by classic tile-based games. It is intended to demonstrate the robustness characteristics of game level data and address the challenge of data sparsity in PCGML. The dataset contains game levels with varying sizes, aesthetics, and difficulty levels, while complying with a variety of local and global constraints.
提供机构:
东北大学波士顿
创建时间:
2025-04-05
搜集汇总
数据集介绍

构建方式
Generated Game Level Corpus (GGLC) 数据集的构建采用了 Sturgeon 约束生成系统,该系统通过定义布尔变量的高级约束并将其转化为低层约束满足问题,利用多种标准求解器(如 SAT、SMT 或 Answer Set 求解器)生成游戏关卡。为确保关卡的可解性和可接受性,Sturgeon 结合了路径规划约束和瓦片重写规则,生成关卡的同时还生成了完整的通关流程。此外,通过引入不可达性约束,生成了不可解关卡,进一步丰富了数据集的多样性。每个关卡包含图像和文本两种表示形式,并附带解决方案(路径或通关序列),为后续研究提供了全面的数据支持。
特点
GGLC 数据集的特点在于其高度结构化的离散数据性质以及对输入微小变化的敏感性。该数据集包含四种不同类型的 2D 瓦片游戏(如迷宫类、平台类、推箱子类等),每种游戏具有独特的全局和局部约束。全局约束如关卡的可解性,局部约束则涉及瓦片的美学和结构规则。数据集的独特之处在于,单个瓦片的改变可能显著影响关卡的可解性或可接受性,这种特性使其与传统的机器学习数据集(如 CIFAR-10 或 MNIST)形成鲜明对比。此外,数据集规模庞大,包含数万个关卡,且涵盖多种难度和美学风格,为 PCGML 研究提供了丰富的资源。
使用方法
GGLC 数据集的使用方法多样,适用于游戏内容生成、机器学习模型训练及数据鲁棒性研究。研究者可以利用该数据集训练生成模型(如 GAN、VAE 或 Transformer),生成符合游戏约束的新关卡。同时,数据集的解决方案(路径或通关序列)可用于监督学习或强化学习任务,优化生成内容的质量。此外,数据集对输入微小变化的敏感性使其成为研究数据鲁棒性的理想选择,可通过计算非鲁棒性指标(如 NDα(D))量化数据对扰动的敏感程度。数据集以图像和文本格式提供,并附带详细的元数据,便于直接应用于实验或进一步扩展。
背景与挑战
背景概述
Generated Game Level Corpus (GGLC) 是由美国东北大学的研究人员 Mahsa Bazzaz 和 Seth Cooper 于2025年提出的一个大型游戏关卡数据集,旨在解决过程内容生成机器学习(PCGML)领域中的数据稀疏性问题。该数据集包含四种基于2D瓦片的游戏类型,每种类型均有数千个关卡,显著扩展了现有数据集的规模。GGLC 的创建灵感来源于 Video Game Level Corpus (VGLC),但通过自定义游戏设计规避了版权限制,并采用约束求解技术确保关卡的全局可解性和局部结构合理性。该数据集不仅为PCGML研究提供了丰富的训练资源,还通过量化数据鲁棒性,揭示了游戏关卡数据对微小输入变化的敏感性,为结构化离散数据的机器学习研究提供了新视角。
当前挑战
GGLC 面临的挑战主要体现在两个方面:领域问题挑战和构建过程挑战。在领域问题方面,游戏关卡生成需要满足严格的硬约束条件,如全局可解性和局部结构合理性,而单个瓦片的微小变化可能导致关卡从可解变为不可解,这对机器学习模型的鲁棒性提出了极高要求。在构建过程中,研究人员需要解决约束求解的计算复杂性、大规模关卡生成的多样性保障,以及不同游戏机制下约束条件的统一建模等难题。此外,现有PCGML模型在生成符合硬约束的关卡时普遍存在后处理需求,如何通过数据集设计降低这一需求也是重要挑战。
常用场景
经典使用场景
在游戏内容生成领域,Generated Game Level Corpus (GGLC)数据集为基于机器学习的程序化内容生成(PCGML)研究提供了标准化的测试平台。该数据集通过四种不同风格的2D瓦片游戏(洞穴探险、平台跳跃、推箱子、垂直攀爬),系统化地捕捉了游戏关卡中局部与全局约束的复杂性。其经典应用场景体现在研究者利用GGLC评估生成模型的鲁棒性,特别是在单个瓦片修改导致关卡可解性变化的敏感度分析中,为理解离散数据结构在游戏中的独特行为提供了实证基础。
衍生相关工作
GGLC的发布催生了多项创新研究:在方法层面,Sturgeon约束求解器的应用启发了结合形式化方法与深度学习的混合生成框架;在理论层面,其非鲁棒性度量方式被扩展至分子结构生成等需要严格正确性的离散数据领域。代表性工作包括基于CLIP嵌入的关卡相似性评估体系,以及受GGLC启发的Grammar-VAE改进模型,这些衍生研究共同推进了结构化数据生成的理论基础和技术边界。
数据集最近研究
最新研究方向
近年来,Generated Game Level Corpus (GGLC) 数据集在游戏内容生成领域引起了广泛关注,特别是在基于机器学习的程序化内容生成(PCGML)方向。该数据集通过引入大规模、多样化的2D瓦片游戏关卡,显著缓解了PCGML领域数据稀疏的挑战。研究热点聚焦于游戏关卡的鲁棒性分析,探讨微小输入变化对关卡可解性和可接受性的影响。GGLC的独特之处在于其结构化离散数据的特性,以及关卡设计中固有的局部和全局约束条件。这些特性使得游戏关卡对输入变化极为敏感,单个瓦片的改变可能导致整个关卡从可解变为不可解。当前研究通过形式化数据鲁棒性概念,将游戏关卡与主流机器学习数据集进行对比分析,揭示了游戏数据在约束满足问题上的特殊性。该方向的研究不仅推动了游戏内容生成技术的发展,也为其他需要正确性保证的结构化数据生成任务提供了借鉴。
相关研究论文
- 1Analysis of Robustness of a Large Game Corpus东北大学波士顿 · 2025年
以上内容由遇见数据集搜集并总结生成



