The Video Game Level Corpus (VGLC)

Name: The Video Game Level Corpus (VGLC)
Creator: 加州大学圣克鲁兹分校, 德雷塞尔大学
Published: 2016-07-04 04:04:55
License: 暂无描述

arXiv2016-07-04 更新2024-06-21 收录

下载链接：

https://github.com/TheVGLC/TheVGLC

下载链接

链接失效反馈

官方服务：

资源简介：

The Video Game Level Corpus (VGLC) 是一个包含428个来自12款游戏关卡的数据集，由加州大学圣克鲁兹分校和德雷塞尔大学创建。数据集中的关卡以易于解析的文本文件形式存在，并附有相应的图像表示，适合机器学习和游戏AI研究。VGLC包含多种游戏类型，如2D平台游戏、射击游戏等，支持Tile、Graph和Vector三种注释格式。创建过程中，研究者们对游戏关卡进行了详细的解析和标注。该数据集主要用于自动生成游戏关卡的研究，旨在通过机器学习技术解决关卡设计的自动化问题。

The Video Game Level Corpus (VGLC) is a dataset consisting of 428 game levels from 12 different games, developed by researchers from the University of California, Santa Cruz and Drexel University. The levels in the dataset are stored in easily parsable text files, paired with corresponding visual representations, making it well-suited for machine learning and game AI research. VGLC covers a wide range of game genres, including 2D platformers, shooters, and more, and supports three annotation formats: Tile, Graph, and Vector. During its construction, the researchers conducted detailed parsing and annotation work on all included game levels. This dataset is primarily used for research on automatic game level generation, with the objective of addressing the automation of level design through machine learning techniques.

提供机构：

加州大学圣克鲁兹分校, 德雷塞尔大学

创建时间：

2016-06-24

搜集汇总

数据集介绍

构建方式

在电子游戏关卡生成研究领域，构建高质量的训练语料库是应用机器学习技术的关键前提。视频游戏关卡语料库（VGLC）的构建过程，首先从12款经典游戏中精心选取了428个代表性关卡，涵盖《超级马里奥兄弟》、《毁灭战士》和《塞尔达传说》等系列。这些关卡被系统地转化为三种易于机器解析的标注格式：针对基于网格的二维平台游戏，采用Tile格式，将关卡表示为字符网格并配以JSON图例文件；对于具有房间拓扑结构的游戏，采用Graph格式，以DOT语言描述节点与边的关系；而对于《毁灭战士》等游戏，则采用Vector格式，以SVG矢量图形捕捉关卡中的线段与对象。原始关卡图像与对应解析工具亦被一并提供，确保了数据的完整性与可扩展性。

使用方法

VGLC为游戏关卡生成与分析研究提供了直接可用的数据基础，其使用方法紧密贴合机器学习与程序化内容生成的工作流程。研究者可依据具体任务需求，选择相应的标注格式进行数据加载与预处理：对于Tile格式关卡，可利用字符网格与JSON图例构建训练集，应用于马尔可夫链、循环神经网络等序列生成模型，或转化为图像输入以训练卷积神经网络；Graph格式数据则适用于图语法学习、谱图分析等图结构建模方法，以探索关卡的空间逻辑与设计模式；Vector格式为基于几何约束的生成算法提供了精确的线段与对象坐标信息。此外，语料库附带的解析工具（如平台游戏A*求解器与《毁灭战士》WAD文件解析器）可辅助研究者进行自定义标注或扩展新游戏数据，从而推动关卡风格迁移、设计模式挖掘等创新研究方向的发展。

背景与挑战

背景概述

视频游戏关卡设计作为游戏内容的核心组成部分，长期以来一直是程序化内容生成（PCG）领域的研究焦点。2016年，由加州大学圣克鲁兹分校与德雷塞尔大学的研究团队联合创建的VGLC数据集，旨在为机器学习驱动的关卡生成提供标准化训练语料。该数据集收录了来自《超级马里奥兄弟》《毁灭战士》《塞尔达传说》等12款经典游戏的428个关卡，以可解析的文本格式（包括瓦片、图与矢量三种标注形式）呈现，极大促进了游戏人工智能领域对关卡结构分析与生成模型的研究。VGLC的建立不仅填补了游戏关卡数据集的空白，还为跨游戏风格迁移、设计模式挖掘等前沿方向奠定了数据基础，成为连接传统PCG与数据驱动方法的重要桥梁。

当前挑战

VGLC数据集所应对的核心挑战在于解决程序化关卡生成中数据稀缺与标准化不足的问题。传统关卡生成多依赖人工规则或合成数据，缺乏对真实成功设计范例的系统化学习。构建过程中，研究团队面临多重技术难题：首先，需将异构的原始关卡数据（如图像、二进制文件）转化为机器可读的统一格式，同时保留游戏语义信息；其次，设计兼顾表达力与简洁性的标注体系（如瓦片字符映射、图结构描述）需平衡信息完整性与计算效率；此外，跨游戏类型的标注一致性（如平台跳跃游戏与俯视角冒险游戏）也增加了数据整合的复杂性。这些挑战使得VGLC的构建成为一项需要精细权衡工程与设计洞察的综合性任务。

常用场景

经典使用场景

在游戏人工智能与程序化内容生成领域，VGLC数据集为研究者提供了标准化的游戏关卡表示形式，其经典使用场景聚焦于基于机器学习的关卡生成研究。通过将《超级马里奥兄弟》、《毁灭战士》等经典游戏的关卡转化为可解析的文本格式（如Tile、Graph和Vector），该数据集使得研究者能够运用马尔可夫链、循环神经网络等统计模型，从原始关卡数据中学习设计模式，进而自动生成具有类似风格与结构的新关卡。这一过程不仅推动了生成算法的创新，还为游戏设计自动化提供了实证基础。

解决学术问题

VGLC数据集主要解决了程序化内容生成中缺乏统一、可访问训练数据的问题。在机器学习应用于游戏关卡生成时，以往研究常依赖人工标注或合成数据，导致可复现性与泛化能力受限。该数据集通过提供多游戏、多格式的标准化关卡表示，使研究者能够系统探索生成模型的性能，验证其在保持关卡可玩性、风格一致性等方面的有效性。其意义在于建立了游戏关卡研究的基准数据资源，促进了学术社区在生成算法、设计模式分析等方向的协作与比较。

实际应用

在实际应用层面，VGLC数据集为游戏开发与设计工具提供了数据驱动的基础。例如，游戏工作室可利用该数据集训练关卡生成模型，辅助设计师快速原型化或扩展游戏内容；教育工具则可基于其分析经典关卡的设计原则，用于游戏设计教学。此外，该数据集支持风格迁移研究，使开发者能够将一种游戏的关卡风格应用于另一种游戏框架中，为创新游戏体验提供技术可能。这些应用不仅提升了内容创作效率，也丰富了游戏产品的多样性与个性化。

数据集最近研究