playable-data

github2025-10-04 更新2025-10-05 收录

下载链接：

https://github.com/lemonade-sdk/playable-data

下载链接

链接失效反馈

官方服务：

资源简介：

一个高质量复古风格pygame脚本集合，用于微调大语言模型。包含154个游戏脚本，总计35,867行代码，分为基础游戏和混音游戏两种类型。每个脚本都包含元数据注释，如预期的编码提示氛围。

A high-quality collection of retro-style pygame scripts for fine-tuning Large Language Models (LLMs). This set contains 154 game scripts totaling 35,867 lines of code, which are divided into two categories: basic games and remix games. Each script includes metadata comments, such as expected coding prompt atmospheres.

创建时间：

2025-09-30

原始信息汇总

Playable Data 数据集概述

数据集简介

Playable Data 是一个高质量复古风格 Pygame 脚本集合，专门用于大型语言模型的微调。

主要用途

支持为 Infinity Arcade 微调模型
作为开源软件供其他用途使用

数据集统计

游戏类型	数量	代码行数
基础游戏	92	20,883
混音游戏	62	14,984
总计	154	35,867

数据集特点

包含 Python 脚本，每个脚本使用 Python 和 pygame 库实现复古风格街机游戏
每个脚本顶部注释中包含元数据，如预期的氛围编码提示
目前包含两种游戏类型：基础游戏（一次性氛围编码）和混音游戏（多次氛围编码优化）

数据集结构

所有数据存储在 data/ 文件夹中
可通过运行 python scripts/generate_dataset.py 生成包含指令格式微调数据的 outputdataset.json 文件

许可证

采用 MIT 许可证公开可用
数据使用 Anthropic Claude 模型在 Cursor 中生成，因此这些产品的许可证也适用于数据

维护者

由 @jeremyfowers 维护

搜集汇总

数据集介绍

构建方式

在游戏开发与人工智能交叉领域，playable-data数据集通过系统化收集复古风格街机游戏的Python脚本构建而成。其构建过程采用基于提示工程的代码生成方法，借助Anthropic Claude模型在Cursor环境中自动生成符合特定编码氛围要求的pygame程序。数据涵盖基础游戏与混音游戏两大类别，前者通过单次提示生成完整游戏逻辑，后者则运用多轮迭代优化实现功能增强。所有脚本均遵循统一元数据注释规范，确保代码结构与功能描述的一致性。

使用方法

研究人员可通过执行scripts/generate_dataset.py脚本将原始代码转换为标准化的instruction格式训练数据，生成结构化的dataset.json文件。该数据集专为大语言模型的指令微调设计，特别适用于提升模型在游戏代码生成任务中的表现。实际应用时，开发者可直接运行pip install pygame安装依赖环境，通过python指令执行具体游戏脚本进行效果验证。经过微调的模型能够显著增强在Infinity Arcade等游戏开发平台上的代码生成能力，同时支持跨架构部署至AMD NPU等异构计算平台。

背景与挑战

背景概述

在人工智能与游戏开发交叉领域的研究中，playable-data数据集于2024年由研究员Jeremy Fowers主导创建。该数据集聚焦于通过高质量复古风格Pygame脚本优化大语言模型的代码生成能力，核心目标是为Infinity Arcade项目提供适配的微调数据支撑。其包含154个基础游戏与混编游戏脚本，总计达35,867行代码，显著推进了程序生成与交互式娱乐技术的融合进程。

当前挑战

该数据集致力于解决游戏代码自动生成领域的核心难题，即如何使大语言模型准确理解并实现多轮迭代的混编游戏逻辑。在构建过程中面临双重挑战：一方面需确保基础游戏脚本的语义一致性与可执行性，另一方面要处理混编游戏时出现的代码结构冲突与功能耦合问题。当前模型在蛇类游戏等基础场景表现良好，但对乒乓球等复杂物理交互场景的代码生成仍存在稳定性缺陷。

常用场景

经典使用场景

在游戏开发与生成式人工智能交叉领域，Playable-Data数据集通过提供复古风格的pygame脚本集合，为大语言模型的微调任务构建了标准化测试平台。这些脚本以简洁的代码结构重现经典街机游戏机制，使研究人员能够系统评估模型在理解游戏逻辑、生成可执行代码方面的能力。该数据集特别适用于多轮对话式编程任务，其中模型需要根据自然语言描述迭代修正游戏代码，为程序合成研究提供了可量化的评估基准。

解决学术问题

该数据集有效解决了生成式AI在代码生成领域面临的语义理解与执行一致性难题。通过提供结构化的游戏代码样本，研究者能够深入探究模型对动态系统状态转换、实时交互逻辑等复杂编程概念的掌握程度。在Infinity Arcade项目的实践验证中，该数据集成功揭示了现有模型在基础游戏逻辑与高级游戏机制之间的能力断层，为改进代码生成模型的架构设计提供了关键见解。

实际应用

在产业应用层面，该数据集支撑的微调模型已实际部署于AMD NPU硬件平台，为边缘计算设备上的实时游戏生成提供了技术基础。基于Qwen2.5-7B-Instruct架构的优化模型能够理解自然语言指令并生成可运行的pygame代码，这种能力可延伸至教育科技领域的编程教学助手、游戏开发行业的原型快速生成等场景，显著降低了创意实现的技术门槛。

数据集最近研究