TheGreatRambler/mm2_level

Name: TheGreatRambler/mm2_level
Creator: TheGreatRambler
Published: 2022-11-11 08:07:34
License: 暂无描述

Hugging Face2022-11-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/TheGreatRambler/mm2_level

下载链接

链接失效反馈

官方服务：

资源简介：

Mario Maker 2 levels数据集包含来自任天堂在线服务的2660万个关卡，总计约100GB的数据。该数据集是通过自托管的Mario Maker 2 API在2022年2月的一个月内创建的。数据集中包含多个字段，如关卡ID、名称、描述、上传时间、创建时间、游戏风格、主题、难度等。此外，还提供了如何使用该数据集的代码示例，包括如何加载和迭代数据集，以及如何解析关卡数据。

提供机构：

TheGreatRambler

原始信息汇总

Mario Maker 2 Levels Dataset Summary

Dataset Overview

General Information

Language: Multilingual
License: CC-BY-NC-SA-4.0
Size: 10M<n<100M
Source: Original
Tasks: Object-detection, text-retrieval, token-classification, text-generation, other
Tags: text-mining
Pretty Name: Mario Maker 2 levels

Dataset Description

Content: Consists of 26.6 million levels from Nintendos online service, totaling around 100GB of data.
Creation: Created using the self-hosted Mario Maker 2 API over the course of 1 month in February 2022.

Data Structure

Data Instances

Each instance includes details such as:

Data ID: Unique identifier.
Name: Course name.
Description: Course description.
Uploaded: UTC timestamp for when the level was uploaded.
Created: Local timestamp for when the level was created.
Gamestyle: Enum indicating the game style.
Theme: Enum indicating the course theme.
Difficulty: Enum indicating the difficulty level.
Tags: Enum indicating the tags associated with the course.
Game Version: Version of the game this level was made on.
World Record: Time in milliseconds for the world record.
Upload Time: Time in milliseconds for the upload.
Upload Attempts: Number of attempts to upload.
Number of Comments: Number of comments on the course.
Clear Condition: Enum indicating the clear condition.
Timer: Timer of the level.
Autoscroll Speed: Speed of the autoscroll.
Clears: Number of course clears.
Attempts: Number of course attempts.
Clear Rate: Course clear rate.
Plays: Number of course plays.
Versus Matches: Number of versus matches.
Coop Matches: Number of coop matches.
Likes: Number of likes.
Boos: Number of boos.
Unique Players and Versus: Unique players that have played this level.
Weekly Likes: Weekly likes on this course.
Weekly Plays: Weekly plays on this course.
Uploader PID: Player ID of the uploader.
First Completer PID: Player ID of the first completer.
Record Holder PID: Player ID of the record holder.
Level Data: GZIP compressed decrypted level data.

Data Fields

Detailed descriptions of each field are provided, including data types and descriptions.

Data Splits

Splits: Contains only a train split.

Enums

The dataset includes several enum fields for game styles, difficulties, course themes, and tags, which can be converted to their string equivalents.

Considerations

Content Warning: Levels may contain harmful language or depictions.

搜集汇总

数据集介绍

构建方式

在电子游戏研究领域，高质量、大规模的关卡数据集对于分析玩家行为、关卡设计模式以及游戏内容生成算法具有重要价值。Mario Maker 2 levels数据集正是为此而生，它囊括了来自任天堂在线服务的约2660万个用户自制关卡，数据总量约100GB。该数据集由研究者利用自建的Mario Maker 2 API，在2022年2月历时一个月精心采集而成。鉴于向任天堂服务器发送请求需通过身份验证，采集过程极为审慎，严格控制下载速度以避免触发服务器过载或被封禁风险，最终确保了数据的完整性与合法性。数据集目前仅包含训练集，且研究者暂无更新版本的发布计划。

特点

该数据集的核心特色在于其超大规模与丰富的元数据维度。每个关卡实例不仅包含关卡名称、描述、上传时间、游戏风格、主题、难度等基础属性，还详尽记录了通关次数、尝试次数、通关率、游玩次数、多人对战与合作匹配次数、点赞与踩数等玩家交互数据。尤为珍贵的是，数据集中包含了经GZIP压缩的二进制关卡数据，该数据与任天堂游戏内格式一致，可通过提供的Kaitai Struct文件解析为结构化对象，进而还原关卡中的每一个物件坐标与类型。此外，数据集中还提供了枚举映射表，便于将游戏风格、难度、主题、标签及通关条件等整数字段转换为可读字符串。

使用方法

由于数据集体积庞大，推荐采用Hugging Face Datasets库的流式加载接口进行高效处理。用户可通过`load_dataset`函数并设置`streaming=True`参数，以迭代方式逐条读取关卡数据，避免内存溢出。对于核心的关卡二进制数据，需先使用`zlib`库解压，再借助Kaitai Struct运行时库与提供的`level.ksy`结构文件将其解析为`Level`对象，从而遍历关卡中的物件信息。若需将关卡渲染为图像，可借助第三方工具Toost实现。对于有完整下载需求的用户，也可直接通过`load_dataset`函数下载全部约100GB数据，但需确保充足的存储空间与网络带宽。

背景与挑战

背景概述

《超级马力欧创作家2》（Super Mario Maker 2）作为任天堂旗下极具创意的游戏平台，允许玩家自由设计并分享横版过关关卡，催生了海量用户生成内容。TheGreatRambler于2022年2月通过自建API，耗时月余从任天堂在线服务中采集了约2660万个关卡，构建了规模达100GB的mm2_level数据集。该数据集由独立研究者TheGreatRambler主导创建，核心研究问题在于如何系统性地存档、解析并分析大规模游戏用户生成内容，为计算游戏学、玩家行为建模及程序化内容生成等领域提供了前所未有的数据基础。其影响力体现在：首次以结构化形式公开了包含关卡元数据、二进制关卡数据及玩家交互统计的完整语料，推动了游戏AI与用户生成内容研究的实证化进程。

当前挑战

该数据集面临的核心挑战涵盖领域问题与构建过程两个层面。在领域问题层面，首要挑战是海量异构关卡数据的有效表征与解析——每个关卡以专有二进制格式存储，需借助Kaitai Struct逆向工程框架解压译码，且存在多个未知字段（unk2至unk12），增加了特征提取的难度。其次，玩家生成内容中可能包含有害语言或不良视觉元素，需建立内容过滤与伦理审查机制。在构建过程中，主要挑战源于任天堂API的认证限制与反爬策略：必须精确控制请求速率以避免账户封禁，导致采集周期长达一个月且无法增量更新。此外，数据集仅提供单次快照，缺乏时间序列维度，限制了玩家行为演化与内容生命周期等纵向研究的开展。

常用场景

经典使用场景

在游戏人工智能与程序化内容生成领域，Mario Maker 2关卡数据集为研究者提供了海量、多样化的用户生成关卡样本。该数据集收录了来自Nintendo在线服务的2660万个关卡，涵盖五种游戏风格、十种主题及多种难度标签，每个关卡均包含完整的二进制关卡数据结构。研究者可利用该数据集训练深度学习模型，学习用户设计模式与关卡布局规律，进而实现自动化的关卡生成与评估。通过对关卡元数据（如通关率、点赞数、标签等）与结构特征的联合分析，该数据集成为探索用户生成内容质量预测、关卡难度评估以及游戏体验建模等经典研究问题的基石。

实际应用

在实际应用层面，该数据集为游戏开发与智能辅助设计工具提供了坚实的数据基础。游戏设计师可基于该数据集分析热门关卡的设计特征与成功要素，从而优化关卡设计流程。对于游戏平台运营方而言，利用该数据集训练的模型可自动识别低质量或不当内容，提升用户生成内容的审核效率。此外，该数据集还可用于开发智能推荐系统，根据玩家历史偏好推荐个性化关卡，增强玩家留存与参与度。在自动化测试领域，基于该数据集的关卡生成模型可模拟大量玩家行为，辅助游戏平衡性测试与难度曲线优化。

衍生相关工作

该数据集衍生了一系列具有影响力的研究工作，主要集中在程序化内容生成与游戏体验预测两大方向。研究者基于该数据集开发了多种关卡生成模型，如利用变分自编码器学习关卡潜在表示，并通过条件生成实现特定风格或难度的关卡合成。在关卡质量评估方面，相关工作利用元数据与结构特征构建了通关率预测模型，实现了对用户生成关卡可玩性的自动评估。此外，该数据集还被用于探索游戏风格迁移、多模态关卡生成（结合文本描述与结构设计）以及玩家行为建模等前沿课题，推动了游戏人工智能领域从手工规则设计向数据驱动范式的转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集