TheGreatRambler/mm2_level
收藏Hugging Face2022-11-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TheGreatRambler/mm2_level
下载链接
链接失效反馈官方服务:
资源简介:
Mario Maker 2 levels数据集包含来自任天堂在线服务的2660万个关卡,总计约100GB的数据。该数据集是通过自托管的Mario Maker 2 API在2022年2月的一个月内创建的。数据集中包含多个字段,如关卡ID、名称、描述、上传时间、创建时间、游戏风格、主题、难度等。此外,还提供了如何使用该数据集的代码示例,包括如何加载和迭代数据集,以及如何解析关卡数据。
提供机构:
TheGreatRambler
原始信息汇总
Mario Maker 2 Levels Dataset Summary
Dataset Overview
General Information
- Language: Multilingual
- License: CC-BY-NC-SA-4.0
- Size: 10M<n<100M
- Source: Original
- Tasks: Object-detection, text-retrieval, token-classification, text-generation, other
- Tags: text-mining
- Pretty Name: Mario Maker 2 levels
Dataset Description
- Content: Consists of 26.6 million levels from Nintendos online service, totaling around 100GB of data.
- Creation: Created using the self-hosted Mario Maker 2 API over the course of 1 month in February 2022.
Data Structure
Data Instances
Each instance includes details such as:
- Data ID: Unique identifier.
- Name: Course name.
- Description: Course description.
- Uploaded: UTC timestamp for when the level was uploaded.
- Created: Local timestamp for when the level was created.
- Gamestyle: Enum indicating the game style.
- Theme: Enum indicating the course theme.
- Difficulty: Enum indicating the difficulty level.
- Tags: Enum indicating the tags associated with the course.
- Game Version: Version of the game this level was made on.
- World Record: Time in milliseconds for the world record.
- Upload Time: Time in milliseconds for the upload.
- Upload Attempts: Number of attempts to upload.
- Number of Comments: Number of comments on the course.
- Clear Condition: Enum indicating the clear condition.
- Timer: Timer of the level.
- Autoscroll Speed: Speed of the autoscroll.
- Clears: Number of course clears.
- Attempts: Number of course attempts.
- Clear Rate: Course clear rate.
- Plays: Number of course plays.
- Versus Matches: Number of versus matches.
- Coop Matches: Number of coop matches.
- Likes: Number of likes.
- Boos: Number of boos.
- Unique Players and Versus: Unique players that have played this level.
- Weekly Likes: Weekly likes on this course.
- Weekly Plays: Weekly plays on this course.
- Uploader PID: Player ID of the uploader.
- First Completer PID: Player ID of the first completer.
- Record Holder PID: Player ID of the record holder.
- Level Data: GZIP compressed decrypted level data.
Data Fields
Detailed descriptions of each field are provided, including data types and descriptions.
Data Splits
- Splits: Contains only a train split.
Enums
The dataset includes several enum fields for game styles, difficulties, course themes, and tags, which can be converted to their string equivalents.
Considerations
- Content Warning: Levels may contain harmful language or depictions.
搜集汇总
数据集介绍

构建方式
在电子游戏研究领域,高质量、大规模的关卡数据集对于分析玩家行为、关卡设计模式以及游戏内容生成算法具有重要价值。Mario Maker 2 levels数据集正是为此而生,它囊括了来自任天堂在线服务的约2660万个用户自制关卡,数据总量约100GB。该数据集由研究者利用自建的Mario Maker 2 API,在2022年2月历时一个月精心采集而成。鉴于向任天堂服务器发送请求需通过身份验证,采集过程极为审慎,严格控制下载速度以避免触发服务器过载或被封禁风险,最终确保了数据的完整性与合法性。数据集目前仅包含训练集,且研究者暂无更新版本的发布计划。
特点
该数据集的核心特色在于其超大规模与丰富的元数据维度。每个关卡实例不仅包含关卡名称、描述、上传时间、游戏风格、主题、难度等基础属性,还详尽记录了通关次数、尝试次数、通关率、游玩次数、多人对战与合作匹配次数、点赞与踩数等玩家交互数据。尤为珍贵的是,数据集中包含了经GZIP压缩的二进制关卡数据,该数据与任天堂游戏内格式一致,可通过提供的Kaitai Struct文件解析为结构化对象,进而还原关卡中的每一个物件坐标与类型。此外,数据集中还提供了枚举映射表,便于将游戏风格、难度、主题、标签及通关条件等整数字段转换为可读字符串。
使用方法
由于数据集体积庞大,推荐采用Hugging Face Datasets库的流式加载接口进行高效处理。用户可通过`load_dataset`函数并设置`streaming=True`参数,以迭代方式逐条读取关卡数据,避免内存溢出。对于核心的关卡二进制数据,需先使用`zlib`库解压,再借助Kaitai Struct运行时库与提供的`level.ksy`结构文件将其解析为`Level`对象,从而遍历关卡中的物件信息。若需将关卡渲染为图像,可借助第三方工具Toost实现。对于有完整下载需求的用户,也可直接通过`load_dataset`函数下载全部约100GB数据,但需确保充足的存储空间与网络带宽。
背景与挑战
背景概述
《超级马力欧创作家2》(Super Mario Maker 2)作为任天堂旗下极具创意的游戏平台,允许玩家自由设计并分享横版过关关卡,催生了海量用户生成内容。TheGreatRambler于2022年2月通过自建API,耗时月余从任天堂在线服务中采集了约2660万个关卡,构建了规模达100GB的mm2_level数据集。该数据集由独立研究者TheGreatRambler主导创建,核心研究问题在于如何系统性地存档、解析并分析大规模游戏用户生成内容,为计算游戏学、玩家行为建模及程序化内容生成等领域提供了前所未有的数据基础。其影响力体现在:首次以结构化形式公开了包含关卡元数据、二进制关卡数据及玩家交互统计的完整语料,推动了游戏AI与用户生成内容研究的实证化进程。
当前挑战
该数据集面临的核心挑战涵盖领域问题与构建过程两个层面。在领域问题层面,首要挑战是海量异构关卡数据的有效表征与解析——每个关卡以专有二进制格式存储,需借助Kaitai Struct逆向工程框架解压译码,且存在多个未知字段(unk2至unk12),增加了特征提取的难度。其次,玩家生成内容中可能包含有害语言或不良视觉元素,需建立内容过滤与伦理审查机制。在构建过程中,主要挑战源于任天堂API的认证限制与反爬策略:必须精确控制请求速率以避免账户封禁,导致采集周期长达一个月且无法增量更新。此外,数据集仅提供单次快照,缺乏时间序列维度,限制了玩家行为演化与内容生命周期等纵向研究的开展。
常用场景
经典使用场景
在游戏人工智能与程序化内容生成领域,Mario Maker 2关卡数据集为研究者提供了海量、多样化的用户生成关卡样本。该数据集收录了来自Nintendo在线服务的2660万个关卡,涵盖五种游戏风格、十种主题及多种难度标签,每个关卡均包含完整的二进制关卡数据结构。研究者可利用该数据集训练深度学习模型,学习用户设计模式与关卡布局规律,进而实现自动化的关卡生成与评估。通过对关卡元数据(如通关率、点赞数、标签等)与结构特征的联合分析,该数据集成为探索用户生成内容质量预测、关卡难度评估以及游戏体验建模等经典研究问题的基石。
实际应用
在实际应用层面,该数据集为游戏开发与智能辅助设计工具提供了坚实的数据基础。游戏设计师可基于该数据集分析热门关卡的设计特征与成功要素,从而优化关卡设计流程。对于游戏平台运营方而言,利用该数据集训练的模型可自动识别低质量或不当内容,提升用户生成内容的审核效率。此外,该数据集还可用于开发智能推荐系统,根据玩家历史偏好推荐个性化关卡,增强玩家留存与参与度。在自动化测试领域,基于该数据集的关卡生成模型可模拟大量玩家行为,辅助游戏平衡性测试与难度曲线优化。
衍生相关工作
该数据集衍生了一系列具有影响力的研究工作,主要集中在程序化内容生成与游戏体验预测两大方向。研究者基于该数据集开发了多种关卡生成模型,如利用变分自编码器学习关卡潜在表示,并通过条件生成实现特定风格或难度的关卡合成。在关卡质量评估方面,相关工作利用元数据与结构特征构建了通关率预测模型,实现了对用户生成关卡可玩性的自动评估。此外,该数据集还被用于探索游戏风格迁移、多模态关卡生成(结合文本描述与结构设计)以及玩家行为建模等前沿课题,推动了游戏人工智能领域从手工规则设计向数据驱动范式的转变。
以上内容由遇见数据集搜集并总结生成



