five

MineAnyBuild

收藏
arXiv2025-05-27 更新2025-05-28 收录
下载链接:
https://mineanybuild.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
MineAnyBuild是一个基于Minecraft游戏的全面评估开放世界AI代理空间规划能力的数据集,包含约4000个经过精心挑选的任务,涵盖了建筑、室内装饰等500多个资产。该数据集旨在评估AI代理在空间理解、空间推理、创造力和空间常识等方面的能力,通过要求代理根据多模态人类指令生成可执行的架构建设计划来缩小抽象空间理解与具体任务执行之间的差距。MineAnyBuild通过利用丰富的玩家生成内容,提出了一种无限扩展的数据收集模式,可以收集无尽的玩家生成内容并将其自动转换为可处理的数据,从而促进开放世界AI代理的研究。

MineAnyBuild is a comprehensive dataset for evaluating the spatial planning capabilities of open-world AI agents based on the Minecraft video game. It contains approximately 4,000 carefully selected tasks, covering over 500 assets including architectural construction and interior decoration. This dataset aims to assess the abilities of AI agents in spatial comprehension, spatial reasoning, creativity, and spatial common sense, bridging the gap between abstract spatial understanding and concrete task execution by requiring agents to generate executable architectural construction plans based on multimodal human instructions. Leveraging abundant player-generated content, MineAnyBuild proposes an infinitely scalable data collection paradigm that can collect endless player-generated content and automatically convert it into processable data, thereby promoting research on open-world AI agents.
提供机构:
中山大学深圳校区, 上海交通大学, 阿联酋穆罕默德·本·扎耶德人工智能大学, 华为诺亚方舟实验室
创建时间:
2025-05-26
原始信息汇总

MineAnyBuild: 开放世界AI代理空间规划基准测试

数据集概述

  • 名称: MineAnyBuild
  • 目标: 评估开放世界AI代理在《Minecraft》游戏中的空间规划能力
  • 核心任务: 根据多模态人类指令生成可执行的建筑建造计划
  • 任务数量: 4,000个空间规划任务
  • 建筑/室内装饰资产: 500+
  • 数据扩展性: 提供基于玩家生成内容的无限扩展数据收集范式

核心评估维度

  1. 空间理解
  2. 空间推理
  3. 创造力
  4. 空间常识

任务类型

  • 可执行空间计划生成
  • 空间理解
  • 创造力
  • 空间推理
  • 空间常识

数据构成

  • VQA问答对: ~2,000对
  • 数据收集流程:
    • 数据收集
    • 质量检查
    • 数据标注

实验评估

  • 评估指标: 输出成功率(OSR)
  • 模型比较:
    • 专有模型平均OSR
    • 开源模型平均OSR

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
MineAnyBuild数据集构建于广受欢迎的游戏Minecraft之上,通过精心设计的流程整合了玩家生成内容。研究团队首先从GrabCraft、Minecraft官方Wiki等平台收集了约7000个建筑结构和500个室内装饰素材,随后通过严格的质量检查流程筛选数据。在标注阶段,采用人工与先进的多模态大语言模型协同工作,为每个任务生成详细的空间规划指令。数据集创新性地提出了无限扩展范式,通过自动化流程将玩家创作转化为可处理的三维坐标数据,包括起始块、终止块坐标及对应的方块信息矩阵。这种构建方式不仅确保了数据的多样性和真实性,还为后续的无限扩展提供了技术基础。
特点
MineAnyBuild数据集具有四大核心特征:多维度评估体系、真实场景迁移性、创造性激发设计以及标准化输出格式。数据集包含4000个经过精心设计的空间规划任务,覆盖建筑执行计划生成、空间理解、创造力、空间推理和空间常识五个任务类型。特别值得注意的是,数据集引入了三维蓝图矩阵作为标准化输出格式,通过高度-长度-宽度的三维列表结构精确描述建筑布局,其中用-1表示空气方块。每个任务都配有详细的多模态人类指令和参考图像,并标注了难度系数,为评估AI代理的空间智能提供了全面而严谨的基准。
使用方法
使用MineAnyBuild数据集时,研究者可通过标准化的接口评估AI代理在空间规划任务中的表现。对于执行性空间计划生成任务,代理需要根据给定的多模态指令输出可执行的三维蓝图矩阵;空间理解任务则测试代理将相对坐标转换为全局坐标的能力;创造力任务鼓励代理发挥想象力设计独特建筑。评估采用多维度评分体系,包括专家模型评分、匹配度计算和人类投票排名。数据集支持多种评估模式,既可通过Mineflayer模拟器自动验证蓝图矩阵的可执行性,也可利用Replay Mod工具生成高质量可视化结果进行人工评估。为促进可复现性,数据集提供了完整的任务说明、评估指标计算公式和可视化工具使用指南。
背景与挑战
背景概述
MineAnyBuild是由中山大学深圳校区、上海交通大学、华为诺亚方舟实验室等机构的研究团队于2025年提出的创新性基准测试数据集,旨在评估开放世界AI代理在《我的世界》游戏中的空间规划能力。该数据集包含4,000个精心设计的任务,通过利用丰富的玩家生成内容,提供了无限扩展的数据收集范式。MineAnyBuild从空间理解、空间推理、创造力和空间常识四个核心维度评估AI代理的空间规划能力,填补了抽象空间理解与具体任务执行之间的研究空白。该数据集的建立标志着空间智能研究领域的重要进展,为机器人操作、自动装配、城市规划等实际应用场景中的AI代理开发提供了重要评估工具。
当前挑战
MineAnyBuild面临的挑战主要体现在两个方面:首先,在解决领域问题方面,当前多模态大语言模型在空间规划任务中表现欠佳,如GPT-4o等先进模型在空间理解与任务执行的转换上存在显著困难,其生成的建筑方案往往无法准确执行;其次,在数据集构建过程中,团队需要处理玩家生成内容的质量参差不齐问题,确保收集的建筑数据具有代表性和多样性,同时开发能够准确评估创造力等主观维度的评分系统。此外,将3D空间关系转化为可执行的建筑蓝图矩阵也面临技术挑战,需要平衡表达精度与模型处理能力。
常用场景
经典使用场景
MineAnyBuild数据集在评估开放世界AI代理的空间规划能力方面具有经典应用场景。该数据集基于Minecraft游戏环境,要求AI代理根据给定的多模态人类指令生成可执行的建筑建造计划。通过这一场景,研究者能够全面评估代理在空间理解、空间推理、创造力和空间常识四个核心维度上的表现。数据集包含4000个精心设计的任务,涵盖了从简单结构到复杂建筑的多样化需求,为AI代理的空间智能研究提供了标准化测试平台。
衍生相关工作
MineAnyBuild数据集已衍生出多项经典研究工作。基于该数据集,研究者开发了新型空间智能评估框架,提出了针对MLLMs的空间规划能力增强方法。相关工作还探索了将数据集任务转化为强化学习环境的方法,推动了基于RL的空间规划代理的发展。数据集提出的无限扩展数据收集范式也被后续研究采纳,促进了玩家生成内容(PGC)在AI训练中的规模化应用。这些工作共同推动了开放世界AI代理在空间智能方向的研究进展。
数据集最近研究
最新研究方向
MineAnyBuild数据集作为评估开放世界AI代理空间规划能力的创新基准,近期研究聚焦于多模态大语言模型(MLLMs)在三维空间任务中的表现。该数据集通过《我的世界》游戏环境构建了4000项空间规划任务,涵盖空间理解、空间推理、创造力和空间常识四大核心维度,填补了抽象空间认知与具体任务执行之间的评估空白。前沿研究揭示了当前MLLMs在生成可执行建筑蓝图时的显著局限性,如GPT-4o总体得分仅为41.02(满分100),尤其在空间推理任务中最佳模型准确率不足27%。热点方向包括开发无限可扩展的数据收集范式以利用玩家生成内容,以及探索空间智能与具身AI的交叉应用。该基准的建立为机器人操作、自动装配等现实场景的智能体研发提供了关键评估工具,推动了空间认知与任务执行一体化的研究进程。
相关研究论文
  • 1
    MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents中山大学深圳校区, 上海交通大学, Mohamed bin Zayed 人工智能大学, 华为诺亚方舟实验室 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作