MesaTask-10K

github2025-09-25 更新2025-09-26 收录

下载链接：

https://github.com/InternRobotics/MesaTask

下载链接

链接失效反馈

官方服务：

资源简介：

MesaTask-10K是一个大规模数据集，包含约10,700个合成桌面场景，具有手动设计的布局，确保真实的布局和复杂的物体间关系，用于支持任务导向的桌面场景生成研究。

MesaTask-10K is a large-scale dataset comprising approximately 10,700 synthetic desktop scenes. With manually designed layouts, it guarantees realistic spatial configurations and complex inter-object relationships, and is specifically developed to support research on task-oriented desktop scene generation.

创建时间：

2025-09-24

原始信息汇总

MesaTask数据集概述

数据集基本信息

数据集名称: MesaTask-10K
发布状态: NeurIPS 2025 Spotlight
数据规模: 约10,700个合成桌面场景
数据特点: 手动设计的布局，确保真实布局和复杂的物体间关系

数据集内容

数据类型: 3D桌面场景布局数据
数据格式: GLB格式的3D资产
布局质量: 物理上合理且与任务描述对齐的桌面场景

数据集结构

MesaTask-10K/ |-- MesaTask_model |-- Asset_annotation.json |-- sbert_text_features.pkl |-- Assets_library/
|-- {uid}.glb
|-- ... |-- Layout_info/
|-- bathroom_vanity/ |-- bathroom_vanity_0000/
|-- front.png |-- layout.json |-- bathroom_vanity_0001/ |-- ... |-- coffee_table/ |-- dining_table/ |-- dressing_table/ |-- kitchen_counter/
|-- office_table/

数据集获取

托管平台: Hugging Face
访问地址: https://huggingface.co/datasets/InternRobotics/MesaTask-10K

应用场景

机器人理解人类指令和执行操作任务
任务导向的桌面场景生成研究
3D空间推理和场景图构建

技术特点

采用空间推理链（Spatial Reasoning Chain）分解生成过程
基于LLM的框架生成物理合理的桌面场景
支持DPO算法增强

搜集汇总

数据集介绍

构建方式

在桌面机器人操作领域，构建符合任务需求的场景数据是提升智能体交互能力的关键。MesaTask-10K数据集通过人工精心设计布局，确保场景的物理合理性与对象间复杂关系的真实性。该数据集涵盖约10,700个合成桌面场景，每个场景均基于任务描述进行结构化构建，采用空间推理链方法将生成过程分解为对象推断、空间关系推理和场景图构建三个层次，最终形成精确的三维布局。

特点

该数据集以其大规模人工标注的布局数据脱颖而出，强调场景布局的物理合理性与任务对齐性。每个场景均包含详细的物体空间关系标注，并支持多种桌面类型如咖啡桌、办公桌等。数据集提供GLB格式的三维资产库，并计划集成URDF模型以增强仿真兼容性。其独特的空间推理链结构为研究任务导向的场景生成提供了可解释性框架。

使用方法

使用者可通过Hugging Face平台获取数据集，利用提供的Python脚本进行场景可视化与推理生成。具体流程包括通过任务描述生成任务信息文件，再基于预训练模型进行三维场景布局生成。数据集支持物理优化后处理，可生成包含渲染视图和三维场景文件的完整输出。研究者可借助Blender工具进行场景渲染，并通过代码库中的示例快速验证生成效果。

背景与挑战

背景概述

在机器人自主操作领域，理解人类指令并执行桌面任务的能力依赖于高质量的场景数据支持。MesaTask-10K数据集由上海交通大学、上海人工智能实验室等机构联合研发，于2025年作为NeurIPS会议亮点成果发布，旨在解决任务导向型桌面场景生成的空白。该数据集包含约10,700个手工布局的合成场景，通过空间推理链技术将高层任务指令转化为具象化的三维布局，显著提升了机器人任务训练数据的真实性与逻辑性。

当前挑战

该数据集核心挑战在于弥合抽象任务描述与具体三维场景之间的语义鸿沟，需同时应对物体空间关系推理的复杂性及物理合理性的约束。构建过程中面临手工布局标注的高成本压力，需平衡场景多样性与物理稳定性，并解决不同物体模型间的几何兼容性问题。此外，从静态布局到可交互仿真环境的转化仍需突破动力学参数标注的技术瓶颈。

常用场景

经典使用场景

在机器人任务导向的桌面场景生成研究中，MesaTask-10K数据集通过提供大量手工布局的合成场景，为模型训练与验证奠定了坚实基础。该数据集典型应用于基于任务描述的3D空间布局生成，例如根据“整理书籍杂志”等指令自动推理物体间的空间关系并构建合理场景。其核心价值在于将高层次任务指令转化为具体的三维物体排列，为智能体环境交互研究提供了标准化测试平台。

衍生相关工作

基于该数据集提出的空间推理链框架，衍生出多模态大语言模型与三维视觉结合的创新研究方向。其DPO增强算法为任务导向生成任务提供了新的优化范式，启发了后续研究在物理约束建模、场景图神经网络等方向的探索。该工作建立的评估体系为相关领域提供了基准测试标准，推动了三维场景理解与生成技术的标准化进程。

数据集最近研究