five

MesaTask-10K

收藏
arXiv2025-09-26 更新2025-11-21 收录
下载链接:
https://huggingface.co/datasets/InternRobotics/MesaTask-10K
下载链接
链接失效反馈
官方服务:
资源简介:
MesaTask-10K是一个大规模的桌面场景数据集,包含约10708个由人工精心制作的布局,确保了场景的真实性和物体间复杂的相互关系。该数据集涵盖了6种常见的室内桌子类别,包括办公桌、餐桌、厨房柜台等。MesaTask-10K数据集基于一个包含超过12000个刚性和交互式3D资产的资产库,每个资产都附带详细的语义信息。数据集的创建过程首先由一个预训练的文本到图像模型生成多样化的桌面场景图像,然后通过深度估计、物体检测和3D资产检索构建粗略的3D布局,最后由人工进行细致的布局优化,并通过物理模拟确保物体的碰撞检测。该数据集旨在解决机器人操作任务中任务描述与场景之间的差距,推动基于任务驱动的桌面场景生成研究。
提供机构:
上海交通大学, 上海人工智能实验室, SII, 南方科技大学, 北京大学
创建时间:
2025-09-26
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人操作领域,生成符合任务需求的桌面场景对训练至关重要。MesaTask-10K数据集通过多阶段流程构建:首先利用预训练文本到图像模型生成多样化的桌面场景图像作为参考,随后结合深度估计与实例分割技术提取粗略三维布局,再通过人工标注对物体尺寸、位置及复杂空间关系进行精细化调整,最终在物理仿真环境中验证布局合理性,确保场景兼具视觉真实性与功能完备性。
特点
该数据集涵盖六类常见室内桌面场景,包含约10,700个手工精校的三维布局,其核心特征体现在三个方面:拥有超过12,000个三维资产构成的丰富物体库,覆盖200余种物体类别;通过人工标注实现了堆叠、容纳等复杂空间关系的精确建模;每个场景平均包含15个物体,形成了高密度的交互环境,为任务导向的场景生成研究提供了高度逼真的数据基础。
使用方法
研究者可通过解析任务指令驱动场景生成流程:首先将高级任务描述分解为环境描述、子目标序列等结构化信息,继而通过空间推理链依次完成物体列表补全、空间关系推导与场景图构建,最终生成符合任务语义的三维布局。该数据集支持基于监督微调与直接偏好优化的模型训练,其物理仿真验证机制可有效评估生成场景的碰撞规避与功能一致性。
背景与挑战
背景概述
MesaTask-10K数据集由上海交通大学与上海人工智能实验室等机构于2025年联合发布,聚焦于任务导向的桌面场景生成这一新兴研究方向。该数据集旨在解决机器人操作领域的关键问题:如何根据高层任务指令自动构建符合物理规律且语义对齐的桌面场景,以支持机器人策略训练。通过包含约10,700个手工布局的合成场景与超过12,000个三维资产,该数据集显著提升了场景布局的真实性与对象间复杂空间关系的建模能力,为具身智能与三维空间推理研究提供了重要基础。
当前挑战
在领域问题层面,任务导向场景生成需克服高层任务描述与三维空间布局间的语义鸿沟,具体表现为对复杂空间关系(如堆叠、容纳)的精确建模及任务-场景对齐的保证。构建过程中,数据集面临多重挑战:基于单视图图像重建三维场景时,严重遮挡与深度估计误差导致初始布局存在对象尺度失真与空间冲突;为确保物理合理性,需投入大量人工对自动生成的粗粒度布局进行精细化调整,并通过物理仿真验证避免对象碰撞。
常用场景
经典使用场景
在机器人操作与场景生成领域,MesaTask-10K数据集被广泛用于训练和评估任务导向的桌面场景生成模型。其核心应用场景聚焦于解析高层级人类指令,并自动构建符合任务需求的3D桌面布局,例如根据“整理水果并放置托盘”的指令生成包含堆叠、容纳等复杂空间关系的场景。该数据集通过手动精调的真实布局,为模型提供了学习物体间精细空间推理的基准环境,显著提升了生成场景的物理合理性与任务对齐度。
解决学术问题
MesaTask-10K有效解决了传统方法在任务导向场景生成中的关键学术难题:一是弥补了高层级任务描述与具体3D场景布局之间的语义鸿沟,通过引入空间推理链将生成过程分解为物体推断、空间关系推理与场景图构建;二是克服了人工设计布局的耗时性与随机生成缺乏合理性的局限,提供了大规模、高真实度的合成场景数据;三是促进了基于大语言模型的3D空间推理能力研究,为机器人精准理解指令并执行操作奠定了数据基础。
衍生相关工作
基于MesaTask-10K衍生的经典研究包括LLM驱动的场景生成框架MesaTask,其通过空间推理链与直接偏好优化算法实现了任务对齐的3D布局生成。相关工作还扩展至多模态大语言模型在场景图构建中的应用,如结合渲染图像与场景描述生成任务指令与空间关系。此外,该数据集启发了对复杂物体关系(如堆叠与容纳)的建模研究,并推动了Holodeck、I-Design等模块化生成方法在桌面场景的适配与优化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作