ORS3D-60K
收藏arXiv2025-11-25 更新2025-11-26 收录
下载链接:
https://github.com/H-EmbodVis/GRANT
下载链接
链接失效反馈官方服务:
资源简介:
ORS3D-60K是由华中科技大学与小米公司联合构建的大规模具身智能数据集,专注于融合运筹学知识的3D任务调度。该数据集包含60,825项复合任务,覆盖4,376个真实室内场景,每个任务平均包含311个词汇的解决方案描述。数据源自ScanNet、HM3D等五大真实3D场景数据库,通过GPT-4o生成任务元信息并经过优化求解器计算最优调度方案。该数据集旨在解决具身智能在三维物理世界中并行执行多任务的效率优化问题,推动语言理解、空间感知与运筹决策的协同发展。
ORS3D-60K is a large-scale embodied intelligence dataset jointly constructed by Huazhong University of Science and Technology and Xiaomi Corporation, specializing in 3D task scheduling integrated with operations research knowledge. It contains 60,825 complex tasks covering 4,376 real indoor scenes, with the average solution description of each task comprising 311 vocabulary terms. The dataset is sourced from five real 3D scene databases including ScanNet and HM3D, where task metadata was generated via GPT-4o and optimal scheduling schemes were calculated using optimization solvers. This dataset aims to address the efficiency optimization issue of embodied intelligence when executing multiple parallel tasks in the 3D physical world, and advance the synergistic development of language understanding, spatial perception and operational decision-making.
提供机构:
华中科技大学;小米公司
创建时间:
2025-11-25
原始信息汇总
数据集概述
基本信息
- 数据集名称: ORS3D-60K
- 任务类型: 基于运筹学知识的3D基础任务调度
- 数据规模: 60,000个复合任务,覆盖4,000个真实世界场景
- 发布机构: 华中科技大学、小米MiLM Plus
- 相关论文: Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution
任务特点
- 要求智能体通过语言理解、3D空间基础和效率优化的协同作用
- 强调利用可并行子任务最小化总完成时间
- 支持在3D物理世界中执行自然语言指令和高效动作
数据内容
- 包含大规模复合任务数据集
- 涵盖多种真实世界3D场景
- 支持语言理解、3D基础和调度效率的多模态评估
获取方式
- 数据集下载地址: https://huggingface.co/datasets/H-EmbodVis/ORS3D-60K
- 3D场景数据来源: https://github.com/scene-verse/SceneVerse/blob/main/DATA.md
发布时间
- 代码和数据集发布时间: 2025年11月24日
- 相关论文被AAAI 2026接收为口头报告(接收率约4.5%)
搜集汇总
数据集介绍

构建方式
在具身智能领域,高效任务调度对物理世界交互至关重要。ORS3D-60K数据集通过两阶段流程构建:首先基于ScanNet等五大真实场景数据集生成三维场景图,利用大语言模型提取子任务元信息并验证完整性;随后通过优化求解器计算并行化子任务的最优调度方案,最终转化为包含空间定位的自然语言指令。该过程引入时间扰动机制增强数据多样性,确保每项任务均融合运筹学约束与三维空间标注。
特点
该数据集在三维具身推理领域具有显著独特性。其核心创新在于首次引入运筹学知识,要求智能体识别可并行子任务以优化执行效率。数据集包含60,825项复合任务覆盖4,376个真实场景,平均文本长度达311词,对语言理解提出严峻挑战。任务复杂度呈阶梯分布,子任务数量从4至7不等,执行时间符合长尾分布,精准模拟了现实场景中任务调度的不确定性与多样性。
使用方法
研究者可通过该数据集训练智能体实现三维空间中的多模态推理。模型需同步处理点云数据与自然语言指令,识别可并行子任务并生成最优调度序列。具体流程包含三个阶段:首先解析任务属性并构建约束条件,随后调用优化算法生成最小完成时间的执行计划,最终输出融合目标物体三维定位的步骤描述。该方法可显著提升具身智能在家庭服务等场景下的任务执行效率。
背景与挑战
背景概述
ORS3D-60K数据集由华中科技大学与小米公司于2025年联合推出,聚焦于具身智能领域的任务调度问题。该数据集旨在解决传统方法在三维物理世界中忽略运筹学知识与空间定位的局限性,通过融合自然语言理解、三维场景感知与效率优化,推动智能体执行复杂复合任务的能力发展。其核心研究问题在于如何利用并行子任务特性最小化总完成时间,例如在微波炉运行期间同步清洁水槽,从而显著提升任务执行效率。该数据集的发布为三维多模态大语言模型的研究提供了关键支撑,促进了具身智能在真实环境中的实用化进程。
当前挑战
ORS3D-60K面临的领域挑战主要体现为三维具身任务调度的高复杂度:首先,智能体需基于运筹学知识识别可并行执行的子任务,并生成全局最优调度方案,这对传统序列化任务规划方法构成根本性突破;其次,模型必须同时完成动作描述生成与目标物体的三维空间定位,实现语言理解与空间感知的深度融合。在构建过程中,数据集需从多源真实场景点云中提取语义信息,并通过优化算法生成多样化调度策略,其长文本描述(平均311词)与细粒度物体标注进一步增加了数据质量控制的难度。
常用场景
经典使用场景
在具身智能研究领域,ORS3D-60K数据集为并行任务执行提供了标准评估基准。该数据集通过整合运筹学知识,要求智能体在三维物理环境中同时处理语言理解、空间感知和效率优化三大核心挑战。典型应用场景涉及厨房整理、房间清洁等复合任务,智能体需要识别可并行执行的子任务并制定最优时间调度方案,例如在微波炉加热食物的等待期间清洗水槽,显著提升任务执行效率。
实际应用
在家庭服务机器人等实际应用场景中,ORS3D-60K指导的智能体展现出显著优势。通过运筹学驱动的任务调度,机器人能够自主规划家务执行顺序,如在洗碗机运行期间擦拭台面、整理橱柜。这种并行执行策略使得整体任务完成时间缩短约39%,大幅提升家庭自动化效率。该能力还可扩展至工业巡检、仓储管理等需要多任务协同的领域,为复杂环境下的智能决策提供可靠技术路径。
衍生相关工作
基于ORS3D-60K的创新范式,研究者提出了GRANT模型架构,其核心调度令牌机制开创了外部优化器与多模态大语言模型协同的先河。该工作启发了后续研究如动态规划与神经网络融合的调度算法、三维视觉-语言-动作的端到端学习框架等方向。这些衍生工作共同推进了具身智能在复杂场景下的认知决策能力,为多模态任务规划领域建立了新的技术范式与评估标准。
以上内容由遇见数据集搜集并总结生成



