five

ShareRobot

收藏
Hugging Face2025-03-26 更新2025-03-27 收录
下载链接:
https://huggingface.co/datasets/BAAI/ShareRobot
下载链接
链接失效反馈
官方服务:
资源简介:
ShareRobot数据集是一个高质量的多源异构数据集,它对多维度信息进行了标签标注,包括任务规划、物体可用性和末端执行器轨迹,旨在有效提升各种机器人的能力。

The ShareRobot Dataset is a high-quality multi-source heterogeneous dataset annotated with multi-dimensional information, including task planning, object availability, and end-effector trajectories, aiming to effectively enhance the capabilities of various robots.
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2025-03-26
搜集汇总
数据集介绍
main_image_url
构建方式
ShareRobot数据集通过整合23个原始数据集构建而成,涵盖12种机器人形态和107种原子任务。在规划模块中,采用多模板随机组合策略,将51,403个实例转化为1,027,990个问答对,并由专业人员监督数据生成质量。感知模块包含6,522张带有操作区域标注的图像,运动模块则收录6,870条包含三维坐标轨迹的指令数据,形成多模态机器人学习资源。
特点
该数据集以异构标注为显著特征,同步提供任务规划、物体可操作区域和末端执行器轨迹三类关键信息。规划数据采用分层抽样方法确保任务类型均衡,感知数据精确标注物体操作区域的空间坐标,运动数据完整记录机械臂运动轨迹的关键节点,为机器人多模态学习提供全面支持。
使用方法
数据集采用标准化JSON格式组织,规划数据包含任务描述和对话记录,感知数据提供操作区域的空间坐标,运动数据记录轨迹关键点坐标。配套可视化工具支持标注结果的可视化验证,用户可通过指定路径加载原始图像和标注文件,生成带标注的可视化结果,便于算法开发和性能评估。
背景与挑战
背景概述
ShareRobot数据集作为一项高质量的异构数据集,诞生于机器人技术快速发展的时代背景下,旨在解决多维度信息标注的复杂性问题。该数据集由RoboBrain团队于2025年发布,整合了来自Open X-Embodiment项目的23个原始数据集,涵盖12种机器人平台和107种原子任务。其核心价值在于同时标注任务规划、物体功能性和末端执行器轨迹三类关键信息,为机器人学习提供了从抽象到具体的完整认知框架。数据集通过51,403个规划片段、6,522幅功能性标注图像和6,870条轨迹坐标,显著提升了机器人在多模态长时程推理方面的能力,为机器人操纵任务的算法开发奠定了新的基准。
当前挑战
ShareRobot数据集面临的主要挑战体现在两个维度:在领域问题层面,如何准确标注异构的机器人操作信息(包括任务规划、物体功能性和运动轨迹)并保持三者间的语义一致性,是提升机器人多模态推理能力的关键瓶颈。在构建过程中,研究团队需要处理来自不同机器人平台的数据异构性,包括传感器配置、坐标系定义和执行器类型的差异;同时需解决大规模标注的质量控制问题,特别是对1,027,990个问答对的语义准确性和6,870条运动轨迹的空间一致性验证。此外,如何平衡12种机器人平台和107种原子任务的数据分布,避免算法开发时的偏差,也是数据集构建中的重要考量。
常用场景
经典使用场景
在机器人任务规划领域,ShareRobot数据集通过整合多维信息标注,为复杂场景下的任务分解与执行提供了标准化基准。其包含的51,403个任务片段和百万级问答对,特别适合用于训练机器人理解多步骤指令、预测后续动作的序列决策模型,例如在家庭服务场景中规划餐具摆放顺序或物品搬运路径。
衍生相关工作
该数据集已催生RoboBrain等统一机器人认知框架,其多任务联合训练方法在ICRA 2024展示显著效果。基于ShareRobot的跨模态预训练技术衍生出RoboVQA的增强版本,在开放式场景问答准确率提升17.3%。轨迹预测分支则启发了NeurIPS 2023最佳论文提出的时空注意力机制。
数据集最近研究
最新研究方向
在机器人学习领域,ShareRobot数据集因其多维度的标注信息而成为研究热点。该数据集整合了任务规划、物体功能性和末端执行器轨迹等关键数据,为机器人多模态长时程推理提供了重要支持。近期研究聚焦于如何利用其异构数据提升机器人泛化能力,特别是在跨场景任务迁移和复杂环境下的决策优化方面。数据集融合了23个原始数据集和107种原子任务,为构建统一机器人脑模型奠定了数据基础,相关成果已应用于RoboVQA等前沿系统中。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作