PRISM
收藏Hugging Face2025-06-04 更新2025-06-05 收录
下载链接:
https://huggingface.co/datasets/allenai/PRISM
下载链接
链接失效反馈官方服务:
资源简介:
PRISM(Purpose-driven Robotic Interaction in Scene Manipulation)是一个面向任务抓取的大型合成数据集,特色为杂乱环境下的多样化、真实任务描述。该数据集使用了2365个来自ShapeNet-Sem的物体实例和ACRONYM中的稳定抓取,构成了10000个独特且多样化的场景。每个场景中捕获了10个视图,其中包含多个要执行的任务。这总共产生了379k个任务-抓取样本。
提供机构:
Allen Institute for AI
创建时间:
2025-06-03
搜集汇总
数据集介绍

构建方式
PRISM数据集构建于机器人抓取领域,采用大规模合成方法生成。该数据集整合了ShapeNet-Sem中的2365个物体实例,并结合ACRONYM提供的稳定抓取姿态,构建了10000个独特且多样化的杂乱场景。每个场景中捕获10个视角,每个视角内包含多项任务,最终形成总计379000个任务抓取样本,确保了数据的丰富性和真实性。
特点
PRISM数据集以其大规模和高多样性著称,涵盖杂乱环境下的任务导向抓取场景。数据集提供RGB图像、点云、分割掩码及相机参数等多模态数据,并附带详细的任务描述和抓取标注。其独特的结构化HDF5文件格式,使得每个样本均包含完整的视觉信息与任务元数据,为复杂抓取任务的研究提供了坚实基础。
使用方法
使用PRISM数据集时,研究人员可通过HuggingFace Hub下载元数据文件及对应的压缩数据包。数据集支持通过提供的Python脚本构建图像-任务-抓取点对应关系,生成适用于模型训练的标准格式。用户可灵活提取RGB图像、点云及任务描述,结合抓取姿态信息,进行任务导向的抓取预测模型训练与评估。
背景与挑战
背景概述
PRISM数据集由Allen AI研究院于2024年推出,专注于机器人任务导向抓取领域。该数据集整合了ShapeNet-Sem的2365个物体实例和ACRONYM的稳定抓取数据,构建了包含10,000个独特场景的大规模合成数据集。其核心研究在于解决复杂场景下的多模态任务理解与抓取规划问题,通过融合视觉、文本和三维几何信息,推动机器人操作技能向更高层次的语义理解发展,对具身智能和机器人学习领域产生深远影响。
当前挑战
PRISM数据集致力于解决任务导向抓取中环境感知与语义理解的协同挑战,包括复杂遮挡场景下的物体识别、多模态任务指令的精确解析以及抓取姿态的语义合理性验证。在构建过程中面临三大技术难点:大规模合成场景的物理合理性保障、多视角数据采集的一致性维护,以及任务描述与抓取动作的精确对齐。这些挑战要求同时突破计算机视觉、自然语言处理和机器人学等多个领域的技术瓶颈。
常用场景
经典使用场景
在机器人抓取研究领域,PRISM数据集通过合成大规模杂乱环境下的多视角场景数据,为任务导向抓取算法提供了标准化测试平台。研究者利用其包含的37.9万个任务-抓取样本,训练视觉-语言模型理解自然语言指令与抓取动作的映射关系,显著提升了机器人对复杂任务场景的语义理解能力。
解决学术问题
该数据集有效解决了机器人操作中任务语义与物理抓取之间的关联性问题,为多模态学习提供了结构化标注。通过精确的抓取点标注和任务描述,支持端到端的抓取策略学习,推动了具身智能领域在三维视觉推理、语言 grounding 和动作规划等方向的交叉研究,填补了真实世界任务执行与仿真训练之间的数据鸿沟。
衍生相关工作
该数据集催生了诸如GraspMolmo等经典工作,这些研究探索了视觉-语言模型在机器人抓取任务中的应用。后续研究在此基础上发展了多模态融合网络、零样本抓取策略和实时决策系统,推动了任务导向抓取从仿真到实际部署的技术演进,为机器人操作社区提供了重要基准。
以上内容由遇见数据集搜集并总结生成



