five

Rel3D|3D空间关系数据集|机器人技术数据集

收藏
arXiv2020-12-03 更新2024-06-21 收录
3D空间关系
机器人技术
下载链接:
https://github.com/princeton-vl/Rel3D
下载链接
链接失效反馈
资源简介:
Rel3D是由普林斯顿大学创建的首个大规模人类标注的3D空间关系数据集。该数据集包含9990个3D场景,每个场景中包含两个物体,这些物体要么满足一个空间关系(主体-谓词-对象),要么不满足。数据集的内容包括深度、分割掩码、物体位置、姿态和尺度等丰富的几何和语义信息。创建过程涉及众包工作者在Amazon Mechanical Turk上根据指导操作物体,并由独立工作者验证空间关系是否成立。Rel3D的应用领域包括机器人导航、物体操作和人类机器人交互,旨在解决3D空间关系理解和预测的问题。
提供机构:
普林斯顿大学
创建时间:
2020-12-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
Rel3D数据集的构建采用了创新的众包方法,通过Amazon Mechanical Turk平台,众包工作者根据给定的空间关系指令在3D场景中操纵物体。数据集中的场景以最小对比对的形式呈现,即两个场景几乎完全相同,但其中一个场景满足特定的空间关系,而另一个则不满足。这种构建方式确保了数据集的多样性和准确性,同时减少了语言和2D视觉线索的偏差。
使用方法
Rel3D数据集的使用方法主要包括空间关系识别任务。输入为RGB图像、两个物体的边界框、类别标签以及它们之间的空间关系,模型需要预测该关系是否成立。数据集支持从3D信息中提取特征,如物体的3D位置、尺度和姿态,以训练神经网络进行高精度的空间关系预测。此外,数据集还可用于诊断现有模型对2D偏差的依赖,并通过最小对比对样本进行样本高效的训练。
背景与挑战
背景概述
Rel3D数据集由普林斯顿大学和密歇根大学的研究团队于2020年提出,旨在填补现有数据集在三维空间关系理解方面的空白。该数据集首次提供了大规模、高质量的三维空间关系标注,专注于解决空间关系(如“笔记本电脑在桌子上”)的识别问题。Rel3D通过合成三维场景,结合人类标注,提供了丰富的几何和语义信息,包括深度、分割掩码、物体位置、姿态和尺度等。该数据集的构建采用了最小对比数据收集方法,通过对比几乎相同的场景对,有效减少了数据集中的偏差。Rel3D的推出为三维空间关系理解的研究提供了重要工具,推动了机器人导航、物体操作和人机交互等领域的发展。
当前挑战
Rel3D数据集面临的挑战主要体现在两个方面。首先,空间关系识别本身具有高度复杂性,涉及物体之间的相对位置、姿态、尺度以及参考框架的多样性。现有的模型往往依赖于二维图像中的浅层线索,难以准确理解三维空间关系。其次,数据集的构建过程中,如何有效减少语言和二维空间线索的偏差是一个关键挑战。尽管Rel3D通过最小对比场景对的设计减少了偏差,但在实际应用中,模型仍需克服背景、纹理和光照等因素的干扰。此外,如何在有限的训练样本下实现高效的模型训练,也是该数据集面临的一个重要挑战。
常用场景
经典使用场景
Rel3D数据集在三维空间关系理解领域具有重要应用,尤其是在机器人导航、物体操作和人机交互等任务中。通过提供大规模、高质量的三维场景数据,Rel3D能够帮助模型更好地理解物体之间的空间关系,如‘笔记本电脑在桌子上’或‘瓶子在盒子里’。这些场景通过最小对比对的方式构建,确保模型能够准确区分空间关系的细微差别。
解决学术问题
Rel3D解决了现有数据集中缺乏大规模三维标注信息的问题,尤其是在空间关系理解任务中。传统数据集多依赖于二维图像,难以捕捉三维空间中的复杂关系。Rel3D通过提供精确的三维几何和语义信息,如深度、物体位置和姿态,使得模型能够更准确地预测空间关系。此外,最小对比对的构建方式有效减少了数据集中的语言和二维偏差,提升了模型的泛化能力。
实际应用
Rel3D的实际应用场景广泛,尤其是在机器人领域。例如,在机器人执行‘将瓶子放入盒子’的任务时,理解‘瓶子在盒子里’这一空间关系至关重要。此外,Rel3D还可用于增强现实(AR)和虚拟现实(VR)中的物体定位与交互,帮助系统更自然地理解和响应空间指令。其高质量的三维数据也为自动驾驶中的环境感知提供了有力支持。
数据集最近研究
最新研究方向
在三维空间关系理解领域,Rel3D数据集的推出标志着对空间关系识别研究的重要进展。该数据集通过提供大规模、高质量的三维场景数据,使得研究者能够深入探索三维信息在空间关系预测中的有效性。特别是,Rel3D引入了最小对比数据收集方法,这种方法通过构建几乎相同但空间关系成立与否的对比场景对,有效减少了数据集中的偏差,提高了模型的训练效率。此外,Rel3D的应用不仅限于传统的计算机视觉任务,还扩展到了机器人导航、物体操作和人机交互等领域,为这些领域提供了新的研究工具和方法。通过这些创新,Rel3D为未来的研究开辟了新的方向,特别是在如何更有效地利用三维信息来理解和预测复杂的空间关系方面。
相关研究论文
  • 1
    Rel3D: A Minimally Contrastive Benchmark for Grounding Spatial Relations in 3D普林斯顿大学 · 2020年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录