five

JRDB|机器人视觉感知数据集|自主导航数据集

收藏
arXiv2021-04-24 更新2024-06-21 收录
机器人视觉感知
自主导航
下载链接:
https://jrdb.stanford.edu
下载链接
链接失效反馈
资源简介:
JRDB是由斯坦福大学视觉与学习实验室创建的一个新颖的自我中心数据集,专门用于研究在建筑环境中机器人的视觉感知。该数据集包含64分钟的标注多模态传感器数据,包括立体圆柱形360°RGB视频、3D点云、音频信号等。数据集涵盖了室内环境和行人区域等传统上代表性不足的场景,所有数据都是从机器人的自我视角收集的,无论是静止还是导航状态。JRDB数据集已被用于2D和3D人体检测和跟踪的基准测试,旨在为自我中心机器人视觉、自主导航和社交机器人在人类环境中的感知任务研究提供新的数据源和测试平台。
提供机构:
斯坦福大学视觉与学习实验室
创建时间:
2019-10-25
AI搜集汇总
数据集介绍
main_image_url
构建方式
JRDB数据集通过其社交移动操作平台JackRabbot收集,涵盖了64分钟的标注多模态传感器数据。数据集包括立体圆柱形360°RGB视频、两个16线Velodyne LiDAR的3D点云、两个Sick LiDAR的线3D点云、音频信号、RGB-D视频、鱼眼相机生成的360°球面图像以及机器人轮子的编码器值。数据集特别关注室内环境和行人区域,这些场景在以往的数据集中较少被覆盖。通过这些多模态数据,JRDB数据集提供了超过240万个2D边界框和180万个关联的3D立方体框,总计超过3500个时间一致的轨迹。
特点
JRDB数据集的独特之处在于其多模态数据的丰富性和场景的多样性。数据集不仅包括传统的室外场景,还特别强调了室内环境和行人区域,这些场景对于社交机器人和自主导航尤为重要。此外,数据集的高密度标注和时间一致性轨迹为研究提供了丰富的资源。JRDB数据集的挑战性在于其高度的动态性和复杂性,包括人群密集、遮挡频繁以及机器人自身的运动,这些都对感知算法提出了更高的要求。
使用方法
JRDB数据集适用于多种计算机视觉和机器人感知任务,包括2D和3D人体检测与跟踪。研究者可以使用数据集中的多模态数据,如RGB视频、3D点云和音频信号,来开发和评估新的感知算法。数据集提供了详细的标注和基准测试,帮助研究者在真实世界环境中验证其算法的有效性。此外,JRDB数据集还支持多目标跟踪、场景理解和行为预测等高级任务,为社交机器人和自主导航系统的研究提供了宝贵的资源。
背景与挑战
背景概述
JRDB(JackRabbot Dataset and Benchmark)是一个由斯坦福大学视觉与学习实验室创建的新型以自我为中心的数据集,专注于构建环境中的人类机器人视觉感知。该数据集由Roberto Martín-Martín、Mihir Patel、Hamid Rezatofighi等研究人员于2020年推出,旨在填补机器人视觉和计算机视觉领域在室内外以自我为中心的多模态注释数据方面的空白。JRDB数据集包含了64分钟的注释多模态传感器数据,包括立体圆柱形360°RGB视频、两个16线Velodyne LiDAR的3D点云、两个Sick Lidar的线3D点云、音频信号、RGB-D视频、鱼眼相机生成的360°球面图像以及机器人轮子的编码器值。数据集特别关注传统上代表性不足的场景,如室内环境和行人区域,所有数据均从机器人(JackRabbot)的自我视角收集,无论是在静止还是导航状态下。JRDB数据集的注释包括超过240万个2D边界框和180万个关联的3D立方体,总计超过3500个时间一致的轨迹。该数据集的推出旨在为以自我为中心的机器人视觉、自主导航以及人类环境中社会机器人的所有感知任务提供新的数据源和测试平台。
当前挑战
JRDB数据集在构建和应用过程中面临多项挑战。首先,数据集解决了以自我为中心的机器人视觉感知中的关键问题,特别是在动态人类环境中导航和交互的需求。构建过程中,研究人员必须处理多模态传感器数据的同步和校准,确保数据的准确性和一致性。此外,注释过程涉及对复杂场景中的人类进行高精度的2D和3D边界框标注,这是一个耗时且技术要求高的任务。应用方面,数据集的挑战包括在高度拥挤和部分遮挡的场景中进行准确的2D和3D人物检测与跟踪,这对现有算法提出了严峻的考验。数据集的独特性在于其涵盖了室内外多种环境,要求算法能够在不同光照条件、距离和遮挡情况下保持高性能。这些挑战为机器人视觉和计算机视觉领域的研究提供了新的方向和机遇。
常用场景
经典使用场景
JRDB数据集的经典使用场景主要集中在社交机器人和自主导航代理在人类环境中进行视觉感知的研究。该数据集通过提供多模态传感器数据,包括360°立体全景视频、3D点云、音频信号等,支持2D和3D人体检测与跟踪任务。这些任务对于机器人在复杂室内外环境中安全导航和与人类互动至关重要。
衍生相关工作
JRDB数据集的发布催生了一系列相关研究工作,特别是在2D和3D人体检测与跟踪领域。例如,基于JRDB的2D人体检测算法如YOLOv3、RetinaNet和Faster R-CNN的研究,以及3D人体检测算法如Frustum PointNet和TANet的改进。此外,JRDB还促进了多目标跟踪算法如DeepSORT、JRMOT和Tracktor的研究,这些算法在处理复杂遮挡和长距离跟踪方面取得了显著进展。
数据集最近研究
最新研究方向
在社交机器人和自主导航领域,JRDB数据集的最新研究方向主要集中在提升多模态传感器融合下的2D和3D人体检测与跟踪性能。研究者们致力于开发能够在复杂室内外环境中有效感知和理解人类行为的算法,以应对高密度人群、频繁遮挡和动态环境变化等挑战。此外,研究还关注于如何利用JRDB数据集中的丰富标注信息,如2D和3D边界框、遮挡属性和时间一致轨迹,来改进现有算法的鲁棒性和准确性。这些研究不仅推动了机器人视觉感知技术的发展,也为社交机器人在实际应用中的安全性和可靠性提供了重要支持。
相关研究论文
  • 1
    JRDB: A Dataset and Benchmark of Egocentric Robot Visual Perception of Humans in Built Environments斯坦福大学视觉与学习实验室 · 2021年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

neuralcatcher/hateful_memes

The Hateful Memes Challenge数据集由Facebook AI创建,专注于检测多模态表情包中的仇恨言论,旨在推动和衡量多模态推理和理解方面的进展。数据集包含多种类型的训练和测试数据,每个示例包含文本、图像路径和标签,评估使用AUROC指标。

hugging_face 收录