five

Helvipad

收藏
github2024-12-13 更新2024-12-14 收录
下载链接:
https://github.com/vita-epfl/Helvipad
下载链接
链接失效反馈
官方服务:
资源简介:
Helvipad是一个用于全方位立体深度估计的真实世界数据集,包含来自不同环境(如拥挤的室内和室外场景)的40K帧视频序列,具有多样的光照条件。数据集使用两个360°摄像头和一个LiDAR传感器收集,包含精确的深度和视差标签,并通过深度补全提供了增强的训练集。

Helvipad is a real-world dataset designed for omnidirectional stereo depth estimation. It contains 40,000 frame video sequences sourced from diverse environments including crowded indoor and outdoor scenes, with varied lighting conditions. Collected using two 360° cameras and one LiDAR sensor, the dataset features precise depth and disparity labels, and provides an enhanced training set via depth completion.
创建时间:
2024-11-25
原始信息汇总

Helvipad: A Real-World Dataset for Omnidirectional Stereo Depth Estimation

摘要

Helvipad是一个用于全方位立体深度估计的真实世界数据集,包含来自不同环境(包括拥挤的室内和室外场景)的40K帧视频序列,具有多样的光照条件。数据集使用两个360°摄像头(上下设置)和一个LiDAR传感器采集,包含通过将3D点云投影到等距图像上生成的精确深度和视差标签。此外,还提供了通过深度补全增强的训练集,显著增加了标签密度。

数据集结构

数据集分为训练和测试子集,结构如下:

helvipad/ ├── train/ │ ├── depth_maps # 从LiDAR数据生成的深度图 │ ├── depth_maps_augmented # 使用深度补全增强的深度图 │ ├── disparity_maps # 从深度图计算的视差图 │ ├── disparity_maps_augmented # 使用深度补全增强的视差图 │ ├── images_top # 顶部摄像头的RGB图像 │ ├── images_bottom # 底部摄像头的RGB图像 │ ├── LiDAR_pcd # 原始LiDAR点云数据 ├── test/ │ ├── depth_maps # 从LiDAR数据生成的深度图 │ ├── disparity_maps # 从深度图计算的视差图 │ ├── images_top # 顶部摄像头的RGB图像 │ ├── images_bottom # 底部摄像头的RGB图像 │ ├── LiDAR_pcd # 原始LiDAR点云数据

基准测试

评估了多种最先进的立体匹配方法在标准和360°图像上的性能。所有模型均在单个NVIDIA A100 GPU上训练,使用尽可能大的批量大小以确保计算资源的可比性。

方法 类型 视差MAE (°) 视差RMSE (°) 视差MARE 深度MAE (m) 深度RMSE (m) 深度MARE
PSMNet 立体 0.33 0.54 0.20 2.79 6.17 0.29
360SD-Net 360° 立体 0.21 0.42 0.18 2.14 5.12 0.15
IGEV-Stereo 立体 0.22 0.41 0.17 1.85 4.44 0.15
360-IGEV-Stereo 360° 立体 0.18 0.39 0.15 1.77 4.36 0.14

下载

数据集可在HuggingFace Hub下载。

引用

如果使用Helvipad数据集进行研究,请引用以下论文: bibtex @misc{zayene2024helvipad, author = {Zayene, Mehdi and Endres, Jannik and Havolli, Albias and Corbière, Charles and Cherkaoui, Salim and Ben Ahmed Kontouli, Alexandre and Alahi, Alexandre}, title = {Helvipad: A Real-World Dataset for Omnidirectional Stereo Depth Estimation}, year = {2024}, eprint = {2403.16999}, archivePrefix = {arXiv}, primaryClass = {cs.CV} }

许可证

该数据集基于Creative Commons Attribution-ShareAlike 4.0 International License许可。

搜集汇总
数据集介绍
main_image_url
构建方式
Helvipad数据集的构建基于现实世界的多场景视频序列,涵盖了室内外复杂环境及多样光照条件。该数据集通过顶部和底部360°相机以及LiDAR传感器采集数据,生成40,000帧图像。深度图和视差图通过将LiDAR点云投影到等距柱状图像上获得,并利用深度补全技术增强了标签密度,形成了训练集和测试集。
使用方法
使用Helvipad数据集时,用户可以访问训练和测试子集,分别包含深度图、视差图、RGB图像和LiDAR点云数据。数据集适用于标准和全方位立体深度估计模型的训练与评估,用户可通过HuggingFace Hub下载数据集,并参考项目页面获取更多信息和可视化内容。
背景与挑战
背景概述
在立体深度估计领域,尽管已有显著进展,但全方位成像(omnidirectional imaging)仍处于探索初期,主要原因在于缺乏合适的数据集。为此,EPFL的VITA实验室于2024年推出了Helvipad数据集,旨在填补这一空白。该数据集由4万帧视频序列组成,涵盖了室内外复杂环境,包括拥挤场景和多样化的光照条件。通过使用顶部和底部360°相机以及LiDAR传感器采集数据,Helvipad不仅提供了精确的深度和视差标签,还通过深度补全技术增强了标签密度。该数据集的发布为全方位立体深度估计模型的研究提供了宝贵的资源,推动了该领域的发展。
当前挑战
Helvipad数据集的构建面临多重挑战。首先,全方位成像的复杂性使得深度估计的精度难以保证,尤其是在处理复杂场景和光照变化时。其次,数据采集过程中需要协调多个传感器(如360°相机和LiDAR),确保数据同步和一致性。此外,深度补全技术的应用虽然提高了标签密度,但也引入了额外的计算复杂性和误差来源。最后,现有立体深度估计模型在处理全方位图像时表现不佳,需要进一步的模型适应和优化。这些挑战共同构成了Helvipad数据集在推动全方位立体深度估计研究中的主要障碍。
常用场景
经典使用场景
Helvipad数据集在全方位立体深度估计领域展现了其经典应用场景。该数据集通过整合来自两个360°摄像头和LiDAR传感器的数据,提供了丰富的室内外环境下的深度和视差标签。这些数据不仅适用于训练和测试立体深度估计模型,还能有效评估模型在复杂光照和拥挤场景中的表现,从而推动全方位立体视觉技术的进步。
解决学术问题
Helvipad数据集解决了全方位立体深度估计领域中数据稀缺的关键问题。通过提供40K帧的高质量视频序列,该数据集填补了全方位图像深度估计研究的空白,使得研究人员能够开发和验证新的算法。其深度和视差标签的精确性,以及通过深度补全技术增强的训练集,显著提升了模型的性能,为全方位立体视觉研究提供了坚实的基础。
实际应用
Helvipad数据集在实际应用中具有广泛潜力,特别是在自动驾驶、机器人导航和虚拟现实等领域。通过提供全方位视角的深度信息,该数据集支持开发更精确的环境感知系统,帮助车辆和机器人在复杂环境中安全导航。此外,其在虚拟现实中的应用可以提升用户的沉浸体验,为全方位视觉技术的商业化提供了有力支持。
数据集最近研究
最新研究方向
在立体深度估计领域,尽管传统方法已取得显著进展,但全向立体深度估计仍是一个相对未被充分探索的领域。Helvipad数据集的引入填补了这一空白,通过提供包含40K帧视频序列的真实世界数据,涵盖了多样化的室内外场景及光照条件。该数据集不仅包含由LiDAR生成的精确深度和视差标签,还通过深度补全技术增强了标签密度,为模型训练提供了更丰富的数据支持。最新研究表明,尽管现有立体深度估计模型在标准图像上表现良好,但在全向图像上的深度估计仍面临显著挑战。为此,研究者们正致力于对现有模型进行必要的适应性调整,以提升其在全向立体深度估计中的性能,推动该领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作