five

Waymo Open Dataset v2.0.0|自动驾驶数据集|LiDAR数据处理数据集

收藏
github2023-12-25 更新2024-05-31 收录
自动驾驶
LiDAR数据处理
下载链接:
https://github.com/yuminhhuang/waymo_open_dataset_loader
下载链接
链接失效反馈
资源简介:
用于LiDAR分割和范围图像投影的Waymo开放数据集v2的Pytorch数据集加载器。该工具将v2.0.0数据集中的`.parquet`文件转换为点云和语义及实例标签,适用于LiDAR扫描的可视化和使用Pytorch框架进行语义分割学习。

A PyTorch dataset loader for the Waymo Open Dataset v2, designed for LiDAR segmentation and range image projection. This tool converts `.parquet` files from the v2.0.0 dataset into point clouds along with semantic and instance labels, suitable for visualization of LiDAR scans and semantic segmentation learning using the PyTorch framework.
创建时间:
2023-12-22
原始信息汇总

数据集概述

数据集名称

  • Waymo Open Dataset v2.0.0

数据集用途

  • 用于LiDAR扫描的可视化
  • 用于使用Pytorch框架进行语义分割学习

数据集版本

  • v2.0.0

数据集内容

  • 训练集:
    • 798个序列
    • 158,081个点云数据
    • 23,691个关键点云数据
    • 23,691个语义和实例标签
  • 验证集:
    • 202个序列
    • 39,987个点云数据
    • 5,976个关键点云数据
    • 5,976个语义和实例标签
  • 测试集:
    • 16个序列
    • 3,101个点云数据

数据集预处理

  • 使用python preprocess.py /path/to/your/waymo/dataset进行预处理,生成包含点云和标签的预处理数据集。

数据集加载

  • 使用Waymo类从数据集中加载点云和标签数据。
  • 参数包括split(训练、验证或测试),has_image(是否加载图像,目前仅支持False),has_label(是否加载标签,影响加载的点云数量)。

数据集投影

  • 使用RangeProjection类将点云投影到范围图像。

Pytorch数据加载器

  • 使用WaymoLoader类创建Pytorch数据加载器,用于模型训练和推理。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Waymo Open Dataset v2.0.0的构建过程主要依赖于高精度的激光雷达(LiDAR)扫描技术,通过采集真实世界中的自动驾驶场景数据。数据集中的点云数据通过LiDAR扫描生成,并经过预处理转换为`.parquet`文件格式,以便于后续的点云和语义标签的提取。预处理过程中,数据集被划分为训练集、验证集和测试集,每个集合包含多个序列的点云数据及其对应的语义和实例标签。此外,数据集中还包含了每个点云的校准信息和姿态信息,这些信息在后续的投影和定位任务中具有重要应用。
特点
Waymo Open Dataset v2.0.0的特点在于其丰富的数据类型和高精度的标注信息。数据集不仅提供了大量的点云数据,还包含了详细的语义和实例标签,这些标签对于自动驾驶中的目标检测和场景理解至关重要。此外,数据集还提供了LiDAR扫描的校准信息和姿态信息,这些信息可以用于更复杂的任务,如里程计和定位。数据集的另一个显著特点是其支持多种数据格式的转换和投影,例如将点云数据投影为范围图像(Range Image),这为深度学习模型的训练和推理提供了极大的便利。
使用方法
使用Waymo Open Dataset v2.0.0时,首先需要从指定的存储位置下载数据集,并通过预处理脚本将原始数据转换为适合训练的格式。预处理后的数据集包含点云、语义标签和实例标签,用户可以通过自定义的Python脚本加载这些数据。数据集支持多种加载方式,包括直接加载点云数据或将其投影为范围图像。此外,数据集还提供了Pytorch数据加载器,用户可以通过简单的API调用加载数据并进行模型训练或推理。数据集的灵活性和丰富的功能使其成为自动驾驶研究中不可或缺的工具。
背景与挑战
背景概述
Waymo Open Dataset v2.0.0是由Waymo公司于2020年发布的一个开放数据集,旨在推动自动驾驶领域的研究与发展。该数据集包含了大量的LiDAR点云数据、语义标签和实例标签,涵盖了多种复杂的驾驶场景。Waymo作为自动驾驶技术的先驱,通过该数据集为研究人员提供了丰富的真实世界数据,支持LiDAR分割、目标检测、语义分割等任务的研究。该数据集的发布不仅加速了自动驾驶算法的开发,还为学术界和工业界提供了宝贵的资源,推动了自动驾驶技术的进步。
当前挑战
Waymo Open Dataset v2.0.0在解决自动驾驶领域的核心问题时面临多重挑战。首先,LiDAR点云数据的处理与标注需要极高的精度和计算资源,尤其是在复杂的城市环境中,如何准确分割和识别动态目标(如行人、车辆)是一个技术难点。其次,数据集的构建过程中,如何确保数据的多样性和代表性,以覆盖各种驾驶场景和天气条件,也是一个重要的挑战。此外,数据预处理和投影过程中,如何高效地将点云数据转换为范围图像(Range Image)并保持信息的完整性,也对算法的设计和实现提出了较高的要求。这些挑战不仅考验了数据处理的技术能力,也对自动驾驶算法的鲁棒性和泛化能力提出了更高的标准。
常用场景
经典使用场景
Waymo Open Dataset v2.0.0 在自动驾驶领域中被广泛用于激光雷达(LiDAR)数据的语义分割和实例分割任务。该数据集通过提供高精度的点云数据和对应的语义标签,使得研究人员能够在复杂的城市环境中进行精确的目标检测和场景理解。其经典使用场景包括自动驾驶车辆的感知系统开发,特别是在多目标跟踪、道路障碍物识别和动态环境建模等方面。
衍生相关工作
基于 Waymo Open Dataset v2.0.0,许多经典的研究工作得以展开。例如,研究人员开发了多种基于深度学习的激光雷达点云分割算法,如 PointNet++ 和 RangeNet++,这些算法在该数据集上取得了显著的性能提升。此外,该数据集还催生了许多关于多传感器融合、动态场景理解和自动驾驶决策系统的研究,进一步推动了自动驾驶技术的发展。
数据集最近研究
最新研究方向
Waymo Open Dataset v2.0.0作为自动驾驶领域的重要数据集,近年来在LiDAR点云语义分割和实例分割研究中占据重要地位。随着深度学习技术的快速发展,研究者们逐渐将注意力转向如何更高效地处理大规模点云数据,并提升语义分割的精度。当前的研究热点包括基于范围图像投影的点云数据处理方法,以及如何利用多模态数据(如LiDAR与相机数据)进行联合学习。此外,数据增强技术和自监督学习方法也被广泛应用于提升模型的泛化能力。这些研究方向不仅推动了自动驾驶感知系统的进步,也为其他领域的3D视觉任务提供了重要参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录