BETTY数据集
收藏arXiv2025-05-12 更新2025-05-14 收录
下载链接:
https://pitt-mit-iac.github.io/betty-dataset/
下载链接
链接失效反馈官方服务:
资源简介:
BETTY数据集是一个大规模、多模态的数据集,旨在推动自动驾驶领域的研究。该数据集收集于多个自动驾驶赛车,包含了丰富的感知数据、车辆动力学数据、运动规划与预测数据,以及SLAM和GNSS相关任务的数据。数据集涵盖了6种不同的赛车环境,包括高速椭圆形赛道、高速道路赛道以及GPS拒止环境,用于单和多智能体算法评估。BETTY数据集提供了广泛的跨模态和动态数据,使得全自主栈管道的训练和测试成为可能,推动所有算法的性能达到极限。该数据集的发布,使得自动驾驶领域的研究人员能够更全面地评估和发展自动驾驶技术,推动自动驾驶技术的发展。
The BETTY dataset is a large-scale, multimodal dataset designed to advance research in the field of autonomous driving. Collected from multiple autonomous racing vehicles, it encompasses rich perception data, vehicle dynamics data, motion planning and prediction data, as well as data for tasks related to SLAM and GNSS. The dataset covers six distinct racing environments, including high-speed oval tracks, high-speed road courses, and GPS-denied environments, and is tailored for the evaluation of single- and multi-agent algorithms. The BETTY dataset provides extensive cross-modal and dynamic data, enabling the training and testing of full autonomous stack pipelines and pushing the performance of all applicable algorithms to their limits. The release of this dataset empowers researchers in the autonomous driving domain to more comprehensively evaluate and advance autonomous driving technologies, thereby further driving the development of autonomous driving-related technologies.
提供机构:
卡内基梅隆大学机器人学院
创建时间:
2025-05-12
搜集汇总
数据集介绍

构建方式
BETTY数据集通过多辆自主赛车平台在多样化赛道环境中采集数据,整合了外感知传感器(摄像头、激光雷达、雷达)与本体感知传感器(轮胎温度传感器、侧滑角传感器等),并同步记录自主驾驶软件栈的输入输出信号。数据采集历时4年,覆盖6种赛道类型,包括高速椭圆赛道与复杂山路环境,通过实时动态补偿与多传感器标定技术确保时空同步精度。数据集以ROS2数据包(mcap格式)和标准化文件(PNG、PCD、CSV)双轨存储,辅以半自动标注流程生成2D/3D真值标签。
特点
该数据集以极端动态场景为显著特征,包含时速63米的碰撞数据、轮胎失稳状态及稳定性极限操作记录,填补了现有自动驾驶数据集中在高速动态交互与车辆动力学建模的空白。其多模态覆盖度超越主流数据集,独家提供原始GNSS观测值、轮胎温度/压力等17类车辆状态信号,并附加赛道语义元数据(光照条件、控制指令等)。13小时32TB的数据量支持从感知到控制的完整自主驾驶栈验证,尤其适合研究高加速度环境下的算法鲁棒性。
使用方法
研究者可通过模块化下载接口按需获取特定传感器数据或完整场景包,利用配套的校准参数与高清LiDAR地图进行基准测试。数据集支持三类典型应用:1)多模态融合算法开发,如激光雷达-雷达-摄像头跨模态目标检测;2)动力学模型校准,基于轮胎状态与悬架数据优化控制策略;3)端到端系统验证,通过轨迹真值评估定位-规划-控制链路的时延与精度。提供的ROS2回放工具与KITTI格式标注可实现与传统计算机视觉管道的快速对接。
背景与挑战
背景概述
BETTY数据集是由卡内基梅隆大学机器人研究所、摩德纳雷焦艾米利亚大学、匹兹堡大学等机构的研究团队于2025年发布的面向全栈自动驾驶的多模态数据集。该数据集以自主赛车Betty命名,旨在解决现有自动驾驶数据集在动态建模、状态估计和极端工况数据覆盖不足的问题。数据集包含13小时32TB的赛道实测数据,覆盖6种高动态赛道环境,集成外感传感器(相机、激光雷达、雷达)、本体传感器(轮胎温度、侧滑角等)及自主决策数据(规划轨迹、控制指令等),填补了赛车领域高精度多模态数据的空白。
当前挑战
该数据集针对自主赛车领域的两大核心挑战:1) 在极端动态工况(如63m/s碰撞、轮胎失稳)下的跨模态算法验证,需解决高加速度环境中的感知延迟、GNSS拒止条件下的定位等传统数据集未覆盖的问题;2) 数据构建过程中面临多传感器时空同步(平均同步误差2.8ms)、高动态场景标注(通过Grounding DINO与PointPillars融合实现自动标注)、以及RTK-GNSS厘米级精度维护等技术难点。此外,赛车特有的保密传统导致真实赛道数据稀缺,使得该数据集成为首个公开包含轮胎动力学与车辆控制全链路信息的赛道级基准。
常用场景
经典使用场景
BETTY数据集作为多模态自动驾驶赛车数据集,其经典使用场景主要集中在高速动态环境下的算法验证与系统开发。在赛车领域,车辆常处于极限操控状态,如高速过弯、紧急制动等,这对感知、状态估计和控制系统提出了极高要求。BETTY数据集通过提供包括相机、LiDAR、雷达在内的多传感器数据,以及车辆动力学信息(如轮胎温度、滑移角等),为研究人员构建了一个接近真实赛车场景的测试平台。特别适用于验证算法在高速、高加速度环境下的鲁棒性,例如多模态传感器融合算法在极端条件下的性能表现。
解决学术问题
BETTY数据集解决了自动驾驶赛车领域多个关键学术问题。首先,它填补了现有数据集中动力学信息缺失的空白,为车辆状态估计和动态建模提供了丰富的数据支持。其次,通过提供完整的软件栈输入输出数据,研究者可以更全面地评估算法在感知、规划和控制模块中的交互效果。此外,数据集中的多模态传感器数据和高精度地面真值(如RTK GNSS数据)为自监督学习和跨模态算法研究提供了可能。这些特性使得BETTY成为推动自动驾驶赛车算法从理论到实际应用的重要桥梁。
衍生相关工作
BETTY数据集已经衍生出多个经典研究工作。在感知领域,有研究利用其多模态数据开发了新型的传感器融合算法,如LiDAR与相机数据的实时配准方法。在控制领域,基于该数据集的车辆动态建模工作推动了自适应控制算法的发展,如针对轮胎非线性特性的改进MPC控制器。此外,数据集还被用于开发专门针对高速场景的状态估计算法,如结合GNSS和IMU的鲁棒定位系统。这些工作不仅验证了数据集的价值,也为自动驾驶赛车技术树立了新的研究标杆。
以上内容由遇见数据集搜集并总结生成



