vehicle collision trajectory dataset
收藏arXiv2025-03-26 更新2025-03-28 收录
下载链接:
http://arxiv.org/abs/2503.20654v1
下载链接
链接失效反馈官方服务:
资源简介:
本研究构建了一个基于真实世界车辆事故报告的车辆碰撞轨迹数据集。该数据集通过物理模拟器CARLA生成,利用事故报告中的物理线索和情境信息,模拟出车辆碰撞后的轨迹。数据集用于微调大型语言模型LLaMA,使其能够根据用户描述生成与现实世界一致的车辆碰撞轨迹。数据集的应用领域主要在于增强自动驾驶系统对安全关键事件的应对能力,解决现有数据集中碰撞场景的稀缺问题。
This study constructs a vehicle collision trajectory dataset based on real-world vehicle accident reports. This dataset is generated using the CARLA physics simulator, which simulates post-collision vehicle trajectories by leveraging physical cues and contextual information extracted from accident reports. This dataset is utilized to fine-tune the Large Language Model LLaMA, enabling it to generate vehicle collision trajectories consistent with real-world conditions based on user-provided descriptions. The primary application scope of this dataset lies in enhancing the response capabilities of autonomous driving systems towards safety-critical events, addressing the shortage of collision scenarios in existing datasets.
提供机构:
悉尼大学
创建时间:
2025-03-26
搜集汇总
数据集介绍

构建方式
在自动驾驶研究领域,车辆碰撞数据的稀缺性一直是制约算法发展的瓶颈。AccidentSim创新性地从真实事故报告中提取物理线索和上下文信息,通过CARLA物理引擎精确模拟碰撞后车辆轨迹。研究团队采用多阶段构建流程:首先基于Llama-3.1-8B模型解析事故报告,提取速度、碰撞角度等关键参数;随后在CARLA中重建三维道路环境并模拟符合物理规律的碰撞过程;最终通过NeRF技术渲染高保真背景,与物理模拟的前景车辆合成具有物理真实性的碰撞视频。这种结合语义解析、物理仿真与神经渲染的混合建模方法,有效解决了传统生成方法缺乏物理约束的缺陷。
特点
该数据集的核心价值在于其物理真实性与场景多样性。通过严格遵循动量守恒等物理定律,数据集中的碰撞轨迹精确再现了真实世界的动力学特性,包括车辆旋转、滑行等复杂运动模式。数据集覆盖了交叉路口、T型路口等多种道路类型,以及正面碰撞、侧向碰撞等不同碰撞角度,共包含4000个训练场景和1000个测试场景。特别值得注意的是,数据集通过语言模型实现了场景参数的可控生成,用户可通过自然语言描述定制特定碰撞场景。与Waymo等现有数据集相比,其碰撞轨迹的平均L2误差降低37%,物理一致性误差减少42%,为自动驾驶系统的安全测试提供了高保真度的基准数据。
使用方法
该数据集主要服务于自动驾驶系统的安全性能测试与算法优化。研究人员可通过两种方式利用该资源:其一,直接加载预生成的碰撞场景用于端到端模型的对抗训练,如实验表明使用该数据训练的SAC算法碰撞率降低47.9%;其二,通过AccidentLLM语言模型接口,输入自然语言描述(如'湿滑路面的60度侧面碰撞')实时生成定制化场景。数据集提供完整的API支持,包括场景加载、物理参数查询和轨迹可视化功能。在使用过程中需注意,由于涉及高风险场景仿真,建议在CARLA等封闭仿真环境中进行验证,同时配合场景重建率(SRR)和物理一致性误差等指标进行结果验证,以确保仿真结果的可靠性。
背景与挑战
背景概述
随着自动驾驶技术的迅猛发展,对多样化训练数据的需求日益凸显,尤其是在车辆碰撞等异常事件的数据获取方面面临严峻挑战。由悉尼大学Xiangwen Zhang等人于2025年提出的车辆碰撞轨迹数据集(Vehicle Collision Trajectory Dataset),作为AccidentSim框架的核心组成部分,旨在通过物理模拟器从真实事故报告中提取关键动力学参数,生成具有物理真实性的碰撞轨迹数据。该数据集创新性地结合了大型语言模型与CARLA物理引擎,解决了传统驾驶数据集在罕见碰撞场景数据匮乏的问题,为自动驾驶系统在安全关键场景下的决策能力提升提供了重要数据支撑。其研究成果发表于计算机视觉顶会论文,标志着基于物理约束的事故场景生成技术取得重要突破。
当前挑战
在解决自动驾驶领域碰撞场景数据稀缺的核心挑战时,该数据集面临双重难题:其一,真实碰撞事件的低发生率与高采集成本导致原始数据获取困难,现有数据集普遍存在'稀有性诅咒'现象;其二,构建过程中需攻克多模态数据融合的技术壁垒,包括从非结构化事故报告提取精准物理参数(如碰撞角度、动量等)、在CARLA仿真器中实现符合牛顿力学的轨迹模拟,以及通过LoRA方法对LLaMA模型进行轨迹预测微调。特别值得注意的是,确保生成轨迹在三维空间中的物理一致性(如动量守恒与冲击力计算)成为验证数据集有效性的关键指标,这需要复杂的物理引擎计算与真实事故数据的反复校准。
常用场景
经典使用场景
在自动驾驶研究领域,vehicle collision trajectory dataset为解决碰撞场景数据稀缺问题提供了重要支持。该数据集通过从真实事故报告中提取物理线索,结合CARLA仿真器生成具有物理真实性的碰撞轨迹,为训练和测试自动驾驶系统在极端情况下的反应能力提供了丰富样本。数据集特别适用于研究车辆碰撞后的运动轨迹预测、碰撞避免算法优化等关键问题,填补了现有驾驶数据集中异常事件数据的空白。
解决学术问题
该数据集有效解决了自动驾驶研究中'稀有性诅咒'(Curse of Rarity)这一核心难题。通过生成大量物理真实的碰撞场景,它使深度学习模型能够学习处理罕见但安全关键的碰撞事件。数据集提供的精确碰撞后轨迹信息,帮助研究人员验证动量守恒、冲量变化等物理规律在碰撞场景中的表现,为开发符合物理规律的碰撞预测算法奠定了数据基础。同时,它也为评估自动驾驶系统在极端情况下的安全性提供了标准化测试平台。
衍生相关工作
该数据集推动了多项相关研究的发展。基于其物理仿真框架,研究者开发了AccidentLLM等专用语言模型,能够根据自然语言描述生成物理一致的碰撞轨迹。在SoVAR、ChatScene等工作中,该数据集的方法论被扩展应用于更广泛的事故场景重建。NeuroNCAP等安全测试系统也借鉴了其物理约束方法,提高了虚拟测试场景的真实性。这些衍生工作共同推动了自动驾驶安全研究的进步。
以上内容由遇见数据集搜集并总结生成



