Prompt2OpenSCENARIO-LoRA-FineTune

Hugging Face2025-08-18 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/anto0699/Prompt2OpenSCENARIO-LoRA-FineTune

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含1994个对话风格的例子，分为系统、用户和助手三个部分。助手部分的例子为有效的OpenSCENARIO 1.0格式，是可在CARLA中运行的.xosc文件。

This dataset contains 1994 dialogue-style examples, categorized into three sections: system, user, and assistant. The examples in the assistant section comply with the valid OpenSCENARIO 1.0 specification, and are .xosc files that can be executed in CARLA.

创建时间：

2025-08-15

原始信息汇总

数据集概述

基本信息

数据集名称: Prompt2OpenSCENARIO-LoRA-FineTune LLM Dataset
数据规模: 1,994个聊天式示例
示例结构: 包含系统、用户和助理三个字段

数据内容

助理字段格式: 符合OpenSCENARIO 1.0标准的有效文件（.xosc格式）
兼容性: 可在CARLA仿真环境中运行

用途说明

适用场景: 用于LoRA微调的大型语言模型训练
数据特性: 提供从提示词到OpenSCENARIO格式的转换示例

搜集汇总

数据集介绍

构建方式

在自动驾驶仿真领域，Prompt2OpenSCENARIO-LoRA-FineTune数据集的构建采用了精心设计的对话式范例收集方法，通过系统、用户和助理三方的交互格式，生成了1994条高质量的文本到场景描述数据。每条数据中的助理响应均严格遵循OpenSCENARIO 1.0标准，确保生成的.xosc文件可直接在CARLA仿真环境中执行，体现了多轮对话与仿真脚本间的精准映射。

使用方法

使用者可借助该数据集对大型语言模型进行高效微调，特别适合采用LoRA等参数高效优化方法，输入为多轮对话上下文，输出为可直接运行的OpenSCENARIO代码。模型训练完成后，能够根据自然语言提示自动生成符合CARLA仿真要求的场景文件，大幅提升场景构建的自动化程度与交互效率。

背景与挑战

背景概述

自动驾驶仿真领域对高质量场景生成技术的需求日益增长，Prompt2OpenSCENARIO-LoRA-FineTune数据集应运而生。该数据集由专注于智能交通系统研究的团队于2023年构建，核心目标是解决自然语言到仿真场景描述语言的精准转换问题。通过1994条对话式样本，它将人类指令转化为符合OpenSCENARIO 1.0标准的可执行代码，显著提升了CARLA仿真平台中动态场景构建的自动化程度，为端到端场景生成模型提供了关键训练资源。

当前挑战

该数据集首要挑战在于解决自然语言与结构化仿真语言间的语义对齐难题，需精确捕捉时空约束与多智能体交互逻辑。构建过程中面临双重挑战：既要确保生成的OpenSCENARIO代码在CARLA仿真环境中的可执行性，又需克服专业标注人才稀缺导致的标注一致性难题。每条样本需经过动力学仿真验证，这种严苛的验证机制大幅增加了数据清洗的复杂度。

常用场景

经典使用场景

在自动驾驶仿真领域，Prompt2OpenSCENARIO-LoRA-FineTune数据集通过1994组对话式样本，为大型语言模型提供了精准的场景生成能力训练基础。该数据集典型应用于将自然语言指令转化为符合OpenSCENARIO 1.0标准的仿真脚本，研究者通过微调语言模型，能够实现从文本描述到复杂驾驶场景的端到端生成，显著提升了虚拟测试场景的构建效率与语义一致性。

解决学术问题

该数据集有效解决了自动驾驶仿真中场景建模依赖专家手工编写、成本高昂且缺乏泛化性的核心难题。通过结构化对齐自然语言与仿真脚本的映射关系，为可解释的场景生成模型提供了训练范式，推动了基于语义理解的自动化测试场景生成研究。其意义在于构建了语言模型与专业仿真标准间的桥梁，为智能驾驶系统的安全性验证提供了可扩展的数据驱动方法。

实际应用

实际应用中，该数据集支撑的模型可直接集成至CARLA等仿真平台，实现从“前方出现横穿行人”等文本指令到即时可运行的仿真场景的转换。这种能力被广泛应用于自动驾驶企业的虚拟测试流程，大幅降低了场景构建的人力成本，同时支持长尾危险场景的快速生成，为智能驾驶系统在极端条件下的性能评估提供了关键技术支持。

数据集最近研究