AgentDrive

Name: AgentDrive
Creator: 阿拉伯联合酋长国大学·计算机与网络工程系; 哈利法科学技术大学
Published: 2026-01-24 02:33:41
License: 暂无描述

arXiv2026-01-24 更新2026-01-27 收录

下载链接：

https://github.com/maferrag/AgentDrive

下载链接

链接失效反馈

官方服务：

资源简介：

AgentDrive是由阿拉伯联合酋长国大学团队构建的开源基准数据集，旨在为自主系统中的智能体AI提供训练与评估支持。该数据集包含30万条基于大语言模型生成的驾驶场景，覆盖场景类型、驾驶员行为、环境等七维度结构化参数，并通过物理约束验证和仿真标注生成安全指标。数据以JSON格式存储，包含仿真执行结果和10万道多选推理题（AgentDrive-MCQ），用于系统评估LLM在物理、政策等五类推理维度的表现。其应用领域聚焦自动驾驶系统的安全关键场景测试与认知能力评估。

AgentDrive is an open-source benchmark dataset developed by the research team from the United Arab Emirates University, designed to provide training and evaluation support for intelligent agent AI in autonomous systems. This dataset includes 300,000 driving scenarios generated by large language models (LLMs), and encompasses seven-dimensional structured parameters that cover scenario types, driver behaviors, environmental contexts and other relevant aspects. Safety indicators are generated via physical constraint verification and simulation annotation. Stored in JSON format, the dataset contains simulation execution results and 100,000 multiple-choice reasoning questions (AgentDrive-MCQ), which are used to systematically evaluate the performance of LLMs across five reasoning dimensions including physics and policies. Its application scenarios focus on safety-critical scenario testing and cognitive ability evaluation for autonomous driving systems.

提供机构：

阿拉伯联合酋长国大学·计算机与网络工程系; 哈利法科学技术大学

创建时间：

2026-01-24

原始信息汇总

AgentDrive 数据集概述

数据集简介

AgentDrive 是一个开放的基准数据集，包含 300,000 个由大语言模型生成的驾驶场景，专为在不同条件下训练、微调和评估自主智能体而设计。该数据集通过一个由大语言模型驱动的提示词到 JSON 的流程，生成语义丰富、可直接用于仿真的场景规范，并经过物理和模式约束验证。每个场景都经过仿真推演、代理安全指标计算和基于规则的结果标注。

核心组件

1. AgentDrive-Gen

规模：包含 300,000 个结构化、仿真就绪的 JSON 场景。
维度：场景空间在七个正交轴上被形式化：场景类型、驾驶员行为、环境、道路布局、目标、难度和交通密度。
内容：每个 JSON 文件详细定义了场景的元数据、道路环境、交通参与者、事件以及需要计算的指标。
下载地址：https://github.com/maferrag/AgentDrive/tree/main/data/AgentDrive-Gen

2. AgentDrive-Sim

内容：包含已执行的仿真推演数据，附带代理安全指标（例如，最小碰撞时间）和分类结果。
结果标签：包括 safe_goal（安全达成目标）、safe_stop（安全停止）、inefficient（低效）和 unsafe（不安全）。
数据格式：JSON 格式，包含时间步长、自车状态、交通灯状态、事件和指标等详细信息。

3. AgentDrive-MCQ

规模：一个包含 100,000 个问题的推理基准。
目的：系统性地评估基于大语言模型的智能体的认知和伦理推理能力。
推理维度：涵盖五个推理维度——物理、策略、混合、场景和比较推理。
生成流程：基于 AgentDrive 数据集中的场景属性，通过专门的大语言模型池生成叙事性场景描述，进而为每个场景生成五道推理密集型选择题。

评估与研究

已在 AgentDrive_MCQ 基准上对 五十个领先的大语言模型 进行了大规模评估，以衡量它们在这五个维度上的推理能力。
评估模型包括 GPT-5、ChatGPT 4o、Gemini 2.5 Flash、DeepSeek V3、Qwen3 235B、ERNIE 4.5 300B、Grok 4、Mistral Medium 3.1 和 Phi 4 Reasoning Plus 等。
研究结果表明，虽然专有的前沿模型在情境和政策推理方面占主导地位，但先进的开源模型在结构化和基于物理的推理方面正在迅速缩小差距。

可用资源

为支持开放科学和可重复性，项目发布了以下材料：

AgentDrive 数据集（包括标注数据）。
AgentDrive-MCQ 基准。
评估脚本。
所有相关材料。

联系信息

如需使用该基准评估您的大语言模型，可通过以下邮箱联系：mohamed.ferrag@uaeu.ac.ae 或 mohamed.amine.ferrag@gmail.com。

搜集汇总

数据集介绍

构建方式

在自动驾驶领域，对智能体进行大规模、多样化的安全关键场景评估一直面临数据稀缺的挑战。AgentDrive数据集通过一个系统化的生成管道应对此问题，其构建始于一个在七个正交维度上因子化的场景空间定义，涵盖场景类型、驾驶员行为、环境、道路布局、目标、难度和交通密度。利用大型语言模型驱动的提示到JSON转换流程，将抽象的场景元组转化为语义丰富且符合物理与模式约束的结构化规范。每个生成的场景均在仿真环境中执行推演，计算诸如最小碰撞时间等代理安全指标，并最终通过基于规则的分类系统，为每次推演分配可解释的结果标签，从而形成一个包含30万条记录的、可用于训练与评估的大规模基准数据集。

特点

AgentDrive数据集的核心特点在于其系统性、多样性与评估的全面性。数据集通过严谨定义的七维场景空间，确保了从常规驾驶到罕见安全关键事件的广泛覆盖，有效弥补了自然驾驶数据在边缘案例上的不足。其结构化的JSON规范与仿真就绪的特性，为可复现的研究提供了坚实基础。尤为突出的是，数据集不仅包含仿真轨迹与安全指标，还额外提供了AgentDrive-MCQ推理基准，该基准包含10万个涵盖物理、政策、混合、场景与比较五种推理维度的选择题，从而将性能评估从单纯的仿真行为延伸至对智能体认知与伦理推理能力的系统化测评，实现了仿真评估与结构化推理评估的统一。

使用方法

AgentDrive数据集为自动驾驶领域智能体AI模型的开发与评估提供了多层次的实用框架。研究者可直接利用AgentDrive-Gen中30万个LLM生成的结构化场景规范，作为训练或微调感知、规划与决策模型的多样化输入。通过AgentDrive-Sim中附带的仿真推演、安全指标及结果标签，可进行大规模的闭环性能测试与监督学习。同时，AgentDrive-MCQ基准可作为独立的评估工具，用于系统化测评不同大型语言模型在驾驶相关多维度推理任务上的能力，揭示其在物理基础、政策遵循及混合推理等方面的优势与局限。该数据集支持从模型能力诊断、基准测试到端到端系统训练的完整工作流程，旨在推动更安全、可靠且可解释的自主智能体发展。

背景与挑战

背景概述

随着大语言模型在自动驾驶领域的深度融合，对具备推理能力的智能体进行系统性评估的需求日益迫切。在此背景下，Mohamed Amine Ferrag等人于2025年提出了AgentDrive基准数据集。该数据集旨在为基于大语言模型的自主系统提供大规模、结构化且安全关键的评估基准。其核心研究问题聚焦于如何利用大语言模型生成多样化的驾驶场景，并构建统一的框架来全面评估智能体的认知与伦理推理能力。AgentDrive通过定义涵盖场景类型、驾驶员行为、环境、道路布局等七个正交维度的因子化场景空间，并引入包含30万个生成场景的AgentDrive-Gen子集及10万个推理问题的AgentDrive-MCQ子集，为领域内模型训练、微调和评估提供了关键基础设施，显著推动了具身智能与自动驾驶交叉领域的研究进程。

当前挑战

AgentDrive数据集致力于解决自动驾驶领域中智能体认知与安全推理能力评估的核心挑战。其首要挑战在于如何系统性地生成既语义丰富又符合物理约束的多样化驾驶场景，以覆盖从常规到罕见安全关键事件的完整谱系。在构建过程中，研究团队面临多重技术难题：一是设计能够将抽象场景元组转化为仿真就绪结构化JSON规范的提示工程与验证流程，确保生成内容的物理一致性与逻辑合理性；二是建立有效的仿真执行与标注管道，以计算替代安全指标并基于规则为海量场景分配可解释的结果标签；三是构建跨物理、策略、混合、场景与比较五大维度的推理基准，以系统评估大语言模型在复杂、动态环境下的综合决策能力。这些挑战共同指向了实现可靠、可扩展且安全对齐的智能体评估这一根本目标。

常用场景

经典使用场景

在自动驾驶与智能体人工智能交叉领域，AgentDrive数据集为评估和训练基于大语言模型的自主智能体提供了标准化基准。该数据集最经典的使用场景是作为封闭环路的仿真测试平台，研究人员利用其生成的30万个结构化驾驶场景，对智能体在多样化、安全关键条件下的感知、规划与决策能力进行系统性验证。通过模拟不同天气、道路布局、交通密度与驾驶员行为的组合，AgentDrive能够全面检验智能体在边缘案例中的鲁棒性与泛化性能，成为推动LLM4AD（大语言模型赋能的自动驾驶）研究的关键基础设施。

解决学术问题

AgentDrive数据集有效解决了自动驾驶研究中缺乏大规模、结构化且安全关键的基准数据这一核心难题。其通过正交分解的场景空间，覆盖了从常规驾驶到罕见危险事件的连续谱系，为训练和微调基于大语言模型的自主智能体提供了高质量监督信号。该数据集支持对智能体认知推理能力的细粒度评估，特别是通过AgentDrive-MCQ子基准，从物理、策略、混合、场景与比较五个维度系统衡量模型的伦理与逻辑推理水平，从而填补了传统仿真评估与高阶认知能力测评之间的空白。

衍生相关工作

AgentDrive的发布催生了一系列围绕LLM赋能自动驾驶的经典研究工作。其场景生成方法论启发了后续如AGENTS-LLM等基于智能体框架的场景增强技术。在评测体系方面，它与LaMPilot-Bench、V2V-LLM、DriveBench等基准形成了互补生态，共同推动多模态理解、车辆协同与闭环评估的发展。同时，该数据集支撑的跨模型大规模评估（涵盖GPT-5、DeepSeek V3、Qwen等50个前沿模型）为学术界提供了宝贵的性能基线，激励了在物理接地推理、安全对齐等方向的算法创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集