AD4RL
收藏arXiv2024-04-03 更新2024-06-21 收录
下载链接:
https://sites.google.com/view/ad4rl
下载链接
链接失效反馈官方服务:
资源简介:
AD4RL数据集由韩国国家研究基金会支持开发,旨在为自动驾驶领域的离线强化学习研究提供基准。该数据集包含19个子集,涵盖了真实世界的人类驾驶数据以及合成数据,适用于多种驾驶场景,如高速公路、车道减少和车辆切入等。数据集通过预处理,如奖励标记、错误修正和值归一化,以适应提出的统一决策模型。AD4RL数据集的应用旨在解决自动驾驶中离线学习的安全性和效率问题,推动现有强化学习方法的实际应用。
The AD4RL dataset, developed with support from the National Research Foundation of Korea, is designed to provide benchmarks for offline reinforcement learning research in the autonomous driving domain. It consists of 19 subsets covering both real-world human driving data and synthetic data, applicable to a wide range of driving scenarios such as highways, lane reductions, and vehicle cut-ins. The dataset has undergone preprocessing steps including reward labeling, error correction, and value normalization to adapt to the proposed unified decision-making model. The AD4RL dataset aims to address the safety and efficiency issues of offline learning in autonomous driving, and promote the practical deployment of existing reinforcement learning methods.
提供机构:
韩国国家研究基金会
创建时间:
2024-04-03
搜集汇总
数据集介绍

构建方式
在自动驾驶离线强化学习研究领域,AD4RL数据集的构建体现了对现实世界数据价值的深刻认知。该数据集整合了真实人类驾驶数据与合成数据,其核心来源是美国联邦公路管理局NGSIM项目采集的US Highway 101真实交通轨迹数据。研究团队对原始数据进行了精细的预处理,包括错误校正、数值归一化,并将其与提出的统一部分可观测马尔可夫决策过程模型进行对齐。同时,在FLOW仿真框架下,通过深度确定性策略梯度算法等在线强化学习智能体,生成了涵盖最终策略、中等策略、随机策略及其混合版本的多类合成数据集,共同构成了覆盖高速公路、车道缩减、切入超车三种复杂驾驶场景的十九个子集。
特点
AD4RL数据集最显著的特征在于其开创性地融合了真实世界人类驾驶数据与算法生成的合成数据,为评估离线强化学习算法的实际泛化能力提供了宝贵基准。数据集基于价值而非图像,聚焦于决策过程本身,增强了策略的可解释性。其包含的三种驾驶场景——高速公路、车道缩减和切入超车,均经过精心设计以模拟现实交通的复杂性,超越了以往仅关注单一加速行为的简化设定。此外,数据集配套提供了一个统一的POMDP模型,该模型能够跨不同场景通用,为算法设计提供了标准化的决策过程框架,确保了评估的一致性与可比性。
使用方法
该数据集旨在为自动驾驶离线强化学习研究提供标准化评测基准。使用者可将其用于训练和评估各类离线强化学习算法,如行为克隆、保守Q学习、隐式Q学习等。研究流程通常包括:利用数据集中提供的状态-动作转移样本进行离线策略训练;随后,在FLOW仿真器构建的对应驾驶场景中,对训练好的策略进行性能评估。评估指标包括标准化得分和四分位距,以综合衡量算法在不同数据质量下的表现。通过对比算法在真实人类数据集与各类合成数据集上的性能差异,研究者可以深入探究分布偏移、数据质量等核心问题对策略学习的影响。
背景与挑战
背景概述
自动驾驶领域的研究长期依赖于在线强化学习,其试错机制在安全关键系统中存在显著风险与成本限制。为应对这一挑战,离线强化学习范式应运而生,其利用大规模预收集数据集训练智能体策略,避免了在线交互的潜在危害。在此背景下,AD4RL数据集于2024年由韩国崇实大学的研究团队提出,旨在为自动驾驶的离线强化学习研究提供基准支持。该数据集整合了真实世界的人类驾驶数据与合成数据集,覆盖高速公路、车道缩减及切入场景,并设计了统一的决策过程模型,以促进算法在多样化驾驶环境中的泛化能力。这一工作不仅填补了该领域缺乏真实驾驶数据的空白,也为评估现有离线强化学习方法的实用性奠定了重要基础。
当前挑战
AD4RL数据集致力于解决自动驾驶决策中离线强化学习的核心挑战,即如何在缺乏在线环境交互的情况下,仅依靠静态数据集训练出安全且高效的驾驶策略。这一领域问题面临分布偏移的固有难题,即训练策略可能产生数据集中未见的动作,导致性能退化或安全隐患。在数据集构建过程中,研究者需克服多重障碍:真实驾驶数据如NGSIM的预处理涉及错误校正、奖励标注与值归一化,以确保与部分可观测马尔可夫决策过程的兼容性;同时,合成数据集的生成需模拟多样化的驾驶行为,以反映不同策略质量对算法的影响。此外,设计一个适用于多场景的统一决策模型,需在观察空间、动作空间与奖励函数之间取得平衡,以兼顾安全性与驾驶效率。
常用场景
经典使用场景
在自动驾驶离线强化学习领域,AD4RL数据集为算法验证与性能评估提供了标准化的测试平台。其经典应用场景聚焦于利用预先收集的大规模驾驶数据,训练智能体在无需与环境实时交互的情况下学习安全高效的驾驶策略。研究者在高速公路、车道缩减及切入交通三种高度仿真的驾驶场景中,通过该数据集评估策略在复杂动态环境下的决策能力,从而推动离线强化学习从理论验证向实际驾驶任务迁移。
解决学术问题
AD4RL数据集有效应对了自动驾驶研究中离线强化学习面临的若干核心挑战。它通过整合真实世界人类驾驶数据与合成数据集,缓解了传统方法因依赖纯合成数据而产生的分布偏移问题,为算法在现实场景中的泛化能力提供了评估基础。该数据集构建的统一部分可观测马尔可夫决策过程模型,为不同驾驶场景下的策略设计提供了标准化框架,促进了跨场景决策模型的比较与优化,显著提升了学术研究的可复现性与严谨性。
衍生相关工作
围绕AD4RL数据集,学术界衍生出一系列聚焦于自动驾驶离线强化学习的经典研究工作。这些工作主要沿两个方向展开:一是基于该数据集提供的多场景基准,对如BCQ、CQL、IQL等主流离线强化学习算法进行系统性的性能比较与改进;二是受其统一POMDP框架启发,进一步探索跨场景可迁移策略架构的设计。这些衍生研究共同推动了价值型数据集在端到端自动驾驶决策中的深入应用,并为处理混合动作空间、提升策略保守性等具体问题提供了新的解决方案。
以上内容由遇见数据集搜集并总结生成



