DSRL
收藏arXiv2023-06-17 更新2024-06-21 收录
下载链接:
http://data.offline-saferl.org/download
下载链接
链接失效反馈官方服务:
资源简介:
DSRL数据集是由卡内基梅隆大学创建的,用于离线安全强化学习研究的全面基准套件。数据集包含75000条轨迹,涵盖了从机器人控制到自动驾驶的38个流行安全强化学习任务。通过先进的强化学习算法,数据集的收集过程采用了系统的方法,包括数据后处理过滤器,以模拟各种数据收集条件。此外,数据集还提供了优雅且可扩展的流行离线安全强化学习算法实现,以加速该领域的研究。DSRL数据集旨在为研究人员和实践者提供一个标准测试平台,以评估和比较安全学习算法,促进更稳健和可靠的离线安全强化学习解决方案的发展。
The DSRL Dataset is a comprehensive benchmark suite developed by Carnegie Mellon University for offline safe reinforcement learning research. It contains 75,000 trajectories, covering 38 popular safe reinforcement learning tasks ranging from robotic control to autonomous driving. The dataset collection employed a systematic methodology leveraging advanced reinforcement learning algorithms, and incorporated data post-processing filters to simulate diverse data collection conditions. Furthermore, the dataset also provides elegant and scalable implementations of popular offline safe reinforcement learning algorithms to accelerate research in this field. The DSRL Dataset aims to provide researchers and practitioners with a standard testbed for evaluating and comparing safe learning algorithms, thereby fostering the development of more robust and reliable offline safe reinforcement learning solutions.
提供机构:
卡内基梅隆大学
创建时间:
2023-06-16
搜集汇总
数据集介绍

构建方式
在离线安全强化学习领域,DSRL数据集的构建采用了系统化的数据收集流程,依托先进的FSRL算法库生成多样化的轨迹数据。该流程首先在三个主流安全强化学习环境——基于Mujoco的SafetyGymnasium、基于PyBullet的BulletSafetyGym以及基于Panda3D的自动驾驶模拟器MetaDrive中,通过调整成本阈值和专家策略参数,训练出覆盖不同难度级别的安全策略。随后,利用密度过滤器对原始轨迹进行去冗余处理,确保数据在成本-奖励回报空间中的分布多样性,最终形成了包含38项任务、超过75000条轨迹的高质量数据集。
特点
DSRL数据集的核心特点在于其专门为安全约束设计的数据结构,每条轨迹均包含显式的成本标签,以量化约束违反情况。数据集不仅提供了原始轨迹集合,还集成了一套可定制的后处理过滤器,能够灵活调整数据密度、噪声水平以及奖励-成本分布,从而模拟现实世界中数据收集的各种条件。这种设计使得研究者能够基于同一数据集生成数百种不同难度的变体,为评估算法在泛化能力和异常值鲁棒性方面提供了丰富且可控的测试基准。
使用方法
DSRL数据集遵循与D4RL兼容的API接口,用户可通过简单的环境封装调用数据集,并获取包含观测、动作、奖励、成本等关键字段的标准化数据。研究者可利用内置的后处理过滤器,根据实验需求对数据集进行定制化处理,例如通过密度过滤器模拟数据稀缺场景,或通过噪声过滤器引入异常轨迹以测试算法鲁棒性。此外,数据集与OSRL算法库紧密集成,为离线安全强化学习算法的训练、评估与比较提供了完整的实验框架,显著降低了研究门槛并加速了算法迭代进程。
背景与挑战
背景概述
在强化学习领域,确保智能体在训练与部署过程中的安全性已成为一项核心挑战,尤其在机器人控制与自动驾驶等高风险应用中。为填补离线安全强化学习领域公开基准数据集的空白,卡内基梅隆大学与Google DeepMind的研究团队于2023年共同推出了DSRL数据集。该数据集作为综合性基准测试平台的关键组成部分,旨在通过系统化的数据收集流程,为安全约束下的策略学习提供多样化的训练与评估资源。DSRL涵盖了三大主流安全强化学习环境中的38项任务,累计包含超过75000条轨迹数据,并引入了与D4RL风格兼容的API接口及多种数据后处理过滤器,以模拟不同数据收集条件。该数据集的建立不仅推动了安全强化学习算法的发展,也为实际安全关键场景中的可靠决策系统构建奠定了重要基础。
当前挑战
DSRL数据集致力于解决离线安全强化学习中的核心挑战,即在满足严格安全约束的前提下,从静态数据集中学习高效策略。这一领域问题面临多重困难:首先,算法需在奖励最大化与成本约束之间实现精准平衡,避免策略过于保守或冒险;其次,由于离线数据分布可能无法覆盖所有潜在状态-动作对,分布偏移问题易导致策略在部署时出现安全违规。在数据集构建过程中,研究团队亦需应对诸多挑战:一是如何通过高级安全强化学习算法生成兼具多样性与质量的数据轨迹,以全面反映不同安全阈值下的策略行为;二是设计可灵活调整数据密度、噪声水平及奖励-成本分布的后处理过滤器,以模拟真实世界中数据收集的不完美性,从而增强基准测试的鲁棒性与实用性。
常用场景
经典使用场景
在离线安全强化学习领域,DSRL数据集作为基准测试平台的核心组成部分,为研究者提供了系统化的评估框架。该数据集通过集成SafetyGymnasium、BulletSafetyGym和MetaDrive三大仿真环境,覆盖了从机器人控制到自动驾驶的38项安全约束任务,其精心设计的轨迹数据囊括了多样化的奖励与成本权衡分布。经典使用场景聚焦于算法在离线设定下的安全策略学习,研究者可借助DSRL提供的标准化接口,对比不同算法在固定数据集上的性能表现,从而深入探索安全约束下的策略优化与泛化能力。
解决学术问题
DSRL数据集有效应对了离线安全强化学习领域的关键挑战,即如何在缺乏环境交互的情况下,从预先收集的数据中学习满足安全约束的策略。传统离线数据集如D4RL虽支持奖励最大化研究,却缺乏显式的安全约束指标,导致安全关键型应用的算法评估存在空白。DSRL通过引入成本函数与阈值机制,将安全约束形式化为带约束的马尔可夫决策过程,使研究者能够系统分析算法在安全合规性、奖励寻求、泛化能力及异常值敏感性等多维度的表现,从而推动安全强化学习理论与方法的实质性进展。
衍生相关工作
围绕DSRL数据集,学术界已衍生出多项经典研究工作,这些成果进一步拓展了离线安全强化学习的理论边界与应用范畴。例如,约束决策变换器(CDT)通过序列建模架构在DSRL数据集上实现了安全与效用的平衡;基于拉格朗日乘子的Q学习变体(如BCQ-Lag、BEAR-Lag)则探索了代价函数与策略优化的协同机制。此外,分布校正估计方法(如COptiDICE)利用静态分布修正技术处理离线数据中的约束满足问题。这些工作不仅验证了DSRL作为基准测试平台的有效性,也为后续研究提供了可复现的算法实现与评估范式。
以上内容由遇见数据集搜集并总结生成



