NeoRL-2

Name: NeoRL-2
Creator: 南京大学
Published: 2025-03-25 10:01:54
License: 暂无描述

arXiv2025-03-25 更新2025-03-27 收录

下载链接：

https://github.com/polixir/NeoRL2

下载链接

链接失效反馈

官方服务：

资源简介：

NeoRL-2是由南京大学等研究机构构建的近现实世界离线强化学习基准数据集。该数据集包含7个模拟任务，旨在反映现实世界任务中的复杂性，涵盖时间延迟、外部因素、控制策略约束、传统控制方法收集的数据以及数据可用性的限制等特点。数据集通过模拟器收集，以模拟现实世界中的挑战，并用于训练和测试强化学习策略，推动算法在真实应用场景中的发展。

NeoRL-2 is a near-real-world offline reinforcement learning benchmark dataset constructed by Nanjing University and other research institutions. It contains 7 simulated tasks, which aim to reflect the complexity of real-world tasks, covering characteristics such as time delays, external factors, control policy constraints, data collected by traditional control methods, and limitations on data availability. This dataset is collected through simulators to mimic real-world challenges, and is utilized for training and testing reinforcement learning policies, so as to promote the development of algorithms in real-world application scenarios.

提供机构：

南京大学

创建时间：

2025-03-25

原始信息汇总

NeoRL2数据集概述

数据集简介

NeoRL2是离线强化学习基准NeoRL的扩展版本。
包含用于训练的数据集和用于测试训练策略的相应环境。
数据集来源于7个开源环境：Pipeline、Simglucose、RocketRecovery、RandomFrictionHopper、DMSD、Fusion和SafetyHalfCheetah任务。
数据采集方式：使用强化学习算法或PID策略进行在线训练，选择回报在专家回报50%到80%之间的次优策略生成离线数据集。

环境安装

基础安装命令：

git clone https://agit.ai/Polixir/neorl2.git cd neorl pip install -e .
需要MuJoCo许可证的环境（RandomFrictionHopper和SafetyHalfCheetah）：

pip install -e .[mujoco]

环境使用

基于OpenAI Gym API创建环境： python import neorl2 import gymnasium as gym env = gym.make("Pipeline")
获取数据集： python train_data, val_data = env.get_dataset()
支持设置和获取环境的奖励函数和终止函数。

环境参数表

环境名称	观测维度	动作维度	有终止标志	最大时间步长
Pipeline	52	1	False	1000
Simglucose	31	1	True	480
RocketRecovery	7	2	True	500
RandomFrictionHopper	13	3	True	1000
DMSD	6	2	False	100
Fusion	15	6	False	100
SafetyHalfCheetah	18	6	False	1000

数据结构

get_dataset()返回的训练数据和验证数据为相同格式的字典，包含以下字段：

obs：当前步的观测数组（N×观测维度）
next_obs：下一步的观测数组（N×观测维度）
action：动作数组（N×动作维度）
reward：奖励数组（N维）
done：回合终止标志数组（N维）
index：轨迹编号数组（指示轨迹的开始）

许可证

所有数据集使用Creative Commons Attribution 4.0 License (CC BY)许可
代码使用Apache 2.0 License许可

搜集汇总

数据集介绍

构建方式

NeoRL-2数据集的构建基于对现实世界任务中关键挑战的深入分析，包括时间延迟、外部因素、策略约束、传统控制方法数据收集以及数据可用性限制。研究者通过精心设计的模拟环境，如Pipeline、Simglucose、RocketRecovery等七个任务，模拟了这些现实挑战。数据收集采用确定性方法，部分任务使用经典反馈控制器（如PID控制器）进行采样，以确保数据集与现实场景的一致性。此外，数据集的大小受到严格控制，以反映现实世界中的数据稀缺性。

特点

NeoRL-2数据集的特点在于其高度贴近现实世界的复杂性。数据集涵盖了机器人、航空器、工业管道、可控核聚变等多个应用领域，并包含了时间延迟、外部因素、安全约束等关键特征。数据集的收集方法模拟了现实工业系统中的保守策略，数据分布狭窄且多样性有限。此外，数据集的大小和多样性受到严格控制，以模拟现实世界中的数据稀缺性和保守性。这些特点使得NeoRL-2成为评估离线强化学习算法在现实场景中性能的理想基准。

使用方法

NeoRL-2数据集的使用方法包括离线策略训练和在线策略评估。研究者可以使用数据集中的训练样本进行离线策略训练，并通过内置的模拟环境进行在线评估。数据集分为训练集和验证集，验证集主要用于离线策略评估（OPE）。为了确保公平性，所有算法在实验阶段仅使用训练集进行训练。此外，数据集还支持对模型基算法和模型无关算法的性能评估，帮助研究者识别算法在现实挑战中的局限性。

背景与挑战

背景概述

NeoRL-2是由Polixir Technologies与南京大学新型软件技术国家重点实验室联合开发的离线强化学习基准数据集，旨在解决现实世界任务中的复杂挑战。该数据集于2025年提出，作为原始NeoRL基准的扩展版本，包含了来自7个模拟任务的多样化数据集。其核心研究问题聚焦于如何克服现实场景中存在的时延效应、外部干扰因素、安全约束等传统基准未能充分涵盖的关键特性。该数据集特别强调了工业控制系统中常见的保守数据分布、高延迟转换等问题，为医疗健康、工业管道控制、核聚变等领域的强化学习应用提供了更贴近实际的测试平台。

当前挑战

NeoRL-2面临的主要挑战体现在两个维度：在领域问题层面，需解决时延环境中的非马尔可夫决策问题（如管道水流控制中的25步延迟）、受外部不可控变量影响的系统建模（如随机摩擦系数的单腿机器人控制），以及安全约束下的策略优化（如托卡马克装置的高成本实验限制）。在构建过程中，数据集需要模拟传统控制方法（如PID控制器）产生的窄分布数据，处理传感器采样延迟与信号传输延迟的复合效应，并通过有限的安全轨迹数据学习满足全局约束的策略。这些挑战导致现有SOTA算法在多数任务中难以超越数据收集策略的表现。

常用场景

经典使用场景

NeoRL-2数据集在离线强化学习领域中被广泛用于评估算法在接近真实世界场景中的性能。其经典使用场景包括工业控制系统、医疗健康管理、机器人控制以及核聚变设备操作等。这些场景通常涉及延迟效应、外部干扰因素、安全约束等复杂特性，使得NeoRL-2成为测试算法鲁棒性和泛化能力的理想选择。

实际应用

在实际应用中，NeoRL-2数据集被用于优化工业流水线控制、糖尿病患者的血糖管理、火箭回收任务以及核聚变设备的稳定操作等。这些应用场景不仅要求算法能够从有限的历史数据中学习，还需要在存在延迟、外部干扰和安全约束的条件下做出可靠决策。NeoRL-2通过模拟这些真实世界的挑战，为实际应用提供了有力的支持。

衍生相关工作

NeoRL-2的推出激发了大量相关研究，特别是在处理延迟效应、外部因素和安全约束的离线强化学习算法方面。例如，基于NeoRL-2的研究提出了使用循环神经网络（RNN）架构来处理延迟效应，以及利用因果分析技术来应对外部干扰因素。此外，NeoRL-2还促进了安全强化学习和约束马尔可夫决策过程（CMDP）等领域的发展，为离线强化学习在真实世界中的应用提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集