dynamicslab/KoopmanRL

Name: dynamicslab/KoopmanRL
Creator: dynamicslab
Published: 2024-02-29 22:48:43
License: 暂无描述

Hugging Face2024-02-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dynamicslab/KoopmanRL

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用于《Koopman-Assisted Reinforcement Learning》论文结果的实验数据，允许完全复制和进一步使用论文的结果。数据集包含约461MB的Tensorboard文件和保存的策略，涵盖了多个实验，如Episodic Returns、Interpretability等。每个实验都有特定的目的和大小。数据集还提供了已经提取的数据框，所有实验都存储为Tensorboard文件，提取的episodic returns存储在.parquet.gz数据框中，保存的策略存储在.pt文件中。数据集可以通过HuggingFace Datasets Library进行下载，并且可以下载整个数据集或所需的子部分。数据集采用CC-BY-4.0许可证。

提供机构：

dynamicslab

原始信息汇总

数据集卡片 for KoopmanRL

数据集描述

语言: code
许可证: cc-by-4.0
任务类别: reinforcement-learning

数据集概述

该数据集包含用于 Koopman-Assisted Reinforcement Learning 论文结果的实验数据，允许完全重现和进一步使用论文结果。

数据集结构

数据集包含约 461MB 的 Tensorboard 文件和保存的策略。

实验	大小	目的
Episodic Returns	161MB	所有 5 种算法在 4 个环境中的情节回报
Interpretability	55MB	KoopmanRL 引入的可解释性检查
AblationSKVIBatchSize	3.4MB	对所选批量大小的敏感性消融
AblationSKVICompute	21MB	对用于构建 Koopman 张量的计算量的敏感性消融
AblationSAKCMonoid	86MB	对用于构建字典的单子顺序的敏感性消融
AblationSAKCCompute	134MB	对用于构建 Koopman 张量的计算量的敏感性消融

此外，还提供了已提取的数据框。所有实验都存储为 Tensorboard 文件，提取的情节回报存储在 .parquet.gz 数据框中，保存的策略存储在 .pt 文件中。

使用数据集

数据集可以通过 HuggingFace Datasets Library 轻松使用。

python from datasets import load_dataset

ds = load_dataset("dynamicslab/KoopmanRL")

或者下载数据集的特定部分

python from datasets import load_dataset

ds = load_dataset("dynamicslab/KoopmanRL", data_dir="data/EpisodicReturns")

许可证

整个数据集在 CC-BY-4.0 许可证下授权。

联系信息

Preston Rozwood (pwr36@cornell.com)
Edward Mehrez (ejm322@cornell.edu)
Ludger Paehler (paehlerludger@gmail.com)
Steven L. Brunton (sbrunton@uw.edu)

如何引用

请按以下格式引用数据集

bibtex @misc{dynamicslab_2024, author={ {Dynamicslab} }, title={ KoopmanRL (Revision fcca4b3) }, year=2024, url={ https://huggingface.co/datasets/dynamicslab/KoopmanRL }, doi={ 10.57967/hf/1825 }, publisher={ Hugging Face } }

以及论文

bibtex @article{rozwood2024koopman, title={Koopman-Assisted Reinforcement Learning}, author={Rozwood, Preston and Mehrez, Edward and Paehler, Ludger and Sun, Wen and Brunton, Steven L.}, journal={arXiv preprint arXiv:tbd}, year={2024} }

搜集汇总

数据集介绍

构建方式

在强化学习与动态系统交叉领域，KoopmanRL数据集的构建体现了严谨的实验设计理念。该数据集通过系统化地执行五种算法在四个不同环境中的强化学习实验，收集了包括回合回报、可解释性分析及多项消融研究在内的全面数据。实验数据以Tensorboard文件形式保存，同时提取了便于分析的Parquet格式数据框，并存储了训练好的策略模型，确保了实验过程与结果的可追溯性与可复用性。

特点

该数据集的核心特点在于其结构化的多维实验数据组织。它不仅涵盖了不同算法在多种动态环境下的性能表现，还深入提供了关于Koopman张量构建中关键参数（如批量大小、计算资源、字典阶数）的敏感性分析数据。数据集以原始日志与预处理数据框并存的方式提供，既支持深度原始数据分析，也便于快速结果复现与可视化，为研究Koopman算子与强化学习的结合提供了丰富的实证基础。

使用方法

利用该数据集进行研究，研究者可通过HuggingFace Datasets库便捷地加载整体或特定子集数据。数据集附带的Jupyter Notebooks提供了从原始Tensorboard日志中复现论文图表的具体流程。用户可加载Parquet数据框进行自定义分析，或调用保存的策略文件进行进一步测试与迁移，从而高效地验证、拓展原研究结论，或将其作为新方法的基准测试平台。

背景与挑战

背景概述

在强化学习与动态系统理论交叉融合的前沿领域，KoopmanRL数据集于2024年由Dynamicslab团队及相关研究人员构建并发布，旨在支撑《Koopman-Assisted Reinforcement Learning》这一开创性研究。该数据集的核心研究问题聚焦于如何将Koopman算子理论这一线性系统分析工具，创新性地应用于非线性动态系统的强化学习策略优化中，以提升智能体在复杂连续控制任务中的学习效率与策略可解释性。其通过提供涵盖多种环境的完整实验数据，为验证Koopman辅助强化学习框架的有效性提供了实证基础，推动了数据驱动控制理论与现代机器学习方法的深度结合。

当前挑战

KoopmanRL数据集致力于应对非线性动态系统中强化学习所面临的固有挑战，即在高维、连续状态空间中，传统方法难以高效学习稳定且可解释的最优控制策略。构建该数据集的过程同样伴随显著挑战：其一，Koopman算子的张量近似及其字典构建对计算资源极为敏感，需精心设计消融实验以平衡计算成本与模型精度；其二，为确保实验结果的可复现性与可比性，需在多个基准环境（如流体流动、双势阱系统）上系统性地收集并标准化包括回合收益、保存策略及可解释性分析在内的海量多维数据，并对庞杂的TensorBoard日志与模型文件进行严谨的结构化组织。

常用场景

经典使用场景

在强化学习与动态系统交叉领域，KoopmanRL数据集为研究者提供了一个基准平台，用于验证和比较基于Koopman算子的强化学习算法性能。该数据集涵盖了流体流动、双势阱等典型动态环境下的实验数据，支持对算法在连续状态空间中的收敛性和稳定性进行系统性评估。通过整合Tensorboard日志与预训练策略，研究者能够直观分析训练过程中的回报曲线，从而深入探索Koopman表示如何提升策略优化效率。

解决学术问题

该数据集有效应对了强化学习在复杂动态系统中面临的样本效率低下与策略可解释性不足等核心挑战。通过引入Koopman算子将非线性动态线性化，数据集支撑的研究工作显著降低了模型对大量交互数据的需求，同时提供了对系统内在机制的透明洞察。这不仅推动了数据驱动控制理论的进展，还为跨学科方法在机器人学与流体力学等领域的应用奠定了实证基础。

衍生相关工作

围绕该数据集衍生的经典研究包括对Koopman张量构建算法的消融分析，以及基于字典与计算资源的敏感性探讨。这些工作深化了对Koopman表示中关键超参数影响的理解，并催生了多种改进版本，如自适应字典选择与分布式计算框架。此外，数据集还激发了在部分可观系统与多智能体协同控制中的扩展应用，推动了动态建模与强化学习融合领域的持续创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集