NathanGavenski/Acrobot-v1

Name: NathanGavenski/Acrobot-v1
Creator: NathanGavenski
Published: 2024-06-11 13:49:51
License: 暂无描述

Hugging Face2024-06-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/NathanGavenski/Acrobot-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Imitation Learning Datasets项目创建，使用了HuggingFace的DQN策略权重。数据集包含1000个episode，每个episode的平均奖励为-69.852。每个条目包含观察值（长度为6的列表）、动作（0、1或2）、奖励（浮点数）和是否为episode初始时间步的标志（布尔值）。

This dataset was created by the Imitation Learning Datasets project, using the DQN policy weights from Hugging Face. It contains 1000 episodes, with an average reward of -69.852 per episode. Each entry includes observations (a list of length 6), actions (0, 1, or 2), rewards (floating-point numbers), and a boolean flag indicating whether the current timestep is the initial one of an episode.

提供机构：

NathanGavenski

原始信息汇总

Acrobot-v1 - Imitation Learning Datasets

描述

该数据集包含1,000个回合，平均回合奖励为-69.852。每个条目包含以下内容：

obs (list)：长度为6的观察值。
action (int)：动作（0、1或2）。
reward (float)：该时间步的奖励点。
episode_returns (bool)：该状态是否为回合的初始时间步。

使用

可以自由下载并使用teacher.jsonl数据集。如果对使用PyTorch数据集实现感兴趣，可以查看IL Datasets项目。该项目实现了一个基础数据集，可以直接从HuggingFace下载此数据集及其他所有数据集。基础数据集还允许对训练和测试分割进行更多控制，以及选择要使用的回合数量（在不需要1k回合的情况下）。

引用

bibtex @inproceedings{gavenski2024ildatasets, author = {Gavenski, Nathan and Luck, Michael and Rodrigues, Odinaldo}, title = {Imitation Learning Datasets: A Toolkit For Creating Datasets, Training Agents and Benchmarking}, year = {2024}, isbn = {9798400704864}, publisher = {International Foundation for Autonomous Agents and Multiagent Systems}, address = {Richland, SC}, abstract = {Imitation learning field requires expert data to train agents in a task. Most often, this learning approach suffers from the absence of available data, which results in techniques being tested on its dataset. Creating datasets is a cumbersome process requiring researchers to train expert agents from scratch, record their interactions and test each benchmark method with newly created data. Moreover, creating new datasets for each new technique results in a lack of consistency in the evaluation process since each dataset can drastically vary in state and action distribution. In response, this work aims to address these issues by creating Imitation Learning Datasets, a toolkit that allows for: (i) curated expert policies with multithreaded support for faster dataset creation; (ii) readily available datasets and techniques with precise measurements; and (iii) sharing implementations of common imitation learning techniques. Demonstration link: https://nathangavenski.github.io/#/il-datasets-video}, booktitle = {Proceedings of the 23rd International Conference on Autonomous Agents and Multiagent Systems}, pages = {2800–2802}, numpages = {3}, keywords = {benchmarking, dataset, imitation learning}, location = {<conf-loc>, <city>Auckland</city>, <country>New Zealand</country>, </conf-loc>}, series = {AAMAS 24} }

搜集汇总

数据集介绍

构建方式

在强化学习领域，模仿学习依赖于高质量的专家轨迹数据。Acrobot-v1专家数据集的构建采用了系统化方法，利用来自HuggingFace平台的预训练DQN策略模型，通过Stable Baselines框架生成专家行为序列。该过程涉及在Acrobot-v1环境中运行训练有素的智能体，记录其观测状态、动作选择及即时奖励，最终汇集为包含1000条完整回合的数据集合，平均回合奖励为-69.852，确保了数据在状态-动作分布上的连贯性与一致性。

特点

该数据集专为模仿学习研究设计，其核心特征体现在结构化与可扩展性上。每条数据条目均包含六维观测向量、离散动作标签、浮点奖励信号及回合起始标志，形成了标准化的轨迹表示。数据规模介于千万至亿级之间，覆盖了智能体在Acrobot环境中的广泛行为模式，为算法评估提供了稳定基准。此外，数据集与开源工具链深度集成，支持灵活的数据分割与采样策略，适应不同复杂度的实验需求。

使用方法

研究人员可直接下载teacher.jsonl文件进行离线分析，或通过配套的PyTorch数据集接口动态加载数据。该接口实现了从HuggingFace平台的自动获取与缓存机制，并允许用户自定义训练与测试集划分比例，以及按需选择回合数量以控制数据规模。对于高阶应用，工具包提供了数据预处理、轨迹切片及性能评估模块，便于在模仿学习框架内进行算法训练与对比实验。

背景与挑战

背景概述

在强化学习与模仿学习领域，高质量专家轨迹数据的获取是推动算法发展的关键。NathanGavenski/Acrobot-v1数据集于2024年由Nathan Gavenski等人构建，作为Imitation Learning Datasets项目的一部分，旨在为模仿学习研究提供标准化、可复现的基准数据。该数据集基于HuggingFace平台上预训练的DQN策略生成，包含1000条专家轨迹，平均回合奖励为-69.852，每条数据涵盖六维状态观测、离散动作及即时奖励。其核心研究问题聚焦于解决模仿学习中专家数据稀缺与评估不一致的困境，通过提供结构化的交互记录，促进模仿学习算法的公平比较与性能提升，对自主智能体与多智能体系统的研究具有重要影响力。

当前挑战

该数据集致力于应对模仿学习领域的两大挑战：一是专家数据稀缺性导致的算法评估困难，传统方法常因缺乏统一基准而难以客观衡量不同技术的优劣；二是数据构建过程中的技术复杂性，包括从预训练策略中高效提取大规模轨迹、确保状态与动作分布的稳定性，以及维护数据格式的标准化以实现跨研究项目的可复用性。构建时需克服多线程并行生成、奖励稀疏环境下的轨迹质量优化，以及原始交互数据到结构化数据集的转换等工程难题，这些挑战共同凸显了在动态环境中创建可靠模仿学习基准的固有难度。

常用场景

经典使用场景

在强化学习与模仿学习领域，Acrobot-v1数据集作为专家轨迹的标准化资源，常被用于训练智能体通过观察专家行为来掌握复杂控制任务。该数据集以Acrobot环境为背景，其中智能体需协调两个连杆的摆动以实现特定目标，其包含的1000条专家轨迹为研究者提供了丰富的状态-动作对序列，便于直接应用于行为克隆或逆强化学习等算法中，以验证模型在动态系统中的泛化能力与稳定性。

解决学术问题

该数据集有效解决了模仿学习中专家数据稀缺与评估标准不一致的学术难题。通过提供统一格式的高质量专家轨迹，它使得不同模仿学习算法能在相同基准下进行公平比较，从而促进了对样本效率、分布偏移及泛化性能等核心问题的深入研究。其规范的构建方式降低了数据制备的冗余劳动，推动了领域内方法论的系统化进展。

衍生相关工作

围绕Acrobot-v1数据集，已衍生出多项经典研究工作，包括基于该数据集的模仿学习算法对比框架、跨环境策略迁移方法以及样本高效学习技术的探索。例如，相关研究通过整合该数据集与标准化评估工具包，系统分析了行为克隆、对抗式模仿学习等范式的性能边界，进而推动了模仿学习在理论验证与工程实践中的协同发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集