NathanGavenski/CartPole-v1

Name: NathanGavenski/CartPole-v1
Creator: NathanGavenski
Published: 2024-06-11 13:50:17
License: 暂无描述

Hugging Face2024-06-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/NathanGavenski/CartPole-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Imitation Learning Datasets项目创建，使用了来自HuggingFace的PPO策略的Stable Baselines权重。数据集包含1000个episode，每个episode的平均奖励为500。每个条目包含观察值（长度为4的列表）、动作（0或1）、奖励（浮点数）和是否为episode初始时间步的标志（布尔值）。

This dataset was created by the Imitation Learning Datasets project, utilizing the Stable Baselines weights of the Proximal Policy Optimization (PPO) policy from Hugging Face. The dataset includes 1000 episodes, with an average reward of 500 per episode. Each entry contains observations (a list of length 4), actions (either 0 or 1), rewards (floating-point numbers), and a boolean flag indicating whether the current timestep is the initial one of the episode.

提供机构：

NathanGavenski

原始信息汇总

CartPole-v1 - Imitation Learning Datasets

描述

该数据集包含1,000个回合，平均回合奖励为500。每个条目包含以下内容：

obs (列表): 长度为4的观察值。
action (整数): 动作（0或1）。
reward (浮点数): 该时间步的奖励点。
episode_returns (布尔值): 该状态是否为回合的初始时间步。

使用

可以自由下载并使用teacher.jsonl数据集。如果对使用PyTorch数据集实现感兴趣，可以查看IL Datasets项目。该项目实现了一个基础数据集，可以直接从HuggingFace下载此数据集及其他所有数据集。基础数据集还允许对训练和测试拆分进行更多控制，以及选择使用多少个回合（在不需要1,000个回合的情况下）。

引用

bibtex @inproceedings{gavenski2024ildatasets, author = {Gavenski, Nathan and Luck, Michael and Rodrigues, Odinaldo}, title = {Imitation Learning Datasets: A Toolkit For Creating Datasets, Training Agents and Benchmarking}, year = {2024}, isbn = {9798400704864}, publisher = {International Foundation for Autonomous Agents and Multiagent Systems}, address = {Richland, SC}, abstract = {Imitation learning field requires expert data to train agents in a task. Most often, this learning approach suffers from the absence of available data, which results in techniques being tested on its dataset. Creating datasets is a cumbersome process requiring researchers to train expert agents from scratch, record their interactions and test each benchmark method with newly created data. Moreover, creating new datasets for each new technique results in a lack of consistency in the evaluation process since each dataset can drastically vary in state and action distribution. In response, this work aims to address these issues by creating Imitation Learning Datasets, a toolkit that allows for: (i) curated expert policies with multithreaded support for faster dataset creation; (ii) readily available datasets and techniques with precise measurements; and (iii) sharing implementations of common imitation learning techniques. Demonstration link: https://nathangavenski.github.io/#/il-datasets-video}, booktitle = {Proceedings of the 23rd International Conference on Autonomous Agents and Multiagent Systems}, pages = {2800–2802}, numpages = {3}, keywords = {benchmarking, dataset, imitation learning}, location = {<conf-loc>, <city>Auckland</city>, <country>New Zealand</country>, </conf-loc>}, series = {AAMAS 24} }

搜集汇总

数据集介绍

构建方式

NathanGavenski/CartPole-v1数据集是由Imitation Learning Datasets项目创建的，其构建过程是通过使用来自HuggingFace的Stable Baselines权重，这些权重来自于ppo-CartPole-v1策略。该数据集包含了1000个情节，每个情节由观察值、动作、奖励点和情节返回状态构成，从而为模仿学习提供了专家轨迹数据。

特点

该数据集的特点在于其由专家策略生成的轨迹数据，具有高度的一致性和精确性。数据集大小适中，平均每个情节的回报为500，且每个条目包含了一个长度为4的观察列表、一个动作（0或1）、一个奖励点以及一个表示是否为情节初始时间步的布尔值，这些特点使其成为模仿学习领域研究的理想数据源。

使用方法

用户可以自由下载和使用名为`teacher.jsonl`的数据集。此外，用户还可以通过IL Datasets项目中的PyTorch Dataset实现来使用该数据集，该实现支持直接从HuggingFace下载数据集，并提供了对训练和测试分割以及使用情节数量的控制，以便在不需要全部1000个情节的情况下进行灵活的数据集使用。

背景与挑战

背景概述

在模仿学习的领域中，专家数据对于训练智能体执行特定任务至关重要。NathanGavenski等人于2024年构建了CartPole-v1专家数据集，旨在解决模仿学习领域数据缺乏的问题。该数据集基于HuggingFace的Stable Baselines权重，通过PPO策略生成，包含了1000个平均奖励值为500的剧集。每一数据条目包括观察值、动作、奖励以及是否为剧集初始时间步的标识。该数据集的创建，为模仿学习领域的研究提供了宝贵的实验资源，并在学术研究中产生了显著影响。

当前挑战

CartPole-v1数据集在构建过程中面临的挑战主要包括：一是如何精确地捕捉并记录专家智能体的轨迹，以保证数据的准确性和可靠性；二是如何处理和存储大规模数据，确保数据集的可用性和效率；三是如何在多样化任务中维持数据集的一致性，以便进行有效的比较和评估。此外，该数据集在解决模仿学习领域问题时，也面临着如何从数据中提取有效特征，以及如何利用这些特征进行有效的策略学习的挑战。

常用场景

经典使用场景

在机器学习的模仿学习领域，NathanGavenski/CartPole-v1数据集提供了一个专家轨迹的典范。该数据集由1000个剧集组成，每个剧集包含了一系列的观察值、动作和奖励点，这些信息对于训练模仿学习算法至关重要。其经典使用场景在于，研究者可以利用这些专家数据来训练算法，从而使得算法能够模仿专家的行为，以解决CartPole平衡任务。

实际应用

在实际应用中，NathanGavenski/CartPole-v1数据集的应用场景广泛，尤其是在游戏AI、机器人控制和自动驾驶等领域。这些领域的算法可以通过学习该数据集中的专家行为，快速掌握任务的关键技巧，进而提升系统性能。

衍生相关工作

基于NathanGavenski/CartPole-v1数据集，研究者们已经衍生出了一系列相关工作，包括对数据集的分析、改进以及基于该数据集的模仿学习算法的开发。这些工作不仅推动了模仿学习领域的发展，也为相关领域的交叉融合提供了有力的数据支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集