fangchenliu/maskdp_data

Name: fangchenliu/maskdp_data
Creator: fangchenliu
Published: 2023-12-16 04:20:31
License: 暂无描述

Hugging Face2023-12-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/fangchenliu/maskdp_data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于论文《Masked Autoencoding for Scalable and Generalizable Decision Making》，包含四种类型的数据：无监督（使用纯内在奖励的训练经验）、半监督（使用内在奖励加外在奖励的训练经验）、监督（使用纯外在奖励的训练经验）和专家数据（来自接近专家策略的TD3检查点的数据）。数据集的组织格式包括训练数据和评估数据，分别存储在不同的文件夹中。

This dataset is intended for the paper titled *Masked Autoencoding for Scalable and Generalizable Decision Making*. It contains four types of data: unsupervised data (training experiences using purely intrinsic rewards), semi-supervised data (training experiences using both intrinsic and extrinsic rewards), supervised data (training experiences using purely extrinsic rewards), and expert data (data sourced from TD3 checkpoints that approximate expert policies). The dataset is structured into training and evaluation subsets, which are stored in separate directories.

提供机构：

fangchenliu

原始信息汇总

数据集概述

数据集名称

Dataset for Masked Autoencoding for Scalable and Generalizable Decision Making

数据集来源

该数据集用于论文《Masked Autoencoding for Scalable and Generalizable Decision Making》。

数据集格式

数据集的组织结构如下：

├── maskdp_train │ ├── cheetah │ │ ├── expert # 来自TD3策略的近专家轨迹 | | | ├── cheetah_run | | | | ├── 0.npy | | | | ├── 1.npy | | | | ├── ... | | | ├── cheetah_run_backwards │ │ ├── sup # 监督数据，完整经验回放与外在奖励 | | | ├── cheetah_run | | | ├── cheetah_run_backwards │ │ ├── semi # 半监督数据，完整经验回放与内在+外在奖励 | | | ├── cheetah_run | | | ├── cheetah_run_backwards │ │ ├── unsup # 无监督数据，完整经验回放与内在奖励 | | | ├── 0.npy | | | ├── 1.npy | | | ├── ... │ ├── walker ... │ ├── quadruped ... ├── maskdp_eval │ ├── expert │ │ ├── cheetah_run │ │ ├── cheetah_run_backwards │ │ ├── ... │ │ ├── walker_stand │ │ ├── quadruped_walk │ │ ├── ... │ ├── unsup │ │ ├── cheetah │ │ ├── walker │ │ ├── quadruped

数据类型

数据集包含以下四种类型：

无监督数据（仅使用内在奖励的训练经验）
半监督数据（使用内在奖励+外在奖励的训练经验）
监督数据（仅使用外在奖励的训练经验）
专家数据（来自近专家TD3检查点的轨迹）

搜集汇总

数据集介绍

构建方式

在强化学习领域，数据集的构建往往决定了模型的泛化能力。该数据集通过整合四种不同奖励机制下的训练经验，构建了一个多层次的学习环境。具体而言，它收集了基于内在奖励的无监督数据、结合内在与外在奖励的半监督数据、仅依赖外在奖励的监督数据，以及来自近专家TD3策略的专家轨迹。这些数据覆盖了多个机器人控制任务，如猎豹奔跑、行走器站立等，通过系统化的经验回放策略，确保了数据在时序与任务维度上的丰富性。

使用方法

使用该数据集时，研究者可依据具体实验目标灵活调用不同数据子集。例如，在掩码自编码框架下，无监督数据可用于预训练以捕获环境动态，半监督与监督数据则能微调策略以适应特定任务，专家数据可作为评估基准。数据集按任务和数据类型分层组织，用户可通过加载对应的.npy文件直接访问状态-动作序列，从而高效地进行模型训练与验证，推动决策智能的通用性研究。

背景与挑战

背景概述

在强化学习与决策智能领域，如何高效利用大规模、多样化的经验数据以提升模型的泛化能力与可扩展性，一直是核心研究议题。2022年，由Fangchen Liu、Hao Liu、Aditya Grover及Pieter Abbeel等研究人员在NeurIPS会议上提出的Masked Autoencoding for Scalable and Generalizable Decision Making研究，旨在通过掩码自编码技术探索决策任务中的表示学习。该数据集作为支撑研究的关键资源，系统整合了包括猎豹、步行者与四足机器人在内的多种仿真环境数据，涵盖了无监督、半监督、监督及专家示范四种经验类型，为推进序列决策模型的预训练与迁移学习提供了重要基础。

当前挑战

该数据集致力于解决决策智能中模型泛化与可扩展性的挑战，其核心问题在于如何从异构、多源的经验数据中学习鲁棒的策略表示。具体构建挑战包括：首先，在数据采集阶段需平衡不同奖励信号（内在奖励与外在奖励）的融合，以确保半监督数据的有效性；其次，专家示范数据的生成依赖于近专家策略的滚动输出，这对策略的稳定性与数据质量提出了较高要求；此外，数据结构的组织需支持灵活的实验设计，以应对不同学习范式（如离线强化学习与表示学习）的评估需求。

常用场景

经典使用场景

在强化学习与决策智能领域，该数据集为掩码自编码预训练范式提供了标准化的实验基准。研究者通常利用其包含的无监督、半监督、监督及专家轨迹数据，系统评估模型在稀疏奖励或复杂环境下的泛化能力与可扩展性。例如，通过对比不同数据模态下的策略学习效果，能够深入探索表征学习与决策过程的耦合机制，为构建通用决策智能体奠定数据基础。

解决学术问题

该数据集有效应对了决策智能中数据效率低下与泛化能力不足的核心挑战。通过整合多模态交互数据，它支持研究者探究内在奖励与外在奖励的协同优化机制，缓解强化学习对密集奖励信号的依赖。其结构化设计促进了跨任务迁移、离线强化学习以及表征学习等前沿方向的实证研究，推动了决策模型从狭窄任务向广泛场景的演进。

实际应用

在实际机器人控制与仿真环境中，该数据集能够指导开发适应动态场景的自主决策系统。例如，在四足机器人行走、猎豹奔跑等连续控制任务中，利用数据集中提供的专家轨迹与无监督探索数据，可训练出稳健且高效的运动策略。这类系统有望应用于复杂工业自动化、适应性机器人导航以及实时交互仿真平台，提升智能体在现实世界中的执行可靠性。

数据集最近研究