DeepMind Control Vision Benchmark (DMC-VB)|强化学习数据集|视觉控制数据集

arXiv2024-09-27 更新2024-10-01 收录

强化学习

视觉控制

下载链接：

https://github.com/google-deepmind/dmc_vision_benchmark

下载链接

链接失效反馈

资源简介：

DeepMind Control Vision Benchmark (DMC-VB)是由谷歌DeepMind创建的一个用于评估离线强化学习代理在视觉干扰下连续控制任务鲁棒性的数据集。该数据集结合了不同难度的运动和导航任务，包含静态和动态视觉变化，并考虑了不同技能水平的数据生成策略。数据集包含100万条数据，比之前的类似数据集大一个数量级，并且包括了隐藏目标的任务。DMC-VB旨在通过系统地评估表示学习方法，推动控制领域中表示学习的研究，特别是在视觉干扰和隐藏目标任务中的应用。

提供机构：

谷歌DeepMind

创建时间：

2024-09-27

原始信息汇总

DeepMind Control Vision Benchmark (DMC-VB)

数据集概述

DMC-VB 是一个用于评估和基准化在视觉干扰环境下控制任务的表示学习方法的数据集。该数据集包含基于 DM Control Suite 的 3 个运动任务和 7 个蚂蚁迷宫（运动 + 导航）任务的收集片段。

数据集组成

运动任务：包含 3 个不同的运动任务（不同的实体），每个任务在不同的行为策略技能水平下收集数据。每个单元格中的视频分别展示了无干扰、静态干扰和动态干扰下的单个片段。每个数据子集包含 2000 个片段（或 100 万步）。
蚂蚁迷宫任务：包含 7 个不同的迷宫任务，每个任务对应不同的迷宫布局。数据集通过 4 种不同的地板和墙壁纹理来实现视觉变化。每个数据子集包含 100 万步。

数据下载

数据集存储在 Google Cloud Platform (GCP) 的 dmc_vision_benchmark 存储桶中，总大小约为 1.6TB。用户可以通过 gcloud CLI 下载完整数据集或其子集。

安装与使用

数据集的安装和使用需要下载 GitHub 仓库，并通过 pip 安装相关包。提供了示例脚本和配置文件，用户可以根据需要调整路径和配置。

代理与表示学习方法

数据集支持多种代理和表示学习方法，包括行为克隆（BC）、TD3-BC 等，以及视觉编码器的预训练方法，如逆动力学模型、潜在前向模型等。

基准测试

数据集包含 3 个基准测试脚本，用于复现论文中的实验结果，分别研究视觉表示学习对干扰的鲁棒性、混合质量数据对有限专家数据的改进以及任务中随机隐藏目标对固定隐藏目标和有限专家数据的改进。

引用

如需引用此工作，请使用提供的 BibTeX 格式。

许可证

软件部分采用 Apache 2.0 许可证，其他材料采用 Creative Commons Attribution 4.0 International License (CC-BY)。

AI搜集汇总

数据集介绍

构建方式

DMC-VB数据集通过在DeepMind Control Suite环境中收集数据构建，旨在评估离线强化学习代理在视觉干扰下的鲁棒性。该数据集结合了不同难度的运动和导航任务，包括静态和动态视觉变化，考虑了不同技能水平策略生成的数据，并系统地返回状态和像素观测对。此外，DMC-VB数据集的规模比先前的数据集大一个数量级，并包含具有隐藏目标的任务。

使用方法

DMC-VB数据集的使用方法包括预训练视觉编码器和策略网络。首先，通过最小化表示学习损失来预训练视觉编码器。随后，在保持编码器不变的情况下，通过最小化策略学习目标来训练策略网络。此外，数据集还提供了基于状态的基准线，用于评估表示学习方法的性能上限。

背景与挑战

背景概述

DeepMind Control Vision Benchmark (DMC-VB) 是由Google DeepMind的研究团队开发的一个用于评估视觉干扰下离线强化学习代理鲁棒性的数据集。该数据集于2024年由Joseph Ortiz、Antoine Dedieu等研究人员创建，旨在解决现有离线强化学习代理在面对视觉变化时表现脆弱的问题。DMC-VB结合了多种运动和导航任务，包含了静态和动态的视觉变化，以及不同技能水平的数据生成策略。该数据集的引入为研究视觉表示学习在控制任务中的应用提供了系统化的评估工具，推动了离线强化学习领域的发展。

当前挑战

DMC-VB数据集面临的挑战主要集中在两个方面：一是解决领域问题中的视觉干扰，即如何在视觉输入中区分控制相关和无关的变量，以提高代理的泛化能力；二是在构建过程中，如何生成具有多样性和高质量的演示数据，以及如何处理大规模数据集的管理和评估。此外，数据集的合成性质可能限制其在真实世界任务中的应用，需要进一步研究如何引入更多样化和现实化的视觉干扰，以增强研究结果的实际应用价值。

常用场景

经典使用场景

DMC-VB数据集的经典使用场景主要集中在评估离线强化学习代理在视觉输入下的连续控制任务中的鲁棒性。通过结合不同难度级别的运动和导航任务，以及静态和动态视觉干扰，该数据集能够系统地测试代理在视觉干扰环境中的表现。此外，DMC-VB还考虑了由不同技能水平策略生成的数据，以及系统返回的状态和像素观察对，从而为研究者提供了一个全面的评估平台。

解决学术问题

DMC-VB数据集解决了离线强化学习中代理在视觉数据上训练时对新视觉域泛化能力差的问题。通过引入视觉干扰和不同技能水平的数据，该数据集帮助研究者理解和改进代理在视觉变化下的鲁棒性。此外，DMC-VB还通过包含隐藏目标的任务，推动了对预训练表示在目标不可见情况下的重要性的研究，从而为控制任务中的表示学习提供了新的研究方向。

实际应用

DMC-VB数据集的实际应用场景广泛，特别是在需要从视觉输入中进行复杂控制的领域，如机器人导航和运动控制。通过提供包含视觉干扰和不同技能水平数据的大型数据集，DMC-VB为开发能够在复杂视觉环境中稳健操作的机器人系统提供了宝贵的资源。此外，该数据集还可用于评估和改进自动驾驶系统在视觉干扰下的表现，从而推动这些系统在实际应用中的可靠性。

数据集最近研究