visual_distracting_control_suite

Hugging Face2025-12-22 更新2025-12-23 收录

下载链接：

https://huggingface.co/datasets/EpicPinkPenguin/visual_distracting_control_suite

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Visual Distracting Control Suite Benchmark，包含由PPO强化学习代理在4种不同环境（cheetah_run、hopper_hop、humanoid_walk、walker_run）中生成的专家轨迹。每个环境包含不同干扰级别（无干扰、低干扰、高干扰）的数据和代理的掩码。数据集结构包括观察（图像）、状态、掩码（图像）、动作、奖励、终止标志和截断标志等字段。数据集分为训练集（90%）和测试集（10%），每个环境数据集共有10M步（数据点）。数据集创建过程是通过在每种环境中训练PPO RL代理2M步，并在每个步骤中采取贪婪动作生成的。

This dataset is named the Visual Distracting Control Suite Benchmark. It contains expert trajectories generated by a PPO reinforcement learning agent across four distinct environments: cheetah_run, hopper_hop, humanoid_walk, and walker_run. Each environment includes data and agent masks corresponding to three different distraction levels: no distraction, low distraction, and high distraction. The dataset structure includes fields such as observations (images), states, masks (images), actions, rewards, termination flags, and truncation flags. The dataset is split into a training set (90%) and a test set (10%), with a total of 10 million steps (data points) per environment dataset. The dataset was created by training a PPO RL agent for 2 million steps in each environment and generating trajectories by taking greedy actions at each step.

创建时间：

2025-12-16

原始信息汇总

数据集概述：Visual Distracting Control Suite Benchmark

数据集简介

本数据集包含由在 Distracting Control Suite 的4个环境中训练的近端策略优化（PPO）强化学习智能体生成的专家轨迹。针对每个环境，收集了具有不同干扰水平的数据以及智能体的掩码。

数据集结构

配置与任务

数据集包含12个配置，涵盖4个核心环境及其不同干扰水平版本：

猎豹奔跑 (Cheetah Run)
- cheetah_run
- cheetah_run_distractor_low
- cheetah_run_distractor_hard
单足跳跃 (Hopper Hop)
- hopper_hop
- hopper_hop_distractor_low
- hopper_hop_distractor_hard
人形行走 (Humanoid Walk)
- humanoid_walk
- humanoid_walk_distractor_low
- humanoid_walk_distractor_hard
步行者奔跑 (Walker Run)
- walker_run
- walker_run_distractor_low
- walker_run_distractor_hard

数据字段

每个数据实例代表一个单步元组，包含以下字段：

observation: 来自环境的当前RGB观测图像。
state: 环境的当前状态向量。
mask: 智能体的分割掩码图像，背景为0，智能体为255。
action: 智能体针对当前观测预测的动作向量。
reward: 当前观测获得的奖励。
terminated: 当前观测是否导致回合终止。
truncated: 当前观测是否导致回合被截断。

数据划分

每个配置的数据集均划分为训练集（train）和测试集（test），比例为90%和10%。每个环境-数据集总计包含1000万步（数据点）。

数据集规模与统计

配置名称	状态维度	动作维度	训练集样本数	测试集样本数	总样本数	数据集大小 (字节)	下载大小 (字节)
`cheetah_run`	17	6	9,000,000	1,000,000	10,000,000	59,228,665,082	59,157,830,945
`cheetah_run_distractor_hard`	17	6	9,000,000	1,000,000	10,000,000	82,580,449,716	82,580,443,163
`cheetah_run_distractor_low`	17	6	9,000,000	1,000,000	10,000,000	78,525,300,610	78,479,585,672
`hopper_hop`	15	4	9,000,000	1,000,000	10,000,000	57,191,085,351	56,959,206,498
`hopper_hop_distractor_hard`	15	4	9,000,000	1,000,000	10,000,000	80,379,777,609	80,181,035,918
`hopper_hop_distractor_low`	15	4	9,000,000	1,000,000	10,000,000	76,724,766,489	76,492,681,757
`humanoid_walk`	67	21	9,000,000	1,000,000	10,000,000	50,696,043,815	50,789,760,144
`humanoid_walk_distractor_hard`	67	21	1,000	1,000,000	1,001,000	8,002,483,709	8,047,408,322
`humanoid_walk_distractor_low`	67	21	9,000,000	1,000,000	10,000,000	51,129,921,077	51,227,958,513
`walker_run`	24	6	9,000,000	1,000,000	10,000,000	57,321,663,335	56,856,633,613
`walker_run_distractor_hard`	24	6	0	1,000,000	1,000,000	7,628,712,875	7,638,947,326
`walker_run_distractor_low`	24	6	9,000,000	1,000,000	10,000,000	69,162,080,711	68,727,870,276

注意：humanoid_walk_distractor_hard 和 walker_run_distractor_hard 配置的训练集样本数与其他配置不同。

智能体性能

PPO智能体在每个环境中训练了200万步，在评估环境中获得的最终性能指标如下（所有干扰水平下回报相同）：

环境	训练步数	测试步数	回报
`cheetah_run` 及相关变体	9,000,000	1,000,000	837.67
`hopper_hop` 及相关变体	9,000,000	1,000,000	307.33
`humanoid_walk` 及相关变体	9,000,000	1,000,000	616.52
`walker_run` 及相关变体	9,000,000	1,000,000	738.37

数据集创建

数据集通过训练一个PPO强化学习智能体在每个环境中运行200万步创建。轨迹是通过在每一步从预测的动作分布中采取贪婪动作（均值）生成的。智能体基于状态进行训练。每个环境使用相同的随机种子创建，使得不同干扰水平之间的轨迹在除观测（由于视觉干扰）之外的所有方面都完全相同。

背景说明

Distracting Control Suite 是DeepMind Control Suite的扩展，它通过视觉干扰来增强标准的连续控制任务，以评估强化学习算法的鲁棒性。它在保持底层MuJoCo物理和任务动态的同时，引入了与控制目标无关的视觉观测变化（如背景视频、颜色、纹理和相机变化）。这些干扰旨在挑战智能体学习超越虚假视觉关联的表征能力。

使用方式

python from datasets import load_dataset train_dataset = load_dataset("EpicPinkPenguin/visual_distracting_control_suite", name="cheetah_run_distractor_hard", split="train") test_dataset = load_dataset("EpicPinkPenguin/visual_distracting_control_suite", name="cheetah_run_distractor_hard", split="test")

搜集汇总

数据集介绍

构建方式

在强化学习领域，视觉干扰控制套件为评估智能体在复杂视觉环境下的鲁棒性提供了重要基准。该数据集的构建基于近端策略优化算法，通过在四个不同的连续控制环境中训练智能体，并采集其生成的专家轨迹。具体而言，每个环境均设置了无干扰、低干扰和高干扰三种视觉干扰水平，确保在相同随机种子下生成轨迹，使得不同干扰水平间的状态、动作和奖励序列保持一致，仅视觉观察因干扰而呈现差异。数据采集过程涉及智能体执行两百万步训练，并以贪婪策略从预测动作分布中选取动作，最终形成包含一千万步数据点的结构化轨迹集合。

特点

该数据集的核心特征在于其精心设计的视觉干扰层次与高度一致的多模态数据对齐。每个数据实例均包含RGB观察图像、环境状态向量、智能体分割掩码、动作向量、即时奖励以及终止与截断标志，构成了完整的强化学习过渡元组。尤为突出的是，数据集通过固定随机种子，确保了不同干扰水平下轨迹在动力学层面的一致性，从而将视觉变化与任务动态解耦，为研究视觉表示的泛化能力提供了纯净的实验条件。此外，数据集覆盖猎豹奔跑、机器人跳跃、人形行走等多种连续控制任务，且每个任务均提供大规模的训练与测试划分，为算法鲁棒性评估提供了丰富且可控的基准环境。

使用方法

使用该数据集时，研究人员可通过HuggingFace的datasets库便捷加载特定环境与干扰水平的数据配置。以猎豹奔跑任务的高干扰版本为例，调用load_dataset函数并指定数据集名称、环境配置及数据划分，即可分别获取训练集与测试集。数据实例以字典形式呈现，可直接用于训练视觉强化学习模型，或用于评估算法在不同视觉干扰下的泛化性能。由于数据集已预先分割为九比一的比例，用户可立即投入模型训练与验证，无需额外处理。该结构化设计支持端到端的实验流程，助力于视觉鲁棒性、表示学习及跨域泛化等前沿研究方向的探索。

背景与挑战

背景概述

在强化学习领域，视觉观测的鲁棒性已成为推动算法从仿真环境迈向现实应用的核心挑战。Visual Distracting Control Suite 数据集应运而生，它基于谷歌研究院发布的Distracting Control Suite构建，旨在为视觉强化学习提供系统性评估基准。该数据集由研究人员通过近端策略优化智能体在四个连续控制环境中生成专家轨迹，涵盖了猎豹奔跑、机器人行走等多种任务，并特意引入了低干扰与高干扰两种视觉分心层级。其核心研究问题聚焦于如何使智能体在动态变化的视觉噪声中保持策略的稳定性与泛化能力，从而推动视觉表征学习与领域自适应方法的发展，对提升强化学习在复杂现实场景中的实用性具有深远影响。

当前挑战

该数据集致力于解决视觉强化学习中的领域泛化挑战，即智能体如何克服视觉观测中的无关干扰，如背景变化、纹理更迭与相机抖动，从而准确理解与任务相关的物理动力学。构建过程中的主要挑战在于确保干扰的多样性与可控性，需在保持底层物理状态与动作序列一致的前提下，系统性地生成不同干扰层级的视觉观测，以避免引入任务无关的偏差。同时，大规模高质量轨迹数据的采集与标注，尤其是对智能体分割掩码的精确生成，也构成了显著的技术与计算负担。

常用场景

经典使用场景

在视觉强化学习领域，视觉干扰控制套件数据集为评估智能体在复杂视觉环境中的鲁棒性提供了基准。该数据集通过引入不同强度的视觉干扰，如背景视频、颜色变化和纹理扰动，模拟了现实世界中动态且嘈杂的视觉输入。经典使用场景涉及训练和测试强化学习算法在干扰条件下的泛化能力，例如在猎豹奔跑、人形行走等连续控制任务中，智能体需从高维图像观测中提取与任务相关的状态信息，忽略无关的视觉噪声，从而实现稳定的策略学习。

实际应用

在实际应用中，视觉干扰控制套件数据集为机器人控制、自动驾驶等领域的算法开发提供了重要参考。例如，在自动驾驶系统中，车辆需在天气变化、动态背景和光照波动等视觉干扰下稳定感知环境并做出决策。通过利用该数据集训练的强化学习模型，可以提升智能体在类似真实场景中的鲁棒性，减少因视觉噪声导致的决策失误。此外，数据集还可用于模拟工业机器人或服务机器人在非结构化环境中的视觉适应能力，推动智能系统从仿真到实际部署的平稳过渡。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在提升视觉强化学习的泛化性能。例如，基于不变性表示学习的方法，如数据增强、对抗训练和领域随机化，被广泛用于减少智能体对视觉干扰的依赖。此外，一些研究利用该数据集评估模型在跨环境迁移中的表现，推动了元强化学习和自适应策略的发展。这些工作不仅验证了数据集在基准测试中的有效性，还进一步扩展了其在多任务学习、视觉注意力机制和鲁棒控制等方向的应用，形成了丰富的学术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集