visual_distracting_control_suite
收藏数据集概述:Visual Distracting Control Suite Benchmark
数据集简介
本数据集包含由在 Distracting Control Suite 的4个环境中训练的近端策略优化(PPO)强化学习智能体生成的专家轨迹。针对每个环境,收集了具有不同干扰水平的数据以及智能体的掩码。
数据集结构
配置与任务
数据集包含12个配置,涵盖4个核心环境及其不同干扰水平版本:
- 猎豹奔跑 (Cheetah Run)
cheetah_runcheetah_run_distractor_lowcheetah_run_distractor_hard
- 单足跳跃 (Hopper Hop)
hopper_hophopper_hop_distractor_lowhopper_hop_distractor_hard
- 人形行走 (Humanoid Walk)
humanoid_walkhumanoid_walk_distractor_lowhumanoid_walk_distractor_hard
- 步行者奔跑 (Walker Run)
walker_runwalker_run_distractor_lowwalker_run_distractor_hard
数据字段
每个数据实例代表一个单步元组,包含以下字段:
observation: 来自环境的当前RGB观测图像。state: 环境的当前状态向量。mask: 智能体的分割掩码图像,背景为0,智能体为255。action: 智能体针对当前观测预测的动作向量。reward: 当前观测获得的奖励。terminated: 当前观测是否导致回合终止。truncated: 当前观测是否导致回合被截断。
数据划分
每个配置的数据集均划分为训练集(train)和测试集(test),比例为90%和10%。每个环境-数据集总计包含1000万步(数据点)。
数据集规模与统计
| 配置名称 | 状态维度 | 动作维度 | 训练集样本数 | 测试集样本数 | 总样本数 | 数据集大小 (字节) | 下载大小 (字节) |
|---|---|---|---|---|---|---|---|
cheetah_run |
17 | 6 | 9,000,000 | 1,000,000 | 10,000,000 | 59,228,665,082 | 59,157,830,945 |
cheetah_run_distractor_hard |
17 | 6 | 9,000,000 | 1,000,000 | 10,000,000 | 82,580,449,716 | 82,580,443,163 |
cheetah_run_distractor_low |
17 | 6 | 9,000,000 | 1,000,000 | 10,000,000 | 78,525,300,610 | 78,479,585,672 |
hopper_hop |
15 | 4 | 9,000,000 | 1,000,000 | 10,000,000 | 57,191,085,351 | 56,959,206,498 |
hopper_hop_distractor_hard |
15 | 4 | 9,000,000 | 1,000,000 | 10,000,000 | 80,379,777,609 | 80,181,035,918 |
hopper_hop_distractor_low |
15 | 4 | 9,000,000 | 1,000,000 | 10,000,000 | 76,724,766,489 | 76,492,681,757 |
humanoid_walk |
67 | 21 | 9,000,000 | 1,000,000 | 10,000,000 | 50,696,043,815 | 50,789,760,144 |
humanoid_walk_distractor_hard |
67 | 21 | 1,000 | 1,000,000 | 1,001,000 | 8,002,483,709 | 8,047,408,322 |
humanoid_walk_distractor_low |
67 | 21 | 9,000,000 | 1,000,000 | 10,000,000 | 51,129,921,077 | 51,227,958,513 |
walker_run |
24 | 6 | 9,000,000 | 1,000,000 | 10,000,000 | 57,321,663,335 | 56,856,633,613 |
walker_run_distractor_hard |
24 | 6 | 0 | 1,000,000 | 1,000,000 | 7,628,712,875 | 7,638,947,326 |
walker_run_distractor_low |
24 | 6 | 9,000,000 | 1,000,000 | 10,000,000 | 69,162,080,711 | 68,727,870,276 |
注意:humanoid_walk_distractor_hard 和 walker_run_distractor_hard 配置的训练集样本数与其他配置不同。
智能体性能
PPO智能体在每个环境中训练了200万步,在评估环境中获得的最终性能指标如下(所有干扰水平下回报相同):
| 环境 | 训练步数 | 测试步数 | 回报 |
|---|---|---|---|
cheetah_run 及相关变体 |
9,000,000 | 1,000,000 | 837.67 |
hopper_hop 及相关变体 |
9,000,000 | 1,000,000 | 307.33 |
humanoid_walk 及相关变体 |
9,000,000 | 1,000,000 | 616.52 |
walker_run 及相关变体 |
9,000,000 | 1,000,000 | 738.37 |
数据集创建
数据集通过训练一个PPO强化学习智能体在每个环境中运行200万步创建。轨迹是通过在每一步从预测的动作分布中采取贪婪动作(均值)生成的。智能体基于状态进行训练。每个环境使用相同的随机种子创建,使得不同干扰水平之间的轨迹在除观测(由于视觉干扰)之外的所有方面都完全相同。
背景说明
Distracting Control Suite 是DeepMind Control Suite的扩展,它通过视觉干扰来增强标准的连续控制任务,以评估强化学习算法的鲁棒性。它在保持底层MuJoCo物理和任务动态的同时,引入了与控制目标无关的视觉观测变化(如背景视频、颜色、纹理和相机变化)。这些干扰旨在挑战智能体学习超越虚假视觉关联的表征能力。
使用方式
python from datasets import load_dataset train_dataset = load_dataset("EpicPinkPenguin/visual_distracting_control_suite", name="cheetah_run_distractor_hard", split="train") test_dataset = load_dataset("EpicPinkPenguin/visual_distracting_control_suite", name="cheetah_run_distractor_hard", split="test")




