fractal20220817_data

Hugging Face2025-08-09 更新2025-08-10 收录

下载链接：

https://huggingface.co/datasets/ucasmichael/fractal20220817_data

下载链接

链接失效反馈

官方服务：

资源简介：

Fractal20220817数据集是一种机器人学习数据集，采用RLDS格式，包含通过Video-Depth-Anything方法生成的单目深度注释。该数据集适用于机器人控制和深度学习研究，提供了丰富的属性和方面信息，以及详细的步骤描述，包括动作、奖励和观察等。

创建时间：

2025-08-08

原始信息汇总

Fractal20220817数据集概述

基本信息

名称: Fractal20220817
许可证: CC-BY-4.0
格式: RLDS
总大小: 144 GB
深度标注方法: Video-Depth-Anything (单目深度估计)

数据集来源

数据集与Google Research的RT-1机器人控制研究相关。

数据结构

数据集采用TensorFlow Datasets的FeaturesDict格式，包含以下主要特征：

属性(attributes)

collection_mode_name: 字符串类型
collection_mode: int64类型
task_family_name: 字符串类型
location_name: 字符串类型
env_name: 字符串类型
env: int64类型
objects_family_name: 字符串类型
data_type: int64类型
objects_family: int64类型
location: int64类型
task_family: int64类型
data_type_name: 字符串类型

方面(aspects)

feasible: bool类型
success: bool类型
undesirable: bool类型
already_success: bool类型
has_aspects: bool类型
描述: 用于crowdcompute评分的会话方面

步骤(steps)

包含序列特征，每个步骤包含：

is_terminal: bool类型
is_first: bool类型
action: 包含多个子特征
- gripper_closedness_action: float32类型(连续夹持器位置)
- terminate_episode: int32类型
- base_displacement_vector: float32类型
- rotation_delta: float32类型(基础相对坐标系中的方向位移)
- base_displacement_vertical_rotation: float32类型
- world_vector: float32类型(基础相对坐标系中的末端执行器位移)
reward: float32类型
observation: 包含多个子特征
- rotation_delta_to_go: float32类型(当前方向到目标的旋转位移)
- orientation_start: float32类型
- height_to_bottom: float32类型(末端执行器离地高度)
- natural_language_instruction: 字符串类型
- natural_language_embedding: float32类型
- workspace_bounds: (未完整显示)

搜集汇总

数据集介绍

构建方式

Fractal20220817数据集作为机器人控制领域的重要资源，采用RLDS（Reinforcement Learning Datasets）格式构建，其核心数据通过Video-Depth-Anything框架生成单目深度注释。该框架利用先进的单目深度估计技术，将二维视觉信息转化为三维空间表征，为机器人动作控制提供精确的环境感知基础。数据集构建过程中严格遵循模块化设计原则，通过分层标注系统记录任务家族、环境参数和物体属性等多维度元数据，确保数据结构的完整性和可扩展性。

特点

该数据集最显著的特点是包含144GB规模的机器人操作序列数据，涵盖丰富的环境场景和任务类型。其深度注释采用最新视频深度估计算法生成，能准确反映复杂场景的空间结构。特征工程方面，数据集不仅包含基础的动作指令和终端状态标记，还创新性地集成了自然语言指令嵌入向量和工作空间边界参数，为多模态机器学习模型提供训练素材。特别设计的布尔型评估指标（如可行性和成功标记）为强化学习算法提供了细粒度的反馈机制。

使用方法

使用该数据集时需结合TensorFlow Datasets库进行加载，其分层特征结构支持灵活的数据查询。研究者可通过'steps'字段访问连续动作-观察序列，利用'aspects'字段获取任务完成质量评估。对于深度学习方法，建议重点关注'natural_language_embedding'与'world_vector'的跨模态关联，或利用'rotation_delta'等运动参数进行轨迹预测模型训练。数据集采用的RLDS格式天然适配强化学习pipeline，可直接与主流RL框架如JAX或PyTorch进行集成。

背景与挑战

背景概述

Fractal20220817数据集由Google Research团队于2022年8月发布，作为机器人控制领域的重要数据资源，旨在推动大规模真实世界控制任务的研究。该数据集采用RLDS（Reinforcement Learning Datasets）格式存储，并集成了基于Video-Depth-Anything框架生成的单目深度注释，为机器人动作规划与环境交互提供了多模态数据支持。其核心研究问题聚焦于如何通过Transformer架构实现机器人操作的泛化能力，相关成果已应用于RT-1机器人控制模型的开发，显著提升了复杂场景下的任务完成鲁棒性。

当前挑战

该数据集面临的挑战主要体现在两方面：在领域问题层面，机器人控制需要解决高维连续动作空间与部分可观测环境下的决策优化难题，现有深度估计算法在动态场景中的精度不足可能影响运动规划效果；在构建过程层面，144GB大规模数据的采集涉及多传感器同步校准与跨模态对齐，RLDS格式对时序动作-状态对的严格标注要求增加了数据清洗复杂度，而单目深度估计在弱纹理区域的误差传播问题仍需算法层面的突破。

常用场景

经典使用场景

在机器人控制与计算机视觉交叉领域，Fractal20220817数据集凭借其RLDS格式和Video-Depth-Anything生成的单目深度标注，成为训练机器人动作预测模型的黄金标准。该数据集通过记录机械臂末端执行器的位移向量、旋转增量等连续动作参数，配合自然语言指令嵌入，为模仿学习提供了多模态交互范本。其包含的任务家族与环境变量配置，使得研究者能够系统评估模型在复杂场景下的泛化能力。

衍生相关工作

基于该数据集衍生的RT-1机器人控制框架，开创了视觉-语言-动作多模态Transformer架构的先河。其深度标注方法催生了Depth-Anything系列三维重建算法，而动作序列建模思想直接影响了后续RoboNet等跨任务迁移研究。数据集的任务家族分类体系，更成为Meta-World等基准测试的重要设计参考。

数据集最近研究