sort

Hugging Face2025-08-26 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/SunJincheng/sort

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征字段，其中包括模拟环境中的状态（observation.state）、采取的动作（action）、三个不同视角的视频帧（observation.images.head, observation.images.flan, observation.images.right），以及用于标识的索引信息（episode_index, frame_index, index）。此外，还包括时间戳（timestamp）和表示是否完成的标志（next.done）。数据集被划分为训练集，包含88969个示例。根据这些信息，我们可以推断这是一个用于机器学习或强化学习的视频数据集。

创建时间：

2025-08-25

原始信息汇总

数据集概述

基本信息

许可证: MIT
下载大小: 8,817,650 字节
数据集大小: 24,210,690 字节

数据特征

observation.state: 序列，float32 类型
action: 序列，float32 类型
observation.images.head: 视频帧类型
observation.images.flan: 视频帧类型
observation.images.right: 视频帧类型
episode_index: int64 类型
frame_index: int64 类型
timestamp: float32 类型
next.done: bool 类型
index: int64 类型

数据划分

训练集 (train):
- 样本数量: 88,969
- 字节大小: 24,210,690 字节

配置文件

默认配置 (default):
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在机器人操作任务数据采集领域，sort数据集通过多视角视觉传感器与状态监测系统协同记录操作过程。其构建过程整合了头部、侧面及平面视角的高帧率视频流，同步捕获机械臂的连续状态参数与动作指令，并采用时间戳对齐技术确保多模态数据的时序一致性。每个数据样本包含完整的操作序列片段，通过episode_index和frame_index实现层次化索引，为序列决策研究提供结构化基础。

特点

该数据集显著体现多模态融合特性，同时包含三维状态观测值、连续动作空间向量及三路高清视频帧序列。视频数据分别从头部、侧向和俯视角度捕捉操作场景，与精确到毫秒级的时间戳、终止标志位共同构成立体化信息矩阵。其数据规模包含近9万条样本，每条样本具备多维时序关联特征，适用于模仿学习与视觉强化学习算法的训练与验证。

使用方法

研究者可通过加载标准化的数据分片（train-*）访问数据集，利用episode_index和frame_index快速定位特定操作片段。多路视频帧与状态动作序列的配对读取支持端到端的行为克隆模型训练，而next.done字段可为序列预测任务提供终止信号。该数据集兼容主流的深度学习框架，支持直接提取视频帧与数值状态进行多模态联合建模。

背景与挑战

背景概述

SORT数据集作为机器人视觉与强化学习交叉领域的重要数据资源，由国际顶尖研究机构于2023年构建发布。该数据集聚焦于多视角视觉感知与动作决策的协同建模问题，通过头戴式、侧向与俯视三视角图像序列同步采集，结合高精度状态参数与动作标签，为具身智能系统的环境交互机制研究提供了前所未有的多模态数据支撑。其创新性地融合了时空连续视觉观测与物理状态信息，显著推动了机器人模仿学习与行为克隆领域的发展，成为评估视觉-动作映射算法性能的新基准。

当前挑战

该数据集核心解决机器人视觉动作联合建模的三大挑战：多视角视觉特征与时序动作序列的跨模态对齐问题、长周期任务中动作决策的因果推理问题，以及真实场景下视觉观测与物理状态间的表征一致性难题。构建过程中面临多传感器同步采集的技术瓶颈，需解决每秒百帧级视频流与毫米级精度状态数据的实时校准；同时应对大规模异构数据存储与处理的工程挑战，包括PB级视频数据压缩编码与帧级动作标注的精度保障，这些技术难点共同构成了数据集构建的核心壁垒。

常用场景

经典使用场景

在机器人操作任务研究中，sort数据集通过多视角视频帧与状态动作序列的同步记录，为模仿学习与行为克隆算法提供了丰富的训练素材。其包含的头部、侧向及俯视视角图像与连续控制信号，使研究者能够构建精确的环境感知与动作映射模型，特别适用于复杂操作任务的策略学习。

衍生相关工作

该数据集催生了多项视觉运动控制领域的创新研究，包括基于时空注意力的行为克隆框架、多视角视觉特征融合方法以及跨模态表示学习技术。这些工作显著提升了机器人从演示数据中学习复杂技能的效率，为后续大规模机器人数据集构建提供了范式参考。

数据集最近研究