may7_merged_trimmed

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/jjr1007/may7_merged_trimmed

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人领域的数据集，采用Apache-2.0许可证。数据集通过LeRobot工具创建，包含机器人动作、状态观察、时间戳、帧索引、任务索引等多种特征。具体来说，动作和状态观察包括六个关节位置（shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos），并以float32类型存储。观察图像为前端摄像头视频，分辨率为1080x1920，3通道，帧率为30fps。数据集总共有100个episodes，83571帧，1个任务，数据文件大小为100MB，视频文件大小为200MB。数据存储格式为parquet文件和mp4视频文件，机器人类型为so_follower。数据集仅包含训练集。

创建时间：

2026-05-09

原始信息汇总

数据集概述

基本信息

数据集名称：may7_merged_trimmed
许可证：Apache-2.0
任务类别：机器人学（robotics）
标签：LeRobot

数据集结构

总帧数：83,571 帧
总集数（episodes）：100 集
总任务数：1 个
帧率（FPS）：30
数据文件大小：100 MB
视频文件大小：200 MB
机器人类型：so_follower

数据特征

特征名称	数据类型	形状	描述
`action`	float32	[6]	动作指令，包含 shoulder_pan、shoulder_lift、elbow_flex、wrist_flex、wrist_roll、gripper 的位置
`observation.state`	float32	[6]	机器人状态观测，与动作维度相同
`observation.images.front`	video	[1080, 1920, 3]	前置摄像头视频流，分辨率 1920×1080，编码为 AV1，帧率 30 fps
`timestamp`	float32	[1]	时间戳
`frame_index`	int64	[1]	帧索引
`episode_index`	int64	[1]	集数索引
`index`	int64	[1]	整体索引
`task_index`	int64	[1]	任务索引

数据划分

训练集：索引 0 到 99（共 100 集，全部作为训练数据）

数据存储路径

数据文件：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

创建工具

该数据集使用 LeRobot 库创建。

搜集汇总

数据集介绍

构建方式

该数据集名为may7_merged_trimmed，基于LeRobot框架构建，用于机器人学习领域。数据集采用parquet格式存储结构化数据，并辅以MP4格式的视频文件，以分块形式组织于data和videos目录下。其构建共包含100个episode，总计83571帧，帧率为30fps，由单个任务录制而成。数据通过so_follower型机器人采集，记录6维动作信息（包括肩关节、肘关节、腕关节及夹爪的位置）与相同维度的观测状态，同时以1920×1080分辨率的前置摄像头视频帧作为视觉观测来源。数据集划分为单一训练集，所有episode均可直接用于模型训练，整体数据与视频文件分别占用约100MB和200MB存储空间。

使用方法

使用may7_merged_trimmed数据集时，可借助LeRobot库快速加载与预处理。用户通过Hugging Face提供的在线可视化工具可浏览数据集内容，亦可本地调用lerobot脚本读取parquet文件与对应视频。训练过程中，模型需从observation.state和observation.images.front中提取状态与图像特征，并预测action作为输出。由于数据已按episode组织并标明帧索引，用户可依据timestamps构建序列采样器，以固定窗口或随机方式截取训练样本。数据集默认将所有100个episode作为训练集使用，亦可根据需求自定义切片比例，适用于基于行为克隆或扩散策略的机器人操作学习范式。

背景与挑战

背景概述

该数据集由用户jjr1007基于LeRobot框架创建，采用Apache-2.0开源协议，聚焦于机器人操作领域，特别是机械臂的模仿学习与运动控制。数据集‘may7_merged_trimmed’包含100个完整操作轨迹，总计83571帧，以30帧/秒的高频率记录，涵盖六自由度‘so_follower’型机器人末端执行器（肩关节、肘关节、腕关节及夹爪）的位置动作与状态，同时配有1080p高清前视摄像头视频，为学习从视觉输入到动作映射的复杂策略提供了丰富的多模态样本。该数据集源于对机器人精细操作任务的研究需求，旨在通过公开的高质量轨迹数据推动基于视觉的机器人操控模型发展，其详细的特征规范与结构设计（如分块存储parquet与mp4文件）显著降低了研究者的预处理门槛，在机器人策略学习社区中具有基础性支撑作用。

当前挑战

所解决的领域问题在于机器人模仿学习中的‘对应点’难题——如何将高维视觉观测精准映射为连续动作序列，并确保泛化到未见过状态。该数据集通过同步视觉与运动数据、标准化状态表示，为端到端策略训练提供了关键基准，但构建过程面临多重挑战：首先，机器人动作的高频采集（30Hz）与高清视频流（1920×1080）需精密的时空同步，稍有不稳便会破坏状态-动作对应关系；其次，单个任务（以task_index为单一任务）的100条轨迹可能覆盖有限的操作变体，如何在保持数据一致性的前提下扩展任务多样性、规避过拟合，仍是模型泛化与数据集扩容的核心障碍。

常用场景

经典使用场景

在机器人学习与操控领域中，may7_merged_trimmed数据集作为一项细粒度的机器人示教数据资源，广泛应用于模仿学习与行为克隆的研究。该数据集记录了六自由度机械臂（so_follower）在执行单一任务时的完整动作序列与视觉观测信息，包含100个episode、超过八万帧的同步数据。研究者借助其高分辨率的前置摄像头图像（1080×1920像素）与关节空间的状态-动作对，能够构建端到端的视觉运动策略，进而推动机器人从人类示教中泛化学习复杂操控技能。

解决学术问题

该数据集聚焦于解决机器人技能学习中数据获取成本高昂、动作与视觉模态对齐困难的瓶颈问题。通过提供高帧率的同步观测与动作信号，它为验证状态-动作映射的因果推理模型、探索多模态融合策略以及评估低延迟策略执行性能提供了标准化基准。此外，其统一的数据格式与LeRobot开源生态的兼容性，显著降低了研究者复现经典算法（如扩散策略、动作分块变换器）的门槛，助力学术界在有限样本条件下提升策略泛化能力的理论突破。

实际应用

在实际工业与服务业场景中，may7_merged_trimmed数据集支持的机器人技能学习框架可直接迁移至精细操作任务，例如零件装配、柔性物抓取及医疗手术辅助。基于该数据集训练的视觉运动策略，使机械臂能够通过单目视觉实时适应环境变化，减少对预编程轨迹的依赖。在智能仓储物流、家庭服务机器人等应用中，其低延迟且鲁棒的动作生成能力显著提升了人机协作效率与任务完成的成功率。

数据集最近研究