cups

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/ansocho/cups

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，适用于机器人技术相关任务。数据集采用apache-2.0许可证，包含15个总片段，1378帧，1个总任务。数据以parquet文件格式存储，总数据文件大小为100MB，视频文件大小为200MB，帧率为10fps。数据集结构包括训练分割（0:15）。数据特征包括7维动作（delta_x, delta_y, delta_z, delta_roll, delta_pitch, delta_yaw, gripper），下一状态的奖励和完成标志，来自两个摄像头（camera_0和camera_1）的128x128像素的3通道视频观察，8维状态观察，时间戳，以及帧索引、片段索引、索引和任务索引等。

This dataset is created using LeRobot and is suitable for robotics-related tasks. The dataset uses the Apache-2.0 license and contains a total of 15 episodes, 1378 frames, and 1 task. The data is stored in parquet file format, with a total data file size of 100MB and a video file size of 200MB, at a frame rate of 10fps. The dataset structure includes a training split (0:15). Data features include 7-dimensional actions (delta_x, delta_y, delta_z, delta_roll, delta_pitch, delta_yaw, gripper), next-state rewards and completion flags, 128x128 pixel 3-channel video observations from two cameras (camera_0 and camera_1), 8-dimensional state observations, timestamps, as well as frame indices, episode indices, indices, and task indices.

创建时间：

2026-05-04

原始信息汇总

数据集概述：ansocho/cups

基本信息

许可证：Apache-2.0
任务类别：机器人学（Robotics）
标签：LeRobot
创建工具：LeRobot

数据集规模

总片段数：15
总帧数：1378
总任务数：1
帧率：10 FPS
数据文件大小：约 100 MB
视频文件大小：约 200 MB

数据集划分

训练集：包含全部 15 个片段（split: train, 范围 0:15）

数据结构

数据集包含以下特征（features），以 Parquet 文件和视频文件形式存储：

动作（Action）

数据类型：float32
维度：7
动作名称：
- delta_x, delta_y, delta_z（平移）
- delta_roll, delta_pitch, delta_yaw（旋转）
- gripper（夹爪）

观察（Observation）

图像（observation.images）：
- 两个摄像头视角：camera_0 和 camera_1
- 每张图像尺寸：3×128×128（通道，高度，宽度）
- 视频编码：AV1，帧率 10 FPS
状态（observation.state）：
- 数据类型：float32
- 维度：8

其他字段

next.reward：float32，维度 1
next.done：bool，维度 1
timestamp：float32，维度 1
frame_index：int64，维度 1
episode_index：int64，维度 1
index：int64，维度 1
task_index：int64，维度 1

文件路径

数据文件：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

引用

该数据集目前暂无正式引用信息（[More Information Needed]）。

搜集汇总

数据集介绍

构建方式

cups数据集基于LeRobot框架构建，旨在服务于机器人学习领域的研究。该数据集通过真实或模拟环境中的机器人操作采集，共包含15个完整任务片段（episodes），总帧数为1378帧，帧率为10 FPS。数据以Parquet格式存储，视频则以AV1编码的MP4文件保存，所有数据被划分为大小为1000的块（chunks），便于高效加载。数据集仅包含一个训练集分割，涵盖了从任务开始到结束的完整轨迹序列。

特点

cups数据集的一个显著特点是其多模态信息融合。它同时提供高维视觉观测与低维状态数据，其中视觉部分包含两个128×128×3的相机视角（camera_0和camera_1），状态信息为8维浮点向量。动作空间为7维，包括笛卡尔坐标系下的平移、旋转增量及夹爪控制。此外，数据集还记录了时间戳、帧索引、片段索引等元数据，以及奖励和终止标志，为模仿学习和强化学习任务提供了丰富而结构化的训练材料。

使用方法

该数据集可通过HuggingFace Datasets库轻松加载。用户指定配置名称'default'后，系统将自动解析路径为'data/*/*.parquet'的数据文件。建议与LeRobot库协同使用，以利用其内置的采样、转换和模型训练工具。在代码中，可通过'load_dataset("cups")'直接获取迭代器，并访问如'observation.images.camera_0'、'action'等键来提取观测与动作序列。对于视频数据，库会自动处理解码，返回张量格式的帧。

背景与挑战

背景概述

在机器人学习领域，模仿学习通过从专家演示中提取行为策略，为机器人自主操作提供了有效路径。然而，高质量、标准化的操作数据集稀缺，限制了该领域的发展。cups数据集由Hugging Face团队基于LeRobot框架构建，于近年发布，旨在解决机器人操作任务中数据采集与复现的瓶颈。该数据集聚焦于杯子抓取与放置这一典型精细操作任务，包含15个演示片段，共计1378帧，以10帧/秒的频率记录了机器人末端执行器的7维动作（包括平移、旋转及夹爪控制）和双摄像头视觉观测。尽管规模有限，cups数据集通过统一的数据结构和Apache-2.0许可，为机器人操作研究提供了可复用的基准，推动了基于视觉的模仿学习算法在现实场景中的验证与对比。

当前挑战

cups数据集的核心挑战在于其领域覆盖的局限性：仅包含单一任务和少量演示，难以支撑复杂环境下机器人策略的泛化能力。从数据构建看，数据采集依赖手动遥操作示范，过程耗时且一致性低；15个片段的数据量远不足以覆盖杯子形状、物体位置、光照变化等真实场景的多样性。更关键的是，数据集缺乏对状态噪声、动态干扰及任务失败的详细标注，导致从有限观测中学习鲁棒的闭环控制策略极为困难。此外，视觉信息的低分辨率（128×128）和压缩编码（AV1）可能引入信息损失，进一步加剧了策略在域外场景下的性能退化。

常用场景

经典使用场景

在机器人学习领域，cups数据集以其精心构建的多模态信息——包括来自两台摄像头的视觉观测、机械臂末端执行器的7维动作指令以及8维状态向量——成为模仿学习与行为克隆研究的理想训练素材。该数据集涵盖15个完整回合的杯具操作任务，每帧以10Hz频率记录，为机器人学习精细操控策略提供了紧凑而高保真的时序样本，尤其适用于训练基于视觉的运动策略，如扩散策略或 Transformer 架构的动作生成模型。

实际应用

真实世界中，cups数据集所代表的杯具操作能力可直接赋能服务机器人在餐饮、家居等场景中的灵巧抓取与放置任务。例如，餐厅中机器人可依托此类训练数据自行调整夹持器姿态以稳定搬运不同形状的杯具，或在家居环境中完成桌面整理。此外，该数据集的低延迟视频与动作记录特性支持了远程操控系统的开发，使得非专家用户也能通过示范演示教会机器人新技能，极大降低了应用门槛。

衍生相关工作

基于cups数据集，研究者已衍生出多项标志性工作，包括基于扩散模型的机器人动作生成框架（如LeRobot中的扩散策略实施例），以及利用预训练视觉编码器进行跨任务迁移的元学习方法。此外，该数据集常被作为多模态表征解耦研究的验证平台，用于测试状态与视觉特征在动作预测中的互补程度。这些工作不仅提升了数据利用效率，更在机器人技能复用和适应性泛化方面确立了重要里程碑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集