Aasdfip/scene_adapt_2
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Aasdfip/scene_adapt_2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是使用LeRobot创建的机器人相关数据集,包含243个片段,590242帧数据,涉及16个任务。数据集包含多模态数据,如动作数据(12个关节位置)、观测状态(12个关节位置)、左右手腕和右上方摄像头拍摄的视频(480x640分辨率,30fps)。数据以parquet格式存储,视频以mp4格式存储。数据集总大小为300MB(数据文件100MB,视频文件200MB)。
This dataset was created using LeRobot and contains robotics-related data with 243 episodes, 590242 frames, and 16 tasks. It includes multimodal data such as action data (12 joint positions), observation states (12 joint positions), and videos captured by left wrist, right wrist, and right top cameras (480x640 resolution, 30fps). The data is stored in parquet format, and videos are in mp4 format. The total dataset size is 300MB (100MB for data files and 200MB for video files).
提供机构:
Aasdfip
搜集汇总
数据集介绍

构建方式
scene_adapt_2数据集依托于LeRobot框架构建,旨在服务于机器人操作技能学习领域。该数据集通过真实的物理机器人环境采集而来,机器人型号为bi_so_follower,其双臂各拥有6个自由度,包括肩部、肘部、腕部及夹爪的位姿运动。采集过程中,机器人执行了共计16种不同的操作任务,包含243个完整操作回合,累积获得590,242帧时序数据。所有数据以30帧每秒的采样率进行记录,并按照1000帧为一个数据块进行分片存储,最终以Parquet格式组织于data目录下,实现了高效的结构化数据存储。
使用方法
使用本数据集时,首先需安装LeRobot库以支持数据加载与可视化。数据已被统一划分为训练集,用户可直接通过Hugging Face Datasets接口读取Parquet文件,并借助元信息文件中的特征描述解析动作、状态及图像等多模态字段。对于视频数据,LeRobot提供了高效的编解码管道以按需获取特定帧序列。研究者亦可利用集成的在线可视化工具(如Hugging Face Spaces)预览采集片段,或依据任务索引筛选特定操作类型的子集进行模型训练与评估。
背景与挑战
背景概述
scene_adapt_2数据集由匿名研究团队基于LeRobot框架构建,于2024年发布,旨在推动机器人操作技能的泛化研究。该数据集聚焦于双臂协作机器人(bi_so_follower)在多样化场景下的自适应能力,包含243个演示片段、超过59万帧图像和视频数据,覆盖16种不同任务,如抓取、放置和装配等。通过记录双臂12个关节的位姿和腕部、顶部多视角视觉信息,该数据集为机器人从仿真环境向真实场景的迁移学习提供了标准化基准,在具身智能领域具有重要影响,尤其促进了场景自适应策略的发展。
当前挑战
该数据集所解决的核心领域挑战在于机器人操作策略的跨场景泛化性,即如何使学习到的动作策略在光照、物体布局和背景变化下保持鲁棒性,这要求数据集在有限样本中覆盖足够的场景变异性。数据集构建过程中的主要挑战包括:1)多模态数据(高维动作序列与视频流)的同步与标注精度,需在30FPS下对齐12维动作指令与三视角图像;2)双臂机器人(bi_so_follower)的复杂运动学约束,确保左右臂的协调动作不冲突;3)大规模视频存储与压缩,在保持视觉细节的同时将数据量控制在100MB以内,并采用AV1编码以平衡质量与效率。这些挑战的克服为后续场景自适应算法的验证提供了关键基础设施。
常用场景
经典使用场景
scene_adapt_2数据集专为机器人灵巧操作任务而设计,在双臂协同作业场景中扮演着关键角色。该数据集包含了243个高质量演示轨迹,覆盖16种不同的操作任务,每个轨迹均记录了12维关节动作指令与多视角视觉观测。研究者通常利用这些数据训练模仿学习模型,例如行为克隆或扩散策略,使机器人能够从人类演示中习得精细的操作技能。多模态信息——包括左右腕部与顶部摄像头的视频流——为模型提供了丰富的视觉上下文,使其在复杂环境中也能稳定执行抓取、放置和装配等动作。
解决学术问题
该数据集直面机器人操作学习中的两大核心挑战:场景泛化能力不足与多视角数据融合难题。通过提供涵盖多种任务和场景的标准化训练数据,scene_adapt_2使研究者能够系统评估算法在变化环境中的鲁棒性。其多摄像头配置有效缓解了遮挡和视角依赖问题,推动了视觉-运动联合表征学习的进步。该数据集的发布填补了双臂协同操作领域高质量开源数据的空白,为对比不同模仿学习框架、探索注意力机制或扩散模型在机器人控制中的应用提供了基准平台。
实际应用
在实际部署中,基于scene_adapt_2训练的模型可直接迁移至工业装配线和家庭服务机器人。例如,机器人可借助学到的抓取策略,在杂乱桌面上识别并拾取特定零件,或完成旋钮旋转、物体传递等精密操作。数据集中的多视角视频数据还支持远程操作系统的开发,操作员可通过腕部与顶部摄像头画面实时控制机器人执行复杂任务。此外,该数据规模兼顾了训练效率与硬件约束,使其成为机器人实验室验证新算法的理想选择。
数据集最近研究
最新研究方向
在具身智能与机器人学习领域,场景自适应(Scene Adaptation)与多任务模仿学习已成为突破性前沿方向。该数据集依托LeRobot框架,采集了双机械臂(bi_so_follower)在16种任务场景下、243个回合、近60万帧的高频(30fps)多视角视觉与运动状态数据,尤以左右腕与顶部三路高清视频(480×640)协同12维动作序列为特色。当前研究热点聚焦于利用此类细粒度多模态数据训练泛化性强的机器人基础模型,推动从单一场景模拟到跨场景、跨对象快速适应的能力跃迁。其Apache-2.0开源许可与标准化parquet+视频存储范式,为大规模模仿学习、行为克隆及视觉-运动联合表征的深度探索提供了高价值的公共基准,有望加速机器人从实验室向复杂动态现实环境的部署进程。
以上内容由遇见数据集搜集并总结生成



