five

LeRobot Dataset|机器人技术数据集|人工智能数据集

收藏
github2025-03-09 更新2025-02-20 收录
机器人技术
人工智能
下载链接:
https://github.com/Tavish9/openx2lerobot
下载链接
链接失效反馈
资源简介:
LeRobot数据集是用于真实世界机器人的人工智能研究的数据集,该仓库中的脚本支持将OpenX格式的数据集转换为LeRobot V2.0及更高版本的数据集格式。

The LeRobot dataset is the latest AI dataset designed for real-world robotic applications.
创建时间:
2025-02-19
原始信息汇总

LeRobot 数据集概述

数据集简介

LeRobot 数据集是一个面向真实世界机器人应用的先进AI数据集。该数据集支持将OpenX格式数据转换为LeRobot V2.0数据集格式。

关键改进

  • OXE标准转换:集成了OXE的标准转换,确保数据一致性。
  • 状态与动作信息对齐:状态和动作信息现在完美对齐,提高了数据集的清晰度和连贯性。
  • 机器人类型和控制频率:添加了机器人类型和控制频率的注释,提高数据集的可理解性。
  • 关节信息:包括关节特定细节,有助于细致理解。

数据集结构

meta/info.json 文件的结构如下:

json { "codebase_version": "v2.0", "robot_type": "franka", "fps": 3, "features": { "observation.images.image_key": { "dtype": "video", "shape": [128, 128, 3], "names": ["height", "width", "rgb"], "info": { "video.fps": 3.0, "video.height": 128, "video.width": 128, "video.channels": 3, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "has_audio": false } }, "observation.state": { "dtype": "float32", "shape": [8], "names": { "motors": ["x", "y", "z", "roll", "pitch", "yaw", "pad", "gripper"] } }, "action": { "dtype": "float32", "shape": [7], "names": { "motors": ["x", "y", "z", "roll", "pitch", "yaw", "gripper"] } } } }

安装

  • 下载LeRobot代码: bash git clone https://github.com/huggingface/lerobot.git cd lerobot

  • 创建并激活Python 3.10的虚拟环境: bash conda create -y -n lerobot python=3.10 conda activate lerobot

  • 安装LeRobot: bash pip install -e .

开始使用

  • 下载源代码: bash git clone https://github.com/Tavish9/openx2lerobot.git

  • 修改convert.sh中的路径: bash python openx_rlds.py --raw-dir /path/to/droid/1.0.0 --local-dir /path/to/LEROBOT_DATASET --repo-id your_hf_id --push-to-hub --batch-size 16 --num-workers 8 --use-videos

  • 执行脚本: bash bash convert.sh

可用的OpenX_LeRobot数据集

  • 已将大部分OpenX数据集上传至huggingface
  • 可以在此空间中查看数据集。

LeRobotDataset格式

  • 加载数据集: python dataset = LeRobotDataset("lerobot/aloha_static_coffee")

  • 数据集结构: plaintext dataset attributes: ├ hf_dataset: Hugging Face dataset (backed by Arrow/parquet) ├ episode_data_index: 包含每个起始和结束索引的2个张量 ├ stats: 数据集中每个特征的统计信息 ├ info: 数据集的元数据 ├ videos_dir: 视频文件存储路径 └ camera_keys: 访问相机特征的键列表

  • 数据集序列化使用的文件格式:

    • 使用Hugging Face datasets库序列化为parquet
    • 视频存储为mp4格式
    • 元数据存储为plain json/jsonl文件

数据集可以从HuggingFace hub无缝上传/下载。在本地工作集时,可以使用local_files_only参数,并通过root参数指定位置(默认为~/.cache/huggingface/lerobot)。

致谢

特别感谢Lerobot团队提供的出色框架。

AI搜集汇总
数据集介绍
main_image_url
构建方式
LeRobot Dataset 旨在将 OpenX 格式数据集转换为 LeRobot V2.0 格式,通过集成 OXE 标准转换、对状态和动作信息进行对齐、添加机器人类型和控制频率注释以及关节信息,确保数据集的统一性和清晰度。
特点
该数据集特点在于集成了 OXE 标准转换,确保了数据的一致性;状态和动作信息对齐,提高了数据集的连贯性;添加了机器人类型和控制频率注释,增强了数据集的可理解性;并包含了关节特定细节,有助于细致理解。
使用方法
使用 LeRobot Dataset 首先需要通过 Git 下载相关代码,并创建 Python 虚拟环境进行安装。数据集可以从 Hugging Face hub 或本地文件夹加载,支持基于时间关系的多帧检索,提供了灵活的数据序列化方式,适用于强化学习和机器人学中的多种类型特征。
背景与挑战
背景概述
LeRobot Dataset是一款面向真实世界机器人应用的人工智能数据集。该数据集由Hugging Face团队开发,旨在提供一种将OpenX数据格式转换为LeRobot V2.0数据格式的方法。自推出以来,它通过集成OXE标准转换、对状态和动作信息的对齐、机器人类型和控制频率的注释以及关节信息的添加,增强了数据集的一致性、清晰度和连贯性。该数据集的最新版本为v2.0,具有最新的lerobot格式,适用于特定类型的机器人,如franka,并提供了每秒3帧的控制频率。该数据集的核心研究问题集中在强化学习和机器人领域,通过提供细致的机器人状态和动作信息,对相关领域产生了重要影响。
当前挑战
LeRobot Dataset在构建过程中遇到的挑战主要包括如何确保数据的一致性和准确性,特别是在转换OpenX数据格式时。此外,数据集在解决领域问题,如机器人控制和仿真等方面也面临挑战,例如如何有效地表示和利用视频数据,以及如何处理大量的机器人状态和动作信息。在实际应用中,数据集的挑战还包括如何提高控制频率和机器人类型的泛化能力,以及如何更好地对齐状态和动作信息以提高数据集的可用性和研究价值。
常用场景
经典使用场景
在现实世界机器人学的领域中,LeRobot Dataset以其精细化的数据标注和丰富的状态、动作信息,成为研究机器人控制与强化学习算法的经典数据集。该数据集常被用于模拟机器人执行复杂任务时的行为决策,如物体抓取、路径规划等。
衍生相关工作
基于LeRobot Dataset,学术界衍生出了多项经典工作,包括但不限于机器人控制策略的优化、强化学习算法的改进以及机器人仿真环境的构建等。这些工作进一步推动了机器人学领域的发展,并提升了相关技术的实际应用水平。
数据集最近研究
最新研究方向
LeRobot数据集作为机器人学领域的先进人工智能应用,其最新研究方向集中在提高数据集的统一性、清晰度与连贯性,以及增强数据集的可解释性和应用性。通过集成OXE标准转换,实现了数据格式的统一;通过状态与动作信息的精确对齐,优化了数据集的内在结构。此外,新增机器人类型和控制频率的注释,以及关节信息的详细描述,为机器人控制策略的研究提供了更为精细化的数据支持。这些改进对于推动机器人学在仿真与实际应用中的研究,特别是在强化学习和机器人状态模拟方面,具有重要的意义和影响。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录