LeRobot Dataset|机器人技术数据集|人工智能数据集
收藏LeRobot 数据集概述
数据集简介
LeRobot 数据集是一个面向真实世界机器人应用的先进AI数据集。该数据集支持将OpenX格式数据转换为LeRobot V2.0数据集格式。
关键改进
- OXE标准转换:集成了OXE的标准转换,确保数据一致性。
- 状态与动作信息对齐:状态和动作信息现在完美对齐,提高了数据集的清晰度和连贯性。
- 机器人类型和控制频率:添加了机器人类型和控制频率的注释,提高数据集的可理解性。
- 关节信息:包括关节特定细节,有助于细致理解。
数据集结构
meta/info.json
文件的结构如下:
json { "codebase_version": "v2.0", "robot_type": "franka", "fps": 3, "features": { "observation.images.image_key": { "dtype": "video", "shape": [128, 128, 3], "names": ["height", "width", "rgb"], "info": { "video.fps": 3.0, "video.height": 128, "video.width": 128, "video.channels": 3, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "has_audio": false } }, "observation.state": { "dtype": "float32", "shape": [8], "names": { "motors": ["x", "y", "z", "roll", "pitch", "yaw", "pad", "gripper"] } }, "action": { "dtype": "float32", "shape": [7], "names": { "motors": ["x", "y", "z", "roll", "pitch", "yaw", "gripper"] } } } }
安装
-
下载LeRobot代码: bash git clone https://github.com/huggingface/lerobot.git cd lerobot
-
创建并激活Python 3.10的虚拟环境: bash conda create -y -n lerobot python=3.10 conda activate lerobot
-
安装LeRobot: bash pip install -e .
开始使用
-
下载源代码: bash git clone https://github.com/Tavish9/openx2lerobot.git
-
修改
convert.sh
中的路径: bash python openx_rlds.py --raw-dir /path/to/droid/1.0.0 --local-dir /path/to/LEROBOT_DATASET --repo-id your_hf_id --push-to-hub --batch-size 16 --num-workers 8 --use-videos -
执行脚本: bash bash convert.sh
可用的OpenX_LeRobot数据集
- 已将大部分OpenX数据集上传至huggingface。
- 可以在此空间中查看数据集。
LeRobotDataset格式
-
加载数据集: python dataset = LeRobotDataset("lerobot/aloha_static_coffee")
-
数据集结构: plaintext dataset attributes: ├ hf_dataset: Hugging Face dataset (backed by Arrow/parquet) ├ episode_data_index: 包含每个起始和结束索引的2个张量 ├ stats: 数据集中每个特征的统计信息 ├ info: 数据集的元数据 ├ videos_dir: 视频文件存储路径 └ camera_keys: 访问相机特征的键列表
-
数据集序列化使用的文件格式:
- 使用Hugging Face datasets库序列化为parquet
- 视频存储为mp4格式
- 元数据存储为plain json/jsonl文件
数据集可以从HuggingFace hub无缝上传/下载。在本地工作集时,可以使用local_files_only
参数,并通过root
参数指定位置(默认为~/.cache/huggingface/lerobot
)。
致谢
特别感谢Lerobot团队提供的出色框架。

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录