LeRobot Dataset|机器人技术数据集|人工智能数据集
收藏LeRobot 数据集概述
数据集简介
LeRobot 数据集是一个面向真实世界机器人应用的先进AI数据集。该数据集支持将OpenX格式数据转换为LeRobot V2.0数据集格式。
关键改进
- OXE标准转换:集成了OXE的标准转换,确保数据一致性。
- 状态与动作信息对齐:状态和动作信息现在完美对齐,提高了数据集的清晰度和连贯性。
- 机器人类型和控制频率:添加了机器人类型和控制频率的注释,提高数据集的可理解性。
- 关节信息:包括关节特定细节,有助于细致理解。
数据集结构
meta/info.json
文件的结构如下:
json { "codebase_version": "v2.0", "robot_type": "franka", "fps": 3, "features": { "observation.images.image_key": { "dtype": "video", "shape": [128, 128, 3], "names": ["height", "width", "rgb"], "info": { "video.fps": 3.0, "video.height": 128, "video.width": 128, "video.channels": 3, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "has_audio": false } }, "observation.state": { "dtype": "float32", "shape": [8], "names": { "motors": ["x", "y", "z", "roll", "pitch", "yaw", "pad", "gripper"] } }, "action": { "dtype": "float32", "shape": [7], "names": { "motors": ["x", "y", "z", "roll", "pitch", "yaw", "gripper"] } } } }
安装
-
下载LeRobot代码: bash git clone https://github.com/huggingface/lerobot.git cd lerobot
-
创建并激活Python 3.10的虚拟环境: bash conda create -y -n lerobot python=3.10 conda activate lerobot
-
安装LeRobot: bash pip install -e .
开始使用
-
下载源代码: bash git clone https://github.com/Tavish9/openx2lerobot.git
-
修改
convert.sh
中的路径: bash python openx_rlds.py --raw-dir /path/to/droid/1.0.0 --local-dir /path/to/LEROBOT_DATASET --repo-id your_hf_id --push-to-hub --batch-size 16 --num-workers 8 --use-videos -
执行脚本: bash bash convert.sh
可用的OpenX_LeRobot数据集
- 已将大部分OpenX数据集上传至huggingface。
- 可以在此空间中查看数据集。
LeRobotDataset格式
-
加载数据集: python dataset = LeRobotDataset("lerobot/aloha_static_coffee")
-
数据集结构: plaintext dataset attributes: ├ hf_dataset: Hugging Face dataset (backed by Arrow/parquet) ├ episode_data_index: 包含每个起始和结束索引的2个张量 ├ stats: 数据集中每个特征的统计信息 ├ info: 数据集的元数据 ├ videos_dir: 视频文件存储路径 └ camera_keys: 访问相机特征的键列表
-
数据集序列化使用的文件格式:
- 使用Hugging Face datasets库序列化为parquet
- 视频存储为mp4格式
- 元数据存储为plain json/jsonl文件
数据集可以从HuggingFace hub无缝上传/下载。在本地工作集时,可以使用local_files_only
参数,并通过root
参数指定位置(默认为~/.cache/huggingface/lerobot
)。
致谢
特别感谢Lerobot团队提供的出色框架。

CACD
跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表,论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。
OpenDataLab 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Frankfort, Frankfort Dow Memorial Field Airport, MI (KFKS)
Timeseries data from \'Frankfort, Frankfort Dow Memorial Field Airport, MI (KFKS)\' (gov_noaa_awc_kfks)cdm_data_type = TimeSeriesVARIABLES:time (seconds since 1970-01-01T00:00:00Z)latitude (degrees_north)longitude (degrees_east)z (Altitude, m)dew_point_temperature (Dew Point, degree_Celsius)dew_point_temperature_qc_agg (Dew Point QARTOD Aggregate Quality Flag)dew_point_temperature_qc_tests (Dew Point QARTOD Individual Tests)air_temperature (degree_Celsius)air_temperature_qc_agg (Air Temperature QARTOD Aggregate Quality Flag)air_temperature_qc_tests (Air Temperature QARTOD Individual Tests)visibility_in_air (Visibility, m)visibility_in_air_qc_agg (Visibility QARTOD Aggregate Quality Flag)visibility_in_air_qc_tests (Visibility QARTOD Individual Tests)wind_speed_of_gust (Wind Gust, m.s-1)wind_speed_of_gust_qc_agg (Wind Gust QARTOD Aggregate Quality Flag)wind_speed_of_gust_qc_tests (Wind Gust QARTOD Individual Tests)wind_speed (m.s-1)wind_speed_qc_agg (Wind Speed QARTOD Aggregate Quality Flag)wind_speed_qc_tests (Wind Speed QARTOD Individual Tests)wind_from_direction (degrees)wind_from_direction_qc_agg (Wind From Direction QARTOD Aggregate Quality Flag)wind_from_direction_qc_tests (Wind From Direction QARTOD Individual Tests)station (Frankfort, Frankfort Dow Memorial Field Airport, MI (KFKS))
ERDDAP 收录
海天瑞声-超大规模中文多领域高质量多轮对话语料库
这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。
魔搭社区 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录