SmolVLADataset
收藏SmolVLA 数据集概述
数据集简介
SmolVLA数据集是伴随SmolVLA论文发布的多源机器人数据集,聚合了多个开源机器人数据集,采用标准化格式存储,具有确定性训练/验证/测试分割、高效的Parquet存储格式和Hugging Face Hub缓存机制。
核心特征
- 多源机器人数据集:专为SmolVLA策划的多源数据集集合
- Parquet格式存储:采用轻量级模式规范化的Parquet格式
- 确定性分割:提供可重复基准测试的确定性分割
- LeRobot兼容性:与LeRobot(LeRobotDataset接口)兼容
支持任务
- 模仿学习
- 通用机器人策略训练
- 机器人控制模型的跨数据集评估
数据结构
数据字段
每行对应一个观察/动作对,跨数据源采用轻量级规范化模式:
observation:传感器输入(如RGB帧、本体感知状态)action:机器人控制命令dataset:源数据集标识符- 其他列取决于源数据集
数据分割
提供确定性分割比例:
train:80%(默认)validation:10%test:10%
可通过库中的SplitConfig API覆盖分割比例
使用方法
直接使用(预编译包)
python from datasets import load_dataset
dataset = load_dataset("SmolVLADataset/SmolVLADataset", split="train") print(dataset[0])
使用库(重建或自定义)
python from smolvladataset import SmolVLADataset, SplitConfig
默认预编译包
train, val, test = SmolVLADataset()
自定义分割
config = SplitConfig(train=0.7, val=0.15, test=0.15, seed=42) train, val, test = SmolVLADataset(split_config=config)
自定义数据集列表
train, val, test = SmolVLADataset(csv_list="datasets.csv")
数据来源
数据集是多个开源Hugging Face机器人数据集的策划合并,完整列表可在datasets.csv中获取,每个CSV行包含一个Hugging Face数据集仓库ID。
缓存与文件布局
使用库时,缓存工件存储在~/.cache/smolvladataset/<hash>/目录下,包含以下文件:
merged.parquet:带有dataset列的统合数据集stats.parquet:每个数据集的统计信息train.parquet、validation.parquet、test.parquet:分割视图
许可证
采用MIT许可证,每个源数据集保留其自己的许可证,这些许可证适用于其在合并数据集中的行。




