community_dataset_v3

Hugging Face2025-12-10 更新2025-12-11 收录

下载链接：

https://huggingface.co/datasets/HuggingFaceVLA/community_dataset_v3

下载链接

链接失效反馈

官方服务：

资源简介：

Community Dataset v3是一个大规模机器人数据集，专为视觉-语言-动作学习设计，包含791个数据集，涵盖46种机器人类型，支持跨体现预训练。数据集由全球235名社区贡献者共同构建，基于SmolVLA、Community Datasets v1和v2的预训练数据集，经过清理和组织。数据集结构包括贡献者文件夹，每个文件夹下包含数据集名称、数据（Parquet文件）、视频（MP4格式）和元数据（JSON格式）。数据集支持多种用途，如跨体现VLA训练、多任务操作、迁移学习等。

创建时间：

2025-12-10

原始信息汇总

Community Dataset v3 数据集概述

数据集基本信息

数据集名称: Community Dataset v3
许可证: Apache 2.0
标签: robotics, community, so100, so101, manipulation, smolvla, lerobot community, vision-language-action, embodied-ai, cross-embodiment
任务类别: robotics
语言: 英语 (en)
数据规模: 10M < n < 100M
描述: 一个用于视觉-语言-动作学习的大规模机器人数据集，支持跨具身预训练。

数据集概况

这是一个众包、开源的数据集，由全球235位社区贡献者共同构建。该数据集在用于SmolVLA、Community Datasets v1和v2的预训练数据集基础上，提供了一个经过清理和组织的版本，旨在为另一批全新的社区贡献数据开启跨具身训练的大门。

核心统计信息

指标	数值
数据集总数	791
总情节数	50,622
总帧数	25,971,082
总时长	240.47 小时 (10.02 天)
贡献者数量	235
机器人类型	46 种不同构型
动作维度	12 种不同配置
平均时长/数据集	0.30 小时

机器人类型分布

按类别划分

单臂机械臂: 72% (571 个数据集)
双臂系统: 12% (95 个数据集)
移动操作: 8% (63 个数据集)
人形平台: 1% (8 个数据集)
其他配置: 7% (54 个数据集)

前10大机器人类型

机器人类型	数据集数量	占比	类别
so100	248	31.4%	单臂
so101_follower	124	15.7%	单臂
so100_follower	121	15.3%	单臂
so101	82	10.4%	单臂
arx5	43	5.4%	单臂
koch	38	4.8%	单臂
trossen_ai_mobile	25	3.2%	移动
bi_xarm6_follower	16	2.0%	双臂
so100_bimanual	12	1.5%	双臂
koch_follower	8	1.0%	单臂

数据集结构

数据集采用层级目录结构组织，根目录为 community_dataset_v3_clean/，其下按贡献者名称组织子目录。每个贡献者目录下包含一个或多个具体的数据集文件夹。每个数据集文件夹内通常包含：

data/：存储以Parquet格式保存的观测数据（情节文件）。
videos/：存储多视角的MP4格式视频录制文件。
meta/：存储元数据文件（如 info.json）。

主要用途

该数据集支持以下用途：

跨具身VLA训练：学习可泛化到不同机器人类型的策略。
多任务操作：如抓放、分类、装配、双手任务。
迁移学习：利用多样化的演示数据适配新机器人。
模仿学习研究：大规模行为克隆。
通用机器人策略：训练可在多个平台上工作的模型。
移动操作：导航与操作结合的任务。
具身人工智能研究：视觉-运动协调。

数据清理与挑战

数据集在清理过程中面临并处理了以下来自真实社区贡献数据的挑战：

缺失视频文件：移除了约15-20个因文件缺失会导致训练崩溃的数据集。
数据类型不兼容：移除了约10-15个因数据类型问题导致随机崩溃的数据集，并实现了稳健的批次整理。
多相机配置问题：通过设置 config.max_num_images = 3 来标准化输入张量形状，以兼容大多数使用2-3个相机视角的数据集。
视频时间戳未对齐：存在轻微的时间不一致性，训练可通过自动回退到最接近的帧继续。
最终结果：从原始的851个数据集中，清理后得到791个干净的数据集。

使用要求与兼容性

访问权限：需要登录Hugging Face并认证。
数据格式：所有数据均使用LeRobot框架收集，并与VLAb预训练框架兼容。
训练框架：设计用于通过VLAb框架进行跨具身VLA训练。

主要贡献者

贡献者	数据集数量	占比
shuohsuan	57	7.2%
villekuosmanen	47	5.9%
LeRobot-worldwide-hackathon	31	3.9%
lt-s	27	3.4%
Qipei	23	2.9%
bjb7	18	2.3%
kumarhans	18	2.3%
Ryosei2	17	2.1%
kyomangold	16	2.0%
psg777	16	2.0%
其他 (225位)	521	65.9%

许可证与致谢

许可证：Apache 2.0 许可证。个别数据集可能有额外的署名要求。
使用要求：
- 引用该数据集和VLAb框架。
- 致谢社区贡献者。
- 遵守Apache 2.0许可证条款。
- 考虑贡献自己的数据。

搜集汇总

数据集介绍

构建方式

在具身智能领域，大规模、多样化的机器人交互数据是推动通用策略发展的基石。Community Dataset v3的构建采用了全球众包协作模式，汇聚了来自235位社区贡献者的力量。该数据集以LeRobot框架为统一采集标准，经过系统化清洗与整理，从原始851个数据集中筛选出791个高质量样本，涵盖46种机器人本体构型。构建过程中重点解决了视频文件缺失、数据类型不一致、多相机配置差异等技术挑战，确保了数据的完整性与兼容性，最终形成了包含5万余条轨迹、近2600万帧图像、总时长超过240小时的标准化数据集。

特点

该数据集的核心特征在于其卓越的跨本体多样性与真实世界复杂性。它覆盖了单臂、双臂、移动操作及人形机器人等多种构型，其中单臂操作器占比达72%，体现了以精细操作为主导的任务分布。数据集蕴含了由全球社区成员在非受控环境下采集的真实交互数据，这种“野外”特性带来了数据质量、录制设置与机器人配置的自然异质性，为模型应对现实世界的复杂性提供了宝贵资源。其结构化组织以贡献者为单位，便于追溯数据来源，并完全兼容VLAb预训练框架，为跨本体视觉-语言-动作学习奠定了坚实基础。

使用方法

为有效利用该数据集进行跨本体预训练，用户需首先通过Hugging Face CLI完成身份验证并下载数据。数据集采用层级目录结构组织，用户可使用LeRobotDataset类加载特定贡献者的数据集，并访问其中的轨迹与帧级数据。该数据集专为与VLAb框架协同工作而设计，用户可通过配置训练脚本，指定多个不同机器人本体的数据集进行联合训练，以学习通用的策略表示。训练过程中需注意处理数据固有的异质性，例如通过设置`max_num_images`等参数标准化输入维度，确保模型能够稳健地从多样化的社区数据中提取可迁移的知识与技能。

背景与挑战

背景概述

在具身人工智能领域，实现能够泛化至多种机器人平台的通用策略是核心研究目标。Community Dataset v3作为一项大规模、众包的视觉-语言-动作数据集，由HuggingFace的LeRobot社区于近期构建，汇集了全球235位贡献者提供的791个数据集，涵盖46种机器人构型。该数据集旨在支持跨构型预训练，为通用机器人策略的学习提供丰富且多样化的演示数据，是推动开放机器人学发展的重要基础设施。

当前挑战

该数据集致力于解决跨机器人构型的通用策略学习这一领域挑战，其核心在于如何从异构的演示数据中提取可迁移的运动模式。在构建过程中，众包数据固有的不一致性构成了主要挑战，具体包括：部分数据集存在视频文件缺失导致训练崩溃；数据格式与类型不兼容引发随机错误；多相机视图配置差异造成张量形状不匹配；以及视频帧时间戳错位带来的时序对齐问题。这些挑战均需通过系统性的数据清洗与标准化流程予以克服。

常用场景

经典使用场景

在具身智能与机器人学习领域，跨本体泛化是核心挑战之一。Community Dataset v3作为大规模视觉-语言-动作数据集，其最经典的使用场景在于为跨本体预训练提供数据基础。研究者利用该数据集包含的46种机器人本体、近800个数据集，训练通用型机器人策略模型，使单一模型能够适应不同机械结构、传感器配置和执行器类型的机器人平台，显著提升了策略的泛化能力与部署灵活性。

实际应用

在实际机器人部署中，该数据集支撑了从实验室原型到现实场景的平滑过渡。基于其训练的模型可直接应用于工业分拣、家庭服务辅助、物流搬运等复杂操作任务，降低了针对特定机器人进行数据收集与模型训练的定制化成本。尤其在移动操作、双手协同及人形机器人等前沿平台，数据集提供的多视角视频与动作序列为理解三维空间交互、实现精细物体操控提供了关键训练素材，加速了智能机器人技术的实用化进程。

衍生相关工作

围绕该数据集已衍生出系列标志性研究工作。以SmolVLA为代表的视觉-语言-动作模型架构，利用此类社区数据集实现了跨本体策略学习；VLAb预训练框架则专门为处理此类异构多模态数据而设计。后续研究进一步探索了基于该数据集的动作预测精度提升、多任务策略共享机制以及仿真到实物的迁移方法，这些工作共同推动了开源机器人学习生态的繁荣，为构建通用机器人基础模型提供了可复现的实验基准与性能对比依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集