RoVid-X

Hugging Face2026-01-22 更新2026-01-23 收录

下载链接：

https://huggingface.co/datasets/DAGroup-PKU/RoVid-X

下载链接

链接失效反馈

官方服务：

资源简介：

RoVid-X是一个大规模机器人视频生成数据集，包含4M机器人视频片段（超过10,000小时），涵盖1300+细粒度机器人技能，支持多样化的动作和任务原语。数据集提供多模态物理注释，包括RGB、深度和光流信息，覆盖多种机器人类型、场景和动作技能，并包含丰富的物体交互，以实现复杂和真实的机器人行为建模。

创建时间：

2026-01-16

原始信息汇总

RoVid-X 数据集概述

基本信息

数据集名称：RoVid-X
发布机构：DAGroup-PKU
语言：英语
许可协议：CC-BY-4.0
规模分类：大于1TB
任务类别：图像到视频生成
标签：机器人视频生成、文本到视频、图像到视频、视频生成、大规模、基准测试、评估

核心特性

规模：包含400万个机器人视频片段，总计超过1万小时，适用于大规模视频生成训练。
技能覆盖：涵盖1300多种细粒度机器人技能，涉及多样化的动作和任务原语。
多模态物理标注：提供RGB、深度和光流等多模态物理标注信息。
多样性：涵盖多种机器人类型、场景和动作技能，具有多机器人和多任务多样性。
对象交互：包含丰富的对象交互内容，支持复杂且真实的机器人行为建模。

数据结构

数据集以JSON格式为每个视频片段提供结构化标注，每个条目通过视频文件名进行索引。标注内容包括动词、任务描述、简短描述和详细描述。

下载方式

可通过Hugging Face官方CLI工具直接下载数据集。中国大陆用户可使用镜像地址加速下载。

引用信息

如果使用本数据集，请引用相关论文：

@misc{deng2026rethinkingvideogenerationmodel, title={Rethinking Video Generation Model for the Embodied World}, author={Yufan Deng and Zilin Pan and Hongyu Zhang and Xiaojie Li and Ruoqing Hu and Yufei Ding and Yiming Zou and Yan Zeng and Daquan Zhou}, year={2026}, eprint={2601.15282}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2601.15282}, }

搜集汇总

数据集介绍

构建方式

在具身智能领域，视频生成模型的训练亟需大规模、高质量的机器人操作视频数据。RoVid-X的构建过程体现了对数据多样性与真实性的深度考量。研究团队系统性地采集了超过400万个机器人视频片段，总时长逾一万小时，覆盖了1300余种精细划分的机器人技能。每个视频片段均配备了结构化的多模态物理标注，包括RGB图像、深度信息与光流数据，并通过详尽的JSON格式条目记录了动词短语、任务描述及多层次的文本说明，从而为模型训练提供了坚实的物理世界交互基础。

特点

RoVid-X数据集的核心特征在于其前所未有的规模与丰富的多模态注释体系。该数据集不仅体量庞大，更通过涵盖多种机器人类型、多样化场景与复杂动作技能，实现了高度的任务与形态多样性。其标注内容超越了传统的视觉描述，深度融合了物理交互信息，如深度与光流，使得数据能够支撑对复杂、真实机器人行为的建模。这种对细粒度技能与丰富物体交互的覆盖，为开发能够理解并生成具身世界动态的视频生成模型设立了新的基准。

使用方法

对于希望利用RoVid-X的研究者而言，该数据集提供了便捷的访问与标准化的使用流程。用户可通过Hugging Face官方命令行工具直接下载完整数据集至本地目录。数据以清晰的视频文件与配套的JSON标注文件形式组织，其中JSON文件以视频文件名作为索引，便于程序化读取与关联。研究者可依据任务需求，灵活调用其多模态标注信息，无论是用于大规模视频生成模型的预训练，还是作为评估机器人动作理解与生成能力的基准数据，都能通过结构化的数据接口高效实现。

背景与挑战

背景概述

在具身人工智能与机器人技术融合发展的背景下，视频生成模型面临从通用场景向物理世界迁移的挑战。RoVid-X数据集由北京大学DAGroup团队于2026年创建，旨在为机器人视频生成提供大规模、多模态的训练与评估基准。该数据集聚焦于解决机器人技能学习中的视觉动态建模问题，通过整合超过400万段机器人操作视频，覆盖1300余种精细技能，为理解机器人行为与物理交互提供了丰富的视觉语料。其核心研究在于推动视频生成模型从被动内容合成转向主动物理推理，对机器人仿真、技能模仿及自主决策等领域产生了深远影响。

当前挑战

RoVid-X数据集致力于应对机器人视频生成领域的双重挑战。在领域问题层面，传统视频生成模型难以准确建模物理世界的动态约束与物体交互逻辑，而机器人操作视频需同时满足时序连贯性、物理合理性及技能可解释性，这对生成模型的物理常识与因果推理能力提出了更高要求。在构建过程中，团队面临大规模多机器人数据采集的异构性挑战，包括不同硬件平台的数据同步、多模态传感器信息的对齐，以及复杂技能场景的细粒度标注。此外，确保视频片段在动作语义与物理属性上的一致性和多样性，亦是数据集构建的关键难点。

常用场景

经典使用场景

在具身智能与机器人视觉领域，视频生成模型的训练需要大规模、高质量的机器人操作视频数据。RoVid-X数据集以其包含400万机器人视频片段、覆盖1300多种精细技能的特性，为图像到视频和文本到视频生成任务提供了经典训练基准。研究者利用其多模态物理标注，如深度与光流信息，能够构建出能够模拟复杂机器人行为与物体交互的生成模型，从而推动具身视频生成技术的发展。

解决学术问题

RoVid-X数据集有效应对了机器人视频生成研究中数据稀缺与多样性不足的挑战。通过提供涵盖多机器人类型、多任务场景的丰富视频资源，该数据集支持了对机器人技能泛化、物理交互建模等核心学术问题的探索。其精细的动作标注与多模态信息为模型理解动态环境与物体操作提供了坚实基础，显著提升了生成视频的真实性与逻辑连贯性，对具身人工智能的理论研究具有重要推进作用。

衍生相关工作

围绕RoVid-X数据集，已衍生出一系列重要的研究工作与基准测试。例如，配套的RBench评估基准与排行榜为不同视频生成模型提供了标准化性能比较平台。相关研究聚焦于利用其多模态标注改进生成模型的物理一致性，或探索基于技能分解的层次化视频生成方法。这些工作不仅深化了对具身视频生成的理解，也催生了更高效、更可靠的机器人行为模拟与合成技术。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集