RoVid-X

Name: RoVid-X
Creator: 北京大学; 字节跳动Seed
Published: 2026-01-22 02:59:18
License: 暂无描述

arXiv2026-01-22 更新2026-01-23 收录

下载链接：

https://huggingface.co/datasets/DAGroup-PKU/RoVid-X/

下载链接

链接失效反馈

官方服务：

资源简介：

RoVid-X是由北京大学和字节跳动Seed团队联合构建的大规模开源机器人视频数据集，专为视频生成模型设计。该数据集包含400万条经过标注的视频片段，覆盖数千种任务类型，并富含全面的物理属性注释。数据来源整合了20余个开源数据集及多源视频平台，通过四阶段端到端流水线（包括视频采集、质量过滤、任务分割标注和物理属性标注）严格处理。作为当前最大的具身视频生成专用数据集，其核心价值在于增强视频基础模型对物理交互先验和任务语义多样性的理解，推动具身AI在物理世界中的通用智能发展。

RoVid-X is a large-scale open-source robotic video dataset jointly constructed by Peking University and ByteDance Seed Team, specifically designed for video generation models. This dataset contains 4 million annotated video clips, covers thousands of task categories, and is rich in comprehensive physical property annotations. Its data sources integrate more than 20 open-source datasets and multi-source video platforms, and it is rigorously processed through a four-stage end-to-end pipeline including video collection, quality filtering, task segmentation and annotation, and physical property annotation. As the largest dedicated embodied video generation dataset currently available, its core value lies in enhancing the capability of video foundation models to comprehend physical interaction priors and the diversity of task semantics, thereby promoting the development of general intelligence for embodied AI in the physical world.

提供机构：

北京大学; 字节跳动Seed

创建时间：

2026-01-22

搜集汇总

数据集介绍

构建方式

在具身智能领域，高质量机器人视频数据的匮乏长期制约着视频生成模型的物理真实性训练。为应对这一挑战，RoVid-X数据集通过一个精炼的四阶段端到端流程构建而成。首先，从大规模互联网视频平台及二十余个开源具身视频数据集中广泛收集原始机器人视频，并利用GPT-5模型进行内容过滤，初步筛选出约300万条相关视频片段。随后，执行严格的视频质量过滤，通过场景分割检测剔除非机器人内容，并采用多维度的质量评分系统评估清晰度、动态效果与美学表现，确保数据的高标准。接着，利用视频理解模型与专门设计的提示模板，对视频进行任务分割与自动标注，生成精确描述机器人动作与操作细节的短字幕。最后，通过FlashVSR提升视频分辨率，并运用AllTracker工具与Video Depth Anything统一标注光流与相对深度图，从而为视频片段增添了全面的物理属性注释，最终形成了包含400万条标注视频剪辑的大规模高质量数据集。

特点

RoVid-X作为当前最大的开源机器人视频生成数据集，其核心特点体现在规模、多样性与注释的丰富性上。该数据集囊括了400万条经过精心筛选与标注的视频剪辑，覆盖了双臂机器人、人形机器人、单臂机器人以及四足机器人等多种主流机器人形态，确保了形态学上的广泛代表性。在任务维度上，它涵盖了超过1300种技能类型，涉及日常操作、长时程规划、多实体协作、空间关系与视觉推理等五大任务领域，提供了前所未有的任务语义多样性。更为突出的是，数据集不仅提供了标准化的任务描述字幕，还首次为所有视频片段统一标注了光流与相对深度信息，这些物理属性注释极大地增强了数据在训练物理交互先验方面的价值。这种规模、多样性与物理注释的有机结合，使RoVid-X能够有效弥合通用视频生成任务与具身机器人学习独特需求之间的鸿沟。

使用方法

RoVid-X数据集主要用于训练和评估面向具身世界的视频生成模型，旨在提升模型在物理交互与机器人行为模拟方面的真实性。研究人员可直接通过HuggingFace平台访问该数据集，利用其海量的视频-文本对进行大规模预训练或微调，以注入物理交互先验知识。在训练过程中，模型可以学习数据集中所蕴含的多样化机器人运动模式、精细的操作技能以及复杂的任务语义逻辑。同时，数据集附带的光流与深度注释可作为额外的监督信号，辅助模型理解三维空间关系与运动动力学。对于评估而言，RoVid-X与配套的RBench基准测试协同工作，为生成的机器人视频在任务完成度、结构一致性、物理合理性等多个维度提供可复现的自动化评估标准。这种训练与评估一体化的生态系统，为系统性地推进视频生成模型在机器人领域的物理真实性与泛化能力奠定了坚实基础。

背景与挑战

背景概述

RoVid-X数据集由北京大学与字节跳动Seed团队于2026年联合构建，旨在应对具身智能领域视频生成模型训练数据稀缺的挑战。该数据集聚焦于机器人物理交互场景，核心研究问题在于如何生成高质量、物理真实的机器人行为视频，以支持具身智能系统的感知、推理与行动闭环。作为目前最大的开源机器人视频生成数据集，RoVid-X包含约400万标注视频片段，涵盖数千种任务与多样化的机器人形态，显著提升了视频生成模型在物理交互与任务语义理解方面的能力，为具身AI向通用智能演进奠定了坚实的数据基础。

当前挑战

RoVid-X所解决的领域挑战在于机器人视频生成中物理真实性与任务一致性的缺失，现有模型常产生结构扭曲、物体漂浮或动作遗漏等违反物理规律的现象。构建过程中的挑战包括：大规模机器人视频数据的收集与整合需跨越20余个开源数据集与多源平台，确保数据多样性；视频质量过滤需从清晰度、动态效果等多维度评估，剔除低质量片段；任务分割与描述生成依赖视频理解模型，需精确标注动作时序与语义；物理属性标注如光流与深度图生成，要求技术流程在复杂场景中保持一致性，以支撑模型对物理交互的准确建模。

常用场景

经典使用场景

在具身智能领域，视频生成模型正逐步成为模拟机器人感知、推理与行动的关键工具。RoVid-X数据集作为目前规模最大的开源机器人视频生成数据集，其经典使用场景聚焦于训练和评估面向物理交互的视频世界模型。该数据集通过整合超过400万条标注视频片段，覆盖数千种任务类型与多样化的机器人形态，为模型提供了丰富的物理属性先验和任务语义多样性。研究人员可借助RoVid-X训练视频生成模型，使其能够合成符合真实世界物理规律的机器人行为序列，从而在仿真环境中为机器人策略学习提供高质量的训练数据。

实际应用

在实际应用层面，RoVid-X数据集为机器人仿真、远程操作数据合成以及自适应策略训练提供了关键支持。基于该数据集训练的模型能够生成高保真的机器人操作视频，可用于替代耗时耗力的人类远程操作数据收集，大幅降低机器人技能学习的成本。在工业自动化、家庭服务机器人等领域，此类模型能够快速生成多样化的任务演示视频，辅助机器人进行动作预测与规划。此外，数据集涵盖的双臂、人形、单臂与四足机器人等多种形态，使其能够支持跨平台、跨场景的机器人系统开发，推动具身智能向通用化、实用化方向演进。

衍生相关工作

RoVid-X数据集的发布催生了一系列围绕机器人视频生成与评估的创新研究。以该数据集为基础，研究者开发了RBench基准测试系统，首次针对机器人视频生成提出了涵盖任务完成度与视觉保真度的多维评估指标。相关工作进一步探索了视频生成模型与逆动力学模型的结合，旨在从生成视频中恢复可执行的动作序列，实现从视频模拟到闭环控制的跨越。此外，基于RoVid-X的预训练模型在多项机器人学习任务中展现出卓越的泛化能力，推动了如DreamGen、Vidar等机器人专用视频生成模型的发展，为具身智能领域建立了从数据到评估再到模型优化的完整研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集